患者中心の保健医療を支える
処方情報分析のリーディングカンパニー

 03-3239-6840

平均値と中央値

time 2018/01/15

※解説記事内の画像はExcel 2010のものです。

こんにちは、甘党です。
この前、デパートに帰省のお土産を買いに行ったのですが、フィナンシェが3個1200円で売られていてビックリしました。
自分がよく食べるフィナンシェが120円くらいなので、高いなーでもおいしいのかなーと思いつつ悩んだ末、結局買わなかったのですが東京のデパートって高価なものがおいてるんだなと思いました。

さて、今回は“平均値と中央値”について取り上げてみたいと思います。
この“平均値”や“中央値”は統計学的に言えば「記述統計」に分類されます。
記述統計は「あるデータに対して、そのデータの特徴をより簡単にわかりやすく表現する」ことを行う統計です。
他の例では、JMIRI Office部の記事にある “相関” も記述統計の一つになります。
   Excelの「データ分析」を使い「相関係数」を出してみよう(前編)
他にも統計学には「推計統計」という分類があり、推計統計では「限られた標本から調査したい母集団全体の特徴を推測する」ことを言います。代表的な例では “t検定” や “回帰分析” などがあります。

平均値と中央値の求め方

では、平均値と中央値についてご説明します。下の表を例とします。
AMA
今回の例では1から10までの数値を15個昇順に並べています。

まずは平均値を出してみましょう。平均値はAVERAGE関数を使います。
E4セルに“=AVERAGE(C3:C17)”と打ち込んでください。
“5.8”と表示されました。
AMB
AVERAGE関数は「個々の値を足し合わせてデータの個数で割った数字」となります。

今度は中央値を出してみます。中央値はMEDIAN関数を使って計算します。
F4セルに“=MEDIAN(C3:C17)” と打ち込んでください。そうすると“7.0”となりました。
AMC
MEDIAN関数は「データを昇順に並べたとき中央に位置する値」となります。
今回の例だと、データが15個あるので中央のデータはNo.8の“7”となります。

上の例だとデータが奇数個でしたが、データが偶数個の場合はどうなるのでしょうか?
F6セルに“=MEDIAN(C3:C16)” と打ち込んでNo.1からNo.14までのデータを参照してみます。
そうすると、“6.5”となりました。
AMD
データが偶数個になったので、中央に位置するデータがNo.7とNo.8の2つになります。よって2つの値の平均が中央値となり、結果は (6+7)/2 = “6.5” になります。
では次にヒストグラムを作成し、データを見てみたいと思います。

ヒストグラムを見て平均値と中央値を使い分ける

ヒストグラムを作成するにはエクセルアドインの「データ分析」を使うので使えるように準備をしましょう。

下のリンクの「相関機能の準備」にこれから使う「データ分析」の表示方法があるので参照してください。
   Excelの「データ分析」を使い「相関係数」を出してみよう(前編)

ヒストグラムを書く前に、図で表すデータ区間をセルに入力しておきます。データ区間とは、ヒストグラムに表す区間の区切りになります。今回の値は最小値が"2"、最大値が"10"なので、1から10までの数字を2刻みで指定します。
適当なセルに"2、4、6、8、10"と入力します。
AME
「リボン」の「データ」にあるデータ分析をクリックするとウィンドウが表示されるので、「ヒストグラム」を選択し、OKを押してください。
AM2
そうするとヒストグラムのウィンドウが出てきますので条件を入力していきます。

「入力範囲」にはグラフに表示させたい値であるC3:C17を指定します。
「データ区間」には区切りたい数値であるH3:H7を指定します。
出力先を新規ワークシートにし、「グラフ作成」にチェックをした後、OKボタンを押します。
AM3
そうするとデータ区間とその頻度の表とヒストグラムが作成されます。
AM4
新しくできた表にある「次の級」は一番大きなデータ区間を超える頻度を示しています。
今回のデータには含まれていないのでデータの参照範囲から“次の級”を除きます。

また棒グラフを右クリックし、「データ系列の書式設定」⇒「系列のオプション」の要素の間隔を0%にして枠線をつけます。
AMG
すると、よく見るヒストグラムのグラフになるかと思います。
AM5
このヒストグラムを見るとデコボコな形をしていますね。
このような場合、平均値がデータの真ん中にはないためデータの集まりを代表しているとは言い難いです。
この場合では中央値を出す方がよりデータを把握しやすいかと思います。

中央値は真ん中のデータを示しているので、毎回中央値だけを出せばいいの?と思うかもしれませんが中央値にも欠点があります。中央値はデータ全体ではなくデータの真ん中だけしか反映しないという点です

今回の例ですと、中央値以外の値であるNo.2の値を1⇒2に変更した場合や、No.12の値を8⇒10に変更した場合には、平均値は変わりますが、中央値は変わりません
ですので、データ全体の変化や比較には向かないことがあります。

まとめ

平均値と中央値の使い分け方ですが、

  ・まず、ヒストグラムを描いてデータを視覚的に把握する

  ・平均値と中央値の両方を出す

  ・平均値と中央値が大きく離れていれば中央値を使う

  ・反対に平均値と中央値が近ければ平均値を使う

といったように使い分ければよいかと思います。

以上で平均値と中央値の話は終わりになります。
今後も統計用語の意味についてお話しできたらなと思います。

タグ

このブログについて

このブログ(JMIRI Office部)は、製薬企業のマーケティング部門の方やアナリティクス/レポーティングを担当している方に向け、Excel / PowerPointなどのOfficeソフトの使い方、分析の考え方、グラフの使い方、美しい資料の作り方、効率的な作業の進め方など、仕事に役立つ様々な情報を少しゆるめに発信していきます。

Author:医療情報総合研究所(JMIRI)について

医療情報総合研究所 JMIRIは、まだビックデータという言葉が無いころに日本で初めて処方情報データベースの運用・分析を開始した、処方情報分析のリーディングカンパニー。これまでに累計数十万ページ規模の分析レポート/グラフを製薬企業に向けて作成/提供してきました。

[詳細]


お問い合わせ

arrowup

mail