平均・中央値・最頻値とは?データの代表値の違いと使い分けをわかりやすく解説【統計基礎】

はじめに

データ分析では、データ全体の特徴を一つの値で表すことがあります。
このような値を代表値(代表的な値)と呼びます。

代表値としてよく使われるのが次の3つです。

平均(Mean)
中央値(Median)
最頻値(Mode)

これらはすべて「データを代表する値」ですが、データの分布によって適切な代表値は異なります。

例えば

・ケース1:正規分布のように左右対称なデータ
・ケース2:一部の極端な値を含むデータ

では、適切な代表値は変わります。

この記事では

  • 平均・中央値・最頻値の意味
  • 具体的な計算方法
  • どのように使い分けるべきか

について、基礎から解説します。

代表値とは?

代表値とは、データ全体の特徴を一つの値で表したものです。

データがたくさんある場合、そのままでは全体の傾向を把握しにくいことがあります。

例えば、次のようなデータがあったとします。

10, 12, 9, 11, 8

このとき、「どのくらいの値が多いのか」「全体としてどのあたりに集まっているのか」を一目で理解するのは少し難しくなります。

そこで使うのが「代表値」です。この値を計算することで、

・データ全体の傾向
・データの中心
・典型的な値

を簡単に把握できるようになります。

例えば、先ほどのデータであれば、多くの値が10前後に集まっていることが分かります。
このように、複数のデータを一つの値にまとめることで、全体像を理解しやすくなるのが代表値の役割です。

統計では、代表値として主に次の3つが使われます。

指標英語意味
平均Meanデータの合計をデータ数で割った値
中央値Medianデータを並べたとき中央に位置する値
最頻値Mode最も多く出現する値

これらはすべて代表値ですが、データの性質によって適切な指標が異なります
次項以降にて、それぞれの代表値について詳細を説明していきます。

平均とは

平均(mean)とは、データの中心を表す代表値です。

データが複数あるとき、その全体の傾向を1つの値で表すために用いられます。

例:5人のテスト点数
Aさん Bさん Cさん Dさん Eさん
点数 10 12 8 15 5
平均値は
x̄ = (10 + 12 + 8 + 15 + 5) 5 = 10

平均の数式

データを x1, x2, x3・・・xn とすると、平均は次の式で表されます。

= x1 + x2 + ・・・ + xn n

統計では平均を x̄(エックスバー)と表すことが多いです。

中央値とは

中央値とは、データを小さい順に並べたとき中央に位置する値です。

先ほどの5人のテストの事例をもとに、求めていきたいと思います

中央値を求める際は、データを”小さい順に並び替えて真ん中の値得る”ことが有効です。

例:中央値を求める
並べ替え前 10 12 8 15 5
並べ替え後 5 8 10 12 15

このとき、真ん中に位置する値は「10」です。

よって、中央値は
x̃ = 10

データ数が偶数の場合

データ数が偶数の場合は、”中央の2つの値の平均”を取ります。

例:データ数が4個の場合
データ 8 9 10 11
よって、中央値は
x̃ = (9 + 10) 2 = 9.5

最頻値とは

最頻値とは、”データの中で最も多く出現する値”のことです。

こちらもシンプルで、データを”出現頻度”ごとに表にまとめると得やすくなります

例:最頻値を求める
データ 2 3 4 5 6
出現頻度 1回 2回 5回 1回 1回

このとき、最も多く出現している値は「3」です。

よって、最頻値はMode=3となります。

最頻値は、アンケート結果やカテゴリカルデータの集計でよく使われます。

✔ あわせて読みたい

代表値の使い分け

平均・中央値・最頻値はすべて代表値ですが、

データの分布によって適切な指標は異なります。

正規分布の場合

正規分布では各代表値は以下の特性を持つことになります。

平均 = 中央値 = 最頻値

この場合は「平均」を代表値として使うことが一般的です。

分布がゆがんでいる場合

データに極端な値(外れ値)がある場合、平均は大きく影響を受けてしまいます。

例えば、次のような年収データを考えます。

例:5人の年収データ
Aさん Bさん Cさん Dさん Eさん
年収(万円) 320 300 370 350 5000

このデータには、5000万円という非常に大きな値が含まれています。

平均値は
x̄ = (300 + 320 + 350 + 370 + 5000) 5 = 1268

平均値は1268万円になりますが、実際には4人が300〜400万円の範囲に集まっています。

そのため、このデータでは平均値1268万円を「代表的な年収」と考えると、実感と大きくずれてしまいます。

一方で、中央値はデータを小さい順に並べたとき中央にくる値なので、次のようになります。

中央値を確認する
並べ替え後 300 320 350 370 5000
中央値は
x̃ = 350

中央値は350万円となり、多くの人の感覚に近い値になります。

このように、データに極端な値が含まれる場合は、平均より中央値を使った方が実態を表しやすいことがあります。

そのため、ニュースなどでは平均年収ではなく「年収中央値」が使われることがあります。

そして、このことは経済分野のみならず工学の分野でも発生しうる課題です。

代表値の比較

あらためて、代表値の特徴をまとめると次のようになります。

指標特徴
平均最も一般的な代表値
中央値外れ値の影響を受けにくい
分布が歪んでいる際に頑健
最頻値最も多い値を表す

データ分析では「分布の形」を確認してから代表値を選ぶことが重要です。
データを取得した際は、代表値を求める前にヒストグラムを作成するなどして

・正規分布に従っているか?(従っていれば”平均値”)
・外れ値はないか?(外れ値があるならば、”中央値”)

を確認してから、どの代表値が適切か判断するようにしましょう!(サボり厳禁!)

✔ あわせて読みたい
Excelヒストグラムの作り方|製造業データで分かる読み方と改善ポイント

データの可視化の超基本!ヒストグラムの作成方法および解釈について解説!

まとめ

この記事では、平均・中央値・最頻値について解説しました。
ポイントをまとめると次の通りです。

  • 平均・中央値・最頻値はすべてデータを代表する値
  • 代表値はデータの分布によって使い分ける
  • 正規分布では平均がよく使われる
  • 分布がゆがんでいる場合は中央値が適している

データ分析では、まず「ヒストグラム」「度数分布表」などでデータの分布を確認し、
その上で適切な代表値を選ぶことが重要です。

代表値は統計の基本となる考え方の一つです。
データ分析の第一歩として、しっかり理解しておきましょう。

✔ あわせて読みたい
平均・分散・標準偏差とは?統計の基本指標をわかりやすく解説【統計基礎】

データの統計量の超基本_平均・分散・標準偏差についてわかりやすく解説!

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール