平均・中央値・最頻値とは?|データの代表値の違いと使い分けをわかりやすく解説【統計基礎】

はじめに

データ分析では、データ全体の特徴を一つの値で表すことがあります。
このような値を代表値(代表的な値)と呼びます。

代表値としてよく使われるのが次の3つです。

指標 英語表記
平均 Mean
中央値 Median
最頻値 Mode

これらはすべて「データを代表する値」ですが、データの分布によって適切な代表値は異なります。

例えば、以下のケースではそれぞれで適切な代表値は変わります

ケース データの特徴
ケース1 正規分布のように左右対称なデータ
ケース2 一部の極端な値を含むデータ

この記事では、データの代表値を示す「平均値」「中央値」「最頻値」について実務目線で体系的にまとめます。

▼この記事のポイント
・平均・中央値・最頻値の意味と違いを理解できる
・それぞれの具体的な計算方法が分かる
・データの特徴に応じた使い分けができるようになる

代表値とは?

代表値とは、データ全体の特徴を一つの値で表したものです。

データがたくさんある場合、そのままでは全体の傾向を把握しにくいことがあります。

例えば、次のようなデータがあったとします。

10 12 9 11 8

このとき、「どのくらいの値が多いのか」「全体としてどのあたりに集まっているのか」を一目で理解するのは少し難しくなります。

そこで使うのが「代表値」です。この値を計算することで、

・データ全体の傾向
・データの中心
・典型的な値

を簡単に把握できるようになります。

例えば、先ほどのデータであれば、多くの値が10前後に集まっていることが分かります。
このように、複数のデータを一つの値にまとめることで、全体像を理解しやすくなるのが代表値の役割です。

統計では、代表値として主に次の3つが使われます。

指標英語意味
平均Meanデータの合計をデータ数で割った値
中央値Medianデータを並べたとき中央に位置する値
最頻値Mode最も多く出現する値

これらはすべて代表値ですが、データの性質によって適切な指標が異なります
次項以降にて、それぞれの代表値について詳細を説明していきます。

平均とは

平均(mean)とは、データの中心を表す代表値です。

データが複数あるとき、その全体の傾向を1つの値で表すために用いられます。

例:5人のテスト点数
平均値は
x̄ = (10 + 12 + 8 + 15 + 5) 5 = 10

平均の数式

データを x1, x2, x3・・・xn とすると、平均は次の式で表されます。

= x1 + x2 + ・・・ + xn n

統計では平均を x̄(エックスバー)と表すことが多いです。

中央値とは

中央値とは、データを小さい順に並べたとき中央に位置する値です。

先ほどの5人のテストの事例をもとに、求めていきたいと思います

中央値を求める際は、データを”小さい順に並び替えて真ん中の値得る”ことが有効です。

例:中央値を求める

このとき、真ん中に位置する値は「10」です。

よって、中央値は
x̃ = 10

データ数が偶数の場合

データ数が偶数の場合は、”中央の2つの値の平均”を取ります。

例:データ数が4個の場合
よって、中央値は
x̃ = (9 + 10) 2 = 9.5

最頻値とは

最頻値とは、”データの中で最も多く出現する値”のことです。

こちらもシンプルで、データを”出現頻度”ごとに表にまとめると得やすくなります

例:最頻値を求める

このとき、最も多く出現している値は「3」です。

よって、最頻値はMode=3となります。

最頻値は、アンケート結果やカテゴリカルデータの集計でよく使われます。

✔ あわせて読みたい

代表値の使い分け

平均・中央値・最頻値はすべて代表値ですが、

データの分布によって適切な指標は異なります。

正規分布の場合

正規分布では各代表値は以下の特性を持つことになります。

平均 = 中央値 = 最頻値

この場合は「平均」を代表値として使うことが一般的です。

分布がゆがんでいる場合

データに極端な値(外れ値)がある場合、平均は大きく影響を受けてしまいます。

例えば、次のような年収データを考えます。

例:5人の年収データ

このデータには、5000万円という非常に大きな値が含まれています。

平均値は
x̄ = (300 + 320 + 350 + 370 + 5000) 5 = 1268万円

平均値は1268万円になりますが、実際には4人が300〜400万円の範囲に集まっています。

そのため、このデータでは平均値1268万円を「代表的な年収」と考えると、実感と大きくずれてしまいます。

一方で、中央値はデータを小さい順に並べたときの中央の値なので、このデータでは次のようになります。

中央値は
x̃ = 350万円

中央値は350万円となり、多くの人の感覚に近い値になります。

このように、データに極端な値が含まれる場合は、平均より中央値を使った方が実態を表しやすいことがあります。

そのため、ニュースなどでは平均年収ではなく「年収中央値」が使われることがあります。

そしてこの考え方は、経済分野だけでなく工学分野においても重要です。例えば、測定データに異常値が含まれる場合、平均値だけでは工程の実態を正しく評価できないことがあります。

代表値の比較

あらためて、代表値の特徴をまとめると次のようになります。

指標特徴
平均最も一般的な代表値
中央値外れ値の影響を受けにくい
分布が歪んでいる際に頑健
最頻値最も多い値を表す

データ分析では「分布の形」を確認してから代表値を選ぶことが重要です。
データを取得した際は、代表値を求める前にヒストグラムを作成するなどして

・正規分布に従っているか?(従っていれば”平均値”)
・外れ値はないか?(外れ値があるならば、”中央値”)

を確認してから、どの代表値が適切か判断するようにしましょう!(サボり厳禁!)

✔ あわせて読みたい
Excelヒストグラムの作り方|製造業データで分かる読み方と改善ポイント

データの可視化の超基本!ヒストグラムの作成方法および解釈について解説!

まとめ

この記事では、平均・中央値・最頻値について解説しました。
ポイントをまとめると次の通りです。

ポイント 内容
ポイント① 平均・中央値・最頻値はすべてデータを代表する値
ポイント② 代表値はデータの分布によって使い分ける
ポイント③ 正規分布では平均がよく使われる
ポイント④ 分布がゆがんでいる場合は中央値が適している

データ分析では、まず「ヒストグラム」「度数分布表」などでデータの分布を確認し、
その上で適切な代表値を選ぶことが重要です。

代表値は統計の基本となる考え方の一つです。
データ分析の第一歩として、しっかり理解しておきましょう。

✔ あわせて読みたい
平均・分散・標準偏差とは?統計の基本指標をわかりやすく解説【統計基礎】

基本統計量_平均・分散・標準偏差の意味合いとExcelを用いた計算方法について解説!

また、Excel分析・統計解析のご相談をココナラで受け付けています

「このデータどう見ればいい?」「Cpkや管理図を実務で使いたい」
といった内容も対応可能です。

・製造業・品質管理の実務目線でサポート
・分析代行/解釈のアドバイスどちらもOK
・見積もり・相談は無料です

ご興味のある方は、記事サイドバーのリンクからお気軽にご相談ください。

「平均・中央値・最頻値とは?|データの代表値の違いと使い分けをわかりやすく解説【統計基礎】」への1件のフィードバック

  1. Pretty nice post. I simply stumbled upon your blog and wanted to mention that
    I have truly loved surfing around your blog posts.
    After all I will be subscribing on your feed and I hope you write again very soon!

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール