
はじめに
データ分析では、データ全体の特徴を一つの値で表すことがあります。
このような値を代表値(代表的な値)と呼びます。
代表値としてよく使われるのが次の3つです。
| 指標 | 英語表記 |
|---|---|
| 平均 | Mean |
| 中央値 | Median |
| 最頻値 | Mode |
これらはすべて「データを代表する値」ですが、データの分布によって適切な代表値は異なります。
例えば、以下のケースではそれぞれで適切な代表値は変わります。
| ケース | データの特徴 |
|---|---|
| ケース1 | 正規分布のように左右対称なデータ |
| ケース2 | 一部の極端な値を含むデータ |

この記事では、データの代表値を示す「平均値」「中央値」「最頻値」について実務目線で体系的にまとめます。
・それぞれの具体的な計算方法が分かる
・データの特徴に応じた使い分けができるようになる
代表値とは?

代表値とは、データ全体の特徴を一つの値で表したものです。
データがたくさんある場合、そのままでは全体の傾向を把握しにくいことがあります。
例えば、次のようなデータがあったとします。
このとき、「どのくらいの値が多いのか」「全体としてどのあたりに集まっているのか」を一目で理解するのは少し難しくなります。
そこで使うのが「代表値」です。この値を計算することで、
・データ全体の傾向
・データの中心
・典型的な値
を簡単に把握できるようになります。
例えば、先ほどのデータであれば、多くの値が10前後に集まっていることが分かります。
このように、複数のデータを一つの値にまとめることで、全体像を理解しやすくなるのが代表値の役割です。
統計では、代表値として主に次の3つが使われます。
| 指標 | 英語 | 意味 |
|---|---|---|
| 平均 | Mean | データの合計をデータ数で割った値 |
| 中央値 | Median | データを並べたとき中央に位置する値 |
| 最頻値 | Mode | 最も多く出現する値 |
これらはすべて代表値ですが、データの性質によって適切な指標が異なります。
次項以降にて、それぞれの代表値について詳細を説明していきます。
平均とは
平均(mean)とは、データの中心を表す代表値です。
データが複数あるとき、その全体の傾向を1つの値で表すために用いられます。
平均の数式
データを x1, x2, x3・・・xn とすると、平均は次の式で表されます。
統計では平均を x̄(エックスバー)と表すことが多いです。
中央値とは
中央値とは、データを小さい順に並べたとき中央に位置する値です。
先ほどの5人のテストの事例をもとに、求めていきたいと思います
中央値を求める際は、データを”小さい順に並び替えて真ん中の値得る”ことが有効です。
このとき、真ん中に位置する値は「10」です。
データ数が偶数の場合
データ数が偶数の場合は、”中央の2つの値の平均”を取ります。
最頻値とは
最頻値とは、”データの中で最も多く出現する値”のことです。
こちらもシンプルで、データを”出現頻度”ごとに表にまとめると得やすくなります
このとき、最も多く出現している値は「3」です。
よって、最頻値はMode=3となります。
最頻値は、アンケート結果やカテゴリカルデータの集計でよく使われます。
データの種類について体系的に解説!(最初に読みたい超基本)
代表値の使い分け
平均・中央値・最頻値はすべて代表値ですが、
データの分布によって適切な指標は異なります。
正規分布の場合

正規分布では各代表値は以下の特性を持つことになります。
この場合は「平均」を代表値として使うことが一般的です。
分布がゆがんでいる場合

データに極端な値(外れ値)がある場合、平均は大きく影響を受けてしまいます。
例えば、次のような年収データを考えます。
このデータには、5000万円という非常に大きな値が含まれています。
平均値は1268万円になりますが、実際には4人が300〜400万円の範囲に集まっています。
そのため、このデータでは平均値1268万円を「代表的な年収」と考えると、実感と大きくずれてしまいます。
一方で、中央値はデータを小さい順に並べたときの中央の値なので、このデータでは次のようになります。
中央値は350万円となり、多くの人の感覚に近い値になります。
このように、データに極端な値が含まれる場合は、平均より中央値を使った方が実態を表しやすいことがあります。
そのため、ニュースなどでは平均年収ではなく「年収中央値」が使われることがあります。
そしてこの考え方は、経済分野だけでなく工学分野においても重要です。例えば、測定データに異常値が含まれる場合、平均値だけでは工程の実態を正しく評価できないことがあります。

代表値の比較
あらためて、代表値の特徴をまとめると次のようになります。
| 指標 | 特徴 |
|---|---|
| 平均 | 最も一般的な代表値 |
| 中央値 | 外れ値の影響を受けにくい 分布が歪んでいる際に頑健 |
| 最頻値 | 最も多い値を表す |
データ分析では「分布の形」を確認してから代表値を選ぶことが重要です。
データを取得した際は、代表値を求める前にヒストグラムを作成するなどして
・正規分布に従っているか?(従っていれば”平均値”)
・外れ値はないか?(外れ値があるならば、”中央値”)
を確認してから、どの代表値が適切か判断するようにしましょう!(サボり厳禁!)
データの可視化の超基本!ヒストグラムの作成方法および解釈について解説!
まとめ
この記事では、平均・中央値・最頻値について解説しました。
ポイントをまとめると次の通りです。
| ポイント | 内容 |
|---|---|
| ポイント① | 平均・中央値・最頻値はすべてデータを代表する値 |
| ポイント② | 代表値はデータの分布によって使い分ける |
| ポイント③ | 正規分布では平均がよく使われる |
| ポイント④ | 分布がゆがんでいる場合は中央値が適している |
データ分析では、まず「ヒストグラム」「度数分布表」などでデータの分布を確認し、
その上で適切な代表値を選ぶことが重要です。
代表値は統計の基本となる考え方の一つです。
データ分析の第一歩として、しっかり理解しておきましょう。
基本統計量_平均・分散・標準偏差の意味合いとExcelを用いた計算方法について解説!
また、Excel分析・統計解析のご相談をココナラで受け付けています。
「このデータどう見ればいい?」「Cpkや管理図を実務で使いたい」
といった内容も対応可能です。
・製造業・品質管理の実務目線でサポート
・分析代行/解釈のアドバイスどちらもOK
・見積もり・相談は無料です
ご興味のある方は、記事サイドバーのリンクからお気軽にご相談ください。
Pretty nice post. I simply stumbled upon your blog and wanted to mention that
I have truly loved surfing around your blog posts.
After all I will be subscribing on your feed and I hope you write again very soon!