度数分布表・ヒストグラムとは?作り方と見方をわかりやすく解説

はじめに

統計データを理解するうえで最も基本となる考え方の一つが、QC7つ道具にも含まれる

・度数分布表
・ヒストグラム

といったツールです。

これらは単にデータをまとめた「表」や「グラフ」ではなく、データの分布(ばらつき方)を数学的に表現する方法といえます。

この記事では

・度数分布表とは何か?(定義)
・ヒストグラムとの関係
・用語の意味
・数学的な考え方

を中心には解説します。実務での活用方法は別記事にて説明していますのでそちらを確認ください。

度数分布表とは(定義)

度数分布表とは、
「データをいくつかの区間(階級)に分け、各区間に含まれるデータの個数(度数)をまとめた表」
のことを指します。

例えば、テストの点数データを次のような区間に分けたとします。

階級度数
50~603
60~705
70~8012
80~908
90~1002

このように

データを区間ごとに分類
その区間に入るデータ数を数える

ことで、データの分布を整理することができます。

度数分布表を作ることで

データがどこに集中しているか
・ばらつきの大きさ
・分布の形状

などを定性的に理解しやすくなります。

度数分布表は「データの分布構造を離散的に表したもの」であると言えます。
この度数分布表を棒グラフで示したものが、次に出てくる「ヒストグラム」です。

ヒストグラムとは

ヒストグラムとは、「度数分布表をグラフとして表したもの」です。
横軸に階級(区間)、縦軸に度数を取り、棒の高さでデータの個数を表します。

数学的にヒストグラムとは、「確率分布を近似的に可視化したもの」と考えることができます。
ヒストグラムの目的は、

 ・分布の構造把握 (特に、正規分布しているかの確認)
 ・外れ値など、分布から逸脱するデータの確認

などが挙げられますが、確率分布を作るのは大変です。
そこで、ヒストグラムを作成してまずは短時間で概要を視覚的に把握しようというわけです。

ちなみにデータ数が多くなるほど、ヒストグラムは滑らかな分布(例:正規分布)に近づきます。

度数分布表で使う用語の意味

ここでは度数分布表を作成するうえで押さえておきたい用語の意味合いを解説します

①階級(class)

データを区切る区間のことを指します。

例;60~90の範囲を取るデータを3区間に分けた場合

区間
60~70
70~80
80~90

となり、このような区間を階級と呼びます。

②階級幅(class width)

1つの階級の幅のことです。数式で表すと、階級幅 = 上限 − 下限となります。

例えば「60~70」の場合、
70 − 60 = 10
で、階級は階級の幅は 10 になります。

③度数(frequency)

その階級に含まれるデータ数のことを指します

例えば、ある区間において
70 ~ 80 : 12
だった場合は、度数は「12」です。

④相対度数(relative frequency)

ある階級にある度数について、全体に対する割合を示します。
数式で表すと、
相対度数 = 度数 ÷ データ総数
となり、確率の考え方に近い概念です。

階級度数相対度数
50~6030.15
60~7050.25
70~80120.6

相対度数を見ることで、度数を直接確認するよりも
「注目したい区間にどのくらいデータが集中しているか?」を割合で理解できるため
解釈の誤解が減ります。

⑤累積度数(cumulative frequency)

小さい値から順に度数を足し合わせたものです。
ある階級までで、全体に対する割合のうちどのくらいを占めているか確認できます。

階級度数累積度数
50~6033
60~7058
70~801220

累積度数を使うと「データの位置」や「パーセンタイル」などを求めることができます。

なぜ区間に分けるのか

データをそのまま並べるだけでは、データの特徴を把握することが難しいためです。
例えば、次のような100個のデータがあるとします。

9.8, 10.1, 10.3, 9.9, 10.5, 9.7 …

このデータをそのまま眺めていても

・どこにデータが集中しているのか
・ばらつきの大きさ
・分布の形

を理解することは簡単ではありません。

しかし区間に分けることで、

区間 度数
9.5~10.0 25
10.0~10.5 45
10.5~11.0 30

のように整理でき、データの分布を直感的に理解できるようになります。
つまり、区間に分ける目的は「データの分布の特徴を理解しやすくすること」です。

工学分野で重要な理由

度数分布表やヒストグラムは、特に工学や品質管理の分野で重要です。
製造業では、製品の寸法や特性を測定し、「工程の安定性」や「バラつきの程度」を確認します

この時、「部品直径」「重量」「強度」「温度」といった計量値をヒストグラムにすると

・正常な分布か
・偏りはあるか
・異常値(外れ値)があるか

を視覚的に確認できます。

さらにヒストグラムは
工程能力指数(Cpk)
管理図
各種統計解析

などの基礎にもなっています。
そのため、品質管理ではQC7つ道具の一つとして重要な手法とされています。

✔ あわせて読みたい
Excelで実践Cpk|自工程の安定性は十分か?工程能力の算出方法

品質管理の超基本_工程能力指数Cpkの意味合い、計算方法まで詳しく解説!

✔ あわせて読みたい
Excelで管理図を作る方法|Xbar-R管理図で工程の異常を見抜く手順

Excelで管理図を柵瀬宇する方法について詳しく解説!

まとめ

この記事では、度数分布表とヒストグラムについて解説しました。
ポイントを整理すると次の通りです。

・ポイント①:度数分布表は、データを区間ごとに整理した表
・ポイント②:ヒストグラムは、度数分布表をグラフにしたもの
・ポイント③:データを区間に分けることで分布の特徴を理解しやすくなる
・ポイント④:工学・品質管理・データ分析など多くの分野で重要な手法

度数分布表とヒストグラムは、統計の中でも最も基本的で重要な考え方の一つです。
統計を理解する第一歩として、ぜひ使いこなせるようにしておきましょう。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール