
はじめに
品質管理では、「事実に基づいて判断すること」が基本です。
そのためには、客観的な事実を示すデータを集め、統計処理を行うことで、適切な意思決定につなげる必要があります。
またデータとは、解析対象を観察したり測定したりして、その結果を記録したものです。
また、データはすべて同じではなく、その特徴によっていくつかの種類に分類できます。
この記事では、データの種類とそれぞれの特徴について、体系的に解説します
データの種類
データは、その性質によっていくつかの種類に分けることができます。
代表的なものとして、次の4種類があります。
・数値データ:数値で表されるデータ
・言語データ:数値化しにくい文章やコメントなどのデータ
・分類データ:分類されたグループに名前が付けられたデータ
・順位データ:順位や順番によって表されるデータ
なお、数値データはその特徴によって、さらに「計量値」と「計数値」に分けることができます。

数値データ
数値データは数量で表されるデータで、「計量値」と「計数値」に分類できます。
計量値とは
計量値とは、長さ、重さ、温度など、測定して得られるデータのことです。
そして、計量値の特徴は、「連続値」であることです。
連続値とは、理論上は小数点以下をいくらでも細かく表現できる値のことを指します。
例えば、製品の長さを測定するとき、ノギスでは100.1mmと表示されるかもしれません。
しかし、より精度の高い測定器を使えば、100.12mm、100.123mm、100.1234mmというように、さらに細かく測定することができます。このように、連続的に変化し、小数点以下を細かく表現できる値を連続値と言い、このようは特徴をもつデータが計量値です。
計数値とは
計数値とは、不良品数や来店数など、数えて得られるデータのことです。
計数値の特徴は、「離散値」であることです。
離散値とは、1、2、3…のように、飛び飛びでしか取れない値のことを指します。
例えば、不良品数は0個、1個、2個…と数えることができますが、1.5個や2.3個という表現は通常しません。
このように、整数で表される不連続な値を離散値と言い、その代表例が計数値です。
計量値と計数値の区別について
測定して得られるデータは計量値、数えて得られるデータは計数値ですが、比率データを扱う場合は少し注意が必要です。
比率データとは、ある数量を全体や他の数量と比べた割合のデータです。
・不良率
・歩留まり
・濃度
・含有率
などが該当します。
比率データは小数で表されることが多いため、一見すると連続値のように見えます。
しかし、小数になっているからといって、必ずしも計量値とは限りません。
比率データが計量値か計数値かを判断するときは、分子に使われているデータに注目します。
例えば、「分子が計量値」であれば比率のデータも計量値であり、「分子が計数値」であれば比率データも計数値です。比率データはつい直感的に”計量値”と判断しがちですが、計数値の場合があることも頭に入れておいてください。
以下に体系的にまとめたものを掲載しておきます👇

実務ではなるべく計量値を集めよう
計量値は、長さや重さのように測定して得られるデータです。
そのため、サンプルを一つずつ測定する必要があり、収集には時間と手間がかかります。
一方で、計数値は個数を数えるだけで得られるため、比較的簡単に収集できます。
そのため、実務では手軽に集められる計数値を使いたくなることもあります。
しかし、情報量が多いのは計量値です。
例えば、「不良か良品か」だけを見るよりも、「実際に寸法が何mmだったか」を測定した方が、原因分析に役立ちます。
計量値でデータを取得しておけば、
・平均がズレているのか
・ばらつきが大きいのか
・外れ値があるのか
・時間とともに変化しているのか
まで確認できます。
また、計量値でデータを取得できれば、その後に使える統計解析手法の幅も広がります。
・Cpk
・t検定
・分散分析
・回帰分析
などは、基本的に計量値のデータが必要です。
より有意義な解析を行いたいのであれば、可能な限り計量値を集めることをおすすめします。
数値データ以外のデータ(カテゴリカルデータ)
データには、数値データ以外に「Aランク/Bランク」や「男性/女性」といったデータも存在ます。
これらをまとめてカテゴリカルデータや属性データを呼ぶことがあります。
この項では、数値データ以外のデータについて体系的に解説します。
言語データとは
言語データとは、数値ではなく、言葉で表現されるデータのことです。
例えば、アンケートの自由回答欄に記載された内容や、顧客からのコメント、現場での作業メモなどが該当します。
分類データとは
分類データとは、対象をいくつかのグループに分け、それぞれに名前を付けたデータのことです。
分類データは、カテゴリデータやカテゴリカルデータとも呼ばれます。
分類データは、さらに2種類に分けることができます。
1つ目は、クラス間に大きさや順番がない「純分類データ」です。
・血液型
・使用設備名
・製造ライン
・不良の種類
などが該当します。これらは、「どれが大きい・小さい」「どれが上・下」といった概念がありません。
2つ目は、クラス間に順番や大きさの関係がある「順序分類データ」です。
・満足 / 普通 / 不満
・高 / 中 / 低
・優 / 良 / 可
・Sランク / Aランク / Bランク
などが該当します。これらは順番には意味がありますが、その差の大きさまでは分かりません。
順位データとは
順位データとは、対象を順番に並べたデータのことです。
・徒競走の順位
・売上ランキング
・人気投票の順位
・アンケートでの順位付け
などが該当します。
順位データは、「1位、2位、3位…」のように順番を表しますが、あくまで対象グループ内での相対的な順位です。そのため、比較対象が変われば順位も変わる可能性があります。
例えば、5人の中では1位でも、100人の中では10位になることもあります。
また、順位データを「1、2、3」という数値で記録していると、誤って普通の数値データとして扱ってしまうことがあります。順位データはあくまで順番を表すものであり、「1位と2位の差」と「2位と3位の差」が同じとは限らないため、取り扱いには注意が必要です。
まとめ
データは、その性質によって扱い方が大きく変わります。特に品質管理では、
・測定して得る計量値
・数えて得る計数値
・分類データ
・順位データ
・言語データ
を正しく区別することが重要です。
データの種類を正しく理解できるようになると、「どのグラフを使うべきか」や「どの統計手法が適しているか」など今後高度な分析手法を理解していくうえで大変役立ちます。
実務では、できるだけ情報量の多い計量値を集めることが重要です。
一方で、計数値や分類データ、言語データにも重要な情報は含まれています。
それぞれのデータの特徴を理解し、適切に使い分けることが、正しい統計解析への第一歩です。
品質管理の超基本_工程能力指数Cpkの意味合い、計算方法まで詳しく解説!
Excel分析ツールを用いたT検定の手順・結果の解釈をわかりやすく解説!
Excel分析ツールを用いたF検定の手順・結果の解釈をわかりやすく解説!