変数変換とは?正規分布に近づける適切な手法をわかりやすく解説!

はじめに

統計解析を行う上で、正規分布は切っても切り離せない重要なデータの性質です。

なぜなら、Cpk、t検定、管理図、回帰分析など、多くの統計手法が「データが正規分布に近いこと」を前提としているためです。

特に製造業や品質管理の現場では、データが正規分布に従っているかどうかで、工程能力指数の信頼性や異常判定の精度が大きく変わります。

データが正規分布かどうかを確認する代表的な方法としては、以下があります。

・ヒストグラム
・Q-Qプロット
・シャピロ・ウィルク検定などの正規性検定
・歪度、尖度の確認

これらを用いることで、統計解析に移る前に「データが正規分布しているか?」を確認できます。

しかし、ここで疑問に思う方も多いのではないでしょうか。
「確認したうえで、正規分布していなかったら分析できないのか?」

いいえ、大丈夫です。

データが正規分布していなかった場合は、データに「変数変換」を施すことで、正規分布に近づけられるケースがあります。

この記事では、変数変換とは何か、どのような場面で使うのか、代表的な変換方法、Excelでの実践方法までわかりやすく解説します。

変数変換とは?

変数変換とは、元のデータに数式的な処理を加え、分布の偏りを小さくしたり、ばらつきを安定させたりする手法です。

例えば、右に長い裾を持つデータに対して対数変換を行うと、極端に大きな値の影響を小さくでき、分布が正規分布に近づくことがあります。

変数変換の目的は主に以下の3つです。

・データを正規分布に近づける
・分散を安定させる
・外れ値の影響を小さくする

統計解析では、生データのままでは正規性を満たさなくても、変数変換後のデータで正規性が確認できれば、その後の解析に進めることがあります。

正規性を前提とする主な統計手法

正規性を前提とする代表的な統計手法には以下があります。

統計手法正規性が重要な理由
t検定平均値の差を正しく評価するため
分散分析(ANOVA)群間比較の精度に影響するため
回帰分析残差が正規分布に近いことが望ましいため
工程能力指数(Cpk)不良率推定や規格適合率に影響するため
管理図異常判定のしきい値に影響するため
信頼区間推定推定区間の精度に影響するため

これらを使うことで、生データが正規分布に従っていなくても、正規分布に近づけることで各種統計解析に移ることができます。

ただし、一部のデータだけを変数変換するのはNGです。

変数変換を行う場合は、必ずすべてのデータに同じ処理を適用しましょう(要注意!)。

事例:正規分布に従っていない状態とは?

ある研究所では、自社製品の金属棒について引張強度試験を行っていました。

この試験では、金属棒が破断するまでの強度(N)を測定できます

取得したデータを用いてCpkを算出しようとしましたが、ヒストグラムを確認すると正規分布になっていませんでした。

分布の山が左側に寄り、右に長い裾を引くような形状になっています。

このようなデータは「右に歪んだ分布」と呼ばれます。

右に歪んだ分布では、大きな値が一部に存在するため、平均値や標準偏差が実態より大きく見積もられ、Cpkの値が不正確になることがあります。

このような場合、対数変換やボックスコックス変換を行うことで、分布が正規分布に近づく可能性があります。

主な変数変換の種類

変数変換にはさまざまな種類がありますが、よく使われるのは以下の3つです。

ルート変換

ルート変換は、各データの平方根を取る方法です。

上の事例も、あと一歩ですが正規分布に近づいてきました。
√変換はカウントデータや、ばらつきが平均に比例して増えるようなデータに使われます。

例えば、欠陥数、不良数、粒子数などに使われることがあります。

Excelでは以下の関数で実施できます。

Excel関数
=SQRT(A2:A31)
SQRT関数は、データの平方根を求める関数です。
カウントデータや右に裾を引くデータに対して使用すると、ばらつきを抑え、分布を正規分布に近づけやすくなります。

上の事例では、あと一歩ではありますがだいぶ正規分布に近づきました。

対数変換

対数変換は、各データの対数を取る方法です。

特に、右に長い裾を持つデータに有効です。

故障時間、寿命データ、売上高、濃度データなど、大きい値が一部に存在するデータでよく使われます。

Excelでは以下の関数で実施できます。

Excel関数
=LN(A2:A31)
LN関数は、データの自然対数を求める関数です。
右に長い裾を持つデータに対して使用すると、大きな値の影響を小さくでき、分布を正規分布に近づけやすくなります。

常用対数を使いたい場合は、以下でも可能です。

Excel関数
=LOG10(A2:A31)
LOG10関数は、データの常用対数(底が10の対数)を求める関数です。
大きな値の影響を抑え、右に長い裾を持つデータを正規分布に近づけたい場合に使われます。

この事例では、左右対称の釣り鐘型の形状になっています。
対数変換により正規分布に近づけることができました!

ボックスコックス変換

ボックスコックス変換は、最も正規分布に近くなるように変換の強さを自動調整する方法です。

対数変換、ルート変換、逆数変換などを包括したような手法であり、統計ソフトでは非常によく使われます。

ボックスコックス変換は以下の式で表されます。

λ=0の場合は対数変換と同じになります。

Excel関数
=IF(B2=0,LN(A2),((A2^B2)-1)/B2)
ボックスコックス変換をExcelで表現する場合、λ=0なら自然対数変換、λ≠0なら通常のボックスコックス変換式を使います。
B2にλの値を入力することで、変換の強さを調整できます。

この事例では、まだ正規分布とまでは言えませんが少し近い形状に近づいています。
今回はλ=2のみで実施しましたが、Box-Cox変換はλの値を用いて変換の強度を変えることができます。
λの値を変更しながら、最適な変換を調整することができるのが強みです。

ただし、Excel単体ではボックスコックス変換を直接実施するのはやや難しく、MinitabやJMPなどの統計ソフトを使うことが一般的です。

変数変換を行う際の注意点

変数変換を行う際は、以下の点に注意しましょう。

・すべてのデータに同じ変換を適用する
・規格値や管理限界も同じ変換を行う
・変換後に再度ヒストグラムや正規性検定で確認する
・変換後の値は元データと意味が変わるため、解釈に注意する

特に重要なのが、「規格値も同じ変換を行う必要がある」という点です。

例えば、測定値に対数変換をした場合、USLやLSLなどの規格値も同様に対数変換しなければ、Cpkは正しく算出できません。

これは非常によくあるミスなので、十分注意しましょう。

Excelで変数変換をやってみよう

例えば、B列に引張強度のデータが入力されている場合、各変換は以下のように実施できます。

サンプルデータを用意しているので、確認してみてください

変換後は、ヒストグラムを作成し、生データよりも左右対称になっているかを確認しましょう。

また、歪度や尖度を確認し、0に近づいているかを見るのも有効です。

歪度は以下の関数で求められます。

Excel関数
=SKEW(B2:B31)
SKEW関数は、データの歪度(分布の左右非対称性)を求める関数です。
変数変換後のデータに対して使用し、値が0に近づいているかを確認することで、正規分布に近づいたかを判断できます。

尖度は以下の関数で求められます。

Excel関数
=KURT(B2:B31)
KURT関数は、データの尖度(分布のとがり具合)を求める関数です。
変数変換後のデータに対して使用し、値が0に近づいているかを確認することで、正規分布に近づいたかを判断できます。

変換前と変換後で歪度や尖度を比較し、0に近づいていれば、分布が正規分布に近づいている可能性があります。

まとめ

変数変換とは、データの偏りやばらつきを調整し、正規分布に近づけるための重要な手法です。

正規性を前提とする統計解析では、変数変換によって解析可能になるケースが多くあります。

特に、右に歪んだデータには対数変換、カウントデータにはルート変換、より柔軟に対応したい場合はボックスコックス変換が有効です。

ただし、変換後は必ずヒストグラム、Q-Qプロット、歪度、尖度、正規性検定などを用いて、正規分布に近づいているかを再確認しましょう。

また、規格値も同じ変換を適用することを忘れないようにしてください。

変数変換を適切に使いこなせるようになると、統計解析の適用範囲が広がり、より正確な品質評価や工程解析が可能になります。

✔ あわせて読みたい
正規分布とは?統計で最も重要な分布をわかりやすく解説【統計基礎】

統計解析をするうえで必ず理解しておきたい、正規分布について数理・特徴を網羅!

✔ あわせて読みたい
歪度/尖度とは?正規分布判定の目安とExcelでの確認方法を解説

データが正規分布かはどう確かめればよい?歪度尖度の計算方法・基準を解説!

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール