
はじめに
製品や原料の品質を評価するとき、ただ試験を実施すればよいわけではありません。
その試験法が本当に目的どおりに測定できているか、安定して信頼できる結果を返すかを確認する必要があります。
そこで重要になるのが、TMV(Test Method Validation:試験法バリデーション)です。
TMVとは、ひとことで言えば、
「その試験法が、意図した用途に対して適切であることを確認すること」です。
たとえば、
・この試験法は本当に目的成分だけを測れているか
・同じ試料を測ったときに毎回ほぼ同じ結果になるか
・濃度が変われば結果もきちんと比例して変わるか
・少ない量でも検出できるか
といった点を確認し、
この方法なら品質判定に使ってよいと示すのがTMVの役割です。
この記事では測定システムの妥当性を検証するTMV(テスト・メソッド・バリデーション)について
その必要性/データの種類による違い/用語の定義/手法・指標についてわかりやすく解説します!
※本記事は、計数値(属性データ)評価におけるTMV項目について解説した記事です。
※具体的な統計解析手法/指標の計算式については別記事で解説します。まずは概要の理解から!
測定システムの妥当性を検証するTMVの評価項目について網羅的に解説した記事!
なぜTMVが必要なのか
TMVが必要な理由はシンプルで、試験結果の信頼性を担保するためです。
もし試験法の妥当性が確認されていなければ、たまたま出た数値を信じてしまうことになります。
すると、以下の様な不具合が起きやすくなります。
| 問題の種類 | 内容 | リスク |
|---|---|---|
| 誤判定(過検出) | 本当は合格なのに不合格と判定する | 無駄な廃棄・コスト増加 |
| 見逃し(未検出) | 本当は不良なのに見逃してしまう | 市場クレーム・重大事故につながる |
| ばらつき(再現性不良) | 部門や担当者によって結果がぶれる | 判断基準が不安定になる |
| 信頼性不足 | 開発・製造・品質保証で同じデータを信用できない | 意思決定の遅延・品質トラブル |
そのため、医薬品をはじめとする品質管理の現場では、試験法について事前に妥当性を確認し、文書として残すことがとても重要です。FDAの cGMP 関連文書でも、試験法の accuracy、sensitivity、specificity、reproducibility は確立し文書化すべきとされています。

TMVをざっくり理解するコツ
TMVは難しく見えますが、考え方はそこまで複雑ではありません。
イメージとしては、次の問いに答える作業です。
| 観点 | 意味 |
|---|---|
| 正しく測れているか | 真の値にどれだけ近いか |
| ぶれずに測れているか | 繰り返し測定しても同じ結果が得られるか |
| 目的のものだけを見ているか | 他の成分や要因の影響を受けていないか |
| 使いたい範囲でちゃんと機能するか | 測定範囲内で安定して評価できるか |
この4つを、試験法の種類に応じて確認していくのがTMVです。
そして実務では、試験結果が数値として出る計量試験と、合格/不合格や陽性/陰性のように分類で出る計数試験で、見るべき項目や評価方法が少し変わります。
TMVにおける「計量」と「計数」の違い ※重要
●計量試験
計量試験は、結果が連続的な数値で得られるものです。
たとえば、以下のような測定系が該当します。
| 測定項目 | 値 | 単位 |
|---|---|---|
| 含量 | 99.2 | % |
| 不純物 | 0.08 | % |
| pH | 6.9 | – |
| 接着強度 | 5.0 | N |
のように、どれくらいあるかを数値で示せる試験です。
このタイプでは、正確さ、ばらつき、直線性、範囲、定量限界などが重要になります。
ICH Q2(R2) や関連資料では、quantitative procedures に対して accuracy、precision、linearity、range、quantitation limit などが重要な評価対象として扱われています。
●計数試験
計数試験は、結果がカテゴリや判定で表されるものです。
たとえば、以下のような測定系が該当します。
| 判定項目 | 結果(例) |
|---|---|
| 検査結果 | 陽性 / 陰性 |
| 規格適合性 | 適合 / 不適合 |
| 検出有無 | 検出 / 不検出 |
| キズの確認 | あり / なし |
のように、あるかないか、通るか通らないかをみる試験です。
このタイプでは、特異性、検出能力、偽陽性/偽陰性の出にくさ、一致率などが重視されます。
FDA の方法バリデーション文書でも、qualitative assays と quantitative assays は区別され、
qualitative 系では検出・同定の適切性や比較法との一致性が重要になります。
計数試験における主なTMV項目一覧
次に、陽性/陰性や適合/不適合のような計数試験で見られる主な項目です。
主な4項目についてそれぞれ詳しく説明していきます。
1. 特異性 / 選択性
特異性/選択性(Specificity / Selectivity)は、測定対象とする成分や現象に対してのみ反応し、それ以外には反応しないかを評価する指標です。計数試験においても最も重要な性能のひとつであり、「本来反応すべきものにだけ反応するか」を確認します。
たとえば、本当は陰性であるにもかかわらず陽性と判定されてしまう「偽陽性」が多い方法では、不要な対応や誤判断につながるため、実用性が低くなります。一方で、本来は陽性であるものを陰性と判定してしまう「偽陰性」も重大な問題であり、特に安全性や品質に関わる試験では見逃しのリスクとして重要視されます。
実務では、既知の陽性試料および陰性試料を用いて評価し、非標的物質や類似成分、マトリクスの影響によって誤反応が起きないかを確認します。また、特異性は定性的な確認だけでなく、感度(sensitivity)や特異度(specificity)といった指標で定量的に評価されることもあります。
定量的な評価指標
計数試験における特異性は、感度(Sensitivity)と特異度(Specificity)といった指標を用いて定量的に評価することができます。
■ 感度(Sensitivity)
$$ Sensitivity = \frac{TP}{TP + FN} \times 100 $$
実際に陽性であるもののうち、正しく陽性と判定できた割合(見逃しの少なさ)を示します。
※TP(True Positive):実際に陽性で、正しく陽性と判定された数
※FN(False Negative):実際は陽性だが、陰性と誤判定された数(見逃し)
■ 特異度(Specificity)
$$ Specificity = \frac{TN}{TN + FP} \times 100 $$
実際に陰性であるもののうち、正しく陰性と判定できた割合(誤検出の少なさ)を示します。
※TN(True Negative):実際に陰性で、正しく陰性と判定された数
※FP(False Positive):実際は陰性だが、陽性と誤判定された数(誤検出)
FDA の qualitative / detection method のバリデーションにおいても、非標的への不要な反応(クロスリアクション)が少なく、かつ対象を確実に検出できることが重要とされています。したがって、特異性は「誤って反応しないこと」と「必要なものを確実に捉えること」の両面から評価する必要があります。

2. 検出能力
計数試験では、低いレベルでも対象を検出できるかが重要です。
特に微生物試験や遺伝子検出、異物検知などでは、どの程度のレベルから検出できるかが大きな意味を持ちます。 検出能力は単に「検出できるかどうか」ではなく、「どの確率で検出できるか」という観点で評価されることが一般的です。
実務では、低濃度の試料を複数回測定し、そのうち何回検出できたか(検出率)を用いて評価します。
■ 検出率(Detection Rate)
Detection Rate =(検出できた回数 ÷ 試行回数)× 100
この検出率が一定以上(例:95%など)となる濃度を「実用的な検出下限」として定義することがあります。
また、検出能力は検出限界(LOD)とも密接に関係しており、LODは「一定の信頼性で検出できる最小レベル」を示します。 ただし、計数試験では連続値ではなく検出/非検出の結果となるため、確率的な評価(検出率)として扱うことが重要です。
計数試験では、低いレベルでも対象を検出できるかが重要です。
特に微生物試験や遺伝子検出、異物検知などでは、どの程度のレベルから拾えるかが大きな意味を持ちます。FDA 資料では detection-oriented method validation において検出能力の確認が重視されています。

3. 一致性 / 一致率
既存の標準法や参照法と比べて、どのくらい同じ判定になるかを見る考え方です。
新しい簡易法を導入するときには、従来法との一致率を確認するのが実務上よく行われます。 一致率は単に一致の割合を見るだけでなく、「どの程度信頼して代替できるか」を判断するための重要な指標です。
FDA の微生物学的方法に関する文書でも、recognized reference method と比較して同等以上の性能を示すことが求められています。
■ 一致率(Agreement Rate)
一致率 =(一致した判定数 ÷ 総判定数)× 100
ここで「一致」とは、両方の方法で同じ判定(陽性/陰性)となった場合を指します。
実務では、単純な一致率に加えて、偶然の一致を補正した指標としてカッパ係数(Cohen’s kappa)を用いることもあります。 カッパ係数は −1〜1 の範囲をとり、1に近いほど一致性が高いと評価されます。
既存の標準法や参照法と比べて、どのくらい同じ判定になるかを見る考え方です。

属性MSAの指標のひとつ。測定者間の一致度を比較するk係数についてわかりやすく解説!
4. 偽陽性率・偽陰性率
4. 偽陽性率・偽陰性率
計数試験では、判定ミスの方向がとても重要です。
・偽陽性:本当は陰性なのに陽性と判定する
・偽陰性:本当は陽性なのに陰性と判定する
特に品質や安全性に関わる試験では、どちらのリスクをより重くみるかを考えながら評価する必要があります。 これは FDA の detection / identification 系文書の比較評価の考え方とも整合的です。
■ 偽陽性率(False Positive Rate)
偽陽性率 =(偽陽性数 ÷ 実際の陰性数)× 100
陰性であるもののうち、誤って陽性と判定してしまう割合を示します。
■ 偽陰性率(False Negative Rate)
偽陰性率 =(偽陰性数 ÷ 実際の陽性数)× 100
陽性であるもののうち、見逃して陰性と判定してしまう割合を示します。
なお、偽陽性率は特異度(Specificity)、偽陰性率は感度(Sensitivity)と密接に関係しており、 それぞれ以下の関係が成り立ちます。
偽陽性率 = 1 − 特異度
偽陰性率 = 1 − 感度
計数試験では、判定ミスの方向がとても重要です。
特に品質や安全性に関わる試験では、どちらのリスクをより重くみるかを考えながら評価する必要があります。

計数試験でよく見る指標一覧
計数試験では、次のような指標がよく使われます。
| TMV項目 | 統計指標 |
|---|---|
| 特異性 / 選択性 | 特異度(Specificity) |
| 検出能力 | 感度(Sensitivity) |
| 判定の信頼性 | 陽性的中率(PPV)、陰性的中率(NPV) |
| 一致性 | 一致率、kappa係数 |
| 判定誤差 | 偽陽性率、偽陰性率 |
このあたりは、判定法としてどれだけ信頼できるかを示すための指標です。なお、PPV・NPV・kappa などは ICH Q2 の中心語そのものではなく、判定法や比較法を実務で評価するときによく使われる統計指標として整理すると自然です。
まとめ
TMV(Test Method Validation)とは、
その試験法が意図した用途に対して適切であり、信頼できる結果を出せることを確認する活動です。
本記事では、特に「計数値(属性データ)」におけるTMVに焦点を当てて解説しました。
計数試験では、単に測定できるかではなく、
正しく判定できるか(誤判定が少ないか)、低レベルでも検出できるか(検出能力があるか)、既存法と同等の結果が得られるか(一致性があるか)といった観点が重要になります。
具体的には、以下のような指標で評価されます。
・特異性(Specificity)
・感度(Sensitivity)
・検出能力(Detection Rate)
・一致率(Agreement Rate)
・偽陽性率・偽陰性率
・陽性的中率(PPV)・陰性的中率(NPV)
・κ係数(kappa係数)
これらはすべて、判定の正しさを確率的に評価する指標である点が特徴です。
計量試験が「どれだけ正確に数値を測れるか」を重視するのに対し、
計数試験では「どれだけ正しく分類・判定できるか」が本質となります。
詳しい評価方法や具体的な計算手順については別記事で解説していますが、
まずは「計数TMVでは何を見るのか」「どのような指標で評価するのか」を理解できていれば十分です。
このサイトでは、統計解析や品質管理について実務ベースでわかりやすく解説しています。
計数データの評価や試験法バリデーションについてさらに理解を深めたい方は、ぜひ他の記事もご覧ください。
属性データを集計し見える化するクロス集計表についてわかりやすく解説!
測定システム評価はGRRだけじゃない!見逃せない重要指標を1記事で解説!