
製品や原料の品質を評価するとき、ただ試験を実施すればよいわけではありません。
その試験法が本当に目的どおりに測定できているか、安定して信頼できる結果を返すかを確認する必要があります。
そこで重要になるのが、TMV(Test Method Validation:試験法バリデーション)です。
TMVとは、ひとことで言えば、
「その試験法が、意図した用途に対して適切であることを確認すること」です。
たとえば、
- この試験法は本当に目的成分だけを測れているか
- 同じ試料を測ったときに毎回ほぼ同じ結果になるか
- 濃度が変われば結果もきちんと比例して変わるか
- 少ない量でも検出できるか
といった点を確認し、
この方法なら品質判定に使ってよいと示すのがTMVの役割です。
この記事では測定システムの妥当性を検証するTMV(テスト・メソッド・バリデーション)について
その必要性/データの種類による違い/用語の定義/手法・指標 についてわかりやすく解説します!
※具体的な統計解析手法/指標の計算式については別記事で解説します。まずは概要の理解から!
なぜTMVが必要なのか
TMVが必要な理由はシンプルで、
試験結果の信頼性を担保するためです。
もし試験法の妥当性が確認されていなければ、たまたま出た数値を信じてしまうことになります。
すると、
- 本当は合格なのに不合格と判定する
- 本当は不良なのに見逃してしまう←特に重要
- 部門や担当者によって結果がぶれる
- 開発・製造・品質保証で同じデータを信用できない
といった問題が起こります。
そのため、医薬品をはじめとする品質管理の現場では、試験法について事前に妥当性を確認し、文書として残すことがとても重要です。FDAの cGMP 関連文書でも、試験法の accuracy、sensitivity、specificity、reproducibility は確立し文書化すべきとされています。
TMVをざっくり理解するコツ
TMVは難しく見えますが、考え方はそこまで複雑ではありません。
イメージとしては、次の問いに答える作業です。
- 正しく測れているか
- ぶれずに測れているか
- 目的のものだけを見ているか
- 使いたい範囲でちゃんと機能するか
この4つを、試験法の種類に応じて確認していくのがTMVです。
そして実務では、試験結果が数値として出る計量試験と、合格/不合格や陽性/陰性のように分類で出る計数試験で、見るべき項目や評価方法が少し変わります。
TMVにおける「計量」と「計数」の違い ※重要
計量試験
計量試験は、結果が連続的な数値で得られるものです。
たとえば、
- 含量が 99.2%
- 不純物が 0.08%
- pH が 6.9
- 溶出率が 85%
のように、どれくらいあるかを数値で示せる試験です。
このタイプでは、
正確さ、ばらつき、直線性、範囲、定量限界などが重要になります。ICH Q2(R2) や関連資料では、quantitative procedures に対して accuracy、precision、linearity、range、quantitation limit などが重要な評価対象として扱われています。
計数試験
計数試験は、結果がカテゴリや判定で表されるものです。
たとえば、
- 陽性 / 陰性
- 適合 / 不適合
- 検出 / 不検出
- あり / なし
のように、あるかないか、通るか通らないかをみる試験です。
このタイプでは、
特異性、検出能力、偽陽性/偽陰性の出にくさ、一致率などが重視されます。FDA の方法バリデーション文書でも、qualitative assays と quantitative assays は区別され、 qualitative 系では検出・同定の適切性や比較法との一致性が重要になります。
計量試験における主なTMV項目一覧
ここからは、「計量値評価」で評価される項目について一覧で整理します。

1. 正確さ(Accuracy)
正確さは、測定結果が真の値にどれだけ近いかを見る指標です。
たとえば、真の値が 100 である試料を測ったときに、100 に近い値が出るほど正確だといえます。
実務では、添加回収試験などで評価されることが多いです。
2. 精度(Precision/Repeatability)
精度は、繰り返し測ったときのばらつきの小ささです。
同じ試料を何回測っても近い値が出るなら、精度が高いといえます。
通常は、併行精度や室内再現精度などに分けて評価します。ICH Q2(R2) と FDA 文書では precision は主要パラメータのひとつです。
3. 特異性 / 選択性(Specificity / Selectivity)
特異性または選択性は、測りたい対象だけをきちんと測れているかを見る考え方です。
たとえば、目的成分を測りたいのに、不純物や分解物の影響を受けてしまう方法では困ります。
そのため、妨害成分があっても目的物を適切に評価できるかを確認します。ICH Q2(R2) では specificity/selectivity が主要な性能特性です。
4. 直線性(Linearity)
直線性は、濃度や量が増えたときに、測定値も比例して増えるかを見る項目です。
濃度が2倍になったのに応答がほとんど変わらないようでは、定量には使いにくくなります。
一般には検量線の関係を見て評価します。ICH Q2(R1)/(R2) と USP 関連資料で linearity は典型的な評価項目です。
5. 範囲(Range)
範囲は、その試験法が妥当といえる測定範囲のことです。
低すぎる濃度では不安定、高すぎる濃度では飽和する、ということがあるため、
どこからどこまで信頼して使えるかを明確にします。ICH Q2(R1) では range は linearity、accuracy、precision が許容できる区間として説明されています。
6. 検出限界(Detection Limit, DL/LOD)
検出限界は、存在を検出できる最小レベルです。
ただし「ある」とわかることと、「正確に量まで測れる」ことは別です。
そのため、検出限界は主に微量成分の存在確認に関わる概念です。ICH Q2 関連資料では signal-to-noise や標準偏差と傾きに基づく考え方が示されています。
7. 定量限界(Quantitation Limit, QL/LOQ)
定量限界は、十分な精度と正確さをもって量として示せる最小レベルです。
検出はできても、数値として信用できないなら定量とはいえません。
そのため、微量分析では検出限界と定量限界を分けて考えます。ICH Q2 関連資料で quantitation limit は代表的な下限評価項目です。
8. 頑健性(Robustness)
頑健性は、少し条件が変わっても結果が大きく崩れないかを見る項目です。
たとえば、温度、pH、流速、測定者などが少し変わっても安定して測れるなら、現場で使いやすい方法といえます。USP 関連資料では robustness も典型的な検証項目として扱われています。
計量試験でよく見る指標一覧
計量試験では、次のような指標がよく使われます。
- 回収率(%Recovery)
- 平均値
- 標準偏差(SD)
- 相対標準偏差(RSD, %RSD)
- 回帰式
- 相関係数 / 決定係数
- 検出限界(LOD)
- 定量限界(LOQ)
これらは、accuracy、precision、linearity、lower limit の妥当性を数値で示すために使われます。ICH Q2(R2) および関連解説資料でも、linear model や lower range limits の評価が例示されています。
計数試験における主なTMV項目一覧
次に、陽性/陰性や適合/不適合のような計数試験で見られる主な項目です。

1. 特異性 / 選択性
計数試験でも最重要なのが特異性です。
本来反応すべきものにだけ反応するかを確認します。
たとえば、本当は陰性なのに陽性と出てしまう偽陽性が多い方法では、判定法として使いにくくなります。FDA の qualitative / detection method のバリデーションでも、非標的への不要反応が少ないことが重要です。
2. 検出能力
計数試験では、低いレベルでも対象を検出できるかが重要です。
特に微生物試験や遺伝子検出、異物検知などでは、どの程度のレベルから拾えるかが大きな意味を持ちます。FDA 資料では detection-oriented method validation において検出能力の確認が重視されています。
3. 一致性 / 一致率
既存の標準法や参照法と比べて、どのくらい同じ判定になるかを見る考え方です。
新しい簡易法を導入するときには、従来法との一致率を確認するのが実務上よく行われます。FDA の微生物学的方法の文書でも、recognized reference method と比較して同等以上の性能を示すことが求められています。
4. 偽陽性率・偽陰性率
計数試験では、判定ミスの方向がとても重要です。
- 偽陽性:本当は陰性なのに陽性と判定する
- 偽陰性:本当は陽性なのに陰性と判定する
特に品質や安全性に関わる試験では、どちらのリスクをより重くみるかを考えながら評価する必要があります。これは FDA の detection / identification 系文書の比較評価の考え方とも整合的です。
5. 感度・特異度
計数試験では、陽性を正しく拾えるか、陰性を正しく除けるかを示す感度・特異度がよく使われます。
これは特にスクリーニング法や判定法の比較で有用です。USP の screening technologies 文書でも、スクリーニング的な用途では sensitivity / specificity の考え方が重要です。
計数試験でよく見る指標一覧
計数試験では、次のような指標がよく使われます。
- 感度(Sensitivity)
- 特異度(Specificity)
- 陽性的中率(PPV)
- 陰性的中率(NPV)
- 一致率
- 偽陽性率
- 偽陰性率
- kappa係数
このあたりは、判定法としてどれだけ信頼できるかを示すための指標です。なお、PPV・NPV・kappa などは ICH Q2 の中心語そのものではなく、判定法や比較法を実務で評価するときによく使われる統計指標として整理すると自然です。
TMVで大事なのは「全部やること」ではない
ここは記事の中でも強調したいポイントです。
TMVでは、いつも同じ項目を機械的に全部評価するわけではありません。
大事なのは、その試験法の目的に合った項目を選ぶことです。
たとえば、
- 定量試験なら accuracy、precision、linearity、range が重要
- 微量定量なら LOQ や LOD も重要
- 判定試験なら specificity や感度・特異度が重要
というように、用途に応じて重点が変わるのが自然です。
まとめ
TMV(Test Method Validation)とは、
その試験法が意図した用途に対して適切であり、信頼できる結果を出せることを確認する活動です。
そしてTMVは、大きく
- 計量試験:数値を正しく、精度よく測れるかを見る
- 計数試験:正しく判定できるか、一致性や検出能力があるかを見る
という2つに分けて考えると整理しやすくなります。
計量では accuracy、precision、linearity、range、LOD、LOQ、robustness などが中心で、計数では specificity、検出能力、一致率、感度、特異度などが主な見どころになります。
詳しい手法については別記事にて解説しますが、まずはTMVとは何か?どんな項目に注目していて、どんな指標があるかについて理解できれば、この記事の理解としてはOKです!
このサイトでは、統計解析/品質管理についてわかりやすくまとめています。
この分野について理解の深めたい方については、他記事も是非確認してください!