TMV(テストメソッドバリデーション)とは?|計量値に絞って評価項目をわかりやすく解説

はじめに

製品や原料の品質を評価するとき、ただ試験を実施すればよいわけではありません。
その試験法が本当に目的どおりに測定できているか安定して信頼できる結果を返すかを確認する必要があります。

そこで重要になるのが、TMV(Test Method Validation:試験法バリデーション)です。

TMVとは、ひとことで言えば、
「その試験法が、意図した用途に対して適切であることを確認すること」です。

たとえば、

この試験法は本当に目的成分だけを測れているか
同じ試料を測ったときに毎回ほぼ同じ結果になるか
濃度が変われば結果もきちんと比例して変わるか
少ない量でも検出できるか

といった点を確認し、
この方法なら品質判定に使ってよいと示すのがTMVの役割です。
この記事では測定システムの妥当性を検証するTMV(テスト・メソッド・バリデーション)について
その必要性/データの種類による違い/用語の定義/手法・指標についてわかりやすく解説します!

※本記事は、計量値評価におけるTMV項目について解説した記事です。
※具体的な統計解析手法/指標の計算式については別記事で解説します。まずは概要の理解から!

✔ あわせて読みたい
TMV(テストメソッドバリデーション)とは?|計数値(属性データ)に絞って評価項目をわかりやすく解説

測定システムの妥当性を検証するTMV(計数値データ)の指標について網羅的に解説!

なぜTMVが必要なのか

TMVが必要な理由はシンプルで、試験結果の信頼性を担保するためです。

もし試験法の妥当性が確認されていなければ、たまたま出た数値を信じてしまうことになります。
すると、以下の様な不具合が起きやすくなります。

問題の種類 内容 リスク
誤判定(過検出) 本当は合格なのに不合格と判定する 無駄な廃棄・コスト増加
見逃し(未検出) 本当は不良なのに見逃してしまう 市場クレーム・重大事故につながる
ばらつき(再現性不良) 部門や担当者によって結果がぶれる 判断基準が不安定になる
信頼性不足 開発・製造・品質保証で同じデータを信用できない 意思決定の遅延・品質トラブル

そのため、医薬品をはじめとする品質管理の現場では、試験法について事前に妥当性を確認し、文書として残すことがとても重要です。FDAの cGMP 関連文書でも、試験法の accuracy、sensitivity、specificity、reproducibility は確立し文書化すべきとされています。

TMVをざっくり理解するコツ

TMVは難しく見えますが、考え方はそこまで複雑ではありません。

イメージとしては、次の問いに答える作業です。

観点 意味
正しく測れているか 真の値にどれだけ近いか
ぶれずに測れているか 繰り返し測定しても同じ結果が得られるか
目的のものだけを見ているか 他の成分や要因の影響を受けていないか
使いたい範囲でちゃんと機能するか 測定範囲内で安定して評価できるか

この4つを、試験法の種類に応じて確認していくのがTMVです。
そして実務では、試験結果が数値として出る計量試験と、合格/不合格や陽性/陰性のように分類で出る計数試験で、見るべき項目や評価方法が少し変わります。

TMVにおける「計量」と「計数」の違い ※重要

●計量試験

計量試験は、結果が連続的な数値で得られるものです。

たとえば、以下のような測定系が該当します。

測定項目 単位
含量 99.2 %
不純物 0.08 %
pH 6.9
接着強度 5.0 N

のように、どれくらいあるかを数値で示せる試験です。

このタイプでは、正確さ、ばらつき、直線性、範囲、定量限界などが重要になります。
ICH Q2(R2) や関連資料では、quantitative procedures に対して accuracy、precision、linearity、range、quantitation limit などが重要な評価対象として扱われています。

●計数試験

計数試験は、結果がカテゴリや判定で表されるものです。

たとえば、以下のような測定系が該当します。

判定項目 結果(例)
検査結果 陽性 / 陰性
規格適合性 適合 / 不適合
検出有無 検出 / 不検出
キズの確認 あり / なし

のように、あるかないか通るか通らないかをみる試験です。

このタイプでは、特異性、検出能力、偽陽性/偽陰性の出にくさ、一致率などが重視されます。
FDA の方法バリデーション文書でも、qualitative assays と quantitative assays は区別され、
qualitative 系では検出・同定の適切性や比較法との一致性が重要になります。

計量試験における主なTMV項目一覧

ここからは、「計量値評価」で評価される項目について一覧で整理します。

正確さ(Accuracy)

確さ(Accuracy)は、測定結果が真の値にどれだけ近いかを見る指標です。

すなわち、測定値と真値(または既知値)との一致度を評価する概念であり、系統誤差の大きさを把握するために用いられます。

たとえば、真の値が100である試料を測定したときに、100に近い値が得られるほど正確であるといえます。一方で、測定値が常に一定方向にずれている場合(高めに出る、低めに出るなど)は、精度が高くても正確さは低い状態と判断されます。

実務では、既知量の標準物質を試料に添加して測定する「添加回収試験」により評価されることが一般的です。このとき、回収率(Recovery, %)を用いて正確さを定量的に評価し、通常はあらかじめ設定した許容範囲(例:98〜102%など)に収まっているかを確認します。

また、濃度レベルごとに正確さを評価することで、測定範囲全体で偏りがないかを確認することも重要です。ICH Q2(R1)/(R2) においても、accuracy は試験法の信頼性を評価する主要な性能特性のひとつとして位置づけられています。

精度(Precision/Repeatability)

精度(Precision/Repeatability)は、同じ条件で繰り返し測定したときのばらつきの小ささを評価する指標です

すなわち、同一試料を複数回測定した際に、どれだけ近い値が得られるかを確認することで、測定の再現性を評価します。同じ試料を何回測ってもほぼ同じ値が得られる場合、その試験法は精度が高いといえます。

実務では、精度は測定条件の違いに応じていくつかに分類されます。代表的には、同一条件(同一装置・同一測定者・短時間)でのばらつきを評価する「併行精度(Repeatability)」、日や測定者、装置などを変えた場合のばらつきを評価する「室内再現精度(Intermediate Precision)」などがあります。さらに、異なる試験室間での再現性を評価する「再現精度(Reproducibility)」が扱われることもあります。

精度の評価には、標準偏差(SD)や相対標準偏差(%RSD)が一般的に用いられ、これらがあらかじめ定めた許容基準内に収まっているかを確認します。通常、%RSDが小さいほど精度が高いと判断されます。ICH Q2(R2) や FDA の関連文書においても、precision は試験法の信頼性を評価するうえでの主要な性能パラメータのひとつとして位置づけられています。

特異性 / 選択性(Specificity / Selectivity)

特異性または選択性は、測りたい対象だけをきちんと測れているかを見る考え方です。

たとえば、目的成分を測りたいのに、不純物や分解物の影響を受けてしまう方法では困ります。
そのため、妨害成分があっても目的物を適切に評価できるかを確認します。ICH Q2(R2) では specificity/selectivity が主要な性能特性です。

直線性(Linearity)

直線性は、濃度や量が増えたときに、測定値(応答)が比例して増えるかを見る項目です
濃度が2倍になれば応答もおおよそ2倍になる、といった関係が成り立つかどうかを確認します。
もし濃度が変わっても応答がほとんど変化しない場合や、途中で関係が崩れてしまう場合には、その試験法は定量には適していないと判断されます。

実務では、複数の濃度レベルの標準試料を用いて検量線(キャリブレーションカーブ)を作成し、その関係を回帰直線(y = ax + b)で評価します。このとき、決定係数(R²)が十分に高いか(一般に0.99以上が目安)、残差に偏りがないか、低濃度から高濃度まで直線関係が維持されているかなどを確認します。また、直線性が成立する濃度範囲は「定量範囲(レンジ)」として定義され、この範囲内でのみ信頼できる定量が可能となります。

なお、回帰式の傾き(a)は感度を表しており、値が大きいほど濃度変化に対する応答の変化が大きいことを意味します。ICH Q2(R1)/(R2) や USP 関連資料においても、linearity は試験法の性能を評価するうえでの代表的な項目のひとつとして位置づけられています。

範囲(Range)

範囲(Range)は、その試験法が妥当といえる測定範囲のことを指します

すなわち、一定の濃度範囲において、正確さ(accuracy)、精度(precision)、直線性(linearity)などの性能が適切に満たされている区間を意味します。

一般に、濃度が低すぎる領域では測定値のばらつきが大きくなりやすく、検出限界付近では安定した定量が難しくなります。一方で、高濃度側では検出器の飽和や非線形挙動が生じ、濃度と応答の比例関係が崩れることがあります。このため、試験法ごとに「どこからどこまでが信頼して使える範囲なのか」を明確に定義することが重要です。

実務では、複数濃度(例えば定量下限付近から高濃度側まで)の標準試料を用いて、各濃度で正確さ・精度・直線性を評価し、それらが許容基準を満たす範囲を「定量範囲(レンジ)」として設定します。たとえば、回収率が許容範囲内に収まり、かつ精度(%RSD)が基準を満たし、検量線の直線性が維持されている区間が該当します。

なお、この範囲の下限は一般に定量限界(LOQ)付近、上限は直線性が維持できる最大濃度によって規定されます。ICH Q2(R1) においても、range は linearity、accuracy、precision が許容できる区間として定義されており、試験法の適用可能範囲を示す重要な性能特性のひとつとされています。

検出限界(Detection Limit, DL/LOD)

検出限界(Detection Limit, DL/LOD)は、対象成分の「存在を検出できる最小レベル」を示す指標です。

すなわち、試料中に成分が含まれているかどうかを識別できる最低濃度を意味します。ただし、「存在がわかること」と「正確に定量できること」は異なる概念であり、検出限界はあくまで検出(検出/不検出の判断)に関わる指標であって、定量の精度を保証するものではありません。

一般に、微量成分や不純物の有無確認などに用いられ、品質試験や環境分析などで重要な役割を持ちます。ICH Q2 関連資料では、検出限界の評価方法として、シグナル対ノイズ比(S/N)に基づく方法(通常 S/N ≈ 3)や、検量線の傾き(S)と応答の標準偏差(σ)を用いた統計的手法が示されています。代表的には、LOD = 3.3 × σ / S といった式で表されます。

また、検出限界と混同されやすい指標として定量限界(LOQ)があり、こちらは「定量値として信頼できる最小レベル」を意味します。一般に LOQ は LOD より高い濃度に設定され(例:S/N ≈ 10)、精度や正確さが担保された状態で定量可能な下限を示します。

このように、LOD は「あるかどうか」を判断するための指標、LOQ は「どれくらいあるか」を信頼して評価するための指標として使い分けることが重要です。ICH Q2(R1)/(R2) においても、検出限界は試験法の性能特性のひとつとして位置づけられています。

定量限界(Quantitation Limit, QL/LOQ)

定量限界は、十分な精度と正確さをもって量として示せる最小レベルです。

検出はできても、数値として信用できないなら定量とはいえません。

定量限界は、一般にシグナル対ノイズ比(S/N)がおおよそ10以上となる濃度を目安として設定されます。また、それだけでなく、その濃度において精度(%RSD)や正確さ(回収率)があらかじめ定めた許容基準を満たしていることも重要です。したがって、単に「測れる」だけでなく、「再現よく、かつ正確に数値として示せる」ことが定量限界の本質です。

そのため、微量分析では検出限界と定量限界を分けて考えます。ICH Q2 関連資料で quantitation limit は代表的な下限評価項目です。

計量試験でよく見る指標一覧

計量試験では、次のような指標がよく使われます。

いずれも数式、計算方法まで本サイトで詳しく解説しています。
是非確認してみてください。

TMV項目 統計指標
正確さ(Accuracy) 回収率(%Recovery)
精度(Precision) 平均値、標準偏差(SD)、相対標準偏差(RSD, %RSD)
直線性(Linearity) 回帰式、相関係数 / 決定係数(R, R²)
検出限界(LOD) 検出限界(LOD)
定量限界(LOQ) 定量限界(LOQ)

これらは、accuracy、precision、linearity、lower limit の妥当性を数値で示すために使われます。ICH Q2(R2) および関連解説資料でも、linear model や lower range limits の評価が例示されています。

TMVで大事なのは「全部やること」ではない

ここは記事の中でも強調したいポイントです。

TMVでは、いつも同じ項目を機械的に全部評価するわけではありません。
大事なのは、その試験法の目的に合った項目を選ぶことです。

たとえば、以下のような形で、場面や用途に応じて選択することが求められます。

試験の種類 重要な評価項目
定量試験 Accuracy、Precision、Linearity、Range
微量定量試験 LOQ、LOD(+Accuracy、Precision)
判定試験 Specificity、感度、特異度

まとめ

TMV(Test Method Validation)とは、
その試験法が意図した用途に対して適切であり、信頼できる結果を出せることを確認する活動です。

そしてTMVは、大きく

計量試験:数値を正しく、精度よく測れるかを見る
計数試験:正しく判定できるか、一致性や検出能力があるかを見る

という2つに分けて考えると整理しやすくなります。
計量では accuracy、precision、linearity、range、LOD、LOQ、robustness などが中心で、計数では specificity、検出能力、一致率、感度、特異度などが主な見どころになります。

詳しい手法については別記事にて解説しますが、まずはTMVとは何か?どんな項目に注目していて、どんな指標があるかについて理解できれば、この記事の理解としてはOKです!

このサイトでは、統計解析/品質管理についてわかりやすくまとめています。
この分野について理解の深めたい方については、他記事も是非確認してください!
※以下の記事は計量値の測定システムの妥当性を示すための統計手法について解説しています。

✔ あわせて読みたい
実務で使えるGage R&R活用方法【Excel付き】

測定システム評価で最もメジャーな統計手法について解説!Excelテンプレートあり!

✔ あわせて読みたい
GRRがNGだったときの対処法

GRR実務者が必ず読みたい!GRRのNGの対応をどこよりもわかりやすく整理!

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール