統計解析.com

統計解析業務の
アウトソーシング

無料相談を
予約する

統計解析に関するガイドラインを知ろう

アウトライン
  1. 作成日: 2026/2/4
  2. 更新日: –

はじめに

ヒト臨床試験 (ヒト試験) では、統計解析の計画と実行が、試験結果の科学的妥当性と信頼性を左右します。どれほど丁寧にデータを収集しても、解析方針が曖昧だったり、試験後に都合よく解析手法を選び直したりすれば、結果の解釈はぶれやすくなり、第三者からの信頼も得にくくなります。近年は特に、統計解析の透明性再現性が強く求められており、その背景として国際的なガイドラインの整備が進んできました。

本稿では、ヒト臨床試験 (ヒト試験) における統計解析に関する主要なガイドラインとして、①統計解析計画書 (Statistical Analysis Plan; SAP) の作成指針、②ICH E9、③ICH E9 (R1) 追補 (Estimandと感度分析)、④DELTA2ガイドラインを取り上げます。各ガイドラインが何を目的としており、実務ではどこを押さえるべきかを、できるだけ現場で使える形で整理します。

これらを理解しておくことで、単に「ルールを守る」だけではなく、試験計画から解析・解釈までの一貫性を高め、説明責任を果たせるアウトプットにつなげることができます。規制対応や査読への備えとしてはもちろん、試験の意思決定をより確かなものにするための基礎として、本稿が参考になれば幸いです。

統計解析計画書 (statistical analysis plans; SAP) のガイダンス

2.1 統計解析計画書 (Statistical Analysis Plan; SAP) とは?

統計解析計画書 (Statistical Analysis Plan; SAP) は、プロトコルに記載された解析方針を、より技術的かつ具体的に落とし込んだ文書です。主要評価項目および副次評価項目を含むすべてのデータについて、どのような統計手法で、どの順序で、どのような判断基準で解析を実施するかを明確に示します。

SAPは、解析の再現性と透明性を担保し、試験結果の解釈に一貫性を与えるうえで不可欠です。さらに、規制当局や第三者に対して説明責任を果たすための基盤にもなります。

SAPの重要性は、あらかじめ定めた解析手順に従うことで、データを見た後の恣意的な解析選択を防げる点にあります。これにより、p-hackingや仮説の事後的な変更 (Hypothesizing After the Results are Known; HARKing) といった研究実践を回避しやすくなります。また、解析手順を詳細に記録しておくことで、独立した研究者による検証が可能となり、結果の信頼性向上にもつながります。

2.2 ガイダンスの概要

Gambleらによるガイダンス (2017) は、ヒト臨床試験 (ヒト試験) におけるSAP作成の最低要件 (minimum content) を体系化した実務的な指針です。SAPに含めるべき記載項目をチェックリストとして提示しており、作成者が見落としやすいポイントまで網羅的にカバーできる点が特徴です。結果として、SAPの品質向上と試験全体の妥当性確保が期待されます。

ガイダンスでは、SAPに必須の記載事項として、たとえば以下のような内容が明示されています。

  • 試験デザインの詳細
  • 解析対象集団 (解析データセット) の定義
  • 主要・副次評価項目の統計解析手法
  • 欠測データの取り扱い
  • 中間解析の計画
  • 多重性 (multiplicity) の調整方法
  • 感度解析の内容

特に重要なのは、プロトコルとの整合性を保ちながら、プロトコルでは書ききれない技術的詳細をSAPで補完するという考え方です。SAPは「プロトコルの繰り返し」ではなく、「プロトコルを実装可能なレベルまで具体化する文書」として位置づけられます。

2.3 実務における活用のポイント

SAPを形だけの文書にしないためには、「いつ」「どの粒度で」「どのように変更を管理するか」を運用として押さえる必要があります。実務上は、次の観点を確実に実施することが重要です。

2.3.1 作成時期の厳守とタイミング管理

SAPは、データ収集や解析の開始前に作成し、最終版は盲検解除前に確定します。これにより、事後的な解析選択やバイアスを防ぎ、結果の客観性を維持できます。

理想的には、症例登録開始前にSAPのドラフトを作成し、データベースロック前までにレビューを完了して最終版を確定する運用が望まれます。

2.3.2 記述の詳細度と整合性

プロトコルで記載しきれない統計学的手順 (前処理、モデル仕様、推定方法、共変量の扱い、感度解析の設計など) を明確に記載し、プロトコルに示された主要手法との整合性を示します。

もしプロトコルと異なる解析を行う可能性がある場合は、その内容と理由をあらかじめ明瞭に説明しておくことが重要です。

また、略語は初出時に必ず正式名称を示し、文書全体で用語定義を統一します。加えて、統計ソフトウェアの名称・バージョン、必要に応じて使用パッケージまで記載しておくと、再現性がより高まります。

2.3.3 変更管理とトレーサビリティ

SAPの改訂履歴は時系列で記録し、変更者・変更日・変更理由・影響範囲を追跡可能にします。重要な修正については関係者の承認を得たうえで記録し、変更が解析結果に与える影響を評価する手順も定めておくべきです。

可能であれば、バージョン管理の仕組み (変更履歴が残る運用) を導入し、透明性を高めることが推奨されます。

これらを実践することで、解析手順の再現性が高まり、規制当局の査察にも耐えうる説明可能性の高い統計解析が実現します。最終的には、明確で一貫したSAPが、データ解釈の信頼性を支え、安全性および有効性に関する判断を適正に導くことにつながります。

SAPの作成方法を学びたい方はコチラ↓

ICH E9

3.1 ICH E9の概要と背景

ICH E9「臨床試験のための統計的原則」は、1998年に策定された国際的なガイドラインであり、ヒト臨床試験 (ヒト試験) における統計学的な設計と解析の基本原則を定めています。

本ガイドラインは、日本・米国・欧州の規制当局間で合意された統一基準として位置づけられ、現在でもヒト臨床試験 (ヒト試験) 設計の重要な基礎となっています。

3.2 ICH E9の主要内容

ICH E9は、ヒト臨床試験 (ヒト試験) の科学的妥当性と結果の信頼性を確保するために、統計学的観点からの枠組みを提示する指針です。中核となるメッセージは、解析方針を試験開始前に明確化すること、再現性と透明性を担保すること、そしてバイアス低減を意識した試験デザインを徹底することにあります。

具体的には、主要評価項目、症例数設計 (検出力計算)、中間解析や停止規則などの統計的前提を事前に定めることで、データを見た後の恣意的な解析選択や誤解釈を防ぐことが強調されています。

また、ランダム化・盲検化・適切な対照群設定といった設計上の措置は、治療群間の比較可能性と評価の客観性を担保するために不可欠です。

解析面では、解析対象集団 (Intent-to-Treat、Per-Protocolなど) の定義を明示し、多重性の制御、欠測データの機序に応じた取り扱い方針を定め、感度解析によって結論の頑健性を検証することが求められます。

これらは個別に対応すべき項目というよりも、事前計画・適切な設計・透明な文書化・変更管理といった一連のプロセスを通じて、相互に補強し合うものとして理解する必要があります。

3.3 実務での活用指針

ICH E9を実務に落とし込むうえでは、以下の観点を確実に押さえることが重要です。

3.3.1 主要評価項目と解析方針の確定

主要・副次評価項目について、統計手法、検定方向(片側・両側)、有意水準、共変量の扱いを事前に明示します。特に主要評価項目は、測定方法、評価時点、複合エンドポイントの場合は構成要素まで含めて、詳細に定義しておく必要があります。

3.3.2 症例数設計の精緻化

検出力 (通常80%以上)、効果量の仮定 (臨床的に意義のある差)、脱落率を含めたサンプルサイズ計算を記載します。効果量の設定根拠として、既存文献や予備試験データを明示しておくと、説明力が高まり、査読や規制対応でも有利になります。

3.3.3 中間解析と停止規則の計画

中間解析を実施する場合は、その時期、判断基準、α分配法 (例:O’Brien–Fleming法、Pocock法) を明確にします。加えて、バイアス防止策 (盲検維持、情報アクセス制限など) もあらかじめ規定しておくことが重要です。データ安全性監視委員会 (DSMB) を設置する場合は、その役割と運用範囲も明記します。

3.3.4 解析対象集団の定義

Intent-to-Treat、Full Analysis Set、Per-Protocol Set、安全性解析対象集団について、適用基準と除外ルールを文書化します。特にITT解析では欠測が避けられないため、欠測データの取り扱い (補完方法や感度解析の方針) も含めて具体的に記載することが望まれます。

これらの指針をヒト臨床試験 (ヒト試験) の運用に落とし込むことで、設計と解析の実務基準が明確になり、事前の統計的検討と文書化を通じて科学的妥当性と規制要求への適合性が高まります。結果として、解析結果の解釈がより透明かつ再現可能になり、臨床的判断の信頼性向上が期待されます。

ICH E9 (R1)

4.1 ICH E9 (R1) の背景と目的

ICH E9 (R1) 追補「Estimand と感度分析」は2019年に最終化され、ICH E9を補完する重要文書として位置づけられています。

本追補の目的は、ヒト臨床試験 (ヒト試験) で推定すべき治療効果 (estimand) を明確に定義し、試験計画・実施・解析・解釈の一貫性を確保するための体系的な枠組みを提供することです。

従来のICH E9ではITT原則が強調されていましたが、治療開始後に起こりうる治療中断や併用療法の使用など、いわゆる介入後事象 (intercurrent events; ICE) への対処が十分に整理されていませんでした。ICH E9 (R1) は、こうしたICEを「後から例外処理する」のではなく、治療効果の定義そのものに組み込んで事前に整理するための考え方として「estimand」を導入し、臨床的に意味のある治療効果を定義しやすくしています。

4.2 Estimandの5つの属性

Estimandは、治療効果を明確に定義するために、以下の5つの属性で構成されます。

4.2.1 対象集団 (Population)

臨床的疑問が対象とする患者集団を定義します。通常は試験の対象集団全体を指しますが、ベースライン特性により定義されるサブグループや、特定の事象の発生・非発生により定義される主要層 (principal stratum) を対象とする場合もあります。

4.2.2 治療条件 (Treatment)

比較する治療条件を明確に定義します。単一の介入に限らず、併用療法や複雑な治療レジメンとなる場合もあります。治療期間、用量、投与方法なども含め、誤解のないレベルまで具体化して記述します。

4.2.3 変数 (Variable)

治療効果を測定するための変数 (エンドポイント) を定義します。評価時点、測定方法、評価尺度などもあわせて明確にし、解析対象となる「アウトカム」の定義を固定します。

4.2.4 ICE (Intercurrent Events) への対処方針

ICEとは、治療開始後に発生し、変数の解釈や測定可能性に影響を与える事象 (例: 治療中断、併用療法の使用、死亡など) を指します。Estimandでは、こうしたICEをどのように取り扱うかを事前に定めます。

代表的な戦略には以下があります。

  • Treatment policy
    ICEの発生を含めて評価する (原則として「そのままの現実」を捉える)
  • Hypothetical
    ICEが発生しなかった場合を仮定して評価する
  • Composite
    ICEそのものをアウトカムの一部として扱う
  • While on treatment
    ICE発生前 (治療継続中) のデータのみを用いる
  • Principal stratum
    ICEの発生・非発生で集団を層別化して評価する

重要なのは、どの戦略が「正しいか」ではなく、臨床的疑問に照らして、どの治療効果を推定したいのかを明確にしたうえで選ぶことです。

4.2.5 要約指標 (Population-level Summary)

治療効果を要約する集団レベルの指標を定義します。平均値差、リスク差、オッズ比、ハザード比など、アウトカムの性質と臨床的解釈に適した指標を選択します。

4.3 感度分析の重要性

主解析 (main estimator) は、欠測データやICEの扱いなど、必然的にいくつかの仮定に依存します。そのため、感度分析を通じて結論の頑健性を検証することが不可欠です。感度分析では、異なる仮定や解析手法を用いて、主解析の結果がどの程度変化するかを確認します。

たとえば、欠測データの扱いを変更する (例: MMRM、Multiple Imputationなど) ことや、ICEへの対処戦略を変えて評価することで、結果の安定性を検討します。主解析と感度分析の結果が概ね整合していれば、結論の信頼性が高まります。

4.4 実務における活用方法

ICH E9 (R1) を実務で活かすには、多職種の協働が欠かせません。臨床側が臨床的に重要な疑問を明確化し、統計家がそれをestimandとして形式化し、必要に応じて規制当局との対話を通じて合意形成を図ります。estimandはプロトコルとSAPの双方に明記し、試験実施中に変更が生じた場合は、その経緯と影響を追跡できるように記録します。

特に重要なのは、estimandの定義を試験計画の早期段階で行うことです。これにより、必要なデータの収集設計、欠測を最小化する運用、解析手法の選択が一貫して進み、試験の科学的妥当性が高まります。結果として、解析結果の解釈がより透明になり、試験成果の説明可能性も向上します。

DELTA2

5.1 DELTA2の概要

DELTA2 (Difference ELicitation in TrIAls) は、臨床的に意義のある差 (Minimally Important Difference; MID) の設定と、それを踏まえたランダム化比較試験 (Randomized Controlled Trial; RCT) のサンプルサイズ設計・報告に関する国際的なガイドラインです。2018年に公表され、統計的有意性に加えて臨床的意義 (臨床的に意味のある差) を設計と解釈の中心に据えることを目的としています。

MIDの概念は、「統計的に有意な差=臨床的に重要」とは限らないという認識から発展してきました。たとえば大規模試験では、臨床的には無視できるほど小さな差でも統計的有意差が得られる場合があります。一方で小規模試験では、臨床的に重要な差が存在していても検出できないことがあります。DELTA2は、こうしたギャップを埋めるために、MIDを根拠に基づいて設定し、設計と結果解釈に一貫して組み込むための体系的アプローチを示しています。

5.2 DELTA2の主要な推奨事項

DELTA2の重要な考え方は、MIDの推定において単一の方法を盲目的に適用しないことです。むしろ、複数の方法を組み合わせて根拠を積み重ねる「三角測量 (triangulation)」を推奨しています。これにより、MID推定の頑健性が高まり、説明可能性も向上します。

5.3 MID推定の代表的アプローチ

MIDの推定は、主に次の方法が用いられます。実務では、どちらか一方に依存するのではなく、相互補完的に扱うことが重要です。

5.3.1 アンカー法 (Anchor-based)

外部基準 (アンカー) や臨床的評価尺度との関連に基づいてMIDを導出する方法です。患者報告アウトカム (PRO) やグローバル評価尺度と結びつけることで、変化の臨床的意味を比較的直接に反映しやすいという特徴があります。

たとえば、患者が「少し改善した」と評価する群における変化量をMIDとして設定する、といった運用が代表例です。利点は、患者や臨床医の評価と直結しやすい点にあります。

5.3.2 分布法(Distribution-based)

変数の統計的分布特性からMIDの目安を得る方法です。標準偏差の一定割合(例:0.5SD)や、効果量指標 (Cohen’s d、Glass’s Δなど) が参照されます。

分布法は客観的で再現性が高い一方、臨床的意義との直接的な結びつきが弱いため、単独で最終決定に用いる場合は慎重さが必要です。アンカー法など他手法と併用して補完する位置づけが現実的です。

5.4 ステークホルダーの参画

MIDの妥当性を確保するには、多様なステークホルダーの意見を統合することが重要です。具体的には、患者・介護者の生活上の視点、臨床医の治療判断に基づく実務的観点、規制当局の承認基準といった複数の観点を組み合わせることが推奨されます。

患者・市民参画 (Patient and Public Involvement: PPI) の枠組みを用いて、患者の価値観や優先事項を反映させることも、MIDの「臨床的な意味」を高めるうえで有用です。

5.5 実務での適用方法

DELTA2を実務に落とし込む際は、MIDを「単一数値の決定」としてではなく、根拠を積み上げていく系統的プロセスとして扱うことがポイントです。

5.5.1 MID設定の系統的プロセス

まず、既存文献や過去試験データをレビューし、対象疾患領域や類似アウトカムで報告されているMID候補を収集します。次に、アンカー法・分布法など複数手法による三角測量で候補を絞り込みます。必要に応じて、患者・臨床家パネルで妥当性を検討し、パイロット試験等で運用可能性 (実務的妥当性) を確認します。

5.5.2 文書化と不確実性の見える化

最終的に採用したMIDは、根拠と意思決定過程を明示して文書化します。可能であれば、MIDを点推定として固定するだけでなく、範囲 (例: 妥当と考えられる幅) として提示し、不確実性を透明化します。さらに、感度分析として異なるMIDを用いた場合にサンプルサイズや結論がどの程度変化するかを示しておくと、説明力が高まります。

5.5.3 サンプルサイズ設計への組み込み

症例数設計ではMIDを設計仮定の中心に据えます。従来の検出力計算に加えて、仮定の不確実性を踏まえた成功確率 (Assurance) や、ベイズ的枠組みで事前不確実性を取り込む考え方も検討に値します。適応デザインや逐次デザインを用いる場合は、MIDの不確実性をどのように扱うかを事前に定義しておくことが重要です。

5.5.4 結果解釈での活用

結果解釈では、統計的有意性と臨床的意義を並列に評価します。具体的には、推定効果の信頼区間とMIDの関係を明示し、信頼区間がMIDを含むか、MIDを上回るかを検討します。必要に応じて、NNT (Number Needed to Treat) など臨床的に解釈しやすい指標へ変換し、実務的な意思決定につながる形で提示します。

MIDを系統的に設定し、その根拠と不確実性を明確にすることで、試験設計と結果解釈の臨床的妥当性と透明性が高まります。その結果、統計的に「有意かどうか」だけでなく、臨床現場の意思決定に直結する有益なエビデンスを提供しやすくなります。

まとめ

本稿では、ヒト臨床試験 (ヒト試験) の統計解析に関する主要なガイドラインを概観し、それぞれの役割と実務での使いどころを整理しました。SAPのガイダンスは、解析を「実装可能な手順」に落とし込み、恣意性を抑えて再現性を担保するための基盤になります。ICH E9は、試験の設計・解析の基本原則を体系として示し、事前計画とバイアス低減を軸に試験品質を支えます。さらにICH E9 (R1) は、治療中断などの介入後事象 (ICE) を含めて「何を推定したいのか」を明確化し、試験計画・解析・解釈の一貫性を強化する枠組みです。DELTA2は、統計的有意性だけでなく臨床的意義 (MID) を設計と解釈に組み込み、意思決定に直結するエビデンス作りを後押しします。

重要なのは、これらを個別のルールとして暗記することではなく、「何を知りたい試験なのか」→「どう定義するのか」→「どう測り、どう解析し、どう説明するのか」を一貫させるための道具として使うことです。ガイドラインを踏まえて計画と文書化を行えば、結果の透明性が高まり、後からの説明や検証にも耐えやすくなります。

今後もガイドラインは改訂・拡充されていくことが見込まれますが、基本となる考え方は共通しています。すなわち、事前に定義し、設計でバイアスを減らし、解析で仮定を明示し、感度分析で頑健性を確認し、臨床的意味を踏まえて解釈することです。本稿が、統計解析の品質向上と国際標準に沿った試験運用の一助になれば幸いです。

関連するサービス

参考文献

  • International Conference on Harmonisation of Technical Requirements for Registration of Pharmaceuticals for Human Use (ICH). Statistical principles for clinical trials. ICH Harmonised Tripartite Guideline E9. Current Step 4 version dated 5 Feb 1998. Geneva: ICH; 1998.
  • International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use (ICH). Addendum on estimands and sensitivity analysis in clinical trials to the guideline on statistical principles for clinical trials. ICH Harmonised Guideline E9(R1). Final version adopted 20 Nov 2019. Geneva: ICH; 2019.
  • Gamble C, Krishan A, Stocken D, Lewis S, Juszczak E, Doré C, Williamson PR, Altman DG, Montgomery A, Lim P, Berlin J, Senn S, Day S, Barbachano Y, Loder E. Guidelines for the Content of Statistical Analysis Plans in Clinical Trials. JAMA. 2017 Dec 19;318(23):2337-2343. doi: 10.1001/jama.2017.18556. PMID: 29260229.
  • Cook JA, Julious SA, Sones W, Hampson LV, Hewitt C, Berlin JA, Ashby D, Emsley R, Fergusson DA, Walters SJ, Wilson ECF, Maclennan G, Stallard N, Rothwell JC, Bland M, Brown L, Ramsay CR, Cook A, Armstrong D, Altman D, Vale LD. DELTA2 guidance on choosing the target difference and undertaking and reporting the sample size calculation for a randomised controlled trial. Trials. 2018 Nov 5;19(1):606. doi: 10.1186/s13063-018-2884-0. PMID: 30400926; PMCID: PMC6218987.