重要な副次的アウトカムを考える

アウトライン

作成日: 2026/1/25
更新日: –

はじめに

機能性表示食品のヒト臨床試験 (ヒト試験) では、主要アウトカム（Primary outcome）に加えて、複数の副次的アウトカム（Secondary outcomes）を設定することが一般的です。

これは、食品摂取による効果が単一の指標だけで完結することは少なく、関連する生理指標や自覚症状、補助的な評価指標を併せて確認することに合理性があるためです。

一方で、評価項目が増えるほど避けて通れなくなるのが、多重性（Multiplicity）の問題です。複数のアウトカムを同時に評価すれば、偶然による有意差が生じる確率は確実に高まります。この点を十分に意識しないまま結果を解釈すると、試験の信頼性そのものが揺らぐことになりかねません。

近年、こうした背景の中で「重要な副次的アウトカム（Key secondary outcome）」という表現が用いられる場面が増えてきました。しかしその一方で、「副次的なのに“重要”とはどういう意味なのか」「有意差が出たと主張してよいのか」「主要アウトカムが非有意でも使ってよいのか」といった疑問や誤解も少なくありません。場合によっては、結果を強調するための都合のよいラベルとして使われてしまうケースも見受けられます。

重要な副次的アウトカムは、単なる言い換えや便利な表現ではありません。正しく扱うためには、試験の目的、事前の設計、多重性への対応、そして結果解釈の一貫性が厳しく問われます。これは統計のテクニックの問題である以前に、試験として何を検証したいのか、どこまでを主張したいのかという設計思想の問題です。

本コラムでは、重要な副次的アウトカムという概念を起点に、多重性問題の本質、陥りやすい誤解、そして実務のための考え方を、統計・規制・実務の視点から整理します。

重要な副次的アウトカムを知る

2.1 副次的アウトカムとは？

まず、副次的アウトカムについて復習してみます。
ICH-E9には、以下のように定義されていました。

II. 臨床開発全体を通して考慮すべきこと, 2.2 試験で扱う範囲, 2.2.2 主要変数と副次変数
(省略)・・・副次変数は、主要な目的に関連した補足的な測定値又は副次目的に関連した効果の測定値のどちらかである。治験実施計画書において副次変数を事前に定義し、試験結果の解釈の際に副次変数が果たす相対的な重要性と役割を説明することも重要である。副次変数の数は、試験で答えるべき限られた少数の問題と関連して制限すべきである。

II. 臨床開発全体を通して考慮すべきこと, 2.2 試験で扱う範囲, 2.2.2 主要変数と副次変数

(省略)・・・

副次変数は、主要な目的に関連した補足的な測定値又は副次目的に関連した効果の測定値のどちらかである。治験実施計画書において副次変数を事前に定義し、試験結果の解釈の際に副次変数が果たす相対的な重要性と役割を説明することも重要である。副次変数の数は、試験で答えるべき限られた少数の問題と関連して制限すべきである。

ICH-E9 臨床試験のための統計的原則より引用

ICH-E9では、副次的アウトカムについて「主要な目的に関連した補足的な測定値」または「副次目的に関連した効果の測定値」と整理した上で、その数を試験で答えるべき限られた少数の問題に関連して制限すべきと述べています。

この一文は、副次的アウトカムを漫然と増やすことへの明確な警鐘です。

ここで注目すべきなのは、副次変数 (副次的アウトカム) であっても、試験全体の目的との関係の中で、その役割と解釈上の位置づけを明確にせよという要求です。

この考え方を突き詰めていくと、自然と浮かび上がってくるのが、いわゆる「重要な副次的アウトカム（Key secondary outcome）」という概念です。

2.2 なぜ「重要な副次的アウトカム」が必要か？

臨床試験では、主要アウトカムは原則として1つに絞られます。一方で、主要アウトカムだけでは介入効果の全体像を十分に説明できない場合があります。

たとえば・・・

主要アウトカムの変化を臨床的に裏づける指標
主要アウトカムと密接に関連する補完的な効果指標
将来的な評価につながる準主要的なアウトカム

などは、単なる探索的な副次解析として片付けるには、解釈上の重みが大きすぎます。そこで登場したのが、「副次ではあるが、解釈上は特別な位置づけを与えたいアウトカム」を明示的に区別するという発想です。

ICH-E9の他の記述を見ても、重要な副次的アウトカムを設定することができることが示唆されています。

2.2.4 総合評価変数
(省略)・・・総合評価を実施する際、治験責任医師によって考慮されている客観的な変数があれば、それらの客観的変数は主要変数又は少なくとも重要な副次変数として追加することを検討すべきである。・・・(省略)

2.2.4 総合評価変数

(省略)・・・

総合評価を実施する際、治験責任医師によって考慮されている客観的な変数があれば、それらの客観的変数は主要変数又は少なくとも重要な副次変数として追加することを検討すべきである。

・・・(省略)

ICH-E9 臨床試験のための統計的原則より引用

3.5 必要な被験者数
臨床試験の被験者数は、提示された問題に信頼のおける解答を与えられるよう常に十分多くすべきである。試験に必要な被験者数は、通常試験の主要な目的により決められる。被験者数がその他の理由から決定される場合には、その理由を明確にし正当化しておくべきである。例えば、安全性に関する問題若しくは要求に基づいた試験又は重要な副次目的に基づいて被験者数が決定される試験では、主要な有効性の問題に基づいて被験者数が決定される試験よりも多くの被験者数を必要とするであろう（例えば、ICH E1A 参照）。・・・(省略)

3.5 必要な被験者数

臨床試験の被験者数は、提示された問題に信頼のおける解答を与えられるよう常に十分多くすべきである。試験に必要な被験者数は、通常試験の主要な目的により決められる。被験者数がその他の理由から決定される場合には、その理由を明確にし正当化しておくべきである。例えば、安全性に関する問題若しくは要求に基づいた試験又は重要な副次目的に基づいて被験者数が決定される試験では、主要な有効性の問題に基づいて被験者数が決定される試験よりも多くの被験者数を必要とするであろう（例えば、ICH E1A 参照）。

・・・(省略)

ICH-E9 臨床試験のための統計的原則より引用

このように見てくると、「重要な副次的アウトカム（Key secondary outcome）」とは・・・

被験者数設計に影響を与えるほど重要であり
結果解釈や総合評価において無視できず
しかし主要アウトカムではない

という、中間的だが極めて厳密な位置づけを与えられたアウトカムであることが分かります。つまり、試験の問い・設計・解釈のいずれにおいても、重要性の高い副次変数 (副次的アウトカム) は明示的に扱われなければならないという一貫した思想の表れです。

重要な副次的アウトカムの解析

重要な副次的アウトカム（Key secondary outcome）は、前述のとおり、事前に階層構造や解釈ルールを明示すれば、主要アウトカムに近い位置づけで扱うことが可能とされています。

つまり、「重要な副次的アウトカム」は、事前規定（pre-specification）と多重性制御を前提として初めて成立する概念であり、結果を見てから意味づけを強めるための後付けのラベルではありません。

以下では、この二つの前提条件について整理します。

3.1 「重要な副次的アウトカム」と事前に宣言する

重要な副次的アウトカムを設定する上で最も重要なのは、事前にその位置づけを明確に宣言することです。

ここでいう「事前」とは、

試験開始前
遅くともデータ固定前

であり、結果を確認する前であることが不可欠です。

3.1.1 事前宣言で求められる内容

単に「この副次アウトカムは重要である」と記載するだけでは不十分で、以下の点を明確にしておく必要があります。

なぜこのアウトカムが重要なのか
主要アウトカムとどのような関係にあるのか
試験全体の目的の中で、どの問いに答える指標なのか

すなわち、重要な副次的アウトカムとは、主要アウトカムを補足する“意味のある次の問い”として位置づけられていなければなりません。

3.1.2 複数主要評価項目 (co-primary / multiple primary endpoints) との違い

重要な副次的アウトカムは、しばしば複数主要評価項目（co-primary / multiple primary endpoints）と混同されがちですが、両者は試験設計上の位置づけも、統計的な意味合いも本質的に異なります。この違いを明確に理解しておくことは、結果解釈の一貫性を保つ上で極めて重要です。

※用語上、co-primaryをAND型に限定して用いる文献もあります。本稿では、AND/OR いずれの成功基準であっても「複数主要評価項目（co-primary / multiple primary）」として扱います。

<複数主要評価項目（co-primary / multiple primary endpoints）>

複数主要評価項目とは、試験の主要な仮説検証を複数のアウトカムで同時に構成する設計を指します。主要アウトカムが単一であるか複数であるかは設計上の違いに過ぎず、いずれの場合もそれらは同じ主要仮説群（primary endpoints）に属します。

co-primary endpoint では、試験開始前に成功基準が明確に定義されます。典型的には以下の2つの考え方があります。

AND 条件：すべての主要評価項目で有意差が必要
OR 条件：いずれか1つでも有意であれば成功
※いずれの場合も、適切な多重性制御は必須

いずれにせよ、複数主要評価項目は試験の成否を直接決定する指標であり、サンプルサイズ設計の根拠となります。したがって、統計解析計画においても最も厳密な取り扱いが求められます。

<重要な副次的アウトカム（Key secondary outcome）>

これに対し、重要な副次的アウトカムは、主要仮説群には属しません。

主要アウトカム（単一・複数を問わず）を補足・支持する役割
試験結果の解釈を豊かにするが、主要アウトカムに代わるものではない
主要アウトカムが非有意の場合、検証的な主張には明確な制約が生じる
検証的に扱うためには、階層的検定などの事前規定が不可欠

重要な副次的アウトカムは「主要に準ずる重要性」を持つ指標ではありますが、試験の成功・失敗を決める立場にはありません。

観点	複数主要評価項目	重要な副次的アウトカム
血圧改善試験	収縮期血圧と拡張期血圧の両方が主要アウトカム	収縮期血圧（主要）が有意 → 拡張期血圧 (副次) として評価
試験の成否	定義された成功条件を満たせば成功	主要アウトカムが有意なら成功
仮説群の位置	主要仮説群に属する	主要仮説群には属さない
多重性対応	主要アウトカム間の多重性調整が必要	主要→副次の階層的検定が必要

重要な副次的アウトカムを、複数主要評価項目と同列に扱ってしまうと、主要アウトカムで有意差が得られなかった場合に、重要な副次的アウトカムの結果のみを強調するという解釈上の問題が生じやすくなります。

主要アウトカムが単一であれ複数であれ、それらはすべてprimary endpointであるという前提を明確にし、その外側に重要な副次的アウトカムを位置づけることが、結果の信頼性と説明可能性を担保する上で不可欠です。

3.2 多重性の制御

重要な副次的アウトカムを検証的に扱う以上、多重性（Multiplicity）の問題は避けて通れません。

有意水準5%の検定を複数回行えば、偶然による有意差が得られる確率は確実に上昇します。重要な副次的アウトカムで有意差が示されたとしても、多重性が適切に制御されていなければ、その結果の信頼性は大きく損なわれます。

そのため、重要な副次的アウトカムを「主張できる結果」として扱うには、多重性への対応を事前に定めておくことが不可欠です。

3.2.1 代表的な多重性への対応方法

<階層的検定（Hierarchical testing）>

最も実務的で、解釈が明確な方法です。

まず主要アウトカムを検定
主要アウトカムが有意であった場合に限り、重要な副次的アウトカムを検定

この方法では、検定の順序そのものが事前に規定された解釈ルールとなり、Family-wise error rate （FWER）を制御することができます。

<有意水準の調整>

Bonferroni法やHolm法などにより、有意水準を分割する方法もあります。ただし、重要な副次的アウトカムの数が多い場合には検出力が大きく低下するため、実務上は慎重な適用が必要です。

いずれにせよ「重要な副次」であることは、制御免除を意味しません。重要な副次的アウトカムであっても、多重性制御が必要です。むしろ、「重要」と位置づけるからこそ、より厳密な統計的取り扱いが求められると考えるべきです。

階層的検定の例

重要な副次的アウトカムを設定したとしても、それをどのように検定し、どのように解釈するのかが事前に定められていなければ、主要アウトカムと同等の説得力をもつ結論にはなりません。

その際に中核となる考え方が、階層的検定（hierarchical testing）、すなわちゲートキーピング手順です。

通常の試験デザインでは・・・

主要アウトカムが有意でない
副次アウトカムだけが有意である

という結果が得られることがあります。しかしこの場合、副次アウトカムの結果は多重性の観点から探索的と解釈され、検証的な結論には使えません。

これに対し、

主要アウトカム → 重要な副次的アウトカム

という順序をあらかじめ規定し、上位の仮説が棄却された場合にのみ次の仮説の検定に進むという階層構造を採用すれば、Family-wise error rate （FWER）を制御したまま、重要な副次的アウトカムを検証的に評価できます。

今回は2つの階層的検定（hierarchical testing）を紹介します。

4.1 固定順序法（Fixed-sequence procedure）

固定順序法（Fixed-sequence procedure）は、Family-wise error rate （FWER）を制御できることが理論的に保証された多重性調整手法です。

この方法では、仮説をあらかじめ重要度順に並べ、上位の仮説が棄却された場合にのみ、次の仮説を検定するという極めて明確なルールを採用します。

各仮説は全有意水準αで逐次的に検定されるため、Bonferroni法のように有意水準を分割する必要がなく、調整後の有意水準を意識せずに結果を解釈できる点が大きな特徴です。

一方で、この方法は仮説の順序付けが正当であることを強く前提とします。最上位に置かれた仮説は、試験の中心的な問いを反映し、かつ最も確からしい効果が期待されていなければなりません。

もし、上位の仮説が真でない（効果がない）場合、下位の仮説が真であっても検定に到達できず、結果として検出力を失うことになります。

4.1.1 固定順序法の定義

重要度順に並べた\(m\)個の仮説を

\[H_{1},H_{2},\ldots,H_{m}\]

とし、対応する\(p\)値を

\[p_{1},p_{2},\ldots,p_{m}\]

とします。有意水準をαとすると、固定順序法は次の規則で定義されます。

\(H_{1}\): \(p_{1} \leq \alpha\)の場合に棄却

\(H_{2}\): \(p_{2} \leq \alpha\ かつ\ H_{1}\ が棄却されている場合に棄却\)

\(H_{3}\): \(p_{3} \leq \alpha\ かつH_{1}\ と\ H_{2}\ がともに棄却されている場合に棄却\)

すなわち、上位のすべての仮説が棄却されて初めて、次の仮説の検定が許可されるという、極めて厳格なルールです。

4.1.2 なぜFWERが制御されるのか？

固定順序法が FWER ≤ α を保証する理由は、非常に直感的です。

最初に現れる「真の帰無仮説」が誤って棄却される確率は最大 α
その時点で検定は停止する
それ以降で偽陽性が生じることはない

数学的には、

\[\text{FWER} = P(\text{少なくとも1つの真の帰無仮説を棄却}) \leq P(\text{最初の真の帰無仮説を棄却}) \leq \alpha\]

となります。

この性質により、各仮説をα = 0.05で検定しても、全体のFWER は5%以下に保たれます。

4.1.3 固定順序法の具体例

固定順序法の具体例を以下に示します。

<設定>

\(H_{1}\): 主要アウトカム
\(H_{2}\): Key secondary A
\(H_{3}\): Key secondary B

有意水準は、α = 0.05 （両側）

ケース1: すべて有意
① \(H_{1}\): p₁ = 0.012 → 棄却 ② \(H_{2}\): p₂ = 0.031 → 棄却 ③ \(H_{3}\): p₃ = 0.045 → 棄却結果: 3つすべてを検証的に有意と結論

ケース1: すべて有意

① \(H_{1}\): p₁ = 0.012 → 棄却
② \(H_{2}\): p₂ = 0.031 → 棄却
③ \(H_{3}\): p₃ = 0.045 → 棄却

結果: 3つすべてを検証的に有意と結論

ケース2: \(H_{2}\)で停止
① \(H_{1}\): p₁ = 0.008 → 棄却 ② \(H_{2}\): p₂ = 0.067 → 棄却されず ③ \(H_{3}\): 検定不可結果: \(\mathbf{H}_{\mathbf{1}}\)のみ検証的に有意。\(\mathbf{H}_{\mathbf{3}}\)は探索的解析扱い

ケース2: \(H_{2}\)で停止

① \(H_{1}\): p₁ = 0.008 → 棄却
② \(H_{2}\): p₂ = 0.067 → 棄却されず
③ \(H_{3}\): 検定不可

結果: \(\mathbf{H}_{\mathbf{1}}\)のみ検証的に有意。\(\mathbf{H}_{\mathbf{3}}\)は探索的解析扱い

ケース3: \(H_{1}\)で停止
① \(H_{1}\): p₁ = 0.082 →棄却されず ② \(H_{2}\): 検定不可 ③ \(H_{3}\): 検定不可結果: 試験の主要目的は達成されず、すべて探索的解析扱い

ケース3: \(H_{1}\)で停止

① \(H_{1}\): p₁ = 0.082 →棄却されず
② \(H_{2}\): 検定不可
③ \(H_{3}\): 検定不可

結果: 試験の主要目的は達成されず、すべて探索的解析扱い

4.1.4 固定順序法の利点と限界

固定順序法の最大の利点は、その明快さにあります。

各仮説を有意水準α = 0.05のまま検定できるため、Bonferroni法のような有意水準の分割を行う必要がありません。それでいて、Family-wise error rate （FWER）は理論的に厳密に制御されており、統計学的な安全性と実務的な分かりやすさを両立しています。

また、検定手順が単純であるため実装が容易で、統計専門でない関係者に対しても説明しやすい点は、実務上大きなメリットといえるでしょう。さらに、最上位に置かれた仮説については、有意水準の分割による検出力の低下が生じない点も重要です。

一方で、この方法は非常に厳格です。上位の仮説が非有意であった場合、たとえ下位の仮説が真であっても検定に到達できません。仮説の順序付けそのものが試験の成否を左右するため、「なぜこの順序なのか」という説明責任が常に伴います。固定順序法は、下位仮説の情報をあえて活用しないことを選ぶ手法であり、その潔さが長所であると同時に、柔軟性の欠如という限界にもなります。

4.1.5 仮説の順序付けの考え方

固定順序法において、仮説の順序付けは単なる形式的な操作ではありません。それ自体が試験の設計思想を表現する、最も重要な要素です。順序付けを行う際には、少なくとも以下の観点を考慮する必要があります。

主な基準は以下の通りです。

臨床的重要性

最も重要な問いを最上位に
効果発現の論理的順序

メカニズム的に先行する効果を上位に
効果の確からしさ

事前情報に基づき、より期待できる指標を上位に
規制・表示上の必要性

表示に必須の項目を上位に

固定順序法は、すべての試験に万能な方法ではありません。しかし、次のような条件がそろう試験では、非常に強力な選択肢となります。

試験内に明確なヒエラルキーが存在し、主要アウトカムの成功が最優先である場合やアウトカム間の順序付けが臨床的に自然で説得力があり、試験全体の解釈をシンプルに保ちたい場合です。

特に機能性表示食品の試験では、「主要アウトカムが非有意であれば、副次的アウトカムは探索的に扱う」という整理が求められる場面が多く、固定順序法との親和性は高いといえます。

機能性表示食品に適用するなら？

主要な機能性関与成分の直接効果
↓
関連する生理学的指標
↓
自覚症状・QOL

といった階層構造が、比較的自然に受け入れられると思います。

固定順序法が体現しているのは、「上位の問いに答えられなければ、下位の問いは検証的には扱わない」という、非常に厳格で誠実な姿勢です。

主要アウトカムが非有意であった場合、試験は主要目的を達成していないと結論づけます。たとえKey secondaryが有望な結果を示していたとしても、それを検証的な主張として前面に出すことはしません。

この「潔さ」こそが、固定順序法の科学的価値であり、恣意的な解釈を排した透明性の高い結論を支えています。

4.2 Fallback法（Fallback procedure）

Fallback法は、固定順序法の「一本道すぎる」という弱点を補うために考案された多重性調整手法です。

その基本的な考え方は、最初から有意水準を複数の仮説に分配し、上位の仮説で使用されなかった有意水準を、下位の仮説に繰り越すというものです。

このように、Fallback法は仮説間の階層性を維持しつつ、一定の柔軟性を持たせた検定を可能にします。

4.2.1 Fallback法の定義

重要度順に並べた\(m\)個の仮説を

\[H_{1},H_{2},\ldots,H_{m}\]

とします。

これらの仮説に対して、初期の有意水準を事前に設定します。

\[\alpha_{1},\alpha_{2},\ldots,\alpha_{m}\]

ただし、全体の有意水準 \(\alpha\)に対して、

\[\sum_{i = 1}^{m}\alpha_{i} = \alpha\]

が成り立つようにします。

各仮説 \(H_{i}\)は、その時点で割り当てられている有意水準で検定されます。

\[\text{Reject }H_{i}\text{if }p_{i} \leq \alpha_{i}\]

4.2.2 有意水準の再配分メカニズム

仮説\(H_{i}\)が棄却された場合、その仮説に割り当てられていた有意水準\(\alpha_{i}\)は、まだ棄却されていない後続の仮説に再配分されます。

一般的には、次のように定義されます。

\[\alpha_{j} \leftarrow \alpha_{j} + w_{ij}\alpha_{i}(j > i)\]

ここで\(w_{ij}\)は再配分係数であり、

\[\sum_{j > i}^{}w_{ij} = 1\]

を満たすよう、事前に定めておく必要があります。

Fallback法では、仮説を順番に検定していく過程で、棄却が生じるたびに、その都度再配分が行われます。

流れは以下の通りです。

① \(H_{1}\)を \(\alpha_{1}\)で検定
② \(H_{1}\)が棄却された場合、\(\alpha_{1}\) を後続に再配分
③ 更新された有意水準で \(H_{2}\)を検定
④ \(H_{2}\)が棄却された場合、\(\alpha_{2}\) を後続に再配分
⑤ 以下、同様に繰り返す

この再配分ルールにより、上位仮説が棄却されるほど、下位仮説はより大きな有意水準で検定されることになります。

4.2.3 固定順序法との関係

ちなみに固定順序法は、Fallback法の特殊ケースとして位置づけることができます。
すなわち、Fallback法において有意水準を

\[\alpha_{1} = \alpha,\alpha_{2} = \cdots = \alpha_{m} = 0\]

と設定し、再配分係数を

\[w_{12} = 1,\text{|,}w_{23} = 1,\text{|,}\ldots,\text{|,}w_{m – 1,m} = 1\]

とした場合 (棄却された仮説の有意水準を、すべて次の1つの仮説にだけ渡すという意思決定を明示した場合)、

上位の仮説が棄却されなければ下位の仮説は検定されないという固定順序法の手順が再現されます。

この意味で、Fallback法は固定順序法を一般化した枠組みであるといえます。

4.2.4 Fallback法の具体例

Fallback法の具体例の具体例を以下に示します。

<設定>

\(H_{1}\): 主要アウトカム
\(H_{2}\): Key secondary A
\(H_{3}\): Key secondary B

<初期の有意水準配分>

\[\alpha_{1} = 0.04,\alpha_{2} = 0.01,\alpha_{3} = 0\]（合計: 0.05）

<再配分係数>

\(w_{12} = 0.5,\text{|,}w_{13} = 0.5\)
\(w_{23} = 1.0\)

ケース1: \(\mathbf{H}_{\mathbf{1}}\) が有意（\(\mathbf{p}_{\mathbf{1}}\mathbf{= 0.03}\)）
④ \(H_{1}\)：\(0.03 < 0.04\) → 棄却 ⑤ \(\alpha_{1}\)を再配分 \[\alpha_{2} = 0.01 + 0.5 \times 0.04 = 0.03\] \[\alpha_{3} = 0 + 0.5 \times 0.04 = 0.02\] ⑥ \(H_{2}\)を 0.03 で検定 \(H_{2}\)が棄却されれば、\(\alpha_{2}\) はすべて \(H_{3}\)に再配分 → \(\alpha_{3} = 0.02 + 0.03 = 0.05\)

ケース1: \(\mathbf{H}_{\mathbf{1}}\) が有意（\(\mathbf{p}_{\mathbf{1}}\mathbf{= 0.03}\)）

④ \(H_{1}\)：\(0.03 < 0.04\) → 棄却
⑤ \(\alpha_{1}\)を再配分

\[\alpha_{2} = 0.01 + 0.5 \times 0.04 = 0.03\]

\[\alpha_{3} = 0 + 0.5 \times 0.04 = 0.02\]

⑥ \(H_{2}\)を 0.03 で検定
\(H_{2}\)が棄却されれば、\(\alpha_{2}\) はすべて \(H_{3}\)に再配分 → \(\alpha_{3} = 0.02 + 0.03 = 0.05\)

ケース2: \(\mathbf{H}_{\mathbf{1}}\) が非有意（\(\mathbf{p}_{\mathbf{1}}\mathbf{= 0.06}\)）
① \(H_{1}\)：棄却されず ② 再配分なし \[\alpha_{2} = 0.01,\alpha_{3} = 0\] ③ \(H_{2}\)は 0.01 でのみ検定可能 ④ \(H_{2}\)が棄却された場合のみ、\(H_{3}\) を 0.01 で検定可能このように、主要アウトカムが非有意でも下位仮説は検定可能ですが、使用できる有意水準は厳しく制限されます。

ケース2: \(\mathbf{H}_{\mathbf{1}}\) が非有意（\(\mathbf{p}_{\mathbf{1}}\mathbf{= 0.06}\)）

① \(H_{1}\)：棄却されず
② 再配分なし

\[\alpha_{2} = 0.01,\alpha_{3} = 0\]

③ \(H_{2}\)は 0.01 でのみ検定可能
④ \(H_{2}\)が棄却された場合のみ、\(H_{3}\) を 0.01 で検定可能

このように、主要アウトカムが非有意でも下位仮説は検定可能ですが、使用できる有意水準は厳しく制限されます。

4.2.5 Fallback法の特徴と注意点

Fallback法の特徴は、主要アウトカムが非有意であった場合でも、重要な副次的アウトカムを限定された有意水準で検定できる点にあります。

この柔軟性は、重要な副次的アウトカムを主要アウトカムに準ずる位置づけで評価したい場合に有用です。

利点	主要アウトカムが非有意でもKey secondaryを検定可能固定順序法より柔軟 FWER を厳密に制御（≤ α）有意水準を無駄にしない
欠点	初期α配分や再配分係数が恣意的になりやすい固定順序法より説明が複雑主要が非有意の場合、下位の検出力は大きく低下

ただし、この点は誤解されやすく、特に注意が必要です。Fallback 法を用いたとしても、「主要アウトカムが非有意であっても、副次アウトカムが有意であれば試験は成功」という解釈が許されるわけではありません。

主要アウトカムが非有意で、副次アウトカムのみが有意であった場合、その結果は限定的な検証結果として解釈されるべきであり、試験全体としての成功とは解釈できないことを、事前に明確にしておく必要があります。

Fallback法は、固定順序法の厳格な階層性を保ちながら、検出力と柔軟性のバランスを取るための手法です。

重要な副次的アウトカムを検証的に評価したい場合に有効な選択肢となり得ますが、その解釈はあくまで事前に定めたルールの範囲内に限定されます。

したがって、Fallback法の採用は統計的工夫というよりも、どこまでの主張を許容する試験なのかという設計思想の表明であると理解することが重要です。

4.3 階層的検定の代表的なバリエーション

固定順序法とFallback法を紹介しましたが、階層的検定（hierarchical testing, gatekeeping procedures）は、「仮説の重要度構造を統計手順に反映する」という共通思想のもと、いくつかの代表的な設計があります。

直列型ゲートキーピング（Serial gatekeeping）

直列型ゲートキーピングでは、仮説をファミリー単位で直列に配置します。ファミリー1、ファミリー2、ファミリー3といったように階層を明確に分け、前のファミリーに含まれる仮説がすべて棄却された場合に限り、次のファミリーの仮説を検証的に検定します（前のファミリーで1つでも棄却されなければ、次のファミリーには進みません）。

各ファミリー内では、Bonferroni法やHolm法などの多重性調整を用いて並列に検定が行われますが、ファミリー間には厳格な順序関係が課されます。このため、直列 (逐次) 型ゲートキーピングは「ファミリー内は並列、ファミリー間は階層」という二層構造を持つ手法といえます。

この構造は、「主要アウトカム → 重要な副次的アウトカム → 探索的副次アウトカム」という整理と非常に相性が良く、試験全体の解釈ルールを明確に示したい場合に有効です。主要アウトカムが試験の成否を決定し、その結果に基づいて副次的な評価を段階的に位置づけたい場合に、直列型ゲートキーピングは強力な枠組みを提供します。
並列型ゲートキーピング（Parallel gatekeeping）
仮説を複数のファミリーに分け、ファミリー内は並列に検定しつつ、ファミリー間には条件付きの順序関係を設けます。
- ファミリー1: 主要アウトカム（複数）
- ファミリー2: 重要な副次的アウトカム（複数）
並列型の特徴は、次のファミリーに進む条件が 「上位ファミリーのすべての成功」ではなく、「少なくとも1つの棄却」など比較的緩い条件として設定できる点にあります。

このため、上位ファミリーで一部の仮説が棄却された場合に、下位ファミリーの検定が解放される設計が可能です。

一方で、上位ファミリーで1つも棄却されなかった場合、ゲートは開かず、下位ファミリーは（手順上）検定されません。したがって下位アウトカムを解析しても、それは検証的結論には用いず、必要なら探索的結果として参考提示するに留めます。
混合型ゲートキーピング（Multistage/Mixture gatekeeping）

混合型ゲートキーピングは、並列型と逐次型を組み合わせた、より柔軟な枠組みです。この手法では、試験の構造や目的に応じて、一部の仮説を固定順序で扱い、一部を並列に配置しさらに一部ではFallback法のような有意水準の再配分を行うといった設計が可能になります。

その結果、設計自由度は非常に高くなりますが、その分、解析計画書 (SAP) における説明や、結果解釈の一貫性を保つための整理が難しくなります。混合型ゲートキーピングは、複数の主要アウトカムを持つ大規模な試験など、複雑な意思決定構造を必要とする場面で用いられることが多い手法です。
Holm法を用いた階層構造 (階層的検定ではないです。)

Holm法を用いた階層構造は、厳密なゲートキーピングというよりも、「順序づけられた多重性調整」として位置づけられます。上位アウトカムに対してHolm法（step-down 法）を適用し、その結果として有意となった範囲に限って、下位アウトカムの検定を行うという考え方です。

この方法は、Bonferroni法よりも検出力が高く、かつ固定順序法ほど厳格ではありません。そのため、「アウトカムには重要度の順序があるが、一本道の階層構造にはしたくない」という場合の中間的な選択肢として利用されます。

ただし、検証的な主張の強さという点では、固定順序法や逐次型ゲートキーピングには及ばないため、その位置づけは慎重に考える必要があります。

これらはいずれも、「どの問いを優先し、どこまで主張を許容するか」という試験の設計思想を、統計手順として具体化したものです。重要な副次的アウトカムをどの位置に置くかによって、最適な階層構造は異なり、万能な方法は存在しないことを覚えておきましょう。

また、紹介した方法は、複雑であるため図解やイラストで示した方がわかりやすいので、それぞれの階層的検定に着目したコラムを今後作成していこうと思います。

まとめ

重要な副次的アウトカム（Key secondary outcome）は、試験結果の解釈を豊かにし、主要アウトカムだけでは捉えきれない介入効果の全体像を補足するための有用な概念です。

一方で、その扱いを誤ると、主要アウトカムの結果を回避するための「便利な言葉」として使われてしまい、試験の信頼性そのものを損なう危険性も孕んでいます。

本コラムで繰り返し強調してきたように、重要な副次的アウトカムを成立させるために不可欠なのは、

事前規定（pre-specification）
多重性への明確な対応方針
一貫した解釈ルール

の三点です。

「重要」と位置づけることは、多重性制御の免除を意味するのではなく、むしろより厳密な統計的取り扱いを自らに課すことに他なりません。

階層的検定（固定順序法、Fallback法、各種ゲートキーピング手順など）は、単なる統計テクニックではなく、「どの問いを最優先とし、どこまでの主張を許容するのか」という試験の意思決定構造を可視化する手段です。どの方法が正しいかではなく、試験の目的と設計思想に最も整合的な方法を選んでいるかが問われます。

有意差が出たかどうかよりも重要なのは、「なぜその結果を信じてよいのかを説明できるか」という点です。

重要な副次的アウトカムを扱うとは、結果を「強く見せる」ことではなく、結果を正しく位置づけ、誠実に説明する責任を引き受けることである——本コラムが、その判断の一助となれば幸いです。

参考文献

厚生労働省. ICH E9 臨床試験のための統計的原則 (2026年1月16日アクセス可能: https://www.pmda.go.jp/files/000156112.pdf)
Dmitrienko A, Kordzakhia G, Tamhane AC. Multistage and mixture parallel gatekeeping procedures in clinical trials. J Biopharm Stat. 2011 Jul;21(4):726-47. doi: 10.1080/10543406.2011.551333. PMID: 21516566.
Dmitrienko A, Tamhane AC, Wiens BL. General multistage gatekeeping procedures. Biom J. 2008 Oct;50(5):667-77. doi: 10.1002/bimj.200710464. PMID: 18932130.
Dmitrienko A, D’Agostino RB Sr, Huque MF. Key multiplicity issues in clinical drug development. Stat Med. 2013 Mar 30;32(7):1079-111. doi: 10.1002/sim.5642. Epub 2012 Oct 9. PMID: 23044723.