統計解析.com

統計解析業務の
アウトソーシング

無料相談を
予約する

「鼻目のアレルギー反応」試験のガイドラインを再考する

アウトライン
  1. 作成日: 2026/2/9
  2. 更新日: –

はじめに

機能性表示食品制度では、疾病に罹患していない者を対象に、機能性関与成分によって特定の保健の目的が期待できる旨を表示することが認められています。そのため、機能性の科学的根拠となるヒト臨床試験 (ヒト試験) は、原則として「健常者」を対象とし、対象とする摂取者層において機能が確認されていることが求められます。

一方、「鼻目のアレルギー反応 (花粉やハウスダスト等によるアレルギー性鼻炎の症状)」は、症状が季節やアレルゲン飛散量、生活環境に大きく左右され、日々の変動も小さくありません。さらに、症状評価の多くは主観指標であり、レスキュー薬 (治療薬) の使用状況によってもスコアが変化します。このような領域では、「健常者のみ」を厳密に限定した試験デザインが現実的に難しい場面もあり、軽症者が含まれるデータの取扱いがしばしば論点になります。

こうした背景を踏まえ、消費者庁は「鼻目のアレルギー反応関係」などの一部の表示に限り、一定の条件のもとで健常者に軽症者が含まれるデータを例外的に使用できる枠組みを示しています。本稿では、このガイドライン (別紙2) の要点を整理した上で、実務で通りやすい試験方法論を提案し、あわせて解釈上の注意点もまとめます。

要点を整理してみる

本制度は「疾病に罹患していない者」を対象に、機能性関与成分による保健の目的を表示する仕組みであり、ヒト臨床試験 (ヒト試験) もその摂取する層に対する機能確認が必要なため行われるという立て付けです。

原則は特定保健用食品 (トクホ) のヒト臨床試験 (ヒト試験) の考え方に準拠しつつ、例外的に軽症者等を含むデータの使用が、一定の範囲で認められています。そのような場面の一つが「鼻目のアレルギー反応関係」です。

「鼻目のアレルギー反応関係」について、別紙2の要求は大きく次の通りです。

種別 概要
比較
  • 並行群間比較
  • クロスオーバー比較
ランダム化
  • ランダム化
盲検化
  • 二重盲検 (推奨)
  • 単盲検 (プラセボの設定が困難の場合)
評価指標
  • 「鼻目症状」+「日常生活の支障度 (QOL等)」
    ※支障度は鼻目症状の変化に伴うことが条件

  • 一部指標/一部時点のみ有意でも可能 (ただし、アレルゲン飛散量との関係等を含めて適切に考察されていること。)。
【評価指標の例】
「鼻アレルギー診療ガイドライン 2020 年版」の重症度分類、日本標準QOL票などの妥当性のある指標とする。

摂取期間
(試験期間)

別紙2では明示規定なし
対象者
  • 健常者
  • 健常者+軽症者
【定義】
健常者: 治療薬なし
軽症者: 治療薬を時々 (常用せず)
機能性の確認
  • 健常者のみ、または「健常者+軽症者」の全体で検証する。全体解析をするなら健常者が概ね半数以上が条件とする (不明ならスコア等からの合理的推測が必要)
有意水準 5%

他領域の
疾病者データ

論文において健常者として扱われていれば使用可能

※ただし疾病域/非疾病域/不明の内訳確認が必要

この領域で適した方法論を考える

別紙2は細部が抽象的なので、規制要件を満たしつつ、統計的にブレにくい設計に落とし込む必要があります。この章では、ポイントをいくつかにわけて解説します。

3.1 デザイン

基本は、並行群間比較デザインを推奨します。ガイドライン上ではクロスオーバー比較デザインも許容されていますが、花粉症領域では期 (Period) の違いによりアレルゲン曝露量が大きく異なり、交絡が避けられません。

クロスオーバーを選択するなら、ウォッシュアウト期間の設計根拠と、期間効果 (Period effect) の検討を統計解析計画書 (Statistical Analysis Plan; SAP) に記載することが必須となり、第三者からの追及リスクが高まります。

また、主要評価項目は主観評価 (症状スコア、QOL) が中心となるため、二重盲検が原則です。単盲検が許容される場合でも、以下を満たさないと第三者から指摘されやすいです。

  • 電子日誌による評価の標準化
  • 入力タイミングの固定 (毎日同時刻)
  • 説明文言の統一 (試験参加者への説明)
  • 主要解析の事前定義 (SAP登録)

実務上は、二重盲検が困難な場合でも、エンドポイント評価 (集計・判定) を盲検化する設計を組み込むことで、主観指標に伴うバイアスを抑制できます。

たとえば、PROBE (Prospective, Randomized, Open-label, Blinded-Endpoint) の考え方を採用し、割付そのものはオープン (または試験参加者が推測し得る) であっても、QOLや症状スコアのデータ回収・集計・解析担当者を割付から遮断する運用を徹底します。

電子日誌等で入力を標準化し、評価者の介入を最小化した上で、解析を事前規定どおりに実施すれば、QOL評価の解釈可能性と信頼性を実務的に補強できます。

3.2 割付方法

3.2.1 層別ブロックランダム化 (Stratified Block Randomization)

健常域と軽症域の両方を試験に組み入れる場合は、層別ブロックランダム化が標準です。層別因子を明示し、予測不可能性を担保するため、置換ブロック法 (Permuted Block) を用います。

考えられる層別因子:

  • 健常者/軽症者の区分 (必須)
  • 施設 (多施設の場合)
  • 性別 (症状の出方に性差がある場合)

ブロックサイズは、4または6が一般的ですが、ブロックサイズを固定すると割付予測のリスクがあるため、ランダムブロックサイズ (4、6、8の混合など) が望ましいです。ただし、小規模試験 (N < 40) ではブロックサイズを固定し、層ごとの均衡を優先することもあります。

3.2.2 最小化法 (Minimization) は許容されるか?

結論から言えば、の領域では最小化法を選ぶ積極的な理由がありません。最小化法は、割付時点で群間のバランスを最大化できる利点がありますが、以下の理由から機能性表示食品の届出のためのヒト臨床試験 (ヒト試験)、特に「鼻目のアレルギー反応関係」の領域では推奨しにくいです。

  • 健常者≧50%の制約との相性が悪い

別紙2は「健常者が概ね半数以上」を求めています。この要件を満たすには、募集段階で健常者枠と軽症者の枠 (層) をそれぞれ設定し、比率をコントロールする必要があります。

層別ブロックランダム化 健常者層・軽症者層それぞれに募集枠 (例: 健常者50名、軽症者30名) を設定し、各層内で独立にブロック割付を行います。層ごとの登録状況を見ながら募集を調整できるため、最終的な比率を確実にコントロールできます。
最小化法 割付時点で「群間バランスが最も良くなる群」に割り付ける方式のため、層ごとの人数枠という概念がありません。健常者と軽症者の比率は、登録された試験参加者の構成に依存します。結果として、募集途中で軽症者の登録を止めるなどの追加運用が必要になり、手続きが煩雑になります。

つまり、健常者比率の制約がある時点で、最小化法の「動的にバランスを取る」という利点が活きず、層別ブロックランダム化で十分に対応できることになります。

  • 予測可能性の問題

純粋な最小化法はdeterministic (決定論的) であり、次の割付が予測可能になるリスクがあります。消費者庁は「ランダム化」を明示的に要求しており、予測可能性への説明責任が生じます。

確率付き最小化法 (Biased Coin Minimization) で確率要素を加えれば予測可能性は下がりますが、その確率設定の根拠をSAPに明記する必要があり、説明コストが増えます。

  • 層別因子が多くても、この領域では問題になりにくい

一般に、因子が4つ以上あり層別ブロック法では層が細分化しすぎる場合に最小化法が検討されます。しかし、鼻目のアレルギー反応領域では、層別因子は通常1〜3個 (健常/軽症、施設、性別) で収まるため、層の細分化問題は起きにくいです。

実務上は、以下の表のように状況にあわせて、判断したほうが良いと思います。

状況 推奨する割付方法
健常者≧50%の制約あり(本領域の標準) 層別ブロックランダム化
層別因子が2〜3個 層別ブロックランダム化
層別因子が4個以上かつ比率制約なし 確率付き最小化法を検討する

また、最小化法を採用する場合は、以下の点に注意しましょう。

  • 最小化法を使用しながら「ランダム化した」とだけ記載
  • 最小化法を選択した理由が不明確 (層別ブロック法で対応可能なのに選択)
  • 健常者比率の制約を満たす運用方法がプロトコルに記載されていない
  • 確率付き最小化の確率設定根拠が不明
  • 割付予測リスクへの対策 (中央登録制など) が記載されていない

3.3 評価指標

別紙2が求めている評価指標は、シンプルに言えば「症状」と「生活への影響」の2つです。具体的には「鼻目症状」と「日常生活の支障度 (QOL等)」を用いることが明記されていますが、ここで重要なのが、「支障度は鼻目症状の変化に伴うこと」という条件です。

この「伴うこと」は、連動性 (症状改善とQOL改善が同じ方向に動くこと) を示せ、という要求に近いと考えるのが自然です。裏を返せば、QOL単独で機能を主張する (=QOLだけ有意ならOK) という構図にはしないでください、という設計思想が見えます。

3.3.1 まず、主要評価項目 (Primary Endpoint) を1つに決める

鼻炎・アレルギー領域の試験は、評価指標が多くなりがちです。だからこそ、設計で最初にやるべきは「何を主要で見るか」を固定することです。

別紙2には「一部の指標でも機能が確認できればデータとして使用できる」という柔軟な文言がありますが、これを曖昧さの救済として使えば使うほど、後から説明が難しくなります。むしろ実務的には、どれを主に見るのかが曖昧な試験ほど指摘を受けやすいと捉えておくのが安全です。

基本方針は、「鼻症状+眼症状」をまとめた総合スコアを一本化することです。具体案としては、次のいずれかが現実的です。

  • 合計鼻症状スコア (Total Nasal Symptom Score; TNSS) と合計眼症状スコア (Total Ocular Symptom Score; TOSS) の合計
    ・・・ 鼻と目を同時に捉えやすく、解釈が直感的です。

NSS+TOSSは、JRQLQ (No.1) の症状項目から合成することも、症状日誌 (毎日0–3/0–4で記録) から算出することも可能です。解析では、評価期間の平均値やベースラインからの変化量として扱う設計が現実的です。いずれにせよ、採用項目とスケール定義を事前に固定しておくことが重要です。

  • 鼻アレルギー診療ガイドライン (2020年版) の重症度分類を連続スコア化して扱う方法
    ・・・ ガイドライン準拠を前面に出せる点が強みです。

ポイントは、主要評価項目は必ず1つに絞ることです。主要評価項目が複数になると、結局「どれが本命だったのか」「多重性はどうしたのか」という話に収束しやすく、機能性の主張が散らかります。

3.3.2 QOLを重要な副次評価項目 (Key Secondary Endpoints) にする

QOLは患者にとって重要なアウトカムである一方、別紙2の要件では「日常生活の支障度は鼻目症状の変化に伴うこと」が明示されています。

したがって、本領域のヒト臨床試験 (ヒト試験) では、QOLは独立した主要評価項目として機能性を主張するというより、症状スコアで捉えた改善が日常生活上の便益として整合的に現れていること (=構成概念妥当性・臨床的整合性) を補強する指標として位置づけるのが合理的です。

具体的には、主要評価項目で示された症状改善と同方向の変化がQOLにも観察されること、あるいは両者の変化量に一定の連動性があることを示すことで、効果の解釈可能性と説得力を高める役割を担います。

よって、重要な副次評価項目としてQOL (例: JRQLQ No.1 など) を設定し、主要評価項目で示された症状改善と同方向の変化がQOLにも観察されること、あるいは両者の変化量に一定の連動性があることを示すことで、効果の解釈可能性と説得力を高める役割を担います。

考察では、次のような解釈の根拠を添えると説得力が増します。

  • 症状スコア変化量とQOL変化量の散布図 (同方向の変化が見えるか)
  • 相関係数 (Spearman/Pearsonなど) による連動性の定量化

ここで重要なのは、QOLをもう一つの主要評価項目に格上げしないことです。主要評価項目はあくまで症状スコアに一本化し、QOLはその結果の解釈可能性を高める重要な副次評価として整理する方が、別紙2の要求 (「支障度は症状変化に伴うこと」) と最も整合します。

しかし、主要評価項目 (症状スコア) とは別の仮説検定を行う以上、Key Secondaryとして結論に用いる場合は多重性の制御が必須です。

したがって、QOLを重要な副次評価項目として扱う場合には、主要評価項目で有意が確認された場合に限ってQOLを検定する、といった階層的検定 (gatekeeping / hierarchical testing) をSAPで事前規定し、FWERを管理します。逆に、この事前規定がないままQOLの有意差を強調すると、後付け解釈 (選択的報告) と見なされやすくなります。

図1. 主要評価項目から重要な副次評価項目 (QOL) への階層的検定 (ゲートキーピング) の例
主要評価項目で有意差が確認された場合にのみ、重要な副次評価項目(QOL)の仮説検定を行う手順を示す。これにより、主要とQOLを別々に検定しても家族内第1種過誤率 (FWER) を5%に管理できる。

3.3.3 その他の副次評価項目 (Secondary Endpoints) は?

副次は「解釈の補助」に徹します。特に軽症者を含む設計なら、レスキュー薬の使用状況を把握することはほぼ必須です。

  • 個別症状 (くしゃみ、鼻水、鼻づまり、目のかゆみ等)
  • レスキュー薬 (治療薬) の使用状況:使用有無・回数・用量
    • 軽症者では薬使用が症状スコアを“押し下げる”方向に働くため、取得していないと結果解釈が崩れます
    • SAPにそのデータを「どう扱うか (集計方法・欠測の扱い・解析の位置づけ)」まで書いておくのが実務的に重要です

別紙2が求めている評価指標は、「鼻目症状」と「日常生活の支障度 (QOL)」のセットであり、QOLは症状変化に伴うことが前提です。したがって、設計の基本は 主要評価項目を鼻目症状の総合スコアに一本化し、QOLはその改善が症状改善と連動していることを示す 重要な副次評価として位置づけることになります。

また、軽症者を含む場合はレスキュー薬の使用が結果の解釈を左右するため、使用状況データの取得と取り扱いをSAPにて明確化しておくことが不可欠です。主要のブレ、多重性の曖昧さ、QOL単独の有意、レスキュー薬の未定義——これらは審査で指摘されやすい典型的な落とし穴であり、事前の設計で回避するとした場合に最もコストが低い対応となります。

3.4 解析

鼻目アレルギー領域のデータは、日々の症状スコア (連続〜順序尺度) が中心で、しかも欠測が出やすいという実務的に厄介な条件が揃っています。

ここで解析手法の選び方と、SAPへの書き方が曖昧だと、結果そのものより先に「設計・解析の筋」が問われます。この章では、審査で説明しやすく、かつ統計的にもブレにくい解析パッケージを提示します。

3.4.1 推奨する解析手法

A. Mixed-effects Model for Repeated Measures (MMRM)

日々または週次の症状スコアを縦断データとして扱う場合の標準的な手法です。

モデル式:

\[Y_{ij} = \mu + \tau_{i} + \gamma_{j} + (\tau\gamma)_{ij} + \beta X_{i0} + \delta S_{i} + \varepsilon_{ij}\]

  • \(Y_{ij}\): 試験参加者 \(i\)の時点 \(j\)における症状スコア
  • \(\tau_{i}\): 群効果 (介入 vs プラセボ)
  • \(\gamma_{j}\): 時点効果
  • \(\left( \tau\gamma)_{ij} \right.\ \): 群×時点
  • \(X_{i0}\): ベースライン (共変量)
  • \(S_{i}\): 層 (健常/軽症)
  • \(\varepsilon_{ij}\): 誤差 (同一試験参加者内の相関を考慮)

共分散構造は、試験規模と測定頻度で選びます。

  • 非構造 (Unstructured): 柔軟だがパラメータ数が多い。中規模以上向け。
  • AR (1): 近い時点ほど相関が高いと仮定。日誌データと相性が良い。
  • 複合対称 (CS): 最も単純で説明しやすいが、現実に合わないことも多い。

実務の安全策としては、SAPに「第一選択は非構造、収束しない場合はAR(1)に切替」と明記しておくのが無難です。こうしておくと、解析時のトラブル (収束不良) を後出し変更と見られにくくなります。

B. 共分散分析 (analysis of covariance; ANCOVA)

もう一つの有力な選択肢が、主要評価期間をあらかじめ定め、日々の症状スコアを要約値 (平均またはAUCなど) に落とし込んだ上で、ベースライン調整付きで群間比較するANCOVAです。

MMRMは縦断全体を同時にモデル化する一方、ANCOVAは主要期間の要約値に集約して1回の比較に落とし込むため、期間平均差が明確で、結果の提示が単純化されます。

モデル式:

\[Y_{i} = \mu + \tau_{i} + \beta X_{i0} + \delta S_{i} + \eta C_{i} + \varepsilon_{i}\]

  • \(Y_{i}\): 主要評価期間における平均スコア
  • \(\tau_{i}\): 群効果 (介入 vs プラセボ)
  • \(X_{i0}\): ベースラインスコア (共変量)
  • \(S_{i}\): 健常者/軽症者の区分 (層別割付を行った場合は調整する)
  • \(C_{i}\): その他の層別因子 (例:施設/地域、必要に応じて)
  • \(\varepsilon_{i}\): 誤差項

実務上は、MMRMと同様に層別割付に用いた因子 (少なくとも健常/軽症、必要なら施設/地域) を共変量として含めると、設計と解析の整合性が保たれ、後から「解析が恣意的」と見られにくくなります。

3.4.2 飛散量の取り扱い

別紙2は「一部時点のみ有意でも、考察が適切なら可」という柔軟性を残していますが、統計の観点では、考察で後追いするよりも前もって計画しておく方が良いです。飛散量は、解析でいじるほど説明が難しくなります。

設計段階での対策 (推奨)

  • 主要解析期間の事前定義: 過去の飛散データを根拠に、ピーク期間をプロトコルに記載
  • 地域の限定: 同一気象圏に絞るほど、ばらつきが抑えられる
  • 地域 (施設) で層別割付: 広域実施なら地域を層別因子として設計に組み込む

解析段階での対策

飛散量を日単位の時変共変量としてモデルに入れること自体は可能ですが、解釈が複雑化しやすく、基本は推奨しません。それより実務的には、「飛散量が一定以上の日に限定した感度分析」をSAPに規定しておく方が、説明可能性が高いです (例: 主要解析は全期間、感度分析として「高飛散日限定」を追加など)。

図2. 鼻目アレルギー試験における試験期間と主要評価期間 (ピーク) の位置づけ (例)
本図は、飛散期の年変動に対応するために、介入期間を一定の幅で確保しつつ、主要評価は「症状ピーク期 (例: 連続して飛散量が閾値以上の期間)」など事前定義された時間窓で行う設計を示す。主要評価期間を先に固定しておくことで、時点選択の恣意性や多重性の問題を抑え、解析 (MMRM/ANCOVA) の解釈を一貫させやすい。

3.4.3 欠測データの取り扱い

日誌データは、入力忘れや体調不良、外出の有無などで欠測が起きやすく、欠測の扱い次第で結論が簡単に揺れます。したがって欠測対応は「解析の付録」ではなく、試験計画の段階から骨格として組み込んでおくべき論点です。

主解析の設計としては、MMRMとANCOVAで考え方が少し異なります。MMRMは、MAR (Missing at Random) 仮定のもとで欠測をモデルの枠組みに取り込み、観測されたデータから推定を行うため、日々の縦断データと相性が良い手法です。

一方、主要期間の要約値 (平均やAUC) で評価するANCOVAでは、要約値の計算そのものが欠測に影響されます。したがって「主要評価期間内の欠測をどこまで許容するか」 (例: 欠測が一定割合を超える場合は解析対象外など) を、プロトコルやSAPで事前に固定しておく必要があります。ここが曖昧だと、要約値の作り方が後付けに見えやすく、結果の信頼性が落ちます。

欠測が一定程度以上に増える可能性がある領域では、感度分析は「念のため」ではなく、結論が欠測の仮定や扱いに過度に依存していないことを示すための必須の補強になります。まず、LOCFは前提が強く、推定を歪める可能性もあるため主解析に用いるべきではありませんが、欠測の扱いを変えたときに結論がどの程度動くかを示す参照ケースとして、位置づけを明確にした上で併記されることがあります。

欠測メカニズムが複雑で、単純な補完では説明が難しい場合には、ベースラインや過去の経過などを用いて欠測値を補完するMultiple Imputationを感度分析の選択肢として検討します。さらに、Tipping Point Analysisにより、介入群の欠測を不利な方向に段階的に動かした場合でも結論が維持されるか (どの程度の仮定変更で結論が反転するか) を確認しておくと、欠測に対する頑健性をより直接的に示すことができます。

第三者から指摘されやすいのは・・・

  • 欠測の取り扱いがSAPに明記されていない
  • 欠測が多い (目安として20%以上) にもかかわらず感度分析がない
  • そして軽症者を含む設計で特に致命的になりやすいのが、レスキュー薬使用後の症状スコアをどう扱うかが不明なケース

使用後のスコアをそのまま用いるのか、欠測扱いにするのか、あるいはフラグを立てて別途解析するのか――この扱いが曖昧なままだと、「軽症者を含めて全体で検証する」という設計の整合性そのものが疑われやすくなります。

3.5 運用

別紙2の要件は、研究デザインの理想論というより運用に強く依存する実務要件です。とくに重要なのは、健常者と軽症者をまとめて全体解析する場合、健常者が概ね半数以上であることが条件になる点です。さらに「健常者の割合が不明な場合は、スコア等から推測できる合理的理由が必要」とされており、記録が不十分だと結果の良し悪し以前に「定義と証拠の不足」で問題が生じるリスクがあります。つまりこの領域では、設計や解析よりも前に、スクリーニングと割付で決まると言ってよいです。

3.5.1 健常者と軽症者の定義と割付

実務上の最適解は、最初から「健常/軽症を確定できる定義」をプロトコルに書き、割付の層に組み込むことです。後から「だいたい半分くらい健常者だった」と説明するのは根拠不十分で、別紙2の要件充足 (割合不明時の合理的推測) を自ら難しくしてしまいます。

定義のコツは、「時々」という曖昧な用語を回数で定義することです。たとえば、

  • 健常者: 過去4週間に花粉症治療薬を使用していない
  • 軽症者: 過去4週間に花粉症治療薬を時々使用 (例: 週2回以下)

といった形で明文化し、スクリーニング時に質問票・記録で確認します。ここが残っていないと、健常者比率を推測で説明することになり、説明の難易度が一気に上がります。

割付は、健常/軽症を層別因子とした層別ブロックランダム化が基本です。加えて、健常者比率の条件を確実に満たすために、募集段階で健常者枠を優先します (例: 目標80名なら健常50・軽症30を目標に募集)。この運用を取っておけば、別紙2の要件は「解析で工夫して満たす」のではなく、運用で自然に満たす形になります。

3.5.2 解析の層別

解析の立て付けはシンプルが安全です。主解析は全体 (健常+軽症) で行い、健常のみ・軽症のみは事前定義したサブグループ解析として添える。群×層 (健常/軽症) の交互作用も確認はしますが、この手の交互作用は検出力が不足しやすいので、有意/非有意で結論を作るより、点推定と信頼区間で方向性を議論する整理が実務的です。

重要なのは、層別解析を後から都合よく採用しないことです。別紙2が軽症者データを例外的に認める枠組みである以上、解析方針の透明性=信頼性になります。

3.5.3 第三者から指摘されやすいパターン

運用面の典型的な指摘をまとめると次の3つになります。

  • 全体で有意でないため、後付けで健常者のみ解析を主要結論にする
  • 健常者と軽症者の比率が不明 (スクリーニング記録が残っていない)
  • 軽症者の定義が曖昧 (「時々」の回数定義がない)

結局のところ、この領域の運用は「解析の工夫」で救うより、定義・記録・割付を最初から固めておくことが最短ルートです。

問題点を考える

ここまで、別紙2から読み取れる内容から最適な方法論を示してきました。ですが、別紙2の記述には柔軟性がある分、解釈を誤ると後出しに見えやすいポイントも散りばめられています。

この章では、第三者からの指摘につながりやすい論点を、何が問題で、どう先回りすべきかを整理します。

4.1 「摂取期間を設定しない」は、放置しない

別紙2は摂取期間を明示的に規定していません。この文言は、花粉飛散期の年変動に対応するための柔軟性として理解するのが自然です。ただし、そのまま「期間を決めなくてよい」と読んでしまうと、主要評価の時間軸が曖昧になり、再現性と比較可能性が落ちます。花粉症領域は季節とピークが重要なので、「期間を決めない=主要評価が決まらない」と直結しやすいからです。

実務的には、摂取期間と主要評価期間を次のように運用可能な形で定義しておくと安全です。たとえば摂取期間は「飛散開始予測日の1週間前から飛散終了まで (最長12週間)」のように上限付きで置き、主要評価期間は「飛散量が一定閾値以上の日が連続した2週間」など、飛散量と連動して事前定義する。

こうしてプロトコルとSAPに書いておけば、摂取期間を設定しないという別紙2の趣旨 (柔軟性) と矛盾せず、むしろ科学的に筋の通った説明になります。

指摘されやすい例は・・・

  • 摂取期間が「飛散期全体」とだけ書かれている
  • 主要評価期間の選択根拠がない

といったケースです。

4.2 「一部ポイントのみ有意でも可」は、p-hacking疑念と表裏

別紙2は「一部の測定ポイントのみで有意差が付いた場合でも、適切に考察されていればデータとして使用できる」としています。これは現場を救う条項にも見えますが、統計的には多重性の問題と背中合わせです。

時点を増やせば、どこかで有意になる確率は上がりますし、「飛散量が低かった時点は除外」といった後付け説明も作れてしまいます。つまり、柔軟性はそのまま恣意性に見えるリスクでもあります。

ここは発想を逆にして、「救済条項」に頼らなくて済む設計を先に作るのが本筋です。具体的には、主要評価時点 (または主要時間軸) を1つに絞り、その他の時点は副次的・探索的に扱う。どうしても複数時点を正式に検定したいなら、階層的検定 (順序を事前定義し、有意でなくなった時点で停止) をSAPに書いておく。また飛散量については、主解析期間の定義を動かすのではなく、「高飛散日限定」のような感度分析を事前規定し、頑健性の確認として位置づける方が説明しやすいです。

指摘されやすい例は・・・

  • 複数時点で検定して多重性調整がない
  • 事後的に有意でない時点を「飛散量が低かったから」と外している
  • プロトコルやSAPにない解析が主要解析として報告されている

などです。

4.3 「一部の指標でも可」は、主要評価がブレやすい

評価指標についても、別紙2には「一部の指標でも機能が確認できれば使用できる」という柔らかい表現があります。これも救済のように見えますが、主要評価項目が複数あると「どれを採用するか」の選択が恣意的に見えやすく、届出後に「なぜこの指標なのか」という問いが来やすくなります。

実務対応はシンプルで、主要評価項目は一本化 (例: TNSSとTOSSの合計) し、QOLは症状変化に伴うことを示す副次的な位置づけに限定する。ストーリーとしては「症状スコアが改善し、それに伴ってQOLも改善した」という形を描けるのが最も自然です。

どうしても一本化が難しい場合は、(1) co-primaryとして両方で有意が必要という保守的設計にする、または (2) gatekeepingなどの閉手順で多重性を制御する、という先にルールを設定する方向で整理します。

指摘されやすい例は・・・

  • 主要評価項目が2つあるのに、1つだけが有意な状態で機能性表示を主張する
  • QOLのみ有意で症状との連動性が示されていない

などです。

4.4 軽症者の「時々使用」は、曝露と行動の差が混ざる

「軽症者」を「治療薬を時々使用」と定義すると、薬の影響だけでなく、回避行動 (マスク・外出控え) によって曝露自体が低い可能性も出てきます。さらにレスキュー薬で症状がマスクされ、群間差が縮むことも起こり得ます。

そして最も厄介なのが、レスキュー薬使用後のスコアをどう扱うかです。ここを曖昧にしたままだと、解析の前提が崩れます。

実務上は、レスキュー薬の扱いをプロトコルやSAPで選択しておく必要があります。たとえば、使用日のスコアをそのまま使えば現実に近い一方、薬効で抑えられた値を評価に使うことになります。使用日のスコアを欠測扱いにすれば純粋な機能評価に寄りますが、欠測が増えます。あるいは症状スコアと薬使用回数の複合指標にする方法もありますが、重み付けを含めて事前定義が必須で、解釈はやや複雑です。

曝露の標準化 (飛散量データから曝露日数を共変量にする等) は技術的には可能ですが、説明が難しくなるため、主解析ではなく感度分析の位置づけが無難です。

指摘されやすい例は・・・

  • レスキュー薬使用後スコアの扱いがSAPにない
  • 軽症者だが薬使用が多く症状スコアが実質的に読めない
  • 健常/軽症で効果の方向が逆転しているのに全体の結果のみ報告

などです。

4.5 単盲検の容認

症状スコアもQOLも主観評価である以上、盲検性は効果推定に直結します。単盲検が許容されるとしても、試験参加者が割付を推測できる状況では、プラセボ効果や期待効果が群間差を歪める可能性があります。

二重盲検が困難な場合は、せめて盲検性の穴を埋める工夫が必要です。例えばPROBE (割付はオープンでも、評価・集計は盲検) に近い運用や、電子日誌による自動収集で評価者の介入を最小化する。あるいは「自分がどちらの群だと思うか」を途中で尋ね、推測の偏りを間接的に示す。客観指標 (鼻腔通気度、鼻汁好酸球など) を副次として併用するのも一案ですが、症状との相関は常に高いとは限らないため、主役に据えないような整理が必要です。

指摘されやすい例は・・・

  • 単盲検の理由が「プラセボが難しかったから」というだけで、盲検維持の工夫がない
  • 群推測の正答率が極端に高い (実質オープン)
  • 主観指標のみで効果が非現実的に大きい

などです。

4.6 「他領域の疾病域データOK」は、外的妥当性と安全性の説明が残る

「論文上、健常者として扱われていれば、他領域の検査値が疾病域でも使用できる」という整理は、実務上は助かります。ただし疾病域の試験参加者が多いと「本当に非疾病者か?」という疑義が生まれやすく、外的妥当性と安全性の説明が求められます (例: 高血圧で治療中の試験参加者が花粉症試験に参加している場合など)。

ここでは透明性が重要で、除外すべき疾病 (重大疾患、評価に影響する疾患) を明示し、他領域の疾病を持つ試験参加者の人数と内訳を報告書に記載し、必要ならその試験参加者を除いた解析も併記する。安全性についても、当該試験参加者で有害事象が偏る場合は追加確認が必要になり得る、という整理が現実的です。

指摘されやすい例は・・・

  • 疾病を持つ試験参加者の割合が不明 (いないなら0と明記する)
  • 疾病域の定義が曖昧

などです。

まとめ

「鼻目のアレルギー反応」領域は、症状が季節・飛散量・生活環境に左右され、評価が主観指標中心で欠測も生じやすいという、設計・解析の難所が揃っています。別紙2が提示する柔軟な許容 (軽症者の混在、時点や指標の一部での有意など) は、現場を助ける一方で、解釈を誤ると多重性やp-hackingへの疑念につながり得ます。

だからこそ、この領域で重要なのは「高度な解析」よりも、事前定義で恣意性を排除する設計です。具体的には、主要評価項目を症状の総合スコアに一本化し、QOLは“症状改善に伴う”ことを補強する重要な副次評価項目として位置づける。主要の時点 (または主要期間) も1つに絞り、その他は副次・探索に回す。飛散量の取り扱いは事前に計画し、どうしても不確実性が残る部分は感度分析としてSAPにあらかじめ規定する。

さらに、全体解析を行うなら健常者比率≧約50%を運用で担保し、健常/軽症の定義 (「時々」を回数で定義) とスクリーニング記録を残すことが不可欠です。結局のところ、審査で通りやすい試験とは「結果が良い試験」ではなく、主要な結論へ至る筋道が一貫している試験です。

関連するサービス

参考文献