小規模な安全性試験の意味と限界

アウトライン

作成日: 2025/12/10
更新日: –

はじめに

食品を対象としたヒト臨床試験 (ヒト試験) では、安全性評価は有効性評価と並ぶ、あるいはそれ以上に重要な要素です。

とくに機能性表示食品や特定保健用食品 (トクホ) のように「健常者」を対象とする試験では、試験参加者の健康を損なわないことが最優先であり、安全性に関する科学的根拠が十分でなければ、いかに優れた機能性が示されていても製品としての信頼性は担保できません。

しかし、実際には多くの安全性試験が小規模で実施されています。費用、試験参加者の募集の難しさ、倫理的配慮といった現実的な制約が背景にある一方で、症例数が小さいほど、稀な有害事象を検出できないという構造的な限界が生じます。

その結果、「安全性を評価するための適切な症例数とは何か」「どの程度の頻度の有害事象まで検出できるのか」という点が、しばしば不明瞭なまま試験が進められています。

本稿では、機能性表示食品および特定保健用食品のガイドラインを整理するとともに、医薬品分野で一般化されているICHガイドライン (特にICH-E1) の考え方を参考にしながら、食品領域における安全性評価に適した症例数の考え方を分かりやすく解説します。

とくに、安全性試験と有効性試験では症例数設計の根本的な目的が異なる点を明確にし、稀な有害事象に対する検出力をどのように確保するかについて、具体的な数値根拠を提案します。

規制・ガイドラインの現状を確認する

2.1 機能性表示食品の届出等に関する手引き

こちらに「機能性表示食品の届出等に関する手引き」の「安全性に係る事項」の一部を抜粋しました。機能性表示食品におけるヒト臨床試験での安全性評価は、以下の指示があります。

表1. 臨床試験 (ヒト試験) における安全性評価の記載項目

■機能性表示食品の届出等に関する手引き (令和7年10月1日消食表第711号), (II) 様式第二号 (安全性に係る事項), 第2 別紙様式 (II), (4) エ
臨床試験 (ヒト試験) については、過剰摂取時及び長期摂取時における安全性を確認するための試験を実施した上で、試験の方法、結果及び考察並びに次に掲げる事項について、別紙様式 (Ⅱ) 「⑦臨床試験 (ヒト試験)｣欄に記載すること。ただし、科学的に十分に説明できる場合、過剰摂取試験の実施は不要だが、過剰摂取試験を実施しない理由について、同欄に記載すること。（ａ）オープン試験等の試験デザイン（ｂ）摂取時期及び摂取期間（ｃ）観察項目及び測定時期（ｄ）参加者数及びその設定根拠並びに参加者の健康状態、年齢その他必要な事項（ｅ）届出に関する食品であるか等試験食に関する情報（ｆ）海外で実施された研究については、試験実施者又は筆頭著者の所属する機関の国名

■機能性表示食品の届出等に関する手引き (令和7年10月1日消食表第711号), (II) 様式第二号 (安全性に係る事項), 第2 別紙様式 (II), (4) エ

臨床試験 (ヒト試験) については、過剰摂取時及び長期摂取時における安全性を確認するための試験を実施した上で、試験の方法、結果及び考察並びに次に掲げる事項について、別紙様式 (Ⅱ) 「⑦臨床試験 (ヒト試験)｣欄に記載すること。ただし、科学的に十分に説明できる場合、過剰摂取試験の実施は不要だが、過剰摂取試験を実施しない理由について、同欄に記載すること。

（ａ）オープン試験等の試験デザイン
（ｂ）摂取時期及び摂取期間
（ｃ）観察項目及び測定時期
（ｄ）参加者数及びその設定根拠並びに参加者の健康状態、年齢その他必要な事項
（ｅ）届出に関する食品であるか等試験食に関する情報
（ｆ）海外で実施された研究については、試験実施者又は筆頭著者の所属する機関の国名

機能性表示食品の届出等に関する手引き (令和7年10月1日消食表第711号) より引用

2.2 特定保健用食品の表示許可等について

それでは、「特定保健用食品の表示許可等について」を確認していきましょう。

こちらにトクホのガイドラインである「特定保健用食品の表示許可等について」の一部を抜粋しました。別添2「特定保健用食品申請に係る申請書作成上の留意事項」に安全性試験に関する事項がまとめられています。

表2. 特定保健用食品申請における試験参加者特性および試験参加者数の留意事項

■特定保健用食品の表示許可等について (令和7年4月23日付け消食表第357号), 別添２特定保健用食品申請に係る申請書作成上の留意事項, 第２添付資料の留意事項, ３保健の用途等各項目別に使用した文献等の留意事項, (3) 食品及び特定の保健の目的に資する栄養成分の安全性に関する資料, イヒト試験等, (ア) 試験目的と計画等, g 被験者の特徴及び被験者数
被験者は、健常人から疾病の境界域の者に至るまでの範囲において、目的とする保健の用途の対象として適切な者とする。効果に関する試験は、表示の対象とする摂取者層に対する効果を確認することが第一の目的であるので、申請に当たっては、主な摂取者層での効果を確認することが必要である。性別についても、極端に偏らないように設定することとし、評価指標が性別により大きく異なる場合は、性別ごとの発症割合に準じた被験者数の配分とするが、少数の側の被験者でも一定の評価ができる例数とする｡なお、妊婦や小児等は被験者から一般的には除外される。許可表示の内容や関与成分により、その作用の種類や大きさが異なることから、被験者数は、試験内容や実施方法により必要な数を一律に定めることは困難である。効果の程度により、必要な例数を求め、被験者数を確保する。したがって、統計学的手法上、有意差検定に不十分な被験者数の場合には、報告例として扱うものとする。また、層別解析を行ったときに各層で有意差検定に十分な被験者数 (試験食摂取群、プラセボ食摂取群ともに) を確保できるようにする。

■特定保健用食品の表示許可等について (令和7年4月23日付け消食表第357号), 別添２特定保健用食品申請に係る申請書作成上の留意事項, 第２添付資料の留意事項, ３保健の用途等各項目別に使用した文献等の留意事項, (3) 食品及び特定の保健の目的に資する栄養成分の安全性に関する資料, イヒト試験等, (ア) 試験目的と計画等, g 被験者の特徴及び被験者数

被験者は、健常人から疾病の境界域の者に至るまでの範囲において、目的とする保健の用途の対象として適切な者とする。効果に関する試験は、表示の対象とする摂取者層に対する効果を確認することが第一の目的であるので、申請に当たっては、主な摂取者層での効果を確認することが必要である。性別についても、極端に偏らないように設定することとし、評価指標が性別により大きく異なる場合は、性別ごとの発症割合に準じた被験者数の配分とするが、少数の側の被験者でも一定の評価ができる例数とする｡なお、妊婦や小児等は被験者から一般的には除外される。
許可表示の内容や関与成分により、その作用の種類や大きさが異なることから、被験者数は、試験内容や実施方法により必要な数を一律に定めることは困難である。効果の程度により、必要な例数を求め、被験者数を確保する。したがって、統計学的手法上、有意差検定に不十分な被験者数の場合には、報告例として扱うものとする。また、層別解析を行ったときに各層で有意差検定に十分な被験者数 (試験食摂取群、プラセボ食摂取群ともに) を確保できるようにする。

特定保健用食品の表示許可等について (令和7年4月23日付け消食表第357号) より引用

症例数に関する記述として「被験者数は、試験内容や実施方法により必要な数が異なるが、統計学的手法によって有意差検定が可能な被験者数を確保すること。」とあります。

この記述は、何を指しているのでしょうか?

「試験内容や実施方法により必要な数が異なる」とは何を指しているのか不明であり、また「統計学的手法によって有意差検定が可能な被験者数を確保する」ことについては、検定さえできれば10例と極端に少ない症例数でも安全性を評価できると捉えることができます。

この内容で本当に安全性について評価することが可能なのでしょうか？

現時点の機能性表示食品や特定保健用食品 (トクホ) のいずれのガイドラインでも、安全性を評価するための症例数について明確な記述はなく、現状では事業者ごとの判断で例数を設定することになり、安全性情報の品質にばらつきが生じる恐れがあります。

これが、機能性表示食品や特定保健用食品 (トクホ) の安全性評価に関する問題として挙げられます。

2.3 ICHガイドラインを確認してみる

機能性表示食品および特定保健用食品 (トクホ) のいずれにおいても、安全性を評価する症例数の明確な記載がないため、医薬品開発に関するガイドラインであるICHガイドラインに着目してみます。

ICHガイドラインは、品質、安全性、有効性、複合領域の4分野で分類されています。とくにICH-E6はGCPであることから、ご存知の方も多いかと思います。安全性の評価における症例数については、ICH-E1が利用できそうです。

2.4 ICH-E1

ICH-E1の内容を確認してみましょう。

表3. ICH‑E1に基づく長期投与治験の安全性評価: 必要症例数と観察期間

■ICH-E1 致命的でない疾患に対し長期間の投与が想定される新医薬品の治験段階において安全性を評価するために必要な症例数と投与期間について (平成７年５月２４日薬審第５９２号)
4. これまでの情報では，ほとんどの有害事象は，投与開始後最初の数カ月の間に発現し，またこの期間での発現頻度が最も高い。治験薬を予定される臨床用量で６カ月間投与する症例の数は，投与期間中の有害事象の経時パターンが明確に把握できる規模に設定する必要がある。このためには，妥当な頻度 (一般的には0.5～5％程度) の遅発性の有害事象が観察できるとともに, より高頻度に発現した有害事象がその後の期間中に増加するのか, あるいは減少するのかを観察できるだけの十分な症例数が必要である。通常300～６００例の対象症例数が適当である。５．一般的ではないが，有害事象の中には投与期間が長くなるにつれて発現頻度または重症度が増すものがあり，また投与開始後６カ月以上経って初めて発現する重篤な有害事象もある。従って，治験薬を１２カ月間投与して得られた成績も必要である。有害事象と投与期間の関係についての十分な情報がないため，１年間の経過観察を必要とする症例数は，一定の発現率の有害事象を発見する確率と試験実施の実現性に基づいて判断されることが多い。１００例の患者に対して最低１年間投与して得られた成績は，安全性データベースの一部として採用できると考えられる。そのようなデータを得るためには，治験薬を予定される臨床用量で少なくとも１年間投与するように適切に計画されたプロスペクティブな試験を実施すべきである。１年間の投与期間中に何ら重篤な有害事象が認められない場合には，そのような有害事象の１年間の累積発現率は３％未満と考えてよい。

■ICH-E1 致命的でない疾患に対し長期間の投与が想定される新医薬品の治験段階において安全性を評価するために必要な症例数と投与期間について (平成７年５月２４日薬審第５９２号)

4. これまでの情報では，ほとんどの有害事象は，投与開始後最初の数カ月の間に発現し，またこの期間での発現頻度が最も高い。治験薬を予定される臨床用量で６カ月間投与する症例の数は，投与期間中の有害事象の経時パターンが明確に把握できる規模に設定する必要がある。このためには，妥当な頻度 (一般的には0.5～5％程度) の遅発性の有害事象が観察できるとともに, より高頻度に発現した有害事象がその後の期間中に増加するのか, あるいは減少するのかを観察できるだけの十分な症例数が必要である。通常300～６００例の対象症例数が適当である。

５．一般的ではないが，有害事象の中には投与期間が長くなるにつれて発現頻度または重症度が増すものがあり，また投与開始後６カ月以上経って初めて発現する重篤な有害事象もある。従って，治験薬を１２カ月間投与して得られた成績も必要である。有害事象と投与期間の関係についての十分な情報がないため，１年間の経過観察を必要とする症例数は，一定の発現率の有害事象を発見する確率と試験実施の実現性に基づいて判断されることが多い。１００例の患者に対して最低１年間投与して得られた成績は，安全性データベースの一部として採用できると考えられる。そのようなデータを得るためには，治験薬を予定される臨床用量で少なくとも１年間投与するように適切に計画されたプロスペクティブな試験を実施すべきである。１年間の投与期間中に何ら重篤な有害事象が認められない場合には，そのような有害事象の１年間の累積発現率は３％未満と考えてよい。

I ICH-E1 致命的でない疾患に対し長期間の投与が想定される新医薬品の治験段階において安全性を評価するために必要な症例数と投与期間について (平成７年５月２４日薬審第５９２号) より引用

ICH-E1によると、有害事象は、投与開始後最初の数カ月の間に発現するとしたうえで、「投与期間が6ヶ月のヒト臨床試験の場合の症例数は、投与期間中の有害事象の経時パターンが明確に把握できる規模に設定する必要がある」と記載されています。

また、「妥当な頻度 (一般的には0.5～5%程度) の遅発性の有害事象が観察できるとともに、より高頻度に発現した有害事象がその後の期間中に増加するのか、あるいは減少するのかを観察できるだけの十分な症例数が必要であり、通常300～600例の対象症例数が適当である」とされています。

一方で、期間が1年間のヒト臨床試験の場合、「100例の患者に対して最低1年間投与して得られた成績は、安全性データベースの一部として採用できると考えられる。そのようなデータを得るためには、治験薬を予定される臨床用量で少なくとも1年間投与するように適切に計画されたプロスペクティブな試験 (前向き研究) を実施すべきである。1年間の投与期間中に何ら重篤な有害事象が認められない場合には、そのような有害事象の1年間の累積発現率は3%未満と考えてよい」とされています。

要約すると、発現割合が0.5％から1.0％の有害事象の収集するためには300から600例が必要であり、発現割合が3％の有害事象の収集するためには、100例必要であることが分かります。安全性の評価にはこれだけの症例数が必要であり、目的に関しても有意差検定が目的ではなく、有害事象の収集が目的であることが明確に記載されています。つまり、トクホのガイドラインと考え方が異なるということがわかります。

安全性を評価するための症例数の根拠

まず、安全性評価と有効性評価における症例数の考え方について、明確な違いがあるので、まとめました。この違いのヒントはICH-E9にも記述があります。

表4. 試験参加者数の設定基準と正当化に関する指針 ICH‑E9 要点

■ICH-E9 臨床試験のための統計的原則 (平成10年11月30日医薬審第1047号), III. 試験計画上で考慮すべきこと, 3.5 必要な被験者数
臨床試験の被験者数は、提示された問題に信頼のおける解答を与えられるよう常に十分多くすべきである。試験に必要な被験者数は、通常試験の主要な目的により決められる。被験者数がその他の理由から決定される場合には、その理由を明確にし正当化しておくべきである。例えば、安全性に関する問題若しくは要求に基づいた試験又は重要な副次目的に基づいて被験者数が決定される試験では、主要な有効性の問題に基づいて被験者数が決定される試験よりも多くの被験者数を必要とするであろう (例えば、ICH-E1A参照)。

■ICH-E9 臨床試験のための統計的原則 (平成10年11月30日医薬審第1047号), III. 試験計画上で考慮すべきこと, 3.5 必要な被験者数

臨床試験の被験者数は、提示された問題に信頼のおける解答を与えられるよう常に十分多くすべきである。試験に必要な被験者数は、通常試験の主要な目的により決められる。被験者数がその他の理由から決定される場合には、その理由を明確にし正当化しておくべきである。例えば、安全性に関する問題若しくは要求に基づいた試験又は重要な副次目的に基づいて被験者数が決定される試験では、主要な有効性の問題に基づいて被験者数が決定される試験よりも多くの被験者数を必要とするであろう (例えば、ICH-E1A参照)。

ICH-E9 臨床試験のための統計的原則 (平成10年11月30日医薬審第1047号) より引用

ICH-E9では「安全性に関する要求に基づいた試験では、主要な有効性の問題に基づいて被験者数が決定される試験よりも多くの被験者数を必要とするであろう」と記載されています。

つまり、安全の性評価では、特に稀な副作用や重篤な有害事象を検出するために大規模な症例数が必要とされ、特定の事象の発生確率が低い場合でも信頼性の高い評価を行う必要があるということです。

一方で、有効性の評価は、介入効果が大きい場合や症例間でばらつきによって、比較的少ない症例数でも評価が可能な場合があり、再現性などの信頼性を確保するために、少なすぎても多すぎてもいけない、適切な症例数が必要です。

まとめると、安全性評価に有効性評価のための症例設計の考え方は適用できないということです。

3.1 ICH-E1に記載されている症例数の導出方法

ICH-E1には安全性評価に必要な症例数として「300〜600例」「100例」といった具体的な数値が示されています。しかし、これらの症例数がどのような統計的根拠に基づいて設定されているのか、ガイドライン本文では明確に説明されていません。

実際には、これらの症例数は「3の法則 (Rule of Three)」と呼ばれる統計的近似に基づいて導出されていると考えられます。

3の法則とは、n人を観察して1例も有害事象が発現しなかった場合でも、95%信頼区間の上限は3/n程度と見なせる

という経験則です。

例えば:

100人で1例も発現しなければ、発生率の上限は約3%
600人で1例も発現しなければ、発生率の上限は約0.5%

つまり、稀な有害事象 (0.5〜5%程度) を検出できるように症例数を設計するための近似式として活用できます。

\[\frac{3}{n} \times 100 = 発現頻度\]

この考え方を当てはめると、ICH-E1で示されている症例数と完全に一致します。

発現頻度が0.5%の場合・・・

\[n = \frac{3 \times 100}{0.5} = 600\]

発現頻度が1.0%の場合・・・

\[n = \frac{3 \times 100}{1.0} = 300\]

発現頻度が3.0%の場合・・・

\[n = \frac{3 \times 100}{3.0} = 100\]

発現頻度が5.0%の場合・・・

\[n = \frac{3 \times 100}{5.0} = 60\]

このように、ICH-E1 が採用する症例数は、いずれも3の法則に基づく95%信頼区間の上限を用いた場合と一致します。

検出力をP、発生率をrとした近似式による別の導出方法もあります。

\[n = \frac{\log(1 – p)}{\log(1 – r)}\]

例えば、P = 95%、r = 1%、3%などで計算すると、ICH-E1 に記載の症例数とほぼ同じ値が得られます。

発現頻度が0.5%の場合・・・

\[\frac{\log(1 – 0.950)}{\log(1 – 0.005)} = \frac{- 1.301}{- 0.002} = 598 \simeq 600\]

発現頻度が1.0%の場合・・・

\[\frac{\log(1 – 0.950)}{\log(1 – 0.010)} = \frac{- 1.301}{- 0.004} = 299 \simeq 300\]

発現頻度が3.0%の場合・・・

\[\frac{\log(1 – 0.950)}{\log(1 – 0.030)} = \frac{- 1.301}{- 0.013} = 99 \simeq 100\]

発現頻度が5.0%の場合・・・

\[\frac{\log(1 – 0.950)}{\log(1 – 0.050)} = \frac{- 1.301}{- 0.022} = 59 \simeq 60\]

このように、3の法則だけでなく、一般化された近似式に基づいてもICH-E1の症例数と整合性があることがわかります。

3.2 目標参加者数が10例で実施する安全性試験の意味

安全性を評価するための症例数の導出方法を理解したうえで、改めて「目標参加者数が10例」という小規模な安全性試験の意味を考えてみます。

10例を対象として「3の法則」および近似式で発現頻度を計算すると・・・

\[発現頻度 = \frac{3}{n} \times 100 = \frac{3}{10} \times 100 = 30\]

別の近似式では・・・

\[\frac{\log(1 – 0.950)}{10} = \frac{- 1.301}{10} = – 0.1301\]

\[1 – r = 10^{- 0.1301} = 0.7411\]

\[r = 1 – 0.7411 = 0.2589 \simeq 26\]

となり、いずれも26〜30%程度の頻度で発生する有害事象が観察対象になることがわかります。

つまり、10例規模の安全性試験は、3〜4人に1人が発現するレベルの高頻度な有害事象でなければ検出できないということを意味します。

言い換えると、稀な有害事象 (1〜5%) や、重篤な副作用 (<1%) を把握する能力はほとんどなく、「まれに起こる安全性リスク」を評価する目的には本質的に不十分です。

もちろん、初期段階で少数例による安全性確認を行うこと自体には意味があります。しかし、その1回の試験だけで安全性を十分に評価したと結論づけることはできません。複数の試験を通じて安全性情報を蓄積し、最終的に十分な症例数を確保して評価する体制が必要である、ということが明確に理解できます。

3.3 安全性情報を集約して製品ごとに臨床データベースを構築する

とはいえ、小規模な安全性試験に意味がないわけではありません。むしろ、開発の初期段階では 少数例による安全性の確認は不可欠です。

まずは小規模な例数で初期的な安全性を確かめ、そのうえで複数の有効性試験を積み重ねることで、自然と安全性情報も蓄積されていきます。1つの試験では情報量が限られていても、試験を横断的に統合することで、より大規模なデータセットとして安全性を評価できるようになります。

最終的に、複数試験から得られた症例を統合して 製品ごとの安全性データベースを構築することが、エビデンスの信頼性向上につながります。

そして、このように体系的に蓄積された大規模な安全性情報は、将来的に他社製品との差別化要因として大きな価値を持つはずです。

まとめ

本稿は、機能性表示食品や特定保健用食品 (トクホ) のヒト臨床試験 (ヒト試験) において、安全性をどのように評価すべきか、その症例数の根拠を中心に整理しました。

主なポイントは以下のとおりです。

現行の食品系ガイドラインには、安全性評価に必要な症例数の明確な基準が存在しない。
安全性評価は有効性評価とは目的が異なるため、症例数設計の考え方も異なる。
稀な有害事象を適切に評価するには、ICH-E1が示す症例数 (100〜600例) が食品分野でも妥当と考えられる。
10例程度の小規模試験では、高頻度 (26〜30%) の有害事象しか検出できず、安全性評価としては不十分である。
ただし、小規模試験は安全性データ蓄積の起点として重要であり、複数試験の統合によるデータベース化が鍵となる。

本稿では、機能性表示食品や特定保健用食品 (トクホ) における安全性試験の症例数を明確にすることを試みましたが、医薬品開発では近年、ICH-Q9に代表されるリスクベースアプローチが主流となっており、安全性評価は単にICH-E1の数値に従うのではなく、想定されるリスクに応じて必要な症例数と観察期間を合理的に設計する方向へ移行しています。

したがって、食品分野でも「なぜその症例数で安全性評価が妥当と言えるのか」を説明できるリスクベースの考え方を導入することが望まれます。これは機能性表示食品やトクホ制度においても、今後重要な視点となるでしょう。

安全性データは一度に揃うものではありません。小規模試験から始まり、複数の試験結果を統合し、少しずつ証拠を積み上げていくことで、最終的に自社製品の安全性エビデンスを強固なものにしていくことができます。

参考文献

消費者庁. 機能性表示食品の届出等に関する手引き (令和7年10月1日消食表第711号) (2025年12月8日アクセス可能: https://www.caa.go.jp/policies/policy/food_labeling/foods_with_function_claims/notice/assets/food_labeling_cms205_251001_41.pdf)
消費者庁. 特定保健用食品の表示許可等について (2025年4月23日付け消食表第357号) (2025年12月8日アクセス可能: https://www.caa.go.jp/policies/policy/food_labeling/foods_for_specified_health_uses/notice/assets/food_labeling_cms206_20250423_04.pdf)
厚生労働省. ICH-E1 致命的でない疾患に対し長期間の投与が想定される新医薬品の治験段階において安全性を評価するために必要な症例数と投与期間について (平成７年５月２４日薬審第５９２号) (2025年12月8日アクセス可能: https://www.pmda.go.jp/files/000156199.pdf)
厚生労働省. ICH-E9 臨床試験のための統計的原則 (平成10年11月30日医薬審第1047号) (2025年12月8日アクセス可能: https://www.pmda.go.jp/files/000156112.pdf)
Eypasch E, Lefering R, Kum CK, Troidl H. Probability of adverse events that have not yet occurred: a statistical reminder. BMJ. 1995 Sep 2;311(7005):619-20. doi: 10.1136/bmj.311.7005.619. PMID: 7663258; PMCID: PMC2550668.
岩崎学, 吉田清隆. 稀な事象の生起確率に関する統計的推測ーRule of Threeとその周辺ー. 計量生物学. 2005; 26 (2): 53–63. (DOI: https://doi.org/10.5691/jjb.26.53)