サンプルサイズ設計を誤ると何が起きるのか？ (2)

アウトライン

作成日: 2025/12/16
更新日: –

はじめに

機能性表示食品の届出において、ヒト臨床試験 (ヒト試験) のサンプルサイズ設計は、試験の信頼性を左右する最重要ポイントのひとつです。

しかし実務の現場では、

「なんとなくこのくらいの人数」
「過去の試験と同じ人数」
「有意差が出そうな人数」

といった統計学的根拠の弱い設計が見受けられることも少なくありません。

本コラムでは、サンプルサイズ設計の前提となる仮説と統計エラーの考え方 を、機能性表示食品試験の視点から整理します。

問題: 統計エラー

次の研究結果は、αエラー (第1種の過誤)、βエラー (第2種の過誤)、どちらでもないのうち、どれに該当する可能性が高いでしょうか。

事例1
健常成人を対象としたランダム化二重盲検プラセボ対照試験において、ポリフェノールを含む食品の摂取により、主観的な身体の疲労感スコアがプラセボ群より有意に改善した (P = 0.01)。

事例2
10年間の追跡観察研究において、食物繊維摂取量が多い群 (100名) と少ない群 (300名) の間で、I度高血圧の新規発生率に有意差は認められなかった (P = 0.31)。

事例3
ある研究者が、「40歳以下の男性において、特定の発酵食品の摂取が、空腹時血糖値（境界域）の上昇リスクを有意に低下させる（P < 0.05）」という研究結果を報告した。

解答・解説

3.1 事例1

<解答>
どちらでもない

<解説>
統計学的に有意な結果が得られており、この情報だけからαエラー (第1種の過誤) と断定することはできません。機能性表示食品試験においても、事前に設定された仮説と解析計画に基づく結果であれば、通常は妥当な結果と解釈されます。

3.2 事例2

<解答>
βエラー (第2種の過誤) の可能性が高い

<解説>
境界域高血圧と食物繊維摂取の関連は、先行研究により一定の関連性が示唆されています。
(確立はされていませんが・・・)

本研究では、

対象者数が比較的少ない
発症イベント数が限られている

ことから、本当は差が存在していても、検出できなかった (検出力不足) 可能性、すなわちβエラー (第2種の過誤) が疑われます。

3.3 事例3

<解答>
αエラー (第1種の過誤) の可能性が高い

<解説>
特定の発酵食品摂取が、若年男性において空腹時血糖値の上昇リスクを低下させるという結果は、既存の栄養疫学的知見と必ずしも整合的ではありません。

そのため、

偶然による有意差
多重解析やサブグループ解析による見かけ上の有意差

といった αエラー の可能性を慎重に考慮する必要があります。

まとめ

本稿は、機能性表示食品のヒト臨床試験 (ヒト試験) において見落とされがちなαエラー（第1種の過誤）と βエラー（第2種の過誤） の考え方を、具体例を用いて整理しました。

重要なのは、P値が有意かどうかだけでは、試験の信頼性は判断できないという点です。

有意差が得られた結果であっても、事前仮説が不明確であったり、多重解析やサブグループ解析が行われていれば、αエラー（偶然の有意差） の可能性を否定できません。

一方で、有意差が得られなかった結果についても、サンプルサイズやイベント数が不足していれば、βエラー（検出力不足） による見かけ上の「差なし」である可能性があります。

これらの統計エラーは、いずれもサンプルサイズ設計の段階でどのような仮定を置いたかに大きく左右されます。

機能性表示食品のヒト臨床試験 (ヒト試験) において求められるのは、「有意差が出たかどうか」ではなく、その結果がαエラー・βエラーのいずれにも偏りにくい設計になっているかという視点です。

サンプルサイズ設計は、試験結果を後から説明するための作業ではなく、試験の信頼性を事前に担保するための設計思想です。統計エラーを正しく理解し、合理的な仮説と前提に基づいたサンプルサイズ設計を行うことが、機能性表示食品のヒト臨床試験 (ヒト試験) におけるエビデンスの質を高める第一歩となります。

サンプルサイズ設計における統計学的留意事項は、以下のコラムにまとめているので、是非チェックしてみてください。