サンプルサイズ設計を誤ると何が起きるのか？ (1)

アウトライン

作成日: 2025/12/15
更新日: –

はじめに

機能性表示食品の届出において、ヒト臨床試験 (ヒト試験) のサンプルサイズ設計は、試験の信頼性を左右する最重要ポイントのひとつです。

しかし実務の現場では、

「なんとなくこのくらいの人数」
「過去の試験と同じ人数」
「有意差が出そうな人数」

といった統計学的根拠の弱い設計が見受けられることも少なくありません。

本コラムでは、サンプルサイズ設計の前提となる仮説と統計エラーの考え方 を、機能性表示食品試験の視点から整理します。

問題: サンプルサイズ設計に必要な基本概念

ある研究者が、健常成人を対象にビフィズス菌を含む食品の摂取が排便回数に及ぼす影響を検討するランダム化二重盲検プラセボ対照並行群間比較試験のサンプルサイズ設計を計画しました。

試験計画は以下のとおりです。

試験参加者は食品群とプラセボ群に1:1で割付
帰無仮説: ビフィズス菌摂取群とプラセボ群の間に、排便回数の差はない
対立仮説: 両側
有意水準 (α): 0.05
検出力: 0.80
有意に検出したい差 (効果量): 週あたり排便回数 1.0 回
排便回数の標準偏差 (変動) : 週あたり1.5回 (先行研究より)

赤字部分（仮説、α、パワー、効果量、標準偏差）の意味を説明してください。

解答・解説

3.1 サンプルサイズ

ある効果量を、設定した有意水準と検出力で統計学的に有意と判断できると推定される試験参加者数

3.2 帰無仮説

機能性関与成分による効果は「存在しない」とする仮説

3.3 対立仮説

機能性関与成分により「意味のある差が存在する」という仮説

3.4 有意水準

本当は効果がないにもかかわらず、「効果がある」と誤って結論づける確率

3.5 検出力

本当に効果がある場合に、それを正しく「有意」と検出できる確率

3.6 効果量

研究者が「この差が検出できなければ、実用的な意味がない」と考える最小限の差

3.7 変動 (標準偏差)

試験参加者間のばらつきの大きさ
※同じ効果量でも、ばらつきが大きいほど必要人数は増えます。

まとめ

本稿は、サンプルサイズ設計の前提となる仮説、効果量、有意水準、統計学的パワー、変動 (標準偏差) といった基本概念を整理しました。

機能性表示食品のヒト臨床試験 (ヒト試験) では、「何人集めたか」ではなく「どのような仮定のもとで、その人数が設定されたか」が試験の信頼性を左右します。

特に重要なのは、効果量とばらつきが“事前に”合理的に設定されているか です。

これが曖昧なまま実施された試験では、

有意差が出ても偶然 (αエラー) の可能性を否定できず
有意差が出なくても検出力不足 (βエラー) を疑われます

つまり、サンプルサイズ設計は「結果のため」ではなく、「試験の妥当性を担保するため」の工程であるという認識が不可欠です。

機能性表示食品のヒト臨床試験 (ヒト試験) において、統計解析は結果を正当化するための後付け作業ではなく、試験を開始する前から信頼性を作り込むための設計思想であることを、あらためて意識する必要があります。

サンプルサイズ設計における統計学的留意事項は、以下のコラムにまとめているので、是非チェックしてみてください。