非正規なQOL指標に対する例数設計
- アウトライン
-
- 作成日: 2025/2/5
- 更新日: –
はじめに
ヒト臨床試験 (ヒト試験) でSF-36などの健康関連QOL (Quality of Life) 指標を使おうとすると、統計解析担当者は必ずと言っていいほど、ある問題に直面します。
それは、データが正規分布に従わないということです。
QOLスコアには独特の癖があります。たとえばSF-36の「身体機能 (Physical Functioning; PF)」は0〜100点の範囲ですが、健康な集団では高得点に回答が集中しがちです。これは典型的な天井効果 (ceiling effect) です。逆に、重症者を対象とすると低得点に張り付く床効果 (floor effect) が起きることもあります。こうした天井・床効果は分布を歪め、しばしば「左右非対称」や「多峰性」を生みます。
このような分布のデータに対して、平均差のt検定を前提にした例数設計をそのまま使ってよいのか。これは統計的にも実務的にも、まったく真っ当な疑問です。
そこで本稿では、順位検定 (Wilcoxon/Mann–Whitney検定) の発想を取り入れた例数設計の方法を紹介します。順位にもとづく方法は、データの分布形状に過度に依存しないため、QOLのように非正規になりやすい指標に対してロバストに設計できるのが魅力です。
従来の例数設計では、効果量として「平均差 ÷ 標準偏差」 (Cohenの d) を使うのが一般的です。しかし順位検定の枠組みでは、効果を次の確率で表します。
ここで\(Y\)は介入群、\(X\)は対照群です。つまりこれは、介入群からランダムに1人を選んだとき、その人のスコアが、対照群からランダムに選んだ1人のスコアを上回る確率を意味します。
このPは直感的に解釈できます
- P = 0.5: 介入群と対照群に差がない (五分五分)
- P > 0.5: 介入群の方が有利
- P < 0.5: 対照群の方が有利
たとえば P = 0.60 なら、「介入群の人は、対照群の人に対して60%の確率で勝つ」と言えます。これは、生活者や患者、臨床家にとっては平均差よりも理解しやすい表現かもしれません。
この効果量はCommon Language Effect Size (共通言語効果量) あるいは Probability of Superiority と呼ばれ、近年、臨床研究でも注目されています。では、平均差と標準偏差しか情報がない状況で、どのようにしてこの \(P\)を見積もり、最終的に必要例数へ落とし込めばよいのでしょうか。本稿では、SF-36の例を用いて、その計算手順を具体的に追っていきます。
問題
ある研究チームが、日常運動レジメンによるQOL改善効果を検証するランダム化比較試験を計画しています。先行研究から、SF-36の身体機能スコアについて以下の情報が得られています。
- 臨床的に意味のある最小差 (MCID): 10点
- 標準偏差: 30点
- 分布: 正規分布に従わない
デザインは以下の通りです。
- 両側有意水準 α = 0.05
- 検出力 1 − β = 0.90
- 割付比 1:1
この条件から必要なサンプルサイズを計算してみましょう。
<ヒント>
\(P\)を見積もる際は、以下の近似式を使用しましょう。
Nは、以下の式から計算して下さい。
解答
3.1 ステップ1:標準化差からPを推定する
まず、標準化差 (Cohenのd相当) を計算します。
次に、このΔをPに変換します。以下の近似式を使います。
ここで、Φは標準正規分布の累積分布関数です。
「あれ、正規分布に従わないのに、正規分布の式を使うの?」と思われるかもしれません。これは重要なポイントです。
ここでは、正規性を「信じている」わけではありません。あくまで、手元にある情報 (平均差と標準偏差) からPの目安を得るための「換算」として使っています。もし先行研究のローデータがあれば、直接Pを推定する方がより正確です。
3.2 ステップ2: 必要例数を計算する
1:1割付 (φ = 1) の場合:
各パラメータを代入します。
- \(z_{1 – \alpha/2} = z_{0.975} = 1.96\)
- \(z_{1 – \beta} = z_{0.90} = 1.2816\)
- \(P \approx 0.592\)
- \(\phi = 1\)
したがって、総例数は約414人 (各群207人) が必要となります。
解説
4.1 設計しているのは「平均差」ではなく「順位にもとづく差」
SF-36 PFのように天井効果が強い指標では、分布が歪み、同点も増えがちです。こうした状況で平均差だけに依存すると、「一部の外れ値」や「分布形状」の影響を受けやすくなります。
今回のアプローチは、Wilcoxon/Mann–Whitney検定の発想に立ち、**“どちらの群がより良い値を取りやすいか”**を確率で表現する点がポイントです。
この確率 \(P = \Pr(Y > X)\) は、言い換えると
- 介入群が対照群に“勝つ”確率
であり、平均差よりも「分布全体として優位かどうか」を捉える指標になっています。QOLのように歪みや天井・床効果が出やすいアウトカムでは、設計思想として筋が通っています。
4.2 正規近似は「仮定」ではなく「情報の変換」
「正規分布に従わない」と言っているのに、標準正規の \(\Phi\)を使って \(P\)を見積もるのは矛盾に見えます。
でも実際には、ここでやっているのは 正規性の採用ではなく、情報の変換です。
- 設計段階で手元にあるのが「MCID (平均差相当) とSD」だけ
- 順位検定の効果量 (確率P) を直接推定できない
- そこで、広く使われている近似を用いてΔ (平均差/SD) をPに翻訳する
という位置づけです。
もし先行研究の個票データがあるなら、実際の分布 (天井効果、同点の多さ) を反映してPを直接推定できます。その場合は近似よりも確からしさが上がり、設計根拠としても強くなります。
4.3 今回の結果について
今回の結論が「各群200人前後」と大きめに見えるのは、QOL設計では珍しくありません。
理由は単純で、
- ばらつきが大きい (SDが大きい)
- 天井効果で差が出にくい
- 分布が歪む (平均差で捉えづらい)
という性質を持つからです。
順位検定ベースの設計式は、効果を五分五分からのズレとして扱います。このズレが小さいほど必要例数が急に増えるため、QOLで「MCIDはあるが、分散も大きい」ケースでは、結果として大規模化しやすいわけです。
したがって、400人規模という結論は「計算上の偶然」ではなく、QOLの性質を反映した規模感と言えます。
4.4 Rで実装してみる
解答の式をRで書いてみます。
# パラメータ設定
delta <- 0.33 # 標準化差(平均差/SD)
alpha <- 0.05 # 両側有意水準
power <- 0.90 # 検出力
phi <- 1 # 割付比(1:1)
# 標準化差から「勝つ確率」Pを計算
P <- pnorm(delta / sqrt(2))
cat("P (probability of superiority):", round(P, 4), "\n")
# z値
z_alpha <- qnorm(1 - alpha/2) # 1.96
z_beta <- qnorm(power) # 1.2816
# サンプルサイズ計算
N <- (1 + phi)^2 * (z_alpha + z_beta)^2 / (12 * phi * (P - 0.5)^2)
cat("必要総例数:", ceiling(N), "\n")
cat("各群例数:", ceiling(N/2), "\n")
結果をみると・・・
> cat("必要総例数:", ceiling(N), "\n")
必要総例数: 412
> cat("各群例数:", ceiling(N/2), "\n")
各群例数: 206
ほぼ、同じ結果になりました。
まとめ
非正規になりやすいQOL指標に対しては、順位検定 (Wilcoxon/Mann–Whitney検定) を前提にした例数設計が、実務上の有力な選択肢になります。このアプローチでは、効果を平均差ではなく
(介入群が対照群より良い値をとる確率)で表します。「介入群が対照群にどれくらいの確率で勝つか」という解釈ができるため、平均差よりも直感的に説明しやすい点が特徴です。
また設計段階では、先行研究から得られる情報が「MCID(平均差相当)」と「標準偏差」だけ、ということも少なくありません。その場合でも、標準化差 \(\Delta\) (平均差/SD) から
を用いて\(P\)を近似的に見積もることができます。ここでの正規近似は、正規性を仮定するためではなく、限られた情報を順位検定の効果量へ換算するための橋渡しとして使う点がポイントです。
本稿の例では、MCID=10、SD=30より \(\Delta = 0.33\)となり、\(P \approx 0.59\) と見積もられます。この \(P\)を用いて必要例数を計算すると、総数は約414人 (各群約207人) という結果になりました。さらにこの計算はRで容易に再現でき、手計算の確認だけでなく、関数化や \(P\)を振った感度分析にも展開できます。
「正規性が怪しいから設計できない」と諦めるのではなく、アウトカムの性質に合わせて設計思想を順位検定に寄せることで、QOLのような指標でも納得感のある例数根拠を組み立てることが可能になります。
参考文献
- Walters SJ. Design and sample size issues: how many subjects do I need for my study? In: Quality of life outcomes in clinical trials and health-care evaluation: a practical guide to analysis and interpretation. Chichester (UK): John Wiley & Sons, Ltd; 2009. Chapter 4. doi:10.1002/9780470840481.ch4.
- Björgvinsson T, Kerr P. Use of a common language effect size statistic. Am J Psychiatry. 1995 Jan;152(1):151. doi: 10.1176/ajp.152.1.151a. PMID: 7802111.
- Divine GW, Norton HJ, Barón AE, Juarez-Colunga E. The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians. The American Statistician. 2018;72(3):278–286. doi: https://doi.org/10.1080/00031305.2017.1305291