Rを用いて統計的仮説検定を学ぶ (4)
- アウトライン
-
- 作成日: 2026/1/24
- 更新日: –
はじめに
統計解析では、手元のデータが「どのような前提のもとで得られたものか」、そして「どの程度まで一般化してよいのか」を常に意識する必要があります。
平均値の比較、相関の評価、カテゴリーデータの関係性など、用いられる手法は一見異なりますが、いずれも偶然によるばらつきと意味のある差や関係を区別するための道具である点は共通しています。
本コラムでは、機能性表示食品試験を念頭に置きながら、連続変数間の相関解析を題材として、Rでの解析結果の読み取り方を確認します。
特に今回は、「効果の大きさ (相関係数)」と「統計的有意性 (p値)」が一致しないことを、クイズ形式で体感してみましょう。
問題
次のデータについて、2つの指標の間に相関があるかどうかを、無相関検定 (有意水準5%、両側検定) により検討しなさい。
(1) 試験参加者5名のデータ
ある機能性食品の予備試験として、被験者5名を対象に、4週間摂取後の次の指標を測定した。
- 指標A: 注意力スコア (点)
- 指標B: 記憶力スコア (点)
表1. 注意力スコアと記憶力スコア (試験参加者5名)
| 試験参加者 | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| 注意力スコア | 65 | 45 | 35 | 75 | 58 |
| 記憶力スコア | 78 | 30 | 40 | 72 | 52 |
このデータを用いて、注意力スコアと記憶力スコアの相関について無相関検定を行いなさい。
(2) 同じデータを2回繰り返して「見かけ上10名」にした場合
次に、表1の試験参加者5名分のデータをそのまま2回繰り返して用い、見かけ上10名のデータとした場合を考える
(※相関係数の値は変わらず、サンプルサイズのみが2倍になる状況と考えなさい)。
表2. 注意力スコアと記憶力スコア (試験参加者5名×2回分)
| 試験参加者 | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| 注意力スコア | 65 | 45 | 35 | 75 | 58 |
| 記憶力スコア | 78 | 30 | 40 | 72 | 52 |
| 試験参加者 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|
| 注意力スコア | 65 | 45 | 35 | 75 | 58 |
| 記憶力スコア | 78 | 30 | 40 | 72 | 52 |
この場合についても無相関検定(有意水準5%、両側検定)を行い、(1-1)の結果と比較しなさい。
- ヒント
-
以下のように rep 関数を使って、同じデータを2回繰り返した新しい変数を作ることができます。
attention <- c(65, 45, 35, 75, 58)
attention2 <- rep(attention, 2)memory <- c(78, 30, 40, 72, 52)
memory2 <- rep(memory, 2)
解答
(1)
【スクリプト】
注意力 <- c(65, 45, 35, 75, 58)
記憶力 <- c(78, 30, 40, 72, 52)
# ピアソンの積率相関係数による無相関検定
cor.test(注意力, 記憶力)
【出力】
> 注意力 <- c(65, 45, 35, 75, 58)
> 記憶力 <- c(78, 30, 40, 72, 52)
>
> # ピアソンの積率相関係数による無相関検定
> cor.test(注意力, 記憶力)
Pearson's product-moment correlation
data: 注意力 and 記憶力
t = 2.8766, df = 3, p-value = 0.0637
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.1047316 0.9903910
sample estimates:
cor
0.8566944
(2)
【スクリプト】
# データを2回繰り返す
注意力2 <- rep(注意力, 2)
記憶力2 <- rep(記憶力, 2)
# 無相関検定
cor.test(注意力2, 記憶力2)
【出力】
> # データを2回繰り返す
> 注意力2 <- rep(注意力, 2)
> 記憶力2 <- rep(記憶力, 2)
>
> # 無相関検定
> cor.test(注意力2, 記憶力2)
Pearson's product-moment correlation
data: 注意力2 and 記憶力2
t = 4.6975, df = 8, p-value = 0.001546
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4929804 0.9655212
sample estimates:
cor
0.8566944
標本相関係数の値は同じだが、p値が大きく異なることに注目してください。
解説
このクイズのポイントはここです。
- 相関係数 (r) は同じ: 0.8567
- しかしp値は大きく変化
5名: p = 0.0637 (有意水準5%では有意ではない)
10名: p = 0.001546 (有意)
つまり、効果の大きさ(相関の強さ)が同じでも、サンプルサイズが増えるだけで「統計的に有意」になり得る、ということです。
これは、p値が「効果の大きさ」ではなく、「偶然だけでこの程度の相関が出る確率」を、標本サイズも含めて評価しているためです。
サンプルサイズが増えると推定が安定し、偶然で説明しにくくなるため、p値が小さくなりやすくなります。
※なお、今回の (2) は「同じデータの複製」であり、現実の追加データではありません。実務上は独立な被験者を増やす必要がありますが、nが増えるとp値が動くという統計の性質を理解する教材としては非常に有効です。
まとめ
本コラムでは、連続変数間の相関解析(無相関検定)を題材に、統計検定における 「効果の大きさ」と「統計的有意性」 の違いを確認しました。
- 相関係数(r): 関係の強さ (効果の大きさ)
- p値: その結果が偶然で生じたと考えたときの説明のつきにくさ (統計的確からしさ)
- サンプルサイズが変わるだけで、p値や解釈は大きく変わり得る
統計検定は、結果に単純な「正解・不正解」を与える道具ではありません。データの背景、前提条件、サンプルサイズ、そして実務上の意味合いを踏まえて読み取ることで、はじめて機能性表示食品試験を含む研究・実務に活かすことができます。
本稿が、統計解析結果を批判的に読み解くための一助となれば幸いです。Rを使用した他のクイズ形式の問題は、別のコラムでもまとめていますので、ぜひ参照してください。





