Rを用いて統計的仮説検定を学ぶ (3)
- アウトライン
-
- 作成日: 2026/1/23
- 更新日: –
はじめに
統計解析では、手元のデータが「どのような前提のもとで得られたものか」、そして「どの程度まで一般化してよいのか」を常に意識する必要があります。
平均値の比較、相関の評価、カテゴリーデータの関係性など、用いる解析手法は一見異なりますが、いずれも偶然によるばらつきと意味のある差や関係を区別するための道具である点は共通しています。
本コラムでは、機能性表示食品の探索的調査を想定し、カテゴリーデータ同士の関係性を検討する代表的な方法であるカイ二乗検定 (独立性の検定) を題材として、Rによる解析と結果の読み方をクイズ形式で確認します。
問題
ある食品メーカーが、味覚特性に関する探索的調査を実施した。被験者は次の2項目について回答した。
回答項目
主に好んで摂取する食事タイプ
- Aタイプ (例: 油脂や乳製品を多く含む食事)
- Bタイプ (例: 穀類や魚介類を中心とした食事)
味覚の傾向
- マイルド嗜好
- スパイシー嗜好
次のデータを用いて、食事タイプと味覚傾向が独立か (関係があるか) をカイ二乗検定で検討しなさい。
| 試験参加者 | 食事タイプ | 味覚傾向 |
|---|---|---|
| 1 | Aタイプ | マイルド |
| 2 | Bタイプ | スパイシー |
| 3 | Bタイプ | マイルド |
| 4 | Aタイプ | マイルド |
| 5 | Bタイプ | スパイシー |
| 6 | Aタイプ | スパイシー |
| 7 | Aタイプ | スパイシー |
| 8 | Bタイプ | スパイシー |
| 9 | Aタイプ | マイルド |
| 10 | Aタイプ | マイルド |
| 11 | Bタイプ | マイルド |
| 12 | Aタイプ | マイルド |
| 13 | Bタイプ | スパイシー |
| 14 | Aタイプ | スパイシー |
| 15 | Bタイプ | マイルド |
| 16 | Bタイプ | スパイシー |
| 17 | Aタイプ | スパイシー |
| 18 | Aタイプ | マイルド |
| 19 | Bタイプ | スパイシー |
| 20 | Bタイプ | スパイシー |
- ヒント
-
- 帰無仮説: 食事タイプと味覚傾向は独立 (関係なし)
- 対立仮説: 独立ではない (何らかの関係あり)
解答
【スクリプト】
食事タイプ <- c(
"Aタイプ","Bタイプ","Bタイプ","Aタイプ","Bタイプ",
"Aタイプ","Aタイプ","Bタイプ","Aタイプ","Aタイプ",
"Bタイプ","Aタイプ","Bタイプ","Aタイプ","Bタイプ",
"Bタイプ","Aタイプ","Aタイプ","Bタイプ","Bタイプ"
)
味覚傾向 <- c(
"マイルド","スパイシー","マイルド","マイルド","スパイシー",
"スパイシー","スパイシー","スパイシー","マイルド","マイルド",
"マイルド","マイルド","スパイシー","スパイシー","マイルド",
"スパイシー","スパイシー","マイルド","スパイシー","スパイシー"
)
クロス集計 <- table(食事タイプ, 味覚傾向)
chisq.test(クロス集計, correct = FALSE)
【出力】
> 食事タイプ <- c(
+ "Aタイプ","Bタイプ","Bタイプ","Aタイプ","Bタイプ",
+ "Aタイプ","Aタイプ","Bタイプ","Aタイプ","Aタイプ",
+ "Bタイプ","Aタイプ","Bタイプ","Aタイプ","Bタイプ",
+ "Bタイプ","Aタイプ","Aタイプ","Bタイプ","Bタイプ"
+ )
>
> 味覚傾向 <- c(
+ "マイルド","スパイシー","マイルド","マイルド","スパイシー",
+ "スパイシー","スパイシー","スパイシー","マイルド","マイルド",
+ "マイルド","マイルド","スパイシー","スパイシー","マイルド",
+ "スパイシー","スパイシー","マイルド","スパイシー","スパイシー"
+ )
>
> クロス集計 <- table(食事タイプ, 味覚傾向)
> chisq.test(クロス集計, correct = FALSE)
Pearson's Chi-squared test
data: クロス集計
X-squared = 1.8182, df = 1, p-value = 0.1775
警告メッセージ:
chisq.test(クロス集計, correct = FALSE) で:
カイ自乗近似は不正確かもしれません
解説
p値は0.1775で、一般的な有意水準 5%(0.05)では有意とは言えません。
したがって、このデータからは 「食事タイプと味覚傾向に関係がある」とは言いにくい、という結論になります。
ただし、ここがクイズの重要ポイントです。
「有意でない」=「関係がない」ではない
今回の結果は、両者に関係がないと断定したわけではありません。正確には、今回の標本サイズとばらつきの範囲では、独立ではないと示す十分な証拠が得られなかった、という意味です。
【警告メッセージの意味】
今回、警告メッセージが出力されました。
「カイ自乗近似は不正確かもしれません」という警告は、ざっくり言うと
- データ数が小さい
- あるセルの期待度数が小さくなりやすい (偏りがある)
などのときに、カイ二乗分布による近似が怪しい可能性を示します。
探索的調査や小規模試験では頻出なので、次のような対処を「選択肢として持つ」のが実務的です。
- 代替案 (小標本向け)
-
- ・Fisherの正確確率検定
- ・モンテカルロ法によるp値
まとめ
本コラムでは、カテゴリーデータの関係性を評価する基本として、カイ二乗検定 (独立性の検定) の考え方と結果の読み取り方を確認しました。
- p値が有意水準を下回らない場合、「関係がない」と断言するのではなく「今回のデータでは関係を示す証拠が十分でない」と解釈する
- 小規模データでは、カイ二乗検定の近似が不安定になり、警告が出ることがある
- その場合は、Fisher検定やモンテカルロp値などの選択肢を検討する
統計検定は、結果に単純な「正解・不正解」を与える道具ではありません。データの収集方法、前提条件、標本サイズ、そして実務上の意味づけまで含めて解釈することが重要です。
本稿が、機能性表示食品の探索的調査を含む実務において、統計結果を批判的に読み解くための一助となれば幸いです。
Rを使用した他のクイズ形式の問題は、別のコラムにまとめていますので、ぜひ参照してください。





