分散分析とは?t検定との違いや分析のやり方・注意点をわかりやすく解説
2024年01月12日
Webサイトの効果検証を行う場面で、「期間Aと期間BのCVRを比較する」など、2つのデータ群の比較には慣れている方が多いと思います。ただ、「3つのプラットフォームに出稿した広告について、クリック数の差を検証する」など、複数のデータ群を比較したいものの、どのように比較すればよいかわからないという方もいるのではないでしょうか。
3つ以上のデータ群の平均値を比較して、有意差の有無を判定したい時に役立つのが、分散分析です。本記事では、分散分析の意味や考え方、エクセルで分析を行う方法を解説します。
分散分析とは3群以上のデータの平均について差を検定するもの
分散分析は、複数のデータ群について平均値の差を比較し、統計的に意味のある差(有意差)があるか判断する手法です。ANOVA(Analysis of Variance)とも呼ばれます。
分散分析が役立つ場面
分散分析が役立つ場面は数多く存在します。例えばマーケティングの分野では、仮説検定を行う際に分散分析を行います。
仮説検定とは、設定した仮説が統計的に妥当か判断する手法です。複数の広告プラットフォームで配信した広告のクリック数に差があるか、天候の影響でバスと電車の乗客数に違いがあるか、といった検証に活用できます。
t検定との違い
分散分析と比較されることが多い用語に、t検定があります。分散分析とt検定は、両者とも母平均を検定する手法という点では共通していますが、扱う群の数がそれぞれ異なります。
具体的には、t検定は2群の平均値を比較する手法で、分散分析は3群以上の平均値を比較する手法を指します。
知っておきたい、分散分析の関連用語
分散分析の種類や考え方について解説する前に、分散分析を理解するうえで欠かせない、統計に関する用語を紹介します。
帰無仮説と対立仮説
帰無仮説と対立仮説は、検定において重要な概念です。
帰無仮説は、「有意差がない」という仮説で、否定したい仮説を設定します。例えば「新しい広告のクリック率と既存の広告のクリック率に差がある」という仮説を検定する場合、「新しい広告のクリック率と既存の広告のクリック率に差はない」という帰無仮説を設定し、この帰無仮説を統計的に検定して有意な差がないかを判断します。帰無仮説が棄却されれば、クリック率に差があると判定することができます。
一方、対立仮説は、「有意差がある」という仮説です。帰無仮説が棄却されたときに採用されるもので、帰無仮説とは否定しあう関係にあります。
詳細は、「有意差とは?帰無仮説/対立仮説の考え方とビジネスでの活用を解説」をご覧ください。
独立変数と従属変数
独立変数とは、他の変数に影響されることはないが、逆に影響を与える可能性がある変数のことです。具体的には、年齢や性別がこれに該当します。
それに対し従属変数は、独立変数によって影響を受け、決定される測定項目を指します。
要因(因子)、水準
要因とは、データに変化を与える要素を指します。特に、母平均に差をもたらすと考えられる要因のことを「因子」と呼びます。
水準は、1つの要因に含まれる項目のことです。例えば、「天候」が要因である場合、「晴れ」「くもり」「雨」などが水準に該当します。
代表的な分散分析の種類
分散分析にはいくつか種類がありますが、今回は代表的な「一元配置分散分析」と「二元配置分散分析」について解説します。ちなみに、「一元」「二元」はそれぞれ要因の数を示しています。
一元配置分散分析
一元配置分散分析は、1つの要因からなるデータに対して行う分散分析です。要因に含まれる水準間において、平均値の差がわかります。
【例】A高校の学力テストの科目別の点数を分析する
要因 | 学力テストの科目 | ||
---|---|---|---|
水準 | 国語 | 英語 | 数学 |
二元配置分散分析
二元配置分散分析は、2つの要因からなるデータに対して行う分散分析です。
【例】A高校とB高校の学力テストの科目別の点数を分析する
高校の要因 | A高校 | B高校 | ||||
---|---|---|---|---|---|---|
科目の要因 | 国語 | 英語 | 数学 | 国語 | 英語 | 数学 |
二元配置分散分析を行うと、以下の2つがわかります。
一つは「各要因における水準間の平均値に差があるか」です。上記の例で言うと、A高校とB高校の、高校ごとに平均値に差があるのか、また、国語・英語・数学の、科目ごとの平均値に差があるかという部分です。
もう一つは、「交互作用があるかどうか」です。高校と科目の2つの要因が複合的に影響しあい、相乗効果を生んでいる可能性を確認することができます。
分散分析の考え方
次に、分散分析を行う際の流れについて解説します。
ここでは、1組・2組・3組の3クラス間で、国語の平均点に有意差があるかどうか検証することを例に解説します。
1.帰無仮説と対立仮説を設定する
まずは、帰無仮説と対立仮説を設定します。
先述の通り、帰無仮説には「否定したい仮説」を設定します。今回の例では、「1組の平均点、2組の平均点、3組の平均点すべてに差がない」という帰無仮説を設定します。
対立仮説は帰無仮説とは否定の関係にある仮説ですので、「1組、2組、3組の平均点に差がある」と設定できます。
▼帰無仮説と対立仮説
帰無仮説 | 1組の国語平均点 = 2組の国語平均点 = 3組の国語平均点 |
---|---|
対立仮説 | 1組の国語平均点、2組の国語平均点、3組の国語平均点に差がある |
2.分散分析表を作成し、分析する
続いて、分散分析表を作成し、帰無仮説を棄却できるか判定します。分散分析表とは、以下のような表で、縦軸に「群間」「群内」「全体」を置き、横軸には「平方和」「自由度」「平均平方」「F値」を設定します。また、※の箇所は計算しません。
分散分析の結果、3クラスの間で国語の平均点に有意差があるということはわかりますが、「1組、2組、3組すべてのクラスの平均点に有意差がある」可能性もあれば、「1組と2組の平均点に有意差はないが、3組の平均点には有意差が見られた」という可能性もあります。
もし、「1組と2組」「1組と3組」など、どこに差があるかを確認したい場合には、多重比較など別の方法で分析を行う必要があります。
エクセルで分散分析を行う方法
アドインを使用すると、エクセルでも分散分析を行うことができます。一元分析と二元分析それぞれの分析の進め方を紹介します。
エクセルで一元配置分散分析を行う
例えば、3つのプラットフォームごとの、広告配信クリック数の平均値に有意差があるかを調べたいとします。
データを用意したら、まず「データ」タブ内の一番右にある「データ分析」を選択します。
以下のポップアップが表示されたら、「分散分析:一元配置」を選択します。
どのデータを分散分析するか、詳しい設定項目を入力していきます。今回は、B列1行~D列11行を「入力範囲」とし、「先頭行をラベルとして使用」にチェックを入れます。出力先は、空いているスペースを選択しました。
必要な項目を埋めたら、右上の「OK」を押すことで、自動で「概要」と「分散分析表」が出力されます。
分散分析表が出力されたら、実際に有意差があるかどうか判定をしてみましょう。
多くの数値が並んでいますが、有意差があるか判断するために確認する箇所は、分散分析表の「P-値」です。
P-値とは、帰無仮説(=有意差がない)が起こる確率を指します。一般的に、P-値が5%以下なら、帰無仮説を棄却することができるとされています。
今回の例では「0.1599%」と5%以下なので、帰無仮説を棄却できます。つまり、「有意差がある」と判定できます。
エクセルで二元配置分散分析を行う
二元配置分散分析は、「繰り返しあり」と「繰り返しなし」の2種類に分けられます。どちらに該当するかは、1つの要因のなかに複数データがあるかどうかで判別します。
データを準備した後に、アドインから分析ツールを選択するまでの流れは一元配置分散分析と同じですが、アドインは「繰り返しあり」「繰り返しなし」でそれぞれわかれています。
選択後は一元配置同様、必要事項を入力・出力します。
今回は「繰り返しあり」のデータを出力しました。
一元配置分散分析とは、分散分析表の「変動要因」の項目が変わっています。
今回の例で言うと、「標本」は広告の種類ごとの結果を示し、「列」はプラットフォームごとの結果を示しています。
一元配置分散分析と同様、P-値が5%以下なら帰無仮説を棄却することができるとされています。今回は「標本」のP-値は「0.455819%」、「列」のP-値も「0.184489」とどちらも5%以下なので、帰無仮説を棄却できます。つまり、「広告1と広告2の間には有意差がある」「プラットフォーム間にも有意差がある」と言えます。
また、「交互作用」は、「広告1はプラットフォームAでよくクリックされる」「広告2はプラットフォームCでよくクリックされる」のように、2つの要因の組み合わせごとに有意差があるかどうかを見ることができます。「交互作用」のP-値は「0.826694%」と5%を上回っています。そのため帰無仮説を棄却できず、「広告の種類とプラットフォームの組み合わせによる有意差はない」と判定できます。
まとめ|分散分析を使えば3つ以上のグループ間でも有意差を判定できる
分散分析(ANOVA)は、複数のデータ群の平均値を比較し、有意差があるかどうか判定する統計手法です。
2つのグループ間の検定で用いられるt検定と違い、3つ以上のグループ間でも有意差を判定できるため、仮説検定に活用できます。データに変化を与える要素である「要因」の数がN個であれば、N元配置分散分析と呼びますが、「一元配置分散分析」と「二元配置分散分析」が代表的です。
エクセルでもアドインを使えば簡単に分析できるため、マーケティング分析に取り入れたい分析手法の一つです。
- 3分で読めるGMOリサーチ&AIのサービス
-
GMOリサーチ&AIでは、マーケティング活動に役立つデータを得られる、さまざまなサービスを提供しています。
- ネットリサーチ
- 海外調査
- 消費者インサイト など
「戦略立案に向けてリサーチを実施してみたい」など、興味がある方はお気軽にご相談ください。
- 資料ダウンロード
よくある質問
Q1.分散分析とt検定の違いは? |
---|
大きな違いは、比較するデータ群の数です。 t検定は、2群のデータ同士を比較することに特化しています。一方分散分析は、3群以上のデータ同士を比較する手法であることが違いです。 詳しくは「t検定との違い」の節をご覧ください。 |
Q2.分散分析の関連用語である、要因や水準の意味は? |
「要因」は、データに変化を与える要素で、特に母平均に差をもたらすと考えられる要因は「因子」と呼びます。また、「水準」の意味は、1つの要因に含まれる項目です。 詳しくは「要因(因子)、水準」の節をご覧ください。 |
- サービス概要を無料配布中「3分で読めるGMOリサーチ&AIのサービス」
-
GMOリサーチ&AIはお客様のマーケティング活動を支援しており、さまざまなサービスを提供しております。
- スピーディーにアンケートデータを収集するには
- お客様ご自身で好きな時にアンケートを実施する方法
- どこの誰にどれくらいリーチができるか
ぜひこの機会にお求めください。 - 資料請求する