信頼性と妥当性との違いとは？適切なサンプルサイズの考え方も解説

信頼性（Reliability）: 同一対象に同じような調査を繰り返したとしても、一貫した結果が得られるかどうかの精度。

例えば、商品の在庫をある人に数分間に3度数えてもらったとき、1回目は300個、2回目は350個、3回目には200個と報告されました。
しかし別の人に同じように3度数えてもらったときは、1回目には302個、2回目には303個、3回目には301個と報告されたとしましょう。

もしこんな結果になったとき、あなたはどう思うでしょうか？
多くの人は「どうやら後の人の方が信頼できそうだ」と考えるのではないでしょうか。

アンケート調査においても、このように得られた回答が正しそうかどうかを図る指標があります。それが信頼性です。

この記事では、以下のポイントをわかりやすく説明します。

信頼性と妥当性の違いは何か
信頼性を推測する方法
信頼性の高い調査に必要なサンプルサイズの考え方

信頼性とは、調査の一貫性

信頼性（Reliability）: 同一対象に同じような調査を繰り返したとしても、一貫した結果が得られるかどうかの精度。

何度同じ調査を行っても、同じような結果が得られるとき「信頼性が高い調査」だと言うことが出来ます。
この信頼性に対し、区別しておくべき言葉に「妥当性」があります。

妥当性（Validity）: 調査設計・調査手法が、調査目的に対してどれだけ適切に設定できているかを表す指標。調査の測定値によってリサーチの目的が達成されるかを計るもの。

調査を行うことによって、目的とする対象の特性や意向が分かるようなとき、その調査は「妥当性が高い」と言われます。

信頼性と妥当性は異なるものです。

信頼性と妥当性

たとえ信頼性の高い調査結果だったとしても、調査によって知りたかったことが測れていないとしたら、その調査は「信頼性が高いが、妥当性が低い」調査であり、あまり有用ではないということになります。

信頼性を推定する方法

信頼性を推定するための方法は複数あります。

再テスト法
平行テスト法（代理テスト法）
折半法
クロンバックのα係数を用いて内的一貫性を測る方法

現在の主流は、クロンバックのα係数を用いて内的一貫性を測る方法です。

再テスト法

再テスト法は、一定の期間を置いて同じ調査を2回行い、調査結果がどれだけ相関しているかを求める方法です。

再テスト法

再テスト法は、「いつ調査を行っても同じような結果が得られるか」を見る方法です。

ただし、以下のような欠点があります。

調査を2度行うことによる手間がかかる
期間を空けて同じ内容の調査を行うため、学習効果や順序効果が混入する可能性がある
期間を空けすぎると、対象者の条件が変化してしまう可能性がある

平行テスト法（代理テスト法）

平行テスト法（代理テスト法）は、内容や難易度がほぼ等しい2種類の調査を用意し、2調査間の相関係数を求める方法です。

平行テスト法

ただし、平行テスト法にも欠点があります。

2種類の調査は完全に同時に実施することができない
調査内容が完全に等価であることを保証するのがそもそも難しい
複数回調査を行うことによる回答負担の増加

折半法

折半法は、1つの調査を実施したあと2つのグループに分割する方法です。

折半法

調査項目を奇数と偶数の２グループに分け、それぞれの総得点と相関係数を求める方法（奇偶法）が多く用いられます。
しかし、折半法にも欠点があります。

折半した２グループが本当に等質に分けられているかどうか保証できない
折半する方法によって相関が変化してしまう

クロンバックのα係数を用いて内的一貫性を測る方法

クロンバックのα係数を用い内的一貫性を測る方法は、現在の主流です。

折半法では、どのように折半するかによって相関係数が変わってしまうという点が問題でした。これに対し、クロンバックのα係数では、一つの調査に対して考えうる折半方法すべての信頼性係数を求め平均します。
α係数は0~1の値をとりますが、1に近いほど内的一貫性（内部整合性）が高いとされています。

内的一貫性（内部整合性）とは、調査中に複数回同じような質問をしたときに、同じような答えとなっているかを示す係数です。

内的一貫性

たとえば、

Q1．あなたが1週間に運動する頻度を教えて下さい
Q10．あなたは1週間にどのくらい運動しますか。
Q20．1週間のうち運動する頻度はどのくらいですか

などと似たような質問を1回の調査で何回か質問したときに、

A1．週に3～4日程度運動する
A10．ほとんど運動しない
A20．週に1日運動する

このように回答が一貫していないとき、「内的一貫性が低い」と言えます。

信頼性の高い調査に必要なサンプルサイズ

一般的に、多くのサンプルサイズから回収するほど、精度が上がり、より正しい対象の姿が浮かび上がると思われがちです。しかし、必ずしもそうではありません。
サンプルサイズが大きすぎると、ただむやみに費用がかさむだけで終わってしまうケースもあるのです。

では具体的に、信頼性の高い調査を行うためには、いったいどのぐらいのサンプルサイズを集める必要があるのでしょうか？

アンケート調査では「400サンプル」が一定の目安として使われることが多いです。
これはコストと誤差のバランスがとりやすいためです。

ただし、信頼係数の水準、許容する誤差により最適なサンプルサイズは変わります。

GMOリサーチ&AIでは、リサーチの目的や費用に合わせた最適なアンケート調査を日本最大級2,000万人超の良質なモニターへ安価・スピーディーに実施可能です。
約200種類の詳細な属性のターゲティングも可能。お気軽にお問い合わせください。

お問い合わせはこちらから >

まとめ

信頼性と妥当性との違い、推定方法、信頼性の高いアンケート調査のためのサンプルサイズの考え方について解説しました。

信頼性を推定する主流の方法は、クロンバックのα係数を用いて内的一貫性を測る方法でした。
信頼性の高いアンケート調査を行うには、行いたいリサーチに合わせたサンプルサイズの設計も重要です。