サンプリングとは？統計調査での活用法や種類、注意点を解説

サンプリングには、主に以下2つの使用用途があります。

統計調査としてのサンプリング
セールスプロモーションとしてのサンプリング

今回解説する「統計調査としてのサンプリング」とは、対象となる母集団の中からアンケート調査などを実施する相手を抽出する統計調査方法のことです。

この記事では、統計調査におけるサンプリングの概要や具体的な種類、エクセルを活用した抽出方法などを解説します。

サンプリングとは

サンプリングは、以下2つの使用用途によって意味が異なります。

統計調査としてのサンプリング
セールスプロモーションとしてのサンプリング

統計調査としてのサンプリング

「統計調査としてのサンプリング」とは、対象となる母集団の中から「サンプル（標本）」を抽出し、母集団全体の性質や傾向を予測する方法です。

母集団の中から一部を標本として抽出し調査するため「標本調査」ともいいます。

サンプリングは、主に以下の調査時に使用します。

視聴率調査
顧客満足度調査
商品の品質検査
街頭アンケート

上記の調査では、母集団に含まれる要素すべてをチェックすると、膨大な人的・時間的・経済的コストが必要です。

そのため、母集団の中からランダムにサンプルを抽出し、結果に生じる偏りを小さくしつつ母集団全体の傾向と性質を判断します。

一方で、母集団全員に対して実施する調査を「全数調査」と呼びます。全数調査を活用する場面として、以下が挙げられます。

国勢調査
学校の定期健康診断
飛行機の手荷物検査

全数調査は、全員分のデータ調査が必要な項目で実施します。

セールスプロモーションとしてのサンプリング

「セールスプロモーションとしてのサンプリング」は、顧客に自社商品の試供品を配布し使い心地を試してもらうことで、購買意欲を向上させるマーケティング手法です。

セールスプロモーションとしてのサンプリングは、以下の2種類が当てはまります。

街頭サンプリング
店頭サンプリング

配布物は、試供品・チラシ・クーポンがメインです。顧客と直接コミュニケーションを図り、試供品やクーポンによって商品の魅力をダイレクトに伝えられます。

今回の記事では「統計調査としてのサンプリング」について解説します。あらかじめご了承ください。

サンプリングを行うメリット

サンプリングを行うメリットは以下の2つです。

調査対象を限定することでコストを削減できる
調査データの代表性を確保した適切な調査ができる

調査対象を限定することでコストを削減できる

サンプリングでは調査対象を限定するので、全数調査と比較して人的・時間的・経済的コストを削減できます。

全数調査では、母集団に含まれる要素すべてのチェックが必要なため、膨大な人的・時間的・経済的コストがかかります。

例えば、視聴率を全数調査で計測する場合、関東だけで何百万世帯もチェックしなければなりません。顧客満足度調査では、何万人も存在する消費者に対して、アンケート調査・結果の整理・分析が必要です。

一方、サンプリングでは、母集団の一部をサンプルとして抽出し調査するため、人的・時間的・経済的コストを削減できます。

調査データの代表性を確保した適切な調査ができる

「代表性」とは、調査結果が母集団の意向や性質を偏りなく反映できているかという基準のことです。母集団の意向や性質を反映できれば「代表性がある」と言えます。

サンプリングでは、抽出データの代表性を確保した上で調査を実施します。そのため、調査数が「母集団の一部」であっても、偏りが小さい結果が期待できます。

全数調査では、母集団の数が増加するほど「調査拒否」「調査不能」のケースも増えます。

調査拒否や不能のケースが増加すると、全員を調査しているにもかかわらず、母集団すべての意向を反映させることはできません。

一方でサンプリングは、全数調査よりはサンプル数が少ないです。しかし、ランダム抽出で選び手の主観を排除できる上、全数調査とは異なり調査拒否を複数回避できるため、代表性を反映した結果を求められます。

サンプル数とサンプルサイズ

サンプリングを実施する際は、サンプル数およびサンプルサイズが必要です。

サンプル数: サンプルの抽出を実施した回数

サンプルサイズ: 1回のサンプル抽出で調査した個体の数

例えば、以下の調査内容におけるサンプル数およびサンプルサイズは以下の通りです。

調査内容
本部A500人・支部B300人・支部C200人・支部D100人の従業員に対して、職場環境に関する満足度調査を実施する

サンプル数
4

サンプルサイズ
500・300・200・100

サンプルサイズが小さいと、調査の労力は減少しますが、結果の信頼性は低下します。

一方でサンプルサイズが大きすぎると、結果の信頼性は上昇しますが、調査の労力は増加します。

感覚で数字を決めずに、母集団の規模に合わせたサンプルサイズを求めることが重要です。

サンプルサイズを求める手順

以下の手順を活用することで、母集団の規模に合わせた適切なサンプルサイズを導き出せます。

母集団の規模を把握する
許容誤差を定める
信頼水準を定める
計算式でサンプルサイズを求める

1．母集団の規模を把握する

サンプリングを実施する母集団の規模を把握します。

母集団の規模に応じて、サンプルサイズの目安は決まっています。母集団の規模に応じて大まかなサンプルサイズを把握し、後述の「許容誤差」「信頼水準」「回答比率」を用いて数値を調節しましょう。

母集団の規模に応じたサンプルサイズの目安は以下の通りです。

母集団の規模	サンプルサイズの目安
100	80
1,000	279
1万	370
10万	383
100万	384
100万以降	384

2．許容誤差を定める

「調査結果がどれほど母集団の実態から離れるか？」という誤差の許容範囲を求めましょう。

サンプリングでは母集団の一部を抽出するため、全数調査で得られる結果と誤差が生じます。サンプリングの結果で生じた誤差を許容する範囲を定めたものが「許容誤差」です。

許容誤差は「1〜10％程度」で設定します。許容範囲が大きいほど母集団の実態と誤差が生じるため、数値は小さい方が望ましいです。

一方で、許容誤差を小さくするにはサンプルサイズを増やさなくてはなりません。サンプリングの信頼性を上げることも大切ですが、リサーチにかかる労力の考慮も必要です。

統計上は「許容誤差5％程度」であれば、十分信頼できる結果が得られます。

3．信頼水準を定める

信頼水準とは「サンプリングの結果が許容誤差の範囲内で収まる確率」を指します。

例えば、信頼水準90％の場合「100回の調査中、90回は許容誤差内に収まる」ということです。

一般的には「90％・95％・99％」のいずれかを設定します。統計上は「信頼水準95％」であれば、十分信頼できる結果を得られます。

4．計算式でサンプルサイズを求める

「母集団の規模」「許容誤差」「信頼水準」をもとに、具体的なサンプルサイズを求めます。

サンプルサイズを求める計算式は以下です。

n＝サンプルサイズ
λ＝信頼水準を元にした値
p＝回答比率
d＝許容誤差

λ（ラムダ）に挿入する数値は、信頼水準ごとで定められており、頻繁に利用する数値は以下の通りです。

信頼水準	λの値
90%	1.65
95%	1.96
99%	2.58

回答比率とは、調査対象者が該当の回答を選んだ比率です。例えば「100人中60人が”はい”を選んだ」という場合、”はい”の回答比率は60％となります。

ただし、この数値は事前に「該当の回答を選ぶ割合はどの程度か？」を把握しないとわかりません。

以前実施した調査結果があれば当時の数値をもとに回答比率を設定できますが、多くの場合は誤差が最大になる「50％（計算式上では0.5）」で計算します。

許容誤差は、例えば「5％」で設定した場合は0.05となります。

例として、以下の条件でサンプルサイズを計算しましょう。

許容誤差	4％（0.04）
信頼水準	99％（2.58）
回答比率	50％（0.5）

計算すると「n＝1040.0625」です。つまり、約1,040のサンプルを調査する必要があります。

サンプル抽出方法

サンプル抽出方法には、大きく5種類があります。

サンプル抽出方法	概要	活用シーン
単純無作為サンプリング	完全ランダムでサンプルを抽出する	どのようなシーンでも活用できる
層別サンプリング	母集団をカテゴリーごとに分類し、各カテゴリーごとでサンプルを抽出する	学校・会社・地域など、複数の属性が混在する母集団の調査に活用する
多段サンプリング	単純無作為サンプリングを任意の回数繰り返す	全国が対象の調査など、広範囲な母集団に活用する
集落（クラスター）サンプリング	母集団を集落ごとに分類し、ランダム抽出した集落内すべてを調査する	学校・会社・地域など、複数の属性が混在する母集団を調査する際に活用する
系統（等間隔）サンプリング	一定間隔でサンプルを抽出する	母集団が事前に並べられた際に活用する

単純無作為サンプリング

「単純無作為サンプリング」は、選び手の主観を完全に排除した、最もランダム性が高い抽出方法です。

調査側の主観が入り込まないよう、以下の方法で実施されます。

統計調査としてのサンプリング
セールスプロモーションとしてのサンプリング
乱数表を作る
サイコロを振る
くじ引きをする

単純無作為サンプリングでは、人の意思を排除して完全ランダムにサンプルを抽出できます。

サンプリングでは最もオーソドックスな方法ですが、母集団の規模が膨らんだり、抽出するサンプルサイズが多かったりする場合は、調査の手間がかかります。

層別サンプリング

「層別サンプリング」は、母集団内に複数の属性が混在する際に用いる抽出方法です。以下の手順で抽出します。

母集団を層ごと（カテゴリ・属性etc）に分類する
各層ごとで単純無作為サンプリングを実施する

層別サンプリングは、母集団内に「年齢・居住地・職業・性別・部署」など、多数の属性が混在するケースで活用します。

例えば「全国のグループ会社の労働環境を調査する」というケースで考えます。

最初から単純無作為サンプリングで抽出すると、グループ会社ごとで所属人数に偏りがある場合、結果の誤差が大きくなる可能性が高いです。

「本社の所属人数1万人・地方の支社の所属人数1,000人」では、母数が多い本社の意見が偏って抽出されかねません。

人数による結果の偏りを小さくするには、各グループ会社を「層」として分類し（A社・B社・C社etc）、各層ごとでのサンプル抽出が必要です。

近しい属性を持つ層ごとでサンプリングするため、各層内（グループ会社内）では結果の偏りが小さくなりますが、層同士（各グループ会社同士）でのバラつきは大きくなります。

属性ごとの比率に偏りがあっても、層別サンプリングを活用することで誤差を小さくして母集団の性質を推測可能です。

ただし、層別サンプリングでは母集団の構成要素を事前に把握しなければ分類できません。今回の例では、事前に「各グループ会社ごとの人数」を把握する必要があります。

多段サンプリング

「多段サンプリング」は、母集団が広範囲に存在する際に用いる方法です。以下の手順で抽出します。

最初の母集団で単純無作為サンプリングを実施する
抽出したサンプルを新たな母集団として単純無作為サンプリングを実施する
2で抽出したサンプルを新たな母集団として・・・

抽出したサンプルを新たな母集団としながら、単純無作為サンプリングを任意の回数だけ繰り返します。

単純無作為サンプリングを実施する回数に応じて「二段サンプリング」「三段サンプリング」とも呼ばれます。

多段サンプリングは、母集団が広範囲に存在する場合に有効的です。

例えば「全国の各地域で意識調査を実施する」というケースで考えます。

全国を対象とした意識調査を実施するには、多くの人的・時間的・経済的コストが必要です。

以下の手順で多段サンプリングを実施し調査地域を絞ることで、コストを抑えられます。

全国から50の市区町村をランダム抽出する
50の市区町村それぞれで、10の地区をランダム抽出する
10の地区それぞれで、30世帯をランダム抽出する
30世帯を対象として調査を実施する

まとまった地域で調査を実施するため、全国すべてを対象にした場合よりも労力はかかりません。

ただし、サンプルサイズが小さく限られるため、抽出した標本に偏りが生じる可能性があります。

集落（クラスター）サンプリング

「集落（クラスター）サンプリング」は、母集団を特定の集まり（集落）ごとに分類して、サンプルを抽出する方法です。

以下の手順で抽出します。

母集団を複数の集落に分類する
分類した中からランダムに集落を抽出する
選ばれた集落に属する対象をすべて調査する

集落サンプリングは、母集団の要素を特定の集まりに分類し、ランダム抽出した集落内に限定して調査するため労力を削減できます。

ただし、同じ集落に属する要素は似た性質を持ちやすいため、偏りが生じ結果にも誤差を与える可能性が高いです。

例えば「出荷前に果物の品質チェックを実施する」というケースで考えます。

「果物30個入りの箱×1,000箱」がある場合、出荷前に1,000箱すべてを品質チェックするのは重労働です。

そのため「1箱＝1つの集落」として捉え、1,000箱からランダムで10箱を選び、選ばれた箱に入っている果物の品質チェックを実施します。

すべての果物をチェックする手間は省けますが、「品質不良が1箱分あった」という場合、他の果物の品質も悪いと判断されすべて廃棄せざるを得ない可能性があります。

系統（等間隔）サンプリング

「系統（等間隔）サンプリング」は、規則性に従って母集団からサンプルを抽出する方法です。

以下の手順で抽出します。

母集団の要素に通し番号を割り振り、順序ごとで並べる
最初の調査対象をランダム抽出する
2番目以降の調査対象を一定間隔で抽出する

系統サンプリングでは、事前に定めた間隔に沿ってサンプルを抽出するので、単純無作為サンプリングより手間はかかりません。

ただし、母集団の要素が「名簿順」「成績順」など、規則性に沿って並んでいる場合は、抽出するサンプルに偏りが生じる可能性があります。

例えば「工場のラインで流れてくる製品の品質チェックを実施する」というケースで考えます。

1日に数千個を生産するラインの場合、すべてを生産後に単純無作為サンプリングで抽出し品質をチェックをするのは重労働です。

そのため、まずは1つ目の製品をランダムで抜き出し、2番目以降は「100個ごとに抜き出し品質チェックする」という流れで進めます。

エクセルを用いたサンプリング方法

サンプリングは、エクセルの機能を使い簡単に実施できます。

「サンプルサイズを求める手順」をもとに必要なサンプルサイズを求め、ランダムで抽出し調査を実施しましょう。

今回は「単純無作為サンプリング」の実施方法を解説します。

データ分析タブから「サンプリング」を選択する
「入力範囲」に母集団の範囲を入力する
「標本数」に抽出したいサンプルサイズを入力する

データ分析ツールが必要なため、ダウンロードされていない方は、下記の記事を参考にしてタブに「データ分析」をダウンロードします。

参考記事：【Excel】データ分析に役立つ「分析ツール」で「基本統計量」を簡単に求めてビジネスでの判断材料に

1．データ分析タブから「サンプリング」を選択する

最初に、単純無作為サンプリングを実施する母集団データをエクセル上でまとめます。

今回は以下を想定しています。

自社サービスを導入している100社から10社をランダム抽出しアンケートを実施する

〜中略〜

なお、今回は「エクセルでの単純無作為サンプリング実施方法」の説明が主目的のため、抽出するサンプルサイズは簡潔にしています。

データをまとめ、タブ内の「データ→データ分析→サンプリング」の順番で選択し、OKをクリックします。

2．「入力範囲」に母集団の範囲を入力する

「入力範囲」に、サンプリングを実施するデータ範囲を入力します。

入力形式は以下です。

$列番号$最初の行番号:$列番号$最後の行番号

3．「標本数」に抽出したいサンプルサイズを入力する

「標本数」に抽出するサンプルサイズを入力します。

今回は10としましたが、実際は下記の計算式を用いて求めたサンプルサイズを記入します。

出力オプションは、確認しやすい場所で設定しましょう。今回は、新規ワークシート「抽出結果」に抽出します。

新規ワークシートにランダム抽出された番号が入力されて完成です。

サンプリングの注意点

サンプリングを実施する際の注意点は以下の2点です。

全数調査と比較して調査結果に誤差が生じやすい
サンプルに偏りが生じやすい抽出方法もある

全数調査と比較して調査結果に誤差が生じやすい

サンプリングでは母集団の一部を抽出して調査するため、全数調査と比べて結果に誤差が生じやすいです。

結果の誤差を小さくするためには、母集団の規模に応じて適切な「サンプルサイズ・許容誤差・信頼水準」を定めることが大切です。

サンプルに偏りが生じやすい抽出方法もある

単純無作為サンプリング以外は、完全ランダムにサンプルを抽出しないため、結果に誤差が生じやすいです。

単純無作為サンプリングは完全ランダムでサンプルを抽出するため、代表性が確保され結果の偏りを小さくできます。

しかし、必要なサンプルサイズが膨大になるほど、1つずつランダムで標本を抽出するのは現実的ではありません。

他の抽出方法を活用することで手間は削減できますが、以下の理由で単純無作為サンプリングよりも誤差が生じやすいです。

層別サンプリング: 最初に任意のカテゴリーごとで母集団を分類するため偏りが生じやすい
多段サンプリング: 最終的なサンプルサイズが小さくなるため、結果に偏りが生じやすい
集落サンプリング: 1つの集落に含まれるサンプルをすべて調査するため、性質が偏りやすい
系統サンプリング: 一定周期で標本を選ぶため、並びに規則性があると抽出するサンプルにも偏りが生じやすい

結果の誤差を小さくするには、なるべく「単純無作為サンプリング」を用いることが理想です。

ただ、母集団の規模や必要なサンプルサイズの大きさによっては難しいです。

そのため、母集団の規模や属性の多さなどを基準にして適切なサンプリング方法を選び、単純無作為サンプリングほどではなくとも極力誤差を小さくしましょう。

まとめ

統計調査におけるサンプリングでは、ランダム抽出を活用して大きい母集団の性質や傾向を推測できます。

誤差の小さい結果を求めるためには、信頼水準・許容誤差を定め、適切なサンプルサイズを用いることが重要です。

調査規模や母集団の属性に応じて、単純無作為サンプリング以外の適切な方法を選択しましょう。