クラスター分析とは?その手法と応用例を図解!

2021年10月11日

グルーピング

クラスター分析は、データ全体の中から似たもの同士をグループ分けする方法です。 人だけでなく、企業、商品、地域、イメージなども対象に出来ることから、市場調査やマーケティングの現場でもよく使われています。

◆クラスター分析の活用例

  • 顧客やターゲット、商圏のセグメンテーション
  • ポジショニング分析
  • ブランド・商品イメージのカテゴリー分類

この記事では、クラスター分析とはどういう分析手法なのか、そしてどのように実務に役立てられるのか解説します。

クラスター分析とは

クラスター(cluster)は、集団・群れ・ぶどうなどの房を指す言葉です。

その名の通り、いろいろな特性を持つ個体から似たもの同士を集めていくつかのグループ(クラスター)に分類します。

このとき、性別・年齢・在住地域といったデモグラフィックなデータではなく、意識や価値観といったはっきり定まっていない指標によって分類を行うのがクラスター分析の特徴です。

クラスター分析は2種類ある

クラスター分析には大きく分けて「階層クラスター分析」と「非階層クラスター分析」二つの手法があります。以下の表で、使い分けについてご紹介します。

◆クラスター分析には2種類ある

階層クラスター分析
似ている対象を順々にいくつかのクラスター(集団)にまとめる方法。 デンドログラム(樹形図)により、グルーピングする過程が視覚的に把握できる。
非階層クラスター分析
集団全体から、似たもの同士が同じクラスターに入るように分割する方法。階層的な構造はない。個体数が多い場合に適している。

階層クラスター分析

階層クラスター分析は、データ群のなかで最も似ている対象の組み合わせから順番にまとめていき、最終的に一つのクラスターにまとめる手法です。

似ている個体ごとに分類していく過程でデンドログラム(樹形図)ができあがります。

樹形図

※ある青果店の売上数を客層別にクラスター分析したイメージ図

デンドログラムで、対象がいくつのクラスターに分類されるか、どのクラスター同士がどのように結合されるかという階層関係が分かります。

低い位置で合流しているもの同士は似たものであり、高い位置で合流しているものはあまり似ていないもの同士と読み取れます。 この図であれば、最も似た傾向を持つのはリンゴとイチゴを購入する客層であるということが分かります。

階層クラスター分析は、クラスターを作るときにどれだけ「似ている」か数量的に示す距離の測り方によってさらに種類が分かれます。

分析手法 代表的な方法 内容
階層クラスター分析 ウォード法 クラスターを併合するときに失われる情報量を最小にするように、重心と個体との偏差の二乗和をとる方法
  最短距離法(最近隣法) クラスター間の距離を「各クラスターのそれぞれ最も近い距離の個体の組み合わせ」とする方法
  最長距離法(最遠隣法) クラスター間の距離を「各クラスターのそれぞれ最も遠い距離の個体の組み合わせ」とする方法
  重心法 クラスター間の距離を「各クラスターの重心の組み合わせ」とする方法
  群平均法 クラスター間の距離を「各クラスターの個体間のすべての対の距離の平均」とする方法
  メディアン法 クラスター間の距離を「ある2つのクラスターの重心間の中央値と別のクラスターの重心」とする方法
  その他 可変法など

迷った場合は、データ全体がバランスよく分類されやすい「ウォード法」を選ぶと良いでしょう。

階層クラスター分析は多くのデータを扱うことには向いていません。膨大な計算が伴い分析が難しくなるのと、樹形図が大きくなりすぎて分析結果が分かりにくくなってしまうためです。
個体数が多い場合は、非階層クラスター分析を用いましょう。

非階層クラスター分析

非階層クラスター分析は、樹形図のような階層的な構造がなく、事前にクラスター数をいくつに設定するかを決め、決めた数のグループに分割していく手法です。

非階層クラスタリング図
個体数が多くても扱いやすいことが特徴です。

分析手法 代表的な方法 内容
非階層クラスター分析 k平均法(k-means法、最適化法) 分析者によって暫定的に決められたクラスター数「k」個に分類したあと、k個のクラスターのそれぞれの重心間の距離が最大になるまで再配置する方法
  その他 超体積法など

クラスター分析の手順

1.分析の種類を選択

まず、階層クラスター分析か非階層クラスター分析のどちらかを選択します。 目安として以下のように使い分けると良いでしょう。

個体数(サンプルサイズ)           
100以下 階層クラスター分析
100~300程度 階層クラスター分析・非階層クラスター分析を併用
300以上 非階層クラスター分析か、 サンプル抽出により階層クラスター分析

非階層クラスター分析を行う場合は、分析前にクラスター数を暫定で決定する必要があります。3、4、…7クラスターとひとつずつ試算し、クラスターに含まれる個体がどう変化するかによってクラスター数を決めることになります。

2.分類の基準となる対象の類似度(近さ)の定義を決める

何をもって個体同士が「似ている」か(「近い」か)を数量的に定義します。
このときの距離の定義は複数あり、以下などから選びます。

代表的な距離測定法           
ユークリッド距離(直線距離) 変数同士に相関があるとき用いられる。分散共分散行列の推定値を使い、相関が強い方向の距離は実際の距離よりも相対的に短くする。
マンハッタン距離(市街地距離) マンハッタンや京都のような碁盤の目状の道路を通るときの距離。どこを通っても最短距離が等しくなる。
チェビシェフ距離 同じ次元の変数を、別の次元の変数とみなしたい場合に用いる。ユークリッド距離とは異なり、斜めも同じ距離と考えるため、正方形状に広がっていく距離。
ミンコフスキー距離 ユークリッド距離とマンハッタン距離を含む指標。

3.分析手法を選択

階層クラスター分析であれば、ウォード法、群平均法、最短距離法、最長距離法などから目的や仮説に適した手法を選択します。非階層クラスター分析であれば、k平均法が一般的です。

分析手法 代表的な方法
階層クラスター分析
  • ウォード法
  • 最短距離法(最近隣法)
  • 最長距離法(最遠隣法)
  • 重心法
  • 群平均法
  • メディアン法
  • その他
非階層クラスター分析
  • k平均法
  • (最適化法、k-means法)
  • その他

クラスター分析をする上での注意点

クラスター分析ではクラスターの名前・クラスター数・分類の基準などを分析者が試行錯誤しながら分析を行うため、分析者の主観が入る余地があります。そのため、分類したデータからなんらかのアイデアを得ることには向いていますが、客観的な証拠として用いるには適していません。

データの分類のみでうまくアイデアを取り出せない場合は、相関分析や回帰分析を併せて行うと良いでしょう。

クラスター分析は複雑な計算を繰り返すため、通常R、SPSS、JMPなどの統計ソフトが必要になります。エクセルで行う場合は「エクセル統計」などのアドインが必要です。

まとめ

クラスター分析の手法と種類、進め方について解説しました。

クラスター分析は、よく活用される分析手法です。 マーケティングのターゲット戦略で見込顧客の獲得のための商圏分析に活用したり、客観的な基準のもとで顧客を分類したりすることで、思っても見なかったアイデアを得られるかもしれません。

サービス概要を無料配布中「3分で読めるGMOリサーチ&AIのサービス」
3分で読めるGMOリサーチ&AIのサービス
最後までお読みいただきありがとうございます。
GMOリサーチ&AIはお客様のマーケティング活動を支援しており、さまざまなサービスを提供しております。
  • スピーディーにアンケートデータを収集するには
  • お客様ご自身で好きな時にアンケートを実施する方法
  • どこの誰にどれくらいリーチができるか
などをまとめた資料をお配りしております。
ぜひこの機会にお求めください。
資料請求する