テキストマイニングとは|活用例や分析手法を解説
2023年06月23日
テキストマイニングとは、文章を単語に分割し、単語の出現頻度や相関関係を分析し、適切な形で情報を抽出するものです。従来の数値を計測する調査では発見しづらかった結果を得られるため、トレンド予測や顧客満足度向上などに活用できます。
テキストマイニングを試してみたいものの、具体的な分析手法までは把握できていない企業も多いのではないでしょうか。テキストマイニングを実施するには、適切な実施方法、分析方法を理解することが必要です。
そこで本記事では、テキストマイニングの意味や活用例、代表的な分析手法を解説します。
-
3分で読めるGMOリサーチ&AIのサービス
-
GMOリサーチ&AIは、消費者ニーズ把握に役立つサービスを多数提供しています。
【サービス例】
- オンラインリサーチ
- 海外調査
- 消費者インサイト など
あなたの会社でも市場調査を活用して、マーケティング活動の効果を高めませんか?
-
GMOリサーチ&AIのサービスを知る
テキストマイニングとは
テキストマイニングは、文章(text)と採掘(mining)を組み合わせた言葉です。自然言語解析を用いて文章を単語に分割したものを、単語の出現頻度や相関関係で分析し、適切な形で情報を抽出するものです。分析対象は、主にSNSや自由記述のアンケートなどの文章データが対象となります。
テキストマイニングでは、特定のキーワードが含まれる文章を検索することで新たな知見を得られます。また、文章の特性やパターンを分析し、文章の主張を見出すこともできます。
テキストマイニングとデータマイニングの違い
データマイニングは、情報(data)と採掘(mining)を組み合わせた言葉です。大量のデータを、統計学や人工知能などを駆使して分析し、新たな知見を見出すための技術を指します。
テキストマイニングとデータマイニングの大きな違いは、対象とするデータの範囲です。
テキストマイニングは文章データに特化した分析手法ですが、データマイニングは文章だけでなく、売り上げデータや画像、動画など、あらゆるデータが分析対象になります。つまり、テキストマイニングはデータマイニングの一部であり、文章データに特化したデータマイニングの手法と言えるでしょう。
テキストマイニングとアフターコーディングとの違い
アフターコーディングも、テキストマイニングと比較されることがある用語です。
アフターコーディングとは、アンケートで集めた自由回答結果を、定量的かつ視覚的に整理する方法です。そのため、分類した結果を数量化して緻密に分析することに向いています。
一方でテキストマイニングは、主に文章中の単語について出現頻度や相関関係を分析する手法であり、感情などの定性的なデータを判断するものではありません。そのため、テキストマイニングは、自由回答の全体像や特徴をざっくりと把握し、問題解決のヒントを見つける際に役立つ方法です。
つまり、アフターコーディングは定性的な情報を定量的に整理する手法、テキストマイニングは文章中の単語の分析に特化した手法と整理できます。
なお、アフターコーディングについては、「アフターコーディングとは?エクセルを使った手順もわかりやすく解説」もご覧ください。
テキストマイニングとAIの関係
一般社団法人 人工知能学会設立趣意書では、「人工知能(AI:artificial intelligence)」を以下のとおり定義しています。
▼一般社団法人 人工知能学会設立趣意書による、AIの定義
人工知能(AI:artificial intelligence)とは、大量の知識データに対して、 高度な推論を的確に行うことを目指したものである
※引用:「一般社団法人 人工知能学会 定款」(一部改変)
人工知能(AI)は、データを使って複雑な考え方や判断を行うことを目指しています。しかしテキストマイニングは、学習やタスク遂行を直接行うものではありません。あくまでも、与えられた文章データから情報を抽出・分析を行い、特定のトピックや傾向を見つけ出すことが目的になる点で、大きく異なっています。
ただ、AIがテキストマイニングに影響を与えていることも事実です。「人工知能を活かす 経営戦略としてのテキストマイニング」(中央経済社)では、テキストマイニングとAIの関係について、以下のとおり解説しています。
▼テキストマイニングとAIの関係
AIの技術が進歩したことで、従来扱いが難しかったテキストマイニングを平易化できるようになってきた。また、解析対象にできるデータも増えるため、単語の類似性について精度を高められるうえ、文章全体の類似性も発見しやすくなってきている。
※「人工知能を活かす 経営戦略としてのテキストマイニング」(中央経済社)P8より抜粋
テキストマイニングの活用例
テキストマイニングを効果的に活用すると、膨大な文章のなかから、従来の数値に限った調査では得られない知見を得ることができます。本章では、テキストマイニングが活用できるビジネスシーンを3つ紹介します。
1.製品の品質向上や顧客満足度の向上
テキストマイニングで得られた知見は、品質向上や満足度向上に活用できます。
例えば、お問い合わせやアンケートの結果で得られた顧客の声を、テキストマイニングで分析します。顧客の声は商品・サービスに対して顧客が抱いている、要望や不満点を導き出す重要なヒントです。
個々に散らばっているテキストデータを、要素や属性ごとに関連づけて分析することで、ユーザー目線に即したニーズ発掘が期待できるでしょう。そのため、サービス・商品の課題を見つけて改善を重ねることで、品質向上や満足度向上につなげられるのです。
なお、テキストマイニングから潜在ニーズを引き出すことも可能です。潜在ニーズについては、「潜在ニーズの見つけ方は?引き出す質問例や成功例も解説」をご覧ください。
-
3分で読めるGMOリサーチ&AIのサービス
-
GMOリサーチ&AIは、消費者ニーズ把握に役立つサービスを多数提供しています。
【サービス例】
- オンラインリサーチ
- 海外調査
- 消費者インサイト など
あなたの会社でも市場調査を活用して、マーケティング活動の効果を高めませんか?
-
GMOリサーチ&AIのサービスを知る
2.トレンド予測や新商品の開発
トレンド予測や新商品開発にも、テキストマイニングは効果を発揮します。
例えば、TwitterやInstagramなど、SNSに投稿される膨大な文章を、ビッグデータとして分析します。SNS上にて話題になっているキーワードやトピックを把握できれば、将来的なトレンド予測の確度の高まりが期待できるでしょう。
トレンドをいち早く予測できれば、今後需要が高まるであろう商品・サービスを先取りして提供できるため、競争の激しい中でも需要に応じた商品開発や仕入れが実現します。
なお、商品開発の流れについては、「商品開発の流れとは?成功事例や分析手法を詳しく解説」で詳しく解説しています。
3.属人化の解消やスキルの標準化
テキストマイニングは、社内の業務課題改善にも有効な手法です。
例えば、営業日報や作業報告書などの文章データをテキストマイニングすれば、業務における課題点や、他の社員にも共有したいハイパフォーマーのノウハウなどを可視化、形式知化できるでしょう。
スキルの標準化や業務の属人化防止は、組織全体の業務効率化には欠かせません。テキストマイニングは、社内課題の改善にも活用できるのです。
テキストマイニングの主な分析手法4選
テキストマイニングの分析は、代表的な4つの手法を用いて行われます。
センチメント分析
センチメント分析は、sentiment(感情)を分析する手法です。センチメント分析では、顧客の感情を表す種類は、基本的に以下の3つに大別されます。
- 肯定的:人々が何かに対してよい気持ちを持っている
- 否定的:人々が何かに対して悪い気持ちを持っている
- 中立的:肯定的と否定的どちらでもない
ただし、曖昧な意味を持つ単語などは、対象によって解釈が異なる場合もあります。例えば、「ヤバい」という言葉は元々悪い意味で使われていましたが、最近ではポジティブな意味で使われるケースも出てきました。文脈によって意味の変わる言葉を扱う際には、注意が必要です。
センチメント分析は、クチコミやSNS投稿などのデータを分析する際に活用されます。例えば、ある商品に対するクチコミについてセンチメント分析をすることで、顧客の感情や意見、その商品が顧客にどのような印象を与えているかを把握できるでしょう。
共起分析
共起分析は、文章中にふたつの単語が同時に使用されている度合いから、商品やサービスなどについて分析する方法です。共起分析を活用することで、人々がどのような言葉を一緒に使って商品を評価しているか把握し、そこから商品の特徴や魅力を推し量れるのです。
例えば、「うどん」という単語に対して、「コシが強い」「柔らかい」といった言葉を組み合わせて分析するとします。多くの人が「うどん」に「コシが強い」という表現を使っている場合は、「コシが強い」うどんが好まれる、もしくは食べているうどんが「コシが強い」と考えられます。
反対に、「柔らかい」という表現を使っている場合は、「柔らかい」うどんが好まれる、もしくは食べているうどんが「柔らかい」と考えられます。このように、人々が「うどん」を評価するときに、どんな特徴や印象を持っているか調べることができます。
コレスポンデンス分析
コレスポンデンス分析(対応分析)は、別々の結果をまとめて表し、関係性を分析する手法です。クロス集計や散布図などのデータを使って、複数の要素や変数が同時に出現する関係をあらわすことで、要素同士の関連性や相関関係を視覚的に把握できます。
例えば、ブランドイメージを分析するとします。ブランドイメージには、商品の特徴や価格、広告の内容など、さまざまな要素が影響しあっています。コレスポンデンス分析を使うことで、この要素たちがどのように関連しているのか、どの要素が重要であるのかを分析することができます。
なお、コレスポンデンス分析(対応分析)については、「コレスポンデンス分析とは?手順や注意点を幅広く解説」にて詳しく解説しています。
主成分分析
主成分分析は、多くのデータ項目を少数の項目に置き換える手法で、特にビッグデータの分析によく使われます。ビッグデータは膨大な量・種類・頻度のデータを含んでいるため、膨大な情報を効率的に扱い、洞察を得るためには主成分分析が有効です。
主成分分析を行う際は、データ量を減らし、そのデータの特徴や傾向をより簡潔に表現して分析できるよう、データの中にあるパターンや相関関係を抽出し、それをもとに新しいデータ項目を作り出します。このとき一部の情報を切り捨てるため、元のデータの細かい情報が失われる可能性があります。そのため、どの情報を重要視するかを、事前に考えておくことが大切です。
なお、主成分分析の詳細は、「主成分分析とは?因子分析との違いや事例を初心者にも分かりやすく解説」を参考にしてみてください。
テキストマイニングのやり方
テキストマイニングの意味や代表的な手法について解説してきました。ここからは、4つのステップに分けて、テキストマイニングのやり方を解説します。
1.調査対象となるデータを収集する
まずは、分析したい対象データを収集しましょう。SNSの投稿やWebページ、電子メール、アンケート、問い合わせ履歴、業務日報などのテキストデータがテキストマイニングの対象となります。
ただし、テキストマイニングの目的により、収集するデータを選定しなければなりません。例えば、商品のレビューや意見を分析したい場合は、SNSの投稿やレビューサイトからデータを収集します。顧客からのフィードバックを把握したい場合は、アンケートや問い合わせ履歴などのデータを収集しましょう。
また、テキストマイニングでは文章中の単語が解析の対象となるため、大量のテキストデータを集める必要があります。テキストデータを多く収集するほど、より正確な分析結果を得られるはずです。
2.データの前処理を行う
テキストマイニングの精度を高めるためにも、分析前にデータの前処理を行います。
文章データの前処理として、まずは文章を単語ごとに区切り、それぞれの単語の出現数をカウントしていきます。ただし、文章データそのままではテキストマイニングが困難です。テキストマイニングを行うツールは、文章の意味までは理解していないためです。
特に、「それ」「これ」などの指示語や、文章内での二重否定など、文章を通じて初めて意味が通じる単語には注意しなければなりません。また、品詞の分解や明らかな誤字脱字の訂正、不要な文字の削除などを行います。
3.データを変換する
前処理した文章も、そのままの状態では分析ができません。というのも、テキストデータは非構造化データと呼ばれ、コンピュータによる分析は困難だからです。
そのため、テキストマイニングを行うには、コンピュータで分析がしやすい構造化データに変換する必要があります。
▼構造化データと非構造化データの違い
構造化データ | 列と行の構造を有するデータ。エクセルでまとめた、事例列気象データなど。そのままでも、コンピュータによる分析が容易。 |
---|---|
非構造化データ | 列と行の構造に当てはまらないデータ。文章データも非構造化データに該当。そのままでは、コンピュータによる分析は困難。 |
なお、データをコンピュータで分析しやすくするには、データクリーニングも重要です。データクリーニングについては、「データクリーニング(エディティング)とは?実施のポイントを紹介」をご覧ください。
4.データを分析し、可視化する
テキストデータを変換できたら、目的に応じて手法を選択し、分析します。
分析の観点としては、頻度や相関値、トレンドや時系列などがあるでしょう。頻度では、データ中の要素がどれだけ出現するかを調べ、相関値では要素同士の関係性を評価します。また、トレンドや時系列では、データの変化や推移を把握するとよいでしょう。
分析結果や考察を効果的に伝えるには、グラフやカラム・チャートなどのダッシュボードを活用し、データの傾向や関係性が一目でわかるようにすることが重要です。データ分析・可視化に有効な手法の1つが、時系列分析です。時系列分析は、「時系列分析で将来を予測する|時系列データを意思決定に活かす方法」で解説しています。
テキストマイニングを行う方法3選
テキストマイニングはツールを用いて行うのが一般的です。本章では、テキストマイニングができるツールを3つに大別して解説します。各々の特徴についてもあわせて解説しているので、どのツールを選ぶか悩んだ際の参考にしてください。
エクセルを使う
代表的な表計算ツールの1つであるエクセルも、テキストマイニングに活用できる場合があります。多くの人がエクセルは使い慣れていることから、気軽にテキストマイニングができるメリットがあります。
エクセルでテキストマイニングを行うには、まず別ツールを用いて、文章を単語ごとに分解します。そのあと、SUM関数やCOUNTIF関数などを使って単語を整理・集計します。そして、その結果をグラフや表などで可視化しましょう。
一点留意すべきなのは、エクセルでのテキストマイニングは取り扱えるデータの量に限りがある点です。扱うデータ量が少ない場合にはエクセルで充分ですが、大量のデータを扱う場合には、後述のツール導入がおすすめです。
プログラミング言語を使う
PythonやRなどのプログラミング言語を活用し、テキストマイニング用プログラムを作成することも可能です。
プログラミング言語を用いる場合、プログラムを自由自在にカスタマイズできる点が大きなメリットとなります。一方で、プログラミングに関する専門知識やスキルが必要となるため、場合によってはスキルを持つ人に業務が偏るなど属人化しやすくなることは留意しておきましょう。
細かな条件設定にて分析を行いたい場合、プログラミングに知見のある人材が確保できる場合にはおすすめの方法です。
テキストマイニングツールを使う
現在、多くのテキストマイニング専用ツールが提供されています。これらのツールを利用すれば、プログラミングの知識がなくても大量のデータを扱うことができ、テキストデータの解析や可視化も容易にできるでしょう。
無料のテキストマイニングツールも存在しますが、有料のツールと比べると機能が限定されていることが多いことに注意しなければなりません。反対に、有料ツールは多くの場合、より多機能で高度な分析やカスタマイズも可能です。
そのため、ツールを用いてテキストマイニングを行う際には、自分の目的や予算に合わせて適切なツールを選ぶことが重要です。最後に、ツール選びの視点を3つ紹介します。
機能で選ぶ
ツールの機能が、自分のニーズに合っているか確認しましょう。例えば、SNSやチャット、Webサイトなど、自分が分析したいソースで検索できるかは一番に確認すべきです。
また、固有名詞や専門用語の登録機能があると、頻繁に検索するキーワードを事前に登録できるため、作業効率が向上するでしょう。さらに、分析結果をグラフや図表でわかりやすく可視化できる機能が搭載されていれば、データの傾向や関係性を一目で把握できます。
操作性で選ぶ
テキストマイニングツールは、何度も操作することになります。そのため、操作性も比較視点の一つとして持っておくべきでしょう。
ツールのインターフェースや分析結果が見やすければ、分析担当者が使いやすいのはもちろん、分析結果の傾向把握もやりやすくなります。有料ツールによっては、無料トライアルが使える場合もあるので、事前に操作性などを試すことも有効です。
基本的には、ITリテラシーが高くなくても、シンプルで簡単に操作できるツールが無難でしょう。
分析精度で選ぶ
テキストマイニングツールを導入する目的は、あくまでも精度よくデータを分析することです。そのため、適切に単語の抽出や意味の解析が行われ、正確な結果が得られることを確認しましょう。
また、処理速度もチェックすべきポイントの一つです。テキストマイニングでは膨大なテキストデータを扱います。データを迅速に処理できれば、効率的な作業が可能となります。
まとめ|テキストマイニングでビジネスに役立つ知見を得よう
テキストマイニング(Text Mining)は、あらゆる文章(Text)から、従来の調査や検索では見つけることが難しかった知見を得る(Mining)ための手法です。ビジネスに役立てられる知見を見出すことを目指しており、顧客ニーズや業務改善、将来予測に活用できます。
エクセルやプログラミングでもテキストマイニングは可能ですが、テキストマイニング専門ツールも多数リリースされています。これらのツールを使えば、効率的に大量のテキストデータを解析し、有益な情報を抽出できるでしょう。
-
3分で読めるGMOリサーチ&AIのサービス
-
GMOリサーチ&AIは、消費者ニーズ把握に役立つサービスを多数提供しています。
【サービス例】
- オンラインリサーチ
- 海外調査
- 消費者インサイト など
あなたの会社でも市場調査を活用して、マーケティング活動の効果を高めませんか?
-
GMOリサーチ&AIのサービスを知る
よくある質問
Q1.テキストマイニングとアフターコーディングの違いは? |
---|
アフターコーディングは、アンケートで集めた自由回答結果を、定量的かつ視覚的に整理する方法のことです。一方、テキストマイニングは、主に文章中の単語について出現頻度や相関関係を分析する手法であり、感情などの定性的なデータを判断するものではありません。 以上より、アフターコーディングは定性的な情報を定量的に整理する手法であり、テキストマイニングは文章中の単語の分析に特化した手法と言えます。 詳しくは、「テキストマイニングとアフターコーディングとの違い」をご覧ください。 |
Q2.テキストマイニングは、ビジネスではどのようなシーンで活用できる? |
テキストマイニングは、例えば顧客のニーズやトレンドをWebサイトやSNSなどから読み解くことで、顧客満足度向上や商品開発に役立てられます。また、業務日報などをテキストマイニングすることで、業務の課題点などを可視化できるため、業務の属人化防止にも有効です。 詳しくは、「テキストマイニングの活用例」をご覧ください。 |
- サービス概要を無料配布中「3分で読めるGMOリサーチ&AIのサービス」
-
GMOリサーチ&AIはお客様のマーケティング活動を支援しており、さまざまなサービスを提供しております。
- スピーディーにアンケートデータを収集するには
- お客様ご自身で好きな時にアンケートを実施する方法
- どこの誰にどれくらいリーチができるか
ぜひこの機会にお求めください。 - 資料請求する