GTM-MML4VXJ
Skip to main content

English

Japan

  1. ホーム >
  2. コラム >
  3. オピニオン >
  4. ソーシャルメディアから把握する生活者の実態

ソーシャルメディアから把握する生活者の実態

2013年3月19日(火曜日)

1. ブログは膨大な行動日記

  • 若者は果物を凍らせて食べている。
  • 女性の間でフルーツブランデーが流行している。
  • コーヒーメーカーを計画外で購入してしまう理由は値引きとおまけである。

これらはすべてブログから抽出した生活者の実態です。一般的には、このような生活者の実態を把握するには、量的にはアンケート、質的には行動観察やグループインタビューといった手法が使われてきました。

しかし、アンケートは設問に設計者の意図が混入してしまい、正しい結果を得られないことや、簡単な設問だけでは回答の背景や心理が把握できないといった欠点があります。行動観察やグループインタビューでは、行動の背景や心理まで追究することが可能ですが、十分なサンプル数を確保することが困難で、結果に対する量的信頼性が欠けてしまいます。また、どちらも手間とコストがかかるといった点で、手軽に素早く生活者実態を把握するには不向きです。

これらの問題点を解決するために注目したのがソーシャルメディア、特にブログメディアです。行動観察手法には、モニターに行動日記を書かせて、データを収集することがありますが、ブログメディアには、既に膨大な行動日記が蓄積されています。ブログメディアを使えば、わざわざデータを一から集めなくても、生活者の実態を素早く把握することが可能になると考えました。

以前ご紹介したように、ソーシャルメディアを使うユーザー層は、一般的な生活者と同等であり、調査対象としてもなんら問題がないことがわかっています(2011年12月コラム)。また、匿名かつ全体に公開されているブログのようなメディアでは、本音を語るユーザーが個人的な日常の出来事をよく書き込む、という特性があることが研究により明らかになっています(2012年5月コラム)。このことから、ソーシャルメディア分析によって得られる結果は、世の中の生活者実態を表していると考えても差し支えないと判断できます。

2. ソーシャルメディア分析の課題

既存のソーシャルメディア分析ツールを使って、生活者の行動分析を行うには、次のような課題がありました。

  1. 属性がわからない
    ソーシャルメディアを使うユーザーが、自身のプロフィールを登録・公開している割合は10%以下と非常に少なく、かつ若年層に偏っていることがわかっています。ほとんどのブログは、書いたユーザーがどのような人なのかわからないのです。生活者の実態を分析するには、属性把握が基本となりますが、プロフィールデータが少ないため、既存の分析ツールのほとんどが、属性別の分析機能を提供していません。
  2. 有用なデータを見つけることが難しい
    ソーシャルメディア分析では、まずキーワード検索から始まります。しかし、収集できるのは、単に「指定したキーワードが書かれているデータ」というだけのものです。ここから生活者実態と呼べるような「有用なデータ」を見つけるのは容易ではありません。例えばクルマに関連するキーワードで検索して、「マイカーを洗車した」という表現が多く見つかったとしても、それは生活者実態として注目すべき情報ではありません。「どこで、なぜ、いつ、誰と、どのような状況で」といった周辺情報まで記載してあって始めて「有用なデータ」と考えられます。
    既存の分析ツールでは、評判辞書を使って、ポジティブ・ネガティブな表現と、関係する名詞・動詞を提示してキーワードに対する特徴を提示していますが、元のブログを辿って読み込まなければ生活者の実態を把握することや、データの有用性を確認することができません。結局、膨大な手間と時間をかけることになってしまいます。

これらの問題を解決するために、富士通総研は富士通研究所と技術開発を行いましたので、ご紹介します。

3. 表現の特徴から推定できる属性

プロフィールがわからなくても、ブログを読めば、書き手が男性なのか女性なのか、趣味や職業まで推測することができる場合があります。例えば、「彼氏が」と書いてあれば書き手は女性だと推測できますし、「学校で部活が」、「バレエのお稽古」などと書いてあれば、中高生くらいで趣味はバレエと推測できます。

人間が行っているこのような推測の仕組みを機械的に行うことで、プロフィールが不明のユーザーであっても、ある程度、属性を推定することができるはずです。この仮説をもとに開発した仕組みは次のようなものです(【図1】)。

まずプロフィールがわかっているユーザーのブログをシステムに入力し、特定の属性に特徴的に頻出する単語を学習していきます。主婦とわかっているユーザーのブログを入力すると、主婦以外と比較して「旦那」や「実家」という単語が特徴的に現れる、というルールを学習します。次に、主婦とわかっているが、それを隠してブログをシステムに入力し、学習したルールから、正しく主婦と判定できるかどうかを検証します。判定できなかった場合には、その原因を分析し、ルールをチューニングします。これを繰り返して十分に精度の高いルールを学習できたら、プロフィールが不明のブログを入力しても、高い精度で属性を推定することができます。

  【図1】属性推定の仕組み     【図1】属性推定の仕組み

現在のところ、性別・配偶者の有無については8割の精度、職業(中高生・大学専門学校生、社会人、主婦(兼業を含む)、シニア)については6~7割の精度が出ており、この他に子どもの有無、ペットの有無、在住地域(東京・大阪・愛知・その他)、趣味(50分類)などが推定できるようになっています。この機能を使うことで、属性別に情報を絞り込んだり、特徴的な行動を抽出したりすることが可能になりました。

【図2】に、現在の開発環境(700万記事が蓄積されている)において、「果物・フルーツ」というキーワードで検索した場合の、属性別の特徴的な動詞(行動)をリスト化した画面をご紹介します。中高生や大学専門学校生では、「凍る(凍らせる)」という動詞(行動)がリストの上位に来ています。未婚社会人女性や主婦では「漬けこむ」という動詞(行動)が上位に来ています。(※リストの順序は、特徴的な出現度合いを表すリフト値(*)を参考にしています。)それぞれの動詞をクリックすると、該当ブログのダイジェストを見ることができ、リンクを辿って元のブログにアクセスすることができるようになっています。冒頭の「若者は果物を凍らせている」、「女性の間でフルーツブランデー(果物を漬け込む)が流行っている」という実態は、この機能を利用して抽出・把握したものです。

  【図2】属性別に特徴的な行動を把握    【図2】属性別に特徴的な行動を把握

4. モダリティを使って見つける有用データ

日本語の文章には、書き手の態度が内在されている表現があります。例えば「旅行に行きたい」という文章には、旅行に行くことを「望んでいる」という、書き手の欲求が表現されています。このような「~たい」といった表現を言語学では「モダリティ」と呼んで様々な確度から研究が行われています。

ブログの中から有用なデータを見つけるには、このモダリティが活躍します。例えば「買っちゃった」という表現には、「計画にはなかったけれども、つい購入してしまった」という態度が内在していますが、ブログにこのような記載をするときには、大抵の場合、「なぜ買ってしまったのか」という背景まで記載してあるからです。

既存のソーシャルメディア分析には、モダリティに着目して検索する仕組みはありません。キーワードに「買っちゃった」と直接入力することになります。富士通研究所と富士通総研は、「~たい」や「~しちゃった」といったモダリティ表現辞書を作成し、体系化されたモダリティ条件による絞り込み機能を実現しました。

冒頭の「コーヒーメーカーを計画外で購入してしまう理由は値引きとおまけである」という実態も、「コーヒーメーカー」というキーワードでヒットしたブログから「~ちゃった(買っちゃった)」という行動特性に絞り込んで抽出したブログから読み取ったものです。ブログには、「セールしていたし、ミルとフィルターがセットだったから」、「半額の上、かわいいピンク色だったから」、「前から欲しかったのとポイントでほぼ支払えたから」という理由が写真付きで語られていました。

同様に、「~てみた(調べてみた・買ってみた)」という表現に絞り込んで抽出したブログでは、コーヒーメーカーに対する要件(保温できるマグに直接コーヒーを抽出したいので調べてみたけど)や、不満(買ってみたけど専用マグ以外を受け口に置くと安定しない、キッチン棚にしまおうと思っていたのに高さのせいでしまえない)が具体的に写真付きで解説されていました。

過去1年分の「コーヒーメーカー」に関する記事を投入した実験環境では、単純に「コーヒーメーカー」で検索すると、27,868件の記事が見つかりますが、モダリティを絞り込み条件に活用することで、1,562件となり、膨大なブログから、生活者実態として有用なデータを素早く見つけることが可能になりました。

  【図3】モダリティを使った有用データの絞り込み   【図3】モダリティを使った有用データの絞り込み

5. 今後の課題

現在、開発した技術を、マーケッターの方々にご利用いただけるようサービス化することを検討中です。ただし、サービス化に当たってはいくつかの課題があります。

1つは技術的課題です。ソーシャルメディア分析の第一歩はキーワード検索ですが、実は大きな問題を抱えています。たとえば「自動車」に関連するキーワードを書き込んでいるデータを集めたい、と思ったとしても、ブログには「マイカー」や「クルマ」など、様々な表現で記載されているはずです。中には固有名詞もあるでしょう。それらの表現を網羅的に収集することは困難です。また、同じ言葉でも違う意味を持つような「最中」(○○をしている間を表す場合とお菓子のモナカを表す場合がある)といった同義語もあります。

欲しい情報を収集するのに検索キーワードを100も200も条件指定したり、間違って混入したデータを手作業で排除したりする必要があったとすれば、手軽に利用できないでしょう。この点を解消する技術開発に着手しています。

もう1つは統計的課題です。同じ果物でもブドウやさくらんぼの場合は「狩る(○○狩り)」という動詞(行動)がよく見られ、モモの場合は「熟す(追熟させる)」という動詞(行動)が見られます。どのような行動が特徴的であるかは、相対的に全体と比較する必要があります。この「全体」をどう作るかが問題です。

単純に世の中の全ブログを集めて「全体」としたとしても、ブログの中には企業や商店が開設しているものがあり、生活者実態とはかけ離れているため、対象データから排除しなければなりません。また、ブログの中には、2,3回で中断したもの、小説や詩が書かれたものなど、属性を推定できないブログや、生活者実態として取り扱うのに適していないブログもあります。世の中の生活者全般を表すような基礎となるデータベース作りが急務となっています。

2011年からソーシャルメディアに関する研究に着手し、ようやくその有効活用手段を提供できる道筋が見えてきました。課題を克服し、近い将来にはサービスとして提供したいと考えています。

注釈

(*1) リフト値 : データマイニングの際の相関分析の指標の1つで、関連購買傾向の強さを表す際によく利用される。

関連オピニオン

「ソーシャルメディア分析から世間の声を掴むことができるか(2) ~隠される本音:声の偏りの発生メカニズムと対処方法~」

「ソーシャルメディア分析から世間の声を掴むことができるか ~メーカーA社との“箱庭”研究より~」

関連サービス

【調査・研究】


安藤 美紀(あんどう みき)
(株)富士通総研 流通・サービス事業部 マネジングコンサルタント
1995年日本電信電話(株)入社、法人部門において流通企業向けコンサルティングに従事。
2005年富士通(株)入社、コンサルティング事業本部を経て、2007年(株)富士通総研出向。
小売業、サービス業、製造業の企業向け業務改革等のコンサルティングに従事。現在はBI、CRM、顧客分析を担当。