GTM-MML4VXJ
Skip to main content

English

Japan

  1. ホーム >
  2. コラム >
  3. オピニオン >
  4. AKB総選挙予測にみるソーシャルメディアの有用性

AKB総選挙予測にみるソーシャルメディアの有用性

2013年7月25日(木曜日)

1. ビックデータで世の中を予測する動き

ブログやツイッターから世の中の動きを予測できないか、そのような試みが増えてきています。ある証券会社では、ソーシャルメディアにおける銘柄に関する記述内容と件数などから株価を予測する取り組みを行っていますし、別のあるポータル事業者は、先の参院選の議席数を候補者や政党名の書き込み件数から予測する取り組みを行っています。

株価や選挙については、以前から予測手法の開発が盛んに行われてきた分野です。ただし、以前はソーシャルデータを使う、という選択肢や発想はありませんでした。選挙予測であれば、電話等による世論調査が主流で、予測精度を向上するには、いかに偏りのない対象者をサンプリングできるか等が焦点でしたし、株価予測であれば経済ニュースなど、株価に影響すると考えられる要素をいかに予測式に取り込むか、といったことが重要と考えられてきました。

昨今、ソーシャルメディアデータが予測手法に組み込まれるようになった背景には、ソーシャルメディアへの書き込みが、世の中の人の動きを「反映(または連動)している」と感じられるようになったからではないでしょうか。ソーシャルメディアが決して一部の偏ったユーザーだけのものではなく、広く一般の人々に浸透した結果と思われます。

2. ソーシャルメディアは本当に世の中を反映しているのか

ソーシャルメディアの利用が広く浸透したからといって、そのまま「世の中を反映している」と考えてよいのでしょうか? 同じソーシャルメディアでも、ツイッターとブログでは、書き込みのタイミング、頻度が異なります。ツイッターは書き込みのきっかけとなるイベント直後にツイートされ、さらにそのツイートに返す形のリツイートが発生するため、書き込み件数が増幅されやすく、かつすぐに収束しやすいという特性を持っています。反対にブログは書き込みのきっかけとなるイベントからしばらく経ってから書き込まれ、収束に時間がかかります。

【図1】は最近回収騒ぎが起こった某ブランドに関するツイッターとAmebaブログの書き込み件数の比較です。ツイッターの件数は、ニュースがあった日に山があり、翌日は半分以下で、翌々日にはほぼ収束しているのに比べ、ブログはニュースの翌日にピークがあり、収束までに日数がかかっています。このような違いを見ると、どの程度世の中を反映しているのかは、メディアによって違いがありそうです。

  【図1】某ブランドの書き込み件数     【図1】某ブランドの書き込み件数

3. AKB総選挙の予測モデル作成に利用したデータ

ツイッターとブログのどちらがより世の中を反映しているかを検証するため、2013年第5回AKB総選挙の結果を利用して、回帰分析による予測モデル作成を行いました。回帰分析は予測モデルを構築するために利用される手法の1つで、過去に起きた結果(目的変数=y)に対する複数の要因候補(説明変数x)の関係を分析して、各要因候補の係数を求め、y=a1x1+a2x2+…+bのような回帰式を算出します。この回帰式を活用して、次に起きる結果を予測します。(【図2】にイメージを示します。)

  【図2】回帰分析による予測のイメージ     【図2】回帰分析による予測のイメージ

今回は、候補者のうち上位24人の獲得票数を結果(目的変数)とし、要因候補(説明変数)として次の値を利用しました。時系列に整理すると【図3】のようになります。

  1. 速報時の得票数
  2. 去年の得票数
  3. Google+の登録者数(Google+はFacebookの類似サービス)
  4. 速報前15日間のAmebloへの候補者名の書き込み件数
  5. 発表2日前までの15日間のAmebloへの候補者名の書き込み件数
  6. 昨年の発表2日前までの15日間のAmebloへの候補者名の書き込み件数
  7. 速報前15日間のTwitterへの候補者名のつぶやき件数
  8. 発表2日前までの15日間のTwitterへの候補者名のつぶやき件数

  【図3】採用した要因候補(説明変数)    【図3】採用した要因候補(説明変数)

上記の変数の値については次のように入手しています。(ⅰ)と(ⅱ)は公表されています。(ⅲ)については各候補者のGoogle+のサイトで確認できます。(ⅳ)から(ⅷ)については、富士通が提供しているソーシャルメディア分析ツール「DataPlaza」を利用して算出しました。ブログとツイッターの件数を速報前と発表前に分けた理由については後述します。各要因候補の値と、目的変数との相関係数を【表1】に示します。

  【表1】選挙結果と要因候補の値    【表1】選挙結果と要因候補の値

相関係数を見ると、どの要因候補もまずまずの値を示しており、ソーシャルメディアが世の中の動きを反映しているように見えます。特に発表前のブログの書き込み件数、ツイッターでのつぶやき件数は相関係数が0.9を超えていますので、これら2つの要因候補だけでも十分に予測ができるようにも思えてきます。しかし、実際に回帰分析を実施してみると、相関係数とは全く異なる予測モデルが導かれました。

4. 導かれた予測モデル

回帰分析は、対象とするすべての説明変数を使った回帰式を算出しますが、無駄な変数(式に組込むと精度が落ちる)を示唆してくれます。この無駄な変数を排除しながら回帰分析を繰り返していくと、精度の高い最適な回帰式を導くことができます。(今回はExcelの回帰分析機能を利用し、p値の最も高い変数を排除、説明変数選択規準(Ru)を使って最適度合いを判断しました。)イメージを【図4】に示します。

  【図4】回帰式の最適化プロセス   【図4】回帰式の最適化プロセス

今回8つの説明変数を使って回帰分析を実施しましたが、この最適化プロセスを実施した結果、最終的に残った説明変数は4つでした。回帰式は次の通りです。

獲得票数=2.61×速報時得票数+0.48×去年得票数+0.03×Google登録数 +7.32×発表前ブログ件数

この式に当てはめた理論上での獲得票数と実際の獲得票数の相関係数は0.9894で、順位も上位7位までは誤差なし、それ以降の順位も1人を除いて誤差3以内という結果でした。また、4つの変数の影響度は、速報時得票数、去年得票数、発表前ブログ件数という順に大きく、Google+登録数の影響は、他の3つの変数と比較して非常に小さいものでした。このことから、簡易的には速報時得票数、去年得票数、発表前ブログ件数の3つの変数で十分順位予想はできそうであると判断できます。

ただ、実際にこの予測モデルを来年の総選挙の予測に使おうとすると、発表前ブログ件数がわかる発表直前にならなければ予測値を算出することができません。そこで、今回の予測モデルに発表前ブログ件数ではなく、15日前の速報前ブログ件数を当てはめてみました。また、係数も小数点を丸めて以下のような簡易予測式を設定しました。

獲得票数=2.5×速報時得票数+0.5×去年得票数+7.0×速報前ブログ件数

当然、獲得票数の誤差は大きくなりますが、順位であれば、予測値と実績値との相関は0.9765となり、順位予想には十分使えそうなモデルと判断できます。(【表2】参照)

  【表2】回帰式による理論値と実績の相関   【表2】回帰式による理論値と実績の相関

また、この予測モデルが、世の中の実態をどう表しているのか、次のような解釈が考えられます。式が表しているのは次のような事象です。

  • 1年前の半分は再度投票される(0.5×去年得票数)。
  • 初日に獲得した票数のおよそ2.5倍が投票される(2.5×速報時得票数)。
  • ブログ件数に比例して投票される(7.0×速報前ブログ件数)。

去年投票した人は、候補者にとって既存のファンになります。また、初日に投票したファンは、候補者にとって熱狂的に応援してくれるコアなファンと言えるでしょう。それ以外は新規のファンであると考えられます。

つまり、一般的な既存ファンのうち、残存するのは半分だけで、残りは離反してしまうのかもしれません。コアなファンのうち、初日に投票する人は40%で残り60%がその後に投票すると解釈できます。新規のファンが候補者を気にし始めたきっかけは、露出度や知名度が影響するはずです。それがブログの件数と連動していると考えられます。イメージを【図5】に示します。

  【図5】AKB総選挙におけるファンの動きの想定   【図5】AKB総選挙におけるファンの動きの想定

5. 予測のためのデータ選択のあり方

ツイッターのつぶやき件数が予測モデルに残らなかった理由を考察します。今回の総選挙では直前にトラブルを起こしたメンバーに対するつぶやき件数が突出するなど、特定のイベントに対して件数が大きく変動する様子が確認できました。予測に使うには、ぶれ幅が大きすぎるということが考えられます。それに対し、ブログの件数はイベントに左右されることなく、世の中を反映した数値として安定しているので、予測式の変数として残ったと考えられます。

もちろん、どのような事象においても、予測においてツイッターよりブログの方が優位な変数であるとは言えません。予測したい事象の環境をよく観察し、今回のような最適化プロセスを踏まえて、適切な要因候補を選択していくことが望ましいと言えます。

また、昨今のビッグデータの潮流では、データ種別が多ければ多いほど有用であるといった誤解も見られますが、今回の予測モデル作成に見られたように、種別の少ないデータでも十分に予測が可能であるということをお分かりいただけたかと思います。今後もソーシャルメディアデータの活用についての研究を進めていき、成果についてご報告してまいります。

注釈

(*1) p値 : 「係数が0である」という帰無仮説を検定したもの。危険率。

関連オピニオン

「ソーシャルメディアから把握する生活者の実態」

「ソーシャルメディア分析から世間の声を掴むことができるか(2) ~隠される本音:声の偏りの発生メカニズムと対処方法~」

「ソーシャルメディア分析から世間の声を掴むことができるか ~メーカーA社との“箱庭”研究より~」

関連サービス

【調査・研究】


安藤 美紀(あんどう みき)
(株)富士通総研 流通・サービス事業部 マネジングコンサルタント
1995年日本電信電話(株)入社、法人部門において流通企業向けコンサルティングに従事。
2005年富士通(株)入社、コンサルティング事業本部を経て、2007年(株)富士通総研出向。
小売業、サービス業、製造業の企業向け業務改革等のコンサルティングに従事。現在はBI、CRM、顧客分析を担当。