ビッグデータの「正体」とその利活用への道

経済・ビジネス社会 2014.10.15

ビッグデータとはそもそも何か。その定義と特徴を踏まえてビッグデータが最も「威力」を発揮する分野を提示するとともに、日本における利活用環境の根本的な問題点に迫る。

English
日本語
简体字
繁體字
Français
Español
العربية
Русский

ビッグデータの定義

昨今、「ビッグデータ」に対する関心が高まっている。もともとはマッキンゼー・グローバル・インスティチュートが2011年に出したレポートがきっかけだ。既存の情報処理システムでは対応できないレベルの情報量を利活用する時代が来るという主旨の論考で、その戦略的な利活用が大きなビジネスチャンスを生むという可能性を示唆した。

そもそもビッグデータとは何か。字義的には既存の情報処理でカバーできない膨大な情報量を指すが、実際には特定のサービスに関する利用データ（ログデータ）を大量に蓄積したものに、ユーザーの属性データをつなげた（属性データはない場合もある）ものが、発生単位レベルで、全量取得できる時にビッグデータといわれる。

典型的なのはインターネット系サービスの利用データだ。また小売の売上データ（POSデータ）や電力の利用データ、加速度センサーやワイヤレスの活動量計などからのセンサー・データも含まれる。

標本抽出データと異なり、対象としているサービス利用者の全利用データが入っている結果、時間的には1日、1時間を束ねたものというより、毎分・毎秒などの発生ベースのものとなる。地域情報的には、市区町村やその下の区分レベルではなく、6桁、7桁レベルの緯度経度レベルで分かることも多い。

ビッグデータの3つの特性とは

一般的には量（Volume）が膨大で、多様性（Variety）が高く、データ発生の速度（Velocity）がとても速いことがビッグデータの特徴とされ、総称して「3V」と呼ばれる。だが、例えば典型的なビッグデータである電力、加速度センサーのようなセンサー系のデータなどに検索のキーワードのような「多様性」があるとはいえない。速度や量の多さという条件で見たときも同様で、必ずしも3Vが常に当てはまるということではない。

利用視点で見たビッグデータの特性は3つある。

1つは取得できる「属性の厚み」が、一般的な行動観察やアンケートデータに比べると薄いことだ。いつ利用したとか、どのくらい利用したということはわかっても、「どういう状況で、どういう理由・目的でその活動が行われたのか」という利用文脈はわからない。ユーザーの属性情報（幼い子どもの有無、職業、教育レベル、所得水準等々）も薄い。マーケティング利用上の課題といえる。

2つめは、全ての発生データをカバーしていることだ。サンプリングデータでは見えない、発生頻度が低いテール部分に当たるデータ独特のパターンを見出すことができる。

3つめは、情報の利活用のリアルタイム性だ。ビッグデータは消費や利用の各場面で発生したものをリアルタイムで取り込み、対応できるため、特定の行動、ニーズが発生している瞬間を捉えて利用できる。例えば、ある車についてすごく関心があるユーザーが関連のページを見た場合、すぐにその車に関する情報を提供することができる。これは既存のマーケティングデータでは不可能な取り組みだ。

ビッグデータが強さを発揮するケース

次に、顧客への「価値の提供」というマーケティングの視点に立った6つのステップから、データ利活用の広がりについて見てみたい。

1つめのステップは、多くの商品開発、サービスごとの戦略立案の基本となる「市場構造・ニーズの見極め」だ。2つめが、その市場の見立てに基づき、核となる提供価値、サービスの属性を設計するステップ。

3つめは、顧客ごとへのマーケティング、4つめが前述のようにニーズが発生した場面での「打ち手」（広告、メール、サイトコンテンツ等）の提供、5つめが１～４のステップを踏んだ後の効果検証、6つめが、その上で近未来を数値的に予測することだ。

ビッグデータが特に強いのは、上記のステップの3つめ以降だ。例えば、個別のユーザーの特性に合わせたサービス・情報提供にはビッグデータは欠かせない。典型例としては、インターネット上で過去の利用パターンから不適切な情報を排除する広告提供や、消費属性別に作り分けたクーポン提供などがある。

リアルタイムで広告を打つ、あるいは検索窓に今話題の単語の一部分を入力した時、その瞬間に話題になっている関連の言葉が自動的に提示されるのは、利用データの蓄積で生み出された「機械学習」によるものだ。このような機械学習によるビッグデータの活用は、サービス提供者側の人間がコンテキストを理解しなくても使えるのが特徴だ。

また、見たい情報のメッシュを細かくしようとすればするほど、ビッグデータの力なしには不可能になる。例えば、特定の1週間、ある駅前店における夕方の鶏肉のまとめ買いの変化を見るケースだ。

選挙結果、景気動向などの近未来予測に威力発揮

さらに、今後ビッグデータに強く期待されているのは、遠い未来ではなく、今、もしくは近い未来の正確な定量的予測だ。ヤフーで実施した2つの面白い事例がある。1つは2013年7月の参議院選の結果予測だ。

我々が行った予測は、大半が正解で終わり、どの主要メディアよりも正確な結果を得た。具体的には、インターネット上の注目度―検索された量やツイート、Facebookでのオリジナルな書き込み量など―が、投票パターンに高い相関があることを見いだし、選挙区ごとに予想した。従来のアプローチでは有識者の洞察、有権者の声やアンケート結果から総合的に予測をしていたのに対し、データのパターンと利用量だけで予測を行い、従来法を超える結果を得たことになる。

もう1つの例は景気予測だ。内閣府の景気動向指数は1、2カ月遅れて発表されるが、2カ月前に景気がよかったといわれるよりも、今知りたいという理由で着手した。そこではまず、検索ワードを解析することから始めた。ヤフーには年間約75億種類の検索ワードが存在する。その中からコンスタントに検索利用があった約60万種類を全量解析し、特に景気指数と相関の高いキーワードを約200抽出した。これをベースに、現在の景気指標を導くためのモデルを作り、こちらもほぼ正確に予測することに成功した。

このように近未来、現在に関する定量的予測には、ビッグデータは大きな力を発揮する。実際、サプライチェーンマネジメントでは日常的に活用されており、コンビニエンスストアが、1日3回も数千品の配送をしていても赤字にならない理由の一つはここにある。

利活用を阻むさまざまな問題

次に、ビッグデータを利活用しようと思った時に起こりうるいくつかの典型的な問題を挙げよう。第一に、ほとんどの事業体にはそもそもビッグデータといえるほどのデータがない。これは課題以前の問題だ。

第二に、さまざまなデータそのものが十分に整備されていないため、データを統合して利活用できない。例えば、小売の商品分類は、通常、大分類、中分類、小分類のように何層にも分かれているが、この商品管理のデータ構造は同じ小売グループでもチェーンごとにデータ構造が違う。結果、統合利用は極めて難しい。これら複数データを統合した上での利活用は大きな課題だ。

この2つの問題が解決されたとしても、今度はそのデータの大きなトラフィックをリアルタイムに取り込んで即座に利活用するという仕組みが要る。この仕組みが大半の企業にはない。さらにここから入ってきたデータを次々にストレージに保管するための基盤もない。保管基盤があったとしても、今度は運用メンテナンスをする人材がいない。

これらの解決のためには、膨大なデータの海から情報科学、エンジニアリングの力を活用し、ビジネス課題に答えを出す総合的なスキルを持つ人材が必要だ。

以上見てきたとおり、データがない、統合できない、取り込み処理、利活用の仕組みが組めない、保管基盤がない、運用メンテする人がいない、これらを統合して課題を整理し、解決することが出来る人がいないというのが、多くの現場で起こっている利活用の現状だ。

セキュリティー対策から見える企業の二極化

ビッグデータの議論では、プライバシー保護の問題がよく取沙汰されるが、違う立場からの議論が混在しているため、どの立場から見るかによって、問題の次元が違う。

セキュリティーの問題は、大手のインターネット事業者の多くでは既に重要な手当が終了している。例えば、ヤフーにおいては、個人を特定することが出来る情報と行動履歴データは明確に切り離されており、データ利活用は匿名化された情報をもとに行われる。

一方、従来型の企業の多くでは個人情報とログデータを必ずしも分離せずに統合管理している。加えて、これらの企業の多くでは、危険をウォッチする仕組みが充分でないため、データが外に漏れているかどうかについても発見が困難だ。

データの利活用において、企業の二極化が起きている。利用者を守るために、利活用というよりデータ管理に対してまずは各社でガイドラインを作成することが必要と考えられる。

日本が抱える3つの「ハンディキャップ」

総じて、今の日本は、米国などと比べるとデータ利活用の環境に3つの大きなハンデがある。1つはビッグデータを生み出す企業が少ないこと。2つめにデータを使いやすい環境にするための基盤がないことだ。例えば、電気代が米国の何倍もかかるため、データセンターなどの設立と運営がコスト高になる。日本に情報系の主要企業がデータインフラまで含めてなかなか進出してこない理由の一つはここにある。データ産業を誘致するには、特別な電源供給を認めるぐらいの特例を設けるべきだろう。

3つめは前述の人材不足の問題。これには「データサイエンス力」と「データエンジニアリング力」、課題背景を理解した上、ビジネス課題を整理し、解決するスキル（「ビジネス力」）の3つのスキルを持つ人が必要だ。

データサイエンス力とは情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力だ。データエンジニアリング力とは、データサイエンスを意味のある形に使えるようにし、実際のシステムに実装し、運用できるようにする力だ。必ずしも一人である必要はないが、それぞれのスキルを持つ人を意図的に集中的に育て上げることができるかが、今後のビッグデータの利活用の成否を握るのではと私は考えている。

（2014年9月25日のインタビューを基にニッポンドットコム編集部が構成）

成長戦略インターネットビッグデータ