大數據的「真面目」及其利用

財經社會 2015.03.09

大數據到底是什麼？筆者將根據它的定義及特徵，指明大數據最能發揮「威力」的領域，剖析在日本有礙大數據利用的問題所在。

English
日本語
简体字
繁體字
Français
Español
العربية
Русский

大數據的定義

近年來，人們對「大數據（Big Data）」的關注度日益提高。這都歸因於麥肯錫全球研究院（McKinsey Global Institute）在2011年發布的研究報告。該報告認為人們即將迎來一個利用規模大到超出現有數據處理系統能力的巨量資訊時代，並暗示戰略性地利用這些資訊數據，就有可能產生巨大的商業機會。

那麼大數據到底是什麼呢？從字面來看，它指的是以現有資訊處理技術無法應對的龐大資訊量。而實際上，當我們將儲蓄了各種服務的使用資訊數據與用戶的屬性資訊相結合，並在這些資訊數據發生時能夠全量獲取，就被稱做大數據。

典型的是網際網路服務的利用數據。另外還包括零售業銷售數據（POS數據）、電力使用數據、來自加速度感應器和無線運動監控器等設備的感應器測量數據。

與抽樣數據不同，大數據網羅了來自各種服務用戶的所有利用數據，它積累的資訊不是以一天、一小時，而是以每分、每秒的實際發生情況為基礎的。從地區資訊方面來看，它不是以市區町村或其他更小的單位來劃分的，許多時候可以精確到6位、7位數的經緯度座標級別。

大數據的三個特性

人們通常以巨量（Volume）、多樣（Variety）和高速（Velocity）三個詞來概括大數據的特徵，統稱為「3V」。但諸如作為典型大數據的電力、加速度感應器等探測的數據就談不上擁有搜尋關鍵詞這種「多樣性」。從速度和巨量這些條件來看也是如此，未必總能符合3V標準。

從利用角度來看，大數據具有以下三個特性。

一是可獲得的「屬性深度」低於一般的行為觀察和問卷調查數據。即使掌握了何時用過、用了多少等資訊，但無法知曉「是在什麼狀況下，出於什麼理由或目的進行了這些行為活動」等利用背景。用戶的屬性資訊（有無幼年子女、職業、教育程度、收入等）也比較少。這可以說是將這些數據用於市場營銷時的一個課題。

二是覆蓋了所有的發生數據。可以找出抽樣數據中無法看到、相當於發生頻率較低的尾端部分的數據的獨特類型。

三是資訊利用的實時性。由於大數據可以實時讀取、處理消費和利用過程中各個場合發生的情況，所以可用於捕捉特定行為和需求發生的瞬間。比如，當某位特別關注某種汽車的用戶瀏覽了相關網頁時，就可以立刻提供有關該汽車的資訊。這是無法借助傳統市場營銷數據實現的。

大數據發揮優勢的事例

下面，讓我們以「為顧客提供價值」這種市場營銷視角，從六個步驟上來觀察一下數據的廣泛利用。

第一步是「看清市場結構與需求」，這是制定各種商品開發與服務戰略的基礎；第二步是基於這種市場判斷，設計所提供的核心價值、服務屬性；第三是針對不同顧客的市場營銷；第四是像前面提到那樣，在需求發生時提供推銷服務（廣告、郵件、網站內容等）；第五是檢驗實施前四步以後產生的效果；第六是從數值上預測未來情況。

大數據在上述後四個步驟方面尤其具有優勢。比如，要提供符合個別用戶特性的服務和資訊，大數據是不可或缺的前提。在網際網路上依據用戶的網路記錄過濾不恰當資訊，提供有針對性的廣告及符合個人消費行為的優惠券等，這都屬於典型事例。

實時打廣告或在搜尋框中輸入熱門話題的部分字眼時，立刻就會自動提示話題相關詞彙，這種現象源於積累了用戶的使用數據後所產生的「機械學習」。通過這種機械學習利用大數據的特點，在於服務提供方即使不理解具體語境也無妨。

此外，越是要詳細獲取資訊，就越是離不開大數據的幫助。比如，觀察在特定的一週內，人們傍晚在某車站附近的店內集中購買雞肉的變化情況這樣的例子。

預測分析選舉結果、景氣動向等

另外，人們的一個強烈期望，是運用大數據對不大遙遠的未來，也就是對當下或者近期做出準確的定量預測。我在雅虎實施過兩個有趣的預測。一是預測了2013年7月的參議院選舉結果。

最終發現，我們的預測大部分準確，預測結果的準確率超過了所有主要媒體。具體而言，我們發現網際網路上關注度—搜尋量和推特（Twitter）、Facebook上的原創投稿量等－—與投票方式具有高度關聯性，針對每個選舉區進行了預測。歷來的辦法是通過專家學者的觀察、選民的呼聲和問卷調查結果等進行綜合預測，而我們僅依據數據的類型和利用量進行預測，獲得了準確性超越傳統做法的結果。

另一個例子是經濟情況的預測。內閣府公布的景氣動向指數，通常在時間上要滯後1、2個月，但人們想知道的不是兩個月前的景氣好壞，更想知道現在的情況如何，於是我們開始了這個預測。我們首先從分析搜尋詞條入手。雅虎上全年大約會出現75億種搜尋詞條。我們對其中經常被搜尋的約60萬個進行了全面分析後，篩選出了尤與經濟指標密切相關的200個關鍵詞。以此為基礎，製作了用於推導當前景氣指標的模式，預測結果也成功做到了基本準確。

如上所述，在對近期或當前的定量預測中，大數據發揮出巨大作用。實際上，它早已被用到了日常的供應鏈管理（Supply Chain Management）中，便利商店一天3次發送數千件商品也沒有出現赤字的一個理由就在於此。

妨礙利用的各種問題

然後，我想談一談利用大數據時可能出現的幾種典型問題。第一，幾乎所有企業實體根本就沒有稱得上大數據的數據。這是問題之前的問題。

第二，各種數據本身尚未得到充分完善，導致無法整合數據加以利用。比如，零售商品數據，通常按大類、中類、小類等多層次分類，但對這種商品管理數據結構，即使是在同一個零售集團內部，每個鏈條都各不相同。這樣一來，整合利用就變得極為困難。如何將這些數據整合起來加以利用是一個重大課題。

即使解決了上述兩個問題，另外還需要一種可以實時處理和利用龐大數據的機制。大多數企業既沒有這種機制，而且也不具備基礎，將不斷湧入的數據存儲到記憶裝置中去。就算擁有存儲基礎，也沒有運用維護的人才。

為了解決這些問題，公司迫切需要的是擁有綜合技能的人才，運用資訊科學和工程技術學，從海量的數據中找出解決商業課題的答案。

綜上所述，缺乏數據、無法整合、不能建立讀取處理和利用的機制、沒有足夠的儲存保管基礎、缺乏運用維護人才以及可以綜合梳理並解決問題的人才——這就是現今大多數公司利用大數據的現狀。

安全對策上的兩極分化

在有關大數據的爭論中，人們經常提到隱私保護問題，由於混雜了基於不同立場的論調，所以視角的不同會導致問題反映的層次不同。

關於安全問題，大多數主要的網際網路運營商早已為此採取了有效的措施。比如雅虎，將可以鎖定個人的資訊與行為痕跡數據明確地分離開來，使用的數據都經過了匿名化處理。

另一方面，許多傳統型企業對個人資訊與日誌檔案（log data）都不加以區分，而是把它們整合起來進行管理；再加上許多這樣的企業缺乏監控危險的完善機制，甚至難以發現數據是否已經外洩。

在數據的利用上，企業間出現了兩極分化。為了保護使用者，各家企業在利用之前，必須首先針對數據管理制定規章指南。

日本面臨的三個「障礙」

總體而言，與美國等一些國家相比，現今日本的數據利用環境存在三大障礙。一是創造大數據的企業較少。二是缺乏打造一個便於利用數據環境的基礎。比如，日本的電費是美國的好幾倍，導致數據中心的設立和運營成本高昂。這也是資訊類主要企業始終沒有涉足日本數據基礎設施建設領域的一個原因。為了吸引數據產業落戶，至少應該設置一些諸如提供特殊電價的例外措施。

第三是前述的人才不足問題。針對這一問題，需要兼備三種能力的人才，即「數據科學能力」、「數據工程技術能力」，以及在理解問題背景的基礎上，梳理並解決這些問題的「商務能力」。

數據科學能力指的是理解和運用資訊處理、人工智慧、統計學等資訊科學知識的能力。數據工程學能力指的是能以有意義的形式運用數據科學，組建並運用實際系統的能力。我認為，不一定非得要求一人多能，但能否有意識地集中培養一批各有所長的人才，將是決定未來大數據利用成功與否的關鍵。

（nippon.com編輯部根據2014年9月25日的採訪內容編寫）

網際網路經濟成長戰略大數據雅虎麥肯錫公司搜尋