目前的深度學習主要是建立在大數(shù)據(jù)的基礎上,即對大數(shù)據(jù)進行訓練,并從中歸納出可以被計算機運用在類似數(shù)據(jù)上的知識或規(guī)律。那么,到底什么是大數(shù)據(jù)呢?
人們經(jīng)?;\統(tǒng)地說,大數(shù)據(jù)就是大規(guī)模的數(shù)據(jù)。
這個說法并不準確。“大規(guī)?!敝皇侵笖?shù)據(jù)的量而言。數(shù)據(jù)量大,并不代表著數(shù)據(jù)一定有可以被深度學習算法利用的價值。例如,地球繞太陽運轉(zhuǎn)的過程中,每一秒鐘記錄一次地球相對太陽的運動速度、位置,可以得到大量數(shù)據(jù)??扇绻挥羞@樣的數(shù)據(jù),其實并沒有太多可以挖掘的價值,因為地球圍繞太陽運轉(zhuǎn)的物理規(guī)律,人們已經(jīng)研究得比較清楚了。
那么,大數(shù)據(jù)到底是什么?大數(shù)據(jù)是如何產(chǎn)生的?什么樣的數(shù)據(jù)才最有價值,最適合作為計算機的學習對象呢?
根據(jù)馬丁·希爾伯特的總結(jié),今天我們常說的大數(shù)據(jù)其實是在2000年后,因為信息交換、信息存儲、信息處理三個方面能力的大幅增長而產(chǎn)生的數(shù)據(jù):
信息交換:據(jù)估算,從1986年到2007年這20年間,地球上每天可以通過既有信息通道交換的信息數(shù)量增長了約217倍,這些信息的數(shù)字化程度,則從1986年的約20%增長到2007年的約99.9%。在數(shù)字化信息爆炸式增長的過程里,每個參與信息交換的節(jié)點都可以在短時間內(nèi)接收并存儲大量數(shù)據(jù)。
信息存儲:全球信息存儲能力大約每3年翻一番。從1986年到2007年這20年間,全球信息存儲能力增加了約120倍,所存儲信息的數(shù)字化程度也從1986年的約1%增長到2007年的約94%。1986年時,即便用上我們所有的信息載體、存儲手段,我們也不過能存儲全世界所交換信息的大約1%,而2007年這個數(shù)字已經(jīng)增長到大約16%。信息存儲能力的增加為我們利用大數(shù)據(jù)提供了近乎無限的想象空間。
信息處理:有了海量的信息獲取能力和信息存儲能力,我們也必須有對這些信息進行整理、加工和分析的能力。谷歌、Facebook等公司在數(shù)據(jù)量逐漸增大的同時,也相應建立了靈活、強大的分布式數(shù)據(jù)處理集群。
從應用角度來說,今天的大數(shù)據(jù)越來越多地呈現(xiàn)出以下一種或幾種特性:
大數(shù)據(jù)越來越多地來源于生產(chǎn)或服務過程的副產(chǎn)品,但在價值上卻往往超過了為了特定目的專門采集的數(shù)據(jù)。例如,谷歌曾利用全球用戶查詢中,涉及流行性感冒的關(guān)鍵詞的出現(xiàn)頻率變化情況,對2003年到2008年全球季節(jié)性流感的分布和傳播進行跟蹤與預測。這一預測的覆蓋規(guī)模和價值甚至超出了各國衛(wèi)生部門專門收集相關(guān)數(shù)據(jù)所做的預測。
大數(shù)據(jù)往往可以取代傳統(tǒng)意義上的抽樣調(diào)查。例如,按照傳統(tǒng)方式,電視臺某個節(jié)目的收視率往往要由專業(yè)調(diào)查公司通過抽樣調(diào)查的方式獲得數(shù)據(jù)后估算出來?,F(xiàn)在,有了微博或類似的社交網(wǎng)絡,我們可以直接利用微博上每時每刻產(chǎn)生的大數(shù)據(jù)對節(jié)目熱度進行分析,其準確性往往超過傳統(tǒng)的抽樣調(diào)查方式。
許多大數(shù)據(jù)都可以實時獲取。例如,每年雙十一,在各類電子商務平臺上,每時每刻都有成千上萬筆交易正在進行,所有這些交易數(shù)據(jù)在阿里交易平臺的內(nèi)部,都可以實時匯總,供人們對雙十一當天的交易情況進行監(jiān)控、管理或分析、匯總。大數(shù)據(jù)的實時性為大數(shù)據(jù)的應用提供了更多的選擇,為大數(shù)據(jù)更快產(chǎn)生應用價值提供了基礎。
大數(shù)據(jù)往往混合了來自多個數(shù)據(jù)源的多維度信息。假如能利用用戶ID,將用戶在微博上的社交行為,和用戶在電子商務平臺的購買行為關(guān)聯(lián)起來,就可以向微博用戶更準確地推薦他最喜歡的商品。聚合更多數(shù)據(jù)源,增加數(shù)據(jù)維度,這是提高大數(shù)據(jù)價值的好辦法。
大數(shù)據(jù)的價值在于數(shù)據(jù)分析以及分析基礎上的數(shù)據(jù)挖掘和智能決策。大數(shù)據(jù)的擁有者只有基于大數(shù)據(jù)建立有效的模型和工具,才能充分發(fā)揮大數(shù)據(jù)的價值。例如利用谷歌趨勢對過去5年全球地震分布進行分析匯總。根據(jù)用戶查詢地震相關(guān)關(guān)鍵詞的頻率,看出過去5年內(nèi)主要地震的發(fā)生時間和地點。在這里,谷歌趨勢就是一個利用已有大數(shù)據(jù)建模、分析、匯總的有效工具。
(審核編輯: 智匯張瑜)
分享