到上世紀(jì)50-60年代,磁帶取代穿孔卡片機(jī),啟動(dòng)了數(shù)據(jù)存儲(chǔ)的革命。磁盤(pán)驅(qū)動(dòng)器隨即發(fā)明,它帶來(lái)的最大想象空間并不是容量,而是隨機(jī)讀寫(xiě)的能力,這一下子解放了數(shù)據(jù)工作者的思維模式,開(kāi)始數(shù)據(jù)的非線性表達(dá)和管理。數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生,從層次型數(shù)據(jù)庫(kù)(IBM為阿波羅登月設(shè)計(jì)的層次型數(shù)據(jù)庫(kù)迄今仍在建行使用),到網(wǎng)狀數(shù)據(jù)庫(kù),再到現(xiàn)在通用的關(guān)系數(shù)據(jù)庫(kù)。與數(shù)據(jù)管理同時(shí)發(fā)源的是決策支持系統(tǒng)(DSS),80年代演變到商業(yè)智能(BI)和數(shù)據(jù)倉(cāng)庫(kù),開(kāi)辟了數(shù)據(jù)分析——也就是為數(shù)據(jù)賦予意義——的道路。
那個(gè)時(shí)代運(yùn)用數(shù)據(jù)管理和分析最厲害的是商業(yè)。第一個(gè)數(shù)據(jù)倉(cāng)庫(kù)是為寶潔做的,第一個(gè)太字節(jié)的數(shù)據(jù)倉(cāng)庫(kù)是在沃爾瑪。沃爾瑪?shù)牡湫蛻?yīng)用是兩個(gè):一是基于retaillink的供應(yīng)鏈優(yōu)化,把數(shù)據(jù)與供應(yīng)商共享,指導(dǎo)它們的產(chǎn)品設(shè)計(jì)、生產(chǎn)、定價(jià)、配送、營(yíng)銷等整個(gè)流程,同時(shí)供應(yīng)商可以優(yōu)化庫(kù)存、及時(shí)補(bǔ)貨;二是購(gòu)物籃分析,也就是常說(shuō)的啤酒加尿布。關(guān)于啤酒加尿布,幾乎所有的營(yíng)銷書(shū)都言之鑿鑿,我告訴大家,是Teradata的一個(gè)經(jīng)理編的,人類歷史上從沒(méi)有發(fā)生過(guò),但是,先教育市場(chǎng),再收獲市場(chǎng),它是有功的。
僅次于沃爾瑪?shù)臉?lè)購(gòu)(Tesco),強(qiáng)在客戶關(guān)系管理(CRM),細(xì)分客戶群,分析其行為和意圖,做精準(zhǔn)營(yíng)銷。
這些都發(fā)生在90年代。00年代時(shí),科研產(chǎn)生了大量的數(shù)據(jù),如天文觀測(cè)、粒子碰撞,數(shù)據(jù)庫(kù)大拿吉姆·格雷等提出了第四范式,是數(shù)據(jù)方法論的一次提升。前三個(gè)范式是實(shí)驗(yàn)(伽利略從斜塔往下扔),理論(牛頓被蘋(píng)果砸出靈感,形成經(jīng)典物理學(xué)定律),模擬(粒子加速太貴,核試驗(yàn)太臟,于是乎用計(jì)算代替)。第四范式是數(shù)據(jù)探索。這其實(shí)也不是新鮮的,開(kāi)普勒根據(jù)前人對(duì)行星位置的觀測(cè)數(shù)據(jù)擬合出橢圓軌道,就是數(shù)據(jù)方法。但是到90年代的時(shí)候,科研數(shù)據(jù)實(shí)在太多了,數(shù)據(jù)探索成為顯學(xué)。在現(xiàn)今的學(xué)科里,有一對(duì)孿生兄弟,計(jì)算XX學(xué)和XX信息學(xué),前者是模擬/計(jì)算范式,后者是數(shù)據(jù)范式,如計(jì)算生物學(xué)和生物信息學(xué)。有時(shí)候計(jì)算XX學(xué)包含了數(shù)據(jù)范式,如計(jì)算社會(huì)學(xué)、計(jì)算廣告學(xué)。
2008年克里斯·安德森(長(zhǎng)尾理論的作者)在《連線》雜志寫(xiě)了一篇《理論的終結(jié)》,引起軒然大波。他主要的觀點(diǎn)是有了數(shù)據(jù),就不要模型了,或者很難獲得具有可解釋性的模型,那么模型所代表的理論也沒(méi)有意義了。跟大家說(shuō)一下數(shù)據(jù)、模型和理論。大家先看個(gè)粗糙的圖。
[page]
首先,我們?cè)谟^察客觀世界中采集了三個(gè)點(diǎn)的數(shù)據(jù),根據(jù)這些數(shù)據(jù),可以對(duì)客觀世界有個(gè)理論假設(shè),用一個(gè)簡(jiǎn)化的模型來(lái)表示,比如說(shuō)三角形??梢杂懈嗟哪P停缢倪呅?,五邊形。隨著觀察的深入,又采集了兩個(gè)點(diǎn),這時(shí)發(fā)現(xiàn)三角形、四邊形的模型都是錯(cuò)的,于是確定模型為五邊形,這個(gè)模型反映的世界就在那個(gè)五邊形里,殊不知真正的時(shí)間是圓形。
大數(shù)據(jù)時(shí)代的問(wèn)題是數(shù)據(jù)是如此的多、雜,已經(jīng)無(wú)法用簡(jiǎn)單、可解釋的模型來(lái)表達(dá),這樣,數(shù)據(jù)本身成了模型,嚴(yán)格地說(shuō),數(shù)據(jù)及應(yīng)用數(shù)學(xué)(尤其是統(tǒng)計(jì)學(xué))取代了理論。安德森用谷歌翻譯的例子,統(tǒng)一的統(tǒng)計(jì)學(xué)模型取代了各種語(yǔ)言的理論/模型(如語(yǔ)法),能從英文翻譯到法文,就能從瑞典文翻譯到中文,只要有語(yǔ)料數(shù)據(jù)。谷歌甚至能翻譯克萊貢語(yǔ)(StarTrek里編出來(lái)的語(yǔ)言)。安德森提出了要相關(guān)性不要因果性的問(wèn)題,以后舍恩伯格(下面稱之為老舍)只是拾人牙慧了。
當(dāng)然,科學(xué)界不認(rèn)同《理論的終結(jié)》,認(rèn)為科學(xué)家的直覺(jué)、因果性、可解釋性仍是人類獲得突破的重要因素。有了數(shù)據(jù),機(jī)器可以發(fā)現(xiàn)當(dāng)前知識(shí)疆域里面隱藏的未知部分。而沒(méi)有模型,知識(shí)疆域的上限就是機(jī)器線性增長(zhǎng)的計(jì)算力,它不能擴(kuò)展到新的空間。在人類歷史上,每一次知識(shí)疆域的跨越式拓展都是由天才和他們的理論率先吹起的號(hào)角。
2010年左右,大數(shù)據(jù)的浪潮卷起,這些爭(zhēng)論迅速被淹沒(méi)了??垂雀柃厔?shì),”bigdata”這個(gè)詞就是那個(gè)時(shí)間一下子躥升了起來(lái)。吹鼓手有幾家,一家是IDC,每年給EMC做digitaluniverse的報(bào)告,上升到澤字節(jié)范疇(給大家個(gè)概念,現(xiàn)在硬盤(pán)是太字節(jié),1000太=1拍,阿里、Facebook的數(shù)據(jù)是幾百拍字節(jié),1000拍=1艾,百度是個(gè)位數(shù)艾字節(jié),谷歌是兩位數(shù)艾字節(jié),1000艾=1澤);一家是麥肯錫,發(fā)布《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》;一家是《經(jīng)濟(jì)學(xué)人》,其中的重要寫(xiě)手是跟老舍同著《大數(shù)據(jù)時(shí)代》的肯尼思?庫(kù)克耶;還有一家是Gartner,杜撰了3V(大、雜、快),其實(shí)這3V在2001年就已經(jīng)被編出來(lái)了,只不過(guò)在大數(shù)據(jù)語(yǔ)境里有了全新的詮釋。
咱們國(guó)內(nèi),歡總、國(guó)棟總也是在2011年左右開(kāi)始呼吁對(duì)大數(shù)據(jù)的重視。
2012年子沛的書(shū)《大數(shù)據(jù)》教育政府官員有功。老舍和庫(kù)克耶的《大數(shù)據(jù)時(shí)代》提出了三大思維,現(xiàn)在已經(jīng)被奉為圭臬,但千萬(wàn)別當(dāng)作放之四海而皆準(zhǔn)的真理了。
比如要數(shù)據(jù)全集不要采樣?,F(xiàn)實(shí)地講,1.沒(méi)有全集數(shù)據(jù),數(shù)據(jù)都在孤島里;2.全集太貴,鑒于大數(shù)據(jù)信息密度低,是貧礦,投入產(chǎn)出比不見(jiàn)得好;3.宏觀分析中采樣還是有用的,蓋洛普用5000個(gè)樣本勝過(guò)幾百萬(wàn)調(diào)查的做法還是有實(shí)踐意義;4.采樣要有隨機(jī)性、代表性,采訪火車上的民工得出都買(mǎi)到票的結(jié)論不是好采樣,現(xiàn)在只做固定電話采樣調(diào)查也不行了(移動(dòng)電話是大頭),在國(guó)外基于Twitter采樣也發(fā)現(xiàn)不完全具有代表性(老年人沒(méi)被包括);5.采樣的缺點(diǎn)是有百分之幾的偏差,更會(huì)丟失黑天鵝的信號(hào),因此在全集數(shù)據(jù)存在且可分析的前提下,全量是首選。全量>好的采樣>不均勻的大量。
再說(shuō)混雜性由于精確性。擁抱混雜性(這樣一種客觀現(xiàn)象)的態(tài)度是不錯(cuò)的,但不等于喜歡混雜性。數(shù)據(jù)清洗比以前更重要,數(shù)據(jù)失去辨識(shí)度、失去有效性,就該扔了。老舍引用谷歌PeterNovig的結(jié)論,少數(shù)高質(zhì)量數(shù)據(jù)+復(fù)雜算法被大量低質(zhì)量數(shù)據(jù)+簡(jiǎn)單算法打敗,來(lái)證明這一思維。Peter的研究是Web文本分析,確實(shí)成立。但谷歌的深度學(xué)習(xí)已經(jīng)證明這個(gè)不完全對(duì),對(duì)于信息維度豐富的語(yǔ)音、圖片數(shù)據(jù),需要大量數(shù)據(jù)+復(fù)雜模型。
最后是要相關(guān)性不要因果性。對(duì)于大批量的小決策,相關(guān)性是有用的,如亞馬遜的個(gè)性化推薦;而對(duì)于小批量的大決策,因果性依然重要。就如中藥,只到達(dá)了相關(guān)性這一步,但它沒(méi)有可解釋性,無(wú)法得出是有些樹(shù)皮和蟲(chóng)殼的因?qū)е轮斡墓?。西藥在發(fā)現(xiàn)相關(guān)性后,要做隨機(jī)對(duì)照試驗(yàn),把所有可能導(dǎo)致“治愈的果”的干擾因素排除,獲得因果性和可解釋性。在商業(yè)決策上也是一樣,相關(guān)性只是開(kāi)始,它取代了拍腦袋、直覺(jué)獲得的假設(shè),而后面驗(yàn)證因果性的過(guò)程仍然重要。
把大數(shù)據(jù)的一些分析結(jié)果落實(shí)在相關(guān)性上也是倫理的需要,動(dòng)機(jī)不代表行為。預(yù)測(cè)性分析也一樣,不然警察會(huì)預(yù)測(cè)人犯罪,保險(xiǎn)公司會(huì)預(yù)測(cè)人生病,社會(huì)很麻煩。大數(shù)據(jù)算法極大影響了我們的生活,有時(shí)候會(huì)覺(jué)得挺悲哀的,是算法覺(jué)得了你貸不貸得到款,谷歌每調(diào)整一次算法,很多在線商業(yè)就會(huì)受到影響,因?yàn)楸慌诺胶竺嫒チ恕?/p>
下面時(shí)間不多了,關(guān)于價(jià)值維度,我貼一些以前講過(guò)的東西。大數(shù)據(jù)思想中很重要的一點(diǎn)是決策智能化之外,還有數(shù)據(jù)本身的價(jià)值化。這一點(diǎn)不贅述了,引用馬云的話吧,“信息的出發(fā)點(diǎn)是我認(rèn)為我比別人聰明,數(shù)據(jù)的出發(fā)點(diǎn)是認(rèn)為別人比我聰明;信息是你拿到數(shù)據(jù)編輯以后給別人,而數(shù)據(jù)是你搜集數(shù)據(jù)以后交給比你更聰明的人去處理。”大數(shù)據(jù)能做什么??jī)r(jià)值這個(gè)V怎么映射到其他3V和時(shí)空象限中?我畫(huà)了個(gè)圖:
[page]
再貼上解釋。“見(jiàn)微”與“知著”在Volume的空間維度。小數(shù)據(jù)見(jiàn)微,作個(gè)人刻畫(huà),我曾用《一代宗師》中“見(jiàn)自己”形容之;大數(shù)據(jù)知著,反映自然和群體的特征和趨勢(shì),我以“見(jiàn)天地、見(jiàn)眾生”比喻之。“著”推動(dòng)“微”(如把人群細(xì)分為buckets),又拉動(dòng)“微”(如推薦相似人群的偏好給個(gè)人)。“微”與“著”又反映了時(shí)間維度,數(shù)據(jù)剛產(chǎn)生時(shí)個(gè)人價(jià)值最大,隨著時(shí)間decay最后退化為以集合價(jià)值為主。
“當(dāng)下”和“皆明”在Velocity的時(shí)間維度。當(dāng)下在時(shí)間原點(diǎn),是閃念之間的實(shí)時(shí)智慧,結(jié)合過(guò)往(負(fù)軸)、預(yù)測(cè)未來(lái)(正軸),可以皆明,即獲得perpetual智慧?!段饔斡洝防镄稳菡婕賹O悟空,一個(gè)是“知天時(shí)、通變化”,一個(gè)是“知前后、萬(wàn)物皆明”,正好對(duì)應(yīng)。為達(dá)到皆明,需要全量分析、預(yù)測(cè)分析和處方式分析(prescriptiveanalytics,為讓設(shè)定的未來(lái)發(fā)生,需要采取什么樣的行動(dòng))。
“辨訛”和“曉意”在Variety的空間維度?;诖篌w量、多源異質(zhì)的數(shù)據(jù),辨訛過(guò)濾噪聲、查漏補(bǔ)缺、去偽存真。曉意達(dá)到更高境界,從非結(jié)構(gòu)數(shù)據(jù)中提取語(yǔ)義、使機(jī)器能夠窺探人的思想境界、達(dá)到過(guò)去結(jié)構(gòu)化數(shù)據(jù)分析不能達(dá)到之高度。
先看知著,對(duì)宏觀現(xiàn)象規(guī)律的研究早已有之,大數(shù)據(jù)的知著有兩個(gè)新特點(diǎn),一是從采樣到全量,比如央視去年“你幸福嗎”的調(diào)查,是街頭的采樣,前不久《中國(guó)經(jīng)濟(jì)生活大調(diào)查》關(guān)于幸福城市排名的結(jié)論,是基于10萬(wàn)份問(wèn)卷(17個(gè)問(wèn)題)的采樣,而清華行為與大數(shù)據(jù)實(shí)驗(yàn)室做的幸福指數(shù)(繼挺兄、我、還有多位本群群友參與),是基于新浪微博數(shù)據(jù)的全集(托老王的福),這些數(shù)據(jù)是人們的自然表達(dá)(而不是面對(duì)問(wèn)卷時(shí)的被動(dòng)應(yīng)對(duì)),同時(shí)又有上下文語(yǔ)境,因此更真實(shí)、也更有解釋性。北上廣不幸福,是因?yàn)榭諝膺€是房?jī)r(jià)或教育,在微博上更容易傳播的積極情緒還是消極情緒,數(shù)據(jù)告訴你答案。《中國(guó)經(jīng)濟(jì)生活大調(diào)查》說(shuō)“再小的聲音我們都聽(tīng)得見(jiàn)”,是過(guò)頭話,采樣和傳統(tǒng)的統(tǒng)計(jì)分析方法對(duì)數(shù)據(jù)分布采用一些簡(jiǎn)化的模型,這些模型把異常和長(zhǎng)尾忽略了,全量的分析可以看到黑天鵝的身影,聽(tīng)到長(zhǎng)尾的聲音。
另一個(gè)特點(diǎn)是從定性到定量。計(jì)算社會(huì)學(xué)就是把定量分析應(yīng)用到社會(huì)學(xué),已經(jīng)有一批數(shù)學(xué)家、物理學(xué)家成了經(jīng)濟(jì)學(xué)家、寬客,現(xiàn)在他們也可以選擇成為社會(huì)學(xué)家。國(guó)泰君安3I指數(shù)也是一個(gè)例子,它通過(guò)幾十萬(wàn)用戶的數(shù)據(jù),主要是反映投資活躍程度和投資收益水平的指標(biāo),建立一個(gè)量化模型來(lái)推知整體投資景氣度。
再看見(jiàn)微,我認(rèn)為大數(shù)據(jù)的真正差異化優(yōu)勢(shì)在微觀。自然科學(xué)是先宏觀、具體,進(jìn)入到微觀和抽象,這時(shí)大數(shù)據(jù)就很重要了。我們更關(guān)注社會(huì)科學(xué),那是先微觀、具體,再宏觀、抽象,許小年索性認(rèn)為宏觀經(jīng)濟(jì)學(xué)是偽科學(xué)。如果市場(chǎng)是個(gè)體行為的總和,我們?cè)瓉?lái)看到是一張抽象派的畫(huà),看不懂,通過(guò)客戶細(xì)分慢慢可以形成一張大致看得懂的現(xiàn)實(shí)圖景,不過(guò)是馬賽克的,再通過(guò)微分、甚至定位個(gè)人,形成高清圖。我們每一個(gè)人現(xiàn)在都生活在零售商的bucket中(前面說(shuō)的樂(lè)購(gòu)創(chuàng)造了這個(gè)概念),最簡(jiǎn)單的是高收入、低收入這類反映背景的,再有就是反映行為和生活方式的,如“精打細(xì)算”、“右鍵點(diǎn)擊一族”(使用右鍵的比較techsavvy)。反過(guò)來(lái)我們消費(fèi)者也希望能夠獲得個(gè)性化的尊崇,Nobody wants to be nobody today。
了解并掌握客戶比以往任何時(shí)候都更重要。奧巴馬贏在大數(shù)據(jù)上,就是因?yàn)樗牢靼?0-49歲女性的男神是喬治·克魯尼,東岸同樣年齡段女性的偶像則是莎拉·杰西卡·帕克(《欲望都市》的主角),他還要更細(xì)分,搖擺州每一個(gè)郡每一個(gè)年齡段每一個(gè)時(shí)間段在看什么電視,搖擺州(俄亥俄)1%選民隨時(shí)間變化的投票傾向,搖擺選民在Reddit上還是Facebook上,都在其掌握之中。
對(duì)于企業(yè)來(lái)說(shuō),要從以產(chǎn)品為中心,轉(zhuǎn)到以客戶(買(mǎi)單者)甚至用戶(使用者)為中心,從關(guān)注用戶背景到關(guān)注其行為、意圖和意向,從關(guān)注交易形成轉(zhuǎn)到關(guān)注每一個(gè)交互點(diǎn)/觸點(diǎn),用戶是從什么路徑發(fā)現(xiàn)我的產(chǎn)品的,決定之前又做了什么,買(mǎi)了以后又有什么反饋,是通過(guò)網(wǎng)頁(yè)、還是QQ、微博或是微信。
再講第三個(gè),當(dāng)下。時(shí)間是金錢(qián),股票交易就是快魚(yú)吃慢魚(yú),用免費(fèi)股票交易軟件有幾秒的延遲,而占美國(guó)交易量60-70%的高頻程序化交易則要發(fā)現(xiàn)毫秒級(jí)、低至1美分的交易機(jī)會(huì)。時(shí)間又是生命,美國(guó)國(guó)家大氣與海洋管理局的超級(jí)計(jì)算機(jī)在日本311地震后9分鐘發(fā)出海嘯預(yù)警,已經(jīng)太晚。時(shí)間還是機(jī)會(huì)?,F(xiàn)在所謂的購(gòu)物籃分析用的其實(shí)并不是真正的購(gòu)物籃,而是結(jié)帳完的小票,真正有價(jià)值的是當(dāng)顧客還拎著購(gòu)物籃,在瀏覽、試用、選擇商品的時(shí)候,在每一個(gè)觸點(diǎn)影響他/她的選擇。數(shù)據(jù)價(jià)值具有半衰期,最新鮮的時(shí)候個(gè)性化價(jià)值最大,漸漸退化到只有集合價(jià)值。當(dāng)下的智慧是從刻舟求劍到見(jiàn)時(shí)知幾,原來(lái)10年一次的人口普查就是刻舟求劍,而現(xiàn)在東莞一出事百度遷徙圖就反映出來(lái)了。當(dāng)然,當(dāng)下并不一定是完全準(zhǔn)確的,其實(shí)如果沒(méi)有更多、更久的數(shù)據(jù),匆忙對(duì)百度遷徙圖解讀是可能陷入誤區(qū)的。
第四個(gè),皆明。時(shí)間有限,就簡(jiǎn)單說(shuō)了。就是從放馬后炮到料事如神(predictiveanalytics),從料事如神到運(yùn)籌帷幄(prescriptiveanalytics),只知道有東風(fēng)是預(yù)測(cè)分析,確定要借箭的目標(biāo)、并給出處方利用草船來(lái)借,就是處方性分析。我們現(xiàn)在要提高響應(yīng)度、降低流失率、吸引新客戶,需要處方性分析。
辨訛就是利用多源數(shù)據(jù)過(guò)濾噪聲、查漏補(bǔ)缺和去偽存真。20多個(gè)省市的GDP之和超過(guò)全國(guó)的GDP就是一個(gè)例子,我們的GPS有幾十米的誤差,但與地圖數(shù)據(jù)結(jié)合就能做到精確,GPS在城市的高樓中沒(méi)有信號(hào),可以與慣性導(dǎo)航結(jié)合。
曉意涉及到大數(shù)據(jù)下的機(jī)器智能,是個(gè)大問(wèn)題,也不展開(kāi)了。貼一段我的文章:有人說(shuō)在涉及“曉意”的領(lǐng)域人是無(wú)法替代的。這在前大數(shù)據(jù)時(shí)代是事實(shí)?!饵c(diǎn)球成金(Moneyball)》講的是數(shù)量化分析和預(yù)測(cè)對(duì)棒球運(yùn)動(dòng)的貢獻(xiàn),它在大數(shù)據(jù)背景下出現(xiàn)了傳播的誤區(qū):一、它其實(shí)不是大數(shù)據(jù),而是早已存在的數(shù)據(jù)思維和方法;二、它刻意或無(wú)意忽略了球探的作用。從讀者看來(lái),奧克蘭競(jìng)技隊(duì)的總經(jīng)理比利·比恩用數(shù)量化分析取代了球探。而事實(shí)是,在運(yùn)用數(shù)量化工具的同時(shí),比恩也增加了球探的費(fèi)用,軍功章里有機(jī)器的一半,也有人的一半,因?yàn)榍蛱綄?duì)運(yùn)動(dòng)員定性指標(biāo)(如競(jìng)爭(zhēng)性、抗壓力、意志力等)的衡量是少數(shù)結(jié)構(gòu)化量化指標(biāo)無(wú)法刻畫(huà)的。大數(shù)據(jù)改變了這一切。人的數(shù)字足跡的無(wú)意識(shí)記錄,以及機(jī)器學(xué)習(xí)(尤其是深度學(xué)習(xí))曉意能力的增強(qiáng),可能逐漸改變機(jī)器的劣勢(shì)。今年我們看到基于大數(shù)據(jù)的情感分析、價(jià)值觀分析和個(gè)人刻畫(huà),當(dāng)這些應(yīng)用于人力資源,已經(jīng)或多或少體現(xiàn)了球探承擔(dān)的。