
工業(yè)和信息化部原副部長楊學山
信息資源和信息資源開發(fā)利用的本質(zhì)、規(guī)律決定了數(shù)據(jù)開放是它的必由之路、內(nèi)在要求。首先第一個方面,認識層面:兩個最重要的變化第一個是信息技術(shù)和通信技術(shù)結(jié)合起來形成核心增長力,第二個是材料、能源加信息變成推動社會經(jīng)濟發(fā)展的基本資源,這是走向信息社會最本質(zhì)的特征,其中信息資源是關(guān)鍵。
一講到信息資源,提出材料、能源和信息是發(fā)展社會的基本概念和框架。40多年過去了,我們還基本上沒有建立起對信息資源應有的認識,對信息資源的認識之薄弱令人吃驚。建議大家看一下著名經(jīng)濟學家阿爾費雷德·D·錢德勒主編的《信息改變了美國》這本書中的一些數(shù)據(jù),今天我們中國大部分企業(yè)對信息資源還沒達到100年前美國企業(yè)對信息資源的認知程度等。信息資源這個詞,大家都知道,但是認識信息資源需要很長的時間。所以說在講這件事情時,要認識信息資源我只想講兩個,一個是信息資源究竟怎么看?第二個是信息資源究竟有哪些?和材料、能源有什么不一樣的特征。
先是第一個問題,我們在講材料、能源和信息資源成為經(jīng)濟社會發(fā)展基本資源,在座的各位肯定會有疑問,行嗎?能和材料、能源相提并論嗎?我相信有這個疑問的人占了大多數(shù)。所以談這個問題認識時是把信息和材料、能源放在并列的位置。放在并列的位置的原因第一個是它的量是否和材料、能源一樣等量齊觀;另外是它的質(zhì)或它的作用是否和材料能源等量齊觀。這兩個問題如果在5年以前提出來,無人接受,沒有人會相信,這兩年由于大數(shù)據(jù)的概念以及大數(shù)據(jù)的作用,我們開始有信心相信,但是問題可能很多人還沒解決。其實我們在想為什么今天開始已經(jīng)有人認識到,原因是我們看到信息資源的量和質(zhì)這兩方面都產(chǎn)生了重大變化,量的變化大家感覺比較明顯,在20年前我們都為千億級的存儲和億次級的計算能力來奮斗,但到了今天,我們很多人家里面就有了千億級的存儲,桌面終端和用戶終端不單是億次級,再有幾年時間,從技術(shù)的角度看,千億級的個人終端是在技術(shù)上一點困難也沒有,應該是在3年左右。這種進步使得我們很快從G級到T級、P級、Z級,每一個概念代表3個數(shù)量級的提出,其實信息的量是完全和物質(zhì)的量可以等量齊觀,一個原子很小,但是描述一個原子的信息要多,一個是事件我們看很清晰,但是描述這個事件需要多少信息,所以信息的量和物質(zhì)世界的量是完全等量奇觀的。
今天我們打開手機看到地圖,從哪到哪,交通情況怎樣,甚至地圖可以看到各種道路的選擇,從這個道路走比走大門省幾百米,這些原來不能想象,而現(xiàn)在我們可以通過搜索關(guān)鍵詞來看經(jīng)濟的景氣狀況,可以看景點是否堵車,可以看到百度之所以有那么的威武,是因為擁有了信息資源、網(wǎng)頁的資源;阿里之所以發(fā)展那么快是因為擁有龐大的信息數(shù)據(jù)平臺和擁有那么多的交易數(shù)據(jù),所以支付寶和互聯(lián)網(wǎng)金融可以如此快的發(fā)展;可以看到波音它可以成為世界上規(guī)模最大的飛機制造公司,是因為它擁有了科技制造的嵌入信息和一個平臺。所以我們說真正認識信息資源就一定要把信息資源和材料、能源是等價齊驅(qū)的,同等作用的,而這點認識我們差距甚遠。
第二個問題是信息資源和材料、能源有什么不同,有兩點是最基本的,不管我們是作為用戶還是作為開發(fā)數(shù)據(jù)的人來說,有兩點是很重要的,第一點是信息是多元的,這么多年認識下來,物理空間是三維世界,時間原來可以改變我們對空間的認識,所以變成四維空間。經(jīng)過半個世紀的研究發(fā)現(xiàn),尤其是對量子研究,原來物理空間、物理世界不是一個而是多個的,所以今天我們在解釋物理世界的時候,阿爾弗雷德強調(diào)一個和基本上大家都能接受的觀點。但是大家不要忘記,當我們講阿爾弗雷德在做研究的時候,實際上一個積極的宇宙他還是四維空間,只是這個四維空間和我們今天觀察到的四維空間它有不同的時空,如此而已,但是信息不是。信息的多維遠遠超于四維空間,或者如阿爾弗雷德講的概念,認為信息的多維是一個大數(shù),我不敢說無限,但它是一個大數(shù),是一個大數(shù)的維度。對此有一種看法,有一種說0、1這兩個值為什么可以表述如此復雜的信息,不管信息多大,0、1都能表述出來。所以不同的0、1組成了不同的概念。我們在談有效基因信息的時候,基因的本體只有四個堿基,就不同的,它實際上就和0、1一樣,它只有四個堿基對組成了我們復雜的基因。我們在看神經(jīng)系統(tǒng)、認知信息,其實神經(jīng)元,這個特殊的神經(jīng)細胞,也只有幾種特殊的神經(jīng)細胞、神經(jīng)元,再加上電信號和化學信號的傳遞,構(gòu)成了我們?nèi)梭w,卻讓每個人感覺到我們的世界是如此的復雜。
再回到更簡單的,信息這個詞,信息這個詞是絕對豐富多元的,它可以連接到一個大數(shù)的鏈接上,就是很豐富很大的一個鏈接上去。就像剛才我在講遺傳,在講認知的時候已經(jīng)看到,在量子糾纏的時候信息的傳遞是很快的,今天物理學界沒法解釋,它解釋說量子信息的傳遞是在另一個空間,量子的真正空間,量子信息的另一個秘密步驟,在兩個地方走,這是我們物理學界今天的理解,但是這個解釋已經(jīng)太廣泛了,我們每個人聽到信息這個詞會聯(lián)系到什么去,每一個人會聯(lián)系到不同的領域去,所以信息的多維則是絕對和物質(zhì)世界的四維空間是完全不一樣的,這是它的第一個特征。第二個特征是,信息的使用不會消耗信息。物質(zhì)的東西,使用過程中一定是有消耗的,或者說我們在使用物理的東西的時候,我們在占有并且消耗它。但是我們在使用信息的時候,我們沒有占用信息,也沒有消耗信息,我們大家想一想是不是這樣。如果不是這樣的話,秦始皇的焚書坑儒,中國就不能前進,但是發(fā)現(xiàn)秦始皇的焚書坑儒無論是技術(shù)、人文還是社會,是因為信息不是一個具體的載體媒物,不是用一個具體的使用把它耗掉,這是和物質(zhì)不同的地方,也正因為這個原因,才說數(shù)據(jù)要開放,任何人擁有數(shù)據(jù)后你只能使用它的可用性的若干個部分,你永遠不可能把信息的可用性所有都用完。第二信息是不會消耗的,為什么不開放,所以數(shù)據(jù)開放是信息資源開發(fā)利用里面的應由之路、內(nèi)在要求。
第二部分是講信息資源開發(fā)利用的關(guān)鍵問題。
就像我剛才說的,信息資源和材料、能源并列的時候,信息資源開發(fā)的一般性問題,對比物質(zhì)、材料開發(fā)的一般性過程。以礦產(chǎn)為例,是最典型的物質(zhì)材料,礦產(chǎn)首先需要挖掘,地址勘探隊具有十分重要的作用,今天我們找到了一個大的油氣廠,中國舉國上下都高興。那么對于信息來說,首先要知道信息在哪,有的說信息在哪,我們眼睛始終盯著已經(jīng)存在的政府部門有多少,相應的信息企業(yè)機構(gòu)有多少。這個對嗎,對。這個不對嗎,不對。這個問題你回答對,有道理,因為確實我剛才說的那些地方有信息,有和你相關(guān)信息資源。但是我說不對,因為原則上對我們求解一個復雜的問題,尤其是大數(shù)據(jù)或用信息資源解決問題的時候。我們講一個簡單封閉的系統(tǒng),實際上你要的信息資源不是都已經(jīng)存在的、已經(jīng)記錄下來的、已經(jīng)收集整理。而是說,實際上你需要的信息資源,大部分還沒有存在,更沒有整理加工。其實我在將信息資源的認識上已經(jīng)講過,它實際上和物理世界是等量齊觀的。所以我們要解決一個問題,不管我們說舟山是要發(fā)展海洋信息化還是船舶工業(yè),發(fā)展要解決這些問題無論是在具體問題上還是在一般問題上,我們都會發(fā)現(xiàn)原來很多應該有的信息都還沒有。我們需要像勘探一樣去知道信息在哪里,變成可用的東西。變成可用的東西就是第二我們要采礦。至于采礦,對于信息化來說,一方面,有的地方,能夠收集到的地方要把它收集過來。沒有的,我們自己透過應有的方式去把它采集起來。但是,用勘探的方式,還是用調(diào)查的方式,還是用什么其他方式,把相應的東西收集過來這是采礦。采完了礦,原始的礦大家都知道,只有很少的東西,絕大部分是不能用的,必須經(jīng)過冶煉。鐵礦石經(jīng)過冶煉變成了不同種類的鋼筋,石油經(jīng)過冶煉變成了純凈油和不同的化工產(chǎn)品,實際上信息也是這樣。如何把它加工變成我們能用的東西。在這里面一定要記住特定的問題,因為信息它的多維性,是大數(shù)的多維性,是不可能把信息的可用性,按照可用性整理完,只能圍繞你的特定目的去進行加工整理,變成你的產(chǎn)品,變成甲醇、乙醇這樣的東西。這樣的東西,從工業(yè)角度、工業(yè)經(jīng)濟來看,它還不是消費品,但最終要讓它變成消費品。消費品以信息來說就是要可以繼續(xù)用下去,所以我們在座都是有特定目的,圍繞特定目的把這樣的東西和剛才說過的已經(jīng)加工過的、對應顆粒度結(jié)構(gòu)化的和應用的系統(tǒng)連接起來,就變成在你的工作系統(tǒng)里面,來解決你的判斷分析是否準確。
其實我們不管從制造業(yè)的自動化生產(chǎn)(EMS)到商業(yè)的電子商務到商業(yè)智能化到政務數(shù)據(jù)處理和決策判斷分析,基本上都是這樣的路徑和方式走過來。
最后講第三方面,信息資源開發(fā)利用的基本問題。剛才是一般性過程,沒有講具體問題,信息資源開發(fā)可以分成3大類。第一類是資源,把信息資源收集起來,然后用資源提供產(chǎn)品和服務,獲取它的收益和利潤。第二類是為資源公司和使用用戶提供不同工具,我們把它叫做工具公司。第三類是為各個機構(gòu)、個人作為用戶如何來使用資源。
第一類:今天有相當多的創(chuàng)新創(chuàng)業(yè)的公司,大體上屬于第一類。目前我們可以基本免費獲取大量信息資源的主渠道是互聯(lián)網(wǎng)。這一類公司不管原來為了某種功能還是原來就是信息資源,都在逐步走向資源類的公司,一定把資源類的公司把它作為發(fā)展目標,所以看到很多BAT,很多互聯(lián)網(wǎng)+的公司,不是+互聯(lián)網(wǎng)的公司?;ヂ?lián)網(wǎng)+和+互聯(lián)網(wǎng)是不一樣的。
資源類的公司主要做兩類事情。第一件事是足夠的內(nèi)容,為用戶提供服務。第二個是要有足夠的處理能力,足夠的處理能力包括兩個方面,第一個是存儲數(shù)據(jù),也就是說要把數(shù)據(jù)沉淀下來;第二個要進行加工,根據(jù)用戶對象給予結(jié)構(gòu)化,拓爾思原來講非結(jié)構(gòu)化數(shù)據(jù),這個提法其實是我不贊成的,非結(jié)構(gòu)化數(shù)據(jù)在用的時候其實你提供的是結(jié)構(gòu)化的數(shù)據(jù),結(jié)構(gòu)化到什么程度由用戶來抉擇。這個能力我們今天看到已經(jīng)發(fā)生一系列的改變,除了量的提升之外,我們的處理能力和結(jié)構(gòu)化水平都在提高。
第二類:量和類型是大數(shù)據(jù)的主要形式特征,這兩個東西疊加在一起就決定了原來的處理工具、方法需要改變。這個變化其實我們已經(jīng)看到了,如Hadoop、hbase一系列的工具和應用在出來,都在應對這樣的量、類型和應用需求做出改變。但是,今天如果我們對信息資源和材料資源作對比的話,差距是類似于蒸汽機剛剛發(fā)明的時候。我們對信息資源加工層面的工具水平類似于工業(yè)革命蒸汽機的水平,化學革命、電機還沒開始,更不用說到今天的納米技術(shù)。為什么這么說?因為對物質(zhì)和材料的利用實質(zhì)上是對物質(zhì)結(jié)構(gòu)的規(guī)律和原理是否把握,有沒有一種工具對其有效利用,所以當我們化學工業(yè)開始變化的時候,我們已經(jīng)把元素周期表摸清,利用元素周期表來看,什么樣的化學結(jié)構(gòu)會產(chǎn)生什么樣的變化,什么樣的化學結(jié)構(gòu)能給我們提供什么樣的材料,而這點,不管我們是oracle還是剛才提到的一系列工具,根本沒有做到這一點,連蒸汽機都是有點懷疑,只能說剛剛到蒸汽機水平。當我們再往后講納米技術(shù)的時候,即使已經(jīng)超越分子結(jié)構(gòu),在做原子排列,原子排列是物質(zhì)自然狀態(tài)下的重構(gòu),我們對信息本身來進行對原子級的重構(gòu),實際上信息的結(jié)構(gòu)和物質(zhì)的結(jié)構(gòu)是一樣的,也是由不同的顆粒度展開,我們今天對信息的顆粒度還沒有做到分子級、原子級,更沒有到原子級以下,我們的粒子加速器可以做的,所以說我們的工具今天已經(jīng)取得一定的進展,但由于理論跟不上,實際上還處于相對工業(yè)革命的蒸汽機時代,所以在這一方面我們大有可為,真正的革命性技術(shù)創(chuàng)新在這個領域,不再是集成電路、不再是傳感器,雖然它們十分重要,但是真正走向信息社會的革命性技術(shù)創(chuàng)新將在信息資源,我們看看現(xiàn)在的核能和納米技術(shù)帶來的變化,就知道信息還有多少的空間。
第三類:我們用戶,要用信息改善各方面的績效,不管是降低成本、提升效能、提高勞動生產(chǎn)力還是提高決策管理水平,也就是說我們要使我們現(xiàn)在做的各種工作,包括信息資源,這樣一種新的資源能夠績效更好,成效更好。這樣的時候怎么做,不要做第一類、也不要第二類公司的事情,而是要為特定的使用的目的來建符合使用的信息資源的河和小水庫,河是能和信息資源連接的軌道,是信息資源可以過來的管道。小水庫是專門為我的目的服務,所以第三類公司,核心問題你要什么先弄清楚,然后圍繞你要什么來做小水庫和河,水流、水庫,然后工具是戰(zhàn)略,為了你這個目的用的戰(zhàn)略。
(本文根據(jù)工信部原副部長楊學山先生在6月4日由信息社會50人論壇與國脈信息化發(fā)展研究中心在舟山舉辦的"2015中國互聯(lián)網(wǎng)+信息社會高端論壇"上的主旨演講整理,內(nèi)容未經(jīng)本人審核)