讀徐子沛《大數(shù)據(jù)》有感_第1頁
讀徐子沛《大數(shù)據(jù)》有感_第2頁
讀徐子沛《大數(shù)據(jù)》有感_第3頁
讀徐子沛《大數(shù)據(jù)》有感_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

讀徐子沛《大數(shù)據(jù)》有感如果要問當(dāng)今什么技術(shù)最為火熱,我想毫無疑問大數(shù)據(jù)必然是熱門答案之一。那么什么是大數(shù)據(jù)呢?大數(shù)據(jù)(bigdata),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。(摘自百度百科)大數(shù)據(jù)之所以產(chǎn)生,是因為今天無處不在的傳感器和微處理器。我們正在邁進(jìn)普適計算的時代。數(shù)據(jù)正在里指數(shù)級增長。之所以增長速度如此之快,背后有許多原因?,F(xiàn)在幾乎所有數(shù)據(jù)的產(chǎn)生形式,都是數(shù)字化的。各種傳感器的劇增,高清晰度的圖像和視頻,都是數(shù)據(jù)爆炸的原因。如何處理這樣海量的數(shù)據(jù),并且從其中挖掘出有價值的內(nèi)容是擺在科技公司和政府面前的一道難題。任何一個組織,要抓住大數(shù)據(jù)的機(jī)遇,就必須做好幾個方面的工作。從技術(shù)角度來看,首先要收集并且開發(fā)特定的工具,來管理大規(guī)模并行服務(wù)器產(chǎn)生的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù),可能是自己專有的,也可能來源于〃云〃。其次,每一個組織都需要選定分析軟件,用它來挖掘數(shù)據(jù)的意義。但可能最重要的是,任何組織都需要人才來管理和分析大數(shù)據(jù)。這些人被稱為〃數(shù)據(jù)科學(xué)家他們集黑客和定量分析員的優(yōu)勢和特長于一身,非常短缺。聰明的領(lǐng)導(dǎo)人,將想方設(shè)法留住這類人才。與此同時大量的基礎(chǔ)設(shè)施建設(shè)一樣重要,且不提大數(shù)據(jù)的處理需要大量高性能的計算機(jī),光是儲存這些數(shù)據(jù)就需要極為大量的存儲設(shè)備,所以基建也是極為重要的一個環(huán)節(jié)。在徐子沛老師的《大數(shù)據(jù)》一書中從美國政府的角度作為切入點,通過一系列實例深入分析了大數(shù)據(jù)的政府運作、實踐成果。書中首先提到了奧巴馬政府倡導(dǎo)信息公開透明,在上任之初便大力推行信息的公開化和透明化。信息之與民主,就如貨幣之于經(jīng)濟(jì)。受美國國家文化影響,美國人民對于信息的知情權(quán)的重視程度幾近對于槍支自由的執(zhí)著。在2010年的<<規(guī)劃數(shù)字化的未來:美國總統(tǒng)科學(xué)技術(shù)顧問委員會給總統(tǒng)和國會的報告》中提到:如何收集、管理和分析數(shù)據(jù)正在日漸成為我們網(wǎng)絡(luò)信息技術(shù)研究的重中之重。以機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘為基礎(chǔ)的高級數(shù)據(jù)分析技術(shù),將促進(jìn)從數(shù)據(jù)到知識的轉(zhuǎn)化、從知識到行動的跨越。聯(lián)邦政府的每一個機(jī)構(gòu)和部門,都需要制定一個應(yīng)對〃大數(shù)據(jù)〃(BigData)的戰(zhàn)略。對于具體如何處理數(shù)據(jù)方面而言,必然離不開兩個方面,一個是數(shù)據(jù)本身,另一個則是處理這些紛雜數(shù)據(jù)的程序。程序和數(shù)據(jù)的關(guān)系,就好像發(fā)動機(jī)和燃料,所有的程序,都是靠數(shù)據(jù)驅(qū)動的;數(shù)據(jù)之于程序,又好比血液之于人體,一旦血液停止流動,人就失去了生命,代碼也將停止運行。數(shù)據(jù)的生命力,甚至比程序更持久。程序可以不停地升級、換代甚至退出使用,但保存數(shù)據(jù)的數(shù)據(jù)庫卻會繼續(xù)存在,其價值很可能與日俱增、歷久彌新。書中提到一個非常有意思的例子:勞工統(tǒng)計局在1997年開展的青少年縱向調(diào)查。它眼蹤調(diào)查的對象雖然是青少年本身,但受訪人、問卷人卻可以是家長、老師、雇主等等和該青少年密切相關(guān)的個人和群體,每次問卷都有數(shù)十個問題,需要受訪人1小時左右才能完成。因為付出了時間,受訪人在完成問卷之后,能獲得8到20美元不等的報酬。同樣的問題,也可能在不同的年份、在相同受訪人員的問卷中重復(fù)出現(xiàn),以測試受訪人態(tài)度的變化。隨著數(shù)據(jù)的積累,一幅以個人成長為中心、越來越大的社會畫卷也開始展開。這種以一個國家為單位的大型社會調(diào)查,是研究一個社會長期變遷不可或缺的重要資源,也為政策的制定、調(diào)整和評價提供了重要的參考和依據(jù)。這些原始的數(shù)據(jù)積累,不但在時間的橫向上具有相當(dāng)高的參考價值,在個人為背景的縱向上也可以一定程度上展示社會的經(jīng)濟(jì),教育等方面的長期變遷。通過不同的數(shù)據(jù)組合對比可以得出多樣化,多層次,多角度的綜合結(jié)論,這對于政府在政策制定和規(guī)劃上有著極為重要的促進(jìn)作用。僅僅在2000年的時候,全世界全部的存儲信息中還只有1/4是數(shù)字化的,其余的都保存在紙張、膠片和其他模擬介質(zhì)上。但是由于數(shù)字?jǐn)?shù)據(jù)數(shù)量的增長十分迅速一一幾乎每三年就翻一番,這種情形很快發(fā)生了逆轉(zhuǎn)。今天,在所有存儲信息中只有不到2%是非數(shù)字化的??梢杂脭?shù)據(jù)爆炸來形容目前的數(shù)據(jù)增長情況。數(shù)據(jù)爆炸體現(xiàn)在三個方面:一是同一類型的數(shù)據(jù)量在快速增大;二是數(shù)據(jù)增長的速度在加快;三是數(shù)據(jù)的多樣性,即新的數(shù)據(jù)來源和新的數(shù)據(jù)種類在不斷增加。對于爆炸的數(shù)據(jù)急需國家層面出臺相關(guān)政策引導(dǎo)發(fā)展已經(jīng)成為共識。大數(shù)據(jù)已經(jīng)成為國家和政府層面的發(fā)展戰(zhàn)略,通過大數(shù)據(jù)的交換、整合、分析和使用,人類可以發(fā)現(xiàn)新的知識和規(guī)律,創(chuàng)造新的價值和內(nèi)容,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”。愛德華?戴明是享有世界聲譽(yù)的美國統(tǒng)計學(xué)家、管理學(xué)家,也是質(zhì)量管理理論的奠基人。曾為日本的經(jīng)濟(jì)崛起立下了豐功偉績。他有一句名言說:〃我們信靠上帝。除了上帝,任何人都必須用數(shù)據(jù)來說話?!S著大數(shù)據(jù)時代的不斷深入,各個政府部門都在嘗試〃用數(shù)據(jù)來決策〃、〃用數(shù)據(jù)來管理〃、〃用數(shù)據(jù)來創(chuàng)新”。最直接的成果是:通過數(shù)據(jù)的分析、收集以及發(fā)布,美國建立起了一套高效的交通安全系統(tǒng),最直接的結(jié)果就是:從1966年美國僅有1.01億注冊駕駛員、0.94億機(jī)動車輛到2009年,駕駛員上升到2.1億,機(jī)動車量增加到2.46億,人口和車輛的數(shù)量、密度都成倍增長,車輛的使用頻率也大幅增加,但交通事故的死亡人數(shù)卻不升反降,而且幅度顯著:由5萬多人下降到3萬多人。與此同時,大數(shù)據(jù)的應(yīng)用,不僅僅是在交通方面大展拳腳,在數(shù)據(jù)打假,醫(yī)療統(tǒng)計,治安管理,商務(wù)智能,數(shù)據(jù)倉庫上也頗有效果。以數(shù)據(jù)倉庫為例,數(shù)據(jù)倉庫是商務(wù)智能的依托,是對海量數(shù)據(jù)進(jìn)行分析的核心物理構(gòu)架。它可以形象地理解為一種格式一致的多源數(shù)據(jù)存儲中心,數(shù)據(jù)源可以來自多個不同的系統(tǒng),如企業(yè)內(nèi)部的財務(wù)系統(tǒng)、客戶管理系統(tǒng)、人力資源系統(tǒng),甚至是企業(yè)外部的系統(tǒng);這些系統(tǒng),即使運行的平臺不同、編制的語言不同、所處的物理位置不同,但其數(shù)據(jù)可以按統(tǒng)一定義的格式被提取出來,再通過清洗、轉(zhuǎn)換、集成,最后百流歸海,加載進(jìn)入數(shù)據(jù)倉庫。使用數(shù)據(jù)倉庫對于企業(yè)、政府來說每年節(jié)省的經(jīng)費都是上千萬、上億級別的。然而,雖然大數(shù)據(jù)的廣泛研究與應(yīng)用有著無可比擬的優(yōu)勢,但是一個硬幣必然有兩面。相信、使用數(shù)據(jù)已經(jīng)成為聯(lián)邦政府(美國)的共識,在一些法則和制度之下,美國將這些數(shù)據(jù)行之有效地利用起來。然而所有事情必然有其兩面性,數(shù)據(jù)被廣泛利用所帶來的負(fù)面影響:《數(shù)據(jù)質(zhì)量法》被不法分子濫用,被商業(yè)公司用作保障利益的工具。同樣的問題也體現(xiàn)在個人隱私問題上。911事件發(fā)生前,美國民眾對政府侵犯隱私極為敏感,一戰(zhàn)之后政府曾多次提出制定公民身份識別系統(tǒng),除一戰(zhàn)爆發(fā)、珍珠港事件爆發(fā)后的短期內(nèi),民眾予以支持外,其他時間均受到民眾極力地反對,僅通過了戰(zhàn)時對個別族裔、外國人身份的監(jiān)管方案。然而在911事件發(fā)生后,布什政府于2001年9月24日向國會提交《愛國者法案》,該法案要求限制公眾獲取政府信息的廣度,提高政府控制、檢查個人信息的范圍。該法案的通過使得警察、情報機(jī)關(guān)有權(quán)在未經(jīng)法院許可的情況下竊聽公民電話、檢查公民電子郵件、財務(wù)信息甚至圖書館借閱紀(jì)錄。2002年11月,《2002國土安全法》通過,該法案中重新提出了中央數(shù)據(jù)銀行計劃一一萬維信息觸角計劃,為執(zhí)行該法案,首期撥款2億美元,并設(shè)立了專門的機(jī)構(gòu)負(fù)責(zé)實施。此后該系統(tǒng)常被濫用于非反恐事項,累計90余名警察因此被捕。2003年2月23日,國會對年度撥款進(jìn)行投票,一名參議院要求國防部、國家安全局、司法部對該項目進(jìn)行調(diào)查并提交聯(lián)合調(diào)查報告,否則終止對該項目的撥款。期間美國公民自由聯(lián)盟ACLU公布獨立調(diào)查報告稱:911的發(fā)生,并非政府缺乏信息,而是政府部門間信息溝通不暢,對情報的分析能力不強(qiáng)。2003年8月,國會通過新法案,終止該項目的開發(fā),還規(guī)定沒有國會授權(quán),不得對美國公民的數(shù)據(jù)進(jìn)行挖掘,只能使用外國人的數(shù)據(jù)和信息。在中央數(shù)據(jù)銀行的問題上分為鮮明的兩派,一派支持對建立中央數(shù)據(jù)銀行,認(rèn)為統(tǒng)一管理數(shù)據(jù)不僅能節(jié)省運營成本、提高數(shù)據(jù)的準(zhǔn)確性和查詢的效率,還將更好地保障數(shù)據(jù)安全;二另一派則強(qiáng)烈反對數(shù)據(jù)銀行,正如《紐約時報》著名記者者、隱私權(quán)專家帕卡德(VancePackard)的文章《不能告訴計算機(jī))),他寫道:"當(dāng)政府把我們每一個人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論