大數(shù)據(jù)時代如何做新聞_第1頁
大數(shù)據(jù)時代如何做新聞_第2頁
大數(shù)據(jù)時代如何做新聞_第3頁
大數(shù)據(jù)時代如何做新聞_第4頁
大數(shù)據(jù)時代如何做新聞_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

“大數(shù)據(jù)”時代如何做新聞?

一年前“大數(shù)據(jù)”還是少數(shù)專業(yè)人士使用的概念,華爾街日報在2012年1月曾刊出物理學(xué)家和工學(xué)院院長合作的文章《科技變革即將引領(lǐng)新的繁榮》,聲稱:2012年1月,人類正處于三場宏大技術(shù)變革的開端,即“大數(shù)據(jù)”、智能制造和無線網(wǎng)絡(luò)革命①。2月13日紐約時報網(wǎng)站即刊文《AgeofBigData》稱,“大數(shù)據(jù)時代”已經(jīng)來臨。而就在2012年,“大數(shù)據(jù)”概念在中國已經(jīng)普及至電子商務(wù)、經(jīng)濟戰(zhàn)略、政治建設(shè)等各個領(lǐng)域。在美國,2012年3月29日奧巴馬政府宣布投資2億美元啟動《“大數(shù)據(jù)”研究和發(fā)展計劃》,希望增強收集海量數(shù)據(jù)、集中提取知識和觀點的能力,加快在科學(xué)與工程中的步伐,加強國家安全,并改變教學(xué)研究。美國的大學(xué)開始培養(yǎng)新一代的“數(shù)據(jù)科學(xué)家”,數(shù)據(jù)分析也成為美國最熱門的職業(yè)領(lǐng)域之一。“大數(shù)據(jù)”與數(shù)據(jù)挖掘“大數(shù)據(jù)”(BigData,MassiveDatasets)一詞幾年前開始出現(xiàn),首先被世界IT大企業(yè)重視?!按髷?shù)據(jù)”是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合,其主要特點是海量、非結(jié)構(gòu)化和半結(jié)構(gòu)化、實時處理,業(yè)界將其歸納為4個“V”:Volume(數(shù)據(jù)量大),Variety(數(shù)據(jù)類型多樣),Velocity(處理速度快),Value(價值密度低)。“大數(shù)據(jù)”首先是數(shù)據(jù)量大:過去常用的千字節(jié)(KB),已經(jīng)升級為兆(MB)和吉(GB),甚至是太(TB),乃至拍(PB)。這不是簡單的數(shù)據(jù)增多,而是全新的問題,比如全球范圍內(nèi)的工業(yè)設(shè)備、汽車、電子儀表和裝運箱中,都有著無數(shù)的數(shù)字傳感器,這些傳感器能測量和交流位置、運動、震動、溫度和濕度等數(shù)據(jù),甚至還能測量空氣中的化學(xué)變化。②數(shù)據(jù)容量增長的速度大大超過了硬件技術(shù)的發(fā)展速度,引發(fā)了數(shù)據(jù)存儲和處理的危機?!按髷?shù)據(jù)”浪潮成了全球政治、經(jīng)濟、文化、社會的變革之引,它成了加速企業(yè)創(chuàng)新、引領(lǐng)社會變革的利器。2012年1月在瑞士達沃斯世界經(jīng)濟論壇上,“大數(shù)據(jù)”是討論的主題之一,論壇上發(fā)布的一份題為《“大數(shù)據(jù)”,大影響》(BigData,BigImpact)的報告宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣。聯(lián)合國推出了名為“全球脈動”(GlobalPulse)的新項目,進行所謂的“情緒分析”,使用自然語言解密軟件來對社交網(wǎng)站和文本消息中的信息作出分析,用來幫助預(yù)測某個指定地區(qū)的失業(yè)率、支出削減或是疾病爆發(fā)等現(xiàn)象,其目標在于利用數(shù)字化的早期預(yù)警信號來提前指導(dǎo)援助項目,以阻止某個地區(qū)重新陷入貧困等困境,促進全球經(jīng)濟發(fā)展。數(shù)據(jù)挖掘(DataMining),也稱為網(wǎng)絡(luò)挖掘(WebMining),斯坦福大學(xué)數(shù)年前就開設(shè)了一門課程“WebMining”并出版了講義《數(shù)據(jù)挖掘》(MiningofMassiveDatasets)③。數(shù)據(jù)挖掘是“通過仔細分析大量數(shù)據(jù)來揭示有意義的新的關(guān)系、趨勢和模式的過程?!雹苄侣劷缡菙?shù)據(jù)的重要應(yīng)用者,在互聯(lián)網(wǎng)時代媒體經(jīng)營、新聞實務(wù)等幾乎一切都離不開“大數(shù)據(jù)”、數(shù)據(jù)挖掘?!按髷?shù)據(jù)”時代大部分數(shù)據(jù)都是在自然環(huán)境下產(chǎn)生的,比如說網(wǎng)絡(luò)言論、圖片和視頻等網(wǎng)民自發(fā)上傳的內(nèi)容,以及來自于傳感器的數(shù)據(jù)等,即所謂的“非結(jié)構(gòu)化數(shù)據(jù)”,通常不能為傳統(tǒng)的數(shù)據(jù)庫所用。因此從互聯(lián)網(wǎng)時代非結(jié)構(gòu)化數(shù)據(jù)的龐大寶庫中獲得知識和洞察力的計算機工具正在迅速發(fā)展,目前已經(jīng)具備人工智能(AI)技術(shù),比如自然語言處理、模式識別和機器學(xué)習(xí)。傳媒運用數(shù)據(jù)挖掘彭博案例西方媒體對數(shù)據(jù)的運用越來越重視,出現(xiàn)了不少專門與數(shù)據(jù)打交道的記者,通過數(shù)據(jù)挖掘的方式進行新聞報道。他們在繁雜瑣碎的非結(jié)構(gòu)化數(shù)據(jù)之后,發(fā)現(xiàn)常規(guī)新聞中不能體現(xiàn)的邏輯,幫助讀者對新聞事件進行深度解讀。數(shù)據(jù)挖掘的新聞往往比傳統(tǒng)新聞報道更有力度,也對記者提出了更高的要求。這里以彭博社一個數(shù)據(jù)挖掘類的報道欄目“今日圖表”(ChartoftheDay)為例,解讀數(shù)據(jù)挖掘在新聞報道中的應(yīng)用。彭博新聞社依托其全球終端建立起來的海量的數(shù)據(jù)庫,使得記者進行數(shù)據(jù)挖掘非常得心應(yīng)手。彭博的“今日圖表”“這個欄目將彭博新聞、彭博數(shù)據(jù)與彭博分析整合起來”⑤,其深度、速度和靈活性都非常高,工作難度也很大。彭博主編MatthewWinkler聲稱這幾乎是競爭對手無法復(fù)制的欄目,至多能滯后些做出來。它通過圖表和簡單的事實而非說教來闡明道理,是彭博新聞“show,don'ttell”理念的體現(xiàn),是一種“簡單而優(yōu)雅的呈現(xiàn)觀點以及點燃想象力的”⑥方式?!敖袢請D表”的構(gòu)成有兩部分,一部分是由彭博制作的圖表,另一部分是一個4段至6段的文字報道。首先,記者或編輯從紛繁復(fù)雜的數(shù)據(jù)、報道中尋找靈感的過程。“今日圖表”靈感一般都來自最近發(fā)生的新聞。記者或編輯的“想象力,對數(shù)據(jù)的深入分析,每天的新聞標題,市場價格的異常變化,或者與分析師、投資者、經(jīng)濟學(xué)家的談話也能提供靈感”⑦。哪些數(shù)據(jù)值得挖掘?正在或剛發(fā)生的、讀者關(guān)注的重大新聞事件,通過用數(shù)據(jù)挖掘得出的不同視角,可以豐富讀者對事件的認知。彭博社很重視相關(guān)深度信息的呈現(xiàn),如下面幾例:2012年11月2日,“今日圖表”對過去10年在上海證券交易所交易的股票進行分析,自2002年11月至2012年10月,貴州茅臺酒業(yè)股票上漲高達3451%,市值從不到10億美元到今天的410億美元,成為世界第二大造酒公司(圖1以世界三大酒廠中的另外兩家作為對照)。由此引申,中國自2002年以來的經(jīng)濟發(fā)展,已經(jīng)造就了一個富裕階層,他們對奢侈品類的需求,刺激了相關(guān)消費,因此出現(xiàn)茅臺酒的大幅增長。而3451%的股價飆漲,對呈現(xiàn)中國經(jīng)濟的變化,非常有說服力。圖1世界三大造酒公司過去10年股價變化圖2中印兩國過去10年城鄉(xiāng)人口變化圖圖3中美兩國4家最大銀行市值對比2012年11月8日,彭博“今日圖表”對比了過去10年中印兩國城鄉(xiāng)人口的變化:中印兩國農(nóng)村人口幾乎都是7.8億,但經(jīng)過10年發(fā)展,有超過1億農(nóng)民進城,中國城市人口已超過農(nóng)村(見圖2)。同樣作為新興大國,中國的發(fā)展在城市化方面至少是遠超印度的,而城市化被作為衡量現(xiàn)代化的重要指標。2012年11月13日“今日圖表”對比了中國4家最大銀行與美國4家最大銀行的市值變化:自2006年10月,4家中國銀行的總市值超過美國同行,之后絕大多數(shù)時期,它們的市值一直都保持優(yōu)勢(見圖3)。彭博社通過分析,認為中國幾大銀行未來幾年還會保持優(yōu)勢。政府與銀行之間的關(guān)系的不同,就導(dǎo)致了兩國銀行獲利方式的區(qū)別;中國銀行的優(yōu)勢,是在過去10年的經(jīng)濟結(jié)構(gòu)調(diào)整和發(fā)展中逐漸形成的。數(shù)據(jù)挖掘也用于日常報道,從而對現(xiàn)實世界做出更深入的解釋。2012年10月,科技新聞提到聯(lián)想超越惠普,成為全球第一大個人電腦廠商。在移動設(shè)備風(fēng)生水起,個人電腦銷量下滑的今天,聯(lián)想成為第一有多大意義?彭博社以2004年底聯(lián)想和IBM簽合同為起點,對比了世界五大個人電腦生產(chǎn)商的股價變化,發(fā)現(xiàn)聯(lián)想股價在8年中上漲130%多,IBM的股價也提升了超過100%,而其他幾家電腦廠商卻有不同程度的下跌。這說明8年前聯(lián)想并購Thinkpad的決定,至少從資本市場來說,對雙方都是一個雙贏決定,并對其他電腦廠商造成了一定打擊。這樣的數(shù)字就很說明問題,也是對質(zhì)疑者的有力回應(yīng)。(見圖4)圖4全球5大電腦廠商過去8年股價變化如今男女平等的概念已深入人心,但是現(xiàn)實情況如何?2012年10月22日,“今日圖表”就做了一個有趣的數(shù)據(jù)挖掘,分析了全球最大的50家跨國企業(yè)董事會成員性別,結(jié)果發(fā)現(xiàn),事實與人們嘴上說的大相徑庭:在寶潔公司,女性占了45.5%的董事會席位,也是50家跨國巨頭中唯一女性董事超過40%的公司;而在三星、本田等公司,董事會竟全是男性。西方國家董事會女性比例高些,這可以解釋文化以及政策等多方面的情形。如何用有效的數(shù)據(jù)支撐數(shù)據(jù)挖掘?10年前,記者如想獲知許多國家的關(guān)鍵經(jīng)濟數(shù)據(jù),還只能通過打電話到相關(guān)統(tǒng)計部門,經(jīng)過繁瑣的過程后才能拿到。今天,網(wǎng)絡(luò)已經(jīng)使得世界各國的數(shù)據(jù)觸手可及,在類似彭博、路透及道瓊斯這樣的專業(yè)金融數(shù)據(jù)機構(gòu),這些數(shù)據(jù)更易獲取,歸類方式也更為合理。除了這些專業(yè)的金融數(shù)據(jù)機構(gòu)外,有很多途徑可以獲得相關(guān)數(shù)據(jù)。例如股票市場的數(shù)據(jù),在互聯(lián)網(wǎng)上幾乎都可以得到,因為每個上市公司都需要將隨時發(fā)生的重大調(diào)整上報相關(guān)股票交易所,也需要每季度對外公開財報,這些數(shù)據(jù)都隨時可查證。從彭博報道提及的信源看,有相當?shù)臄?shù)據(jù)都是外部機構(gòu)發(fā)布的,記者只是根據(jù)報道需求去尋找數(shù)據(jù)。極少數(shù)難以直接獲取的數(shù)據(jù),可以請數(shù)據(jù)專家?guī)兔ΑW钪匾?,依然是對?shù)據(jù)的解讀方式和切入點。媒體經(jīng)營如何使用“大數(shù)據(jù)”?英國衛(wèi)報網(wǎng)站2012年9月發(fā)表法國數(shù)字集團ePresse總經(jīng)理FrédéricFilloux文章《數(shù)字新聞讀者的“大數(shù)據(jù)”蘊藏巨大價值》稱,其他行業(yè)得以有效利用的“大數(shù)據(jù)”,同樣適用于數(shù)字媒體行業(yè),讀者的“大數(shù)據(jù)”蘊藏著尚未被挖掘的巨大價值,行為數(shù)據(jù)可用于使得新聞服務(wù)更能吸引讀者,并為內(nèi)容發(fā)行商帶來更大的收益。數(shù)字發(fā)行的價值被嚴重低估,很多數(shù)字內(nèi)容發(fā)行商都無法留住讀者,讀者的個人資料和其瀏覽的內(nèi)容,以及它們與互聯(lián)網(wǎng)“噪音”之間有怎么樣的對比?這些是尚未被挖掘的最大價值來源。如何使用無法被傳統(tǒng)數(shù)據(jù)庫管理工具吸收和分析的龐“大數(shù)據(jù)”集?其他行業(yè)的實踐也許可以給予借鑒。通過強大的數(shù)據(jù)挖掘技術(shù),美國超市連鎖店塔吉特(Target)能夠查出哪些顧客到了懷孕的第三個月,那是他們消費習(xí)慣中的一個重要時段?!肮雀枇鞲汹厔荨?GoogleFluTrends)對流感爆發(fā)的追蹤比任何政府機構(gòu)做得都要好。Google的搜索和廣告業(yè)務(wù)及其實驗中的機器人汽車,便利用了大量人工智能技術(shù),它們對數(shù)量龐大的數(shù)據(jù)進行分析,并作出即時的決策。蘋果公司在2010年收購的Siri網(wǎng)站,就在變成一種日益成熟的“個人助理——它能向用戶提供提醒服務(wù)、天氣預(yù)報、餐飲建議和對用戶提出的大量問題作出解答等。數(shù)據(jù)挖掘技術(shù)能夠用于從數(shù)字新聞中提取更多的價值?;ヂ?lián)網(wǎng)目前已經(jīng)能夠提供了解各類數(shù)據(jù)的必需工具,如誰在訪問網(wǎng)站、他們喜歡什么等等,從中可以更加準確地了解用戶和預(yù)測他們的需求,增進對讀者的了解,從而推送甚至定制更契合需要的新聞、服務(wù)信息、精準的廣告。本文的合作者劉少華,為清華大學(xué)新聞與傳播學(xué)院碩士研究生注釋:①MarkP.MillsandJulioM.Ottino,TheComingTech-ledBoom,TheWallStreetJournal,Jan.30,2012.②本段落及以下3段,參引:TheAgeofBigData,TheNewYorkTimes,Feb.12.2012,/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=all

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論