版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
網(wǎng)絡(luò)大數(shù)據(jù)科學(xué)與應(yīng)用研究
1總結(jié)1.1網(wǎng)絡(luò)大數(shù)據(jù)與數(shù)字地形分析近年來,隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、三維互聯(lián)等科學(xué)技術(shù)的快速發(fā)展,數(shù)據(jù)的快速增長是許多行業(yè)面臨的嚴(yán)峻挑戰(zhàn)和寶貴機(jī)遇。因此,信息社會(huì)進(jìn)入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)的出現(xiàn)不僅改變了人們的生活和工作方式,也改變了科學(xué)和技術(shù)的基本變化。一般意義上,大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)機(jī)器和軟硬件工具對其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合.網(wǎng)絡(luò)大數(shù)據(jù)是指“人、機(jī)、物”三元世界在網(wǎng)絡(luò)空間(Cyberspace)中彼此交互與融合所產(chǎn)生并在互聯(lián)網(wǎng)上可獲得的大數(shù)據(jù),簡稱網(wǎng)絡(luò)數(shù)據(jù).當(dāng)前,網(wǎng)絡(luò)大數(shù)據(jù)在規(guī)模與復(fù)雜度上的快速增長對現(xiàn)有IT架構(gòu)的處理和計(jì)算能力提出了挑戰(zhàn).據(jù)著名咨詢公司IDC發(fā)布的研究報(bào)告,2011年網(wǎng)絡(luò)大數(shù)據(jù)總量為1.8ZB,預(yù)計(jì)到2020年,總量將達(dá)到35ZB.IBM將大數(shù)據(jù)的特點(diǎn)總結(jié)為3個(gè)V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity).首先,網(wǎng)絡(luò)空間中數(shù)據(jù)的體量不斷擴(kuò)大,數(shù)據(jù)集合的規(guī)模已經(jīng)從GB、TB到了PB,而網(wǎng)絡(luò)大數(shù)據(jù)甚至以EB和ZB(1021)等單位來計(jì)數(shù).IDC的研究報(bào)告稱,未來十年全球大數(shù)據(jù)將增加50倍,管理數(shù)據(jù)倉庫的服務(wù)器的數(shù)量將增加10倍以迎合50倍的大數(shù)據(jù)增長(1).其次,網(wǎng)絡(luò)大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù).在現(xiàn)代互聯(lián)網(wǎng)應(yīng)用中,呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長的特點(diǎn),至2012年末非結(jié)構(gòu)化數(shù)據(jù)占有比例達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的75%以上.這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等新技術(shù)的不斷涌現(xiàn)和應(yīng)用.再次,網(wǎng)絡(luò)大數(shù)據(jù)往往呈現(xiàn)出突發(fā)涌現(xiàn)等非線性狀態(tài)演變現(xiàn)象,因此難以對其變化進(jìn)行有效評估和預(yù)測.另一方面,網(wǎng)絡(luò)大數(shù)據(jù)常常以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性,用戶只有把握好對數(shù)據(jù)流的掌控才能充分利用這些數(shù)據(jù).近幾年,網(wǎng)絡(luò)大數(shù)據(jù)越來越顯示出巨大的影響作用,正在改變著人們的工作與生活.2012年11月《時(shí)代》雜志撰文指出奧巴馬總統(tǒng)連任成功背后的秘密,其中的關(guān)鍵是對過去兩年來相關(guān)網(wǎng)絡(luò)數(shù)據(jù)的搜集、分析和挖掘(2).目前,eBay的分析平臺(tái)每天處理的數(shù)據(jù)量高達(dá)100PB,超過了納斯達(dá)克交易所每天的數(shù)據(jù)處理量.為了準(zhǔn)確分析用戶的購物行為,eBay定義了超過500種類型的數(shù)據(jù),對顧客的行為進(jìn)行跟蹤分析(3).2012年的雙十一,中國互聯(lián)網(wǎng)再次發(fā)生了最大規(guī)模的商業(yè)活動(dòng):淘寶系網(wǎng)站的銷售總額達(dá)到191億元人民幣.淘寶之所以能應(yīng)對如此巨大的交易量和超高并發(fā)性的分析需求,得益于其對往年的情況,特別是用戶的消費(fèi)習(xí)慣、搜索習(xí)慣以及瀏覽習(xí)慣等數(shù)據(jù)所進(jìn)行的綜合分析(4).網(wǎng)絡(luò)大數(shù)據(jù)給學(xué)術(shù)界也同樣帶來了巨大的挑戰(zhàn)和機(jī)遇.網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)作為信息科學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)和系統(tǒng)科學(xué)等相關(guān)領(lǐng)域交叉的新興學(xué)科方向正逐步成為學(xué)術(shù)研究的新熱點(diǎn).近年,《Nature》和《Science》等刊物相繼出版??瘉硖接憣Υ髷?shù)據(jù)的研究.2008年《Nature》出版的??癇igData”,從互聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)經(jīng)濟(jì)學(xué)、超級計(jì)算、環(huán)境科學(xué)和生物醫(yī)藥等多個(gè)方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn).2011年《Science》推出關(guān)于數(shù)據(jù)處理的專刊“DealingwithData”,討論了數(shù)據(jù)洪流(DataDeluge)所帶來的機(jī)遇.特別指出,倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機(jī)會(huì)發(fā)揮科學(xué)技術(shù)對社會(huì)發(fā)展的巨大推動(dòng)作用.1.2結(jié)論與展望:網(wǎng)絡(luò)數(shù)據(jù)的未來研究方向和主要研究方向總體而言,網(wǎng)絡(luò)大數(shù)據(jù)研究的重要性體現(xiàn)在以下幾個(gè)方面:(1)網(wǎng)絡(luò)大數(shù)據(jù)的研究對捍衛(wèi)國家網(wǎng)絡(luò)空間的數(shù)字主權(quán),維護(hù)社會(huì)穩(wěn)定,推動(dòng)社會(huì)與經(jīng)濟(jì)可持續(xù)發(fā)展有著獨(dú)特的作用.信息化時(shí)代,國家層面的競爭力將部分體現(xiàn)為一國擁有網(wǎng)絡(luò)大數(shù)據(jù)的規(guī)模、活性以及對數(shù)據(jù)的解釋與運(yùn)用的能力.國家在網(wǎng)絡(luò)空間的數(shù)字主權(quán)也將是繼海、陸、空、天四空間之后另一個(gè)大國博弈的空間.在網(wǎng)絡(luò)大數(shù)據(jù)領(lǐng)域的落后,意味著失守產(chǎn)業(yè)戰(zhàn)略制高點(diǎn),意味著國家安全將在網(wǎng)絡(luò)空間出現(xiàn)漏洞.為此,今年3月,美國政府整合6個(gè)部門投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”.在該計(jì)劃中,美國國家科學(xué)基金會(huì)提出要“形成一個(gè)包括數(shù)學(xué)、統(tǒng)計(jì)基礎(chǔ)和計(jì)算機(jī)算法的獨(dú)特學(xué)科”.該計(jì)劃還強(qiáng)調(diào),大數(shù)據(jù)技術(shù)事關(guān)美國的國家安全,影響科學(xué)研究的步伐,還將引發(fā)教育和學(xué)習(xí)的變革.這意味著網(wǎng)絡(luò)大數(shù)據(jù)的主權(quán)已上升為國家意志,直接影響國家和社會(huì)的穩(wěn)定,事關(guān)國家的戰(zhàn)略安全.(2)網(wǎng)絡(luò)大數(shù)據(jù)是國民經(jīng)濟(jì)核心產(chǎn)業(yè)信息化升級的重要推動(dòng)力量.“人、機(jī)、物”三元世界的融合產(chǎn)生了大規(guī)模的數(shù)據(jù),如何感知、測量、利用這些網(wǎng)絡(luò)大數(shù)據(jù)成為國民經(jīng)濟(jì)中許多行業(yè)面臨的共同難題,成為這些行業(yè)數(shù)字化、信息化的障礙和藩籬.如何使不同行業(yè)都能突破這一障礙,關(guān)鍵在于對網(wǎng)絡(luò)大數(shù)據(jù)基本共性問題的解決.譬如,對于非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一表示與分析,目前缺少有效的方法和工具.因此,通過對網(wǎng)絡(luò)大數(shù)據(jù)共性問題的分析和研究,使企業(yè)能夠掌握網(wǎng)絡(luò)大數(shù)據(jù)的處理能力或者能夠承受網(wǎng)絡(luò)大數(shù)據(jù)處理的成本與代價(jià),進(jìn)而使整個(gè)行業(yè)邁入數(shù)字化與信息化的新階段.在這個(gè)意義上,對網(wǎng)絡(luò)大數(shù)據(jù)基礎(chǔ)共性問題的解決將是新一代信息技術(shù)融合應(yīng)用的新焦點(diǎn),是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎,也是行業(yè)用戶提升競爭能力的新動(dòng)力.(3)網(wǎng)絡(luò)大數(shù)據(jù)在科學(xué)和技術(shù)上的突破,將可能誕生出數(shù)據(jù)服務(wù)、數(shù)據(jù)材料、數(shù)據(jù)制藥等戰(zhàn)略性新興產(chǎn)業(yè).網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)的突破意味著人們能夠理清數(shù)據(jù)交互連接產(chǎn)生的復(fù)雜性,掌握數(shù)據(jù)冗余與缺失雙重特征引起的不確定性,駕馭數(shù)據(jù)的高速增長與交叉互連引起的涌現(xiàn)性(Emergence),進(jìn)而能夠根據(jù)實(shí)際需求從網(wǎng)絡(luò)數(shù)據(jù)中挖掘出其所蘊(yùn)含的信息、知識甚至是智慧,最終達(dá)到充分利用網(wǎng)絡(luò)數(shù)據(jù)價(jià)值的目的.涌現(xiàn)性是指由低層次的多個(gè)元素構(gòu)成高層次的系統(tǒng)時(shí)展示出的每個(gè)單一元素所不具備的性質(zhì).網(wǎng)絡(luò)數(shù)據(jù)不再是產(chǎn)業(yè)環(huán)節(jié)上產(chǎn)生的副產(chǎn)品,相反地,網(wǎng)絡(luò)數(shù)據(jù)已成為聯(lián)系各個(gè)環(huán)節(jié)的關(guān)鍵紐帶.通過對網(wǎng)絡(luò)數(shù)據(jù)紐帶的分析與掌握,可以降低行業(yè)成本、促進(jìn)行業(yè)效率、提升行業(yè)生產(chǎn)力.因此,可以預(yù)見,在網(wǎng)絡(luò)數(shù)據(jù)的驅(qū)動(dòng)下,行業(yè)模式的革新將可能催生出數(shù)據(jù)材料、數(shù)據(jù)制造、數(shù)據(jù)能源、數(shù)據(jù)制藥等一系列戰(zhàn)略性的新興產(chǎn)業(yè).(4)大數(shù)據(jù)引起了學(xué)術(shù)界對科學(xué)研究方法論的重新審視,正在引發(fā)科學(xué)研究思維與方法的一場革命.科學(xué)研究最初只有實(shí)驗(yàn)科學(xué),隨后出現(xiàn)了理論科學(xué),研究各種定律和定理.由于在許多問題上,理論分析方法變得太過復(fù)雜以至于難以解決難題,人們開始尋求模擬的方法,這又產(chǎn)生了計(jì)算科學(xué).而大數(shù)據(jù)的出現(xiàn)催生了一種新的科研模式,即面對大數(shù)據(jù),科研人員只需從數(shù)據(jù)中直接查找、分析或挖掘所需要的信息、知識和智慧,甚至無需直接接觸需研究的對象.2007年,已故的圖靈獎(jiǎng)得主吉姆格雷(JimGray)在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“第四范式”(TheFourthParadigm),把數(shù)據(jù)密集型科學(xué)從計(jì)算科學(xué)中單獨(dú)區(qū)分開來.格雷認(rèn)為,要解決我們面臨的某些最棘手的全球性挑戰(zhàn),“第四范式”可能是唯一具有系統(tǒng)性的方法.網(wǎng)絡(luò)大數(shù)據(jù)的深挖掘、大規(guī)模利用是新興產(chǎn)業(yè)界的立足點(diǎn).即便針對大數(shù)據(jù)的研究目前還沒有建立一套完整的理論體系,也缺少高效快速的處理、分析與挖掘的算法與范式,但大數(shù)據(jù)的應(yīng)用前景毋庸置疑,因?yàn)榇髷?shù)據(jù)從根本上來說就是來源于應(yīng)用的問題.著名出版公司O’Reilly的創(chuàng)始人TimO’Reilly斷言,大數(shù)據(jù)就是下一個(gè)IntelInside,未來屬于那些能把數(shù)據(jù)轉(zhuǎn)換為產(chǎn)品的公司和人群.MGI的研究報(bào)告也宣稱,大數(shù)據(jù)是下一代革新、競爭力和生產(chǎn)力的先導(dǎo),網(wǎng)絡(luò)大數(shù)據(jù)可為世界經(jīng)濟(jì)創(chuàng)造巨大價(jià)值,提高企業(yè)和公共部門的生產(chǎn)率和競爭力,并為消費(fèi)者創(chuàng)造巨大的經(jīng)濟(jì)利益.Gartner公司則更具體地預(yù)測,到2015年,采用大數(shù)據(jù)和海量信息管理的公司將在各項(xiàng)財(cái)務(wù)指標(biāo)上,超過未做準(zhǔn)備的競爭對手20%.本文梳理了網(wǎng)絡(luò)大數(shù)據(jù)所帶來的挑戰(zhàn)以及相關(guān)的研究體系,從網(wǎng)絡(luò)空間感知與數(shù)據(jù)表示、網(wǎng)絡(luò)大數(shù)據(jù)存儲(chǔ)與管理體系、網(wǎng)絡(luò)數(shù)據(jù)挖掘和社會(huì)計(jì)算以及網(wǎng)絡(luò)數(shù)據(jù)平臺(tái)系統(tǒng)與應(yīng)用4個(gè)方面回顧了相關(guān)領(lǐng)域的新近發(fā)展,探討了網(wǎng)絡(luò)大數(shù)據(jù)研究方向和所面臨的挑戰(zhàn),并展望了未來的主要研究方向.2網(wǎng)絡(luò)大數(shù)據(jù)的研究方向和應(yīng)用前景如上所述,網(wǎng)絡(luò)大數(shù)據(jù)面臨著來自諸多方面的挑戰(zhàn).但從研究的角度來說,根本挑戰(zhàn)在于其復(fù)雜性、不確定性和涌現(xiàn)性.對這3個(gè)基本特性的研究決定著網(wǎng)絡(luò)大數(shù)據(jù)的發(fā)展趨勢、研究進(jìn)展和應(yīng)用前景.2.1非結(jié)構(gòu)化數(shù)據(jù)在網(wǎng)絡(luò)數(shù)據(jù)處理中的應(yīng)用復(fù)雜性造成網(wǎng)絡(luò)大數(shù)據(jù)存儲(chǔ)、分析、挖掘等多個(gè)環(huán)節(jié)的困難.網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜性主要包括數(shù)據(jù)類型的復(fù)雜性、數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性和數(shù)據(jù)內(nèi)在模式的復(fù)雜性.信息技術(shù)的發(fā)展使得數(shù)據(jù)產(chǎn)生的途徑不斷增加,數(shù)據(jù)類型持續(xù)增多.相應(yīng)地,則需要開發(fā)新的數(shù)據(jù)采集、存儲(chǔ)與處理技術(shù).例如社交網(wǎng)絡(luò)的興起,使得微博、SNS個(gè)人狀態(tài)信息等短文本數(shù)據(jù)逐漸成為互聯(lián)網(wǎng)上的主要信息傳播媒介.與傳統(tǒng)的長文本不同,短文本由于長度短,上下文信息和統(tǒng)計(jì)信息很少,給傳統(tǒng)的文本挖掘(如檢索、主題發(fā)現(xiàn)、語義和情感分析等)帶來很大的困難.相關(guān)的研究包括利用外部數(shù)據(jù)源(如Wikipedia、搜索結(jié)果等)擴(kuò)充文檔,或者利用內(nèi)部相似文檔信息來擴(kuò)充短文本的表達(dá).然而,無論是利用外部數(shù)據(jù),還是利用內(nèi)部數(shù)據(jù),都可能引入更多的噪聲.另一方面,不同數(shù)據(jù)類型的有機(jī)融合給傳統(tǒng)的數(shù)據(jù)處理方法帶來了新的挑戰(zhàn).例如在社交媒體的研究當(dāng)中地域信息與內(nèi)容的融合、時(shí)空信息與內(nèi)容信息的結(jié)合等等.傳統(tǒng)上處理的數(shù)據(jù)對象都是有結(jié)構(gòu)的,能夠存儲(chǔ)到關(guān)系數(shù)據(jù)庫中.但隨著數(shù)據(jù)生成方式的多樣化,如社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等技術(shù),非結(jié)構(gòu)化數(shù)據(jù)成為大數(shù)據(jù)的主流形式.非結(jié)構(gòu)化數(shù)據(jù)具有許多格式,包括文本、文檔、圖形、視頻等等.非結(jié)構(gòu)化數(shù)據(jù)當(dāng)中蘊(yùn)含著豐富的知識,但其異構(gòu)和可變的性質(zhì)也給數(shù)據(jù)分析與挖掘工作帶來了更大的挑戰(zhàn).與結(jié)構(gòu)化的數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)相對組織凌亂,包含更多的無用信息,給數(shù)據(jù)的存儲(chǔ)與分析帶來很大的困難.目前相關(guān)的研究熱點(diǎn),包括開發(fā)非關(guān)系型數(shù)據(jù)庫(如Google的BigTable,開源的HBase等)來存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù).Google提出了MapReduce計(jì)算框架,Yahoo!、Facebook等公司在此基礎(chǔ)上實(shí)現(xiàn)了Hadoop、Hive之類的分布式架構(gòu),對非結(jié)構(gòu)化數(shù)據(jù)做基本的分析工作.國內(nèi)各大公司和科研單位也啟動(dòng)了用于支撐非結(jié)構(gòu)化處理的基礎(chǔ)設(shè)施研發(fā),如百度的云計(jì)算平臺(tái)、中國科學(xué)院計(jì)算技術(shù)研究所的凌云(LingCloud)系統(tǒng)等.隨著數(shù)據(jù)規(guī)模的增大,描述和刻畫數(shù)據(jù)的特征必然隨之增大,而由其組成的數(shù)據(jù)內(nèi)在模式將會(huì)以指數(shù)形式增長.首先,數(shù)據(jù)類型的多樣化決定了數(shù)據(jù)模式的多樣化.不僅需要熟悉各種類型的數(shù)據(jù)模式,同時(shí)也要善于把握它們之間的相互作用.這種面向多模式學(xué)習(xí)的研究需要綜合利用各個(gè)方面的知識(如文本挖掘、圖像處理、信息網(wǎng)絡(luò)、甚至社會(huì)學(xué)等等).為此,Sun提出用網(wǎng)絡(luò)來描述異質(zhì)數(shù)據(jù)間的關(guān)系,同時(shí)提出了“元路徑(Meta-Path)”的概率來刻畫目標(biāo)數(shù)據(jù)模式.這樣,通過定義合適的元路徑,便可在數(shù)據(jù)網(wǎng)絡(luò)中挖掘有價(jià)值的模式.其次,非結(jié)構(gòu)化的數(shù)據(jù)通常比結(jié)構(gòu)化數(shù)據(jù)蘊(yùn)含更多的無用信息和噪聲,網(wǎng)絡(luò)數(shù)據(jù)需要高效魯棒的方法來實(shí)現(xiàn)去粗存精,去冗存真.搜索引擎就是從無結(jié)構(gòu)化數(shù)據(jù)中檢索出有用信息的一種工具.盡管搜索技術(shù)在工業(yè)上已經(jīng)取得極大的成功,但仍然存在很多不足(如對一些長尾詞的查詢,對二義性查詢詞的理解等),都有待進(jìn)一步提高.另外,網(wǎng)絡(luò)大數(shù)據(jù)通常是高維的,往往會(huì)帶來數(shù)據(jù)高度稀疏與維度災(zāi)難等問題.在這種情況下,由于數(shù)據(jù)模式統(tǒng)計(jì)顯著性較弱,以往的統(tǒng)計(jì)學(xué)習(xí)方法多針對高頻數(shù)據(jù)挖掘模式,因此難以產(chǎn)生令人滿意的效果.近年來,受實(shí)際應(yīng)用驅(qū)動(dòng),高維稀疏問題成為了統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域的熱點(diǎn)問題.相關(guān)理論研究發(fā)現(xiàn),基于稀疏表達(dá)的學(xué)習(xí)方法(如LASSO等),在獲得較好學(xué)習(xí)效果的同時(shí),還具有更高的效率和魯棒性.2.2不確定性模型構(gòu)建不確定性使得網(wǎng)絡(luò)數(shù)據(jù)難以被建模和學(xué)習(xí),從而難以有效利用其價(jià)值.網(wǎng)絡(luò)數(shù)據(jù)的不確定性包括數(shù)據(jù)本身的不確定性、模型的不確定性和學(xué)習(xí)的不確定性.數(shù)據(jù)的不確定性要求對數(shù)據(jù)的處理方式能夠提出新的模型方法,并能夠把握模型的表達(dá)能力與復(fù)雜程度之間的平衡.在對不確定數(shù)據(jù)的建模和系統(tǒng)設(shè)計(jì)上,最常用且樸素的觀點(diǎn)是“可能世界模型”.該觀點(diǎn)認(rèn)為,在一定的結(jié)構(gòu)規(guī)范下,應(yīng)將數(shù)據(jù)的每一種狀態(tài)都加以刻畫.但該種模型過于復(fù)雜,難以用一種通用的模型結(jié)構(gòu)來適應(yīng)具體的應(yīng)用需求.在實(shí)際應(yīng)用中,我們往往采取簡化的模型刻畫不確定性數(shù)據(jù)的特性,如獨(dú)立性假設(shè)、同分布假設(shè)等等.尤其值得注意的是,概率圖模型由于具有很強(qiáng)的表達(dá)能力而且可對數(shù)據(jù)相關(guān)性進(jìn)行建模,因此已被廣泛應(yīng)用在不確定數(shù)據(jù)的建模領(lǐng)域.另外,在數(shù)據(jù)的管理和挖掘上面,不確定性模型的構(gòu)建應(yīng)當(dāng)考慮到數(shù)據(jù)的查詢、檢索、傳輸、展示等方面的影響.數(shù)據(jù)模型通常都需要對模型參數(shù)進(jìn)行學(xué)習(xí).然而,在很多情況下找到模型的最優(yōu)解是NP問題,甚至找到一個(gè)局部最優(yōu)解都很困難.因此很多學(xué)習(xí)問題都采用近似的、不確定的方法來尋找一個(gè)相對不錯(cuò)的解.但在大數(shù)據(jù)的背景下,傳統(tǒng)近似的、不確定的學(xué)習(xí)方法需要面對規(guī)模和時(shí)效的挑戰(zhàn).隨著多核CPU/GPU的普及以及并行計(jì)算框架的研究,分而治之的方法被普遍認(rèn)為是解決網(wǎng)絡(luò)大數(shù)據(jù)問題一條必由之路.如何將近似的、不確定的學(xué)習(xí)方法拓展到這種框架上成為當(dāng)前研究的重點(diǎn).近年來,不少高校和研究機(jī)構(gòu),在該領(lǐng)域做出了探索.如在矩陣分解運(yùn)算中對數(shù)據(jù)進(jìn)行分塊的計(jì)算方法能夠利用多臺(tái)機(jī)器并行計(jì)算,從而提高數(shù)據(jù)的處理速度.此外,除了學(xué)習(xí)模型參數(shù)值的不確定外,模型的復(fù)雜性和參數(shù)個(gè)數(shù)也受到不同領(lǐng)域、不同數(shù)據(jù)類型和應(yīng)用需求的影響而不能提前確定.近年來,在統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域,非參模型方法的提出為自動(dòng)學(xué)習(xí)出模型復(fù)雜度和參數(shù)個(gè)數(shù)提供了一種思路.但該類模型計(jì)算上較為復(fù)雜,如何分布式地、并行地應(yīng)用到網(wǎng)絡(luò)大數(shù)據(jù)的處理上,還是一個(gè)開放問題.2.3個(gè)體社會(huì)網(wǎng)絡(luò)模型中的智慧涌涌現(xiàn)性是網(wǎng)絡(luò)數(shù)據(jù)有別于其它數(shù)據(jù)的關(guān)鍵特性.涌現(xiàn)性在度量、研判與預(yù)測上的困難使得網(wǎng)絡(luò)數(shù)據(jù)難以被駕馭.網(wǎng)絡(luò)數(shù)據(jù)的涌現(xiàn)性主要表現(xiàn)為模式的涌現(xiàn)性、行為的涌現(xiàn)性和智慧的涌現(xiàn)性.在多尺度、異質(zhì)關(guān)系的網(wǎng)絡(luò)數(shù)據(jù)中,由于不同的數(shù)據(jù)在屬性、功能等方面既存在差異又相互關(guān)聯(lián),因此使網(wǎng)絡(luò)大數(shù)據(jù)在結(jié)構(gòu)、功能等方面涌現(xiàn)出了局部結(jié)構(gòu)所不具備的特定模式特征.在結(jié)構(gòu)方面,數(shù)據(jù)之間不同的關(guān)聯(lián)程度使得數(shù)據(jù)構(gòu)成的網(wǎng)絡(luò)涌現(xiàn)出模塊結(jié)構(gòu).在功能方面,網(wǎng)絡(luò)在演化過程中會(huì)自發(fā)地形成相互分離的連通小塊.這一涌現(xiàn)性結(jié)果對于研究更多的社會(huì)網(wǎng)絡(luò)模型和理解網(wǎng)絡(luò)瓦解失效的發(fā)生有著重要意義.隨著數(shù)據(jù)采集技術(shù)的不斷發(fā)展,人們得到的很多數(shù)據(jù)都具有時(shí)序性,而社會(huì)網(wǎng)絡(luò)中個(gè)體行為的涌現(xiàn)性則是基于數(shù)據(jù)時(shí)序分布的統(tǒng)計(jì)結(jié)果.在社會(huì)網(wǎng)絡(luò)中有較大相似性的個(gè)體之間容易建立社會(huì)關(guān)系.通過研究Schelling給出的個(gè)體社會(huì)關(guān)系網(wǎng)絡(luò)模型發(fā)現(xiàn),網(wǎng)絡(luò)在演化過程中會(huì)自發(fā)地形成相互分離的連通塊,這一個(gè)體行為涌現(xiàn)的結(jié)果不依賴于初始網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),對于研究更多的社會(huì)網(wǎng)絡(luò)模型和理解行為涌現(xiàn)的規(guī)律具有重要意義.著名網(wǎng)絡(luò)科學(xué)家Barabasi研究發(fā)現(xiàn),人們發(fā)郵件的數(shù)量在一天的某些時(shí)刻會(huì)出現(xiàn)“爆發(fā)”現(xiàn)象,并發(fā)現(xiàn)每個(gè)人連發(fā)兩封郵件之間的時(shí)間間隔涌現(xiàn)出冪率分布特征.此外,自然界和社會(huì)中個(gè)體之間不同的競爭模式會(huì)導(dǎo)致不同的同步狀態(tài)的涌現(xiàn)性.網(wǎng)絡(luò)數(shù)據(jù)在沒有全局控制和預(yù)先定義的情況下,通過對來自大量自發(fā)個(gè)體的語義進(jìn)行互相融合和連接而形成語義,整個(gè)過程隨著數(shù)據(jù)的變化而持續(xù)演進(jìn),從而形成網(wǎng)絡(luò)數(shù)據(jù)的涌現(xiàn)語義,也可以稱之為智慧涌現(xiàn).作為一種特殊的智慧涌現(xiàn)形式,眾包正在通過互聯(lián)網(wǎng)和社會(huì)網(wǎng)絡(luò)快速發(fā)展,成為一種新的商業(yè)模式、新的數(shù)據(jù)產(chǎn)生模式和新的數(shù)據(jù)處理協(xié)作模式.總體而言,盡管與網(wǎng)絡(luò)大數(shù)據(jù)研究密切相關(guān)的數(shù)據(jù)庫、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和知識工程等領(lǐng)域近些年來都有很大的進(jìn)展,甚至在許多不同的領(lǐng)域得到了深入的應(yīng)用,但由于網(wǎng)絡(luò)大數(shù)據(jù)規(guī)模海量、關(guān)系復(fù)雜等根本特性,使得相關(guān)領(lǐng)域的研究成果難以被直接借鑒于網(wǎng)絡(luò)大數(shù)據(jù)的研究.因此,網(wǎng)絡(luò)大數(shù)據(jù)的研究需要一套全新的理論和方法來進(jìn)行方向性的指導(dǎo).但到目前為止,甚至連大數(shù)據(jù)的精確定義還缺乏一個(gè)統(tǒng)一的標(biāo)準(zhǔn).網(wǎng)絡(luò)大數(shù)據(jù)科學(xué)與技術(shù)這門學(xué)科的內(nèi)涵和外延還缺乏嚴(yán)格的限定和詳實(shí)的論證;在大數(shù)據(jù)的環(huán)境下,傳統(tǒng)“假設(shè)、模型、檢驗(yàn)”的科學(xué)方法受到質(zhì)疑,從“數(shù)據(jù)”到“數(shù)據(jù)”的第四范式還沒有建立,需要一個(gè)完備的新的理論體系來指導(dǎo)該學(xué)科的發(fā)展和研究.3網(wǎng)絡(luò)的感知和數(shù)據(jù)表達(dá)網(wǎng)絡(luò)數(shù)據(jù)具有跨媒體關(guān)聯(lián)、強(qiáng)時(shí)效演變、多主體互動(dòng)等特點(diǎn),使得我們對網(wǎng)絡(luò)大數(shù)據(jù)的態(tài)勢感知、質(zhì)量評估、融合表示等均面臨新的問題.3.1公正的數(shù)據(jù)庫集成按照網(wǎng)絡(luò)空間中數(shù)據(jù)的蘊(yùn)藏深度,整個(gè)網(wǎng)絡(luò)空間可以劃分為SurfaceWeb和DeepWeb,或稱作HiddenWeb.SurfaceWeb是指Web中通過超鏈接可被傳統(tǒng)搜索引擎爬取到的靜態(tài)頁面,而DeepWeb則由Web中可在線訪問的數(shù)據(jù)庫組成.DeepWeb的數(shù)據(jù)隱藏在Web數(shù)據(jù)庫提供的查詢接口后面,只有通過向查詢接口提交查詢才能獲得.與SurfaceWeb相比,DeepWeb所包含的信息更豐富.同時(shí),DeepWeb具有規(guī)模大、實(shí)時(shí)動(dòng)態(tài)變化、異構(gòu)性、分布性以及訪問方式特殊等特點(diǎn).為了充分利用DeepWeb中的數(shù)據(jù)資源,需要充分獲取DeepWeb中高質(zhì)量的數(shù)據(jù)并予以集成,整個(gè)集成過程可以分為數(shù)據(jù)獲取、數(shù)據(jù)抽取和數(shù)據(jù)整合3個(gè)環(huán)節(jié).3.2基于web數(shù)據(jù)庫的采樣對網(wǎng)絡(luò)空間中多源數(shù)據(jù)進(jìn)行質(zhì)量評估,一方面需要建立數(shù)據(jù)模型或提出適當(dāng)?shù)牟蓸臃椒?另一方面,需要提出對采樣數(shù)據(jù)的評價(jià)與檢驗(yàn)方法.網(wǎng)絡(luò)數(shù)據(jù)采樣是將數(shù)據(jù)從Web數(shù)據(jù)庫提取出來的過程.傳統(tǒng)的數(shù)據(jù)庫采樣是隨機(jī)從數(shù)據(jù)庫中選取數(shù)據(jù)記錄以獲得數(shù)據(jù)庫的統(tǒng)計(jì)信息的過程,典型方法可參考文獻(xiàn)[28-30].但是要獲取Web數(shù)據(jù)庫中的數(shù)據(jù)只能通過向查詢接口提交查詢,不能自由地從Web數(shù)據(jù)庫獲取記錄,故而傳統(tǒng)方法不能實(shí)現(xiàn)對Web數(shù)據(jù)庫的采樣.針對Web數(shù)據(jù)庫采樣,HIDDEN-DB-SAM-PLER是第一項(xiàng)工作,它給出了對范圍屬性和分類屬性的處理方法,而對查詢接口中設(shè)計(jì)的必填的可任意取值的關(guān)鍵詞屬性未作處理.文獻(xiàn)提出基于圖模型的增量式Web數(shù)據(jù)庫采樣方法WDB-Sampler,通過查詢接口從Web數(shù)據(jù)庫中以增量的方式獲取近似隨機(jī)的樣本.但是該方法是針對樣本中每條數(shù)據(jù)作為頂點(diǎn)來建立圖模型,每一輪查詢后都要將查詢結(jié)果擴(kuò)充到圖模型中用于產(chǎn)生下一輪查詢詞,這樣做的代價(jià)比較高.3.3數(shù)據(jù)質(zhì)量的分析由于現(xiàn)實(shí)世界數(shù)據(jù)的多源性、異質(zhì)性以及采集數(shù)據(jù)時(shí)的一些人工錯(cuò)誤,導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)是含有噪音、冗余和缺失的.如何有效地衡量數(shù)據(jù)的質(zhì)量是一個(gè)重要的研究方向.文獻(xiàn)定義了衡量數(shù)據(jù)質(zhì)量的4個(gè)指標(biāo):一致性、正確性、完整性和最小性.文獻(xiàn)提出了數(shù)據(jù)工程中數(shù)據(jù)質(zhì)量的需求分析和模型,認(rèn)為存在很多候選的數(shù)據(jù)質(zhì)量衡量指標(biāo),用戶應(yīng)根據(jù)應(yīng)用的需求選擇其中一部分.數(shù)據(jù)的清洗建立在數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)之上,為了得到高質(zhì)量的數(shù)據(jù),清洗與提煉過程必須滿足幾個(gè)條件:檢測并除去數(shù)據(jù)中所有明顯的錯(cuò)誤和不一致;盡可能地減小人工干預(yù)和用戶的編程工作量,而且要容易擴(kuò)展到其它數(shù)據(jù)源;應(yīng)該和數(shù)據(jù)轉(zhuǎn)化相結(jié)合;要有相應(yīng)的描述語言來指定數(shù)據(jù)轉(zhuǎn)化和數(shù)據(jù)清洗操作,所有這些操作應(yīng)該在一個(gè)統(tǒng)一的框架下完成.對于數(shù)據(jù)清洗,工業(yè)界已經(jīng)開發(fā)了很多數(shù)據(jù)抽取、轉(zhuǎn)化和裝載工具(ETLtool).一些研究人員研究相似重復(fù)記錄的識別和剔除(如文獻(xiàn)),還有一些研究包括數(shù)據(jù)的變換和集成(如文獻(xiàn)[37-38]).3.4基于討論的網(wǎng)絡(luò)大數(shù)據(jù)的建模與表達(dá)對網(wǎng)絡(luò)數(shù)據(jù)的建模和表達(dá)理論方面的研究,主要集中在網(wǎng)絡(luò)中的文本信息方面.對文本信息進(jìn)行表示和建模其目的是讓計(jì)算機(jī)能夠正確理解人類的語言,能夠分析和表達(dá)出其中的語義信息.文本信息的表達(dá)經(jīng)歷了從淺層詞語表達(dá)方式到深層語義表達(dá)方式這樣一個(gè)歷程,其中代表性的工作包括了向量空間表示(VSM)、隱語義索引(LSI)和概率話題模型(如圖1所示)等.隨著研究不斷深入,話題模型被廣泛地應(yīng)用在各個(gè)領(lǐng)域,進(jìn)一步有人提出了改進(jìn)的話題模型,以增強(qiáng)已有話題模型的學(xué)習(xí)能力,解決其跨領(lǐng)域的問題等等,從而使其能更好地應(yīng)用于文本數(shù)據(jù)的表達(dá).盡管對數(shù)據(jù)表達(dá)的研究歷經(jīng)了很長的時(shí)間,但是對于網(wǎng)絡(luò)大數(shù)據(jù)的建模和表達(dá)還面臨著很多新的挑戰(zhàn).例如,對于海量文本數(shù)據(jù)的建模,我們需要模型能夠?qū)Ω笠?guī)模的參數(shù)空間進(jìn)行有效地學(xué)習(xí),需要能夠有效地建模并解決數(shù)據(jù)的稀疏性所帶來的問題,需要能夠?qū)?dòng)態(tài)演化的網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行合理的表達(dá).此外,對于圖片和多媒體數(shù)據(jù),我們也需要進(jìn)一步探索其建模與表達(dá)方式,以便能夠更加有效地表達(dá)其內(nèi)在的語義信息.4b、eb級算法平臺(tái)面臨的挑戰(zhàn)網(wǎng)絡(luò)大數(shù)據(jù)處理的數(shù)據(jù)規(guī)模從TB級上升到PB、EB級,面臨著如何降低數(shù)據(jù)存儲(chǔ)成本、充分利用計(jì)算資源、提高系統(tǒng)并發(fā)吞吐率、支持分布式的非線性迭代算法優(yōu)化等眾多難題.4.1行存儲(chǔ)和列存儲(chǔ)策略Google公司提出的GFS、MapReduce、BigTable等技術(shù)是分布式數(shù)據(jù)處理技術(shù)的具體實(shí)現(xiàn),是Google搜索引擎系統(tǒng)三大核心技術(shù).此后,Apache軟件基金會(huì)推出了開放源碼Hadoop和HBase系統(tǒng),實(shí)現(xiàn)了MapReduce編程模型、分布式文件系統(tǒng)和分布式列簇?cái)?shù)據(jù)庫.Hadoop系統(tǒng)在Yahoo!、IBM、百度、Facebook等公司得到了大量應(yīng)用和快速的發(fā)展.但作為一個(gè)新興的技術(shù)體系,分布式數(shù)據(jù)處理技術(shù)在支持大規(guī)模網(wǎng)絡(luò)信息處理及應(yīng)用等大數(shù)據(jù)計(jì)算應(yīng)用方面還存在著很多不足.行存儲(chǔ)(Row-Store)和列存儲(chǔ)(Column-Store)是兩種典型的數(shù)據(jù)庫物理存儲(chǔ)策略.行存儲(chǔ)方式較為傳統(tǒng),它在磁盤中依次保存每條記錄,比較適合事務(wù)操作;列存儲(chǔ)方式垂直劃分關(guān)系表,以列為單位存儲(chǔ)數(shù)據(jù),列存儲(chǔ)還具有數(shù)據(jù)壓縮(Compression)、延期物化(LateMaterialization)、塊循環(huán)(BlockIteration)等特性.由于數(shù)據(jù)分析任務(wù)往往僅使用較少字段,因此列存儲(chǔ)方式的效率更高.數(shù)據(jù)分析任務(wù)在大數(shù)據(jù)應(yīng)用中更為常見,因此許多系統(tǒng)盡管無法完全實(shí)現(xiàn)列存儲(chǔ)的所有特性,但也或多或少地借鑒了相關(guān)概念,包括BigTable、HBase等.文獻(xiàn)提出了行列混合式數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)(RCFile)以解決海量數(shù)據(jù)快速加載、縮短查詢響應(yīng)時(shí)間、磁盤空間高效利用等問題(如圖2所示).RCFile融合了行存儲(chǔ)和列存儲(chǔ)的優(yōu)點(diǎn),通過行組劃分降低數(shù)據(jù)加載開銷,通過列數(shù)據(jù)壓縮提高存儲(chǔ)空間利用率.國際上應(yīng)用最廣泛的兩大分布式數(shù)據(jù)分析系統(tǒng)Hive和Pig均集成了RCFile技術(shù).RCFile已經(jīng)成為分布式離線數(shù)據(jù)分析系統(tǒng)中數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的事實(shí)標(biāo)準(zhǔn).分布式數(shù)據(jù)存儲(chǔ)是網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用的一個(gè)重要環(huán)節(jié).但目前的研究工作仍存在一些局限性.針對海量數(shù)據(jù)存儲(chǔ)和處理所面臨的數(shù)據(jù)總量超大規(guī)模、處理速度要求高和數(shù)據(jù)類型異質(zhì)多樣等難題,需要開發(fā)支持高可擴(kuò)展、深度處理的PB級以上分布式數(shù)據(jù)存儲(chǔ)框架,同時(shí)需要研究適應(yīng)數(shù)據(jù)布局分布的存儲(chǔ)結(jié)構(gòu)優(yōu)化方法,以提高網(wǎng)絡(luò)大數(shù)據(jù)存儲(chǔ)和處理效率,降低系統(tǒng)建設(shè)成本,從而實(shí)現(xiàn)高效、高可用的網(wǎng)絡(luò)大數(shù)據(jù)分布式存儲(chǔ).4.2基于多索引的區(qū)間查詢目前的主流查詢索引技術(shù)是以Google公司的BigTable為代表的列簇式NoSQL數(shù)據(jù)庫.BigTable提出了一種介于關(guān)系模型和Key-Value對模型之間的新數(shù)據(jù)模型:OrderedTable.OrderedTable模型提供了稀疏的、分布式的、持久存儲(chǔ)的、基于主鍵排序的映射,數(shù)據(jù)由行、列和時(shí)間戳表示.BigTable中表的Scheme非常靈活,可以在運(yùn)行時(shí)修改.OrderedTable模型可以對基于主鍵的區(qū)間查詢提供有力的支持,對于涉及多個(gè)字段數(shù)據(jù)的多維區(qū)間查詢主要采用二級索引技術(shù),但這引起了性能問題.為避免大量隨機(jī)讀,另一種思路是使用聚簇索引,即同時(shí)按索引順序存儲(chǔ)全部數(shù)據(jù).為保證多個(gè)查詢列均有很好的性能,需要按多個(gè)索引列聚簇,但這將導(dǎo)致存儲(chǔ)開銷成倍增長.此外還面臨著因統(tǒng)計(jì)信息的缺失帶來的新的挑戰(zhàn).關(guān)系數(shù)據(jù)庫領(lǐng)域處理多個(gè)維度的查詢優(yōu)化時(shí),關(guān)鍵是根據(jù)表的統(tǒng)計(jì)信息估算子查詢的代價(jià),比如通過記錄數(shù)量、數(shù)據(jù)分布的直方圖等估算結(jié)果集大小、需要讀取的數(shù)據(jù)塊數(shù)量等.文獻(xiàn)提出的互補(bǔ)式聚簇索引(CCIndex),利用多副本為每個(gè)索引列各創(chuàng)建一張互為補(bǔ)充的聚簇索引表,使得索引列上的區(qū)間查詢對應(yīng)聚簇索引表的連續(xù)掃描(如圖3所示).解決了NoSQL數(shù)據(jù)庫的二級索引技術(shù)因無法保持連續(xù)掃描特性而處理效率低下的問題.同時(shí),結(jié)合查詢結(jié)果集估算方法,以挑選最優(yōu)查詢計(jì)劃.通過禁用底層存儲(chǔ)系統(tǒng)的副本機(jī)制來避免引入額外的存儲(chǔ)開銷,并提供增量式的快速數(shù)據(jù)恢復(fù)機(jī)制.目前,CCIndex技術(shù)已應(yīng)用在淘寶的數(shù)據(jù)魔方中.4.3數(shù)據(jù)世系管理數(shù)據(jù)世系(DataProvenance)包含了不同數(shù)據(jù)源間的數(shù)據(jù)演化過程和相同數(shù)據(jù)源內(nèi)部數(shù)據(jù)的演化過程.數(shù)據(jù)世系一般有兩類基本方法,非注解的方法和基于注解的方法.前者采用模式映射方式使用數(shù)據(jù)處理函數(shù)和其相對應(yīng)的反向函數(shù),但在更復(fù)雜的例子中可能并不存在集合之間的可逆函數(shù),必須使用注解描述世系.事實(shí)上基于注解的方法的應(yīng)用范圍要遠(yuǎn)遠(yuǎn)高于非注解的方法.數(shù)據(jù)世系可針對多種數(shù)據(jù)類型,包括關(guān)系型數(shù)據(jù)、XML數(shù)據(jù)和不確定數(shù)據(jù)等.自20世紀(jì)90年代以來,數(shù)據(jù)世系的研究取得很大的進(jìn)展,并且應(yīng)用到了多個(gè)領(lǐng)域之中.面對網(wǎng)絡(luò)大數(shù)據(jù),數(shù)據(jù)世系管理的研究工作需關(guān)注以下幾個(gè)方面:(1)傳統(tǒng)的數(shù)據(jù)管理下的數(shù)據(jù)世系的管理還有很多的工作亟待考慮,其中考察數(shù)據(jù)的起源和演化過程將是一個(gè)大的挑戰(zhàn);(2)在網(wǎng)絡(luò)環(huán)境下不確定性數(shù)據(jù)廣泛存在,并且具有多種多樣的表現(xiàn)形式.數(shù)據(jù)的演化過程同時(shí)也伴隨著數(shù)據(jù)不確定性的演化,可以利用數(shù)據(jù)的世系追蹤數(shù)據(jù)不確定性的來源和演化過程;(3)如何解決異構(gòu)世系標(biāo)準(zhǔn)的融合問題.大數(shù)據(jù)應(yīng)用將涵蓋更多的原本可能相互隔離的數(shù)據(jù)集合,如何將適用不同標(biāo)準(zhǔn)的數(shù)據(jù)世系信息整合在一起是一個(gè)關(guān)鍵問題.5網(wǎng)絡(luò)大數(shù)據(jù)的深層價(jià)值與社會(huì)計(jì)算利用計(jì)算技術(shù)對網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)蘊(yùn)含的知識,研究社會(huì)運(yùn)行的規(guī)律與發(fā)展趨勢,是挖掘網(wǎng)絡(luò)大數(shù)據(jù)的深層價(jià)值和實(shí)現(xiàn)社會(huì)行為可計(jì)算的主要途徑.隨著社會(huì)媒體的涌現(xiàn),持續(xù)增長的用戶數(shù)據(jù)在規(guī)模和復(fù)雜性上都有著指數(shù)式的攀升,導(dǎo)致傳統(tǒng)的挖掘和計(jì)算方法在性能和效用上遇到了嚴(yán)重的瓶頸.基于內(nèi)容信息的數(shù)據(jù)挖掘和基于結(jié)構(gòu)信息的社會(huì)計(jì)算是目前網(wǎng)絡(luò)大數(shù)據(jù)挖掘和社會(huì)計(jì)算領(lǐng)域的研究熱點(diǎn).5.1分析學(xué)習(xí)過程中使用的政府?dāng)?shù)據(jù)中使用的低維度評價(jià)準(zhǔn)則語言是社會(huì)媒體最重要的表現(xiàn)形式,文本是社會(huì)媒體中用戶表達(dá)信息的最重要的方式.基于內(nèi)容信息的數(shù)據(jù)挖掘包括網(wǎng)絡(luò)搜索技術(shù)與實(shí)體關(guān)聯(lián)分析等主要研究內(nèi)容.社會(huì)媒體的出現(xiàn)為互聯(lián)網(wǎng)信息搜索提出了新的挑戰(zhàn),研究的熱點(diǎn)從傳統(tǒng)的海量數(shù)據(jù)抓取、索引結(jié)構(gòu)優(yōu)化和用戶查詢分析等轉(zhuǎn)移到了排序?qū)W習(xí)算法,專注于提高檢索質(zhì)量.排序?qū)W習(xí)模型將文檔表示為特征向量,以損失函數(shù)為優(yōu)化目標(biāo),尋找在檢索領(lǐng)域中常用的評價(jià)準(zhǔn)則下最好的排序函數(shù),常見的排序?qū)W習(xí)算法可以分為逐點(diǎn)(Pointwise,如McRank)、逐對(Pairwise,如RankBoost、RankNet)和逐列(Listwise,如ListNet、AdaRank、SVM-MAP)3類方法.現(xiàn)有模型在處理用戶需求相關(guān)性、多樣性和重要性等不同目標(biāo)排序方面仍有不足.此外,社會(huì)媒體中需要關(guān)注數(shù)據(jù)的短文本特征、對簡短關(guān)鍵詞表達(dá)的深入理解和分析,掌握用戶真實(shí)的查詢意圖.命名實(shí)體是現(xiàn)實(shí)世界中的具體或者抽象但具有特定意義的實(shí)體,從海量信息中獲取其蘊(yùn)含的內(nèi)在知識,需要研究對命名實(shí)體、實(shí)體關(guān)系的挖掘.社會(huì)媒體生成的海量網(wǎng)絡(luò)數(shù)據(jù)中,實(shí)體類型越來越多,力度越來越細(xì),關(guān)系越來越繁雜.對于實(shí)體關(guān)系的挖掘,研究人員提出了基于規(guī)則和基于機(jī)器學(xué)習(xí)的方法.2007年,Getoor等提出統(tǒng)計(jì)關(guān)系學(xué)習(xí)是里程碑式的技術(shù),突破了傳統(tǒng)統(tǒng)計(jì)模型對于研究對象同類型、不相關(guān)的兩個(gè)假設(shè),可以更全面地表達(dá)領(lǐng)域知識.目前,實(shí)體和關(guān)系的挖掘仍是網(wǎng)絡(luò)數(shù)據(jù)挖掘領(lǐng)域關(guān)注的研究問題,存在很多亟待解決的問題,例如對新涌現(xiàn)出的實(shí)體的抽取與識別,挖掘結(jié)果的可用性和可理解性,大規(guī)模高效知識庫、本體庫語義網(wǎng)絡(luò)的構(gòu)建等.5.2社區(qū)結(jié)構(gòu)演化社會(huì)網(wǎng)絡(luò)是以社會(huì)媒體中的用戶為節(jié)點(diǎn),用戶間的關(guān)系為連邊而構(gòu)建的網(wǎng)絡(luò).它既是用戶間社會(huì)關(guān)系的反映,也是用戶之間進(jìn)行信息交互的載體.具有關(guān)系的異質(zhì)性、結(jié)構(gòu)的多尺度性以及網(wǎng)絡(luò)的動(dòng)態(tài)演化性3方面特性.社會(huì)網(wǎng)絡(luò)中個(gè)體因血緣關(guān)系或興趣愛好等因素而形成了連接緊密的圈子,這種內(nèi)部關(guān)系緊密而對外關(guān)系相對稀疏的結(jié)構(gòu)被稱為社區(qū).社區(qū)結(jié)構(gòu)是社會(huì)網(wǎng)絡(luò)所普遍具有的結(jié)構(gòu)特征,社區(qū)結(jié)構(gòu)的存在對于網(wǎng)絡(luò)的高效搜索、網(wǎng)絡(luò)演化、信息擴(kuò)散等具有重要意義.針對社區(qū)結(jié)構(gòu)的研究可分為社區(qū)發(fā)現(xiàn)、社區(qū)結(jié)構(gòu)演化等方面.社區(qū)發(fā)現(xiàn)旨在識別出網(wǎng)絡(luò)固有的社區(qū)結(jié)構(gòu),按照節(jié)點(diǎn)間的連邊關(guān)系把節(jié)點(diǎn)劃分成若干節(jié)點(diǎn)組,使得節(jié)點(diǎn)內(nèi)部的連邊相對稠密,不同節(jié)點(diǎn)之間的連邊相對稀疏.Girvan和Newman提出分裂式層次聚類方法,是一種自頂向下的社區(qū)分割過程;文獻(xiàn)提出模塊度概念,采用一種被假定沒有社區(qū)結(jié)構(gòu)的網(wǎng)絡(luò)作為參照網(wǎng)絡(luò),對于一個(gè)給定的網(wǎng)絡(luò)劃分,通過對比原有網(wǎng)絡(luò)和參照網(wǎng)絡(luò)中處于該劃分的各個(gè)分量內(nèi)部邊的比例,給出一種度量網(wǎng)絡(luò)劃分質(zhì)量的方法;對于重疊社區(qū)結(jié)構(gòu)的研究,Palla等人提出了一種基于完全子圖滲流的社區(qū)發(fā)現(xiàn)方法,已應(yīng)用到生物、信息、社會(huì)等網(wǎng)絡(luò)中;進(jìn)一步,文獻(xiàn)定義新的網(wǎng)絡(luò)模塊度,采用聚合式層次聚類的方式,提出了能夠同時(shí)揭示網(wǎng)絡(luò)層次重疊社區(qū)結(jié)構(gòu)(如圖4所示)的社區(qū)發(fā)現(xiàn)方法.社區(qū)演化是網(wǎng)絡(luò)自身結(jié)構(gòu)與在其上頻繁發(fā)生的交互過程相互作用的結(jié)果.社區(qū)演化分析主要研究社區(qū)隨時(shí)間變化的情況,并分析導(dǎo)致這些變化的機(jī)制和原因,包括社區(qū)的形成、生長、縮減、合并、分裂和消亡等.在動(dòng)態(tài)演化過程網(wǎng)絡(luò)建模研究方面,Barabue564si和Albert提出了著名的BA網(wǎng)絡(luò)生成模型,建立了網(wǎng)絡(luò)微觀機(jī)制和宏觀拓?fù)浣Y(jié)構(gòu)特征的關(guān)聯(lián)規(guī)律.文獻(xiàn)基于完全子圖滲流社區(qū)發(fā)現(xiàn)方法研究社區(qū)演化,得出了小社區(qū)穩(wěn)定性是保證其存在的前提而大社區(qū)的動(dòng)態(tài)性是存在的基礎(chǔ)的結(jié)論.隨著含時(shí)間數(shù)據(jù)的積累,關(guān)于社區(qū)演化的研究將會(huì)是一個(gè)熱點(diǎn).6網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)的應(yīng)用為了應(yīng)對網(wǎng)絡(luò)大數(shù)據(jù)的發(fā)展趨勢,更好地為企業(yè)和個(gè)人提供數(shù)據(jù)分析的需求,亟需構(gòu)建各類不同的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái),支持用戶對數(shù)據(jù)的多種需求.下面我們從數(shù)據(jù)平臺(tái)建設(shè)、基于數(shù)據(jù)平臺(tái)的高端數(shù)據(jù)分析以及網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)的應(yīng)用3個(gè)角度總結(jié)相關(guān)的內(nèi)容.6.1網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)構(gòu)建網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)就是要將不同渠道、不同來源、不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行有機(jī)的整合.與傳統(tǒng)數(shù)據(jù)平臺(tái)不同的是,網(wǎng)絡(luò)大數(shù)據(jù)海量的規(guī)模、多樣的類型、快速的流動(dòng)和動(dòng)態(tài)的體系以及巨大的價(jià)值是大數(shù)據(jù)平臺(tái)構(gòu)建需要重點(diǎn)考慮的幾個(gè)因素.除此之外,數(shù)據(jù)的分類存儲(chǔ)、數(shù)據(jù)平臺(tái)的開放性、數(shù)據(jù)的智能處理以及數(shù)據(jù)平臺(tái)與用戶的交互都為網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)的建設(shè)帶來前所未有的挑戰(zhàn).網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)處理的數(shù)據(jù)類型是多種多樣的.根據(jù)數(shù)據(jù)類型的不同,網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)可以分為不同的類型,比如本體數(shù)據(jù)平臺(tái)、企業(yè)日常事務(wù)數(shù)據(jù)平臺(tái)、流數(shù)據(jù)平臺(tái)、電子商務(wù)數(shù)據(jù)平臺(tái)等等.目前這些平臺(tái)的搭建已經(jīng)具有了一些有代表性的工作.如Google公司的Freebase(1)、微軟公司的Probase(2)、國內(nèi)著名的中文信息結(jié)構(gòu)庫——知網(wǎng)(Hownet)(3)等.在商用數(shù)據(jù)平臺(tái)方面,IBM公司的Infosphere大數(shù)據(jù)分析平臺(tái)(4)、天睿公司的Teradata統(tǒng)一數(shù)據(jù)環(huán)境(5)以及由國內(nèi)天貓、阿里云、萬網(wǎng)聯(lián)合推出的國內(nèi)首個(gè)電商云工作平臺(tái)聚石塔(6)是3個(gè)典型的數(shù)據(jù)平臺(tái).6.2大數(shù)據(jù)平臺(tái)與商業(yè)價(jià)值一個(gè)優(yōu)秀的綜合大數(shù)據(jù)處理平臺(tái)不但可以為企業(yè)的決策和個(gè)人的生活提供服務(wù),甚至還可以為國家政策的制定提供支持.首先,依托大數(shù)據(jù)平臺(tái),國家可以分析各實(shí)體和產(chǎn)業(yè)之間的關(guān)聯(lián)關(guān)系,從而了解行業(yè)發(fā)展的趨勢,找到影響產(chǎn)業(yè)發(fā)展的關(guān)鍵性因素,統(tǒng)籌規(guī)劃資金、人才、技術(shù)的良性流動(dòng)與優(yōu)化配置.其次,大數(shù)據(jù)平臺(tái)可以為企業(yè)提供巨大的商業(yè)價(jià)值.企業(yè)分析人員可以分析多種多樣的內(nèi)容.譬如,分析顧客偏好及顧客群體,對群體進(jìn)行細(xì)分并量體裁衣般地采取獨(dú)特的行動(dòng);分析具有代表性的客戶群體,采取有針對性的營銷策略,進(jìn)行病毒式營銷和模式推廣;運(yùn)用大數(shù)據(jù)模擬實(shí)境,發(fā)掘新的需求和提高投入的回報(bào)率,進(jìn)行商業(yè)模式、產(chǎn)品和服務(wù)的創(chuàng)新等.再次,大數(shù)據(jù)平臺(tái)還可以為個(gè)人的日常生活帶來諸多便利.建立在大數(shù)據(jù)平臺(tái)下的互聯(lián)網(wǎng)產(chǎn)業(yè),將深加工的信息和數(shù)據(jù)主動(dòng)推送給目標(biāo)用戶,便于用戶結(jié)合自身喜好選擇感興趣的模式、產(chǎn)品和搭配方式.除此之外,用戶還可以從大數(shù)據(jù)平臺(tái)中獲取更有價(jià)值的知識.通過本體知識平臺(tái),用戶可以分析知識的來源、演化過程、分析知識間的因果關(guān)系、知識本身的歧義性和模糊性,更好地理解和關(guān)聯(lián)知識.6.3互聯(lián)網(wǎng)技術(shù)賦能數(shù)據(jù)的處理和可視化網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)在輿情監(jiān)控、模式和關(guān)鍵字搜索、數(shù)據(jù)工程、情報(bào)分析、市場營銷、醫(yī)藥衛(wèi)生等領(lǐng)域具有重要的應(yīng)用.舉例來說,大數(shù)據(jù)平臺(tái)的出現(xiàn)在搜索引擎中的應(yīng)用是使得搜索引擎對數(shù)據(jù)的深入加工和處理變成現(xiàn)實(shí),能夠更好地理解用戶的搜索意圖.用戶可以不用自己去篩選信息,而是由搜索引擎根據(jù)其搜索歷史及個(gè)人偏好將有價(jià)值的信息呈現(xiàn)給用戶.又如,網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)催生了很多面向程序員與數(shù)據(jù)科學(xué)家的工具(如Karmasphere和Datameer),使得程序員將數(shù)據(jù)而非業(yè)務(wù)邏輯作為程序的主要實(shí)體,編寫出更簡短的程序,更清晰地表達(dá)對數(shù)據(jù)所做的處理.可以預(yù)見,大數(shù)據(jù)平臺(tái)正在以一種前所未有的方式改變著各行各業(yè),對大數(shù)據(jù)平臺(tái)的應(yīng)用能夠更好地幫助人們獲取信息并對信息進(jìn)行更高效地處理和應(yīng)用.7基于大數(shù)據(jù)的it基礎(chǔ)架構(gòu)當(dāng)前在上述幾個(gè)方向的研究工作都面臨著網(wǎng)絡(luò)大數(shù)據(jù)帶來的新問題,也意味著每個(gè)方向都有不少的挑戰(zhàn).展望未來,面對網(wǎng)絡(luò)大數(shù)據(jù),以下幾個(gè)方面的研究將是問題的核心.網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜性度量.網(wǎng)絡(luò)大數(shù)據(jù)使人們處理計(jì)算問題時(shí)獲得了前所未有的大規(guī)模樣本,但同時(shí)網(wǎng)絡(luò)大數(shù)據(jù)也呈現(xiàn)出前所未有的復(fù)雜特征,不得不面對更加復(fù)雜的數(shù)據(jù)對象,其典型的特性是類型和模式多樣、關(guān)聯(lián)關(guān)系繁雜、質(zhì)量良莠不齊.網(wǎng)絡(luò)大數(shù)據(jù)內(nèi)在的復(fù)雜性使得數(shù)據(jù)的感知、表達(dá)、理解和計(jì)算等多個(gè)環(huán)節(jié)面臨著巨大的挑戰(zhàn),導(dǎo)致了傳統(tǒng)全量數(shù)據(jù)計(jì)算模式下時(shí)空維度上計(jì)算復(fù)雜度的激增,很多傳統(tǒng)的數(shù)據(jù)分析與挖掘任務(wù)如檢索、主題發(fā)現(xiàn)、語義和情感分析等變得異常困難.然而目前,人們對網(wǎng)絡(luò)大數(shù)據(jù)復(fù)雜性及其背后的物理意義缺乏理解,對網(wǎng)絡(luò)大數(shù)據(jù)的分布與協(xié)作關(guān)聯(lián)等規(guī)律認(rèn)識不足,對大數(shù)據(jù)的復(fù)雜性和計(jì)算復(fù)雜性的內(nèi)在聯(lián)系缺乏深刻理解,加上缺少面向領(lǐng)域的大數(shù)據(jù)處理知識,極大地制約了人們對大數(shù)據(jù)高效計(jì)算模型和方法的設(shè)計(jì)能力.有鑒于此,如何量化定義大數(shù)據(jù)復(fù)雜性的本質(zhì)特征及其外在度量指標(biāo),進(jìn)而研究網(wǎng)絡(luò)數(shù)據(jù)復(fù)雜性的內(nèi)在機(jī)理是個(gè)重要的研究問題.數(shù)據(jù)計(jì)算需要新模式與新范式.網(wǎng)絡(luò)大數(shù)據(jù)的諸多突出特性使得傳統(tǒng)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)處理的方式方法都不再適用.因此,面對網(wǎng)絡(luò)大數(shù)據(jù),我們需要有數(shù)據(jù)密集型計(jì)算的基本模式和新型的計(jì)算范式,需要提出數(shù)據(jù)計(jì)算的效率評估方法等基本理論.由于數(shù)據(jù)體量太大,甚至有的數(shù)據(jù)本身就以分布式的形式存在,難以集中起來處理,因此對于網(wǎng)絡(luò)大數(shù)據(jù)的計(jì)算需要從中心化的、自頂向下的模式轉(zhuǎn)為去中心化的、自底向上、自組織
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年河北衡水故城縣故投商業(yè)運(yùn)營有限責(zé)任公司招聘筆試參考題庫附帶答案詳解
- 2025版南雄市國有企業(yè)員工勞動(dòng)合同修訂版3篇
- 二零二五年度跨境電子商務(wù)交易合同違約責(zé)任解析4篇
- 2024年度青海省公共營養(yǎng)師之三級營養(yǎng)師真題練習(xí)試卷A卷附答案
- 二零二五年度窗戶安裝與節(jié)能評估合同4篇
- 二零二五版門窗行業(yè)節(jié)能減排技術(shù)合作合同4篇
- 二零二五年度公共區(qū)域冬季除雪服務(wù)承包合同樣本8篇
- 探索學(xué)校物業(yè)安全教育的重要性
- 趣味農(nóng)事活動(dòng)設(shè)計(jì)與效果評估研究報(bào)告
- 2025年度豪華墓地使用權(quán)轉(zhuǎn)讓合同范本3篇
- 護(hù)理飲食指導(dǎo)整改措施及方案
- 項(xiàng)目工地春節(jié)放假安排及安全措施
- 印染廠安全培訓(xùn)課件
- 紅色主題研學(xué)課程設(shè)計(jì)
- 胸外科手術(shù)圍手術(shù)期處理
- 裝置自動(dòng)控制的先進(jìn)性說明
- 《企業(yè)管理課件:團(tuán)隊(duì)管理知識點(diǎn)詳解PPT》
- 移動(dòng)商務(wù)內(nèi)容運(yùn)營(吳洪貴)任務(wù)二 軟文的寫作
- 英語詞匯教學(xué)中落實(shí)英語學(xué)科核心素養(yǎng)
- 《插畫設(shè)計(jì)》課程標(biāo)準(zhǔn)
- 高中英語名詞性從句講解
評論
0/150
提交評論