課件01多結(jié)構(gòu)化數(shù)據(jù)管理概述_第1頁(yè)
課件01多結(jié)構(gòu)化數(shù)據(jù)管理概述_第2頁(yè)
課件01多結(jié)構(gòu)化數(shù)據(jù)管理概述_第3頁(yè)
課件01多結(jié)構(gòu)化數(shù)據(jù)管理概述_第4頁(yè)
課件01多結(jié)構(gòu)化數(shù)據(jù)管理概述_第5頁(yè)
已閱讀5頁(yè),還剩59頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多結(jié)構(gòu)化數(shù)據(jù)管理

潘鵬現(xiàn)代數(shù)據(jù)管理的特征——結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化(不易組織)——文本、圖像、視頻、音頻(內(nèi)容多樣,不易處理)——海量(不易存?。谡Z(yǔ)義(不易查找)——面向網(wǎng)絡(luò)(不易管理)2現(xiàn)代數(shù)據(jù)管理的特征1)數(shù)據(jù)的形式多樣——結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化——文本、圖像、視頻、音頻——單模態(tài)、多模態(tài)數(shù)據(jù)庫(kù)方式:——以結(jié)構(gòu)化為主,擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù)?!谋?、數(shù)字、日期等程序可直接識(shí)別的符號(hào)數(shù)據(jù)。3數(shù)據(jù)類型!現(xiàn)代數(shù)據(jù)管理的特征2)查詢的需求——文字匹配——基于語(yǔ)義——相似性匹配、排序——聚類、分類、去冗余數(shù)據(jù)庫(kù)方式:——基于關(guān)鍵字、基于值的比較——精確匹配、排序——存在性查詢、等值查詢、范圍查詢4檢索算法!現(xiàn)代數(shù)據(jù)管理的特征3)運(yùn)行和應(yīng)用環(huán)境

和網(wǎng)絡(luò)(尤其是語(yǔ)義網(wǎng))結(jié)合更加密切、更加直接:——大量的數(shù)據(jù)直接來(lái)自網(wǎng)絡(luò),包括用于機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)和用于檢索的數(shù)據(jù)?!Z(yǔ)義知識(shí)也可能從網(wǎng)絡(luò)中獲取。——與web應(yīng)用集成(電子商務(wù)、搜索引擎、內(nèi)容檢索、情報(bào)分析)——網(wǎng)絡(luò)后臺(tái)數(shù)據(jù)

、爬蟲數(shù)據(jù)庫(kù)方式:

企業(yè)級(jí)應(yīng)用,生產(chǎn)型企業(yè)、政府部門的較規(guī)范化的信息管理,用于規(guī)范和優(yōu)化管理的流程,提高業(yè)務(wù)吞吐量。

手工錄入、批量導(dǎo)入。5價(jià)值挖掘!現(xiàn)代數(shù)據(jù)管理的特征4)處理的需求——面向海量數(shù)據(jù),TB、PB級(jí)別——查詢?yōu)橹鳌⒏虏活l繁(?)——數(shù)據(jù)一致性可弱化數(shù)據(jù)庫(kù)方式:——面向企業(yè)級(jí)數(shù)據(jù)庫(kù)——增、刪、改、查——ACID特性的控制6系統(tǒng)運(yùn)行機(jī)制!現(xiàn)代數(shù)據(jù)管理的特征5)關(guān)鍵技術(shù)——相似性的度量——高維數(shù)據(jù)的處理——語(yǔ)義特征的獲取——語(yǔ)義知識(shí)的組織——訓(xùn)練、學(xué)習(xí)的模型——海量數(shù)據(jù)的分布存儲(chǔ)、分布式并行處理——查詢反饋——可視化7現(xiàn)代數(shù)據(jù)管理的特征數(shù)據(jù)庫(kù)方式:——基于數(shù)據(jù)字典的數(shù)據(jù)組織——關(guān)系代數(shù)理論的實(shí)現(xiàn)技術(shù)——索引機(jī)制——多維數(shù)據(jù)(不是高維)的查詢算法——面向關(guān)系代數(shù)的查詢優(yōu)化——系統(tǒng)保護(hù)(并發(fā)、恢復(fù)、完整性控制、安全性控制)8現(xiàn)代數(shù)據(jù)管理的特征6)系統(tǒng)開(kāi)放性

——分布式、易于擴(kuò)充、低成本——編程模型數(shù)據(jù)庫(kù)方式——服務(wù)器模式、異構(gòu)集成、中間件——編程接口9‘大數(shù)據(jù)(BigData)”概念的提出每秒鐘,人們發(fā)送290封電子郵件;

每分鐘人們?cè)趛outube上傳20小時(shí)的視頻;

人們每月在總共在facebook上瀏覽7000億分鐘;

移動(dòng)互聯(lián)網(wǎng)用戶發(fā)送和上傳的數(shù)據(jù)量達(dá)到1.3exabytes,相當(dāng)于10的18次方;

每秒鐘亞馬遜處理72.9筆訂單;

。。。。。。

101112‘大數(shù)據(jù)(BigData)”概念的提出麥肯錫全球研究院(MGI)估算,全球企業(yè)2010年在硬盤上存儲(chǔ)了超過(guò)7EB(1EB=10億GB)的新數(shù)據(jù),同時(shí),消費(fèi)者在PC和筆記本等設(shè)備上存儲(chǔ)了超過(guò)6EB新數(shù)據(jù)。1EB數(shù)據(jù)相當(dāng)于美國(guó)國(guó)會(huì)圖書館中存儲(chǔ)的數(shù)據(jù)的4000多倍。對(duì)這些海量數(shù)據(jù)的存儲(chǔ),超過(guò)了任何一家傳統(tǒng)企業(yè)的能力。↓

對(duì)于互聯(lián)網(wǎng)平臺(tái)級(jí)的公司,他們每時(shí)每刻在忙于把這些數(shù)據(jù)收集、整理、歸類、保存(或者托管方式)。13‘大數(shù)據(jù)(BigData)”概念的提出以Google為例目前有超過(guò)200個(gè)Google文件系統(tǒng)集群在運(yùn)行,每個(gè)集群大約有1000~5000臺(tái)機(jī)器,每個(gè)谷歌文件系統(tǒng)(Googlefilesystem,GFs)都存儲(chǔ)著高達(dá)5PB的數(shù)據(jù)。成千上萬(wàn)的機(jī)器需要的數(shù)據(jù)都從GFS集群中檢索,這些集群中數(shù)據(jù)讀寫的吞吐量可高達(dá)40GBps,每天都在產(chǎn)生著含大量知識(shí)的數(shù)據(jù)。14‘大數(shù)據(jù)(BigData)”概念的提出傳統(tǒng)的企業(yè)中,數(shù)據(jù)多是以表格的形式保存在數(shù)據(jù)庫(kù)中?!械男畔⒏袷蕉家粯?便于編程處理。∣

處理需求、處理方法、優(yōu)化措施。

15‘大數(shù)據(jù)(BigData)”概念的提出微博等各種網(wǎng)絡(luò)信息發(fā)布渠道的海量數(shù)據(jù):文本、照片、視頻位置信息、鏈接信息、XML類型的數(shù)據(jù)。。?!伴L(zhǎng)微博”工具——把文字轉(zhuǎn)換成圖片,突破140字的限制

往往圖片形式存在的微博,包含大量的信息。

數(shù)據(jù)的生成(基于語(yǔ)義),表現(xiàn)形式自然、直觀。16‘大數(shù)據(jù)(BigData)”概念的提出社會(huì)化的網(wǎng)絡(luò),為大數(shù)據(jù)提供了額外的價(jià)值維度。

一件商品、一則消息、一副圖片。。。

↓不同影響力的社會(huì)個(gè)體不同的附加價(jià)值和效果

在不同的數(shù)據(jù)類型中進(jìn)行交叉分析的技術(shù),是大數(shù)據(jù)的核心技術(shù)之一。↓

語(yǔ)義分析技術(shù)、圖文轉(zhuǎn)換技術(shù)、模式識(shí)別技術(shù)、地理信息技術(shù)等等,都將獲得應(yīng)用。17‘大數(shù)據(jù)(BigData)”概念的提出沙里淘金大數(shù)據(jù)無(wú)疑是有價(jià)值的(視頻監(jiān)控、流量記錄、日志記錄。。。)

但是挖掘大數(shù)據(jù)的價(jià)值類似沙里淘金(每天產(chǎn)生24小時(shí)的視頻數(shù)據(jù),絕大部分都沒(méi)有利用價(jià)值,可能是幾秒鏡頭捕捉到某罪犯體貌特征,對(duì)公安部門而言就是彌足珍貴的。為了這幾秒鐘,必須要保存全部的24小時(shí))。

大數(shù)據(jù)的一個(gè)典型特征,價(jià)值密度比較低(為了一點(diǎn)金子,需要保存全部沙子)。18‘大數(shù)據(jù)(BigData)”概念的提出實(shí)時(shí)處理的要求,是區(qū)別大數(shù)據(jù)應(yīng)用和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、BI技術(shù)的關(guān)鍵差別之一數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、BI應(yīng)用對(duì)處理時(shí)間的要求并不高(甚至可以容忍1、2天獲得結(jié)果)。

對(duì)于更多用戶而言則需要在1秒鐘內(nèi)形成答案,否則這些結(jié)果可能就是過(guò)時(shí)的、無(wú)效的、或者難以忍受的。19網(wǎng)絡(luò)化、服務(wù)化、平臺(tái)無(wú)關(guān)、云計(jì)算、客戶體驗(yàn)。。。金融從業(yè)人員所需的股價(jià)波動(dòng)信息、導(dǎo)航用戶所需的實(shí)時(shí)路況信息、搜索引擎的返回結(jié)果、社會(huì)關(guān)系網(wǎng)絡(luò)信息‘大數(shù)據(jù)(BigData)”觀點(diǎn)的提出業(yè)界對(duì)大數(shù)據(jù)歸納出4個(gè)層面的特點(diǎn)(4V):

Volume:數(shù)據(jù)體量巨大(從TB級(jí)別,躍升到PB級(jí)別);

Variety:數(shù)據(jù)類型繁多(網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等);

Velocity:處理速度快(1秒定律,有別于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù));

Value:價(jià)值密度低。

Veracity:真實(shí)性——IBM。

Variability:易變性——Forrester分析師布賴恩·霍普金斯(BrianHopkins)和鮑里斯·埃韋爾松(BorisEvelson)撰寫的《首席信息官,請(qǐng)用大數(shù)據(jù)擴(kuò)展數(shù)字視野》報(bào)告中。

目前,沒(méi)有大數(shù)據(jù)的正式定義。20BigData相關(guān)的研究計(jì)劃2012年3月29日,美國(guó)政府宣布

“大數(shù)據(jù)的研究和發(fā)展計(jì)劃?!碧岣邚拇笮蛷?fù)雜的數(shù)字?jǐn)?shù)據(jù)集中提取知識(shí)和觀點(diǎn)的能力,承諾幫助加快在科學(xué)與工程中的步伐,加強(qiáng)國(guó)家安全,并改變教學(xué)研究。

六個(gè)聯(lián)邦政府的部門和機(jī)構(gòu)宣布新的2億美元的投資,提高從大量數(shù)字?jǐn)?shù)據(jù)中訪問(wèn)、組織、收集發(fā)現(xiàn)信息的工具和技術(shù)水平。

21BigData相關(guān)的研究計(jì)劃國(guó)防部多尺度異常檢測(cè)(ADAMS)項(xiàng)目解決大規(guī)模數(shù)據(jù)集的異常檢測(cè)和特征化。MachineReading

項(xiàng)目,旨在實(shí)現(xiàn)人工智能的應(yīng)用和發(fā)展學(xué)習(xí)系統(tǒng)的過(guò)程中對(duì)自然文本進(jìn)行知識(shí)插入,而不是依靠昂貴和費(fèi)時(shí)的知識(shí)表示目前的處理進(jìn)程,并需要專家和相關(guān)知識(shí)工程師所給出的語(yǔ)義表示信息。

22BigData相關(guān)的研究計(jì)劃Mind‘s

Eye

項(xiàng)目,旨在為機(jī)器建立視覺(jué)的智能。傳統(tǒng)的機(jī)器視覺(jué)研究的對(duì)象選取廣泛的物體來(lái)描述一個(gè)場(chǎng)景的屬性名詞,而Mind’s

Eye旨在增加在這些場(chǎng)景的動(dòng)作認(rèn)識(shí)和推理需要的知覺(jué)認(rèn)知基礎(chǔ)。這些技術(shù)可以建立一個(gè)更完整的視覺(jué)智能效果。視頻和圖像的檢索和分析工具(VIRAT)計(jì)劃旨在開(kāi)發(fā)一個(gè)系統(tǒng)能夠利用軍事圖像分析員收集的數(shù)據(jù)進(jìn)行大規(guī)模的軍事圖像分析,使分析師能夠在相關(guān)活動(dòng)發(fā)生時(shí)建立警報(bào)。VIRAT還計(jì)劃開(kāi)發(fā)工具,能夠以較高的準(zhǔn)確率和召回率的從大量視頻庫(kù)里進(jìn)行視頻內(nèi)容的檢索。23BigData相關(guān)的研究計(jì)劃XDATA項(xiàng)目計(jì)劃旨在開(kāi)發(fā)用于分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算技術(shù)和軟件工具。其核心挑戰(zhàn)是可伸縮的算法在分布式數(shù)據(jù)存儲(chǔ)中的應(yīng)用、如何使人機(jī)交互工具能夠有效迅速的定制不同的任務(wù),以方便對(duì)不同數(shù)據(jù)進(jìn)行視覺(jué)化處理。對(duì)開(kāi)源軟件工具包的靈活使用,處理大量國(guó)防應(yīng)用中的數(shù)據(jù)。24BigData相關(guān)的研究計(jì)劃國(guó)家人文基金會(huì)數(shù)據(jù)挖掘的挑戰(zhàn)旨分析大數(shù)據(jù)的變化對(duì)人文社會(huì)科學(xué)的影響,這種新的計(jì)算為基礎(chǔ)的研究方法都需要搜索、分析和理解大量的材料,如數(shù)字化的書籍和報(bào)紙數(shù)據(jù)庫(kù),從網(wǎng)絡(luò)搜索,傳感器和手機(jī)記錄交易數(shù)據(jù)。BigData相關(guān)的研究計(jì)劃計(jì)算先行者已經(jīng)資助在加州大學(xué)伯克利分校的一個(gè)研究小組,深入整合算法、機(jī)器和人,以解決大數(shù)據(jù)的研究挑戰(zhàn)。

隨機(jī)網(wǎng)絡(luò)模型的重點(diǎn)研究組開(kāi)發(fā)一種統(tǒng)一的理論框架為基準(zhǔn)的統(tǒng)計(jì)方法,可伸縮的網(wǎng)絡(luò)模型算法,以區(qū)別隨機(jī)性的網(wǎng)絡(luò)知識(shí)。通過(guò)學(xué)習(xí)大量報(bào)紙數(shù)據(jù)中單詞和短語(yǔ)之間的關(guān)系,提供自動(dòng)化和可擴(kuò)展性的媒體分析工具。

相關(guān)的研究熱點(diǎn)之知識(shí)庫(kù)構(gòu)建基于開(kāi)放網(wǎng)絡(luò)大數(shù)據(jù)構(gòu)建知識(shí)庫(kù)是國(guó)內(nèi)外工業(yè)界開(kāi)發(fā)和學(xué)術(shù)界研究的一個(gè)熱點(diǎn)。目前,世界各國(guó)各個(gè)組織建立的知識(shí)庫(kù)多達(dá)50余種,相關(guān)的應(yīng)用系統(tǒng)更是達(dá)到了上百種。

其中,有代表性的知識(shí)庫(kù)或應(yīng)用系統(tǒng)有KnowItAll,TextRunner,NELL,Probase,Satori,PROSPERA,SOFIE以及一些基于維基百科等在線百科知識(shí)構(gòu)建的知識(shí)庫(kù)DBpedia,YAGO,Omega,WikiTaxonomy。27相關(guān)的研究熱點(diǎn)之知識(shí)庫(kù)構(gòu)建一些著名的商業(yè)網(wǎng)站、公司和政府也發(fā)布了類似的知識(shí)搜索和計(jì)算平臺(tái)。如Evi公司的TrueKnowledge知識(shí)搜索平臺(tái);美國(guó)官方政府網(wǎng)站Data.gov;wolfram的知識(shí)計(jì)算平臺(tái)wolframalpha;Google的知識(shí)圖譜(knowledgegraph);Facebook推出的類似的實(shí)體搜索服務(wù)graphsearch等。28相關(guān)的研究熱點(diǎn)之知識(shí)庫(kù)構(gòu)建在國(guó)內(nèi),中文知識(shí)圖譜的構(gòu)建也有大量的研究和開(kāi)發(fā)工作。

代表性工作有:中國(guó)科學(xué)院計(jì)算技術(shù)研究所的基于OpenKN(開(kāi)放知識(shí)網(wǎng)絡(luò))的“人立方、事立方、知立方系統(tǒng)”;中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院的陸汝鈐(qián)提出的知件(knowware);上海交通大學(xué)最早構(gòu)建的中文知識(shí)圖譜平臺(tái)zhishi.me;百度推出的中文知識(shí)圖譜搜索;搜狗推出的知立方平臺(tái);復(fù)旦大學(xué)GDM實(shí)驗(yàn)室推出的中文知識(shí)圖譜展示平臺(tái)等。29相關(guān)的研究熱點(diǎn)之知識(shí)庫(kù)構(gòu)建就規(guī)模而言,擁有概念最多的知識(shí)庫(kù)是Probase,目前核心概念約270萬(wàn),概念總量達(dá)到千萬(wàn)級(jí)。

包含實(shí)體最多的是wolframalpha,有10萬(wàn)億個(gè)實(shí)體。

近年來(lái)影響力比較大的知識(shí)庫(kù)或知識(shí)搜索服務(wù)有Google的知識(shí)圖譜,目前規(guī)模是5億個(gè)實(shí)體對(duì)象和350億條實(shí)體間關(guān)系信息,且規(guī)模在隨著信息的增長(zhǎng)不斷地增加;微軟亞洲研究院的Probase也是近幾年比較熱門的知識(shí)庫(kù),它是基于概率化構(gòu)建的知識(shí)庫(kù),支持針對(duì)短文本的語(yǔ)義理解。比較有特色的還有國(guó)內(nèi)搜狗的知立方系統(tǒng),側(cè)重與基于圖的邏輯推理計(jì)算,包括利用語(yǔ)義網(wǎng)的三元組推理補(bǔ)充實(shí)體數(shù)據(jù)、對(duì)用戶查詢?cè)~進(jìn)行語(yǔ)義理解以及句法分析等。30相關(guān)的研究熱點(diǎn)之知識(shí)庫(kù)構(gòu)建

Google發(fā)布的知識(shí)圖譜,將搜索結(jié)果知識(shí)系統(tǒng)化,一個(gè)關(guān)鍵詞就能獲得完整的知識(shí)體系,從而讓用戶能快捷簡(jiǎn)單地發(fā)現(xiàn)新的信息和知識(shí)。知識(shí)圖譜從Freebase、維基百科或全球概覽中獲得專業(yè)的信息,并通過(guò)大規(guī)模的信息搜索分析來(lái)提高結(jié)果的深度和廣度?!爸R(shí)圖譜”和傳統(tǒng)的搜素結(jié)果相比,在3個(gè)方面有所提升:①結(jié)果的正確與全面

一個(gè)關(guān)鍵詞可能有多重含義,知識(shí)圖譜會(huì)展示全面的信息,讓用戶找到自己最想要的答案。②最好的總結(jié)更好地的理解用戶搜索的信息,并總結(jié)出相關(guān)的內(nèi)容和主題?!叭恕说纳绞论E”。③更深、更廣。

知識(shí)圖譜”會(huì)給出搜索結(jié)果的完整知識(shí)體系,用戶可能會(huì)發(fā)現(xiàn)新知識(shí)?!耙粋€(gè)旅行目的地——以此命名的餐館——一本小說(shuō)——同名電影”。31大數(shù)據(jù)領(lǐng)域的開(kāi)源技術(shù)1.ApacheHadoop一個(gè)開(kāi)源的分布式計(jì)算框架。

最初由Doug為支持其開(kāi)源Web搜索引擎Nutch所創(chuàng)立。通過(guò)集成MapReduce技術(shù),Hadoop將大數(shù)據(jù)分布到多個(gè)數(shù)據(jù)節(jié)點(diǎn)上進(jìn)行處理。Hadoop遵循Apache2.0許可證,可以輕松處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),成為現(xiàn)在非常流行的大數(shù)據(jù)解決方案。32大數(shù)據(jù)領(lǐng)域的開(kāi)源技術(shù)2.R語(yǔ)言R語(yǔ)言是一種開(kāi)源編程語(yǔ)言,專門為數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)可視化而設(shè)計(jì)。R語(yǔ)言最初由RossIhaka和RobertGentleman在奧克蘭大學(xué)設(shè)計(jì)出來(lái),之后迅速成為大數(shù)據(jù)領(lǐng)域的重要工具。R語(yǔ)言遵循GNU的GPL(GeneralPublicLicense,通用公共許可證)。33Matlab?大數(shù)據(jù)領(lǐng)域的開(kāi)源技術(shù)3.Cascading一個(gè)針對(duì)Java開(kāi)發(fā)人員的應(yīng)用框架,可以基于ApacheHadoop開(kāi)發(fā)數(shù)據(jù)分析和數(shù)據(jù)管理應(yīng)用。是Hadoop的抽象層,可以屏蔽MapReduce的復(fù)雜性,支持任何基于JVM的編程語(yǔ)言在Hadoop集群上執(zhí)行數(shù)據(jù)處理任務(wù)。最初由ChrisWensel開(kāi)發(fā),用作MapReduce的替代API。遵循GNU許可證,一般用于廣告定位、日志分析、Web數(shù)據(jù)挖掘和ETL應(yīng)用。34Extraction-Transformation-Loading,數(shù)據(jù)提取、轉(zhuǎn)換和加載大數(shù)據(jù)領(lǐng)域的開(kāi)源技術(shù)4.Scribe一個(gè)由Facebook開(kāi)發(fā)的日志聚合服務(wù)器軟件,用于實(shí)時(shí)從大量服務(wù)器匯集日志數(shù)據(jù)。于2008年發(fā)布,遵循Apache2許可證,擴(kuò)展性極佳,每天可應(yīng)對(duì)數(shù)百億日志記錄的挑戰(zhàn)。35大數(shù)據(jù)領(lǐng)域的開(kāi)源技術(shù)5.ElasticSearch一款由ShayBanon開(kāi)發(fā),遵循Apache許可證的開(kāi)源搜索服務(wù)器?;诜植际接?jì)算,對(duì)于實(shí)時(shí)搜索可以提供很好的可擴(kuò)展性解決方案。一些公司已經(jīng)對(duì)ElasticSearch表示認(rèn)可(例如StumbleUpon和Mozilla)。36社交化網(wǎng)頁(yè)推薦引擎,瀏覽器插件,firefox大數(shù)據(jù)領(lǐng)域的開(kāi)源技術(shù)6.ApacheHbase一個(gè)使用Java語(yǔ)言編寫的、以谷歌BigTable技術(shù)為基礎(chǔ)的開(kāi)源非關(guān)系型列式分布數(shù)據(jù)庫(kù),可運(yùn)行在HDFS文件系統(tǒng)之上。HBase提供了很好的存儲(chǔ)容錯(cuò)能力和快速訪問(wèn)大量稀疏文件的能力。遵循Apache2許可證。37大數(shù)據(jù)領(lǐng)域的開(kāi)源技術(shù)7.ApacheCassandra由Facebook開(kāi)發(fā)的另一個(gè)開(kāi)源NoSQL數(shù)據(jù)庫(kù),遵循Apache2許可證。

出于對(duì)HBase的喜愛(ài),F(xiàn)acebook開(kāi)始逐漸放棄使用Cassandra,但許多公司(如Netflix)依然使用Cassandra數(shù)據(jù)庫(kù)為其后端流媒體服務(wù)提供動(dòng)力。38大數(shù)據(jù)領(lǐng)域的開(kāi)源技術(shù)8.MongoDB一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù),旨在為Web應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。采用C++語(yǔ)言編寫,是非常流行的JSON文檔式NoSQL數(shù)據(jù)庫(kù),受到許多公司認(rèn)同,MTVNetworks、craigslist和迪斯尼互動(dòng)傳媒集團(tuán),紐約時(shí)報(bào)以及Etsy都是MongoDB的客戶。39JSON(JavaScriptObjectNotation)是一種輕量級(jí)的數(shù)據(jù)交換格式,基于JavaScript的一個(gè)子集,采用完全獨(dú)立于語(yǔ)言的文本格式,但是也使用了類似于C語(yǔ)言家族的習(xí)慣(包括C,C++,C#,Java,JavaScript,Perl,Python等),從而使JSON成為理想的數(shù)據(jù)交換語(yǔ)言。易于人閱讀和編寫,同時(shí)也易于機(jī)器解析和生成。大數(shù)據(jù)領(lǐng)域的開(kāi)源技術(shù)9.ApacheCouchDB一個(gè)開(kāi)源NoSQL數(shù)據(jù)庫(kù),它以文檔方式(JSON)存儲(chǔ)數(shù)據(jù)。

使用JavaScript語(yǔ)言作為查詢語(yǔ)言,集成MapReduce技術(shù)。IBMLotusNotes的開(kāi)發(fā)人員DamienKatz在2005年構(gòu)建了CouchDB,用于大規(guī)模對(duì)象的數(shù)據(jù)存儲(chǔ)系統(tǒng)。CouchDB遵循Apache2許可證,英國(guó)廣播公司(BBC)使用CouchDB存儲(chǔ)動(dòng)態(tài)內(nèi)容,瑞士瑞信銀行(CreditSuisse)的商品部也采用了它。40相關(guān)的企業(yè)產(chǎn)品

Oracle公司推出AdvancedAnalytics工具,作為Oracle數(shù)據(jù)庫(kù)與R分析引擎之間的橋接。

Oracle為其BigDataAppliance提供了一個(gè)名為

RConnectorforHadoop的工具,這是一個(gè)在OracleExax86集群上運(yùn)行的ClouderaCDH3Hadoop環(huán)境。該連接器可讓R控制臺(tái)與在BigDataAppliance上運(yùn)行的Hadoop分布式文件系統(tǒng)和NoSQL數(shù)據(jù)庫(kù)進(jìn)行通信。41相關(guān)的企業(yè)產(chǎn)品微軟的SystemCenter2012中的SystemCenterVirtualMachineManager(VMM)2012著重提供私有云解決方案。由數(shù)據(jù)分析人員或最終用戶創(chuàng)建出來(lái)的BI數(shù)據(jù)模型可以放在類似蘋果“APPStore”的數(shù)據(jù)集市上,通過(guò)私有云或共有云的形式進(jìn)行分享。在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域,SQLServer2012采用“最先進(jìn)”的列存儲(chǔ)技術(shù),帶來(lái)查詢性能的極大提升。SQLServer2012提供的數(shù)據(jù)倉(cāng)庫(kù)可應(yīng)對(duì)數(shù)據(jù)量幾十個(gè)TB的情況,數(shù)據(jù)量在幾百個(gè)TB的情況下,微軟并行數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品即可發(fā)揮作用。42相關(guān)的企業(yè)產(chǎn)品IBM的大數(shù)據(jù)平臺(tái),包括Hadoop和StreamComputing兩個(gè)組件,并且提供基礎(chǔ)版供免費(fèi)下載。IBM全球首個(gè)大數(shù)據(jù)智慧賦能中心(Big

Data

CenterofCompetency)在北京成立。

Google的GFS、BIGTABLE和MAPREDUCE。43典型應(yīng)用場(chǎng)景搜索引擎購(gòu)物網(wǎng)站日志處理ETL(Extract-Transform-Load):中信銀行發(fā)卡量2008年達(dá)到500萬(wàn)張2010年翻了一倍。數(shù)據(jù)分析解決方案,結(jié)合實(shí)時(shí)歷史的客戶數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)商業(yè)智能。每天都評(píng)估用戶的一些刷卡行為,在當(dāng)天對(duì)用戶的信用額度進(jìn)行調(diào)整。提升營(yíng)銷的水平,以往配置一個(gè)營(yíng)銷活動(dòng)需要兩周時(shí)間,應(yīng)用數(shù)據(jù)解決方案之后,活動(dòng)變成了2—3天。44典型應(yīng)用場(chǎng)景使用HBase做數(shù)據(jù)分析:Facebook構(gòu)建了基于HBase的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)機(jī)器學(xué)習(xí):比如ApacheSoftwareFoundation(ASF)旗下的一個(gè)開(kāi)源項(xiàng)目Mahout,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。45典型應(yīng)用場(chǎng)景——網(wǎng)絡(luò)管理維護(hù)優(yōu)化以某運(yùn)營(yíng)商省公司為例,原始數(shù)據(jù)信令達(dá)到1TB/天,以文件形式保存。處理之后生成的xDR(xDetailRecord)數(shù)據(jù)量達(dá)到550GB/天,以數(shù)據(jù)庫(kù)形式保存。通常這些數(shù)據(jù)需要保存數(shù)天或數(shù)月。傳統(tǒng)文件系統(tǒng)以及關(guān)系數(shù)據(jù)庫(kù)處理這么大的數(shù)據(jù)量顯得捉襟見(jiàn)肘。

46典型應(yīng)用場(chǎng)景——網(wǎng)絡(luò)管理維護(hù)優(yōu)化采用海量分布式文件系統(tǒng),數(shù)據(jù)存儲(chǔ)量可以按需擴(kuò)展。NoSQL數(shù)據(jù)庫(kù)可以有效處理達(dá)PB級(jí)的數(shù)據(jù)。實(shí)時(shí)流處理及分析平臺(tái)保證實(shí)時(shí)處理海量數(shù)據(jù)。

智能分析技術(shù)在大數(shù)據(jù)的支撐下用于網(wǎng)絡(luò)管理維護(hù)優(yōu)化,提升網(wǎng)絡(luò)維護(hù)的實(shí)時(shí)性,事前預(yù)防成為可能。(通過(guò)歷史流量數(shù)據(jù)以及專家知識(shí)庫(kù)結(jié)合,生成預(yù)警模型,可以有效識(shí)別異常流量,防止網(wǎng)絡(luò)擁塞或者病毒傳播等異常。)47典型應(yīng)用場(chǎng)景——用戶行為分析某運(yùn)營(yíng)商建立營(yíng)銷門戶系統(tǒng),提供與營(yíng)銷活動(dòng)相關(guān)的日?qǐng)?bào)、月報(bào)統(tǒng)計(jì),包括量收、欠費(fèi)、用戶發(fā)展、預(yù)警信息、機(jī)構(gòu)樹匯總等內(nèi)容。

目前流量經(jīng)營(yíng)分析的瓶頸主要是數(shù)據(jù)的采集和處理。每月新增數(shù)據(jù)量4T,傳統(tǒng)方式分析結(jié)果效率低(需要26個(gè)小時(shí)),系統(tǒng)擴(kuò)展困難。

采用DataCloud、并行分布式處理等技術(shù)后,報(bào)表分析只需要2個(gè)小時(shí),系統(tǒng)的擴(kuò)展性和可用性均得到提高。

48典型應(yīng)用場(chǎng)景——用戶行為分析用戶行為結(jié)合用戶profile、產(chǎn)品、服務(wù)、計(jì)費(fèi)、財(cái)務(wù)等進(jìn)行綜合分析,實(shí)現(xiàn)用戶個(gè)性化的策略控制。還可以對(duì)管道內(nèi)容(圖片、電影、網(wǎng)頁(yè)等)進(jìn)行分析,深入理解用戶的行為特征。49典型應(yīng)用場(chǎng)景——個(gè)性化推薦應(yīng)用商店軟件推薦、IPTV視頻節(jié)目推薦——數(shù)據(jù)量大,實(shí)時(shí)性要求高,涉及到大量的非結(jié)構(gòu)化數(shù)據(jù)以及智能分析。分析用戶已有日志及評(píng)論、打分等數(shù)據(jù),從互聯(lián)網(wǎng)通過(guò)爬蟲分析獲得相關(guān)視頻和評(píng)論進(jìn)行綜合分析。

可以采用的技術(shù)包括并行計(jì)算框架、分布式文件系統(tǒng)以及文本分類/聚類/關(guān)聯(lián)算法、文本摘要抽取、情感分析和文本語(yǔ)義分析、文本挖掘等智能分析算法。50典型應(yīng)用場(chǎng)景——基于平臺(tái)的數(shù)據(jù)云服務(wù)(DaaS)

用戶行為綜合分析(網(wǎng)頁(yè)的語(yǔ)義、圖片、視頻內(nèi)容以及用戶的觀點(diǎn)、位置、時(shí)間關(guān)聯(lián)等,例如某用戶在淘寶上的購(gòu)物,穿插了在其它網(wǎng)站上瀏覽、與朋友的聊天或者在微博上發(fā)表的言論)之后能較準(zhǔn)確地反應(yīng)個(gè)體用戶的興趣愛(ài)好、價(jià)值取向、活動(dòng)范圍以及社會(huì)關(guān)系等等。用戶群分析可以挖掘出用戶群特征或者趨勢(shì)。電信運(yùn)營(yíng)商可將上述分析結(jié)果作為數(shù)據(jù)服務(wù)提供給企業(yè)、研究機(jī)構(gòu)等,或者針對(duì)用戶提供廣告推送。51DataasaService“NoSQL”NoSQL,指的是非關(guān)系型的數(shù)據(jù)庫(kù),該術(shù)語(yǔ)在2009年初得到了廣泛認(rèn)同。應(yīng)用最多的是以“鍵-值”對(duì)存儲(chǔ),結(jié)構(gòu)不固定,每一個(gè)元組可以有不一樣的字段,每個(gè)元組可以根據(jù)需要增加一些自己的鍵值對(duì),這樣就不會(huì)局限于固定的結(jié)構(gòu),可以減少一些時(shí)間和空間的開(kāi)銷。其它類型的NoSQL還包括文檔型的、列存儲(chǔ)、圖型數(shù)據(jù)庫(kù)、xml數(shù)據(jù)庫(kù)等。52關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)格式化的數(shù)據(jù)結(jié)構(gòu)(表),每個(gè)元組字段的組成都一樣,數(shù)據(jù)庫(kù)會(huì)為每個(gè)元組分配所有的字段。結(jié)構(gòu)化便于表與表之間進(jìn)行連接等操作,但從另一個(gè)角度來(lái)說(shuō)也是關(guān)系型數(shù)據(jù)庫(kù)性能瓶頸的一個(gè)因素。新的應(yīng)用需求帶來(lái)的問(wèn)題互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,特別是超大規(guī)模和高并發(fā)的SNS(社會(huì)網(wǎng)絡(luò)服務(wù))類型的web2.0純動(dòng)態(tài)網(wǎng)站傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)已經(jīng)顯得力不從心,暴露了很多難以克服的問(wèn)題。54新的應(yīng)用需求帶來(lái)的問(wèn)題1、Highperformance-對(duì)數(shù)據(jù)庫(kù)高并發(fā)讀寫的需求

web2.0網(wǎng)站要根據(jù)用戶個(gè)性化信息來(lái)實(shí)時(shí)生成動(dòng)態(tài)頁(yè)面和提供動(dòng)態(tài)信息,所以基本上無(wú)法使用動(dòng)態(tài)頁(yè)面靜態(tài)化技術(shù),因此數(shù)據(jù)庫(kù)并發(fā)負(fù)載非常高,往往要達(dá)到每秒上萬(wàn)次讀寫請(qǐng)求。關(guān)系數(shù)據(jù)庫(kù)即使可以應(yīng)付上萬(wàn)次SQL查詢,但是對(duì)于上萬(wàn)次SQL寫數(shù)據(jù)請(qǐng)求,硬盤IO則難以承受。新的應(yīng)用需求帶來(lái)的問(wèn)題2、HugeStorage-對(duì)海量數(shù)據(jù)的高效率存儲(chǔ)和訪問(wèn)的需求對(duì)于大型的SNS網(wǎng)站,每天用戶產(chǎn)生海量的用戶動(dòng)態(tài),例如Friendfeed一個(gè)月有2.5億條用戶動(dòng)態(tài)。對(duì)于關(guān)系數(shù)據(jù)庫(kù)來(lái)說(shuō),在一張2.5億條記錄的表里面進(jìn)行SQL查詢,用戶可能無(wú)法接受其響應(yīng)時(shí)間。又例如大型web網(wǎng)站(例如騰訊、淘寶)的用戶登錄系統(tǒng),也是動(dòng)輒數(shù)以億計(jì)的帳號(hào),也是對(duì)傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的挑戰(zhàn)。56新的應(yīng)用需求帶來(lái)的問(wèn)題3、HighScalability&&HighAvailability-對(duì)數(shù)據(jù)庫(kù)的高可擴(kuò)展性和高可用性的需求在基于web的架構(gòu)當(dāng)中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論