版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
PB級大數(shù)據(jù)存儲與分析解析部門:XXX
時間:XXX
制作人:XXX整理范文,僅供參考,可下載自行修改PB級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解讀2018年12月2日目錄一、PB級大數(shù)據(jù)存儲技術(shù)解讀2二、大數(shù)據(jù)分析系統(tǒng)應(yīng)規(guī)避的問題5三、剖析Hadoop和大數(shù)據(jù)的七誤解8四、6個優(yōu)秀的開源文件系統(tǒng)助力大數(shù)據(jù)分析13五、大數(shù)據(jù)與關(guān)系型數(shù)據(jù)庫是否水火不容?NO……17六、大數(shù)據(jù)探討:如何整理1700億條Twitter發(fā)布信息?21七、暢談阿里巴巴的大數(shù)據(jù)夢26八、Twitter利用Storm系統(tǒng)處理實時大數(shù)據(jù)35一、PB級大數(shù)據(jù)存儲技術(shù)解讀對于存儲管理人員來說,大數(shù)據(jù)應(yīng)該分為大數(shù)據(jù)存儲和大數(shù)據(jù)分析,這兩者的關(guān)系是——大數(shù)據(jù)存儲是用于大數(shù)據(jù)分析的。然而,到目前為止這是兩種截然不同的計算機(jī)技術(shù)領(lǐng)域。本文就重點解讀一下PB級大數(shù)據(jù)存儲技術(shù),希望對您有所幫助。b5E2RGbCAP越來越多的存儲產(chǎn)品都在融入大數(shù)據(jù)的概念和功能,并使之成為產(chǎn)品的一大賣點。但對于從事存儲管理的專業(yè)人員來說,對“大數(shù)據(jù)”在具體應(yīng)用場景中的特點和區(qū)別有所了解。plEanqFDPw大數(shù)據(jù)存儲致力于研發(fā)可以擴(kuò)展至PB甚至EB級別的數(shù)據(jù)存儲平臺;大數(shù)據(jù)分析關(guān)注在最短時間內(nèi)處理大量不同類型的數(shù)據(jù)集。DXDiTa9E3d在快速變化的技術(shù)趨勢中有兩個特點需要存儲管理人員重視起來。第一,大數(shù)據(jù)分析流程和傳統(tǒng)的數(shù)據(jù)倉庫的方式完全不同,其已經(jīng)變成了業(yè)務(wù)部門級別和數(shù)據(jù)中心級別的關(guān)鍵應(yīng)用。這也是存儲管理員的切入點。隨著基礎(chǔ)平臺(分布式計算或其它架構(gòu)〉變得業(yè)務(wù)關(guān)鍵化,用戶群較以往更加地依賴這一平臺,這也使得其成為企業(yè)安全性、數(shù)據(jù)保護(hù)和數(shù)據(jù)管理策略的關(guān)鍵課題。RTCrpUDGiT第二,通常用于數(shù)據(jù)分析平臺的分布式計算平臺內(nèi)的存儲不是你以往面對的網(wǎng)絡(luò)附加存儲(NAS〉和存儲區(qū)域網(wǎng)絡(luò)(SAN〉——其通常是內(nèi)置的直連存儲(NAS〉以及組成集群的分布式計算節(jié)點。這使得管理大數(shù)據(jù)變得更為復(fù)雜,因為你無法像以前那樣對這些數(shù)據(jù)部署安全、保護(hù)和保存流程。然而,執(zhí)行這些流程策略的必要性被集成在管理分布式計算集群之中,并且改變了計算和存儲層交互的方式。5PCzVD7HxA大數(shù)據(jù)分析和傳統(tǒng)的數(shù)據(jù)倉庫的不同大數(shù)據(jù)分析中包含了各種快速成長中的技術(shù)。因此,簡單用某一種技術(shù)嘗試對其定義,比如分布式計算,會比較困難。不過,這些定義大數(shù)據(jù)分析的通用性技術(shù)可以用如下特征闡述:jLBHrnAILg對于傳統(tǒng)數(shù)據(jù)倉庫處理流程效率和擴(kuò)展性方面限制的感知。將數(shù)據(jù),不論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù)從多個數(shù)據(jù)源匯聚的能力。以及認(rèn)識到數(shù)據(jù)的及時性是擴(kuò)展非結(jié)構(gòu)化數(shù)據(jù)源的關(guān)鍵,其中包括移動設(shè)備,RFID,網(wǎng)絡(luò)和不斷增長的自動化感知技術(shù)。xHAQX74J0X傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)通常從現(xiàn)有的關(guān)系型數(shù)據(jù)庫中抓取數(shù)據(jù)。然而,據(jù)估計超過80%的企業(yè)數(shù)據(jù)是非結(jié)構(gòu)化的,即無法關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS〉,比如DB2和Oracle完成的數(shù)據(jù)。一般而言,處于此次討論的目的,非結(jié)構(gòu)化數(shù)據(jù)可以看成所有無法簡單轉(zhuǎn)化到結(jié)構(gòu)化關(guān)系型數(shù)據(jù)庫中的所有數(shù)據(jù)。而企業(yè)現(xiàn)在希望從這些非結(jié)構(gòu)化數(shù)據(jù)類型中抽取有價值的信息,包括:LDAYtRyKfE郵件和其它形式的電子通訊記錄?網(wǎng)站上的資料,包括點擊量和社交媒體相關(guān)的內(nèi)容?數(shù)字視頻和音頻?設(shè)備產(chǎn)生的數(shù)據(jù)(RFID,GPS,傳感器產(chǎn)生的數(shù)據(jù),日志文件等〉以及物聯(lián)網(wǎng)在大數(shù)據(jù)分析的情況下,查看遠(yuǎn)多于RDBMS的數(shù)據(jù)類型十分必要一一這代表了各種重要的新信息源。并且隨著每年非結(jié)構(gòu)化數(shù)據(jù)存儲總量較結(jié)構(gòu)化數(shù)據(jù)增長率高出10到50倍,從業(yè)務(wù)角度看這些數(shù)據(jù)也變得更為重要。Zzz6ZB2Ltk更重要的數(shù)據(jù)需要更專業(yè)的人員進(jìn)行分析。但傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)對海量非結(jié)構(gòu)化數(shù)據(jù)的處理根本無法滿足大數(shù)據(jù)的需求。所以,存儲管理人員也應(yīng)該更快的跟隨技術(shù)潮流,更新自己的技術(shù)和知識結(jié)構(gòu),提高自己對大數(shù)據(jù)的管理和分析能力。dvzfvkwMIl二、大數(shù)據(jù)分析系統(tǒng)應(yīng)規(guī)避的問題隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身是資產(chǎn),這一點在業(yè)界已經(jīng)形成共識。越來越多的企業(yè)涉足到大數(shù)據(jù),但是大數(shù)據(jù)沒有想象中的那么簡單,所有大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等反映了數(shù)據(jù)庫不斷增長的復(fù)雜性。本文從安裝、搭建等方面展示了大數(shù)據(jù)分析系統(tǒng)的應(yīng)該規(guī)避的系列問題。rqyn14ZNXI大數(shù)據(jù)分析前期要做的事其實,每一個數(shù)據(jù)都有一個ETL,就是抽取、轉(zhuǎn)化,然后去加載,包括做數(shù)據(jù)的清洗。如果數(shù)據(jù)大批量進(jìn)來的話,有些數(shù)據(jù)可能是有問題的,馬先生舉了個例子:比如說,好多地址會寫得比較模糊,如果要搜索北京這個詞的時候,數(shù)據(jù)倉庫里可能只有一個京字,這些都要統(tǒng)一整理成一個,比如說北京,這樣后面分析就會簡單,比如山東,有人會輸入“魯”字來進(jìn)行搜索,而不是山東,這就需要在大數(shù)據(jù)分析前期做好數(shù)據(jù)清理工作,做規(guī)范化,這樣后面的數(shù)據(jù)分析起來就方便很多。EmxvxOtOco搭建大數(shù)據(jù)分析系統(tǒng)的注意事項在搭建大數(shù)據(jù)分析系統(tǒng)時,有哪些需要注意的事項?馬老師提到:首先要弄明白你所在企業(yè)需要什么樣的數(shù)據(jù),或者你想得到什么價值,想明白了再去做。因為做數(shù)據(jù)不像做別的東西,一定明確知道要知道你要干什么,不然這個系統(tǒng)搭的時候會有很多困難,不知道該怎么搭,不知道用什么技術(shù),也不知道數(shù)據(jù)進(jìn)去是否在浪費。而目前的情況是:很多企業(yè)可能會先把架構(gòu)搭出來,實際上這數(shù)據(jù)每天在算,但是不知道這數(shù)據(jù)帶來什么價值,所以更多是一個業(yè)務(wù)驅(qū)動的。再舉個例子:比如說中國移動就想挖一挖,到底是哪一個用戶老欠費,哪一個用戶用得多,用的多的就給他優(yōu)惠多一點……如果他有這個需求,你再把這個需求下轉(zhuǎn)給下面的人,按照這個需求去開發(fā);SixE2yXPq5其次,需要選擇適當(dāng)?shù)募夹g(shù)。比如說你一臺機(jī)器夠用的,不要用兩臺機(jī)器,能夠進(jìn)來報表就不要用交互報表,因為那個都是有技術(shù)成本的,并且上線的速度會慢很多。所以建議任何一個企業(yè)在搭建數(shù)據(jù)分析以前,要特別清晰地知道其搭建的需求和目的,選擇什么方案,搭它來解決什么問題,針對需求你去做一個數(shù)據(jù)分析;6ewMyirQFL再次,在沒有時時性要求時,你不要自作主張,向老大提這個。因為大公司的批量已經(jīng)做得非常完美了,可能批量已經(jīng)帶來35%的收入增加了,他要再做時時,再增加5%,而你現(xiàn)在什么都沒有。如果說先要做時時,或者先要全部搞出來的話,可能要先一步一部把35%做好,把那個批量先做出來,然后再做時時,這樣效果會更好。kavU42VRUs不要濫搭大數(shù)據(jù)分析系統(tǒng)技術(shù)這個東西都是相通的,沒有一項改進(jìn)都是說完全是重新造出來的,都是在改的,但是它帶來的價值不一樣,它帶來的人的思考,就跟人從零售店買東西和網(wǎng)商這種不一樣,但是技術(shù),零售店也會用一些數(shù)據(jù)庫,網(wǎng)上也可能用,要在這個上面做一些轉(zhuǎn)變。馬老師談到,好多國企<這里就不點名),就是為了上工程去上工程,稱自己有海量數(shù)據(jù)。當(dāng)問他需要搭建的大數(shù)據(jù)系統(tǒng)是用來干什么,他們的答案很出乎意料:先給搭起來,先存起來,需要的時候再用,就這種思想。其實這個是沒有必要的°y6v3ALoS89總結(jié)雖然大數(shù)據(jù)現(xiàn)在炙手可熱,大數(shù)據(jù)分析越來越火爆,很多企業(yè)都在試圖擁抱大數(shù)據(jù)技術(shù)。但還是應(yīng)該具體問題具體分析,因為大數(shù)據(jù)分析系統(tǒng)并非適合所有的企業(yè),一些小型規(guī)模的企業(yè)在舊系統(tǒng)能滿足需求的時候,就不要盲目地去追隨潮流,舍棄舊的系統(tǒng)重新搭建,也可能解決了這個小缺口,但是可能會滋生其它更大的問題,這就得不償失了。M2ub6vSTnP三、剖析Hadoop和大數(shù)據(jù)的七誤解如今,Hadoop成為解決大數(shù)據(jù)需求的主要投資領(lǐng)域之一,而類似Facebook等互聯(lián)網(wǎng)巨頭在都公開的吹捧Hadoop上取得的成功,同樣初入大數(shù)據(jù)領(lǐng)域的公司也必先著眼于Hadoop。但對于Hadoop技術(shù)而言,是一個多維的解決方案,可以通過不同的方式進(jìn)行部署和使用。下面就了解一些關(guān)于Hadoop和大數(shù)據(jù)的七大錯誤理念。0YujCfmUCw對于Hadoop技術(shù)而言,可以說是開源領(lǐng)域的傳奇,然而如今業(yè)界還伴隨著一些流言,這些流言可能會導(dǎo)致IT高管們帶著“有色”的觀點去制定策略。eUts8ZQVRd如今,數(shù)據(jù)量在以驚人的速度增長,從IDC分析師報告中2018年數(shù)據(jù)存儲上的增長速度將達(dá)到53.4%,AT&T更是聲稱無線數(shù)據(jù)的流量在過去的5年內(nèi)增長200倍,從互聯(lián)網(wǎng)內(nèi)容、電子郵件、應(yīng)用通知、社交消息以及每天接收的消息都在顯著的增長,這也是眾多大企業(yè)都聚焦大數(shù)據(jù)的原因所在。sQsAEJkW5T丸數(shù)據(jù)蔦克言”:丸數(shù)據(jù)蔦克言”:割析Hadoop和丸數(shù)據(jù)的七謠解毫無疑問,Hadoop成為解決大數(shù)據(jù)需求的主要投資領(lǐng)域之一,而類似Facebook等互聯(lián)網(wǎng)巨頭在都公開的吹捧Hadoop上取得的成功,同樣初入大數(shù)據(jù)領(lǐng)域的公司也必先著眼于Hadoop。但對于Hadoop技術(shù)而言,是一個多維的解決方案,可以通過不同的方式進(jìn)行部署和使用。下面就了解一些關(guān)于Hadoop和大數(shù)據(jù)的七大錯誤理念:GMsIasNXkA大數(shù)據(jù)僅僅是容量對大數(shù)據(jù)來說,除了指體積之外,還經(jīng)常提到Variety〈多樣)、Variability〈可變)、Velocity〈速度)和Value〈價值)。關(guān)鍵點在于大數(shù)據(jù)并不是體積上的增長,更多是未來的實時分析、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的發(fā)展,并被企業(yè)CIO用于更好的決策。TIrRGchYzg綜上所述,并不是只有分析大數(shù)據(jù)才會獲得價值。舉個例子,存儲和分析1PB的超時限數(shù)據(jù)的價值可能比不上實時分析1GB的數(shù)據(jù),而從“新鮮”的數(shù)據(jù)上獲得價值比解剖過時的數(shù)據(jù)更具價值。7EqZcWLZNX傳統(tǒng)SQL不能在Hadoop上使用眾多廠商在Hadoop上投入精力,布局市場戰(zhàn)略時,十分清楚HDFS和MapReduce受限于處理類似SQL語言的能力,這也是Hive、Pig和Sqoop最終得以推廣的原因。更多企業(yè)通過Hadoop和SQL兼容來管理大量的數(shù)據(jù),PivotalHD是結(jié)合SQL并行處理資料庫與Hadoop2.0,針對企業(yè)資料分析需求而優(yōu)化的Hadoop強化版本。lzq7IGf02EHadoop是唯一的新IT數(shù)據(jù)平臺談到數(shù)據(jù)平臺,大型機(jī)在IT投資組合里有是一個長期投資,與ERP、CRM和SCM這些系統(tǒng)一樣演變至今。而面對大數(shù)據(jù)時代,大型機(jī)不想被架構(gòu)遺棄,必須展示在現(xiàn)有IT投資環(huán)境中的價值,而許多客戶遇到速度、規(guī)模和成本的問題,通過vFabricSQLFire這樣的內(nèi)存大數(shù)據(jù)網(wǎng)絡(luò)去解決高速數(shù)據(jù)存取,促進(jìn)大型機(jī)批處理或?qū)崟r分析報告這些問題。zvpgeqjlhk虛擬化會導(dǎo)致性能下降Hadoop最初的設(shè)計只是運行實體服務(wù)器上,然而隨著云計算發(fā)展,許多企業(yè)都希望能作為云數(shù)據(jù)中心提供服務(wù)。之所以虛擬化Hadoop,企業(yè)首先要考慮管理基礎(chǔ)設(shè)施的擴(kuò)展性,認(rèn)識到擴(kuò)展計算資源,比如虛擬Hadoop節(jié)點在數(shù)據(jù)和計算分開時會對性能有所幫助,否則如果你關(guān)閉某個Hadoop節(jié)點將丟失上面的所有數(shù)據(jù)或者添加一個沒有數(shù)據(jù)的空節(jié)點。NrpoJac3vlHadoop只可以在數(shù)據(jù)中心運行對于在SaaS云服務(wù)解決方案,許多云服務(wù)允許云端運行Hadoop、SQL,這無疑可以幫助企業(yè)省下數(shù)據(jù)中心建造投資的時間和金錢。特別是對于公有云情況下,Java開發(fā)者可以從SpringDataforHadoop以及一些其它的GitHub用例中獲益。lnowfTG4KI大數(shù)據(jù)復(fù)雜性Hadoop對虛擬化無經(jīng)濟(jì)價值Hadoop被很多人認(rèn)為,盡管在商用服務(wù)器上運行,添加一個虛擬層在帶來額外支出的同時并不會有額外的價值收益,但其實這個說法并沒有考慮到數(shù)據(jù)和數(shù)據(jù)分析事實上都是動態(tài)的。虛擬化基礎(chǔ)設(shè)施同樣可以減少物理硬件數(shù)量,讓CAPEX〈資本支出)直接等于商用硬件成本,而通過自動以及高效利用共享基礎(chǔ)設(shè)施同樣可以減少0PEX〈運營成本)。fjnFLDa5ZoHadoop不能運行在SAN或NAS上盡管Hadoop在本地磁盤上運行,對于中小型集群一樣可以在一個共享的SAN環(huán)境下體現(xiàn)良好的性能表現(xiàn),而高帶寬比如10GB以太網(wǎng)、PoE以及iSCSI對性能同樣有很好的支持。tfnNhnE6e5由此,大數(shù)據(jù)成為行業(yè)追逐的熱點,以上七大有關(guān)大數(shù)據(jù)“誤解”問題的客觀看待。如同不同工程需求不同,Hadoop是一個工具來幫助企業(yè)更好的應(yīng)對大數(shù)據(jù)問題。無論是面對數(shù)據(jù)網(wǎng)格的GemFire或SQLFire,還是面向消息的RabbitMQ中間件,一個完整的SaaS解決方案如今比在Hadoop環(huán)境更容易實現(xiàn)。HbmVN777sL四、6個優(yōu)秀的開源文件系統(tǒng)助力大數(shù)據(jù)分析“大數(shù)據(jù)”作為時下最火熱的IT行業(yè)的詞匯,個人、企業(yè)和政府機(jī)構(gòu)之間的互動創(chuàng)造了數(shù)據(jù)的海洋,我們51CT0傳媒在4月26日-27日也將舉行2018大數(shù)據(jù)全球技術(shù)峰會,分享大數(shù)據(jù)技術(shù)趨勢和最佳實踐,是一場重新認(rèn)識數(shù)據(jù)價值的技術(shù)盛宴。大數(shù)據(jù)需要大量的儲存空間,本文分享了6個優(yōu)秀的開源文件系統(tǒng),助力大數(shù)據(jù)深入分析°V7l4jRB8Hs大數(shù)據(jù)在今天吸引了大量關(guān)注,個人、企業(yè)和政府機(jī)構(gòu)之間的互動創(chuàng)造了數(shù)據(jù)的海洋,通過有效識別、訪問、篩選和分析其中部分?jǐn)?shù)據(jù)能帶來新的見解和益處。大數(shù)據(jù)需要大量的儲存空間,先進(jìn)的存儲基礎(chǔ)設(shè)施必不可少,需要能在多臺服務(wù)器上伸縮自如的存儲解決方案。有許多優(yōu)秀的開源文件系統(tǒng)能用于深入分析大數(shù)據(jù),其中包括:83lcPA59W9QFSQuanteastFileSystem(QFS〉是一個高性能、容錯、分布式的文件系統(tǒng),其開發(fā)是用于支持MapReduce處理或者需要順序讀寫大文件的應(yīng)用。mZkklkzaaPFlicsystemchmarkbasedanaveragethroughputreadingorwriting20TBuncompresseddataacross65G0drivesonamixednetworkoFl-10Gbpslinks.ApacheHDF5version1,0,2,HDFSHadoopDistributedFileSystem,簡稱HDFS,是一個分布式文件系統(tǒng)。HDFS有著高容錯性fault-tolerent)的特點,并且設(shè)計用來部署在低廉的〈low-cost)硬件上。而且它提供高吞吐量〈highthroughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集〈largedataset)的應(yīng)用程序。HDFS放寬了〈relax)POSIX的要求〈requirements)這樣可以實現(xiàn)流的形式訪問〈streamingaccess)文件系統(tǒng)中的數(shù)據(jù)。HDFS開始是為開源的apache工程nutch的基礎(chǔ)結(jié)構(gòu)而創(chuàng)建,HDFS是hadoop工程的一部分,而hadoop又是lucene的一部分。AVktR43bpw
CephCeph是加州大學(xué)SantaCruz分校的SageWeil〈DreamHost的聯(lián)合創(chuàng)始人)專為博士論文設(shè)計的新一代自由軟件分布式文件系統(tǒng)。自2007年畢業(yè)之后,Sage開始全職投入到Ceph開發(fā)之中,使其能適用于生產(chǎn)環(huán)境。Ceph的主要目標(biāo)是設(shè)計成基于POSIX的沒有單點故障的分布式文件系統(tǒng),使數(shù)據(jù)能容錯和無縫的復(fù)制。2018年3月,LinusTorvalds將Cephclient合并到內(nèi)核2.6.34中。IBM開發(fā)者園地的一篇文章探討了Ceph的架構(gòu),它的容錯實現(xiàn)和簡化海量數(shù)據(jù)管理的功能。ORjBnOwcEdLustreLustre是一個大規(guī)模的、安全可靠的,具備高可用性的集群文件系統(tǒng),它是由SUN公司開發(fā)和維護(hù)的。該工程主要的目的就是開發(fā)下一代的集群文件系統(tǒng),可以支持超過10000個節(jié)點,數(shù)以PB的數(shù)據(jù)量存儲系統(tǒng)。2MiJTy0dTTGlusterFSGlusterFS是一個集群的文件系統(tǒng),支持PB級的數(shù)據(jù)量。GlusterFS通過RDMA和TCP/IP方式將分布到不同服務(wù)器上的存儲空間匯集成一個大的網(wǎng)絡(luò)并彳丁文件系統(tǒng)。gIiSpiue7APVFSPVFS是一個高性能、開源的并行文件系統(tǒng),主要用于并行計算環(huán)境中的應(yīng)用。特別為超大數(shù)量的客戶端和服務(wù)器端設(shè)計。模塊化結(jié)構(gòu)設(shè)計,可輕松的添加新的硬件和算法支持。uEhOUlYfmhPVFS側(cè)重高性能訪問大數(shù)據(jù)集,包含一個服務(wù)器進(jìn)程和客戶端開發(fā)庫,完全基于用戶級代碼編寫。特征:基于對象的設(shè)計思路Optimizedforregularstridedaccess獨立數(shù)據(jù)和元數(shù)據(jù)的存儲?優(yōu)化的MPI-IO支持多種網(wǎng)絡(luò)支持無狀態(tài)的服務(wù)器用戶級的實現(xiàn)方案系統(tǒng)級接口可在很多Linux版本上構(gòu)建支持多數(shù)平臺,包括IA32,IA64,Opteron,PowerPC,Alpha,andMIPSIAg9qLsgBX五、大數(shù)據(jù)與關(guān)系型數(shù)據(jù)庫是否水火不容?NO……在大多數(shù)IT觀察家的眼里,大數(shù)據(jù)通常是指那些規(guī)模大到難以用傳統(tǒng)關(guān)系型數(shù)據(jù)庫處理的數(shù)據(jù)集。但隨著大數(shù)據(jù)時代的到來,越來越多的數(shù)據(jù)庫并非建筑在“關(guān)系”之上,且具有更高的可擴(kuò)展性。那么,大數(shù)據(jù)與關(guān)系型數(shù)據(jù)庫是否水火不容?MariaDB的創(chuàng)始人之一MontyWidenius駁斥了這個觀點。WwghWvVhPE一直以來,人們都認(rèn)為大數(shù)據(jù)和NoSQL數(shù)據(jù)庫是天作之合,而關(guān)系型數(shù)據(jù)庫則被打上OUT的標(biāo)簽,但有一位數(shù)據(jù)庫老兵并不這么認(rèn)為。asfpsfpi4k在大多數(shù)IT觀察家的眼里,大數(shù)據(jù)通常是指那些規(guī)模大到難以用傳統(tǒng)關(guān)系型數(shù)據(jù)庫處理的數(shù)據(jù)集。雖然今天關(guān)系模型和SQL依然是數(shù)據(jù)庫世界的統(tǒng)治者,但隨著大數(shù)據(jù)時代的到來,越來越多的數(shù)據(jù)庫并非建筑在“關(guān)系”之上,且具有更高的可擴(kuò)展性。ooeyYZTjjl那么,大數(shù)據(jù)時代關(guān)系型數(shù)據(jù)庫何去何從?最近MySQL開源數(shù)據(jù)庫最初版本的開發(fā)者,以及MySQL社區(qū)開發(fā)分支版本——MariaDB的創(chuàng)始人之一MontyWidenius接受ReadWrite的采訪,他駁斥了大數(shù)據(jù)與SQL數(shù)據(jù)庫水火不容的常見觀點。以下是對Widenius的采訪實錄,摘錄如下:BkeGuInkxI問:您能NoSQL和大數(shù)據(jù)的歷史嗎?為什么它們會成為人們熱議的話題?答:所謂的“新NoSQL運動”的起源來自三年前Twitter—位員工的博客,此人在博客中稱MySQL不夠好,他們需要更好的數(shù)據(jù)庫技術(shù),例如Cassandra。PgdO0sRlMo其實Twitter當(dāng)時在MySQL上遇到麻煩是因為他們沒有正確使用。奇怪的是,Twitter給出的問題解決方法在Cassandra和MySQL里都能輕松實現(xiàn)。3cdXwckm15這篇文章的原文已經(jīng)找不到了,但可以參考這篇隨后的文章“MySQL將被Cassandra替代”。目前的情況是這樣:三年過去了,Twitter還在用MySQL存儲它最寶貴的資產(chǎn)推文。Cassandra最終也沒能取代了MySQL。h8c52W0ngMNoSQL流行的原因是,與SQL相比,NoSQL非常容易上手,你不需要任何設(shè)計就能開始使用它。但這也是有代價的,很快你就會發(fā)現(xiàn)對數(shù)據(jù)失去了控制<如果你不是足夠小心的話)。v4bdyGious所以,大多數(shù)NoSQL解決方案的優(yōu)點〈在MariaDB出現(xiàn)之前)是:快速訪問數(shù)據(jù)<只要你舍得把文件都丟進(jìn)內(nèi)存)快速復(fù)制/多個節(jié)點的數(shù)據(jù)擴(kuò)展彈性架構(gòu)〈可以快速增加新的列)問:大數(shù)據(jù)〈技術(shù))能幫人們解決什么問題?更高性能和更靈活的架構(gòu)是推動NoSQL發(fā)展的兩大動力。問:你個人怎么看待大數(shù)據(jù),有什么預(yù)測嗎?我覺得大多數(shù)看好NoSQL的用戶都是跟風(fēng)者。大多數(shù)公司根本沒有像Facebook和Google那么大規(guī)模的數(shù)據(jù),而且他們其實也根本就支付不起優(yōu)化和持續(xù)開發(fā)數(shù)據(jù)庫所需的專家人力成本。J0bm4qMpJ9SQL不會消亡。NoSQL無法取代它。因為幾乎所有人都需要關(guān)系型數(shù)據(jù)庫來管理數(shù)據(jù)。眼下NoSQL也有其用武之地。我認(rèn)為未來將更多的是SQL和NoSQL的混合應(yīng)用。問:為什么人們還在使用NoSQL?主要有哪些原因?因為NoSQL上手很容易。你甚至不需要學(xué)習(xí)SQL,使用前也不需要定義數(shù)據(jù)庫架構(gòu)。當(dāng)然也有一些人使用NoSQL是因為比SQL的擴(kuò)展性更好。XVauA9grYP問:SQL在性能上能超過NoSQL嗎?SQL哪些方面由于NoSQL?只要數(shù)據(jù)不能載入內(nèi)存,SQL通常性能都超過NoSQL。同樣的,NoSQL相比SQL還存在很多不足之處,例如大多數(shù)NoSQL方案都是為單一鍵值訪問〈singlekeyaccess)優(yōu)化的。對于更復(fù)雜的事情來說,你必須編寫專門的程序,而且性能與SQL無法相比,尤其是那些需要自動響應(yīng)用戶請求的服務(wù)〈大多數(shù)網(wǎng)站提供的服務(wù))bR9C6TJscw在單機(jī)上的性能表現(xiàn),NoSQL通常都不是SQL的對手。在集群環(huán)境中,當(dāng)所有數(shù)據(jù)都載入內(nèi)存,NoSQL在鍵值查找的速度上通常會比SQL快。pN9LBDdtrd六、大數(shù)據(jù)探討:如何整理1700億條Twitter發(fā)布信息?截至目前,美國國會圖書館所保存的Twitter信息數(shù)量已達(dá)到1700億條、存儲文件體積更到達(dá)133TB--由于每一條信息都已經(jīng)在這套社交網(wǎng)絡(luò)中分享及轉(zhuǎn)載,這么龐大的數(shù)據(jù)改如何整理?DJ8T7nHuGT隨著社交網(wǎng)絡(luò)蒸蒸日上,美國國會圖書館不得不面對達(dá)到133TB之巨的Twitter發(fā)布信息文件;好在經(jīng)過實踐,他們已經(jīng)找到了管理此類數(shù)據(jù)的辦法。QF81D7bvUA截至目前,美國國會圖書館所保存的Twitter信息數(shù)量已達(dá)到1700億條、存儲文件體積更到達(dá)133TB--由于每一條信息都已經(jīng)在這套社交網(wǎng)絡(luò)中分享及轉(zhuǎn)載,圖書館的技術(shù)團(tuán)隊需要想辦法為用戶拿出切實可行的檢索方案。4B7a9QFw9h在現(xiàn)階段的工程報告中,圖書館管理人員指出目前市場上提供的此類大數(shù)據(jù)管理工具無法解決他們的實際困難。"很顯然,現(xiàn)有技術(shù)還只能滿足獎學(xué)金信息等規(guī)?;瘮?shù)據(jù)集的訪問需求,而在創(chuàng)建及發(fā)布此類數(shù)據(jù)方面則表現(xiàn)乏力,"館方表示。"由于此類任務(wù)的復(fù)雜性及對資源的極高要求,私營部門尚無法拿出具備合理性價比的商業(yè)方案。〃ix6iFA8xoX如果私營企業(yè)都難以搞定大數(shù)據(jù)管理工作,那么預(yù)算拮據(jù)、全靠政府資金支持的非營利性機(jī)構(gòu)--包括全球最大的圖書館在內(nèi)--又該如何解決這一難題?要拿出一套實用、經(jīng)濟(jì)、便捷且有能力處理1700億條Twitter信息的索引系統(tǒng)無異于癡人說夢。wt6qbkCyDETwitter曾簽署一份協(xié)議,允許美國國會圖書館訪問該社交媒體網(wǎng)站中所發(fā)布的全部更新信息。館方官員坦言,他們必須建立一套幫助研究人員訪問社交平臺數(shù)據(jù)的系統(tǒng),因為隨著網(wǎng)絡(luò)化交流趨勢的不斷普及,以期刊及出版物為代表的傳統(tǒng)溝通方式已經(jīng)被逐漸取代。Kp5zH46zRk國會圖書館杰弗遜大廈在Twitter剛剛誕生的2006年到2018年間,首批數(shù)據(jù)轉(zhuǎn)儲文件為20TB,其中囊括了210億條Twitter信息〈包括用戶當(dāng)前位置及消息描述等元數(shù)據(jù))。最近,館方剛剛迎來第二批轉(zhuǎn)儲數(shù)據(jù)一總體而言,這部分副本壓縮文件總體積為133.2TB。在此之后,圖書館將與Gnip公司展開合作,以小時為單位收集全部Twitter發(fā)布信息。2018年2月公布的統(tǒng)計數(shù)字顯示,當(dāng)時每天經(jīng)由Twitter發(fā)布的信息約為1.4億條;而到去年10月,這一數(shù)字已經(jīng)增長到約5億條。Yl4HdOAA61研究人員強烈要求國會圖書館盡快開放數(shù)據(jù)訪問功能一館方稱已經(jīng)接到超過四百次此類請求。該工程由圖書館與Twitter雙方并行實施,將為用戶提供Twitter使用的歷史記錄,能夠逐項列出他們通過賬戶發(fā)布過的每條信息。ch4PJx4BlI美國國會圖書館在大數(shù)據(jù)管理方面算得上經(jīng)驗豐富:根據(jù)工作人員的說法,館方自2000年開始就一直在為政府網(wǎng)站進(jìn)行數(shù)據(jù)歸檔整理工作,數(shù)據(jù)總量超過300TB。然而Twitter的出現(xiàn)令歸檔工作陷入僵局,因為館方實在找不到合適的辦法保證信息易于搜索。如果繼續(xù)使用館方長期以來一直所倚仗的磁帶存儲方案,那么僅查詢一條2006到2018之間的Twitter信息就需要耗費最多24個小時一而這批轉(zhuǎn)儲數(shù)據(jù)還僅占數(shù)據(jù)總量的八分之一°〃Twitter信息之所以難于整理,一方面是由于數(shù)據(jù)量過于龐大,另一方面則是因為每天都會有新數(shù)據(jù)不斷加入進(jìn)來,而這種增長速度仍在不斷提升,〃官方指出?!ù送?,Twitter信息的種類也越來越多樣。普通Twiiter信息、利用軟件客戶端發(fā)出的自動回復(fù)信息、手動回復(fù)信息、包含鏈接或者圖片的信息等等,這一切讓我們無從下手。"qd3YfhxCzo尋找解決方案的道路是曲折的。國會圖書館已經(jīng)開始考慮分布式及并行計算方案,但這兩類系統(tǒng)實在太過昂貴。"要想真正實現(xiàn)搜索時間的顯著降低,我們需要構(gòu)建起由數(shù)百乃至數(shù)千臺服務(wù)器組成的龐大基礎(chǔ)設(shè)施。這對于我們這種毫無商業(yè)收益的機(jī)構(gòu)來說成本過高、根本不切實際。"E836L11D05那么館方到底該如何應(yīng)對?大數(shù)據(jù)專家們給出了一系列參考方案。就國會圖書館的情況而言,技術(shù)團(tuán)隊也許最好進(jìn)行分類處理的方式,即利用一款工具處理數(shù)據(jù)存儲、一款工具負(fù)責(zé)檢索工作、另一款則用于回應(yīng)查詢請求,MarkPhillips指出。他既在Basho擔(dān)任社區(qū)及開發(fā)推廣主管,同時也是開源數(shù)據(jù)庫工具Raik的創(chuàng)始人〈該工具在鍵-值存儲方面便利而極具可擴(kuò)展性)。S42ehLvE3M大數(shù)據(jù)管理工具已經(jīng)構(gòu)建起欣欣向榮的新興行業(yè),用戶可以根據(jù)不同的使用需求與預(yù)期成本選擇專有軟件或者開源方案。國會圖書館的技術(shù)人員所面臨的最大問題在于,他們該如何開始整套系統(tǒng)的創(chuàng)建和管理工作。如果館方希望走開源的道路,那么可選的數(shù)據(jù)庫創(chuàng)建及管理工具可謂百花齊放一從Hadoop集群到專門針對高輸入/輸出讀寫操作的Greenplum數(shù)據(jù)庫可謂應(yīng)有盡有。二者還能夠與ApacheSolar—一款開源搜索工具一加以整合。開源為開發(fā)者們指明了一條免費獲取源代碼的光明道路,能夠在商業(yè)硬件上構(gòu)建起理想中的系統(tǒng)成品,然而采用開源也意味著我們需要在后端開發(fā)工作中投入大量人力物力。當(dāng)然,國會圖書館也完全可以走更昂貴但更省心的專有軟件道路,從甲骨文或者SAP這些業(yè)界巨頭那里直接采購數(shù)據(jù)庫產(chǎn)品。501nNvZFis不過無論采取哪種方式,Twitter工程中那碩大無朋的數(shù)據(jù)總量仍然難以攻克。不過Phillips的態(tài)度給了我們一定信心。他指出,雖然Twitter目前的數(shù)據(jù)量已經(jīng)達(dá)到133TB且仍處于快速增長之中,但Basho公司已經(jīng)接觸過數(shù)據(jù)量達(dá)到PB級別的客戶,并且在自己的平臺上順利完成了任務(wù)。只要國會圖書館能夠追蹤并總結(jié)出數(shù)據(jù)庫容量每個月或每個季度的增長幅度,并根據(jù)結(jié)果為數(shù)據(jù)存儲配備充足的硬件資源,那么Basho的數(shù)據(jù)庫軟件將有能力解決館方的難題。jWlviftGw9那么使用云方案可不可行呢?從理論上講,國會圖書館可以采用以AmazonWebServices為代表的公共云資源保存這些數(shù)據(jù),而且隨著Twitter信息總量的不斷增長,AWS會自動處理必要的硬件擴(kuò)容工作。然而在Basho公司工程師SethThomas看來,這種方案的長期性價比值得商榷。由于館方顯然打算永久保存這些數(shù)據(jù),所以混合式架構(gòu)可能更具經(jīng)濟(jì)效益。也許更好的辦法是將數(shù)據(jù)保存在本地,然后利用云服務(wù)實現(xiàn)分析功能。如此一來,館方只需根據(jù)搜索量為響應(yīng)請求所投入的動態(tài)資源支付費用即可,而終端系統(tǒng)也只需處理與請求量相對應(yīng)的工作負(fù)載。xSODOYWHLP無論如何,國會圖書館已經(jīng)下決心將這些Twitter信息納入檢索體系。而身為普通用戶,我們要注意的則是--只要更新Twitter,信息就會被記錄下來。LOZMkIqI0w七、暢談阿里巴巴的大數(shù)據(jù)夢2018年11月11日,各大電商風(fēng)云大戰(zhàn),淘寶雙十一總交易金額191億,訂單1億零580萬筆??梢钥吹?,從數(shù)據(jù)中掘金,已經(jīng)成為各大互聯(lián)網(wǎng)公司的共識。但在這個即將到來的大數(shù)據(jù)時代,這些公司具體將如何推進(jìn)呢?本文帶你一起暢談阿里巴巴的大數(shù)據(jù)夢。ZKZUQsUJed“為了迎接即將到來的大數(shù)據(jù)時代,各大互聯(lián)網(wǎng)公司都在爭分奪秒。阿里巴巴在公布大數(shù)據(jù)分享平臺之后的半年中,也全面啟動了攻勢。但即使是這個行業(yè)的先行者,離大數(shù)據(jù)時代也還有不小的距離?!眃GY2mcoKtT剛剛過去的2018年,秦予有個很大的遺憾,就是沒能招聘到自己想要的數(shù)據(jù)科學(xué)家,浪費了公司給的招人名額。他是支付寶用戶價值創(chuàng)新中心的負(fù)責(zé)人。這個中心是支付寶大數(shù)據(jù)業(yè)務(wù)的核心部門。rCYbSWRLIA阿里巴巴2018年的進(jìn)人指標(biāo)只有200個,具體到支付寶公司,基本是只出不進(jìn),只有秦予所在的部門得到了難得的兩個進(jìn)人名額。但她只招到了一個合適的。FyXjoFlMWh事實上,各大互聯(lián)網(wǎng)公司都在尋找這樣的人。騰訊網(wǎng)絡(luò)媒體事業(yè)群總裁劉勝義2018年年中就公開表示:隨著用戶各類數(shù)據(jù)的累積,大數(shù)據(jù)時代已經(jīng)來臨。騰訊各大產(chǎn)品線中都擁有自己的數(shù)據(jù)挖掘團(tuán)隊。而騰訊最新財報顯示,QQ用戶數(shù)接近8億人,活躍用戶數(shù)近2億人。TuWrUpPObX阿里集團(tuán)2018年7月10日就已宣布,設(shè)立首席數(shù)據(jù)官崗位(CD0〉,負(fù)責(zé)推進(jìn)“數(shù)據(jù)分享平臺”戰(zhàn)略。同日,阿里發(fā)布“聚石塔”平臺,為天貓、淘寶平臺上的電商及電商服務(wù)商等提供數(shù)據(jù)云服務(wù)。7qWAq9jPqE阿里巴巴集團(tuán)表示,如何挖掘、分析和運用這些數(shù)據(jù),并和全社會分享,是這個戰(zhàn)略的核心所在。阿里巴巴是年交易額過萬億元的中國最大的電子商務(wù)平臺,目前有兩萬人左右,其中近千人從事數(shù)據(jù)業(yè)務(wù)工作。llVIWTNQFk可以看到,從數(shù)據(jù)中掘金,已經(jīng)成為各大互聯(lián)網(wǎng)公司的共識。但在這個即將到來的大數(shù)據(jù)時代,這些公司具體將如何推進(jìn)呢?yhUQsDgRT1“離大數(shù)據(jù)時代還有不小距離”秦予要找的并不是一般的數(shù)據(jù)分析師。國內(nèi)不缺數(shù)據(jù)挖掘人才,但很難找到數(shù)據(jù)科學(xué)家。”秦予對南方周末記者說,秦予的團(tuán)隊有7個人,他們在支付寶內(nèi)部被稱為“數(shù)據(jù)科學(xué)家”。MdUZYnKS8I一般的數(shù)據(jù)分析師是根據(jù)支付寶的各種數(shù)據(jù)進(jìn)行分析,給公司決策層和各個業(yè)務(wù)部門提供咨詢支持。這也是目前很多公司都設(shè)有的商業(yè)智能部的主要職能。但數(shù)據(jù)科學(xué)家們做的事情是開發(fā)出具體可以銷售的商用化的大數(shù)據(jù)產(chǎn)品。09T7t6eTno所謂大數(shù)據(jù),一般是1000T以上的數(shù)據(jù),如果按照一般機(jī)器配置,相當(dāng)于400臺到500臺電腦。對這些數(shù)據(jù)信息的商業(yè)化開發(fā)就是大數(shù)據(jù)產(chǎn)業(yè)鏈。e5TfZQIUB5《大數(shù)據(jù)時代》一書中提到,未來,數(shù)據(jù)將會像土地、石油和資本一樣,成為經(jīng)濟(jì)運行中的根本性資源。數(shù)據(jù)科學(xué)家被認(rèn)為是下一個十年最熱門的職業(yè)。slSovAcVQM而大數(shù)據(jù)跟個人最為密切的關(guān)系是對隱私的可能侵入。比如,亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,微博似乎對我們和我們朋友的關(guān)系無所不知,QQ圈子能給你推薦你不愿意再見面的某個女生的照片和動態(tài)信息。GXRwlkFW5s秦予是從美國歸國的計算機(jī)模擬博士后,在摩根大通和匯豐銀行工作過多年,2018年加入支付寶公司,負(fù)責(zé)支付寶和淘寶集市的大數(shù)據(jù)業(yè)務(wù)。支付寶公司擁有中國僅次于銀行業(yè)的個人數(shù)據(jù)信息。UTREx49Xj9“阿里巴巴有海量的數(shù)據(jù),對于做大數(shù)據(jù)的人來說,阿里巴巴是中國最好的平臺,很吸引人。因為我的金融背景所以選擇支付寶?!鼻赜鑼δ戏街苣┯浾哒f。8PQN3NDYyP回國進(jìn)入大數(shù)據(jù)行業(yè)之后,秦予參加了很多大數(shù)據(jù)的論壇和研討會,她最大的體會是,看到的新東西很少?!皠e說大數(shù)據(jù),連小數(shù)據(jù)都很少。現(xiàn)在很多公司說的大數(shù)據(jù),大都是數(shù)據(jù)的搜集和整理。這是底層的工作?!鼻赜枵f,“中國離大數(shù)據(jù)時代還有不小距離。”mLPVzx7ZNw即使是作為國內(nèi)大數(shù)據(jù)業(yè)務(wù)的先行者阿里巴巴,其大數(shù)據(jù)業(yè)務(wù)發(fā)展也依然是分散在各個子公司,并在2018年下半年才開始推出少量的商用產(chǎn)品。AHP35hB02d“從人出發(fā),先去找人”支付寶曾經(jīng)在八年前公司成立第二天就建立了數(shù)據(jù)部門,但真正有大數(shù)據(jù)業(yè)務(wù),是在2018年的事情。正是那時候,支付寶從招商銀行信用卡中心招來一批專業(yè)的金融人才。秦予也是那時候加入支付寶的。ND0cB141gT“金融行業(yè)的大數(shù)據(jù)業(yè)務(wù)已經(jīng)很成熟了。”秦予說。支付寶的數(shù)據(jù)科學(xué)家每天做的工作就是,把客戶分成50個族群進(jìn)行研究。比如,細(xì)分出都市輕熟男群體,這個群體的特征是每次買的不貴,均價七八十元,收入中等,但很喜歡在網(wǎng)上買東西。lzOk7Ly2vA還有一個族群被稱作“千金美少女”,其特征是收入并不高,但家里有錢,買得多,買得貴。按照分群研究的思路,秦予的團(tuán)隊把淘寶、天貓、支付寶和聚劃算的用戶做系統(tǒng)研究,通過觀察他們喜歡看什么媒體,上什么網(wǎng),來“生動地”知道用戶是個怎樣的人,進(jìn)而推薦商品供用戶購買。fuNsDv23Kh能識別用戶之后,在寫商品推薦文字的時候,不再是過去那樣千篇一律地使用“親”作為開頭?!敖裉旌芏嗑W(wǎng)站犯的錯誤就是,根據(jù)個人購買記錄,推薦一個類似的產(chǎn)品。其實用戶很可能買過了。用戶要的是你給他推薦一個跟他相似的人買的東西?!鼻赜鑼δ戏街苣┯浾哒f,以前的數(shù)據(jù)研究思路是從產(chǎn)品出發(fā),大數(shù)據(jù)時代是從人出發(fā),先去找人。tqMB9ew4YX支付寶發(fā)展大數(shù)據(jù)業(yè)務(wù),目前主要是為內(nèi)部服務(wù)。比如,過去支付寶很重視新客戶的獲取,但后來發(fā)現(xiàn)開賬戶的人多,關(guān)賬戶的人也不少,通過數(shù)據(jù)分析,支付寶建立了一個流失預(yù)警模型,預(yù)測每一個人未來三個月是否會離開支付寶,并對潛在的流失用戶做一些喚醒。HmMJFY05dE“支付寶是準(zhǔn)金融行業(yè),數(shù)據(jù)比較敏感,涉及用戶隱私,還沒有到開放的階段?!鼻赜鑼δ戏街苣┯浾哒f,支付寶非常忌諱提供商用化產(chǎn)品給商戶,很多合作方惦記著的是支付寶的數(shù)據(jù),但這是支付寶的高壓線。ViLRalt6sk“支付寶發(fā)展大數(shù)據(jù)的目的,跟淘寶和天貓有點偏差。我們更多地是為內(nèi)部服務(wù),淘寶和天貓更多地強調(diào)商業(yè)化。”秦予對南方周末記者說,阿里巴巴集團(tuán)的大數(shù)據(jù)業(yè)務(wù)商用主要是淘寶平臺的幾個公司在推進(jìn)。9eK0GsX7H1“數(shù)據(jù)分享平臺”戰(zhàn)略淘寶平臺的數(shù)據(jù)大概可以分成三塊,一是離線的數(shù)據(jù),比如什么地方的人最愛吃大閘蟹。另外一些在線數(shù)據(jù),主要是圖片,淘寶一些大的賣家都把圖片存在淘寶里面。還有一些信息是用戶的淘寶收藏夾。naK8ccr8VI2018年3月,淘寶宣布將面向全球首度開放數(shù)據(jù),并制定了兩條大原則:數(shù)據(jù)分層次開放。涉及消費者個人或者企業(yè)隱私的數(shù)據(jù)絕對保護(hù)。B6JgIVV9ao淘寶的數(shù)據(jù)開放一是對公眾的免費信息,比如推出類似于宏觀經(jīng)濟(jì)數(shù)據(jù)的“淘寶指數(shù)”。商家可以根據(jù)以往的銷售信息和“淘寶指數(shù)”進(jìn)行生產(chǎn)、庫存決策。對于大眾來說,淘寶的數(shù)據(jù)發(fā)布就像是統(tǒng)計局和價格監(jiān)測機(jī)構(gòu)的功能,淘寶指數(shù)相當(dāng)于行業(yè)和宏觀經(jīng)濟(jì)的各項指標(biāo)。P2IpeFpap5作為針對企業(yè)的數(shù)據(jù)開放的商用產(chǎn)品,淘寶推出了數(shù)據(jù)魔方產(chǎn)品,通過淘寶數(shù)據(jù)魔方平臺,商家可以直接通過數(shù)據(jù)魔方產(chǎn)品獲取行業(yè)宏觀情況、自己品牌的市場狀況、消費者行為情況等,但是不能獲得競爭對手的數(shù)據(jù)。3YIxKpScDM2018年4月,數(shù)據(jù)魔方正式上線。在“店小二”的推廣下,林氏木業(yè)成為第一批使用者。林氏木業(yè)是一家完全依靠互聯(lián)網(wǎng)平臺銷售家具的電商公司。gUHFg9mdSs該公司一位市場推廣人員對南方周末記者介紹了數(shù)據(jù)魔方的具體運用過程:依據(jù)數(shù)據(jù)魔方關(guān)于熱詞的各項數(shù)據(jù)變化,及時調(diào)整優(yōu)化商品標(biāo)題,提高寶貝排名,進(jìn)而獲取更多流量,提高銷量。uQH0MTQe79以銷售面膜為主的素野天貓旗艦店的運營經(jīng)理陳林告訴南方周末記者,素野選擇數(shù)據(jù)魔方專業(yè)版本,支付3600元/年的費用,除魔方外,還可以使用量子恒道(淘寶官方推出的一款免費數(shù)據(jù)分析工具〉°IMGWiDkflP“數(shù)據(jù)魔方帶來的更多是虛的概念,對流量、銷售額這種具體指標(biāo)意義不大?!标惲终f。2018年6月,淘寶一分為三,變成天貓、淘寶集市和一淘網(wǎng)。這之后,淘寶系的大數(shù)據(jù)發(fā)展的主要任務(wù)放到了商家已經(jīng)形成了付費習(xí)慣的天貓平臺。目前天貓的主打大數(shù)據(jù)商用產(chǎn)品是聚石塔。WHF40m0gAw2018年7月,阿里巴巴集團(tuán)的“聚石塔”正式發(fā)布,“數(shù)據(jù)分享平臺”戰(zhàn)略全面展開。聚石塔是阿里巴巴首次聯(lián)合全集團(tuán)大數(shù)據(jù)力量打造的一款大數(shù)據(jù)商用產(chǎn)品。其中,天貓及淘寶網(wǎng)主要負(fù)責(zé)尋找合作伙伴,發(fā)展商家,阿里云負(fù)責(zé)提供云主機(jī),萬網(wǎng)負(fù)責(zé)客戶服務(wù)。aDFdk6hhPd同時,阿里巴巴B2B公司CEO陸兆禧出任集團(tuán)首席數(shù)據(jù)官崗位,向CEO馬云直接匯報。馬云在聚石塔發(fā)布的時候宣布了阿里集團(tuán)未來新戰(zhàn)略:平臺、金融、數(shù)據(jù)。ozElQQLi4T聚石塔提供數(shù)據(jù)存儲、數(shù)據(jù)計算兩類服務(wù)。根據(jù)官網(wǎng)上的指導(dǎo)價格,若需要內(nèi)存為1200M、50G容量的數(shù)據(jù)存儲服務(wù),優(yōu)惠價為6090元/年。如果購買英特爾雙核處理器、內(nèi)存4G、硬盤500G、帶寬5M的彈性托管服務(wù),價格約在7700元/年。CvDtmAfjiA廣州衣酷服飾有限公司的運營總監(jiān)敬小虎對南方周末記者表示,他們公司是2018年9月開始使用聚石塔服務(wù)的,正好趕上“雙十一”大促銷,兩天之內(nèi)發(fā)完了所有的貨,總共3萬多票。他負(fù)責(zé)該公司在天貓上的店鋪皓盾天貓旗艦店的運營。QrDCRkJkxh“沒有這個軟件,半個月都發(fā)不完這些貨?!本葱』δ戏街苣┯浾哒f,如果按照2018年沒有加入聚石塔時候的“雙十一”銷售情況,光把訂單人工下載下來就花費了三五天時間。而且還出現(xiàn)過很多漏單和重復(fù)下載問題。4nCKn3dlMX不過,敬小虎表示,如果店鋪一天的銷量能做到500票以上,購買聚石塔服務(wù)比較劃算,否則軟件買下來除了應(yīng)對“雙十一”這樣的大促銷,基本就閑置著。ijCSTNGm0E平臺后的產(chǎn)業(yè)鏈阿里巴巴公布的信息顯示,自2018年7月10日聚石塔發(fā)布以來,已有十多萬的商家入駐。聚石塔的訂單覆蓋率,10月中旬的數(shù)字是20%。vfBlpxanfk2018年“雙十一”購物狂歡節(jié),是對天貓大數(shù)據(jù)發(fā)展的一次檢驗。據(jù)天貓官方數(shù)據(jù)顯示,狂歡節(jié)大促當(dāng)天,聚石塔內(nèi)系統(tǒng)處理的訂單超過天貓總量的20%,比平時增長20倍。JbA9VhEou1又一城公司是首批進(jìn)入聚石塔服務(wù)器工程的軟件IT企業(yè)。又一城公司的銷售人員賴活龍對南方周末記者表示,有ERP系統(tǒng)的商家可以直接找天貓,沒有ERP系統(tǒng)的商家,只能找像又一城這樣跟天貓有合作的軟件商,讓軟件商幫忙接入聚石塔服務(wù)。X7Ahr18pJI又一城和阿里巴巴的合作模式是,又一城基于聚石塔開發(fā)的軟件,對接淘寶和天貓等阿里系公司的后臺系統(tǒng),包括訂單信息、商品信息、會員信息、財務(wù)信息、物流信息和庫存信息。b3zqXLCqXo賴活龍對南方周末記者透露,最近半年,他的重點一直是推銷聚石塔產(chǎn)品,一開始很多商家聽到是推銷軟件產(chǎn)品的電話就會按掉電話,現(xiàn)在的情況好多了,不少商家主動打電話來了解情況。pZyytu5rc5“這跟天貓的宣傳很有關(guān)系,另外就是雙十一檢驗了產(chǎn)品的價值。”賴活龍說。賴活龍也承認(rèn),商家加入聚石塔之后,最直觀的改變是訂單處理的效率提高了,以前從淘寶平臺下載訂單,一分鐘能下載200單,現(xiàn)在至少2000單。但銷售額并沒有太大改變。DVyGZezsrM越來越多的商家被迫參與到大數(shù)據(jù)產(chǎn)品的購買中來。因為促銷活動越來越多,參加的話,IT系統(tǒng)往往跟不上,造成錯單配送等問題,中差評接踵而至,動態(tài)評分直線下降,銷量跟著下降,所以只能是購買聚石塔服務(wù)。不參加的話,沒有流量,沒有銷售額。RQxPvY3tFs“如果商家不跟著淘寶走,就會受到冷落,你進(jìn)來了,碰到雙十一這樣的活動,天貓會看你是否加入了聚石塔,如果沒有加入,你報名的資質(zhì)能否通過是個大問題?!辟嚮铨堈f。5MxXlIxuU9八、Twitter利用Storm系統(tǒng)處理實時大數(shù)據(jù)Storm是一個開源的、大數(shù)據(jù)處理系統(tǒng),與其他系統(tǒng)不同,它旨在用于分布式實時處理且與語言無關(guān)。了解TwitterStorm、它的架構(gòu),以及批處理和流式處理解決方案的發(fā)展形勢。jIw5xs0v9PHadoop〈大數(shù)據(jù)分析領(lǐng)域無可爭辯的王者)專注于批處理。這種模型對許多情形<比如為網(wǎng)頁建立索引)已經(jīng)足夠,但還存在其他一些使用模型,它們需要來自高度動態(tài)的來源的實時信息。為了解決這個問題,就得借助NathanMarz推出的Storm〈現(xiàn)在在Twitter中稱為BackType)。Storm不處理靜態(tài)數(shù)據(jù),但它處理預(yù)計會連續(xù)的流數(shù)據(jù)??紤]到Twitter用戶每天生成1.4億條推文(tweet〉,那么就很容易看到此技術(shù)的巨大用途。xEve2buwnw但Storm不只是一個傳統(tǒng)的大數(shù)據(jù)分析系統(tǒng):它是復(fù)雜事件處理(CEP>系統(tǒng)的一個示例。CEP系統(tǒng)通常分類為計算和面向檢測,其中每個系統(tǒng)都可通過用戶定義的算法在Storm中實現(xiàn)。舉例而言,CEP可用于識別事件洪流中有意義的事件,然后實時地處理這些事件。KAvmyVYxCdNathanMarz提供了在Twitter中使用Storm的大量示例。一個最有趣的示例是生成趨勢信息。Twitter從海量的推文中提取所浮現(xiàn)的趨勢,并在本地和國家級別維護(hù)它們。這意味著當(dāng)一個案例開始浮現(xiàn)時,Twitter的趨勢主題算法就會實時識別該主題。這種實時算法在Storm中實現(xiàn)為Twitter數(shù)據(jù)的一種連續(xù)分析。Ywuu4FszRTStorm與傳統(tǒng)的大數(shù)據(jù)Storm與其他大數(shù)據(jù)解決方案的不同之處在于它的處理方式。Hadoop在本質(zhì)上是一個批處理系統(tǒng)。數(shù)據(jù)被引入Hadoop文件系統(tǒng)(HDFS〉并分發(fā)到各個節(jié)點進(jìn)行處理。當(dāng)處理完成時,結(jié)果數(shù)據(jù)返回到HDFS供始發(fā)者使用。Storm支持創(chuàng)建拓?fù)浣Y(jié)構(gòu)來轉(zhuǎn)換沒有終點的數(shù)據(jù)流。不同于Hadoop作業(yè),這些轉(zhuǎn)換從不停止,它們會持續(xù)處理到達(dá)的數(shù)據(jù)。cstDApWA6A大數(shù)據(jù)實現(xiàn)Hadoop的核心是使用Java?語言編寫的,但支持使用各種語言編寫的數(shù)據(jù)分析應(yīng)用程序。最新的應(yīng)用程序的實現(xiàn)采用了更加深奧的路線,以充分利用現(xiàn)代語言和它們的特性。例如,位于伯克利的加利福尼亞大學(xué)(UC>的Spark是使用Scala語言實現(xiàn)的,而TwitterStorm是使用Clojure〈發(fā)音同closure)語言實現(xiàn)的。qotL69pBkhClojure是Lisp語言的一種現(xiàn)代方言。類似于Lisp,Clojure支持一種功能性編程風(fēng)格,但Clojure還引入了一些特性來簡化多線程編程〈一種對創(chuàng)建Storm很有用的特性)。Clojure是一種基于虛擬機(jī)(VM〉的語言,在Java虛擬機(jī)上運行。但是,盡管Storm是使用Clojure語言開發(fā)的,您仍然可以在Storm中使用幾乎任何語言編寫應(yīng)用程序。所需的只是一個連接到Storm的架構(gòu)的適配器。已存在針對Scala、JRuby、Perl和PHP的適配器,但是還有支持流式傳輸?shù)絊torm拓?fù)浣Y(jié)構(gòu)中的結(jié)構(gòu)化查詢語言適配器。EksTCSTCzXStorm的關(guān)鍵屬性Storm實現(xiàn)的一些特征決定了它的性能和可靠性的。Storm使用ZeroMQ傳送消息,這就消除了中間的排隊過程,使得消息能夠直接在任務(wù)自身之間流動。在消息的背后,是一種用于序列化和反序列化Storm的原語類型的自動化且高效的機(jī)制。Sgs28CnD0EStorm的一個最有趣的地方是它注重容錯和管理。Storm實現(xiàn)了有保障的消息處理,所以每個元組都會通過該拓?fù)浣Y(jié)構(gòu)進(jìn)行全面處理;如果發(fā)現(xiàn)一個元組還未處理,它會自動從噴嘴處重放。Storm還實現(xiàn)了任務(wù)級的故障檢測,在一個任務(wù)發(fā)生故障時,消息會自動重新分配以快速重新開始處理。Storm包含比Hadoop更智能的處理管理,流程會由監(jiān)管員來進(jìn)行管理,以確保資源得到充分使用。6craEmRE2kStorm模型Storm實現(xiàn)了一種數(shù)據(jù)流模型,其中數(shù)據(jù)持續(xù)地流經(jīng)一個轉(zhuǎn)換實體網(wǎng)絡(luò)〈參見圖1)。一個數(shù)據(jù)流的抽象稱為一個流,這是一個無限的元組序列。元組就像一種使用一些附加的序列化代碼來表示標(biāo)準(zhǔn)數(shù)據(jù)類型〈比如整數(shù)、浮點和字節(jié)數(shù)組)或用戶定義類型的結(jié)構(gòu)。每個流由一個惟一ID定義,這個ID可用于構(gòu)建數(shù)據(jù)源和接收器(sink〉的拓?fù)浣Y(jié)構(gòu)。流起源于噴嘴,噴嘴將數(shù)據(jù)從外部來源流入Storm拓?fù)浣Y(jié)構(gòu)中。k8qia6lFh1圖1.一個普通的Storm拓?fù)浣Y(jié)構(gòu)的概念性架構(gòu)接收器〈或提供轉(zhuǎn)換的實體)稱為螺栓。螺栓實現(xiàn)了一個流上的單一轉(zhuǎn)換和一個Storm拓?fù)浣Y(jié)構(gòu)中的所有處理。螺栓既可實現(xiàn)MapReduce之類的傳統(tǒng)功能,也可實現(xiàn)更復(fù)雜的操作〈單步功能),比如過濾、聚合或與數(shù)據(jù)庫等外部實體通信。典型的Storm拓?fù)浣Y(jié)構(gòu)會實現(xiàn)多個轉(zhuǎn)換,因此需要多個具有獨立元組流的螺栓。噴嘴和螺栓都實現(xiàn)為Linux?系統(tǒng)中的一個或多個任務(wù)。y3qrGQOGwI可使用Storm為詞頻輕松地實現(xiàn)MapReduce功能。如圖2中所示,噴嘴生成文本數(shù)據(jù)流,螺栓實現(xiàn)Map功能〈令牌化一個流的各個單詞)。來自“map”螺栓的流然后流入一個實現(xiàn)Reduce功能的螺栓中〈以將單詞聚合到總數(shù)中)。MZpzcAiHKo圖2.MapReduce功能的簡單Storm拓?fù)浣Y(jié)構(gòu)請注意,螺栓可將數(shù)據(jù)傳輸?shù)蕉鄠€螺栓,也可接受來自多個來源的數(shù)據(jù)。Storm擁有流分組的概念,流分組實現(xiàn)了混排(shuffling〉〈隨機(jī)但均等地將元組分發(fā)到螺栓)或字段分組〈根據(jù)流的字段進(jìn)行流分區(qū))。還存在其他流分組,包括生成者使用自己的內(nèi)部邏輯路由元組的能力。0VoHIjMIZ5但是,Storm架構(gòu)中一個最有趣的特性是有保障的消息處理。Storm可保證一個噴嘴發(fā)射出的每個元組都會處理;如果它在超時時間內(nèi)沒有處理,Storm會從該噴嘴重放該元組。此功能需要一些聰明的技巧來在拓?fù)浣Y(jié)構(gòu)中跟蹤元素,也是Storm的重要的附加價值之一。dRoQe3gJeM除了支持可靠的消息傳送外,Storm還使用ZeroMQ最大化消息傳送性能〈刪除中間排隊,實現(xiàn)消息在任務(wù)間的直接傳送)。ZeroMQ合并了擁塞檢測并調(diào)整了它的通信,以優(yōu)化可用的帶寬。rNnYJNKKtsStorm示例演示現(xiàn)在讓我們通過實現(xiàn)一個簡單的MapReduce拓?fù)浣Y(jié)構(gòu)的代碼〈參見清單1),看一下Storm示例。這個示例使用了來自Nathan的Storm入門工具包〈可從GitHub獲?。磪⒁妳⒖假Y料獲取鏈接)的巧妙設(shè)計的字?jǐn)?shù)示例。此示例演示了圖2中所示的拓?fù)浣Y(jié)構(gòu),它實現(xiàn)了一個包含一個螺栓的map轉(zhuǎn)換和包含一個螺栓的reduce轉(zhuǎn)換。町n6fxdLH9清單1.為圖2中的Storm構(gòu)建一個拓?fù)浣Y(jié)構(gòu)TopologyBuilderbuilder=newTopologyBuilder(>。builder.setSpout("spout",newRandomSentenceSpout(>,5>。TFmfLhHMWPbuilder.setBolt("map",newSplitSentence(>,4>.shuffleGrouping("spout">。builder.setBolt("reduce",newWordCount(>,8>.fieldsGrouping("map",newFields("word">>。Configconf=newConfig(>。conf.setDebug(true>。LocalClustercluster=newLocalCluster(>。cluster.submitTopology("word-7Blnh0bNbwcount",conf,builder.createTopology(>>。7Blnh0bNbwThread.sleep(10000>。cluster.shutdown(>。清單1〈添加了行號以供引用)首先使用TopologyBuilder聲明一個新拓?fù)浣Y(jié)構(gòu)。接下來在第3行,定義了一個噴嘴〈名為spout),該噴嘴包含一個RandomSentenceSpout。RandomSentenceSpout類〈也就是nextTuple方法)發(fā)出5個隨機(jī)句子的其中一個作為它的數(shù)據(jù)。setSpout方法末尾的5參數(shù)是一個并行性提示〈或要為此活動創(chuàng)建的任務(wù)數(shù))。lxlvNKFOpd在第5和6行。我定義了第一個螺栓〈或算法轉(zhuǎn)換實體),在本例中為map〈或split)螺栓。這個螺栓使用SplitSentence令牌化輸入流并將其作為輸出的各個單詞發(fā)出。請注意,第6行使用了shuffleGrouping,它定義了對此螺栓〈在本例中為“spout”)的輸入訂閱,還將流分組定義為混排。這種混排分組意味著來自噴嘴的輸入將混排或隨機(jī)分發(fā)給此螺栓中的任務(wù)〈該螺栓已提示具有4任務(wù)并行性)。ztkEju9PET在第8和9行,我定義了最后一個螺栓,這個螺栓實際上用于reduce元素,使用該元素的輸入作為map螺栓。WordCount方法實現(xiàn)了必要的字?jǐn)?shù)統(tǒng)計行為〈將相似的單詞分組到一起,以維護(hù)總數(shù)),但不是混排的,所以它的輸出是一致的。如果有多個任務(wù)在實現(xiàn)reduce行為,那么您最終會得到分段的計數(shù),而不是總數(shù)。NpjMPeCQTA第11和12行創(chuàng)建和定義了一個配置對象并啟用了Debug模式。Config類包含大量配置可能性〈參見參考資料,獲取有關(guān)Storm類樹的更多信息的鏈接)。ll
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年重慶考客運資格證
- 2024成品采購合同范文
- 2024技術(shù)開發(fā)合同模板
- 2024物業(yè)保潔員工用工合同
- 2024工程裝飾合同范文
- 垃圾分類培訓(xùn)會議記錄三篇
- 2024標(biāo)準(zhǔn)產(chǎn)品買賣合同書
- 2024建行外匯借款合同范本
- 深圳大學(xué)《油料與谷物科學(xué)原理》2022-2023學(xué)年第一學(xué)期期末試卷
- 艾草委托代工合同范本(2篇)
- 《公共科目》軍隊文職考試試題及解答參考(2024年)
- 2024春季中國鐵塔湖南分公司校園招聘21人高頻500題難、易錯點模擬試題附帶答案詳解
- 《零售變革新零售時代》演講課件
- 病歷書寫規(guī)范與住院病歷質(zhì)量監(jiān)控管理制度
- 法律服務(wù)投標(biāo)方案(技術(shù)方案)
- TWSJD 66-2024 放射工作人員職業(yè)健康檢查技術(shù)指南
- 2024年貴州省農(nóng)業(yè)農(nóng)村廳所屬事業(yè)單位招聘7人歷年高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 技能人才評價新職業(yè)考評員培訓(xùn)在線考試(四川省)
- 江西美術(shù)出版社(贛美版)美術(shù)三年級上冊全冊課件
- 繼續(xù)教育公需科目,深化改革題及參考答案
- 拔高點突破02 柯西不等式、反柯西不等式與權(quán)方和不等式(十一大題型)(解析版)
評論
0/150
提交評論