Hdoop與空間大數(shù)據(jù)挖掘分析_第1頁
Hdoop與空間大數(shù)據(jù)挖掘分析_第2頁
Hdoop與空間大數(shù)據(jù)挖掘分析_第3頁
Hdoop與空間大數(shù)據(jù)挖掘分析_第4頁
Hdoop與空間大數(shù)據(jù)挖掘分析_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Hadoop與空間大數(shù)據(jù)挖掘分析

數(shù)據(jù)統(tǒng)治的世界大數(shù)據(jù)與空間大數(shù)據(jù)Hadoop與ArcGIS的碰撞數(shù)據(jù)的掘金之旅我們的大數(shù)據(jù)夢內(nèi)容提要數(shù)據(jù)統(tǒng)治的世界天然文字印刷電子數(shù)字化文明載體的演化數(shù)字化生存的時代它決定我們的生存計算不止和計算機有關(guān)名稱:亞歷山大圖書館時間:始建于托勒密一世

(約公元前367-前283年)說明:

是世界上最古老的圖書館之一。館內(nèi)收藏了貫穿公元前400-前300年時期的手稿,擁有最豐富的古籍收藏,有據(jù)可考的圖書超過50000卷。號稱“收集全世界的書”,實現(xiàn)“世界知識總匯”的夢想。數(shù)字化帶來的信息爆炸名稱:谷歌數(shù)字化圖書計劃時間:2004年說明: 2004年,谷歌攜手哈佛大學(xué)、斯坦福大學(xué)、密歇根大學(xué)、牛津大學(xué)和紐約公共圖書館,共推圖書數(shù)字化,到2010年,已經(jīng)完成了2000萬冊數(shù)字化圖書,幾乎相當(dāng)于人類書寫文明的15%。谷歌數(shù)字化圖書計劃數(shù)字統(tǒng)治著我們的世界大數(shù)據(jù)與空間大數(shù)據(jù)

最早是由天文學(xué)和基因?qū)W創(chuàng)造出了“大數(shù)據(jù)”這一概念。 ——《自然》2008年《大數(shù)據(jù)??反髷?shù)據(jù)的起源一張哈勃望遠鏡捕捉下來的高清相片,高達數(shù)十個G字節(jié)

早期,這個概念是指需要處理的信息量過大,已經(jīng)超出了一般電腦在處理數(shù)據(jù)時所能使用的內(nèi)存量。早期的大數(shù)據(jù)大數(shù)據(jù)數(shù)量價值多樣性速度海量數(shù)據(jù)數(shù)量大數(shù)據(jù)與海量數(shù)據(jù)Volume數(shù)據(jù)量Velocity多樣性Variety速度Value價值4V特性數(shù)據(jù)量Volume1,128,24268MBX(32bit)Y(32bit)多樣性VarietyParcelFabricFeaturedatasetFeatureclassMultipatchRelationshipclassTopologyGeometricnetworkNetworkdatasetTerrainTableViewRastercatalogRasterdatasetSchematicdatasetMosaicdatasetLASdatasetToolboxToolModeltoolsetSpatialETLScriptPythonToolboxAddressLocator缺省屬性值

屬性值取值域分割/合并方針連通性規(guī)則

關(guān)聯(lián)規(guī)則拓撲規(guī)則多維的數(shù)據(jù)視角速度Velocity并行處理因子Google每天需要處理超過24PB的數(shù)據(jù)——等于美國國家圖書館書籍總量的上千倍互聯(lián)網(wǎng)公司的數(shù)據(jù)洪流Facebook每天更新的相片超過1000萬張,每天人們發(fā)送的“贊”或者書寫的評論超過三十億次。Twitter每天發(fā)布的微博超過4億條。

價值Value“今天,地理空間信息被越來越多的企業(yè)認為是企業(yè)的戰(zhàn)略資產(chǎn)。地理空間信息的處理、存儲和分析已成為商務(wù)智慧的重要組成部分。”

---JackDangermondHadoop與ArcGIS的碰撞

古代,人們用牛來拉重物。當(dāng)一頭牛拉不動一根圓木時,他們想的并不是培育更大更壯的牛。同樣,我們也不需要動輒使用超級計算機,而應(yīng)試著結(jié)合使用更多計算機系統(tǒng)。

格蕾絲·莫里·霍珀 (GraceMurrayHopper) (1906--1992)更多或者更大 Google通過他天才的軟件架構(gòu)設(shè)計,把成千上萬臺普通的PC機做成了一個廉價大型的集群,用以處理他面向“星球”級別的搜索服務(wù)。谷歌的廉價PC集群名稱:UtahDataCenter(猶他數(shù)據(jù)中心)全稱:IntelligenceCommunityComprehensiveNationalCybersecurityInitiativeDataCenter(情報體系綜合性國家計算機安全計劃數(shù)據(jù)中心)所屬機構(gòu):NAS(美國國家安全局)UtahDataCenter hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。不得不說的hadoopHadoop生態(tài)系統(tǒng)示意圖Zookeeper(coordination)Avro(Serialization)HDFS(HadoopDistributedFileSystem)Hbase(ColumnDB)MapReduce(JobScheduling/ExecutionSystem)Pig(DataFlow)Hive(SQL)SqoopETLToolsBIReportingRDBMSHDFSNameNodeDataNodeDataNodeDataNodeMetadata數(shù)據(jù)1數(shù)據(jù)2用戶假設(shè)系統(tǒng)每秒處理4000個文件Hadoop處理原理處理4千萬個文件=10000秒約為2.7小時處理4千萬個文件處理400萬個文件處理400萬個文件處理400萬個文件……切分成十臺機器處理約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出大數(shù)據(jù)技術(shù)廠商圖譜空間信息大數(shù)據(jù)存儲IBMNetezza7.0NetezzaSpatialEsriPackageTeradataWindowsAzureSQLDatabaseHadoopforGeoEvent空間大數(shù)據(jù)挖掘分析GIStoolsforHadoopEsri大數(shù)據(jù)解決方案IBMNetezza6.0/7.0NetezzaSpatialEsriPackageTeradata14.0WindowsAzureSQLDatabaseEsri空間大數(shù)據(jù)存儲HadoopforGeoEvent應(yīng)用場景數(shù)據(jù)存儲信息分析HadoopforGeoEvent GISToolsforHadoop不僅在GIS與hadoop之間搭建起了一個橋梁,還定義和構(gòu)建了一整套大空間數(shù)據(jù)分析的環(huán)境?!狹arwaMabrouk

productmanageratEsriGISToolsforHadoopAPI框架工具GISToolsforHadoop的組成數(shù)據(jù)的掘金之旅幾千年前科學(xué)以實驗為主,描述自然現(xiàn)象過去數(shù)百年出現(xiàn)了理論研究分支,利用模型和歸納最近數(shù)十年出現(xiàn)了計算分支,對復(fù)雜現(xiàn)象進行仿真今天:數(shù)據(jù)爆炸將理論、實驗和計算仿真統(tǒng)一起來由儀器收集、由軟件處理、由計算機存儲科學(xué)家通過數(shù)據(jù)管理和分析的方式來研究科學(xué)。數(shù)據(jù)密集型科學(xué)技術(shù)分類預(yù)測:用歷史預(yù)測未來描述:了解數(shù)據(jù)中潛在的規(guī)律常用數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類聚集異常檢測數(shù)據(jù)挖掘技術(shù)量變會導(dǎo)致質(zhì)變一萬七千年前法國拉斯科洞穴壁畫上的馬24幀每秒播放的馬樣本總體全體數(shù)據(jù)模式大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。在傳統(tǒng)算法時代,我們需要用各種復(fù)雜的算法來保證數(shù)據(jù)的可靠性,因為我們能夠獲取的數(shù)據(jù)非常有限。算法已死在大數(shù)據(jù)的時代,我們可能僅僅需要最簡單的算法,就可以得到我們所需要的結(jié)果了??臻g大數(shù)據(jù)與反恐戰(zhàn)爭空間大數(shù)據(jù)與犯罪分析出租車軌跡熱點挖掘分析精度點數(shù)數(shù)據(jù)量計算量單機計算時間100米一百萬61MB43^2*10^629小時10米一億6108MB(6G)430^2*10^8≈29*10^4小時≈12083天≈33年1米一百億600G43*10^4*10^10≈33*

10^4年≈33萬年超大規(guī)模的數(shù)據(jù)和計算量以麗江機場為例:以機場為中心,50公里

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論