版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Hadoop與空間大數(shù)據(jù)挖掘分析
數(shù)據(jù)統(tǒng)治的世界大數(shù)據(jù)與空間大數(shù)據(jù)Hadoop與ArcGIS的碰撞數(shù)據(jù)的掘金之旅我們的大數(shù)據(jù)夢內(nèi)容提要數(shù)據(jù)統(tǒng)治的世界天然文字印刷電子數(shù)字化文明載體的演化數(shù)字化生存的時代它決定我們的生存計算不止和計算機有關(guān)名稱:亞歷山大圖書館時間:始建于托勒密一世
(約公元前367-前283年)說明:
是世界上最古老的圖書館之一。館內(nèi)收藏了貫穿公元前400-前300年時期的手稿,擁有最豐富的古籍收藏,有據(jù)可考的圖書超過50000卷。號稱“收集全世界的書”,實現(xiàn)“世界知識總匯”的夢想。數(shù)字化帶來的信息爆炸名稱:谷歌數(shù)字化圖書計劃時間:2004年說明: 2004年,谷歌攜手哈佛大學(xué)、斯坦福大學(xué)、密歇根大學(xué)、牛津大學(xué)和紐約公共圖書館,共推圖書數(shù)字化,到2010年,已經(jīng)完成了2000萬冊數(shù)字化圖書,幾乎相當(dāng)于人類書寫文明的15%。谷歌數(shù)字化圖書計劃數(shù)字統(tǒng)治著我們的世界大數(shù)據(jù)與空間大數(shù)據(jù)
最早是由天文學(xué)和基因?qū)W創(chuàng)造出了“大數(shù)據(jù)”這一概念。 ——《自然》2008年《大數(shù)據(jù)??反髷?shù)據(jù)的起源一張哈勃望遠鏡捕捉下來的高清相片,高達數(shù)十個G字節(jié)
早期,這個概念是指需要處理的信息量過大,已經(jīng)超出了一般電腦在處理數(shù)據(jù)時所能使用的內(nèi)存量。早期的大數(shù)據(jù)大數(shù)據(jù)數(shù)量價值多樣性速度海量數(shù)據(jù)數(shù)量大數(shù)據(jù)與海量數(shù)據(jù)Volume數(shù)據(jù)量Velocity多樣性Variety速度Value價值4V特性數(shù)據(jù)量Volume1,128,24268MBX(32bit)Y(32bit)多樣性VarietyParcelFabricFeaturedatasetFeatureclassMultipatchRelationshipclassTopologyGeometricnetworkNetworkdatasetTerrainTableViewRastercatalogRasterdatasetSchematicdatasetMosaicdatasetLASdatasetToolboxToolModeltoolsetSpatialETLScriptPythonToolboxAddressLocator缺省屬性值
屬性值取值域分割/合并方針連通性規(guī)則
關(guān)聯(lián)規(guī)則拓撲規(guī)則多維的數(shù)據(jù)視角速度Velocity并行處理因子Google每天需要處理超過24PB的數(shù)據(jù)——等于美國國家圖書館書籍總量的上千倍互聯(lián)網(wǎng)公司的數(shù)據(jù)洪流Facebook每天更新的相片超過1000萬張,每天人們發(fā)送的“贊”或者書寫的評論超過三十億次。Twitter每天發(fā)布的微博超過4億條。
價值Value“今天,地理空間信息被越來越多的企業(yè)認為是企業(yè)的戰(zhàn)略資產(chǎn)。地理空間信息的處理、存儲和分析已成為商務(wù)智慧的重要組成部分。”
---JackDangermondHadoop與ArcGIS的碰撞
古代,人們用牛來拉重物。當(dāng)一頭牛拉不動一根圓木時,他們想的并不是培育更大更壯的牛。同樣,我們也不需要動輒使用超級計算機,而應(yīng)試著結(jié)合使用更多計算機系統(tǒng)。
格蕾絲·莫里·霍珀 (GraceMurrayHopper) (1906--1992)更多或者更大 Google通過他天才的軟件架構(gòu)設(shè)計,把成千上萬臺普通的PC機做成了一個廉價大型的集群,用以處理他面向“星球”級別的搜索服務(wù)。谷歌的廉價PC集群名稱:UtahDataCenter(猶他數(shù)據(jù)中心)全稱:IntelligenceCommunityComprehensiveNationalCybersecurityInitiativeDataCenter(情報體系綜合性國家計算機安全計劃數(shù)據(jù)中心)所屬機構(gòu):NAS(美國國家安全局)UtahDataCenter hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。不得不說的hadoopHadoop生態(tài)系統(tǒng)示意圖Zookeeper(coordination)Avro(Serialization)HDFS(HadoopDistributedFileSystem)Hbase(ColumnDB)MapReduce(JobScheduling/ExecutionSystem)Pig(DataFlow)Hive(SQL)SqoopETLToolsBIReportingRDBMSHDFSNameNodeDataNodeDataNodeDataNodeMetadata數(shù)據(jù)1數(shù)據(jù)2用戶假設(shè)系統(tǒng)每秒處理4000個文件Hadoop處理原理處理4千萬個文件=10000秒約為2.7小時處理4千萬個文件處理400萬個文件處理400萬個文件處理400萬個文件……切分成十臺機器處理約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出大數(shù)據(jù)技術(shù)廠商圖譜空間信息大數(shù)據(jù)存儲IBMNetezza7.0NetezzaSpatialEsriPackageTeradataWindowsAzureSQLDatabaseHadoopforGeoEvent空間大數(shù)據(jù)挖掘分析GIStoolsforHadoopEsri大數(shù)據(jù)解決方案IBMNetezza6.0/7.0NetezzaSpatialEsriPackageTeradata14.0WindowsAzureSQLDatabaseEsri空間大數(shù)據(jù)存儲HadoopforGeoEvent應(yīng)用場景數(shù)據(jù)存儲信息分析HadoopforGeoEvent GISToolsforHadoop不僅在GIS與hadoop之間搭建起了一個橋梁,還定義和構(gòu)建了一整套大空間數(shù)據(jù)分析的環(huán)境?!狹arwaMabrouk
productmanageratEsriGISToolsforHadoopAPI框架工具GISToolsforHadoop的組成數(shù)據(jù)的掘金之旅幾千年前科學(xué)以實驗為主,描述自然現(xiàn)象過去數(shù)百年出現(xiàn)了理論研究分支,利用模型和歸納最近數(shù)十年出現(xiàn)了計算分支,對復(fù)雜現(xiàn)象進行仿真今天:數(shù)據(jù)爆炸將理論、實驗和計算仿真統(tǒng)一起來由儀器收集、由軟件處理、由計算機存儲科學(xué)家通過數(shù)據(jù)管理和分析的方式來研究科學(xué)。數(shù)據(jù)密集型科學(xué)技術(shù)分類預(yù)測:用歷史預(yù)測未來描述:了解數(shù)據(jù)中潛在的規(guī)律常用數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類聚集異常檢測數(shù)據(jù)挖掘技術(shù)量變會導(dǎo)致質(zhì)變一萬七千年前法國拉斯科洞穴壁畫上的馬24幀每秒播放的馬樣本總體全體數(shù)據(jù)模式大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。在傳統(tǒng)算法時代,我們需要用各種復(fù)雜的算法來保證數(shù)據(jù)的可靠性,因為我們能夠獲取的數(shù)據(jù)非常有限。算法已死在大數(shù)據(jù)的時代,我們可能僅僅需要最簡單的算法,就可以得到我們所需要的結(jié)果了??臻g大數(shù)據(jù)與反恐戰(zhàn)爭空間大數(shù)據(jù)與犯罪分析出租車軌跡熱點挖掘分析精度點數(shù)數(shù)據(jù)量計算量單機計算時間100米一百萬61MB43^2*10^629小時10米一億6108MB(6G)430^2*10^8≈29*10^4小時≈12083天≈33年1米一百億600G43*10^4*10^10≈33*
10^4年≈33萬年超大規(guī)模的數(shù)據(jù)和計算量以麗江機場為例:以機場為中心,50公里
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《翡翠培訓(xùn)資料》課件
- 《證券買賣技巧教案》課件
- 《證券基金銷售培訓(xùn)》課件
- 單位管理制度集粹匯編員工管理篇
- 單位管理制度分享大全【人力資源管理篇】
- 《社區(qū)工作實務(wù)》課件
- 單位管理制度范例選集【人力資源管理篇】十篇
- 單位管理制度范例合集職工管理十篇
- 單位管理制度呈現(xiàn)合集【人事管理】十篇
- 寒假自習(xí)課 25春初中地理八年級下冊人教版教學(xué)課件 第八章 第二節(jié) 干旱的寶地-塔里木盆地 第2課時 油氣資源的開發(fā)
- 2023年鞍山市海城市教育局畢業(yè)生招聘筆試真題
- 北京2025年首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院招聘140人歷年參考題庫(頻考版)含答案解析
- 遼寧省撫順縣2024-2025學(xué)年九年級上學(xué)期期末物理試卷(含答案)
- 2024-2025學(xué)年安徽省合肥市巢湖市三年級數(shù)學(xué)第一學(xué)期期末達標測試試題含解析
- 2023-2024人教版上學(xué)期小學(xué)英語三年級上冊期末試卷
- 冬季施工階段安全事故案例分析及對策
- 造船廠全套作業(yè)指導(dǎo)書
- 施工現(xiàn)場消防安全操作規(guī)程
- A4標簽打印模板
- (完整版)工程項目管理組織機構(gòu)
- 工程質(zhì)量檢測內(nèi)容包括哪些?
評論
0/150
提交評論