




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1/42基于云平臺(云數(shù)據(jù))?大數(shù)據(jù)描述理論、處理與分析架構(gòu)、應(yīng)用領(lǐng)域?
大數(shù)據(jù)研究現(xiàn)狀探討沈來信2013年12月20日2/42大數(shù)據(jù)是是數(shù)據(jù)庫庫的自然然延伸?忘不掉ACID,舍不得得Relation,忽視實實際應(yīng)用用潛意識地地奉行““一招鮮鮮”(OneSizeFitsAll)結(jié)構(gòu)化+半結(jié)構(gòu)化化/非結(jié)構(gòu)化化數(shù)據(jù)((二八原則則)管理和處處理需求求--落實“OneSizeFitsaBunch””--查詢/檢檢索/統(tǒng)計/挖挖掘--離線/在在線/即即時/連連續(xù)--本地/遠(yuǎn)遠(yuǎn)程/“云”?可回溯的的可視化化分析--事務(wù)型與與分析型型--多領(lǐng)域應(yīng)應(yīng)用(教教育、醫(yī)醫(yī)療、交交通……)大數(shù)據(jù)常常用的處處理框架架流處理((直接處處理)和和批處理理(先存存儲后處處理)流處理:數(shù)據(jù)持續(xù)續(xù)到達(dá),,速度快快,規(guī)模模巨大,,不永久久存儲,,數(shù)據(jù)不不斷變化化--》難以掌握握全貌;;代表的開開源系統(tǒng)統(tǒng):Twitter的storm、Yahoo的S4、Linkedin的kafka批處理:MapReduce1)將問題分分而治之之2)把計算算推到數(shù)數(shù)據(jù)而不不是把數(shù)數(shù)據(jù)推到到計算,,避免數(shù)數(shù)據(jù)傳輸輸過程中中產(chǎn)生的的大量通通信開銷銷3/425/420-大數(shù)據(jù)與與云計算算、云平平臺Hadoop(數(shù)據(jù)密密集型分分布式應(yīng)應(yīng)用,Apache)--分布式數(shù)數(shù)據(jù)處理理MapReduce(并行計算算框架)--分布式文文件系統(tǒng)統(tǒng)HDFS(google的DFS基礎(chǔ)上))--分布式數(shù)數(shù)據(jù)庫Hbase(Nosql,列,BigTable)--數(shù)據(jù)倉庫庫工具Hive(Facebook)--分布式鎖鎖Zookeeper(Facebook)--大數(shù)據(jù)分分析平臺臺Pig(提供多多種接口口)--管理工具具Ambari(監(jiān)控、部署、、管理)--Sqoop:在集群與與傳統(tǒng)數(shù)數(shù)據(jù)庫間間的數(shù)據(jù)據(jù)傳遞00分分布式式集群Hadoop6/4201并并行計計算框架架Mapreduce7/4202分分布式式文件系系統(tǒng)HDFS8/4203分分布式式NoSql列列數(shù)據(jù)庫庫Hbase04數(shù)數(shù)據(jù)倉倉庫Hive05腳腳本語言言PigGoogle后Hadoop時代的新新三駕馬馬車Dremel:web數(shù)據(jù)級別別的交互互式數(shù)據(jù)據(jù)分析系系統(tǒng)列存儲、、多層次次查詢樹樹,毫秒秒級海量量數(shù)據(jù)分分析Caffeine:為Google網(wǎng)絡(luò)搜索索引擎提提供支持持,能夠夠更迅速速的添加加新的鏈鏈接到自自身大規(guī)規(guī)模的網(wǎng)網(wǎng)站索引引系統(tǒng)中中,丟棄棄MapReduce轉(zhuǎn)而將索索引放置置在分布布式數(shù)據(jù)據(jù)庫BigTable上Pregel:主要繪繪制大量量網(wǎng)上信信息之間間關(guān)系的的“圖形形數(shù)據(jù)庫庫”13/421-Brighthouse:AnAnalyticDataWarehouseforad--hocQueriesPVLDB’08DominikSlezak,,Infobright,,inc..,PolandAnAnalyticDataWarehouseforAd--hocQueriesColumn--orienteddatawarehousewithautomaticallytuned(基于列列的自調(diào)調(diào)整數(shù)據(jù)據(jù)倉庫))Datamanagement:DP、DPN、KN粗集Roughset++粒度計算算GranularComputing知識網(wǎng)格格KnowledgeGrid優(yōu)化與執(zhí)執(zhí)行OptimizationandExecution14/42DP(DataPack))、DPN(DataPackNode)、KN(KnowledgeNode)15/42行存儲、、列存儲儲比較數(shù)據(jù)塊((DataPacks)知識網(wǎng)格格(KonwledgeGrid)18/42知識網(wǎng)格格(KonwledgeGrid)19/422-Starfish:ASelf--tuningSystemforbigdataanalyticsCIDR’11-HerodotosHerodotou,,DukeUniversityTimelyandcost--effectiveanalytics(及時,,效益))ASelf--tuningsystem(自調(diào)整整)BasedonHadoop(基于Hadoop)ExtensibleMapReduceexecutionengine(可擴展展)Pluggabledistributedstorageengines(插拔式式)MAD(吸引力力Magnetism\靈活A(yù)gility\深度Depth)20/423希爾伯特特技術(shù)HilberttechnologyHilberttechnologyOrganizing&Analyzing;Large&Media;Patented;Costeffective;Search;Clustering&Categorization;DataConsolidation;DataQualityUltraHigh-Speed;SmartProcesses;Ad-hocFlexibility;Scale&ConsolidateSpeed;Flexibility;Smartness;Scalability25/4227/424-Extreme-PointSymmetricModeDecompositionMethodforDataAnalysis極點對稱稱模態(tài)分分解方法法;在HHT基礎(chǔ)上四點創(chuàng)新新:-使用更多多個內(nèi)插插值曲線線去實現(xiàn)現(xiàn)篩選過過程(1,2,,3…)-最后的剩剩余作為為最優(yōu)曲曲線,擁擁有一定定數(shù)目的的極值點點,而不不是帶有有自多一一個極值值點的一一般趨勢勢-使用極值值點對稱稱取代包包絡(luò)線對對稱-使用基于于數(shù)據(jù)的的直接插插值方法法去計算算瞬時頻頻率和振振幅-確定一個個優(yōu)化全全局平均均曲線時時,使用用的自適適應(yīng)方法法,比一一般的最最小二乘乘法和平平均運行行方法要要好;-確定瞬時時頻率和和振幅,,用的是是直接的的方法,,比希爾爾伯特譜譜更好-這些將提提高自適適應(yīng)的數(shù)數(shù)據(jù)分析析,可用用在大氣氣和海洋洋科學(xué)、、信息學(xué)學(xué)、經(jīng)濟濟學(xué)、生生態(tài)學(xué)、、醫(yī)藥、、地震等等領(lǐng)域4.1-經(jīng)驗?zāi)B(tài)態(tài)分解EMD(EmpiricalModeDecomposition):EMD方法在理理論上可可以應(yīng)用用于任何何類型的的時間序序列(信信號)的的分解該方法的的關(guān)鍵是是它能使使復(fù)雜信信號分解解為有限限個本征征模函數(shù)數(shù)(IntrinsicModeFunction,簡稱IMF),所分分解出來來的各IMF分量包含含了原信信號的不不同時間間尺度的的局部特特征信號號。EMD分解方法法是基于于以下假假設(shè)條件件:(1)數(shù)據(jù)至至少有兩兩個極值值,一個個最大值值和一個個最小值值;(2)數(shù)據(jù)的的局部時時域特性性是由極極值點間間的時間間尺度唯唯一確定定;(3)如果數(shù)數(shù)據(jù)沒有有極值點點但有拐拐點,則則可以通通過對數(shù)數(shù)據(jù)微分分一次或或多次求求得極值值,然后后再通過過積分來來獲得分分解結(jié)果果。經(jīng)驗?zāi)B(tài)態(tài)分解的的基本思思想:將將一個頻頻率不規(guī)規(guī)則的波波化為多多個單一一頻率的的波+殘波的形形式。原原波形=∑IMFs++余波。4.2-篩選過程程(Sifting)這種方法法的本質(zhì)質(zhì)是通過過數(shù)據(jù)的的特征時間間尺度來獲得本征波動動模式,然后分解數(shù)據(jù)據(jù)。這種分分解過程程可以形形象地稱稱之為“篩選(sifting)”過程。分解過程程是:-找出原數(shù)數(shù)據(jù)序列列X(t)所有的的極大值值點并用用三次樣樣條插值值函數(shù)擬擬合形成成原數(shù)據(jù)據(jù)的上包絡(luò)線線;-同樣,找找出所有有的極小小值點,,并將所所有的極極小值點點通過三三次樣條條插值函函數(shù)擬合合形成數(shù)數(shù)據(jù)的下包絡(luò)線線-上包絡(luò)線線和下包包絡(luò)線的的均值記記作ml,將原數(shù)數(shù)據(jù)序列列X(t)減去該該平均包包絡(luò)ml,得到一一個新的數(shù)據(jù)據(jù)序列hl:X(t))-ml=hl由原數(shù)據(jù)據(jù)減去包包絡(luò)平均均后的新新數(shù)據(jù),,若還存存在負(fù)的局部部極大值值和正的的局部極極小值,說明這這還不是是一個本本征模函函數(shù),需需要繼續(xù)續(xù)進(jìn)行“篩選”。4.3-EMD實例—金融1例如滬指指的IMF如下圖所所僅僅示示意的最最后4個低頻IMF函數(shù)序列列:上圖中的的IMF1----IMF3疊合起來來,就基基本可以以重構(gòu)出出滬指的的走勢::基本與與股指一一致,類類似與一一根均線線。4.4-EMD實例—金融2從上面的的分解到到重構(gòu)的的過程看看:其實實就是個個減法到到加法的的過程,,減法求異異,剝離出頻頻率(周周期)大大致相同同的IMF,而加法求同同,回到到原波形形。余波其其實是個個趨勢線線,即頻頻率極低低(周期期很長))的波,,可以看看成是個個基底,,其它IMF都建筑在在它之上上。4.4-EMD實例—金融3有意思的的是,篩篩選出的的本征模模函數(shù)IMF(包括余余波)可可以代表表實在的的物理意意義,即即其震動動模式必必然地對對應(yīng)有物物理成因因。而在在股指分分解出的的IMF則應(yīng)該對對應(yīng)宏觀觀經(jīng)濟成成因。比比如第一幅圖圖中的IMF2就與CPI或PPI走勢幾乎乎一致,且周期也一一致;而IMF1則與平滑滑后季度度GDP增長率基基本一致致,也與與發(fā)電量量或工業(yè)業(yè)增加值值的大趨趨勢大體體一致。也就是說說,這種種新穎的的技術(shù)分分析也得得出:股指是反反映宏觀觀基本面面的。我國的的CPI這10幾年來一一直遵循循大概42個月的循循環(huán)規(guī)律律,可以以用一個個正弦波波形象之之。而IMF則是幾個個正弦波波的復(fù)合合結(jié)果。浮動頻率率法僅是是找出信信號序列列中的實實際頻率率,而IMF是既找出出浮動頻頻率也找找出包括括不同振振幅的復(fù)復(fù)雜信號號序列中中的震動動模態(tài)序序列。IMF更接近實實際的時時間序列列。嘗試試把二者者結(jié)合起起來是個個可能的的路徑。。PerformanceofESMD_IPerformanceofESMD_varianceratiov一些想法法與困惑惑Hadoop++Brighthouse?Dremel++Caffeine?云計算與與大數(shù)據(jù)據(jù)如何結(jié)結(jié)合?網(wǎng)網(wǎng)格計算算與大數(shù)數(shù)據(jù)?大數(shù)據(jù)OLAP方案?大大數(shù)據(jù)OLTP方案?大數(shù)據(jù)到到底是什什么?如如何表述述與建模模?大數(shù)據(jù)的的理論基基礎(chǔ)?大大數(shù)據(jù)可可計算的的基礎(chǔ)理理論?重要擴展展與證明明“大數(shù)數(shù)據(jù)的正正確性””與應(yīng)用用的“出出錯根源源”能量、綠綠色計算算、安全全?領(lǐng)域應(yīng)用用與大數(shù)數(shù)據(jù)的計計算理論論希爾伯特特空間--勒貝格測測度--優(yōu)美圖--標(biāo)號--大數(shù)據(jù)WSN測測量+大大數(shù)據(jù)++領(lǐng)域應(yīng)應(yīng)用?國家基金金面上項目/國家基金金重點項目/國家基金金重大項目國家基金金超級大大項目國家基金金委主任任楊衛(wèi)半半年來的的足跡::-3月12日卸任浙浙大校長長任基金金委主任任;-5月
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 創(chuàng)業(yè)成功者的案例故事
- 臨床輸血技術(shù)規(guī)范
- 心梗術(shù)后健康教育
- 技術(shù)培訓(xùn)課程
- 婦科病人術(shù)后護理指導(dǎo)
- 定制家具運輸服務(wù)合同
- 護理安全的影響因素
- 提升社會公共安全意識的咨詢合同
- 新零售模式下的消費體驗論壇合同
- 阿克蘇工業(yè)職業(yè)技術(shù)學(xué)院《器官系統(tǒng)模塊一實驗》2023-2024學(xué)年第一學(xué)期期末試卷
- 公司與公司簽訂勞務(wù)合同范本
- 信息資源管理(馬費成-第三版)復(fù)習(xí)重點
- 焊接工藝評定報告PQR115
- 配電室巡查記錄表
- LS-MDG-用戶操作手冊-物料主數(shù)據(jù)流程-20181103-V1.0
- 年會頒獎晚會頒獎盛典簡約PPT模板
- 綏江縣農(nóng)村飲水安全工程水質(zhì)檢測中心建設(shè)方案
- 中國傳統(tǒng)故事英文花木蘭二篇
- GB/T 3091-2008低壓流體輸送用焊接鋼管
- GB/T 22004-2007食品安全管理體系GB/T 22000-2006的應(yīng)用指南
- 上消化道早癌篩查須知
評論
0/150
提交評論