楊華大數據時代技術與應用0718(精編)_第1頁
楊華大數據時代技術與應用0718(精編)_第2頁
楊華大數據時代技術與應用0718(精編)_第3頁
楊華大數據時代技術與應用0718(精編)_第4頁
楊華大數據時代技術與應用0718(精編)_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

楊華博士/副教授中國海洋大學信息科學與工程學院E-mail:大數據營銷?紙牌屋?是“大數據〞時代下的產物,其制作公司Netflix公司通過對3000萬付費用戶的收視習慣、劇情評論、演員喜好等數據精準分析定制內容,將全部13集內容一次全部推出而大獲成功?,F代海洋科技淺藍

深藍

透明海洋ToomuchVolume(Ihavetoomuchdata)ToomuchVelocity(It’scomingatmetoofast)ToomuchVariety(It’scomingatmefromtoomanyplacesintoomanyformats)Whatis“BigData〞數據爆炸:互聯(lián)網催生大量數據“COPYRIGHTRESERVED〞,“一鍵分享〞1995年,Windows95,MB2004,Google上市,GB2021,大數據,TB,PB大數據分析字節(jié)(B)、千字節(jié)(KB)、兆字節(jié)(MB)、吉字節(jié)(GB)、太字節(jié)(TB)、拍字節(jié)(PB)、艾字節(jié)(EB)、澤它字節(jié)(ZB,又稱皆字節(jié))、堯它字節(jié)(YB)表示、千億億億字節(jié)(BB)封面故事:利用海量數據的最新策略研究人員怎樣才能應對現代方法所產生的大量數據流?大數據分析不是隨機樣本,而是全體數據不是精確性,而是混雜性不是因果關系,而是相關關系大數據分析1.AnalyticVisualizations〔可視化分析〕

2.DataMiningAlgorithms〔數據挖掘算法〕

3.PredictiveAnalyticCapabilities〔預測性分析能力〕

4.SemanticEngines〔語義引擎〕

5.DataQualityandMasterDataManagement〔數據質量和數據管理〕大數據分析可視化:NASA公布全球洋流圖語義搜索引擎數據挖掘案例分析:電子商務領域

大數據之用戶行為分析數據挖掘:機器學習算法

學習方式1、監(jiān)督式;2、非監(jiān)督式;3、半監(jiān)督式;4、強化;

算法類似性1、回歸算法;2、基于實例的算法;3、正那么化方法;4、決策樹學習;5、貝葉斯方法;6、基于核的算法;7、聚類算法;8、關聯(lián)規(guī)那么學習;9、人工神經網絡數據挖掘:機器學習算法輸入數據,被稱作“訓練數據〞,并進行標識。在建模時,將預測結果和實際結果進行比較,不斷調整,直到預期的準確率。應用:分類、回歸算法:邏輯回歸、反向傳遞神經網絡等監(jiān)督式學習非監(jiān)督式學習數據不被標識,學習模型是為了推斷出數據的內部結構。應用場景:企業(yè)數據,如關聯(lián)規(guī)那么學習、聚類半監(jiān)督學習數據局部被標識,局部不被標識。模型先學習數據的內部結構,再用于預測應用場景:圖像識別,回歸和分類算法:對標識數據進行建模,然后對未標識數據進行預測。強化學習數據:直接作為模型的反響模型:必須對數據做出直接反響應用場景:動態(tài)系統(tǒng)和機器人控制機器學習算法

學習方式1、監(jiān)督式;2、非監(jiān)督式;3、半監(jiān)督式;4、強化;

算法類似性1、回歸算法;2、基于實例的算法;3、正那么化方法;4、決策樹學習;5、貝葉斯方法;6、基于核的算法;7、聚類算法;8、關聯(lián)規(guī)那么學習;9、人工神經網絡回歸分析RegressionAnalysis物理意義:試圖采用對誤差的衡量來描述變量之間的相關關系步驟?確定變量?建立預測模型?進行相關分析?計算預測誤差?確定預測值回歸分析RegressionAnalysisSIM的用戶滿意度與相關變量的線性回歸分析因變量:“用戶滿意度〞自變量:“質量〞、“形象〞和“價格〞回歸方程:用戶滿意度=0.008×形象+0.645×質量+0.221×價格指標顯著性水平意義

R20.89

“質量”和“形象”解釋了89%的“用戶滿意度”的變化程度F248.530.001回歸方程的線性關系顯著T(形象)0.001.000“形象”變量對回歸方程幾乎沒有貢獻T(質量)13.930.001“質量”對回歸方程有很大貢獻T(價格)5.000.001“價格”對回歸方程有很大貢獻回歸分析RegressionAnalysis指標顯著性水平意義

R0.89

“質量”和“形象”解釋了89%的“用戶滿意度”的變化程度F374.690.001回歸方程的線性關系顯著T(質量)15.150.001“質量”對回歸方程有很大貢獻T(價格)5.060.001“價格”對回歸方程有很大貢獻SIM的用戶滿意度與相關變量的線性回歸分析因變量:“用戶滿意度〞自變量:“質量〞、“形象〞和“價格〞回歸方程:用戶滿意度=0.008×形象+0.645×質量+0.221×價格決策樹

DecisionTree決策樹

DecisionTreeEMV〔建大廠〕=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000EMV〔中型廠〕=(0.4)*($60,000))+(0.6)*(-$10,000)=+$18,000EMV〔建小廠〕=(0.4)*($40,000)+(0.6)*(-$5,000)=+$13,000EMV〔不建廠〕=$0如果建一個大廠且市場較好就可實現$100,000的利潤。如果市場不好那么會導致$90,000的損失。但是,如果市場較好,建中型廠將會獲得$60,000,小型廠將會獲得$40,000,市場不好那么建中型廠將會損失$10,000,小型廠將會損失$5,000。當然,還有一個選擇就是什么也不干。最近的市場研究說明市場好的概率是0.4,也就是說市場不好的概率是0.6。決策樹

DecisionTree根據EMV標準公司應該建一個中型廠復雜網絡ComplexNetworksAspatialcomplexdynamicalnetworkwithtime-varying(switching)topology復雜網絡ComplexNetworksConsensusCorrectconsensus

(Truelearning)Control

Manipulation

Misinformation復雜網絡ComplexNetworksPOWEROFBIGDATAOFTHEDATA

WisdomofcrowdsBYTHEDATA

WhatuneedtochangeFORTHEDATA

Qualitymattersmost工商數據分析應用案例簡介活潑度分析包括資本活潑度CRI〔CapitalRelativeindex〕和主體數量活潑度QRI〔QuantityRelativeindex〕?;顫姸戎笖凳呛饬渴袌霏h(huán)境的體檢表,也是實體經濟的晴雨表,是一項重要的經濟先行指標?;顫姸戎笖蹬c企業(yè)生存環(huán)境和市場投資環(huán)境密切相關,在市場環(huán)境轉好時,投資踴躍,資本活潑度指數升高;反之,指數下降,表示投資人不愿向經濟體注入資金,反映市場環(huán)境趨于惡化。案例一市場主體活潑度模型分析案例—市場主體活潑度模型活潑度指數與很多市場經濟指標有相當密切的關系。CRI與財政收入呈現明顯的相關關系。CRI與存款準備金率、CPI等也有明顯相關關系。案例一市場主體活潑度模型案例分享—企業(yè)生命周期企業(yè)生命周期是反映某一國家或地區(qū)中市場環(huán)境優(yōu)劣的重要指標,一般來講,長壽企業(yè)對于區(qū)域市場經濟秩序的穩(wěn)定有一定積極作用,相對的非長壽企業(yè)對經濟秩序的平穩(wěn)有相應的負面影響。對不同維度中的企業(yè)分析其生命周期,可以客觀反映區(qū)域細分市場的經濟秩序,從而協(xié)助決策者準確把握影響區(qū)域市場經濟秩序的主要因素。案例二市場主體退出路徑

案例分享—企業(yè)生命周期常規(guī)統(tǒng)計一般趨勢分析生存規(guī)律挖掘基于規(guī)律的知識發(fā)現企業(yè)生命周期的分析層次基于工商登記數據分析企業(yè)生命周期,一般有兩種常見的分析層次:常規(guī)統(tǒng)計、一般趨勢分析。通過對數據的深度分析,還可以挖掘出區(qū)域企業(yè)的生存規(guī)律,并可以根據生存規(guī)律進一步總結出直觀的,可用于實際監(jiān)管工作的“知識〞。善于發(fā)現數據背后的規(guī)律與價值案例二市場主體退出路徑

43Chapter#7案例分享—企業(yè)生命周期常規(guī)統(tǒng)計一般趨勢分析案例二市場主體退出路徑

Chapter#7案例分享—企業(yè)生命周期生存規(guī)律挖掘基于規(guī)律的知識發(fā)現死亡高風險時間段---政府監(jiān)管介入的最正確時機案例二市場主體退出路徑

不同產業(yè),不同區(qū)域,不同規(guī)模市場主體存活率的研究有助于判別市場生態(tài)環(huán)境發(fā)生了哪些變化。產業(yè)生命周期模型對于政府產業(yè)扶持政策的出臺也有著較強的參考意義。案例二市場主體退出路徑

用2000-2007年的數據預測2001-2007年成立企業(yè)在2021年末的存活數。預測2001-2007年成立企業(yè)在2021年末的存活總數為363322,實際存活個數為364927,誤差為-0.44%。開業(yè)年開業(yè)數存活率預測存活個數實際存活個數誤差個數誤差200170,5060.419129,55028,8097412.57%200274,1110.462734,29333,5937002.08%200385,3060.510043,50842,6418672.03%200499,4850.569556,66055,4131,2472.25%200596,3560.643461,99763,941-1,944-3.04%200681,6980.749361,21563,288-2,073-3.28%200785,3530.891676,09877,242-1,144-1.48%案例二市場主體退出路徑預測驗證

案例三區(qū)域產業(yè)偏好分析模型

案例五波士頓矩陣分析洞察產業(yè)變遷A類〔優(yōu)勢行業(yè)〕B類〔支柱行業(yè)〕C類〔潛力行業(yè)〕D類〔弱勢行業(yè)〕:案例五波士頓矩陣分析洞察產業(yè)變遷北京市2021、2021年重點行業(yè)產業(yè)遷移情況。案例五智波士頓矩陣分析洞察產業(yè)變遷案例五智波士頓矩陣分析洞察產業(yè)變遷利潤率%可視化案例GISofBeijingAdministrationforIndustryandCommerce地理分析系統(tǒng)-市場主體密度分析—使分析更加直觀化根據市場主體GIS信息進行密度分析。疊加其他面數據信息,可直觀看出主體的區(qū)域分布熱點。密度分析:根據輸入的點要素的分布,計算整個區(qū)域的數據分布情況,從而生成一個連續(xù)的外表。GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系統(tǒng)-市場主體密度分析—使分析更加直觀化GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系統(tǒng)-市場主體密度分析—使分析更加直觀化GISforSAICGISofBeijingAdministrationforIndustryandCommerce市場主體密度分析—疊加網格數據,點數據GISforSAICGISofBeijingAdministrationforIndustryandCommerce市場主體3D分析根據市場主體GIS信息進行3D分析。按照其屬性值進行3維拉伸,直觀展現主體的區(qū)域分布差異。3D分析:根據輸入的點要素的分布,計算整個區(qū)域的數據分布高程情況,從而生成不同高度的3D圖形。GISforSAICGISofBeijingAdministrationforIndustryandCommerce市場主體3D分析--外資2021-2021新增企業(yè)數量〔區(qū)縣〕GISforSAICGISofBeijingAdministrationforIndustryandCommerce市場主體3D分析--外資2021-2021新增企業(yè)數量〔工商所〕GISforSAICGISofBeijingAdministrationforIndu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論