




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
彭振云唐昭琳工業(yè)大數(shù)據(jù)采集、處理與應(yīng)用課程目錄1五、工業(yè)大數(shù)據(jù)分析認(rèn)識(shí)大數(shù)據(jù)分析過程理解機(jī)器學(xué)習(xí)的相關(guān)概念理解兩種不同預(yù)測(cè)算法的應(yīng)用場(chǎng)景知識(shí)目標(biāo)技能目標(biāo)掌握數(shù)據(jù)分析工具的安裝和使用方法掌握兩類常見的回歸和分類預(yù)測(cè)方法能夠使用數(shù)據(jù)分析工具進(jìn)行分類預(yù)測(cè)分析學(xué)習(xí)目標(biāo)2五、工業(yè)大數(shù)據(jù)建模(一)使用大數(shù)據(jù)分析工具(二)使用回歸分析預(yù)測(cè)(三)使用分類分析預(yù)測(cè)內(nèi)容組成3大數(shù)據(jù)分析過程五、工業(yè)大數(shù)據(jù)分析大數(shù)據(jù)分析
對(duì)海量數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的過程,也就是建立經(jīng)驗(yàn)?zāi)P汀?五、工業(yè)大數(shù)據(jù)分析算法選擇
根據(jù)要解決的具體業(yè)務(wù)問題來構(gòu)建或選擇算法。模型訓(xùn)練
模型開發(fā)過程是一個(gè)從數(shù)據(jù)中學(xué)習(xí)得到模型的過程,稱為“訓(xùn)練”或“學(xué)習(xí)”。模型中可以適當(dāng)變化的部分,一般叫做參數(shù)。應(yīng)基于實(shí)際的業(yè)務(wù)數(shù)據(jù)來確定最合適的模型參數(shù)。數(shù)據(jù)集劃分
算法建模所用的數(shù)據(jù)集一般分為兩個(gè)部分。一部分用于訓(xùn)練模型的,叫“訓(xùn)練集”;另一部分用于評(píng)估模型的,叫“驗(yàn)證集”。原則上不用訓(xùn)練集作為驗(yàn)證集。模型評(píng)估
用驗(yàn)證集來判斷訓(xùn)練得到的模型是否適用。如果在訓(xùn)練集和驗(yàn)證集上的預(yù)測(cè)效果差不多,就表示模型質(zhì)量尚好,可直接使用。如果發(fā)現(xiàn)訓(xùn)練集和驗(yàn)證集上的預(yù)測(cè)效果相差太遠(yuǎn),說明模型還有優(yōu)化的余地。建立算法模型的關(guān)鍵環(huán)節(jié)5三、工業(yè)大數(shù)據(jù)建模機(jī)器學(xué)習(xí)
通過算法使得機(jī)器能從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而對(duì)新的樣本能做出智能識(shí)別或預(yù)測(cè)。。機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景常見應(yīng)用預(yù)測(cè):設(shè)備故障預(yù)測(cè)、降雨預(yù)測(cè)、產(chǎn)品質(zhì)量預(yù)測(cè)……營銷:商品推薦、用戶群體畫像、廣告精準(zhǔn)投放金融:貸款發(fā)放預(yù)測(cè)、金融風(fēng)險(xiǎn)控制、股票走勢(shì)預(yù)測(cè)、黃金價(jià)格預(yù)測(cè)社交關(guān)系挖掘:社交關(guān)系鏈分析、微博粉絲領(lǐng)袖分析自然語言處理:翻譯、關(guān)鍵詞提取、文章摘要、文本內(nèi)容分析圖片分類、圖片文本內(nèi)容提取、文字識(shí)別6三、工業(yè)大數(shù)據(jù)分析有監(jiān)督學(xué)習(xí)在給定一系列輸入/輸出樣本(實(shí)例)構(gòu)成的數(shù)據(jù)集的條件下,學(xué)習(xí)輸入x到輸出y的映射關(guān)系。有監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是帶有標(biāo)簽的,每一個(gè)樣本數(shù)據(jù)都含有已知結(jié)論,其主要做法是使用有標(biāo)簽的樣本數(shù)據(jù)來訓(xùn)練得到模型。無監(jiān)督學(xué)習(xí)在給定一系列僅由輸入樣本(實(shí)例)構(gòu)成的數(shù)據(jù)集的條件下,發(fā)現(xiàn)數(shù)據(jù)中的模式。無監(jiān)督學(xué)習(xí)有時(shí)候也稱為知識(shí)發(fā)現(xiàn)。無監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)沒有任何標(biāo)簽,而是直接從數(shù)據(jù)本身發(fā)現(xiàn)一些潛在的規(guī)律。強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是指一個(gè)系統(tǒng)和外界環(huán)境不斷地交互,獲得外界反饋,然后決定自身的行為,達(dá)到長(zhǎng)期目標(biāo)的最優(yōu)化。其中典型的案例就是阿爾法狗下圍棋,或者汽車無人駕駛。機(jī)器學(xué)習(xí)類型7三、工業(yè)大數(shù)據(jù)分析分類預(yù)測(cè)
利用算法,從樣本數(shù)據(jù)中學(xué)習(xí)并推導(dǎo)出判斷模型,從而對(duì)未知的數(shù)據(jù)進(jìn)行識(shí)別。
包括以下兩類:回歸分析:輸入變量(特征)與輸出變量(結(jié)果)均為連續(xù)變量的預(yù)測(cè)問題。例如,預(yù)測(cè)明天的氣溫是多少度(定量),這是一個(gè)回歸任務(wù)。分類分析:輸出變量(結(jié)果)為有限個(gè)離散變量的預(yù)測(cè)問題。例如,預(yù)測(cè)明天是陰、晴還是雨(定性),這是一個(gè)分類任務(wù)。
什么是分類預(yù)測(cè)?8三、工業(yè)大數(shù)據(jù)建模認(rèn)識(shí)Weka9三、工業(yè)大數(shù)據(jù)建模認(rèn)識(shí)Weka的數(shù)據(jù)實(shí)例屬性10五、工業(yè)大數(shù)據(jù)分析認(rèn)識(shí)Weka的數(shù)據(jù)文件格式——arff%ARFFweather@relationweather@attributetemperaturereal@attributehumidityreal@attributewindy{TRUE,FALSE}@attributeplay{yes,no}@data29,85,FALSE,no26,90,TRUE,no28,86,FALSE,yes21,96,FALSE,yes注釋行數(shù)據(jù)集名稱數(shù)據(jù)屬性數(shù)據(jù)行起始11三、工業(yè)大數(shù)據(jù)建模分類預(yù)測(cè)
利用算法,從樣本數(shù)據(jù)中學(xué)習(xí)并推導(dǎo)出判斷模型,從而對(duì)未知的數(shù)據(jù)進(jìn)行識(shí)別。
包括兩類:回歸分析:輸入變量(特征)與輸出變量(結(jié)果)均為連續(xù)變量的預(yù)測(cè)問題。例如,預(yù)測(cè)明天的氣溫是多少度(定量),這是一個(gè)回歸任務(wù)。分類分析:輸出變量(結(jié)果)為有限個(gè)離散變量的預(yù)測(cè)問題。例如,預(yù)測(cè)明天是陰、晴還是雨(定性),這是一個(gè)分類任務(wù)。分類預(yù)測(cè)回歸得到的結(jié)果是連續(xù)值,分類的得到的結(jié)果是離散值。12三、工業(yè)大數(shù)據(jù)建模回歸分析思想:給定一個(gè)自變量
x,以及一個(gè)因變量y,用歷史數(shù)據(jù)樣本,擬合得到一條直線或曲線。
歸回分析算法思想因變量:通常是實(shí)際問題中所關(guān)心的一類指標(biāo),常用y表示。例如,研究能源消耗與某些因素關(guān)系中,那么,能源消耗就是因變量。自變量:影響因變量取值的變量稱為自變量,常用x來表示。如研究能源消耗與時(shí)間的關(guān)系中,時(shí)間就是自變量。13三、工業(yè)大數(shù)據(jù)建模使用歸回分析進(jìn)行預(yù)測(cè)因變量年份能耗消耗量年份能耗消耗量200510602013219302006349020141864020074990201523680200835602016245402009646020173082020109760201830820201115290201931060201223020202036990自變量例:某企業(yè)能源消耗的歷年數(shù)據(jù)預(yù)測(cè)值14三、工業(yè)大數(shù)據(jù)建模如何評(píng)估歸回分析模型的優(yōu)劣?相關(guān)系數(shù)
度量變量之間相關(guān)的緊密程度。該系數(shù)取值范圍為?1~1。越靠近正負(fù)1,表明兩個(gè)變量之間的線性關(guān)系越明顯;越接近0,表明兩個(gè)變量之間線性關(guān)系越小。當(dāng)其為0時(shí),說明兩個(gè)變量之間不存在線性關(guān)系?;貧w系數(shù)
假定x是自變量,y是因變量。回歸系數(shù)越大表示x對(duì)y影響越大,正回歸系數(shù)表示y隨x增大而增大,負(fù)回歸系數(shù)表示y隨x增大而減小。15三、工業(yè)大數(shù)據(jù)建模建立歸回分析模型的步驟16三、工業(yè)大數(shù)據(jù)建模Weka:導(dǎo)入數(shù)據(jù)集選擇過濾器對(duì)數(shù)據(jù)預(yù)處理從文件讀入數(shù)據(jù)數(shù)據(jù)屬性數(shù)據(jù)分布情況17三、工業(yè)大數(shù)據(jù)建模Weka:利用散點(diǎn)圖觀察數(shù)據(jù)的變化趨勢(shì)18三、工業(yè)大數(shù)據(jù)建模Weak:選擇線性回歸算法19三、工業(yè)大數(shù)據(jù)建模Weak:設(shè)置訓(xùn)練集、驗(yàn)證集設(shè)置訓(xùn)練集、驗(yàn)證集20三、工業(yè)大數(shù)據(jù)建模Weak:執(zhí)行訓(xùn)練執(zhí)行訓(xùn)練21三、工業(yè)大數(shù)據(jù)建模Weak:模型誤差分析誤差判斷參考指標(biāo):Correlationcoefficient:相關(guān)性Meanabsoluteerror:平均絕對(duì)誤差Rootmeansquarederror:平均根誤差Relativeabsoluteerror:相對(duì)誤差Rootrelativesquarederror:方根相對(duì)誤差22三、工業(yè)大數(shù)據(jù)建模分類分析算法思想分類分析:指通過對(duì)歷史數(shù)據(jù)進(jìn)行測(cè)算,實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的分類。與回歸不同的是,輸出的結(jié)果是有限數(shù)量的離散變量。應(yīng)用比較廣的分類算法:決策樹(DesitionTree)隨機(jī)森林(RandomForest)梯度下降決策樹(GBDT)極端梯度提升決策樹(XGBoost)梯度提升決策樹(LightGBM)貝葉斯(Bayes)人工神經(jīng)網(wǎng)絡(luò)(ANN)支持向量機(jī)(SVM)23三、工業(yè)大數(shù)據(jù)建模分類分析的思想分類分析思想——以決策樹為例24三、工業(yè)大數(shù)據(jù)建模如何評(píng)估分類分析模型的優(yōu)劣?查準(zhǔn)率(準(zhǔn)確率)=正確識(shí)別正品的個(gè)數(shù)/(真正品數(shù)+假正品數(shù))查全率(召回率)=正確識(shí)別正品的個(gè)數(shù)/(真正品數(shù)+假次品數(shù))ROC曲線ROC曲線越靠攏(0,1)點(diǎn),越偏離45度對(duì)角線越好。AUC
(AreaUnderCurve)
AUC是Roc曲線下的面積。AUC介于0.1和1之間。AUC作為數(shù)值可以直觀的評(píng)價(jià)分類器的好壞,值越大越好。當(dāng)0.5<AUC<1,優(yōu)于隨機(jī)猜測(cè)。Kappa統(tǒng)計(jì)量:與隨機(jī)分類的差異程度。0,表示與隨機(jī)分類完全相同。1,表示與隨機(jī)分類完全相異。越接近1,表明分類器越好。ROC曲線(綠色線)AUC(藍(lán)色部分)25三、工業(yè)大數(shù)據(jù)建模Weka:導(dǎo)入數(shù)據(jù)集從文件讀入數(shù)據(jù)選擇過濾器對(duì)數(shù)據(jù)預(yù)處理數(shù)據(jù)屬性數(shù)據(jù)分布情況26三、工業(yè)大數(shù)據(jù)建模選擇分類算法設(shè)置算法參數(shù)選擇算法27三、工業(yè)大數(shù)據(jù)建模執(zhí)行訓(xùn)練后,分析誤差正確分類的樣例個(gè)數(shù)錯(cuò)誤分類的樣例個(gè)數(shù)28三、工業(yè)大數(shù)據(jù)建模決策樹可視化29三、工業(yè)大數(shù)據(jù)建模拓展知識(shí)——集成學(xué)習(xí)單棵決策樹兩棵決策樹集成學(xué)習(xí):指將多個(gè)學(xué)習(xí)模型組合,以獲得更好的預(yù)測(cè)效果、更強(qiáng)的泛化能力。如構(gòu)建多個(gè)分類器,各自獨(dú)立學(xué)習(xí)和做出預(yù)測(cè),再用某種策略組合這些分類器來完成學(xué)習(xí)任務(wù)。例:預(yù)測(cè)一臺(tái)設(shè)備的故障風(fēng)險(xiǎn),方法對(duì)比。30三、工業(yè)大數(shù)據(jù)建模拓展知識(shí)——聚類分析聚類
將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過程,使得同一個(gè)簇中的對(duì)象有較大的相似性,而不同簇間的對(duì)象有較大的相異性。
聚類與分類的不同在于,聚類所要求劃分的類是未知的,屬于機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法。聚類分析算法常見的有K-Means。K-Means是一種通過均值對(duì)數(shù)據(jù)點(diǎn)進(jìn)行聚類的算法。適用于對(duì)球形簇分布的數(shù)據(jù)聚類分析,可應(yīng)用于客戶細(xì)分、市場(chǎng)細(xì)分等分析場(chǎng)景。31三、工業(yè)大數(shù)據(jù)建模拓展知識(shí)——關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則反映一個(gè)事物與其它事物之間的相互依存性和關(guān)聯(lián)性。如果兩個(gè)事物或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個(gè)事物就能夠通過其它事物被預(yù)測(cè)到。例:假設(shè)超市想了解顧客的購物習(xí)慣,特別是想知道哪些商品顧客可能會(huì)在一次購物時(shí)同時(shí)購買??梢詫?duì)商店的顧客事物零售數(shù)量進(jìn)行購物籃分析。通過發(fā)現(xiàn)顧
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- ESD靜電防護(hù)知識(shí)課件
- 國學(xué)智慧與傳統(tǒng)文化匯報(bào)模板
- 38900培訓(xùn)課件教學(xué)課件
- 吉林省長(zhǎng)春市2025屆高三下學(xué)期2月質(zhì)量監(jiān)測(cè)(二)(二模)地理 含解析
- 人教版數(shù)學(xué)小學(xué)六年級(jí)下冊(cè)第一課廣角鴿巢問題習(xí)題
- 人教版數(shù)學(xué)六年級(jí)下冊(cè)第一單元《負(fù)數(shù)》同步練習(xí)含答案
- 人教版數(shù)學(xué)【基礎(chǔ)+提升】小學(xué)六下1.1認(rèn)識(shí)負(fù)數(shù)同步練習(xí)含答案
- 2025年廣西貴港市港南區(qū)重點(diǎn)名校初三第二學(xué)期期末質(zhì)量抽測(cè)化學(xué)試題試卷含解析
- 河南省鄭州市鞏義市2024-2025學(xué)年小升初模擬數(shù)學(xué)測(cè)試卷含解析
- 2025年山東省寧津縣市級(jí)名校初三年級(jí)四月調(diào)研考試化學(xué)試題含解析
- 門診護(hù)士溝通培訓(xùn)課件
- 2025年企業(yè)招聘筆試題庫及答案
- 2025屆山東省菏澤市高三下學(xué)期一模政治試題及答案
- 乒乓球愛好者如何制定乒乓球訓(xùn)練計(jì)劃
- 2025年高中語文課內(nèi)古詩文《蜀道難》《蜀相》聯(lián)讀教學(xué)設(shè)計(jì)
- 2025年湖南省長(zhǎng)沙市長(zhǎng)郡教育集團(tuán)九年級(jí)下學(xué)期第一次學(xué)情分析(中考一模)語文試題(含解析)
- 江西南昌市2025屆高三語文一模作文:對(duì)“差不多”“盡力了”的思考
- GB/T 45290-2025鄉(xiāng)村應(yīng)急避難場(chǎng)所設(shè)計(jì)規(guī)范
- 【語文】《青蒿素:人類征服疾病的一小步》《一名物理學(xué)家的教育歷程》課件2024-2025學(xué)年統(tǒng)編版高一語文必修下冊(cè)
- 《某連鎖藥店銷售培訓(xùn)教材》183
- 《燈光照明設(shè)計(jì)》課件
評(píng)論
0/150
提交評(píng)論