版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)入門(mén)蔣龍2012年6月17日Outline計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,并應(yīng)用于解決新問(wèn)題給定數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn),機(jī)器自動(dòng)學(xué)習(xí)X和Y之間的關(guān)系,從而對(duì)新的Xi,能夠預(yù)測(cè)Yi垃圾郵件識(shí)別:(郵件1,垃圾),(郵件2,正常),(郵件3,垃圾),…(郵件N,正常)郵件X=>垃圾or正常?從輸入規(guī)則到輸入數(shù)據(jù)從機(jī)器執(zhí)行到機(jī)器決策什么是機(jī)器學(xué)習(xí)基于規(guī)則的問(wèn)題解決框架測(cè)試數(shù)據(jù)發(fā)現(xiàn)規(guī)律預(yù)測(cè)預(yù)測(cè)結(jié)果規(guī)則郵件XiYi:垃圾or正常發(fā)件人郵件地址異常;標(biāo)題含有“低價(jià)促銷(xiāo)”…機(jī)器學(xué)習(xí)執(zhí)行框架訓(xùn)練數(shù)據(jù)測(cè)試數(shù)據(jù)學(xué)習(xí)預(yù)測(cè)預(yù)測(cè)結(jié)果模型訓(xùn)練過(guò)程應(yīng)用過(guò)程(X1,Y1)(X2,Y2)…(Xn,Yn)XiYi1,8,27,64,?125f(n)=n^31,3,6,10,?15f(n)=f(n-1)+nf(n)=(n^2+n)/2智商測(cè)試1,3,6,10,?151,8,27,64,?125假設(shè)構(gòu)造
f(n)=n^3K=3,a1=1,a2,…,ak,b=0f(n)=(n^2+n)/2K=2,a1=1/2,a2=1/2,a3,..,ak,b=0發(fā)現(xiàn)規(guī)律的過(guò)程模型(族)參數(shù)參數(shù)參數(shù)參數(shù)估計(jì)假設(shè)選擇確定策略(目標(biāo)):準(zhǔn)確解釋已知數(shù)據(jù)f(1)=1,f(2)=3,f(3)=6,f(4)=10模型訓(xùn)練:確定模型參數(shù)調(diào)整參數(shù)的值以滿(mǎn)足策略需要優(yōu)化算法K=2,a1=1/2,a2=1/2,a3,..,ak,b=0=>f(n)=(n^2+n)/2發(fā)現(xiàn)規(guī)律的過(guò)程模型問(wèn)題的影響因素(特征)有哪些?它們之間的關(guān)系如何?策略什么樣的模型是好的模型算法如何高效的找到最優(yōu)參數(shù)機(jī)器學(xué)習(xí)三要素又一道智商測(cè)試:6,34,102,228,?f(n)=3*n^3+2*n^2+n為什么需要機(jī)器學(xué)習(xí)計(jì)算能力大數(shù)據(jù),快速信息交換能力強(qiáng)不受情緒影響應(yīng)用人機(jī)對(duì)弈天氣預(yù)測(cè)圖象處理語(yǔ)音識(shí)別自然語(yǔ)言處理為什么需要機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)給定數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn)對(duì)新的Xi,預(yù)測(cè)其Yi分類(lèi),回歸非監(jiān)督學(xué)習(xí)給定數(shù)據(jù)X1,X2,…,Xnf(Xi),f(Xi,Xj)概率估計(jì),降維,聚類(lèi)監(jiān)督VS非監(jiān)督批量在線(xiàn)主動(dòng)學(xué)習(xí)(Activelearning)新數(shù)據(jù)在線(xiàn)VS批量學(xué)習(xí)效果,真實(shí)效果封閉測(cè)試(close),開(kāi)放測(cè)試(opentest)交叉驗(yàn)證(crossvalidation)N-foldcrossvalidation驗(yàn)證集Validationdataset效果評(píng)測(cè)更好的效果?更多數(shù)據(jù)1,2,?3or4or…?更好的模型泛化能力效果評(píng)測(cè)什么是機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)的執(zhí)行框架學(xué)習(xí)過(guò)程的階段機(jī)器學(xué)習(xí)三要素監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)批量與在線(xiàn)學(xué)習(xí)效果評(píng)測(cè)小結(jié)Outline最常見(jiàn)的機(jī)器學(xué)習(xí)任務(wù)定義:給定一個(gè)對(duì)象X,將其劃分到預(yù)定義好的某一個(gè)類(lèi)別yi中輸入X輸出Y(取值于有限集{y1,y2,…yn})應(yīng)用:人群,新聞分類(lèi),Query分類(lèi),商品分類(lèi),網(wǎng)頁(yè)分類(lèi),垃圾郵件過(guò)濾,網(wǎng)頁(yè)排序分類(lèi)類(lèi)別數(shù)量二值分類(lèi)Y的取值只有兩種,如:email是否垃圾郵件多值分類(lèi)Y的取值大于兩個(gè),如:網(wǎng)頁(yè)分類(lèi){政治,經(jīng)濟(jì),體育,…}類(lèi)別關(guān)系水平分類(lèi)類(lèi)別之間無(wú)包含關(guān)系層級(jí)分類(lèi)類(lèi)別形成等級(jí)體系不同類(lèi)型的分類(lèi)新聞分類(lèi)任務(wù)為任一新聞,例如{股市,反彈,有力,基金,建倉(cāng),加速…}指定其類(lèi)別=>{軍事,財(cái)經(jīng),科技,生活…}基于規(guī)則的方式列舉每個(gè)類(lèi)別的常用詞軍事:導(dǎo)彈,軍艦,軍費(fèi),。。??萍迹涸朴?jì)算,siri,移動(dòng)互聯(lián)網(wǎng),。。。問(wèn)題如果保證列舉全?沖突如何處理?蘋(píng)果:科技?生活?不同的詞有不同的重要度,如何決定?如果類(lèi)別很多怎么辦?新聞分類(lèi)確定模型(線(xiàn)性假設(shè))訓(xùn)練數(shù)據(jù)(谷歌推出新措施打擊Google+垃圾信息,科技)(安信地板否認(rèn)為萬(wàn)科提供E0級(jí)產(chǎn)品,房產(chǎn))(歐洲央行超預(yù)期“撒錢(qián)”釋放流動(dòng)…,財(cái)經(jīng))機(jī)器學(xué)習(xí)策略調(diào)整每個(gè)詞對(duì)每個(gè)類(lèi)別的預(yù)測(cè)能力(wij),盡可能對(duì)訓(xùn)練數(shù)據(jù)正確分類(lèi)基于機(jī)器學(xué)習(xí)的分類(lèi)新聞分類(lèi)特征表示:X={昨日,是,國(guó)內(nèi),投資,市場(chǎng)…}特征選擇:X={國(guó)內(nèi),投資,市場(chǎng)…}模型選擇:樸素貝葉斯分類(lèi)器訓(xùn)練數(shù)據(jù)準(zhǔn)備:(X,Y)1,(X,Y)2,(X,Y)3,…模型訓(xùn)練:learn.exetrainingDataFilemodel預(yù)測(cè)(分類(lèi)):classify.exemodelnewDataFile評(píng)測(cè):Accuracy:90%分類(lèi)任務(wù)解決流程概率分類(lèi)器NB,ME計(jì)算待分類(lèi)對(duì)象屬于每個(gè)類(lèi)別的概率,選擇概率最大的類(lèi)別作為最終輸出空間分割Perceptron,SVM其他KNN1234+++++++****#****####分類(lèi)技術(shù)樸素貝葉斯(Na?veBeyes,NB)分類(lèi)器概率模型基于貝葉斯原理P(X):待分類(lèi)對(duì)象自身的概率,可忽略P(yi):每個(gè)類(lèi)別的先驗(yàn)概率,如P(軍事)P(X|yi):每個(gè)類(lèi)別產(chǎn)生該對(duì)象的概率P(xi|yi):每個(gè)類(lèi)別產(chǎn)生該特征的概率,如P(蘋(píng)果|科技)樸素貝葉斯分類(lèi)策略:最大似然估計(jì)(maximumlikelihoodestimation,MLE)P(Yi)Count(yi):類(lèi)別為yi的對(duì)象在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)例如:總共訓(xùn)練數(shù)據(jù)1000篇,其中軍事類(lèi)300篇,科技類(lèi)240篇,生活類(lèi)140篇,….P(軍事)=0.3,p(科技)=0.24,p(生活)=0.14,…模型訓(xùn)練/參數(shù)估計(jì)最大似然估計(jì)(maximumlikelihoodestimation,MLE)P(Yi)Count(xj,yi):特征xj和類(lèi)別yi在訓(xùn)練數(shù)據(jù)中同時(shí)出現(xiàn)的次數(shù)例如:總共訓(xùn)練數(shù)據(jù)1000篇,其中軍事類(lèi)300篇,科技類(lèi)240篇,生活類(lèi)140篇,….軍事類(lèi)新聞中,谷歌出現(xiàn)15次,投資出現(xiàn)9次,上漲出現(xiàn)36次P(谷歌|軍事)=0.05,p(投資|軍事)=0.03,p(上漲|軍事)=0.12…模型訓(xùn)練/參數(shù)估計(jì)P(yi)P(軍事)=0.3,p(科技)=0.24,p(生活)=0.14,…P(xi|yi)P(谷歌|軍事)=0.05,p(投資|軍事)=0.03,p(上漲|軍事)=0.12…P(谷歌|科技)=0.15,p(投資|科技)=0.10,p(上漲|科技)=0.04…P(谷歌|生活)=0.08,p(投資|生活)=0.13,p(上漲|生活)=0.18…….模型示例分類(lèi)原則給定X,計(jì)算所有的p(yi|X),選擇概率值最大的yi作為輸出X={國(guó)內(nèi),投資,市場(chǎng)…}P(軍事|X)=P(國(guó)內(nèi)|軍事)*p(投資|軍事)*p(市場(chǎng)|軍事)…p(軍事)同樣計(jì)算P(科技|X)P(生活|X)…二值和多值分類(lèi)同樣的做法預(yù)測(cè)測(cè)試數(shù)據(jù)(微軟更新必應(yīng)搜索,科技)(安街首名企精裝直降30萬(wàn),房產(chǎn))(國(guó)際板利空突襲周一大盤(pán)堪憂(yōu),財(cái)經(jīng))…混淆表混淆表(confusiontable)分類(lèi)器預(yù)測(cè)的類(lèi)別y1y2實(shí)際的類(lèi)別y1C11C12y2C21C22評(píng)測(cè)準(zhǔn)確度Accuracy:
(C11+C22)/(C11+C12+C21+C22)精確率Precision(y1):C11/(C11+C21)召回率Recall(y1):C11/(C11+C12)混淆表(confusiontable)分類(lèi)器預(yù)測(cè)的類(lèi)別y1y2實(shí)際的類(lèi)別y1C11C12y2C21C22評(píng)測(cè)指標(biāo)準(zhǔn)確度Accuracy:
(50+35)/(35+5+10+50)=85%精確率Precision(軍事):50/(50+5)=90.9%召回率Recall(軍事):50/(50+10)=83.3%混淆表(confusiontable)分類(lèi)器預(yù)測(cè)的類(lèi)別軍事科技實(shí)際的類(lèi)別軍事(60)5010科技(40)535評(píng)測(cè)指標(biāo)優(yōu)點(diǎn)簡(jiǎn)單有效結(jié)果是概率,對(duì)二值和多值同樣適用缺點(diǎn)獨(dú)立性假設(shè)有時(shí)不合理=>最大熵分類(lèi)樸素貝葉斯分類(lèi)特點(diǎn)什么是分類(lèi)?類(lèi)型有哪些?機(jī)器學(xué)習(xí)處理分類(lèi)問(wèn)題的步驟樸素貝葉斯分類(lèi)模型,策略,方法分類(lèi)問(wèn)題評(píng)測(cè)小結(jié)Outline機(jī)器學(xué)習(xí)與自然語(yǔ)言處理課程介紹理論內(nèi)容分類(lèi)問(wèn)題概述(特點(diǎn),實(shí)例,評(píng)測(cè))樸素貝葉斯分類(lèi)最大熵分類(lèi)SVM分類(lèi)特征選擇實(shí)訓(xùn):文本分類(lèi)應(yīng)用(新聞分類(lèi)/Query分類(lèi)), 分別用樸素貝葉斯方法,最大熵和SVM方法完成分類(lèi)算法及應(yīng)用理論內(nèi)容回歸問(wèn)題概述(特點(diǎn),評(píng)測(cè))線(xiàn)性回歸邏輯回歸實(shí)訓(xùn):廣告點(diǎn)擊率預(yù)估應(yīng)用(邏輯回歸)回歸模型谷歌,百度的主要收入來(lái)源廣告廣告搜索廣告模型給定一個(gè)廣告和一個(gè)特定的Query,預(yù)測(cè)該廣告被點(diǎn)擊的可能性特征,即Xi廣告質(zhì)量廣告創(chuàng)意與用戶(hù)query的相關(guān)性?xún)r(jià)格,成交量,…搜索廣告CTR預(yù)估理論內(nèi)容馬爾科夫模型語(yǔ)言模型隱馬爾科夫模型實(shí)訓(xùn):中文分詞應(yīng)用Query拼寫(xiě)糾錯(cuò)圖模型及應(yīng)用Query拼寫(xiě)糾錯(cuò)Query拼寫(xiě)糾錯(cuò)基于隱馬爾可夫模型的Query拼寫(xiě)糾錯(cuò)迪斯尼玩具迪士尼玩具迪蒂狄斯士尼妮昵玩完丸具居巨思Query拼寫(xiě)糾錯(cuò)理論內(nèi)容聚類(lèi)問(wèn)題概述(特點(diǎn),評(píng)測(cè))層級(jí)聚類(lèi)與K均值聚類(lèi)上下文相似度計(jì)算實(shí)訓(xùn)Query聚類(lèi)應(yīng)用(層級(jí)聚類(lèi)和K均值聚類(lèi))聚類(lèi)算法及應(yīng)用Query聚類(lèi)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 建立知識(shí)共享平臺(tái)的計(jì)劃
- 財(cái)務(wù)預(yù)測(cè)模型解析計(jì)劃
- 領(lǐng)導(dǎo)者在危機(jī)中的決策與反應(yīng)計(jì)劃
- 生物課程知識(shí)分享計(jì)劃
- 噴灑車(chē)輛相關(guān)項(xiàng)目投資計(jì)劃書(shū)范本
- 《軟件測(cè)試培訓(xùn)講義》課件
- 投訴處理與顧客滿(mǎn)意度培訓(xùn)
- 校外輔導(dǎo)機(jī)構(gòu)保安措施計(jì)劃
- 情感交流班主任與學(xué)生的紐帶計(jì)劃
- 吹塑機(jī)械行業(yè)相關(guān)投資計(jì)劃提議
- 礦業(yè)技術(shù)經(jīng)濟(jì)學(xué)教學(xué)課件匯總完整版電子教案全書(shū)整套課件幻燈片(最新)
- 小學(xué)預(yù)防性侵害講座
- DRAM內(nèi)存顆粒測(cè)試簡(jiǎn)介PPT課件(PPT 37頁(yè))
- 《視神經(jīng)炎》ppt課件
- 應(yīng)急預(yù)案演練記錄表范例
- 工程派工單模板
- 帶頸對(duì)焊法蘭尺寸與質(zhì)量
- 二氧化氯復(fù)合解堵技術(shù)
- 國(guó)家開(kāi)放大學(xué)《C語(yǔ)言程序設(shè)計(jì)》形考任務(wù)1-4參考答案
- 佛山批發(fā)市場(chǎng)匯總
- WordA4信紙(A4橫條直接打印版)
評(píng)論
0/150
提交評(píng)論