版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
機器學習入門蔣龍2012年6月17日Outline計算機自動從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,并應用于解決新問題給定數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn),機器自動學習X和Y之間的關系,從而對新的Xi,能夠預測Yi垃圾郵件識別:(郵件1,垃圾),(郵件2,正常),(郵件3,垃圾),…(郵件N,正常)郵件X=>垃圾or正常?從輸入規(guī)則到輸入數(shù)據(jù)從機器執(zhí)行到機器決策什么是機器學習基于規(guī)則的問題解決框架測試數(shù)據(jù)發(fā)現(xiàn)規(guī)律預測預測結果規(guī)則郵件XiYi:垃圾or正常發(fā)件人郵件地址異常;標題含有“低價促銷”…機器學習執(zhí)行框架訓練數(shù)據(jù)測試數(shù)據(jù)學習預測預測結果模型訓練過程應用過程(X1,Y1)(X2,Y2)…(Xn,Yn)XiYi1,8,27,64,?125f(n)=n^31,3,6,10,?15f(n)=f(n-1)+nf(n)=(n^2+n)/2智商測試1,3,6,10,?151,8,27,64,?125假設構造
f(n)=n^3K=3,a1=1,a2,…,ak,b=0f(n)=(n^2+n)/2K=2,a1=1/2,a2=1/2,a3,..,ak,b=0發(fā)現(xiàn)規(guī)律的過程模型(族)參數(shù)參數(shù)參數(shù)參數(shù)估計假設選擇確定策略(目標):準確解釋已知數(shù)據(jù)f(1)=1,f(2)=3,f(3)=6,f(4)=10模型訓練:確定模型參數(shù)調(diào)整參數(shù)的值以滿足策略需要優(yōu)化算法K=2,a1=1/2,a2=1/2,a3,..,ak,b=0=>f(n)=(n^2+n)/2發(fā)現(xiàn)規(guī)律的過程模型問題的影響因素(特征)有哪些?它們之間的關系如何?策略什么樣的模型是好的模型算法如何高效的找到最優(yōu)參數(shù)機器學習三要素又一道智商測試:6,34,102,228,?f(n)=3*n^3+2*n^2+n為什么需要機器學習計算能力大數(shù)據(jù),快速信息交換能力強不受情緒影響應用人機對弈天氣預測圖象處理語音識別自然語言處理為什么需要機器學習監(jiān)督學習給定數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn)對新的Xi,預測其Yi分類,回歸非監(jiān)督學習給定數(shù)據(jù)X1,X2,…,Xnf(Xi),f(Xi,Xj)概率估計,降維,聚類監(jiān)督VS非監(jiān)督批量在線主動學習(Activelearning)新數(shù)據(jù)在線VS批量學習效果,真實效果封閉測試(close),開放測試(opentest)交叉驗證(crossvalidation)N-foldcrossvalidation驗證集Validationdataset效果評測更好的效果?更多數(shù)據(jù)1,2,?3or4or…?更好的模型泛化能力效果評測什么是機器學習機器學習的執(zhí)行框架學習過程的階段機器學習三要素監(jiān)督學習與非監(jiān)督學習批量與在線學習效果評測小結Outline最常見的機器學習任務定義:給定一個對象X,將其劃分到預定義好的某一個類別yi中輸入X輸出Y(取值于有限集{y1,y2,…yn})應用:人群,新聞分類,Query分類,商品分類,網(wǎng)頁分類,垃圾郵件過濾,網(wǎng)頁排序分類類別數(shù)量二值分類Y的取值只有兩種,如:email是否垃圾郵件多值分類Y的取值大于兩個,如:網(wǎng)頁分類{政治,經(jīng)濟,體育,…}類別關系水平分類類別之間無包含關系層級分類類別形成等級體系不同類型的分類新聞分類任務為任一新聞,例如{股市,反彈,有力,基金,建倉,加速…}指定其類別=>{軍事,財經(jīng),科技,生活…}基于規(guī)則的方式列舉每個類別的常用詞軍事:導彈,軍艦,軍費,。。。科技:云計算,siri,移動互聯(lián)網(wǎng),。。。問題如果保證列舉全?沖突如何處理?蘋果:科技?生活?不同的詞有不同的重要度,如何決定?如果類別很多怎么辦?新聞分類確定模型(線性假設)訓練數(shù)據(jù)(谷歌推出新措施打擊Google+垃圾信息,科技)(安信地板否認為萬科提供E0級產(chǎn)品,房產(chǎn))(歐洲央行超預期“撒錢”釋放流動…,財經(jīng))機器學習策略調(diào)整每個詞對每個類別的預測能力(wij),盡可能對訓練數(shù)據(jù)正確分類基于機器學習的分類新聞分類特征表示:X={昨日,是,國內(nèi),投資,市場…}特征選擇:X={國內(nèi),投資,市場…}模型選擇:樸素貝葉斯分類器訓練數(shù)據(jù)準備:(X,Y)1,(X,Y)2,(X,Y)3,…模型訓練:learn.exetrainingDataFilemodel預測(分類):classify.exemodelnewDataFile評測:Accuracy:90%分類任務解決流程概率分類器NB,ME計算待分類對象屬于每個類別的概率,選擇概率最大的類別作為最終輸出空間分割Perceptron,SVM其他KNN1234+++++++****#****####分類技術樸素貝葉斯(Na?veBeyes,NB)分類器概率模型基于貝葉斯原理P(X):待分類對象自身的概率,可忽略P(yi):每個類別的先驗概率,如P(軍事)P(X|yi):每個類別產(chǎn)生該對象的概率P(xi|yi):每個類別產(chǎn)生該特征的概率,如P(蘋果|科技)樸素貝葉斯分類策略:最大似然估計(maximumlikelihoodestimation,MLE)P(Yi)Count(yi):類別為yi的對象在訓練數(shù)據(jù)中出現(xiàn)的次數(shù)例如:總共訓練數(shù)據(jù)1000篇,其中軍事類300篇,科技類240篇,生活類140篇,….P(軍事)=0.3,p(科技)=0.24,p(生活)=0.14,…模型訓練/參數(shù)估計最大似然估計(maximumlikelihoodestimation,MLE)P(Yi)Count(xj,yi):特征xj和類別yi在訓練數(shù)據(jù)中同時出現(xiàn)的次數(shù)例如:總共訓練數(shù)據(jù)1000篇,其中軍事類300篇,科技類240篇,生活類140篇,….軍事類新聞中,谷歌出現(xiàn)15次,投資出現(xiàn)9次,上漲出現(xiàn)36次P(谷歌|軍事)=0.05,p(投資|軍事)=0.03,p(上漲|軍事)=0.12…模型訓練/參數(shù)估計P(yi)P(軍事)=0.3,p(科技)=0.24,p(生活)=0.14,…P(xi|yi)P(谷歌|軍事)=0.05,p(投資|軍事)=0.03,p(上漲|軍事)=0.12…P(谷歌|科技)=0.15,p(投資|科技)=0.10,p(上漲|科技)=0.04…P(谷歌|生活)=0.08,p(投資|生活)=0.13,p(上漲|生活)=0.18…….模型示例分類原則給定X,計算所有的p(yi|X),選擇概率值最大的yi作為輸出X={國內(nèi),投資,市場…}P(軍事|X)=P(國內(nèi)|軍事)*p(投資|軍事)*p(市場|軍事)…p(軍事)同樣計算P(科技|X)P(生活|X)…二值和多值分類同樣的做法預測測試數(shù)據(jù)(微軟更新必應搜索,科技)(安街首名企精裝直降30萬,房產(chǎn))(國際板利空突襲周一大盤堪憂,財經(jīng))…混淆表混淆表(confusiontable)分類器預測的類別y1y2實際的類別y1C11C12y2C21C22評測準確度Accuracy:
(C11+C22)/(C11+C12+C21+C22)精確率Precision(y1):C11/(C11+C21)召回率Recall(y1):C11/(C11+C12)混淆表(confusiontable)分類器預測的類別y1y2實際的類別y1C11C12y2C21C22評測指標準確度Accuracy:
(50+35)/(35+5+10+50)=85%精確率Precision(軍事):50/(50+5)=90.9%召回率Recall(軍事):50/(50+10)=83.3%混淆表(confusiontable)分類器預測的類別軍事科技實際的類別軍事(60)5010科技(40)535評測指標優(yōu)點簡單有效結果是概率,對二值和多值同樣適用缺點獨立性假設有時不合理=>最大熵分類樸素貝葉斯分類特點什么是分類?類型有哪些?機器學習處理分類問題的步驟樸素貝葉斯分類模型,策略,方法分類問題評測小結Outline機器學習與自然語言處理課程介紹理論內(nèi)容分類問題概述(特點,實例,評測)樸素貝葉斯分類最大熵分類SVM分類特征選擇實訓:文本分類應用(新聞分類/Query分類), 分別用樸素貝葉斯方法,最大熵和SVM方法完成分類算法及應用理論內(nèi)容回歸問題概述(特點,評測)線性回歸邏輯回歸實訓:廣告點擊率預估應用(邏輯回歸)回歸模型谷歌,百度的主要收入來源廣告廣告搜索廣告模型給定一個廣告和一個特定的Query,預測該廣告被點擊的可能性特征,即Xi廣告質(zhì)量廣告創(chuàng)意與用戶query的相關性價格,成交量,…搜索廣告CTR預估理論內(nèi)容馬爾科夫模型語言模型隱馬爾科夫模型實訓:中文分詞應用Query拼寫糾錯圖模型及應用Query拼寫糾錯Query拼寫糾錯基于隱馬爾可夫模型的Query拼寫糾錯迪斯尼玩具迪士尼玩具迪蒂狄斯士尼妮昵玩完丸具居巨思Query拼寫糾錯理論內(nèi)容聚類問題概述(特點,評測)層級聚類與K均值聚類上下文相似度計算實訓Query聚類應用(層級聚類和K均值聚類)聚類算法及應用Query聚類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度觸控技術培訓與認證合同4篇
- 2025年收藏品市場交易規(guī)則制定與轉讓合同3篇
- 二零二五年度石油化工儲油罐采購合同樣本4篇
- 二零二四三方詢價采購合同-新能源汽車充電樁安裝與維護3篇
- A與B雙方合作經(jīng)營合同書2024版版B版
- 二零二四年專業(yè)講師團隊簽約合作合同范本3篇
- 個人與企業(yè)2024年度庫房租賃承包合同3篇
- 2025年新型車庫設施銷售與技術支持合同4篇
- 2025年度車輛租賃合同終止協(xié)議范本(含車輛違章處理責任)4篇
- 2025年度室內(nèi)外裝飾設計與施工總承包合同模板4篇
- 部編版六年級下冊道德與法治全冊教案教學設計
- 【高空拋物侵權責任規(guī)定存在的問題及優(yōu)化建議7100字(論文)】
- 二年級數(shù)學上冊100道口算題大全 (每日一套共26套)
- 物流無人機垂直起降場選址與建設規(guī)范
- 肺炎臨床路徑
- 外科手術鋪巾順序
- 創(chuàng)新者的窘境讀書課件
- 聚焦任務的學習設計作業(yè)改革新視角
- 移動商務內(nèi)容運營(吳洪貴)任務三 APP的品牌建立與價值提供
- 電子競技范文10篇
- 食堂服務質(zhì)量控制方案與保障措施
評論
0/150
提交評論