




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
機器學(xué)習(xí)方法的比較--李彥鵬--Logistic回歸,CRF與SVM內(nèi)容提要正則化方法Logistic回歸CRF工具包的使用練習(xí)“兩只刺猬”的故事兩只困倦的刺猬,由于寒冷而擁在一起??梢驗楦髯陨砩隙奸L著刺,于是它們離開了一段距離,但又冷得受不了,于是湊到一起。幾經(jīng)折騰,兩只刺猬終于找到一個合適的距離:既能互相獲得對方的溫暖而又不致于被扎。起初:dist*=argmin
(寒冷)最終:dist*=argmin
(C*寒冷+被刺到)最好的不是最極端的,而是最和諧的機器學(xué)習(xí)的發(fā)展也經(jīng)歷了類似的過程機器學(xué)習(xí)經(jīng)驗數(shù)據(jù)一般規(guī)律預(yù)測新數(shù)據(jù)經(jīng)驗風(fēng)險最小化:f*=argmin(經(jīng)驗風(fēng)險)過擬合(overfitting)正則化:f*=argmin(C*經(jīng)驗風(fēng)險+1/泛化能力)不適定(ill-posed)問題算子方程的解不存在,不唯一,或不穩(wěn)定下列方程f是未知數(shù):通過求極值的方法解方程,最小化泛函然而一些很一般的情況下,解是不適定的,當(dāng)左端變化很小,f會變化很大,尤其是當(dāng)然們試圖反演因果關(guān)系的時候,如:密度估計正則化方法60年代中期人們發(fā)現(xiàn)在R后面加入一個正則化因子可以解決不適定的問題正則化方法在反問題的求解中扮演了重要的角色,如函數(shù)估計,密度估計等問題。目前最常用的機器學(xué)習(xí)算法都是基于此框架。如:SVM,regularizedLogisticregression貝葉斯估計根據(jù)樣本x1,x2..xn,估計密度函數(shù)P(x,α),其中α為未知參數(shù)極大斯然估計:
α*=argmaxP(X|α)=argmin(-ln(p(x1,α)*p(x2,α)..p(xn,α)))貝葉斯估計:極大化后驗概率估計-maximumaposteriori(MAP)estimateα*=argmaxP(α|X)=argmaxP(X|α)*P(α)=argmin(-ln(p(x1,α)*p(x2,α)..p(xn,α))–lnP(α))總結(jié)極大斯然估計過于依賴經(jīng)驗,容易犯“經(jīng)驗主義”的錯誤。貝葉斯估計利用先驗知識P(α)來避免這種錯誤的發(fā)生。貝葉斯方法與正則化方法得到十分類似的結(jié)果!不同學(xué)科的理論都反映了大自然的同一個規(guī)律。
LogisticRegression回歸:根據(jù)有限樣本估計產(chǎn)生樣本的函數(shù)線性回歸:假設(shè)待求函數(shù)為線性函數(shù)。例:2維的情況,假設(shè)待求函數(shù)為f(x1,x2)=w1*x1+w2*x2需要估計w1,w2的值。Logistic回歸:假設(shè)待求概率函數(shù)為sigmoid函數(shù):P(x)=1/(1+e-(w*x))
估計:參數(shù)w例:2維的情況:P(x1,x2)=1/(1+e-(w1*x1+w2*x2))LogisticRegression給定決策函數(shù)的形式:
設(shè)回歸函數(shù):樣本的概率分布:LR的訓(xùn)練對于訓(xùn)練樣本最小化如下風(fēng)險函數(shù)
正則化的LRL2normLogisticRegression:BayesianLogisticRegression:SVMvs.LR
SVMLRSVMvs.LRSVM與LR具有很相似的風(fēng)險函數(shù)實際應(yīng)用中的效果不相上下為什么SVM比LR更流行?核化的SVM具有“稀疏性”(支撐向量)但核化的LR不具有,在這種情況下,SVM的效率往往高于LRSVM有很多方便的開源工具包,如:SVM-light,libsvm等。SVM是新的算法,而LR是傳統(tǒng)的統(tǒng)計學(xué)模型序列標(biāo)注問題代詞系動詞冠詞名詞Iamastudent.在詞性標(biāo)注問題中,樣本之間是有關(guān)聯(lián)的。序列模型、圖模型就是將這些關(guān)聯(lián)嵌入到模型中,NLP中常用的模型有:HMM,CRF(Lafferty2001)在近年的NLP研究中,CRF已“取代”了HMM條件隨機域(CRF)s:狀態(tài)序列
o:觀察值序列st:當(dāng)前狀態(tài)
st-1:前一個狀態(tài)fk:第k個特征Zo:歸一化因子條件隨機域(CRF)訓(xùn)練的過程,MAP估計不同模型的比較刺猬:dist*=argmin
(C*寒冷+被刺到)正則化:f*=argmin(C*經(jīng)驗風(fēng)險+1/泛化能力)SVM:LRCRF:總結(jié)形如:f*=argmin(損失函數(shù)+正則項)
的正則化方法方法是目前最流行的機器學(xué)習(xí)模型的框架在此框架下,SVM與LR,CRF十分相似繼續(xù)提升的空間?針對具體問題修改損失函數(shù)和正則項,是目前機器學(xué)習(xí)領(lǐng)域最熱門的研究之一但大量實踐證明,嘗試復(fù)雜的模型遠(yuǎn)不如選擇更好的特征機器學(xué)習(xí)的基本問題是模型還是特征?CRF常用的工具包Mallet:/作者AndrewMcCallum,CRF的發(fā)明人之一Java語言實現(xiàn),一整套自然語言處理工具。包含CRF算法的實現(xiàn)CRF++:/C++實現(xiàn),文檔豐富,例子很多,更容易使用。包含CRF的擴(kuò)展,如:Supportsemi-MarkovCRF,Supportpiece-wiseCRFBBR工具包BBR:BayesianLogisticRegressionSoftware
/~madigan/BBR/由美國Rutgers大學(xué)DIMACS實驗室開發(fā)。原理:基于貝葉斯估計(正則化)的LogisticRegression,實現(xiàn)了Gaussianprior和Laplaceprior兩種正則化方法。
參考:Zhang,T.andOles,F.(2001).Textcategorizationbasedonregularizedlinearclassifiers.InformationRetrieval.4(1):5--31.
BBR工具包輸入文件格式:<label>{<feature_id>:<value>}*結(jié)果文件格式:<score><label>訓(xùn)練訓(xùn)練:程序:BBRtrain.exe/~madigan/BBR/windows/BBRtrain.exe命令格式:BBRtrain[options]training_data_filemodel_file常用選項測試測試:BBRclassify.exe/~madigan/BBR/windows/BBRclassify.exeBBRclassify[options]new_data_filemodel_file-r<results_file>常用選項:練習(xí)內(nèi)容目的:學(xué)會使用BBR工具包進(jìn)行文本分類驗證Prior參數(shù)對分類效果的影響比較Logistic回歸與SVM的分類效果掌握“交叉驗證”的方法熟悉各種指標(biāo),準(zhǔn)確率,召回率,F(xiàn)值,AUC語料:SEWM”垃圾郵件“任務(wù)語料實現(xiàn)步驟步驟:語料處理:分詞,詞干化,建立向量空間模型,使用布爾型或IFIDF特征權(quán)重。利用BBR工具包進(jìn)行訓(xùn)練,分類檢驗使用不同Prior參數(shù)對分類效果的影響使用“交叉驗證”的方法調(diào)節(jié)參數(shù)比較libsvm(或svmlight)與BBR的分類效果提交在SEWM測試集上的分類結(jié)果開放性問題:是否可以通過SVM與LR融合,取得更好的分類效果?應(yīng)采用怎樣的融合的方法?參考資料Vapnik.張學(xué)工譯,統(tǒng)計學(xué)習(xí)理論的本質(zhì),清華大學(xué)出版社,2004C.M.Bishop.Patternrecognitionandmachinelearning.Springer,2006.JZhu,THastie.Kernellogisticregressionandtheimportvectormachine.JournalofComputationalandGraphicalStatistics,2005
JLafferty,AMcCallum,FPereira.Conditionalrandomfields:ProbabilisticmodelsforsegmentingandlabelingsequencedataFSha,FPereira.Shallowparsingwithcondition
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國地質(zhì)大學(xué)(北京)《水生態(tài)保護(hù)與修復(fù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 黑龍江交通職業(yè)技術(shù)學(xué)院《幼兒美術(shù)賞析》2023-2024學(xué)年第二學(xué)期期末試卷
- 貴州黔南經(jīng)濟(jì)學(xué)院《生物產(chǎn)品市場營銷學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 魯迅美術(shù)學(xué)院《城市地理與城市規(guī)劃》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江海洋大學(xué)《化學(xué)原理A》2023-2024學(xué)年第二學(xué)期期末試卷
- 上?,F(xiàn)代化工職業(yè)學(xué)院《室內(nèi)公共空間設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 吉林電子信息職業(yè)技術(shù)學(xué)院《產(chǎn)品模型與交互原型》2023-2024學(xué)年第二學(xué)期期末試卷
- 云南醫(yī)藥健康職業(yè)學(xué)院《C語言程序設(shè)計實踐II》2023-2024學(xué)年第二學(xué)期期末試卷
- 南京旅游職業(yè)學(xué)院《大數(shù)據(jù)技術(shù)開源架構(gòu)》2023-2024學(xué)年第二學(xué)期期末試卷
- 寺廟建筑協(xié)議合同范本
- 銷售人員崗位職責(zé)培訓(xùn)
- 2024-2025學(xué)年九年級化學(xué)人教版上冊檢測試卷(1-4單元)
- 2024年遼寧省鞍山岫巖滿族自治縣事業(yè)單位招聘(150人)歷年高頻難、易錯點500題模擬試題附帶答案詳解
- 護(hù)理質(zhì)控護(hù)士競聘
- 《井中分布式光纖聲波傳感數(shù)據(jù)采集規(guī)程》標(biāo)準(zhǔn)報批稿
- 人音版 音樂 八年級下冊 第一單元 我和你教案
- 代理法人免責(zé)協(xié)議書版本
- 2024年青島港灣職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫必考題
- 門診導(dǎo)診課件
- 《糖尿病患者血脂管理中國專家共識(2024版)》解讀
- 廣州石牌村改造規(guī)劃方案
評論
0/150
提交評論