機(jī)器學(xué)習(xí)-邏輯回歸算法綜述-情感分析-研究生課程報(bào)告_第1頁
機(jī)器學(xué)習(xí)-邏輯回歸算法綜述-情感分析-研究生課程報(bào)告_第2頁
機(jī)器學(xué)習(xí)-邏輯回歸算法綜述-情感分析-研究生課程報(bào)告_第3頁
機(jī)器學(xué)習(xí)-邏輯回歸算法綜述-情感分析-研究生課程報(bào)告_第4頁
機(jī)器學(xué)習(xí)-邏輯回歸算法綜述-情感分析-研究生課程報(bào)告_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

西華大學(xué)研究生課程報(bào)告課程:機(jī)器學(xué)習(xí)與知識發(fā)現(xiàn)學(xué)院:計(jì)算機(jī)與軟件工程學(xué)院專業(yè):計(jì)算機(jī)技術(shù)姓名:陳白楊學(xué)號:21201808521102220佃年2月目錄TOC\o"1-5"\h\z\o"CurrentDocument"1邏輯回歸算法綜述 3.\o"CurrentDocument"1.1概述 3.\o"CurrentDocument"1.2線性模型 3.\o"CurrentDocument"1.3廣義線性模型 3.\o"CurrentDocument"1.4邏輯回歸模型 4.\o"CurrentDocument"1.5邏輯回歸模型參數(shù)估計(jì) 6\o"CurrentDocument"1.6多項(xiàng)邏輯回歸 6.\o"CurrentDocument"1.7參考文獻(xiàn) 1..\o"CurrentDocument"2實(shí)驗(yàn) 8..\o"CurrentDocument"2.1實(shí)驗(yàn)任務(wù) 8.\o"CurrentDocument"2.2數(shù)據(jù)集IMDb 8.\o"CurrentDocument"2.3試驗(yàn)設(shè)置 8.\o"CurrentDocument"2.4算法描述 9.\o"CurrentDocument"2.5試驗(yàn)步驟 1.0\o"CurrentDocument"2.6實(shí)驗(yàn)結(jié)果 1.0\o"CurrentDocument"2.7案例研究與分析 1.1\o"CurrentDocument"2.8參考文獻(xiàn) 1.21邏輯回歸算法綜述1.1概述邏輯回歸模型由統(tǒng)計(jì)學(xué)家DavidCox于1958年發(fā)明,該模型本身只是根據(jù)輸入對輸出的概率進(jìn)行建模,不進(jìn)行統(tǒng)計(jì)分類,并不是分類器,但它可以用于構(gòu)建分類器:選擇某個數(shù)值作為閾值,將輸出大于閾值的那個輸入劃分為一個類別,低于閾值則劃分為另一個類別,這就構(gòu)成了一種常見的二值分類器。邏輯回歸是一種有監(jiān)督的統(tǒng)計(jì)學(xué)習(xí)方法,其本質(zhì)上是一種廣義線性回歸模型,下面從線性模型開始介紹。1?2線性模型給定由d個屬性描述的示例 其中是x在第i個屬性上的取值,線性模型試圖學(xué)得一個通過屬性的線性組合來進(jìn)行預(yù)測的函數(shù),即般用向量形式寫成其中 .w和b學(xué)得后模型就得以確定。線性模型形式簡單、易于建模,但卻蘊(yùn)含著機(jī)器學(xué)習(xí)中一些重要的基本思想。許多功能更為強(qiáng)大的非線性模型可在線性模型的基礎(chǔ)上通過引入層級結(jié)構(gòu)或高維映射而得。此外,由于參數(shù)w直觀表達(dá)了各屬性在預(yù)測中的重要性,因而線性模型具有很好的可解釋性。1.3廣義線性模型線性模型雖然簡單,卻有豐富的變化。如果令模型的預(yù)測值逼近于的衍生物,比如 ,即將輸出標(biāo)記的對數(shù)作為線性模型的逼近目標(biāo),就得到對數(shù)線性回歸模型。它反應(yīng)了示例對應(yīng)的輸出標(biāo)記是在指數(shù)尺度上變化,形式上仍然是線性回歸,但實(shí)質(zhì)上已是在求取輸入空間到輸出空間的非線性函數(shù)映

,就得到“廣義線性回歸模射。如果把對數(shù)函數(shù)換成更一般的單調(diào)可微函數(shù)型”,即:,就得到“廣義線性回歸模其中稱為聯(lián)系函數(shù)。對數(shù)線性回歸是廣義線性模型在 時的特例。廣義線性模型的數(shù)學(xué)公式最早由JohnNelder和RobertWedderburn建立。它對包括線性回歸、邏輯回歸和泊松回歸等在內(nèi)的多個模型進(jìn)行了統(tǒng)一。他們還提出了一種迭代加權(quán)最小二乘法來對該模型參數(shù)進(jìn)行最大似然估計(jì)。1.4邏輯回歸模型線性回歸模型用于回歸學(xué)習(xí),如果能夠找到一個單調(diào)可微的聯(lián)系函數(shù) ,將分類任務(wù)的真實(shí)標(biāo)記y與線性回歸模型的預(yù)測值 聯(lián)系起來,就可以實(shí)現(xiàn)分類任務(wù)。邏輯函數(shù)(logit,由英語單詞logisticunit混合而成,和“邏輯”一詞諧音)即是這樣的一個常用函數(shù):11e"邏輯函數(shù)或邏輯曲線是一種常見的S形函數(shù)(即Sigmoid函數(shù)),它是皮埃爾弗朗索瓦韋呂勒在1844年(或1845)在研究它與人口增長的關(guān)系時命名的。其圖像如下:11從上圖可以看出,邏輯函數(shù)將z值轉(zhuǎn)換為一個接近0或1的y值,并且其輸出值在z=0附近變化很陡。將邏輯函數(shù)作為 代入上式,得到11 eYwTxb)上式又可以變化為

如果將y視為樣本x作為正例的可能性,則1-y是其反例可能性,兩者的比值稱為“幾率”(odds)。幾率反映了x作為正例的相對可能性。對幾率取對數(shù)則得到“對數(shù)幾率”(logodds,亦稱logit):上式表達(dá)的含義實(shí)際上就是在用線性回歸模型的預(yù)測結(jié)果取逼近真實(shí)標(biāo)記的對數(shù)幾率,因此邏輯回歸又稱為“對數(shù)幾率回歸(LogitRegression”、“邏輯斯蒂回歸(LogisticRegression”。雖然是名為“回歸”,但實(shí)際上卻是一種分類算法。如果將分類標(biāo)記y視為在觀測樣本x條件下的類后驗(yàn)概率估計(jì)在邏輯回歸模型的公式可以重寫為Error邏label?;蛘哒f,輸歸分類器的總戶羅的線性函數(shù)Error邏label?;蛘哒f,輸歸分類器的總于數(shù)幾率是由輸入x的線性函數(shù)表示的模型。由此,邏輯回fumctJon acwationfunction至架可以用下圖表示: :AdaptiveLinearNeuron(Adaline)ErrorNetiripytfunctionSigiripidacdvaitionfunctionThresh口帕funcEionNetiripytfunctionSigiripidacdvaitionfunctionThresh口帕funcEionLogisticRegressionConditionalprobabilitythat耳umplebelongscoclassIgivenisinputvectorx邏輯回歸模型的有許多優(yōu)點(diǎn):無需實(shí)現(xiàn)假設(shè)數(shù)據(jù)分布,直接對分類可能性進(jìn)行建模,避免了假設(shè)分布不準(zhǔn)確的問題。且它不是僅預(yù)測出類別,而是可得到近似概率預(yù)測。

1.5邏輯回歸模型參數(shù)估計(jì)邏輯回歸模型學(xué)習(xí)時,對于給定的訓(xùn)練數(shù)據(jù)集}其中 ,可以運(yùn)用極大似然估計(jì)法估計(jì)模型參數(shù)。設(shè):似然函數(shù)為:對數(shù)似然函數(shù)為:對求極大值,得到w的估計(jì)值。這樣,模型的學(xué)習(xí)過程就變成了以對數(shù)似然函數(shù)為目標(biāo)函數(shù)的最優(yōu)化問題了。可以看出這個目標(biāo)函數(shù)是任意階可導(dǎo)的凸函數(shù),有很好的數(shù)學(xué)性質(zhì),有許多數(shù)值優(yōu)化算法都可以用于求取最優(yōu)解,如梯度下降法、牛頓法等。1.6多項(xiàng)邏輯回歸上面介紹的邏輯回歸算法是二項(xiàng)分類模型,用于二分類任務(wù)??蓪⑵渫茝V為多項(xiàng)邏輯回歸模型(multi-nominallogisticregressionmodel),用于多分類任務(wù)。假設(shè)離散型隨機(jī)變量丫的取值集合是{1,2,..,K},那么多項(xiàng)邏輯回顧模型可以表示為:其中 .二項(xiàng)邏輯回歸的參數(shù)估計(jì)方法也可以推廣到多項(xiàng)邏輯回歸模型中。1.7參考文獻(xiàn)周志華.(2016).機(jī)器學(xué)習(xí).清華大學(xué)出版社,北京。李航.(2012).統(tǒng)計(jì)學(xué)習(xí)方法.清華大學(xué)出版社,北京。Raschka,S.&V.Mirjalili.(2017). PythonMachineLearningSecondEdition.PacktPublishing,Birmingham,UKWalker,SH;Duncan,DB(1967).Estimationoftheprobabilityofaneventasafunctionofseveralindependentvariables .Biometrika.54(1/2):167—78.Cox,D.R.(1958).Theregressionanalysisofbinarysequences(withdiscussion).JRoyStatSocB.20(2):215 -242.Nelder,J.,Wedderburn,R.(1972). GeneralizedLinearModels.JournaloftheRoyalStatisticalSociety.SeriesA(General).BlackwellPublishing.135(3):370£84.Collins,M.,Schapire,R.E.,Singer,Y.(2004).LogisticRegression,AdaBoostandBregmanDistances.MachineLearningJournal.2實(shí)驗(yàn)2.1實(shí)驗(yàn)任務(wù)情感分析(或意見挖掘)是人們的觀點(diǎn)、情緒,評估對諸如產(chǎn)品、服務(wù)、組織等實(shí)體的態(tài)度。通常來說,情感分析的目的是為了找出說話者在某些話題上或者針對一個文本兩極的觀點(diǎn)態(tài)度。本次實(shí)驗(yàn)將采用上文介紹的邏輯回歸算法來學(xué)習(xí)一個文本分類器, 通過用戶對某影視作品的評論(IMDb數(shù)據(jù)集)來預(yù)測其觀點(diǎn)的極性(消極或積極),即用戶是否喜歡這個作品。2.2數(shù)據(jù)集IMDbIMDb是2011ACL會議論文LearningWordVectorsforSentimentAnalysis公開的一個電影評論文本數(shù)據(jù)庫。該數(shù)據(jù)集由 50,000條已標(biāo)記極性(積極和消極)的文本組成,“積極”代表該電影的評分在IMDb上的評分為6分及以上,“消極”代表5分及以下。部分樣例如下所示:No.Reviewsentiment1In1974,theteenagerMarthaMoxley(MaggieGrace)movestothehigh-classareaofBelleHaven,Gree 12OK...so...IreallylikeKrisKristoffersonandhisusualeasygoingdelivery0oflinesinhismovie 3***SPOILER***Donotreadthis,ifyouthinkaboutwatchingthatmovie,0althoughitwouldbeawaste 4hiforallthepeoplewhohaveseenthiswonderfulmovieimsurethet1youwouldhavelikeditasmuc 5IrecentlyboughttheDVD,forgettingjusthowmuchIhatedthemovieversionof"AChorusLine."Ev 02.3試驗(yàn)設(shè)置在本次實(shí)驗(yàn)中,我們將IMDb數(shù)據(jù)集總共5萬條樣例中的4.5萬條作為訓(xùn)練集,剩下5000條作為測試集。在訓(xùn)練集上采用五折交叉驗(yàn)證對學(xué)習(xí)性能進(jìn)行評估,試驗(yàn)評估指標(biāo)為模型準(zhǔn)確率:準(zhǔn)確率=分對樣本數(shù)寧總樣本數(shù)源代碼用Python3.6及其科學(xué)計(jì)算庫Scikit-learn、自然語言處理模塊NTLK編寫,在intelXeonE5-2630v3處理器(16核)上執(zhí)行完成。2.4算法描述文本分類的總體框架是先對文本進(jìn)行詞嵌入,建立文本詞向量空間,然后用某種分類算法在向量空間上對訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),并通過適當(dāng)?shù)膬?yōu)化辦法求得最優(yōu)解或次優(yōu)解。具體而言:首先要對文本進(jìn)行預(yù)處理,將句子劃分為一個個的單詞,即分詞(Tokenizing或稱為“詞素切分”)。西方語言的基本單位就是單詞,一般直接按照空格進(jìn)行劃分。然后去除停用詞(Stopwords),人類語言中包含很多功能詞,與其他詞相比,功能詞沒有實(shí)際語義,如“the”、“that”和“those”等,本次試驗(yàn)將調(diào)用PythonNLTK模塊中的停用詞表進(jìn)行預(yù)處理。最后進(jìn)行詞干提?。⊿temming)。這是西方語言特有的處理,比如說英文單詞有單數(shù)復(fù)數(shù)的變形,-ing和-ed的變形,但是在計(jì)算相關(guān)性的時候,應(yīng)該當(dāng)做同一個單詞。比如apple和apples,doing和done是同一個詞,提取詞干的目的就是要合并這些變態(tài)。本次試驗(yàn)采用 NLTK模塊中的經(jīng)典算法PorterStemming進(jìn)行詞干提取。文本分類的核心是如何從文本中抽取出能夠體現(xiàn)文本特點(diǎn)的關(guān)鍵特征, 抓取特征到類別之間的映射。文本預(yù)處理之后就可以進(jìn)行特征抽取。本次試驗(yàn)將采用最基本的詞袋模型進(jìn)行特征表示:以詞為單位(Unigram)構(gòu)建詞袋。詞袋模型比較簡單直觀,它通常能學(xué)習(xí)出一些關(guān)鍵詞和類別之間的映射關(guān)系。但它丟失了文本中詞出現(xiàn)的先后順序信息; 僅將詞語符號化,沒有考慮詞之間的語義聯(lián)系(比如,“麥克風(fēng)”和“話筒”是不同的詞,但是語義是相同的)。詞袋模型的特征表示通常是極其稀疏的(IMDb語料庫總體特征數(shù)量為十萬以上),本次實(shí)驗(yàn)將提取多組特征進(jìn)行測試,以驗(yàn)證特征數(shù)量對學(xué)習(xí)器性能的影響。在詞袋模型的基礎(chǔ)上,本次試驗(yàn)以TF-IDF算法表征詞的重要程度。TF-IDF反映了一種折中的思想:即在一篇文檔中,TF認(rèn)為一個詞出現(xiàn)的次數(shù)越大可能越重要;IDF認(rèn)為一個詞出現(xiàn)在的文檔數(shù)越少越重要,但也可能不是,比如一些無意義的生僻詞。接下來用邏輯回歸算法對訓(xùn)練集進(jìn)行學(xué)習(xí), 本次試驗(yàn)調(diào)用Python的Scikit-learn科學(xué)計(jì)算模塊中的邏輯回顧算法的實(shí)現(xiàn),并分別采用 SAG(StochasticAverageGradien)、LIBLINEARALibraryforLargeLinearClassification、Newton-eg三種算法進(jìn)行優(yōu)化求解。2.5試驗(yàn)步驟1) 將數(shù)據(jù)集進(jìn)行預(yù)處理,包括分詞、過濾掉停用詞、詞干提取。2) 用詞袋模型和TF-IDF算法建立文本特征向量。3) 用邏輯回歸算法在訓(xùn)練集上進(jìn)行訓(xùn)練,建立邏輯回歸模型,并采用五折交叉驗(yàn)證計(jì)算模型在訓(xùn)練集上的得分。4) 對測試集進(jìn)行預(yù)測,統(tǒng)計(jì)預(yù)測結(jié)果。5) 對預(yù)測偏差進(jìn)行分析,完成試驗(yàn)。2.6實(shí)驗(yàn)結(jié)果本次試驗(yàn)重點(diǎn)驗(yàn)證詞袋模型詞向量構(gòu)建過程中,特征提取數(shù)量對分類器性能的影響,采用了11組參數(shù)(特征提取數(shù)量從100到102400)進(jìn)行五折交叉驗(yàn)證,驗(yàn)證得分為五詞平均的準(zhǔn)確率。然后分別采用三種不同優(yōu)化方法進(jìn)行試驗(yàn),驗(yàn)證集試驗(yàn)結(jié)果如下表所示:骨口.序號特征數(shù)量五折交叉驗(yàn)證得分(準(zhǔn)確率)liblinearsagnewton-cg11000.7320.7320.73222000.7810.7810.78134000.8370.8370.83748000.860.860.86516000.8760.8760.876632000.8860.8860.886764000.8870.8870.8878128000.8930.8930.8939256000.8980.8980.89810512000.9000.9000.900111024000.9000.9000.900從上表可以看出,一方面,三種優(yōu)化方法測試結(jié)果完全一致,且分類準(zhǔn)確率最高都是90%,各種優(yōu)化方法對該模型的性能沒有差異。另一方面隨著特征提取數(shù)量的增加分類準(zhǔn)確率逐步提高,但提升速度逐步降低。最終模型在測試集上的準(zhǔn)確率為:0.9006測試結(jié)果和模型在訓(xùn)練集上的最終成績基本一致

2.7案例研究與分析本次試驗(yàn)在5000條樣例的測試集上,分類錯誤的有497條,下面摘取了6條進(jìn)行案例分析,如下表所示:序號真實(shí)標(biāo)記被錯誤分類的樣本示例1喜歡It'snotCitizenKane,butitdoesdeliver.Cleavage,andlotsofit. Badlyactedanddirected,poorlyscripted.Whocares?Ididn'twatchitforthedialog.2喜歡Inmyopinion,thisfilmhaswonderfullightingandevenbetterphotography.ToobadthestoryisnotallthatgoodandMr.Cagesometimes loses hisaccent.ButtwothumbsupforlightingandtheDP!3喜歡Forsheerqualityofperformaneeandthe"theaterofthe absurd ,"thisoneishardtocomparetoanythingelse.Withtheworldmeltingdownintheearly'70sthisfilmmadeperfectsensethen,andstillresonates.GeorgeScottcouldneverbetypecast.4不喜歡Ihavetodifferfromtheothercommentsposted.Amidsporadic funnymoments,therearealotofactorstryingtoohardtobe funny.Thestrainshows.Iwatchedthiswithtwofriendsonanotherfriend's recommendation -noneofuswerethrilled.5不喜歡Thismoviewaswaytooslowandpredictable.Iwishicouldsaymorebutican't.Ifyouenjoyaction/adventurefilms,thisisnotonetosee.I'd suggestyougoseemovieslike:BehindEnemyLineswithOwenWilsonandIronEaglewithLouisGossettJr.6不喜歡BadMovie-sawitattheTIFFandthemoviegivesmeasenseof'beentheredonethat'-itremindsmealotofthemovieBlow-expecttheBlowwasactuallyinteresting Thisonestorytoldtwowaysandbothtimesitisnottoldthat well從上表看出,三條真實(shí)標(biāo)記為“喜歡”的樣本中,有大量的貶義詞,女口:badly、poorly、lose、a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論