機器學習-邏輯回歸算法綜述-情感分析-研究生課程報告_第1頁
機器學習-邏輯回歸算法綜述-情感分析-研究生課程報告_第2頁
機器學習-邏輯回歸算法綜述-情感分析-研究生課程報告_第3頁
機器學習-邏輯回歸算法綜述-情感分析-研究生課程報告_第4頁
機器學習-邏輯回歸算法綜述-情感分析-研究生課程報告_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

西華大學研究生課程報告課程:機器學習與知識發(fā)現(xiàn)學院:計算機與軟件工程學院專業(yè):計算機技術姓名:陳白楊學號:21201808521102220佃年2月目錄TOC\o"1-5"\h\z\o"CurrentDocument"1邏輯回歸算法綜述 3.\o"CurrentDocument"1.1概述 3.\o"CurrentDocument"1.2線性模型 3.\o"CurrentDocument"1.3廣義線性模型 3.\o"CurrentDocument"1.4邏輯回歸模型 4.\o"CurrentDocument"1.5邏輯回歸模型參數估計 6\o"CurrentDocument"1.6多項邏輯回歸 6.\o"CurrentDocument"1.7參考文獻 1..\o"CurrentDocument"2實驗 8..\o"CurrentDocument"2.1實驗任務 8.\o"CurrentDocument"2.2數據集IMDb 8.\o"CurrentDocument"2.3試驗設置 8.\o"CurrentDocument"2.4算法描述 9.\o"CurrentDocument"2.5試驗步驟 1.0\o"CurrentDocument"2.6實驗結果 1.0\o"CurrentDocument"2.7案例研究與分析 1.1\o"CurrentDocument"2.8參考文獻 1.21邏輯回歸算法綜述1.1概述邏輯回歸模型由統(tǒng)計學家DavidCox于1958年發(fā)明,該模型本身只是根據輸入對輸出的概率進行建模,不進行統(tǒng)計分類,并不是分類器,但它可以用于構建分類器:選擇某個數值作為閾值,將輸出大于閾值的那個輸入劃分為一個類別,低于閾值則劃分為另一個類別,這就構成了一種常見的二值分類器。邏輯回歸是一種有監(jiān)督的統(tǒng)計學習方法,其本質上是一種廣義線性回歸模型,下面從線性模型開始介紹。1?2線性模型給定由d個屬性描述的示例 其中是x在第i個屬性上的取值,線性模型試圖學得一個通過屬性的線性組合來進行預測的函數,即般用向量形式寫成其中 .w和b學得后模型就得以確定。線性模型形式簡單、易于建模,但卻蘊含著機器學習中一些重要的基本思想。許多功能更為強大的非線性模型可在線性模型的基礎上通過引入層級結構或高維映射而得。此外,由于參數w直觀表達了各屬性在預測中的重要性,因而線性模型具有很好的可解釋性。1.3廣義線性模型線性模型雖然簡單,卻有豐富的變化。如果令模型的預測值逼近于的衍生物,比如 ,即將輸出標記的對數作為線性模型的逼近目標,就得到對數線性回歸模型。它反應了示例對應的輸出標記是在指數尺度上變化,形式上仍然是線性回歸,但實質上已是在求取輸入空間到輸出空間的非線性函數映

,就得到“廣義線性回歸模射。如果把對數函數換成更一般的單調可微函數型”,即:,就得到“廣義線性回歸模其中稱為聯(lián)系函數。對數線性回歸是廣義線性模型在 時的特例。廣義線性模型的數學公式最早由JohnNelder和RobertWedderburn建立。它對包括線性回歸、邏輯回歸和泊松回歸等在內的多個模型進行了統(tǒng)一。他們還提出了一種迭代加權最小二乘法來對該模型參數進行最大似然估計。1.4邏輯回歸模型線性回歸模型用于回歸學習,如果能夠找到一個單調可微的聯(lián)系函數 ,將分類任務的真實標記y與線性回歸模型的預測值 聯(lián)系起來,就可以實現(xiàn)分類任務。邏輯函數(logit,由英語單詞logisticunit混合而成,和“邏輯”一詞諧音)即是這樣的一個常用函數:11e"邏輯函數或邏輯曲線是一種常見的S形函數(即Sigmoid函數),它是皮埃爾弗朗索瓦韋呂勒在1844年(或1845)在研究它與人口增長的關系時命名的。其圖像如下:11從上圖可以看出,邏輯函數將z值轉換為一個接近0或1的y值,并且其輸出值在z=0附近變化很陡。將邏輯函數作為 代入上式,得到11 eYwTxb)上式又可以變化為

如果將y視為樣本x作為正例的可能性,則1-y是其反例可能性,兩者的比值稱為“幾率”(odds)。幾率反映了x作為正例的相對可能性。對幾率取對數則得到“對數幾率”(logodds,亦稱logit):上式表達的含義實際上就是在用線性回歸模型的預測結果取逼近真實標記的對數幾率,因此邏輯回歸又稱為“對數幾率回歸(LogitRegression”、“邏輯斯蒂回歸(LogisticRegression”。雖然是名為“回歸”,但實際上卻是一種分類算法。如果將分類標記y視為在觀測樣本x條件下的類后驗概率估計在邏輯回歸模型的公式可以重寫為Error邏label?;蛘哒f,輸歸分類器的總戶羅的線性函數Error邏label?;蛘哒f,輸歸分類器的總于數幾率是由輸入x的線性函數表示的模型。由此,邏輯回fumctJon acwationfunction至架可以用下圖表示: :AdaptiveLinearNeuron(Adaline)ErrorNetiripytfunctionSigiripidacdvaitionfunctionThresh口帕funcEionNetiripytfunctionSigiripidacdvaitionfunctionThresh口帕funcEionLogisticRegressionConditionalprobabilitythat耳umplebelongscoclassIgivenisinputvectorx邏輯回歸模型的有許多優(yōu)點:無需實現(xiàn)假設數據分布,直接對分類可能性進行建模,避免了假設分布不準確的問題。且它不是僅預測出類別,而是可得到近似概率預測。

1.5邏輯回歸模型參數估計邏輯回歸模型學習時,對于給定的訓練數據集}其中 ,可以運用極大似然估計法估計模型參數。設:似然函數為:對數似然函數為:對求極大值,得到w的估計值。這樣,模型的學習過程就變成了以對數似然函數為目標函數的最優(yōu)化問題了??梢钥闯鲞@個目標函數是任意階可導的凸函數,有很好的數學性質,有許多數值優(yōu)化算法都可以用于求取最優(yōu)解,如梯度下降法、牛頓法等。1.6多項邏輯回歸上面介紹的邏輯回歸算法是二項分類模型,用于二分類任務??蓪⑵渫茝V為多項邏輯回歸模型(multi-nominallogisticregressionmodel),用于多分類任務。假設離散型隨機變量丫的取值集合是{1,2,..,K},那么多項邏輯回顧模型可以表示為:其中 .二項邏輯回歸的參數估計方法也可以推廣到多項邏輯回歸模型中。1.7參考文獻周志華.(2016).機器學習.清華大學出版社,北京。李航.(2012).統(tǒng)計學習方法.清華大學出版社,北京。Raschka,S.&V.Mirjalili.(2017). PythonMachineLearningSecondEdition.PacktPublishing,Birmingham,UKWalker,SH;Duncan,DB(1967).Estimationoftheprobabilityofaneventasafunctionofseveralindependentvariables .Biometrika.54(1/2):167—78.Cox,D.R.(1958).Theregressionanalysisofbinarysequences(withdiscussion).JRoyStatSocB.20(2):215 -242.Nelder,J.,Wedderburn,R.(1972). GeneralizedLinearModels.JournaloftheRoyalStatisticalSociety.SeriesA(General).BlackwellPublishing.135(3):370£84.Collins,M.,Schapire,R.E.,Singer,Y.(2004).LogisticRegression,AdaBoostandBregmanDistances.MachineLearningJournal.2實驗2.1實驗任務情感分析(或意見挖掘)是人們的觀點、情緒,評估對諸如產品、服務、組織等實體的態(tài)度。通常來說,情感分析的目的是為了找出說話者在某些話題上或者針對一個文本兩極的觀點態(tài)度。本次實驗將采用上文介紹的邏輯回歸算法來學習一個文本分類器, 通過用戶對某影視作品的評論(IMDb數據集)來預測其觀點的極性(消極或積極),即用戶是否喜歡這個作品。2.2數據集IMDbIMDb是2011ACL會議論文LearningWordVectorsforSentimentAnalysis公開的一個電影評論文本數據庫。該數據集由 50,000條已標記極性(積極和消極)的文本組成,“積極”代表該電影的評分在IMDb上的評分為6分及以上,“消極”代表5分及以下。部分樣例如下所示:No.Reviewsentiment1In1974,theteenagerMarthaMoxley(MaggieGrace)movestothehigh-classareaofBelleHaven,Gree 12OK...so...IreallylikeKrisKristoffersonandhisusualeasygoingdelivery0oflinesinhismovie 3***SPOILER***Donotreadthis,ifyouthinkaboutwatchingthatmovie,0althoughitwouldbeawaste 4hiforallthepeoplewhohaveseenthiswonderfulmovieimsurethet1youwouldhavelikeditasmuc 5IrecentlyboughttheDVD,forgettingjusthowmuchIhatedthemovieversionof"AChorusLine."Ev 02.3試驗設置在本次實驗中,我們將IMDb數據集總共5萬條樣例中的4.5萬條作為訓練集,剩下5000條作為測試集。在訓練集上采用五折交叉驗證對學習性能進行評估,試驗評估指標為模型準確率:準確率=分對樣本數寧總樣本數源代碼用Python3.6及其科學計算庫Scikit-learn、自然語言處理模塊NTLK編寫,在intelXeonE5-2630v3處理器(16核)上執(zhí)行完成。2.4算法描述文本分類的總體框架是先對文本進行詞嵌入,建立文本詞向量空間,然后用某種分類算法在向量空間上對訓練數據進行學習,并通過適當的優(yōu)化辦法求得最優(yōu)解或次優(yōu)解。具體而言:首先要對文本進行預處理,將句子劃分為一個個的單詞,即分詞(Tokenizing或稱為“詞素切分”)。西方語言的基本單位就是單詞,一般直接按照空格進行劃分。然后去除停用詞(Stopwords),人類語言中包含很多功能詞,與其他詞相比,功能詞沒有實際語義,如“the”、“that”和“those”等,本次試驗將調用PythonNLTK模塊中的停用詞表進行預處理。最后進行詞干提取(Stemming)。這是西方語言特有的處理,比如說英文單詞有單數復數的變形,-ing和-ed的變形,但是在計算相關性的時候,應該當做同一個單詞。比如apple和apples,doing和done是同一個詞,提取詞干的目的就是要合并這些變態(tài)。本次試驗采用 NLTK模塊中的經典算法PorterStemming進行詞干提取。文本分類的核心是如何從文本中抽取出能夠體現(xiàn)文本特點的關鍵特征, 抓取特征到類別之間的映射。文本預處理之后就可以進行特征抽取。本次試驗將采用最基本的詞袋模型進行特征表示:以詞為單位(Unigram)構建詞袋。詞袋模型比較簡單直觀,它通常能學習出一些關鍵詞和類別之間的映射關系。但它丟失了文本中詞出現(xiàn)的先后順序信息; 僅將詞語符號化,沒有考慮詞之間的語義聯(lián)系(比如,“麥克風”和“話筒”是不同的詞,但是語義是相同的)。詞袋模型的特征表示通常是極其稀疏的(IMDb語料庫總體特征數量為十萬以上),本次實驗將提取多組特征進行測試,以驗證特征數量對學習器性能的影響。在詞袋模型的基礎上,本次試驗以TF-IDF算法表征詞的重要程度。TF-IDF反映了一種折中的思想:即在一篇文檔中,TF認為一個詞出現(xiàn)的次數越大可能越重要;IDF認為一個詞出現(xiàn)在的文檔數越少越重要,但也可能不是,比如一些無意義的生僻詞。接下來用邏輯回歸算法對訓練集進行學習, 本次試驗調用Python的Scikit-learn科學計算模塊中的邏輯回顧算法的實現(xiàn),并分別采用 SAG(StochasticAverageGradien)、LIBLINEARALibraryforLargeLinearClassification、Newton-eg三種算法進行優(yōu)化求解。2.5試驗步驟1) 將數據集進行預處理,包括分詞、過濾掉停用詞、詞干提取。2) 用詞袋模型和TF-IDF算法建立文本特征向量。3) 用邏輯回歸算法在訓練集上進行訓練,建立邏輯回歸模型,并采用五折交叉驗證計算模型在訓練集上的得分。4) 對測試集進行預測,統(tǒng)計預測結果。5) 對預測偏差進行分析,完成試驗。2.6實驗結果本次試驗重點驗證詞袋模型詞向量構建過程中,特征提取數量對分類器性能的影響,采用了11組參數(特征提取數量從100到102400)進行五折交叉驗證,驗證得分為五詞平均的準確率。然后分別采用三種不同優(yōu)化方法進行試驗,驗證集試驗結果如下表所示:骨口.序號特征數量五折交叉驗證得分(準確率)liblinearsagnewton-cg11000.7320.7320.73222000.7810.7810.78134000.8370.8370.83748000.860.860.86516000.8760.8760.876632000.8860.8860.886764000.8870.8870.8878128000.8930.8930.8939256000.8980.8980.89810512000.9000.9000.900111024000.9000.9000.900從上表可以看出,一方面,三種優(yōu)化方法測試結果完全一致,且分類準確率最高都是90%,各種優(yōu)化方法對該模型的性能沒有差異。另一方面隨著特征提取數量的增加分類準確率逐步提高,但提升速度逐步降低。最終模型在測試集上的準確率為:0.9006測試結果和模型在訓練集上的最終成績基本一致

2.7案例研究與分析本次試驗在5000條樣例的測試集上,分類錯誤的有497條,下面摘取了6條進行案例分析,如下表所示:序號真實標記被錯誤分類的樣本示例1喜歡It'snotCitizenKane,butitdoesdeliver.Cleavage,andlotsofit. Badlyactedanddirected,poorlyscripted.Whocares?Ididn'twatchitforthedialog.2喜歡Inmyopinion,thisfilmhaswonderfullightingandevenbetterphotography.ToobadthestoryisnotallthatgoodandMr.Cagesometimes loses hisaccent.ButtwothumbsupforlightingandtheDP!3喜歡Forsheerqualityofperformaneeandthe"theaterofthe absurd ,"thisoneishardtocomparetoanythingelse.Withtheworldmeltingdownintheearly'70sthisfilmmadeperfectsensethen,andstillresonates.GeorgeScottcouldneverbetypecast.4不喜歡Ihavetodifferfromtheothercommentsposted.Amidsporadic funnymoments,therearealotofactorstryingtoohardtobe funny.Thestrainshows.Iwatchedthiswithtwofriendsonanotherfriend's recommendation -noneofuswerethrilled.5不喜歡Thismoviewaswaytooslowandpredictable.Iwishicouldsaymorebutican't.Ifyouenjoyaction/adventurefilms,thisisnotonetosee.I'd suggestyougoseemovieslike:BehindEnemyLineswithOwenWilsonandIronEaglewithLouisGossettJr.6不喜歡BadMovie-sawitattheTIFFandthemoviegivesmeasenseof'beentheredonethat'-itremindsmealotofthemovieBlow-expecttheBlowwasactuallyinteresting Thisonestorytoldtwowaysandbothtimesitisnottoldthat well從上表看出,三條真實標記為“喜歡”的樣本中,有大量的貶義詞,女口:badly、poorly、lose、a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論