版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究LogisticRegressionModelandItsApplicationinMachineLearning指導(dǎo)老師:答辯人:班級(jí)信息:緒論及學(xué)習(xí)內(nèi)容01研究背景及意義國(guó)內(nèi)外現(xiàn)狀機(jī)器學(xué)習(xí)基本知識(shí)PARTONE
機(jī)器學(xué)習(xí)是人工智能的中心,也是讓計(jì)算機(jī)系統(tǒng)擁有智能的唯一路徑,目前機(jī)器學(xué)習(xí)已經(jīng)應(yīng)用在生活中的各個(gè)領(lǐng)域,機(jī)器學(xué)習(xí)這些發(fā)展迅速,前景很好,機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型主要解決弱二分類問(wèn)題,現(xiàn)實(shí)的社會(huì),我們會(huì)面臨許許多多的分類,劃分到正確的類別至關(guān)重要。本課題主要研究機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型以及應(yīng)用研究,掌握機(jī)器學(xué)習(xí)基本知識(shí),理解邏輯斯蒂回歸模型的實(shí)現(xiàn)思路,并且能夠深入應(yīng)用,研究它,并充分的利用它,對(duì)于機(jī)器學(xué)習(xí)的發(fā)展有很大的意義。研究背景及意義研究背景及意義緒論及理論知識(shí)實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完
機(jī)器學(xué)習(xí)在我國(guó)已經(jīng)得到廣泛的關(guān)注,并且也取得了優(yōu)秀的成果,但是主要集中在數(shù)據(jù)挖掘?qū)哟?,純粹的機(jī)器學(xué)習(xí)研究者相對(duì)較少,主要的理論知識(shí),學(xué)習(xí)方法等基礎(chǔ)部分沒(méi)有得到充分的重視,不過(guò)就目前來(lái)說(shuō),國(guó)內(nèi)已經(jīng)有北京大學(xué),復(fù)旦大學(xué)等依靠雄厚的統(tǒng)計(jì)學(xué)實(shí)力,都已經(jīng)建立起數(shù)據(jù)科學(xué)專業(yè)和大數(shù)據(jù)研究院,以及一些知名的互聯(lián)網(wǎng)公司以及研究機(jī)構(gòu),也紛紛投入到機(jī)器學(xué)習(xí)的研究中,代表的有百度的BML和MSRA(微軟亞洲研究院)。對(duì)于國(guó)外來(lái)說(shuō),首先國(guó)外機(jī)器學(xué)習(xí)起步早,而且眾所周知國(guó)外的研究氛圍是明顯優(yōu)于國(guó)內(nèi)的,所以在機(jī)器學(xué)習(xí)這塊的研究也是大大的領(lǐng)先國(guó)內(nèi),國(guó)外機(jī)器學(xué)習(xí)主要包括研究算法,用數(shù)據(jù)建立模型,然后再進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的決策或者預(yù)測(cè),像Google,F(xiàn)acebook,雅虎,亞馬遜等一些非常優(yōu)秀的技術(shù)公司,利用機(jī)器學(xué)習(xí)讓他們的研究產(chǎn)品和應(yīng)用程序更加智能。國(guó)內(nèi)外現(xiàn)狀國(guó)內(nèi)外現(xiàn)狀緒論及理論知識(shí)實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完機(jī)器學(xué)習(xí)定義學(xué)習(xí)策略
機(jī)器學(xué)習(xí)中的“機(jī)器”一般指計(jì)算機(jī)系統(tǒng)。“學(xué)習(xí)”通常指的是一種學(xué)習(xí)過(guò)程。由此“機(jī)器學(xué)習(xí)”就是指機(jī)器自己學(xué)習(xí)的過(guò)程[1]。蘭利認(rèn)為“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué),主要研究對(duì)象就是人工智能,尤其是機(jī)器如何通過(guò)經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能”[2]。米切爾認(rèn)為機(jī)器學(xué)習(xí)就是計(jì)算機(jī)程序隨著經(jīng)驗(yàn)積累自動(dòng)提高系統(tǒng)自身的性能[3]。。0102
研究機(jī)器學(xué)習(xí)的人們都很清楚機(jī)械學(xué)習(xí)、類比學(xué)習(xí)、通過(guò)事例學(xué)習(xí)以及通過(guò)傳授學(xué)習(xí)這四個(gè)類別是機(jī)器學(xué)習(xí)常采用的機(jī)器學(xué)習(xí)策略[4]。機(jī)器學(xué)習(xí)基本知識(shí)緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完基本機(jī)構(gòu)機(jī)器學(xué)習(xí)分類
機(jī)器學(xué)習(xí)的學(xué)習(xí)部分會(huì)利用環(huán)境提供的一些信息來(lái)修改和完善自己的知識(shí)庫(kù)。環(huán)境是影響機(jī)器學(xué)習(xí)系統(tǒng)的第一因素。知識(shí)庫(kù)是影響機(jī)器學(xué)習(xí)系統(tǒng)的另一個(gè)因素。機(jī)器學(xué)習(xí)系統(tǒng)的核心部分就是執(zhí)行部分,整個(gè)學(xué)習(xí)系統(tǒng)最核心的就是在學(xué)習(xí),即在執(zhí)行的同時(shí)能將自身的不足點(diǎn)改進(jìn)和完善,所以執(zhí)行部分的動(dòng)作是一切的核心所在。
0304
監(jiān)督學(xué)習(xí),指的是對(duì)機(jī)器學(xué)習(xí)的過(guò)程提供錯(cuò)誤提示。做法是將最終結(jié)果以0,1形式添加到數(shù)組局中。然后通過(guò)一些算法讓機(jī)器自我縮減誤差。非監(jiān)督學(xué)習(xí)又稱歸納性學(xué)習(xí),利用K方式,建立中心,通過(guò)循環(huán)和遞減運(yùn)算來(lái)減小誤差,來(lái)達(dá)到分類的目的。機(jī)器學(xué)習(xí)基本知識(shí)緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完研究思路與方法02研究思路研究方法PARTTWO緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完研究思路1.從機(jī)器學(xué)習(xí)整個(gè)流程開(kāi)始Age40yearsGenderMaleBloodpressure130/85Cholesterollevel240Weight70
通過(guò)表1和圖1,我們有一個(gè)不知道的目標(biāo)函數(shù)P(y|x),它包含了f(x)和noise,環(huán)境提供的數(shù)據(jù)信息,我們?cè)O(shè)計(jì)一個(gè)hypothesis,加入到learningalgorithm(學(xué)習(xí)算法),當(dāng)然還包括errormeasure(錯(cuò)誤測(cè)量),最后找到一個(gè)好的hypothesis,直到結(jié)束,由于我們需要的結(jié)果是病人是否發(fā)病,這是一個(gè)二分類問(wèn)題,所以y的值只有兩種1或者0,所以目標(biāo)函數(shù):圖1Learnfloor表1病人數(shù)據(jù)緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完研究方法2.然后結(jié)合邏輯斯蒂回歸求hypothesis(上面是logisticsfunction)
第一步:對(duì)于每個(gè)病人,我們都有一系列的features參數(shù),每個(gè)病人都不一樣的,即(),然后通過(guò)公式,參數(shù)w加權(quán)之后,我們來(lái)算出一個(gè)分?jǐn)?shù)s,然而我們需要的不僅僅是這個(gè)分?jǐn)?shù),這是linearregression處理問(wèn)題需要做的事件。第二步:我們的目標(biāo)是把s通過(guò)邏輯回歸算法變成0到1之間的值,一個(gè)方法是用一個(gè)像下面這樣的一個(gè)s型的函數(shù)(圖2中的線形圖,也就是我們研究的邏輯斯蒂回歸函數(shù)),每一個(gè)分?jǐn)?shù)s的值,都有一個(gè)對(duì)應(yīng)的在0~1之間的值,就是我們需要知道的概率值,我們把它叫做logisticfunction,然后這個(gè)function配合W,以及,得到logistichypothesis:圖2θ(s)公式緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完研究方法3.邏輯斯蒂回歸的errorfunction由于P(x)和f(x)之間的關(guān)系密不可分,所以有
logisticregression的目標(biāo)是f(x)=P(+1|x):當(dāng)y=+1時(shí),P(y|x)=f(x);當(dāng)y=-1時(shí),P(y|x)=1-f(x).接著,這里我們新增一個(gè)變量likelihood,它表示的是我們假裝的h會(huì)產(chǎn)生和f產(chǎn)生的資料一模一樣的可能性大小。然而我們是不知道f(x),我們只是想要知道h,那么我們可以假裝h就是f,則結(jié)果為:圖3.1logisticregressionmodles緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完研究方法3.邏輯斯蒂回歸的errorfunction我們簡(jiǎn)化上市,h是正比于下式右部分帶入
帶入以下公式:因?yàn)槲覀儼裩換成w,得出:這里是練乘,從算法上改成連加好點(diǎn),取個(gè)log,加個(gè)負(fù)號(hào),然后取min得到:我們需要做的的事情就是從所有的h中找一個(gè)h,使得這個(gè)可能性likelihood是最高的。就是找一個(gè)maxlikelihood(logistich)即:最后我們得到logisticregressionerrorfunction:緒論及學(xué)習(xí)計(jì)劃實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完研究方法4.梯度下降法求解最后直到,返回最后一個(gè)做為我們機(jī)器學(xué)習(xí)的g.這里用梯度下降法求解這個(gè)值,梯度下降法簡(jiǎn)單說(shuō)就從一個(gè)開(kāi)始至是一步一步糾錯(cuò),直到最后到去到一個(gè)接近理想的值,下面的v和η是主要參數(shù)值表示的是糾錯(cuò)的單位向量,η表示的糾錯(cuò)的步度,我們要的是:圖4.1IterativeOptimization曲線圖圖4.2選擇η求解實(shí)驗(yàn)內(nèi)容03建立LogisticRegression模型LogisticRegression模型測(cè)試交叉驗(yàn)證實(shí)驗(yàn)PARTTHREE通過(guò)訓(xùn)練數(shù)據(jù)對(duì)不同模型算法進(jìn)行交叉驗(yàn)證,對(duì)比驗(yàn)證結(jié)果,得出結(jié)論實(shí)驗(yàn)三使用訓(xùn)練數(shù)據(jù)和LogisticRegression,設(shè)置好數(shù)據(jù)的輸出項(xiàng)與格式,建立邏輯斯蒂回歸模型實(shí)驗(yàn)一導(dǎo)入訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)導(dǎo)入數(shù)據(jù)使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證模型是否能夠正常使用,觀察結(jié)果實(shí)驗(yàn)二緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完實(shí)驗(yàn)綜述
首先導(dǎo)入訓(xùn)練數(shù)據(jù),然后設(shè)置好輸出項(xiàng)和格式,連接好各個(gè)模塊,運(yùn)行生成模型。實(shí)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)結(jié)果最后就是對(duì)整個(gè)研究結(jié)果的整合和優(yōu)化是一大難點(diǎn)。結(jié)果分析緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完建立LogisticRehression模型AttributeCoefficientAge-0.119Marital_Status-1.278Gender-0.215Weight_Category-4.056Cholesterol-0.009Stress_Management0.071Trait_Anxiety0.054表1LogisticRegression數(shù)據(jù)
表中的數(shù)據(jù)是我們建立的模型分析得出輸入的環(huán)境因素(age,Marital_Status,Gender,Weight_Category,Cholesterol,Stress_Management,Trait_Anxiety,Intercept)對(duì)輸出項(xiàng)的影響權(quán)重值。簡(jiǎn)單分析下,Marital_Status,Weight_Category即病人的婚姻狀態(tài)和人員的體重對(duì)心臟病的二次發(fā)作影響比較大,然后病人的年齡,性別,是否參與壓力控制課程,及自然壓力水平和應(yīng)壓能力即Age,Gender,Stress_Management和Trait_Anxiety的值比較小,說(shuō)明它們對(duì)于心臟病二次發(fā)作的可能性影響比較低,權(quán)重的值有正負(fù)之分,意思是對(duì)結(jié)果的影響有起到正作用和負(fù)作用
在實(shí)驗(yàn)一的基礎(chǔ)上,我們導(dǎo)入測(cè)試數(shù)據(jù),連接上LogisticRegression,運(yùn)行得出結(jié)果。
第二例,淡綠色的那一列就是輸出項(xiàng)生成的目標(biāo)結(jié)果,表示的是心臟病是否會(huì)再次發(fā)作,后面的兩列黃色的是通過(guò)模型的出的發(fā)病的概率。通過(guò)用訓(xùn)練數(shù)據(jù)來(lái)建立模型,并且用測(cè)試數(shù)據(jù)來(lái)測(cè)試我們建立的模型來(lái)看,我們的模型準(zhǔn)確性很高[14],我們可以直接看到測(cè)試數(shù)據(jù)產(chǎn)生的結(jié)果,我們可以觀察這些數(shù)據(jù),一般婚姻狀態(tài)差(3表示喪偶),體重超標(biāo),膽固醇值比較高的,一般結(jié)果都為yes(可能發(fā)生心臟病二次發(fā)作),這使得我們對(duì)這個(gè)測(cè)試結(jié)果是表示信服的。實(shí)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)結(jié)果結(jié)果分析緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完LogisticRegression模型
測(cè)試表1數(shù)據(jù)測(cè)試結(jié)果
首先導(dǎo)入測(cè)試數(shù)據(jù),設(shè)置好輸出項(xiàng)和格式,然后鏈接CrossValidation,第二部分,左側(cè)導(dǎo)入我們需要交叉驗(yàn)證的算法,右側(cè)應(yīng)用模塊,然后鏈接Performance,運(yùn)行得出結(jié)果。實(shí)驗(yàn)設(shè)計(jì)
表2是各個(gè)算法的結(jié)果對(duì)比,通過(guò)數(shù)據(jù)的對(duì)比,可以很明顯的看出來(lái)LogisticRegression的準(zhǔn)確率要明顯高于Linearregression和SupperVectorMachine,所以對(duì)于分類的問(wèn)題,LogisticRegression的優(yōu)勢(shì)還是明顯大于LogisticRegression(SVM),LinearRegression和SupperVectorMachine,這就說(shuō)明對(duì)于解決分類這塊的問(wèn)題,邏輯斯蒂回歸模型模型的算法設(shè)計(jì)是明顯優(yōu)于邏輯斯蒂回歸模型(SVM),線性回歸和SupperVectorMachine的。實(shí)驗(yàn)結(jié)果結(jié)果分析緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展望完交叉驗(yàn)證實(shí)驗(yàn)算法交叉驗(yàn)證結(jié)果LogisticRegression94.23%+/-4.35%(mikro:94.20%)LogisticRegression(SVM)89.12%+/-4.80%(mikro:89.13%)LinearRegression89.84%+/-5.50%(mikro:89.50%)SupperVectorMachine85.98%+/-2.82%(mikro:85.95%)表2多種算法交叉驗(yàn)證結(jié)果總結(jié)和展望04總結(jié)展望PARTFOUR總結(jié)一總結(jié)二總結(jié)
對(duì)于實(shí)驗(yàn)的理論知識(shí)部分,本文分析邏輯斯蒂回歸的特性,再加上機(jī)器學(xué)習(xí)的學(xué)習(xí)力流程設(shè)計(jì)出LogisticHypothesis,再結(jié)合邏輯斯蒂回歸模型分析出邏輯回歸誤差函數(shù),然后我們通過(guò)梯度下降法求解邏輯回歸誤差函數(shù),最后得出g。
通過(guò)整個(gè)機(jī)器學(xué)習(xí)及邏輯斯蒂回歸模型及應(yīng)用研究的學(xué)習(xí)和研究過(guò)程,本文實(shí)驗(yàn)部分得出的結(jié)果展示出,邏輯斯蒂回歸對(duì)于解決二分類問(wèn)題準(zhǔn)確率的確要高于類似的解決分類的算法,例如線性回歸等,并且相比較其他的算法,邏輯斯蒂回歸算法的求解思路也是誤差較小的。緒論及學(xué)習(xí)情況實(shí)驗(yàn)內(nèi)容研究思路與方法總結(jié)和展
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東理工學(xué)院《街舞》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東科技學(xué)院《薪酬管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東江門幼兒師范高等??茖W(xué)?!毒坝^設(shè)計(jì)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東機(jī)電職業(yè)技術(shù)學(xué)院《精確農(nóng)業(yè)概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東行政職業(yè)學(xué)院《移動(dòng)通信技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東工業(yè)大學(xué)《特種材料連接》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東工程職業(yè)技術(shù)學(xué)院《互聯(lián)網(wǎng)金融產(chǎn)品規(guī)劃與設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東第二師范學(xué)院《公司理財(cái)雙語(yǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東財(cái)貿(mào)職業(yè)學(xué)院《傳統(tǒng)造像(圓雕)》2023-2024學(xué)年第一學(xué)期期末試卷
- 小班安全找媽媽課件
- 普外科醫(yī)療組長(zhǎng)競(jìng)聘演講
- 北京市朝陽(yáng)區(qū)2022-2023學(xué)年三年級(jí)上學(xué)期英語(yǔ)期末試卷
- GB/T 9755-2024合成樹(shù)脂乳液墻面涂料
- 嗶哩嗶哩MATES人群資產(chǎn)經(jīng)營(yíng)白皮書(shū)【嗶哩嗶哩】
- 【歷史】第一、二單元測(cè)試題2024~2025學(xué)年統(tǒng)編版七年級(jí)歷史上冊(cè)
- 婚姻家庭規(guī)劃
- 認(rèn)識(shí)實(shí)習(xí)報(bào)告(10篇)
- 【MOOC】?jī)?nèi)科護(hù)理學(xué)-中山大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 2024年商業(yè)地產(chǎn)買賣合同樣本
- 家族族譜模板
- 家譜修編倡議書(shū)范文
評(píng)論
0/150
提交評(píng)論