深度學(xué)習(xí)應(yīng)用開(kāi)發(fā) 課件 第5章 回歸問(wèn)題_第1頁(yè)
深度學(xué)習(xí)應(yīng)用開(kāi)發(fā) 課件 第5章 回歸問(wèn)題_第2頁(yè)
深度學(xué)習(xí)應(yīng)用開(kāi)發(fā) 課件 第5章 回歸問(wèn)題_第3頁(yè)
深度學(xué)習(xí)應(yīng)用開(kāi)發(fā) 課件 第5章 回歸問(wèn)題_第4頁(yè)
深度學(xué)習(xí)應(yīng)用開(kāi)發(fā) 課件 第5章 回歸問(wèn)題_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄1回歸問(wèn)題概述01任務(wù)回歸問(wèn)題的損失函數(shù)03任務(wù)回歸的基本原理02任務(wù)1回歸問(wèn)題概述1回歸問(wèn)題概述在機(jī)器學(xué)習(xí)中,回歸是一種有監(jiān)督學(xué)習(xí),主要是從中發(fā)現(xiàn)變量之間的相關(guān)性,確定變量間的關(guān)系式,從而預(yù)測(cè)輸出的變量值;回歸問(wèn)題主要用于預(yù)測(cè)某連續(xù)變量或離散變量的數(shù)值,例如:預(yù)測(cè)PM2.5、預(yù)測(cè)房屋價(jià)格、電商用戶(hù)購(gòu)買(mǎi)可能性等;回歸問(wèn)題包括一元線(xiàn)性回歸和多元線(xiàn)性回歸?;貧w用于預(yù)測(cè)輸入變量(自變量)和輸出變量(因變量)之間的關(guān)系,回歸模型正是表示從輸入變量到輸出變量之間映射的函數(shù)。回歸問(wèn)題的學(xué)習(xí)等價(jià)于函數(shù)擬合。2回歸的基本原理2回歸的基本原理(1)一元線(xiàn)性回歸一元線(xiàn)性回歸是回歸問(wèn)題中最為簡(jiǎn)單的回歸問(wèn)題,可以將一元線(xiàn)性回歸理解為:對(duì)給出的N個(gè)點(diǎn)(x,y),找到一條能夠擬合這些點(diǎn)的直線(xiàn):y=wx+b公式中,y是目標(biāo)變量,即未來(lái)要預(yù)測(cè)的值;x是影響y的因素,稱(chēng)為自變量,w和b是公式上的參數(shù),即要求的模型參數(shù)。2回歸的基本原理目標(biāo)變量的影響因素可以是連續(xù)值也可以是離散值,自變量和目標(biāo)變量之間的關(guān)系稱(chēng)為模型,影響目標(biāo)變量的因素只有一個(gè)x,所以這類(lèi)回歸問(wèn)題叫做一元線(xiàn)性回歸。比如:當(dāng)只考慮房屋面積因素時(shí),房?jī)r(jià)預(yù)測(cè)模型構(gòu)建問(wèn)題就屬于一元線(xiàn)性回歸問(wèn)題。一元線(xiàn)性回歸圖像2回歸的基本原理(2)多元線(xiàn)性回歸現(xiàn)實(shí)生活中,往往影響結(jié)果y的因素不止一個(gè),例如影響房子價(jià)格的因素還可能有房子的位置、樓層等因素,這時(shí)x就從一個(gè)變成了n個(gè),x1~xn,同時(shí)簡(jiǎn)單線(xiàn)性回歸的公式也就不在適用了。多元線(xiàn)性回歸公式如下:y=w1x1+w2x2+……+wnxn公式中,y是目標(biāo)變量,即未來(lái)要預(yù)測(cè)的值;x1、x2……xn是影響y的多元因素。2回歸的基本原理可以將二元線(xiàn)性回歸理解為使用一個(gè)平面擬合平面中的一些點(diǎn):二元線(xiàn)性回歸圖像3回歸問(wèn)題的損失函數(shù)3回歸問(wèn)題的損失函數(shù)機(jī)器學(xué)習(xí)的所有算法都需要最大化或者最小化目標(biāo)函數(shù),在最小化場(chǎng)景下,目標(biāo)函數(shù)又稱(chēng)損失函數(shù)。在回歸問(wèn)題中,有2種最常用的損失函數(shù):(1)平均絕對(duì)誤差(2)均方誤差3回歸問(wèn)題的損失函數(shù)(1)平均絕對(duì)誤差平均絕對(duì)誤差(MeanAbsoluteError,MAE),又稱(chēng)L1損失,用于評(píng)估預(yù)測(cè)結(jié)果和真實(shí)數(shù)據(jù)集的接近程度,其值越小說(shuō)明擬合效果越好。公式如下:優(yōu)點(diǎn):對(duì)異常值具有較好魯棒性;缺點(diǎn):梯度不變是個(gè)嚴(yán)重問(wèn)題,即使對(duì)于很小的損失,梯度也很大,不利于模型收斂,常使用變化的學(xué)習(xí)率解決。3回歸問(wèn)題的損失函數(shù)(2)均方誤差均方誤差(Meansquarederror,MSE),又稱(chēng)L2損失,該指標(biāo)計(jì)算的是擬合數(shù)據(jù)和原始數(shù)據(jù)對(duì)應(yīng)樣本點(diǎn)的誤差的平方和的均值,其值越小說(shuō)明擬合效果越好。公式如下:優(yōu)點(diǎn):計(jì)算方便,邏輯清晰,衡量誤差較準(zhǔn)確,收斂效果好。缺點(diǎn):對(duì)異常點(diǎn)會(huì)賦予較大的權(quán)重,如果異常點(diǎn)不屬于考慮范圍,是由于某種錯(cuò)誤導(dǎo)致的,則此函數(shù)指導(dǎo)方向?qū)⒊霈F(xiàn)偏差。ThankYOU!目錄1案例目標(biāo)01任務(wù)02任務(wù)環(huán)境配置03任務(wù)案例分析案例實(shí)施04任務(wù)1案例目標(biāo)1案例目標(biāo)掌握回歸的概念及原理;掌握回歸模型的搭建方法;掌握回歸問(wèn)題使用的損失函數(shù)和評(píng)估指標(biāo);掌握使用pandas包的數(shù)據(jù)分析方法;掌握?qǐng)D形可視化包seaborn的使用。2案例分析2案例分析汽車(chē)燃油效率預(yù)測(cè)問(wèn)題是回歸問(wèn)題中的經(jīng)典案例;本案例通過(guò)燃油效率預(yù)測(cè)問(wèn)題,使用Keras框架實(shí)現(xiàn)回歸問(wèn)題的建模流程;案例采用AutoMPG數(shù)據(jù)集,它記錄了各種汽車(chē)效能指標(biāo)與氣缸數(shù)、重量、馬力等其它因子的真實(shí)數(shù)據(jù),2案例分析查看數(shù)據(jù)集的前5組數(shù)據(jù),如表所示,其中:mpg(燃油效率)、cylinders(氣缸)、displacement(排量)、horsepower(馬力)、weight(重量)、acceleration(加速度)、modelyear(型號(hào)年份)、origin(產(chǎn)地)。除了產(chǎn)地的數(shù)字字段表示類(lèi)別外,其他字段都是數(shù)值類(lèi)型。對(duì)于產(chǎn)地,1表示美國(guó),2表示歐洲,3表示日本。3環(huán)境配置2環(huán)境要求Windows10Jupyternotebooktensorflow==2.3.0、keras==2.3.1matplotlib==3.3.2seaborn==0.12.1pandas==1.15.14案例實(shí)施4案例實(shí)施部分代碼示例:1、導(dǎo)入包4案例實(shí)施2、加載數(shù)據(jù)集4案例實(shí)施3、構(gòu)建全連接神經(jīng)網(wǎng)絡(luò)模型4案例實(shí)施4、訓(xùn)練模型ThankYOU!目錄1過(guò)擬合與欠擬合概述01任務(wù)過(guò)擬合及解決辦法02任務(wù)欠擬合及解決辦法03任務(wù)1過(guò)擬合與欠擬合概述1過(guò)擬合與欠擬合概述對(duì)于深度學(xué)習(xí)或機(jī)器學(xué)習(xí)模型來(lái)說(shuō),我們不僅要求它對(duì)訓(xùn)練數(shù)據(jù)集有很好的擬合,同時(shí)也希望它可以對(duì)未知數(shù)據(jù)集(測(cè)試集)有很好的擬合結(jié)果(泛化能力),所產(chǎn)生的測(cè)試誤差被稱(chēng)為泛化誤差。度量泛化能力的好壞,最直觀的表現(xiàn)就是模型的過(guò)擬合(overfitting)和欠擬合(underfitting)。過(guò)擬合和欠擬合是用于描述模型在訓(xùn)練過(guò)程中的兩種狀態(tài)。一般來(lái)說(shuō),訓(xùn)練過(guò)程會(huì)是如下所示的一個(gè)曲線(xiàn)圖:2過(guò)擬合及解決辦法2過(guò)擬合及解決辦法(1)過(guò)擬合概念過(guò)擬合是指訓(xùn)練誤差和測(cè)試誤差之間的差距太大。換句換說(shuō),就是模型復(fù)雜度高于實(shí)際問(wèn)題,模型在訓(xùn)練集上表現(xiàn)很好,但在測(cè)試集上卻表現(xiàn)很差。模型學(xué)習(xí)到了一些訓(xùn)練集中的不適用于測(cè)試集的性質(zhì)或特點(diǎn),比如噪聲,模型的泛化能力差。2過(guò)擬合及解決辦法(2)過(guò)擬合出現(xiàn)的原因訓(xùn)練數(shù)據(jù)集樣本單一,樣本不足。如果訓(xùn)練樣本只有負(fù)樣本,然后那生成的模型去預(yù)測(cè)正樣本,這肯定預(yù)測(cè)不準(zhǔn)。所以訓(xùn)練樣本要盡可能的全面,覆蓋所有的數(shù)據(jù)類(lèi)型。訓(xùn)練數(shù)據(jù)中噪聲干擾過(guò)大。噪聲指訓(xùn)練數(shù)據(jù)中的干擾數(shù)據(jù)。過(guò)多的干擾會(huì)導(dǎo)致記錄了很多噪聲特征,忽略了真實(shí)輸入和輸出之間的關(guān)系。模型過(guò)于復(fù)雜。模型太復(fù)雜,已經(jīng)能夠“死記硬背”記下了訓(xùn)練數(shù)據(jù)的信息,但是遇到?jīng)]有見(jiàn)過(guò)的數(shù)據(jù)的時(shí)候不能夠變通,泛化能力太差。我們希望模型對(duì)不同的模型都有穩(wěn)定的輸出。模型太復(fù)雜是過(guò)擬合的重要因素。2過(guò)擬合及解決辦法(3)防止過(guò)擬合方法獲取和使用更多的數(shù)據(jù)(數(shù)據(jù)集增強(qiáng));采用合適的模型(控制模型的復(fù)雜度);降低特征的數(shù)量;L1/L2正則化;加入Dropout;采用Earlystopping方法。3欠擬合及解決辦法3欠擬合及解決辦法(1)欠擬合概念欠擬合是指模型不能在訓(xùn)練集上獲得足夠低的誤差。換句換說(shuō),就是模型復(fù)雜度低,模型在訓(xùn)練集上就表現(xiàn)很差,沒(méi)法學(xué)習(xí)到數(shù)據(jù)背后的規(guī)律。3欠擬合及解決辦法(2)欠擬合解決辦法欠擬合基本上都會(huì)發(fā)生在訓(xùn)練剛開(kāi)始的時(shí)候,經(jīng)過(guò)不斷訓(xùn)練之后會(huì)避免欠擬合問(wèn)題。如果隨著訓(xùn)練的進(jìn)行,模型仍然存在欠擬合問(wèn)題,那么可以通過(guò)增加網(wǎng)絡(luò)復(fù)雜度或者在模型中增加特征等方法來(lái)解決欠擬合問(wèn)題。ThankYOU!目錄1獲取更多數(shù)據(jù)01任務(wù)采用合適的模型02任務(wù)L1/L2正則化03任務(wù)Dropout04任務(wù)EarlyStop05任務(wù)1獲取更多數(shù)據(jù)1獲取更多數(shù)據(jù)解決過(guò)擬合根本性辦法是使用更多的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)模型,收集更多的數(shù)據(jù)樣本是所有數(shù)據(jù)科學(xué)任務(wù)的第一步,使用大量的數(shù)據(jù)訓(xùn)練的模型準(zhǔn)確率更高,這樣也就能降低發(fā)生過(guò)擬合的概率。在實(shí)際問(wèn)題中,擁有的數(shù)據(jù)量是有限的,可以通過(guò)數(shù)據(jù)增強(qiáng)的辦法擴(kuò)充數(shù)據(jù)集。通過(guò)增加訓(xùn)練集的額外副本來(lái)增加訓(xùn)練集的大小,進(jìn)而改進(jìn)模型的泛化能力。常用的數(shù)據(jù)增強(qiáng)方法有:旋轉(zhuǎn)、縮放、隨機(jī)裁剪、加入隨機(jī)噪聲、平移、鏡像等。2采用合適的模型2采用合適的模型采用合適的模型,即控制模型的復(fù)雜度,過(guò)于復(fù)雜的模型會(huì)帶來(lái)過(guò)擬合問(wèn)題。移除特征能夠降低模型的復(fù)雜性,并且在一定程度上避免噪聲,使模型更高效。為了降低復(fù)雜度,我們可以移除層或減少神經(jīng)元數(shù)量,使網(wǎng)絡(luò)變小。對(duì)于模型的設(shè)計(jì),目前公認(rèn)的一個(gè)深度學(xué)習(xí)規(guī)律“deeperisbetter”。即層數(shù)越多效果越好,但是也更容易產(chǎn)生過(guò)擬合,并且計(jì)算所耗費(fèi)的時(shí)間也越長(zhǎng)。在同樣能夠解釋已知觀測(cè)現(xiàn)象的假設(shè)中,我們應(yīng)該挑選“最簡(jiǎn)單”的那一個(gè)。對(duì)于模型的設(shè)計(jì)而言,我們應(yīng)該選擇簡(jiǎn)單、合適的模型解決復(fù)雜的問(wèn)題。3L1/L2正則化3L1/L2正則化為了減小或者避免在訓(xùn)練中出現(xiàn)過(guò)擬合現(xiàn)象,通常在原始的損失函數(shù)之后附加上正則項(xiàng),通常使用的正則項(xiàng)有兩種:L1正則化和L2正則化。??L1正則化和L2正則化都可以看做是損失函數(shù)的懲罰項(xiàng),所謂懲罰項(xiàng)是指對(duì)損失函數(shù)中的一些參數(shù)進(jìn)行限制,讓參數(shù)在某一范圍內(nèi)進(jìn)行取值。3L1/L2正則化(1)L1正則化L1正則化項(xiàng)是指權(quán)重向量w中各元素的絕對(duì)值之和,表示為||w||1,L1正則化損失函數(shù):3L1/L2正則化(2)L2正則化L2正則化項(xiàng)是指權(quán)重向量w中各元素的平方和,表示為||w||22,L2正則化損失函數(shù):4Dropout4DropoutDropout是2012年推出的一種避免過(guò)度擬合的技術(shù),隨后被應(yīng)用于2012年的大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽,該挑戰(zhàn)賽徹底改變了深度學(xué)習(xí)研究。原始方法在每次訓(xùn)練迭代期間以0.5的概率省略神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元,在測(cè)試期間包含所有神經(jīng)元。該技術(shù)被證明可以顯著提高各種任務(wù)的結(jié)果。4DropoutDropout的原理就是以一定的概率使神經(jīng)元失活。Dropout是在訓(xùn)練過(guò)程中以一定的概率使神經(jīng)元失活,也就是輸出等于0。從而提高模型的泛化能力,減少過(guò)擬合。5EarlyStop5EarlyStopEarlyStop的概念非常簡(jiǎn)單,在我們一般訓(xùn)練中,經(jīng)常由于過(guò)擬合導(dǎo)致在訓(xùn)練集上的效果好,而在測(cè)試集上的效果非常差。因此我們可以讓訓(xùn)練提前停止,在測(cè)試集上達(dá)到最好的效果時(shí)候就停止訓(xùn)練,而不是等到在訓(xùn)練集上飽和在停止,這個(gè)操作就叫做EarlyStop。ThankYOU!目錄1案例目標(biāo)01任務(wù)02任務(wù)環(huán)境配置03任務(wù)案例分析案例實(shí)施04任務(wù)1案例目標(biāo)1案例目標(biāo)掌握使用神經(jīng)網(wǎng)絡(luò)構(gòu)建回歸模型的方法;掌握pandas數(shù)據(jù)讀取、處理及可視化方法;掌握數(shù)據(jù)集預(yù)處理及劃分方法;掌握回調(diào)函數(shù)的創(chuàng)建及tensorboard可視化工具;理解模型過(guò)擬合含義及處理方法。2案例分析2案例分析本案例為“房?jī)r(jià)預(yù)測(cè)”,通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)房屋的價(jià)格。網(wǎng)絡(luò)模型的輸人為房屋的信息,例如面積、樓層或房齡等信息,通過(guò)對(duì)這些輸入信息的分析,預(yù)測(cè)房屋價(jià)格;本案例通過(guò)采用相應(yīng)的技巧,防止模型過(guò)擬合,進(jìn)一步理解過(guò)擬合問(wèn)題;本案例通過(guò)構(gòu)建回調(diào)函數(shù),調(diào)用tensorboard工具可視化訓(xùn)練過(guò)程。2案例分析本案例使用的數(shù)據(jù)集為“HouseSalesinKingCounty,USA”數(shù)據(jù)集。此數(shù)據(jù)集共有21613筆房屋數(shù)據(jù),每一筆數(shù)據(jù)有21個(gè)不同的信息,分別表示以下含義:●id:房子的標(biāo)識(shí)號(hào)●date:房屋出售日期●price:房屋價(jià)格●bedrooms:臥室數(shù)量●bathrooms:浴室數(shù)量●sqft_living:居住的面積●sqftlot:實(shí)際的面積●floors:房屋總樓層數(shù)●waterfront:海景房●view:房屋是否看過(guò)●condition:整體條件●

grade:房屋的整體等級(jí)●sqftabove:地下室以外的面積●sqftbasement:地下室的面積●yr_built:房屋建造時(shí)間●yr_renovated:何時(shí)重新裝修過(guò)●zipcode:郵政編碼●lat:緯度坐標(biāo)。●long:經(jīng)度坐標(biāo)?!駍gftliving15:2015年記錄的居住面積●saftlot15:2015年記錄的實(shí)際面

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論