智能計(jì)算平臺應(yīng)用開發(fā)(中級)-第8章-機(jī)器學(xué)習(xí)基礎(chǔ)算法建模-回歸算法_第1頁
智能計(jì)算平臺應(yīng)用開發(fā)(中級)-第8章-機(jī)器學(xué)習(xí)基礎(chǔ)算法建模-回歸算法_第2頁
智能計(jì)算平臺應(yīng)用開發(fā)(中級)-第8章-機(jī)器學(xué)習(xí)基礎(chǔ)算法建模-回歸算法_第3頁
智能計(jì)算平臺應(yīng)用開發(fā)(中級)-第8章-機(jī)器學(xué)習(xí)基礎(chǔ)算法建模-回歸算法_第4頁
智能計(jì)算平臺應(yīng)用開發(fā)(中級)-第8章-機(jī)器學(xué)習(xí)基礎(chǔ)算法建模-回歸算法_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第8章機(jī)器學(xué)習(xí)基礎(chǔ)算法建模機(jī)器學(xué)習(xí)分類算法回歸算法集成學(xué)習(xí)算法聚類算法關(guān)聯(lián)規(guī)則算法智能推薦算法回歸算法在有監(jiān)督學(xué)習(xí)中若預(yù)測的變量是離散的,則稱其為分類。若預(yù)測的變量是連續(xù)的,則稱其為回歸?;貧w算法回歸分析回歸是一種統(tǒng)計(jì)學(xué)上分析數(shù)據(jù)的方法,目的在于了解兩個(gè)或多個(gè)變量間是否相關(guān)、相關(guān)方向與強(qiáng)度,并建立數(shù)學(xué)模型以便觀察特定變量來預(yù)測研究者感興趣的變量。更具體的解釋是,回歸分析可以幫助人們了解在只有一個(gè)自變量變化時(shí)因變量的變化量。一般地,通過回歸分析可以由給出的自變量估計(jì)因變量的條件期望。簡而言之,建立方程模擬兩個(gè)或者多個(gè)變量之間關(guān)系的過程稱為回歸。其中,被預(yù)測的變量稱為因變量,被用于進(jìn)行預(yù)測的變量稱為自變量?;貧w算法從19世紀(jì)初高斯提出的最小二乘估計(jì)起,回歸分析的歷史已有200多年。從經(jīng)典的回歸分析方法到近代的回歸分析方法,按照研究方法劃分,回歸分析研究的范圍大致如右圖?;貧w算法在回歸模型中,自變量與因變量具有相關(guān)關(guān)系,自變量的值是已知的,因變量是需要預(yù)測的?;貧w算法的實(shí)現(xiàn)步驟(和分類算法基本相同)學(xué)習(xí)預(yù)測學(xué)習(xí)是通過訓(xùn)練樣本數(shù)據(jù)來擬合回歸方程。預(yù)測則是利用學(xué)習(xí)過程中擬合出的回歸方程,將測試數(shù)據(jù)放入方程中求出預(yù)測值。回歸算法常用的回歸模型回歸模型名稱適用條件算法描述線性回歸因變量與自變量是線性關(guān)系對一個(gè)或多個(gè)自變量和因變量之間的線性關(guān)系進(jìn)行建模,可用最小二乘法求解模型系數(shù)非線性回歸因變量與自變量之間不都是線性關(guān)系對一個(gè)或多個(gè)自變量和因變量之間的非線性關(guān)系進(jìn)行建模。若非線性關(guān)系可以通過簡單的函數(shù)變換轉(zhuǎn)化成線性關(guān)系,則用線性回歸的思想求解;若不能轉(zhuǎn)化,則用非線性最小二乘方法求解Logistic回歸因變量一般有1和0(是與否)兩種取值是廣義線性回歸模型的特例,利用Logistic函數(shù)將因變量的取值范圍控制在0和1之間,表示取值為1的概率嶺回歸參與建模的自變量之間具有多重共線性是一種改進(jìn)最小二乘估計(jì)的方法主成分回歸參與建模的自變量之間具有多重共線性主成分回歸是根據(jù)主成分分析的思想提出來的,是對最小二乘法的一種改進(jìn),它是參數(shù)估計(jì)的一種有偏估計(jì)??梢韵宰兞恐g的多重共線性………………線性回歸線性回歸線性回歸是機(jī)器學(xué)習(xí)中最基本的算法之一,是利用數(shù)理統(tǒng)計(jì)中的回歸分析,來確定兩種或者兩種以上變量之間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法線性回歸的目標(biāo)是在給定自變量的情況下,預(yù)測因變量的值。根據(jù)不同的自變量數(shù)量,可以將線性回歸分為一元線性回歸和多元線性回歸。線性回歸——一元線性回歸一元線性回歸是描述兩個(gè)變量之間相關(guān)關(guān)系的最簡單的回歸模型。自變量與因變量間的線性關(guān)系的數(shù)學(xué)結(jié)構(gòu)通常用式方程稱為變量

y對

x的一元線性回歸理論模型。一般稱

y為因變量,x為自變量,

是未知參數(shù),稱

為回歸常數(shù),

為回歸系數(shù),

表示其他隨機(jī)因素的影響。其中,兩個(gè)變量

y與

x之間的關(guān)系用兩部分描述。一部分是由于

x的變化引起

y線性變化的部分,即

,另一部分是由其他一切隨機(jī)因素引起的,記為

。該式確切地表達(dá)了變量

x與

y

之間的密切關(guān)系,但密切的程度又沒有到

x

唯一確定

y的這種特殊關(guān)系。線性回歸——一元線性回歸的數(shù)據(jù)輸入一元線性回歸數(shù)據(jù)的輸入要求自變量可以是分類變量或連續(xù)變量,因變量必須是連續(xù)變量。因變量與自變量之間是線性關(guān)系。自變量個(gè)數(shù)只能是1。線性回歸——一元線性回歸算法輸出一元線性回歸的主要輸出內(nèi)容訓(xùn)練后的一元線性方程。包含真實(shí)值和預(yù)測值的樣本。線性回歸——一元線性回歸的優(yōu)點(diǎn)建模速度快,不需要很復(fù)雜的計(jì)算。由于己知的變量少且簡單,所以預(yù)測準(zhǔn)確率通常都較高。對異常值很敏感。線性回歸——一元線性回歸的應(yīng)用實(shí)例Python機(jī)器學(xué)習(xí)庫scikit-learn的linear_model模塊提供了LinearRegression函數(shù)用于構(gòu)建一元線性回歸模型。LinearRegression函數(shù)基本使用語法sklearn.linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)LinearRegression函數(shù)的主要參數(shù)及其說明參數(shù)名稱說明fit_intercept接收Boolean。表示是否計(jì)算該模型的截距,默認(rèn)為True線性回歸——多元線性回歸多元線性回歸多元線性回歸模型的目的是構(gòu)建一個(gè)回歸方程,利用多個(gè)自變量估計(jì)因變量,從而解釋和預(yù)測因變量的值。多元線性回歸模型中的因變量和大部分自變量為定量值,某些定性指標(biāo)需要轉(zhuǎn)換為定量值才能應(yīng)用到回歸方程中。線性回歸——多元線性回歸多元線性回歸模型中,自變量與因變量間的線性關(guān)系的數(shù)學(xué)結(jié)構(gòu)通常用式其中,y為因變量,

為自變量,

是n+1個(gè)未知參數(shù),稱

為回歸常數(shù),

為回歸系數(shù),

表示其他隨機(jī)因素的影響。線性回歸——多元線性回歸的數(shù)據(jù)輸入多元線性回歸數(shù)據(jù)的輸入要求自變量可以是分類變量或連續(xù)變量,因變量必須是連續(xù)變量。因變量與自變量之間是線性關(guān)系。自變量個(gè)數(shù)不少于2。自變量之間互相獨(dú)立。線性回歸——多元線性回歸的算法輸出多元線性回歸的主要輸出內(nèi)容訓(xùn)練后的多元線性方程。包含真實(shí)值和預(yù)測值的樣本。線性回歸——多元線性回歸的優(yōu)點(diǎn)可以根據(jù)結(jié)果給出每個(gè)變量的理解和解釋,具有很好的可解釋性,有利于決策分析。由多個(gè)自變量的最優(yōu)組合共同來預(yù)測或估計(jì)因變量,比只用一個(gè)自變量進(jìn)行預(yù)測或估計(jì)更有效,實(shí)際意義更大。線性回歸——多元線性回歸的應(yīng)用實(shí)例對于多元線性回歸,同樣可以使用Python機(jī)器學(xué)習(xí)庫scikit-learn的linear_model模塊的LinearRegression函數(shù)構(gòu)建多元線性回歸模型。KNN回歸KNN回歸KNN算法不僅可以用于分類,而且可以用于回歸分析。KNN回歸的原理是從訓(xùn)練樣本中找到與新數(shù)據(jù)點(diǎn)在距離上最近的預(yù)定數(shù)量的幾個(gè)數(shù)據(jù)點(diǎn),并從這些數(shù)據(jù)點(diǎn)中預(yù)測標(biāo)簽。這些數(shù)據(jù)點(diǎn)的數(shù)量可以是用戶自定義的常量,也可以根據(jù)不同的點(diǎn)的局部密度得到。距離通常可以通過任何方式來度量,標(biāo)準(zhǔn)歐式距離是最常見的選擇之一。KNN回歸KNN回歸適用于連續(xù)變量估計(jì),KNN回歸的一種簡單的實(shí)現(xiàn)是計(jì)算最近鄰k的數(shù)值目標(biāo)的平均值,另一種方法是使用k近鄰的逆距離加權(quán)平均值。KNN回歸使用與KNN分類相同的距離函數(shù)KNN回歸與KNN分類均適用反距離加權(quán)平均多個(gè)k近鄰點(diǎn)確定測試點(diǎn)的值。KNN算法用于回歸和分類的目標(biāo)數(shù)據(jù)區(qū)別用于回歸的目標(biāo)數(shù)據(jù)是連續(xù)的。用于分類的目標(biāo)數(shù)據(jù)是離散的。KNN回歸——數(shù)據(jù)輸入KNN回歸數(shù)據(jù)的輸入要求目標(biāo)數(shù)據(jù)為連續(xù)型。數(shù)據(jù)中不能存在空值。KNN回歸——算法輸出KNN算法通過模型訓(xùn)練后的輸出主要為訓(xùn)練后的模型,可用于預(yù)測未來值的樣本,直接得出其預(yù)測值。KNN回歸——優(yōu)缺點(diǎn)KNN回歸的優(yōu)點(diǎn)既可以用于分類,也可以用于回歸。與線性回歸相比,優(yōu)點(diǎn)為:對數(shù)據(jù)沒有假設(shè),準(zhǔn)確度高,對異常點(diǎn)不敏感。模型無需訓(xùn)練,無需擬合一個(gè)函數(shù)。KNN回歸——優(yōu)缺點(diǎn)KNN回歸的缺點(diǎn)計(jì)算量太大,尤其是自變量個(gè)數(shù)非常多的時(shí)候。屬于慵懶散學(xué)習(xí)方法,基本上不學(xué)習(xí),導(dǎo)致預(yù)測時(shí)速度比起其他算法慢。對訓(xùn)練數(shù)據(jù)依賴度非常大,對訓(xùn)練數(shù)據(jù)的容錯(cuò)性較差。KNN回歸——算法應(yīng)用KNN算法通常在分類問題中應(yīng)用較多,雖然很少用于回歸問題,但是對于連續(xù)的變量仍有很好的效果。KNN回歸——應(yīng)用實(shí)例Python機(jī)器學(xué)習(xí)庫scikit-learn的neighbors模塊提供的KNeighborsRegressor類用于構(gòu)建KNN回歸模型。KNeighborsRegressor類基本使用語法sklearn.neighbors.KNeighborsRegressor(n_neighbors=5,weights='uniform',algorithm='auto',leaf_size=30,p=2,metric='minkowski',metric_params=None,n_jobs=None,**kwargs)KNeighborsRegressor類的主要參數(shù)及其說明參數(shù)名稱說明n_neighbors接收int。表示KNN算法中選取離測試數(shù)據(jù)最近的k個(gè)點(diǎn),默認(rèn)為5weights接收str。表示k近鄰點(diǎn)對分類結(jié)果的影響,一般情況下,選取k近鄰點(diǎn)中類別數(shù)目最多的作為分類結(jié)果,這種情況下默認(rèn)k個(gè)點(diǎn)的權(quán)重相等,但在很多情況下,k近鄰點(diǎn)權(quán)重并不相等,可能近的點(diǎn)權(quán)重大,對分類結(jié)果影響大,可選擇的值為“uniform”和“distance”,其含義如下“uniform”:表示所有點(diǎn)的權(quán)重相等“distance”:表示權(quán)重是距離的倒數(shù),意味著在k個(gè)點(diǎn)中,距離近的點(diǎn)對分類結(jié)果的影響大于距離遠(yuǎn)的點(diǎn)默認(rèn)為“uniform”KNN回歸——應(yīng)用實(shí)例KNeighborsRegressor類的主要參數(shù)及其說明參數(shù)名稱說明algorithm接收str。計(jì)算找出k近鄰點(diǎn)的算法,可選擇的值為“ball_tree”“kd_tree”“brute”和“auto”,其含義如下“ball_tree”:使用BallTree算法,建議數(shù)據(jù)維度大于20時(shí)使用“kd_tree”:使用KDTree算法,在數(shù)據(jù)維度小于20時(shí)效率高“brute”:暴力算法,線性掃描“auto”:自動(dòng)選取最合適的算法默認(rèn)為“auto”leaf_size接收int。用于構(gòu)造BallTree和KDTree,leaf_size參數(shù)的設(shè)置會影響樹的構(gòu)造和詢問的速度,同樣也會影響樹存儲需要的內(nèi)存,默認(rèn)為30p接收int。表示度量的方式可選擇的值為1和2,其含義如下1:使用曼哈頓距離進(jìn)行度量2:使用歐式距離進(jìn)行度量默認(rèn)為2KNN回歸——應(yīng)用實(shí)例Lasso回歸Lasso回歸Lasso回歸以縮小特征集(降階)為思想,是一種收縮估計(jì)方法。Lasso回歸可以將特征的系數(shù)進(jìn)行壓縮并使某些回歸系數(shù)變?yōu)?,進(jìn)而達(dá)到特征選擇的目的,可以廣泛地應(yīng)用于模型改進(jìn)與選擇。通過選擇懲罰函數(shù),借用Lasso思想和方法實(shí)現(xiàn)特征選擇的目的。模型選擇本質(zhì)上是尋求模型稀疏表達(dá)的過程,而這種過程可以通過優(yōu)化一個(gè)“損失”+“懲罰”的函數(shù)問題來完成。Lasso回歸Lasso回歸定義其中,

為非負(fù)正則參數(shù),控制著模型的復(fù)雜程度,

越大對特征較多的線性模型的懲罰力度就越大,從而最終獲得一個(gè)特征較少的模型,

稱為懲罰項(xiàng)。調(diào)整參數(shù)

的取值可以采用交叉驗(yàn)證法,選取交叉驗(yàn)證誤差最小的

值。最后,按照得到的

值,用全部數(shù)據(jù)重新擬合模型即可。Lasso回歸——數(shù)據(jù)輸入在理論上,Lasso回歸對數(shù)據(jù)類型沒有太多限制,可以接受任何類型的數(shù)據(jù),而且一般不需要對特征進(jìn)行標(biāo)準(zhǔn)化處理。Lasso回歸——算法輸出Lasso回歸的主要輸出內(nèi)容訓(xùn)練后的Lasso回歸方程。包含真實(shí)值和預(yù)測值的樣本。Lasso回歸——優(yōu)缺點(diǎn)Lasso回歸的優(yōu)點(diǎn)Lasso回歸的缺點(diǎn)可以彌補(bǔ)最小二乘法和逐步回歸局部最優(yōu)估計(jì)的不足,可以很好地進(jìn)行特征的選擇,可以有效的解決各特征之間存在多重共線性的問題。如果存在一組高度相關(guān)的特征時(shí),Lasso回歸方法傾向于選擇其中的一個(gè)特征,而忽視其他所有的特征,這種情況會導(dǎo)致結(jié)果的不穩(wěn)定性。Lasso回歸——算法應(yīng)用當(dāng)原始特征中存在多重共線性時(shí),Lasso回歸不失為一種很好的處理共線性的方法。它可以有效地對存在多重共線性的特征進(jìn)行篩選。處理共線性的問題用于特征降維在機(jī)器學(xué)習(xí)中,面對海量的數(shù)據(jù),往往會用到降維,爭取用盡可能少的數(shù)據(jù)解決問題,而用Lasso模型進(jìn)行特征選擇也是一種有效的降維方法。Lasso回歸——應(yīng)用實(shí)例Python機(jī)器學(xué)習(xí)庫scikit-learn的linear_model模塊提供的Lasso類用于構(gòu)建Lasso回歸模型。Lasso類基本使用語法sklearn.linear_model.Lasso(alpha=1.0,fit_intercept=True,normalize=False,prec

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論