




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘分類預(yù)測模型商務(wù)數(shù)據(jù)分析中除了預(yù)測問題,也存在很多分類問題。分類就是根據(jù)對象在各屬性特征上的表現(xiàn),將其映射到給定的類別。分類與預(yù)測問題有很多相似的地方,樣本數(shù)據(jù)都需要包括描述研究對象各方面表現(xiàn)的屬性特征和研究問題對應(yīng)的目標(biāo)特征,只是在分類問題中目標(biāo)特征是離散的,而預(yù)測問題中目標(biāo)特征是連續(xù)的。第一節(jié)分類模型評價標(biāo)準(zhǔn)在分類任務(wù)中,只用準(zhǔn)確率通常不能判斷算法的優(yōu)劣?;煜仃嚕–onfusionMatrix)混淆矩陣依據(jù)不同情況,對模型的分類結(jié)果進(jìn)行了整理:TP是預(yù)測值與真實值都為正的樣本數(shù)量TN是預(yù)測值和真實值都為負(fù)的樣本數(shù)量,兩種情況都表示模型分類結(jié)果正確FN表示真實值為正而預(yù)測為負(fù)的樣本數(shù)量,即實際的正樣本中有多少預(yù)測錯誤了,這是統(tǒng)計學(xué)中的第I類錯誤,F(xiàn)P表示真實值為負(fù)但是預(yù)測為正出現(xiàn)錯誤的樣本數(shù)量,是第II類錯誤。(1)準(zhǔn)確率、精確率、召回率、F1值精確率表示預(yù)測為正的樣本中有多少實際也為正的,召回率代表實際為正的樣本中有多少被識別出來了。換句話說,提高精確率是希望找到的都是正確的,而提高召回率是希望找得“全”。F1值是對精確率和召回率的一個結(jié)合評價。(2)ROC曲線和AUC
(2)ROC曲線和AUC選定閾值為某個值,所有數(shù)據(jù)樣本將會根據(jù)模型輸出值被判定相應(yīng)的類別,以此為依據(jù)計算出一組(TPR,FPR)值,即得到了繪制曲線的一個點。ROC曲線是由一組點(FPR,TPR)組成的,衡量的是TPR、FPR隨著模型判斷為正值的概率閾值的變化曲線。完美分類點(0,1)代表理想狀態(tài),即不管閾值如何,模型正確率為1,錯誤率為0。越接近于點(0,1)的ROC曲線代表的模型越好,預(yù)測越準(zhǔn)確。ROC曲線下的面積AUC(AreaUnderrocCurve)的大小可以直接用來比較模型,越大的AUC代表表現(xiàn)越好的模型。第二節(jié)邏輯回歸在商務(wù)數(shù)據(jù)分析中,經(jīng)常會遇到二分類問題,即研究對象的類別有兩個,某個樣本非此類即彼類。邏輯回歸就是解決這類問題的常見方法。邏輯回歸(Logisticsregression)是一種有監(jiān)督的學(xué)習(xí)算法。1.從線性回歸到邏輯回歸
2.邏輯回歸的參數(shù)優(yōu)化
3.邏輯回歸小結(jié)優(yōu)點:(1)邏輯回歸模型輸出值即為概率值,描述了事件發(fā)生的概率,這使得二分類結(jié)果有更好的可分析性。(2)邏輯回歸中自變量前的系數(shù)具有很好的可解釋性。這一系數(shù)為分析自變量對于因變量的影響大小提供了依據(jù)。(3)邏輯回歸的計算代價低,容易實現(xiàn),在時間和內(nèi)存需求上相當(dāng)高效。缺點:首先,它容易出現(xiàn)欠擬合的現(xiàn)象,分類精度不高,其次,當(dāng)數(shù)據(jù)有較多確實或者特征空間很大時,它的表現(xiàn)和效果并不是很理想。4.二分類算法應(yīng)用于多分類問題現(xiàn)實生活中,有很多問題可能有多個類別值。二分類模型應(yīng)用于多分類問題思路1:“一類對其余”假設(shè)產(chǎn)品分類中有n個類別,則構(gòu)造n個分類問題,訓(xùn)練相應(yīng)n個分類模型,第i個分類模型用于判斷解決樣本是否屬于第i類,即模型的輸出為{是,否},是一個二分類模型。原有的多類別問題被轉(zhuǎn)換為n個二分類模型。訓(xùn)練完成后,n個模型一同對新樣本進(jìn)行分類。將新樣本自變量屬性,分別輸入n個分類模型,輸出結(jié)果為“是”的分類模型對應(yīng)的類別便是新樣本所屬類別。好處:分類模型數(shù)量少缺點:每個分類器的訓(xùn)練樣本分布都不均衡,影響了訓(xùn)練效果;而且每次有新的類別加入,需要重新訓(xùn)練所有的模型。4.二分類算法應(yīng)用于多分類問題現(xiàn)實生活中,有很多問題可能有多個類別值。二分類模型應(yīng)用于多分類問題思路1:“一類對一類”在n個類別中,每兩個類別建立一個分類模型。基于已有的數(shù)據(jù)對這些模型進(jìn)行訓(xùn)練。訓(xùn)練完成后,模型一同對新樣本進(jìn)行分類。將新樣本自變量屬性,分別輸入所有分類模型,對模型輸出的類別結(jié)果統(tǒng)計,將產(chǎn)品歸類為在分類器中輸出最多數(shù)量的類別。優(yōu)點:每個分類器相對簡單缺點:分類器總體數(shù)量較大,影響了算法效率。第三節(jié)決策樹決策樹組成部分一個決策樹的分支節(jié)點代表一個特征屬性,一個分支代表特征的某一個取值范圍,而決策樹最底端的葉節(jié)點代表一種類別。樣本按照如下的邏輯被劃分到某葉子節(jié)點,即類別節(jié)點中。分類過程從根節(jié)點開始,將樣本數(shù)據(jù)在相應(yīng)特征屬性上的取值與分支節(jié)點的范圍進(jìn)行匹配,按結(jié)果劃分到下一個分支中,直至到樣本數(shù)據(jù)被劃分到某個葉節(jié)點,得到最終的類別,作為模型的輸出。決策樹(DecisionTree)是通過構(gòu)造樹結(jié)構(gòu)來進(jìn)行分類的方法,它是一種有監(jiān)督的機器學(xué)習(xí)分類算法,即訓(xùn)練樣本需要含有類別信息。1.信息熵
1.信息熵
2.信息熵、不確定性與集合純度信息熵在分類問題中,是度量集合純度的常用指標(biāo),熵越小,純度越高。在分類任務(wù)中,好的分類結(jié)果是指能得到高純度的樣本集合。對應(yīng)于決策樹中,按某屬性分支進(jìn)行分類后得到的樣本純度越高,決策樹模型越好3.信息增益信息增益(InformationGain)表示的是隨機變量x的取值確定后,隨機變量y的信息熵的變化,或者說隨機變量y的不確定性減少的程度。對于分類問題而言,從信息增益角度,可以理解為按特征x的取值將樣本進(jìn)行分類后,樣本集合屬于某個類別y不確定性下降的程度,也就是樣本集合純度增加的程度。每個特征針對于類別都可以計算相應(yīng)的信息增益,不同特征對應(yīng)的信息增益大小不同。信息增益值更大,表明用這個特征分類得到的集合更純,是應(yīng)該優(yōu)先選擇的決策樹分類屬性。3.信息增益
4.常見的決策樹算法有多種方法可以完成對決策樹的構(gòu)建,實現(xiàn)分類,有些方法完全基于前面所介紹的信息增益,而有些方法則針對其不足對信息增益進(jìn)行了改進(jìn)。(1)ID3ID3是較早出現(xiàn)的決策樹算法,它以前面介紹的信息增益的值為依據(jù),每次選擇在當(dāng)前狀態(tài)下,信息增益最大的屬性為下一步的劃分屬性。對于可取值數(shù)目較多的屬性有偏好,會影響分類效果。4.常見的決策樹算法
4.常見的決策樹算法(3)CART(ClassificationAndRegressionTree,CART)分類與回歸樹,既可以應(yīng)用于目標(biāo)屬性為離散型的分類問題,也可以應(yīng)用于目標(biāo)屬性為連續(xù)型的回歸問題。假設(shè)決策樹是二叉樹,即分支節(jié)點只有兩個分支(“是”與“否”),決策樹作為分類樹和回歸樹時,分別有不同的生成原則依據(jù)。當(dāng)決策樹作為分類樹,即判別的結(jié)果是樣本屬于哪個類別時,依據(jù)基尼指數(shù)的大小選擇分類所依據(jù)的特征屬性。對于一個數(shù)據(jù)集D來說,其基尼指數(shù)可以理解為從數(shù)據(jù)集中隨機選取兩個樣本,兩者屬于不同類別的概率。生成決策樹的過程即為每次選擇使得Gini指數(shù)小的屬性和該屬性上的某一取值(a)進(jìn)行劃分。當(dāng)CART作為回歸樹,即判別的結(jié)果為具體的數(shù)值時,生成樹的依據(jù)是回歸樹輸出的預(yù)測值與實際值的誤差平方和最小。5.決策樹的剪枝在決策樹的生成過程中很容易造成決策樹的分支過多,導(dǎo)致過擬合,泛化能力下降?!凹糁Α笔菦Q策樹為了解決可能的過擬合問題采用的方式(1)預(yù)剪枝預(yù)剪枝的思想是從空集開始增加分類屬性節(jié)點,每次選擇一個屬性時,需要判斷隨著該屬性被加入到?jīng)Q策樹,決策樹在測試集上的表現(xiàn)(分類準(zhǔn)確度)有沒有變優(yōu),如果變優(yōu),則將該屬性加入決策樹,直到滿足停止條件。(2)后剪枝后剪枝的思想是先基于所有屬性生成一棵完整的樹,這棵樹最終葉子節(jié)點中分類純度是100%。然后自底向上假定某一個分支下面的子樹若被葉節(jié)點替代,計算此時在測試集中,決策樹的分類準(zhǔn)確率有沒有變化。如果分類準(zhǔn)確性增加或者沒有降低,則進(jìn)行剪枝,用葉子節(jié)點代替子樹,葉子節(jié)點的類別由相應(yīng)樣本集合中占多數(shù)的類別決定。對比預(yù)剪枝思想直接,算法簡單,但容易出現(xiàn)“欠擬合”的現(xiàn)象,對特征的學(xué)習(xí)不足,得到的決策樹分類性能不高。后剪枝是生成整個決策樹后才進(jìn)行剪枝,因此其不容易出現(xiàn)該現(xiàn)象,但是所用時間要比預(yù)剪枝多,算法也更復(fù)雜。6.決策樹小結(jié)決策樹主要優(yōu)點包括:易于理解、并且很多情況下可以進(jìn)行可視化,比其他分類模型更為清晰的表述分類過程和結(jié)果;可以同時實現(xiàn)特征選擇,即特征工程中介紹的嵌入式方法,在構(gòu)建決策樹的過程中同時完成了分類任務(wù)和特征選擇;一般不需要對數(shù)據(jù)預(yù)處理;可以處理數(shù)值變量和分類變量(CART樹);可以處理多值分類問題;結(jié)果具有一定的可解釋性。但是決策樹也存在一些缺點,包括:較容易過擬合;決策樹不是很穩(wěn)定,一個比較小的變異就可能產(chǎn)生一個不同的樹;需要數(shù)據(jù)的平衡;只能是依據(jù)當(dāng)前的標(biāo)準(zhǔn)選擇最好的分類屬性,但不能保證最后的整棵樹是最優(yōu)的。第四節(jié)貝葉斯算法貝葉斯算法就是基于概率進(jìn)行分類的算法。1.貝葉斯概率貝葉斯理論認(rèn)為人們基于自己已有的認(rèn)知,對事物發(fā)生的可能性有自己的判斷,這被稱為先驗知識。不同人得到的概率判斷不同,即概率是主觀的。隨著不斷觀察或收集到更多的樣本和結(jié)果,人們不斷地修正對事物的認(rèn)識,形成后驗分布,這稱為后驗知識。
2.
貝葉斯公式
2.貝葉斯公式
3.樸素貝葉斯算法
4.非樸素貝葉斯算法屬性之間總有一些關(guān)聯(lián)?!胺腔虬霕闼刎惾~斯”算法基本想法是考慮一些比較強的屬性之間的依賴關(guān)系,并不考慮全部屬性之間的所有依賴關(guān)系。SPODE算法假設(shè)有一個特征屬性與其他所有的特征屬性有依賴關(guān)系,比較確認(rèn)父屬性之后,對后驗概率進(jìn)行修正。TAN算法將屬性之間的依賴關(guān)系化為樹形結(jié)構(gòu),將任意兩個屬性之間的條件互信息(代表相關(guān)性大?。┳鳛閮蓚€變量之間的權(quán)重,然后利用最大帶權(quán)生成樹保留強相關(guān)屬性的依賴性,經(jīng)過依賴性確認(rèn)后,再利用貝葉斯公式繼續(xù)計算。貝葉斯網(wǎng)利用有向無環(huán)圖和條件概率表來計算屬性之間的聯(lián)合概率分布,貝葉斯網(wǎng)中一個屬性可以依賴不止一個屬性。5.貝葉斯算法小結(jié)優(yōu)點過程簡單,基于概率算法容易理解;對于多分類問題或?qū)崟r分類問題,貝葉斯算法有很好的表現(xiàn);隨著樣本可能的分類的增加,算法效率依然有保障,復(fù)雜度并沒有大幅度的上升;如果現(xiàn)實中某一分類任務(wù)能夠滿足屬性之間相互獨立的假設(shè),樸素貝葉斯算法能夠簡單又快速解決分類。缺點真實的值沒有太多的意義現(xiàn)實生活中能夠滿足條件獨立性假設(shè)的問題很少,屬性之間往往有共線性,如果考慮到所有屬性之間的共線性,貝葉斯算法很難求出所有變量的概率分布。第五節(jié)k最近鄰算法
2.K近鄰算法的三個基本要素
2.K近鄰算法的三個基本要素
2.K近鄰算法的三個基本要素(2)最近鄰數(shù)量K最近鄰數(shù)量k值的選擇不同,k近鄰算法分類的結(jié)果也會不同。極端情況,k=1,新樣本的種類就由與其最接近的一個樣本的類別所決定;而k最大可以等于所有樣本數(shù)量,則新樣本的種類是訓(xùn)練集中占多數(shù)的種類。為了衡量不同的k值對于模型的影響,引入“近似誤差”(approximationerror),和“估計誤差”(estimationerror)兩個指標(biāo)。近似誤差可以理解為對訓(xùn)練集的訓(xùn)練誤差,估計誤差可以理解為對測試集的測試誤差。通常k值都比較小。(3)分類決策規(guī)則一般情況下都是選擇多數(shù)表決法,即樣本的k個近鄰中,較多的樣本屬于某一類別,就判定待預(yù)測樣本也屬于這一類別。3.改進(jìn)最近鄰算法:kd樹的構(gòu)造從空間來看,kd樹在構(gòu)建過程中,根據(jù)已有的樣本點,不斷用垂直于某一坐標(biāo)軸的超平面來對空間進(jìn)行劃分,劃分成很多個k維超矩形空間,樹的每一個節(jié)點都對應(yīng)著一個超矩形空間。K最近鄰算法需要遍歷一遍所有的樣本,找到最近的樣本,但是當(dāng)樣本量很大時,這一方法十分耗時。改進(jìn)方法是構(gòu)造kd樹。kd樹是一個二叉樹,即樹中每個節(jié)點只有兩個分支。kd樹將具有k個特征的樣本點進(jìn)行劃分,建立樹狀數(shù)據(jù)結(jié)構(gòu)。從而在此基礎(chǔ)上進(jìn)行最近鄰尋找時,快速遍歷符合條件的樣本,而不需要遍歷所有樣本。4.最近鄰算法小結(jié)基于kd樹進(jìn)行最近鄰的查詢,不需要每次遍歷所有樣本計算距離優(yōu)點:算法簡單,易于理解,算法沒有參數(shù)估計,不需要訓(xùn)練,所以速度快;果k值的選擇恰當(dāng),那么k近鄰算法對于異常值不太敏感;k近鄰算法可以應(yīng)用于多分類問題,也比較適合對一些稀有事件進(jìn)行分類。缺點:它不能解釋哪個屬性對于最終的結(jié)果影響較大k值的選擇是一個難點,很難直接找到最優(yōu)的k值,一般會通過設(shè)置多個k值,不斷比較的方式確定針對當(dāng)前樣本最優(yōu)的k值。第六節(jié)支持向量機
1.SVM基本原理
1.SVM基本原理
2.軟間隔
在很多情況下,樣本很難用一個超平面分開不出現(xiàn)錯誤,而且如果用一個超平面分開,也有可能導(dǎo)致過擬合的現(xiàn)象。因此,可以允許一些樣本分類不正確如右圖所示,落入兩條虛線的樣本代表不滿足約束的樣本。3.SVM中的核函數(shù)很多情況下,樣本是不可線性分割的,SVM用核函數(shù)來解決這一問題。核函數(shù)可以理解成一個映射函數(shù),目的是將低維空間無法線性可分的樣本,通過核函數(shù)映射到高維特征空間,最終在高維特征空間中構(gòu)造出分離的超平面。核函數(shù)簡化了映射到高維空間后的優(yōu)化求解實際上確定了樣本被映射到高維的分類效果,選擇不同的核函數(shù),意味著不同的分類效果,即直接影響著最終模型的性能。常用的核函數(shù)有線性核、多項式核、高斯核、Sigmoid核函數(shù)等等。在實際應(yīng)用中,一般會通過嘗試不同的核函數(shù),比較分類效果,確定合適當(dāng)前問題的核函數(shù)。4.SVM算法的特點優(yōu)點:在小樣本集上面有較高的準(zhǔn)確率,而且泛化能力強;不依賴于全部的數(shù)據(jù),對分類產(chǎn)生最終產(chǎn)生影響的只有支持向量,因此其對樣本的敏感度較低,容忍性較高。局限:如當(dāng)數(shù)據(jù)量很大時,它的計算速度慢,將樣本映射到高維度空間上,結(jié)果不具備解釋性,核函數(shù)的選擇問題是另一個難點。第七節(jié)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks)由若干節(jié)點形成交互網(wǎng)絡(luò),根據(jù)已經(jīng)收集的信息來學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò),最終能夠應(yīng)用網(wǎng)絡(luò)預(yù)測新的樣本。人工神經(jīng)網(wǎng)絡(luò)可以理解為一種黑箱模型,而且只要訓(xùn)練數(shù)據(jù)量足夠大,它可以擬合出輸入到輸出之間的任意函數(shù)關(guān)系,突破了回歸模型對函數(shù)類型的要求。神經(jīng)網(wǎng)絡(luò)比較強大,可以處理機器學(xué)習(xí)領(lǐng)域中的很多問題,它具有線性和非線性學(xué)習(xí)算法的能力,在最近幾年得到了迅猛發(fā)展1.神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)單層神經(jīng)網(wǎng)絡(luò)右圖所示的是一種最簡單的神經(jīng)網(wǎng)絡(luò),即單層神經(jīng)網(wǎng)絡(luò),也稱作感知器,它是人工神經(jīng)網(wǎng)絡(luò)中的一種典型的結(jié)構(gòu),它的主要特點是結(jié)構(gòu)簡單,它是兩層神經(jīng)元之間的連接,被稱為輸入層和輸出層。
1.神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)多層神經(jīng)網(wǎng)絡(luò)在輸入層和輸出層之間加入了隱含層。隱含層的神經(jīng)元可以對其輸出函數(shù)進(jìn)行非線性化設(shè)計,因此多層感知器可以處理非線性問題。兩個隱層的神經(jīng)網(wǎng)絡(luò)就可以解決大多數(shù)復(fù)雜的分類問題。多層前饋神經(jīng)網(wǎng)絡(luò)每層神經(jīng)元與相鄰層神經(jīng)元全相連,神經(jīng)元之間不存在同層相連,也不存在跨層相連2.神經(jīng)元模型
2.神經(jīng)元模型
2.神經(jīng)元模型
3.BP神經(jīng)網(wǎng)絡(luò)一種基本的神經(jīng)網(wǎng)絡(luò)——BP(ErrorBackPropagation)誤差反向傳播神經(jīng)網(wǎng)絡(luò)節(jié)點結(jié)構(gòu)確定后,建模本質(zhì)上就是確定網(wǎng)絡(luò)的兩類主要參數(shù):神經(jīng)元之間的連接權(quán)重和每個功能神經(jīng)元激活閾值,目的是使得網(wǎng)絡(luò)在樣本中的分類或訓(xùn)練誤差最小。BP算法是訓(xùn)練參數(shù)的一種方法。算法的學(xué)習(xí)過程由取值從輸入層到輸出層的正向傳播與誤差的反向傳播(算法名稱由來)兩個過程組成,是目前采用最多的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。3.BP神經(jīng)網(wǎng)絡(luò)BP算法屬于有監(jiān)督學(xué)習(xí),即訓(xùn)練樣本中包含目標(biāo)屬性的真實值。真實值與網(wǎng)絡(luò)模型的輸出值之間的誤差,是算法進(jìn)行參數(shù)調(diào)整的基礎(chǔ)。BP算法包括正、反兩個傳播過程右圖中實線箭頭表示的正向傳播是指將訓(xùn)練數(shù)據(jù)的特征值作為輸入層節(jié)點的取值,在網(wǎng)絡(luò)中根據(jù)權(quán)重和閾值,經(jīng)過各隱含層,直到計算到輸出層得到輸出結(jié)果,這是正向傳播。計算網(wǎng)絡(luò)的輸出值與訓(xùn)練數(shù)據(jù)的真實值之間的誤差,如果誤差滿足條件,則訓(xùn)練結(jié)束,當(dāng)前網(wǎng)絡(luò)為最優(yōu)網(wǎng)絡(luò);否則啟動虛線箭頭表示的反向傳播,根據(jù)誤差調(diào)整權(quán)重參數(shù)。反向傳播指的是將為了達(dá)到誤差最小,誤差通過導(dǎo)數(shù)又從輸出層反向傳播到模型隱含層,再到輸入層,從后向前一層一層地更新連接權(quán)重、閾值等參數(shù)。更新后的網(wǎng)絡(luò)利用訓(xùn)練數(shù)據(jù)再次啟動正向傳播,再次得到網(wǎng)絡(luò)輸出,計算誤差,不斷重復(fù)這個過程直到誤差不再減小或者模型效果滿意為止。4.BP神經(jīng)網(wǎng)絡(luò)特點優(yōu)點神經(jīng)網(wǎng)絡(luò)不僅僅適用于預(yù)測問題,對于分類問題同樣適用??梢詳M合目標(biāo)特征與屬性特征之間可能存在的任何關(guān)系,勝任任何預(yù)測任務(wù)。缺點神經(jīng)網(wǎng)絡(luò)中的輸入節(jié)點對輸出節(jié)點的影響無法用參數(shù)直接加以解釋。訓(xùn)練時權(quán)重和網(wǎng)絡(luò)結(jié)構(gòu)的初始化有可能會導(dǎo)致訓(xùn)練過程收斂到局部最小值,無法得到最優(yōu)網(wǎng)絡(luò)及參數(shù)。對于這個問題,常常采取的應(yīng)對方法有生成多個初始網(wǎng)絡(luò)、模擬退火、引入隨機因素、遺傳算法等。第八節(jié)分類和預(yù)測算法擴展
1.?dāng)?shù)據(jù)不平衡問題(2)過采樣與欠采樣訓(xùn)練集是真實樣本的無偏取樣,這一假設(shè)很難實現(xiàn)。因此,還可以采用過采樣和欠采樣的方法來平衡數(shù)據(jù)集。欠采樣是減少較多的那一類的樣本欠采樣的時間開銷較少,但是如果隨機任意刪除樣本,有可能損失樣本中的重要信息。欠采樣的代表性算法EasyEnsemble的主要思想是將數(shù)量占多的那一類樣本隨機分為幾個子集,每一個子集和少的那一類樣本整合起來,作為訓(xùn)練數(shù)據(jù)集,分別訓(xùn)練多個分類器模型,這樣在每個子分類器中實現(xiàn)了樣本均衡,再利用集成學(xué)習(xí)算法得到最終的分類器。過采樣是增加較少的那一類的樣本,從而實現(xiàn)不同類別樣本的均衡。過采樣也不能簡單復(fù)制少數(shù)類的樣本,代表性算法SMOTE的基本思想是通過插值法產(chǎn)生新的少數(shù)類樣本。2.集成學(xué)習(xí)(EnsembleLearning)
不是一種新的分類算法,而是一種思想影響集成學(xué)習(xí)效果的關(guān)鍵因素有兩個:個體學(xué)習(xí)器的選擇以及對它們各自學(xué)習(xí)結(jié)果的整合方式。基本思想是通過構(gòu)建和結(jié)合多個個體分類(學(xué)習(xí))器來實現(xiàn)學(xué)習(xí)任務(wù)?!耙粋€好漢三個幫”,多個個體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 運營管理中的挑戰(zhàn)與應(yīng)對策略計劃
- 倉庫設(shè)備維護管理倡議計劃
- 《貴州德力能源有限公司納雍縣新房鄉(xiāng)營龍煤礦(變更)礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》評審意見
- 組裝機箱知識培訓(xùn)課件
- 2025年阿拉善盟年貨運從業(yè)資格證考試題庫
- 2025年武漢貨運資格考試答案
- 2025年烏魯木齊貨年從業(yè)資格證考試題目
- 2025年福州貨運從業(yè)資格證考試題庫答案解析
- 第5課+古代非洲與美洲+高一下學(xué)期統(tǒng)編版(2019)必修中外歷史綱要下
- 0-3歲嬰幼兒游戲知到課后答案智慧樹章節(jié)測試答案2025年春青島職業(yè)技術(shù)學(xué)院
- 中央2025年交通運輸部所屬事業(yè)單位招聘261人筆試歷年參考題庫附帶答案詳解
- 中智集團所屬中智國際商務(wù)發(fā)展限公司招聘高頻重點提升(共500題)附帶答案詳解
- 【9語一?!?024年蚌埠市懷遠(yuǎn)縣中考一模語文試題
- 《芮城花椒栽培技術(shù)規(guī)程》
- 《零售基礎(chǔ)》課件-第一章 零售概述
- 專項10:文言文-【中職專用】2025年職教高考學(xué)業(yè)考試語文二輪專項突破(福建專用)
- DB45T 1097-2014 鋼管混凝土拱橋施工技術(shù)規(guī)程
- DB37T 5123-2018 預(yù)拌混凝土及砂漿企業(yè)試驗室管理規(guī)范
- 工藝工程師招聘筆試題及解答(某大型集團公司)2024年
- 2024解析:第九章固體壓強-講核心(解析版)
- 醫(yī)療器械批發(fā)崗位職責(zé)培訓(xùn)
評論
0/150
提交評論