商務(wù)數(shù)據(jù)分析課件:商務(wù)數(shù)據(jù)分析常用方法_第1頁(yè)
商務(wù)數(shù)據(jù)分析課件:商務(wù)數(shù)據(jù)分析常用方法_第2頁(yè)
商務(wù)數(shù)據(jù)分析課件:商務(wù)數(shù)據(jù)分析常用方法_第3頁(yè)
商務(wù)數(shù)據(jù)分析課件:商務(wù)數(shù)據(jù)分析常用方法_第4頁(yè)
商務(wù)數(shù)據(jù)分析課件:商務(wù)數(shù)據(jù)分析常用方法_第5頁(yè)
已閱讀5頁(yè),還剩210頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)獲取與數(shù)據(jù)理解

第一節(jié)數(shù)據(jù)獲取數(shù)據(jù)獲取主要有兩個(gè)渠道一個(gè)是直接獲取數(shù)據(jù),即自己在經(jīng)營(yíng)過(guò)程中累積的數(shù)據(jù),或者通過(guò)實(shí)驗(yàn)或調(diào)查直接獲得的數(shù)據(jù),這些數(shù)據(jù)被稱(chēng)為一手?jǐn)?shù)據(jù).另一個(gè)是間接獲取數(shù)據(jù),指的是數(shù)據(jù)是由其他人通過(guò)各種形式搜集的,使用者僅僅是找到這些數(shù)據(jù)并加以加工和使用,間接地獲取了這些數(shù)據(jù),這些數(shù)據(jù)通常被稱(chēng)為二手?jǐn)?shù)據(jù)。

1.直接獲?。ǎ保┙?jīng)營(yíng)數(shù)據(jù)企業(yè)在經(jīng)營(yíng)過(guò)程中積累了大量數(shù)據(jù),包括運(yùn)營(yíng)、人事、財(cái)務(wù)、供應(yīng)鏈、客戶(hù)管理等。這些數(shù)據(jù)通常存儲(chǔ)在企業(yè)信息系統(tǒng)的數(shù)據(jù)庫(kù)中,是企業(yè)經(jīng)營(yíng)的真實(shí)反映。獲取相對(duì)比較簡(jiǎn)單,但由于經(jīng)營(yíng)數(shù)據(jù)通常涉及企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì),所以企業(yè)外部人員甚至不同部門(mén)的人員很難得到。(2)市場(chǎng)調(diào)查市場(chǎng)調(diào)查是指用科學(xué)的方法(引用正規(guī)),有目的、系統(tǒng)地搜集、記錄、整理和分析市場(chǎng)現(xiàn)狀的數(shù)據(jù)獲取和分析方法。市場(chǎng)調(diào)查通常比較適用于社會(huì)問(wèn)題和企業(yè)經(jīng)濟(jì)問(wèn)題。

1.直接獲取(3)試驗(yàn)在試驗(yàn)中,研究者圍繞想要解決的問(wèn)題,設(shè)定相應(yīng)情景,記錄不同條件下相應(yīng)的試驗(yàn)觀(guān)測(cè)結(jié)果,并對(duì)試驗(yàn)結(jié)果展開(kāi)分析。

(4)爬蟲(chóng)更多數(shù)據(jù)被保留在了各個(gè)網(wǎng)頁(yè)上,使用者可以針對(duì)自己的需要,利用爬

蟲(chóng)技術(shù)自行對(duì)網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行爬取。

2.間接獲取從相關(guān)渠道獲取與研究?jī)?nèi)容有關(guān)的而且已經(jīng)存在的二手?jǐn)?shù)據(jù)。二手?jǐn)?shù)據(jù)的優(yōu)勢(shì):二手?jǐn)?shù)據(jù)獲取過(guò)程通常時(shí)間短、成本低二手?jǐn)?shù)據(jù)除了可以用來(lái)分析研究問(wèn)題,還可以從中剖析研究問(wèn)題的背景。二手?jǐn)?shù)據(jù)的局限性二手?jǐn)?shù)據(jù)通常不是為使用者想要進(jìn)行研究的問(wèn)題而收集的,所以與直接收集數(shù)據(jù)相比,在和研究問(wèn)題的契合度上必定有所欠缺。在使用二手?jǐn)?shù)據(jù)時(shí),提前對(duì)數(shù)據(jù)進(jìn)行評(píng)估是非常必要的。在使用二手?jǐn)?shù)據(jù)時(shí),避免錯(cuò)用、誤用、濫用。在引用二手?jǐn)?shù)據(jù)時(shí),應(yīng)注明數(shù)據(jù)的來(lái)源,以尊重他人的勞動(dòng)成果。

2.間接獲?。ǎ保┪墨I(xiàn)相關(guān)專(zhuān)業(yè)期刊、學(xué)術(shù)會(huì)議、專(zhuān)業(yè)圖書(shū)的文獻(xiàn)資料中提供了一些可供使用或參考的數(shù)據(jù)資料。文獻(xiàn)中的數(shù)據(jù)往往經(jīng)過(guò)了原作者的處理,對(duì)使用者來(lái)說(shuō)省去了數(shù)據(jù)處理的過(guò)程,但是文獻(xiàn)數(shù)據(jù)的計(jì)算口徑有時(shí)難以獲知,適用性相對(duì)較弱。(2)學(xué)術(shù)單位的數(shù)據(jù)庫(kù)為了研究需要,大學(xué)等學(xué)術(shù)單位提供了一些以數(shù)據(jù)庫(kù)為存儲(chǔ)形式的數(shù)據(jù)集,供公眾訪(fǎng)問(wèn)獲取。這些數(shù)據(jù)集來(lái)自實(shí)踐,體量通常比較大,涵蓋的范圍也比較廣?;谶@些共同的數(shù)據(jù)集,研究者們可以更方便公正地比較各自所提出的數(shù)據(jù)分析策略、方法的優(yōu)劣,因此學(xué)術(shù)數(shù)據(jù)庫(kù)集被眾多研究者青睞。

2.間接獲?。ǎ常┙y(tǒng)計(jì)部門(mén)機(jī)構(gòu)統(tǒng)計(jì)部門(mén)和各級(jí)政府部門(mén)定期公布的有關(guān)資料中提供了宏觀(guān)統(tǒng)計(jì)數(shù)據(jù)。對(duì)于使用者了解所感興趣的領(lǐng)域的整體情況是有很大幫助的,但通常并不能用于解決具體的決策問(wèn)題。

(4)第三方機(jī)構(gòu)具有數(shù)據(jù)資源優(yōu)勢(shì)的數(shù)據(jù)源提供商、咨詢(xún)機(jī)構(gòu)以及一些自身有數(shù)據(jù)積累的互聯(lián)網(wǎng)企業(yè)都已經(jīng)成為大數(shù)據(jù)產(chǎn)業(yè)中能夠提供海量數(shù)據(jù)的中流砥柱。在第三方機(jī)構(gòu)獲取的數(shù)據(jù)比較完整,有豐富的描述,通常需要付費(fèi)才能獲取。(5)國(guó)內(nèi)外各類(lèi)數(shù)據(jù)挖掘競(jìng)賽國(guó)內(nèi)外了各類(lèi)數(shù)據(jù)挖掘競(jìng)賽中都提供了大量真實(shí)的數(shù)據(jù)集,這些數(shù)據(jù)通常有實(shí)際的應(yīng)用背景和明確的使用目的。第二節(jié)數(shù)據(jù)描述也稱(chēng)為描述性數(shù)據(jù)分析,通常指對(duì)數(shù)據(jù)的整體分布情況、數(shù)據(jù)各特征之間的關(guān)系進(jìn)行估計(jì)和描述,從而有利于了解數(shù)據(jù)的整體情況,發(fā)現(xiàn)顯著特點(diǎn),為進(jìn)一步的數(shù)據(jù)分析提供重要的思路。數(shù)據(jù)描述通常可以從三個(gè)方面進(jìn)行:集中趨勢(shì)分析、離散程度分析和分布形狀分析

1.集中趨勢(shì)分析集中趨勢(shì)是指一組數(shù)據(jù)向某一中心值靠攏的程度,是對(duì)數(shù)據(jù)一般水平的概括性度量,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。(1)均值是最常用的也是最有效的度量集中趨勢(shì)的指標(biāo)。將一組數(shù)據(jù)的總和除以數(shù)據(jù)數(shù)量,便能得到均值。在有些情況下,每個(gè)數(shù)據(jù)的重要程度或者意義可能不是相同的,這時(shí)候需要對(duì)不同的數(shù)據(jù)賦予不同的權(quán)重。這樣根據(jù)權(quán)重計(jì)算得到的平均數(shù)叫作加權(quán)平均數(shù)或加權(quán)算術(shù)均值。均值能夠充分利用所有數(shù)據(jù)的信息,但也正是因?yàn)檫@種特性,均值非常容易受到極端值的影響。

1.集中趨勢(shì)分析(2)中位數(shù)一組數(shù)據(jù)排序之后處于中間位置的值,它把數(shù)據(jù)較大的一半和較小的一半分開(kāi)。是一個(gè)由位置決定的值,因此即便數(shù)據(jù)中存在極端值,中間位置上的數(shù)值也不會(huì)受到影響。對(duì)于存在極值或非對(duì)稱(chēng)數(shù)據(jù)的情況來(lái)說(shuō),中位數(shù)是一個(gè)比均值更好的度量。(3)分位數(shù)分位數(shù)是將總體的全部數(shù)據(jù)遞增排列后,處于各等分位置的數(shù)據(jù)點(diǎn)。分位數(shù)將數(shù)據(jù)劃分為基本上規(guī)模相等的區(qū)域。如果分為四部分,則得到的數(shù)據(jù)點(diǎn)就是四分位數(shù)。在各類(lèi)分位數(shù)中,常用的是四分位數(shù)。相比于中位數(shù)只有一個(gè),四分位數(shù)有兩個(gè),能夠更充分地反映數(shù)據(jù)的集中程度。1.集中趨勢(shì)分析(4)眾數(shù)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,不會(huì)受到數(shù)據(jù)中極端值的影響。一組數(shù)據(jù)可能各不相同,既可能不存在眾數(shù),也可能存在多個(gè)眾數(shù)。一般來(lái)說(shuō),數(shù)據(jù)量較大的時(shí)候眾數(shù)才有意義,將眾數(shù)作為數(shù)據(jù)整體特征才

有代表性。對(duì)比前面的集中指標(biāo),眾數(shù)不涉及數(shù)值計(jì)算,因此,對(duì)于類(lèi)別數(shù)據(jù),眾數(shù)是常用的集中程度測(cè)度。

2.離散程度分析離散程度指的是一組數(shù)據(jù)遠(yuǎn)離其中心值的程度。數(shù)據(jù)的離散程度分析主要是用來(lái)反映一組數(shù)據(jù)的差異程度。(1)異眾比率(Variationratio)指的是非眾數(shù)數(shù)據(jù)的數(shù)量占數(shù)據(jù)總數(shù)的比例。異眾比率越小,表示眾數(shù)所占的比例越大,眾數(shù)對(duì)于數(shù)據(jù)的代表程度越好。(2)極差(Range)也稱(chēng)全距,指的是數(shù)據(jù)最大值與最小值之差。因?yàn)闃O差選取最值來(lái)進(jìn)行計(jì)算,所以必然會(huì)受到極端值的影響。此外,極差的計(jì)算只考慮了最大最小值,遺漏了中間部分的更多信息,換句話(huà)說(shuō),只用兩個(gè)數(shù)據(jù)表示一組數(shù)據(jù)集合的特點(diǎn),一般情況下不能準(zhǔn)確地描述。

2.離散程度分析(3)四分位差(Quartiledeviation)指的是一組數(shù)據(jù)的上四位數(shù)和下四分位數(shù)之差,反映了數(shù)據(jù)分布的中心、散布情況的特征,它表示的是中間50%的數(shù)據(jù)的離散程度,因此也不會(huì)受到極端值的影響。四分位數(shù)越小,表示中間的一半數(shù)據(jù)越集中。

(4)平均差(Meandeviation)指的是一組數(shù)據(jù)中各個(gè)值與其平均數(shù)的差的絕對(duì)值的平均數(shù)。平均差越大,表明樣本值與均值差異越大,數(shù)據(jù)的離散程度越大。平均差充分運(yùn)用了數(shù)據(jù)中的每個(gè)樣本值,因此是一個(gè)能較全面反映數(shù)據(jù)離散程度的指標(biāo)。2.離散程度分析(5)方差或標(biāo)準(zhǔn)差(Variance)指的是數(shù)據(jù)中各個(gè)值與其平均數(shù)離差的平方的平均數(shù)。能夠反映出數(shù)據(jù)偏離均值的程度,是衡量數(shù)據(jù)離散程度最常用的指標(biāo)。方差或標(biāo)準(zhǔn)差越小,表示數(shù)據(jù)越集中,數(shù)據(jù)的離散程度越小。

(6)變異系數(shù)(Coefficientofvariation)也叫作離散系數(shù),它是標(biāo)準(zhǔn)差與均值之比。變異系數(shù)可以用來(lái)比較不同數(shù)據(jù)集之間的離散程度。變異系數(shù)越小,表明數(shù)據(jù)的離散程度越小。3.分布形狀分析離散程度和集中程度的度量方式選擇是否恰當(dāng),與數(shù)據(jù)分布關(guān)系密切。在分析之前首先觀(guān)察數(shù)據(jù)的分布形狀,對(duì)于選擇合適的指標(biāo)對(duì)數(shù)據(jù)的整體情況進(jìn)行描述,避免產(chǎn)生錯(cuò)誤的分析結(jié)果很有必要。(1)偏態(tài)(Skewness)是對(duì)數(shù)據(jù)分布對(duì)稱(chēng)性的一種度量,通過(guò)計(jì)算數(shù)據(jù)相對(duì)于中心點(diǎn)的傾斜方向以及程度,衡量數(shù)據(jù)分布的對(duì)稱(chēng)性,如果一組數(shù)據(jù)是對(duì)稱(chēng)的,則偏態(tài)系數(shù)為0。偏態(tài)系數(shù)的正負(fù)表明了數(shù)據(jù)分布是否對(duì)稱(chēng),以及傾斜的方向,而絕對(duì)值的大小表明了傾斜的程度。3.分布形狀分析離散程度和集中程度的度量方式選擇是否恰當(dāng),與數(shù)據(jù)分布關(guān)系密切。在分析之前首先觀(guān)察數(shù)據(jù)的分布形狀,對(duì)于選擇合適的指標(biāo)對(duì)數(shù)據(jù)的整體情況進(jìn)行描述,避免產(chǎn)生錯(cuò)誤的分析結(jié)果很有必要。(2)峰度(Kurtosis)是對(duì)數(shù)據(jù)分布峰部尖度的一種度量,峰度是和標(biāo)準(zhǔn)正態(tài)分布相比較而言的。如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰度系數(shù)為0;當(dāng)峰度系數(shù)大于0時(shí),表明數(shù)據(jù)的分布是尖峰分布,數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為集中;當(dāng)峰度系數(shù)小于0時(shí),表明數(shù)據(jù)的分布是扁平分布,數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為分散。

數(shù)據(jù)預(yù)處理

第一節(jié)數(shù)據(jù)預(yù)處理各行各業(yè)每天的數(shù)據(jù)規(guī)模不斷增加,數(shù)據(jù)質(zhì)量成為重要問(wèn)題。這些數(shù)據(jù)被獲取之后,往往不能直接拿來(lái)進(jìn)行分析,需要對(duì)數(shù)據(jù)的缺失、異常等情況進(jìn)行判斷處理,并結(jié)合具體分析的需要對(duì)數(shù)據(jù)進(jìn)行變換。

1.數(shù)據(jù)預(yù)處理的目的我們實(shí)際搜集到的原始數(shù)據(jù)經(jīng)常是不完全的、有異常的、冗余的、模糊的,甚至矛盾的。導(dǎo)致這種結(jié)果的原因也有很多種:收集數(shù)據(jù)的設(shè)備可能出現(xiàn)故障;當(dāng)用戶(hù)不希望提交個(gè)人信息時(shí),可能故意輸入錯(cuò)誤信息;數(shù)據(jù)輸入、傳輸時(shí)出現(xiàn)錯(cuò)誤;不同數(shù)據(jù)源命名約定或者所用數(shù)據(jù)代碼不一致等等。在海量的實(shí)際數(shù)據(jù)中無(wú)意義的成分也很多,非常不利于后續(xù)的模型以及算法的訓(xùn)練。預(yù)處理的目的是為后續(xù)的模型提供滿(mǎn)足要求、更加具有針對(duì)性的數(shù)據(jù),從而提高數(shù)據(jù)分析效率和準(zhǔn)確率。

2.?dāng)?shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清洗對(duì)數(shù)據(jù)中的缺失值、異常值、不一致等情況進(jìn)行分析和處理數(shù)據(jù)集成為了滿(mǎn)足數(shù)據(jù)分析需要,合并來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),并保證數(shù)據(jù)的一致性。數(shù)據(jù)變換用各種方式變換數(shù)據(jù)原本的數(shù)值,使得數(shù)據(jù)集在不失真的情況下,更能滿(mǎn)足下一步處理的需要,主要包括規(guī)范化、函數(shù)變化、數(shù)據(jù)類(lèi)型變化等。數(shù)據(jù)規(guī)約產(chǎn)生更小但是能夠代表原有數(shù)據(jù)集合特點(diǎn)的新數(shù)據(jù)集。主要有屬性規(guī)約、數(shù)值規(guī)約等方法。3.數(shù)據(jù)清洗(1)缺失值分析缺失值是指在原始數(shù)據(jù)中由于缺少信息而造成的數(shù)據(jù)的某個(gè)或者某些屬性的值是不完全的,或者是不正確的。缺失值存在的原因常見(jiàn)的有:信息暫時(shí)無(wú)法獲取或信息獲取的成本較高;信息在儲(chǔ)存或傳輸過(guò)程中丟失;屬性值不存在等。(2)缺失值處理方法:刪除方法簡(jiǎn)單易行、非常有效、迅速,但是它以減少數(shù)據(jù)量為代價(jià)來(lái)?yè)Q取信息的完備,這樣做可能會(huì)將有用的信息一并刪除。

3.數(shù)據(jù)清洗(3)缺失值處理方法:數(shù)據(jù)填充當(dāng)我們獲取的數(shù)據(jù)集較小時(shí),更不能直接刪除數(shù)據(jù),這時(shí)就需要對(duì)缺失值進(jìn)行插補(bǔ)。①指定值填充將空值作為一種特殊的屬性值進(jìn)行處理,有可能在后期的數(shù)據(jù)分析過(guò)程中,算法誤以為它們有實(shí)際的意義,而導(dǎo)致模型的錯(cuò)誤。②使用屬性的集中度量填充根據(jù)數(shù)據(jù)的集中分布來(lái)填補(bǔ)缺失值,方法缺乏理論依據(jù)③插值法填充插值法類(lèi)似于函數(shù)擬合,利用在某段區(qū)間中已知的若干點(diǎn)的函數(shù)值,擬合出適當(dāng)?shù)暮瘮?shù),那么在區(qū)間上所有點(diǎn)的值都可以用這個(gè)函數(shù)來(lái)近似,這樣對(duì)于缺失記錄,就可以用函數(shù)計(jì)算出的結(jié)果對(duì)缺失值進(jìn)行填補(bǔ)。常見(jiàn)的差值法有拉格朗日差值法和牛頓差值法。3.數(shù)據(jù)清洗(3)缺失值處理方法:數(shù)據(jù)填充④K最近鄰數(shù)據(jù)填充基本原理是根據(jù)與此實(shí)例相近的幾個(gè)實(shí)例的均值進(jìn)行填充。此方法用相似實(shí)例取值的均值進(jìn)行插補(bǔ),更加合理。但是該方法引入了數(shù)據(jù)間的自相關(guān),這可能會(huì)給后期的模型分析造成一定的偏差。⑤模型預(yù)測(cè)填充通過(guò)建模的方式,用已有值來(lái)建立變量間的模型關(guān)系,從而擬合出缺失值。在這個(gè)情景下,數(shù)據(jù)完整的記錄組成模型的訓(xùn)練集,而對(duì)缺失值的預(yù)測(cè)實(shí)際上是模型的應(yīng)用。缺失值處理的方法有很多,各有優(yōu)劣,無(wú)論是以哪種方式填充,都無(wú)法避免對(duì)原數(shù)據(jù)的影響,使得數(shù)據(jù)有偏。3.數(shù)據(jù)清洗(4)異常值分析異常值,也叫作離群點(diǎn)、噪聲點(diǎn),指的是在數(shù)值、結(jié)構(gòu)、特征等方面與大多數(shù)數(shù)據(jù)的表現(xiàn)顯著不同的數(shù)據(jù)樣本。產(chǎn)生異常值的常見(jiàn)原因:信息錄入時(shí)出現(xiàn)人為錯(cuò)誤或系統(tǒng)誤差,有時(shí)候環(huán)境等因素也會(huì)帶來(lái)數(shù)據(jù)的極端變化。分析異常值的常用方法:箱線(xiàn)圖箱線(xiàn)圖也稱(chēng)盒形圖,在箱線(xiàn)圖中標(biāo)示了代表數(shù)據(jù)分布的下四分位數(shù)、中位數(shù)和上四分位數(shù)。它相對(duì)穩(wěn)定,包含了數(shù)據(jù)集中50%的數(shù)值,不會(huì)受到異常值的影響。根據(jù)偏離程度的不同,箱線(xiàn)圖分析中將異常值分為兩類(lèi):偏離程度較小的定義為離群值,偏離程度較大的定義為極端值。3.數(shù)據(jù)清洗(4)異常值分析箱線(xiàn)圖

比上四分位數(shù)高出某范圍或比下四分位數(shù)低某范圍的值被判定為極端值。偏離上、下四分位數(shù)的程度不及極端值,但仍然有一定偏離程度的值被判定為離群值。3.數(shù)據(jù)清洗(5)異常值處理需要分析異常值是不是人為錯(cuò)誤產(chǎn)生的。如果是由于環(huán)境變化產(chǎn)生的,這些異常值中通常就含有有用的信息,可以進(jìn)行單獨(dú)建模等處理。對(duì)于人為錯(cuò)誤產(chǎn)生的異常值,可以采用如下方法處理:①直接刪除將含有異常值的記錄直接刪除。該方法操作簡(jiǎn)單,同直接刪除有缺失值的記錄一樣,一般適用于數(shù)據(jù)集合較大,異常值占比較小的情形。②用其他值替代異常值可以利用填補(bǔ)的方法,將異常值利用數(shù)據(jù)的平均值、中位數(shù)等進(jìn)行替換和修正,也可以通過(guò)前面介紹的缺失值插補(bǔ)的其他方法對(duì)異常值進(jìn)行修正。

4.數(shù)據(jù)集成數(shù)據(jù)來(lái)自不同渠道并且用不同方式獲取時(shí),有可能會(huì)導(dǎo)致對(duì)同一個(gè)對(duì)象的不同描述。數(shù)據(jù)集成不僅將數(shù)據(jù)進(jìn)行簡(jiǎn)單合并,而且需要同時(shí)處理數(shù)據(jù)集的冗余和不一致,這對(duì)于后續(xù)的分析過(guò)程的準(zhǔn)確性和速度有很大影響。(1)實(shí)體識(shí)別每個(gè)數(shù)據(jù)來(lái)源通常有各自的數(shù)據(jù)定義和組織方法,因此,數(shù)據(jù)集成中經(jīng)常會(huì)遇到實(shí)體識(shí)別的問(wèn)題,即同一個(gè)對(duì)象實(shí)體在不同的數(shù)據(jù)集中有不同的名稱(chēng)(異名同義)或者同樣的名稱(chēng)不對(duì)應(yīng)同一個(gè)實(shí)體(同名異義)等。在進(jìn)行數(shù)據(jù)實(shí)體識(shí)別時(shí),不能被不規(guī)范的命名誤導(dǎo),需要進(jìn)行業(yè)務(wù)調(diào)研,準(zhǔn)確地確認(rèn)個(gè)表中每個(gè)屬性的實(shí)際含義,對(duì)數(shù)據(jù)表、屬性字段等進(jìn)行統(tǒng)一的規(guī)范命名,完成對(duì)數(shù)據(jù)的集成。4.數(shù)據(jù)集成(2)冗余和相關(guān)分析冗余如果一個(gè)特征屬性可以由其他屬性導(dǎo)出或者計(jì)算得到,則這個(gè)特征屬性可以被認(rèn)定為冗余。屬性冗余的判定依據(jù)是屬性之間是否存在較強(qiáng)的相關(guān)性。通過(guò)檢測(cè)屬性之間的相關(guān)性,即進(jìn)行相關(guān)分析就可以甄別出冗余屬性。相關(guān)分析具體方法主要分為兩種:1)對(duì)于標(biāo)稱(chēng)型數(shù)據(jù),通常采用的方法為卡方檢驗(yàn);2)對(duì)于數(shù)值型數(shù)據(jù),可以通過(guò)相關(guān)系數(shù)或者協(xié)方差來(lái)衡量屬性之間的相關(guān)性。數(shù)據(jù)冗余有時(shí)會(huì)提高數(shù)據(jù)分析的效率。4.數(shù)據(jù)集成(3)實(shí)例重復(fù)實(shí)例重復(fù):給定的唯一的數(shù)據(jù)實(shí)體存在兩個(gè)或者多個(gè)相同的記錄實(shí)例。重復(fù)數(shù)據(jù)會(huì)嚴(yán)重影響后續(xù)數(shù)據(jù)分析的效果。對(duì)于數(shù)據(jù)中實(shí)例重復(fù)的問(wèn)題,需要調(diào)查確定每個(gè)數(shù)據(jù)集的主鍵,對(duì)于沒(méi)有主鍵的數(shù)據(jù)表,需要確定合適的主鍵,或者對(duì)數(shù)據(jù)表進(jìn)行拆分或整合,從而有效地解決實(shí)例重復(fù)的問(wèn)題。(4)數(shù)據(jù)沖突對(duì)于同一實(shí)體,來(lái)自不同數(shù)據(jù)源的相同的屬性值不同。原因:這可能是因?yàn)楂@取信息的時(shí)間點(diǎn)不同,屬性值發(fā)生了變化;可能是因?yàn)樵诓煌臄?shù)據(jù)源中其表示、單位或者編碼不同;相同的屬性可能抽象在不同的層次。解決方法:需要明確造成數(shù)據(jù)沖突的原因,如果是單位、計(jì)量方法等不同,可以通過(guò)數(shù)據(jù)變換對(duì)數(shù)據(jù)進(jìn)行變換整理;如果數(shù)據(jù)沖突實(shí)在無(wú)法避免或者變換,就需要根據(jù)實(shí)際的業(yè)務(wù)需求考慮沖突數(shù)據(jù),辨別出正確的數(shù)值。5.?dāng)?shù)據(jù)變換為了解決數(shù)據(jù)集成中的不一致問(wèn)題,以及更容易被后續(xù)模型處理,提高模型的擬合度,需要將原有數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问?。(1)函?shù)變換函數(shù)變換是指對(duì)樣本中的原始數(shù)據(jù)直接使用某些數(shù)學(xué)函數(shù)進(jìn)行變換,使得處理后的數(shù)據(jù)更適合模型后續(xù)的處理。選擇數(shù)據(jù)變換函數(shù)需要考量:變換后的數(shù)據(jù)要分布在合理的區(qū)間,或者說(shuō)變換后的數(shù)據(jù)符合對(duì)現(xiàn)實(shí)生活中分布的認(rèn)知。變換后的數(shù)據(jù)的分布特征、正負(fù)性和平穩(wěn)性等都可能會(huì)發(fā)生改變,所以在進(jìn)行函數(shù)變換前,應(yīng)該預(yù)判變換后是否會(huì)影響后續(xù)數(shù)據(jù)模型的建立和分析的有效性。5.?dāng)?shù)據(jù)變換(2)規(guī)范化數(shù)據(jù)規(guī)范化是指將原始數(shù)據(jù)按照一定的比例縮放,使其落入一個(gè)較小的特定區(qū)間。一般來(lái)說(shuō),通過(guò)數(shù)據(jù)的縮放能夠消除數(shù)據(jù)的量綱,消除度量單位引起的數(shù)值差異,即將屬性數(shù)據(jù)縮放到一個(gè)特定區(qū)間。①最小—最大規(guī)范化也稱(chēng)為離散標(biāo)準(zhǔn)化,利用某屬性的最大值和最小值,將該屬性的取值映射到[0,1]之間。優(yōu)點(diǎn)是算法操作簡(jiǎn)單,且保留了原始數(shù)據(jù)存在的關(guān)系缺點(diǎn)是規(guī)范值不穩(wěn)定,容易受極值的影響,方法適用于數(shù)據(jù)比較集中的情況。

5.?dāng)?shù)據(jù)變換(2)規(guī)范化③小數(shù)定標(biāo)規(guī)范化通過(guò)移動(dòng)數(shù)據(jù)的小數(shù)位數(shù),即除以10的某次方,將數(shù)據(jù)映射到[-1,1]之間。移動(dòng)的小數(shù)位數(shù)取決于數(shù)據(jù)中最大絕對(duì)值的位數(shù)。只是移動(dòng)小數(shù)點(diǎn),不會(huì)破壞原始數(shù)據(jù)的分布結(jié)構(gòu),當(dāng)然也會(huì)受到極值的影響。

5.?dāng)?shù)據(jù)變換(3)離散化將數(shù)據(jù)從連續(xù)型數(shù)值數(shù)據(jù)轉(zhuǎn)換為離散型標(biāo)稱(chēng)數(shù)據(jù)。進(jìn)行數(shù)據(jù)離散化通常是為了滿(mǎn)足特定模型的需要,將數(shù)據(jù)類(lèi)型從連續(xù)轉(zhuǎn)換到,或者在某些情況下將已有的離散型數(shù)據(jù)進(jìn)行類(lèi)別合并,減少類(lèi)別數(shù)量。①等寬離散化將原始連續(xù)數(shù)據(jù)的區(qū)間劃分成具有相同寬度的子區(qū)間,比較簡(jiǎn)單,缺點(diǎn)在于沒(méi)有考慮實(shí)際數(shù)據(jù)的分布情況,可能會(huì)導(dǎo)致離散化之后建立的數(shù)據(jù)模型樣本不均衡。②等頻離散化根據(jù)連續(xù)型數(shù)值數(shù)據(jù)的分布劃分類(lèi)別,劃分后的各個(gè)區(qū)間包含的數(shù)據(jù)點(diǎn)的個(gè)數(shù)是相等的,為保證各個(gè)區(qū)間包含的實(shí)例個(gè)數(shù)相等,可能會(huì)將原本相同的兩個(gè)數(shù)值劃分到不同類(lèi)別中,從而影響了后續(xù)建立模型的準(zhǔn)確性。③聚類(lèi)離散化用聚類(lèi)算法,根據(jù)數(shù)據(jù)的相似性將原始數(shù)據(jù)分成多個(gè)類(lèi)別,實(shí)現(xiàn)離散化。效果較好的一類(lèi)離散方法,缺點(diǎn):需要用戶(hù)自己規(guī)定聚類(lèi)個(gè)數(shù),聚類(lèi)的效果受到經(jīng)驗(yàn)的影響。5.?dāng)?shù)據(jù)變換(4)獨(dú)熱編碼(One-hotencoding)在數(shù)據(jù)集中標(biāo)稱(chēng)數(shù)據(jù)有兩種常見(jiàn)類(lèi)型:第一,分類(lèi)的取值有大小之分,直接用數(shù)值表示類(lèi)別,不需要進(jìn)行轉(zhuǎn)換;第二,離散特征的取值之間沒(méi)有大小之分,無(wú)法直接比較類(lèi)別的差異,此時(shí)就需要對(duì)特征進(jìn)行獨(dú)熱編碼。根據(jù)類(lèi)別可能的數(shù)量設(shè)定位數(shù)N,建立N位編碼,每一個(gè)類(lèi)別對(duì)應(yīng)一個(gè)位置,因?yàn)闃颖局荒軐儆谝粋€(gè)類(lèi)別,所以N位獨(dú)熱編碼中只有一位有效。離散特征進(jìn)行獨(dú)熱編碼之后,可以計(jì)算特征之間的距離或相似度。如果某個(gè)類(lèi)別有多個(gè)可能的取值,則編碼的位數(shù)會(huì)相應(yīng)地增加,有時(shí)會(huì)影響處理效率。6.?dāng)?shù)據(jù)規(guī)約數(shù)據(jù)集可能規(guī)模較大,大幅度降低數(shù)據(jù)分析效率。數(shù)據(jù)規(guī)約就是能夠降低屬性維度、減少樣本數(shù)量的方法。核心是要產(chǎn)生規(guī)模更小但能最大可能保持原始數(shù)據(jù)特點(diǎn)和完整性的新數(shù)據(jù)集。(1)屬性規(guī)約屬性規(guī)約通過(guò)減少屬性數(shù)量,達(dá)到減少數(shù)據(jù)集的目的。主成分分析(PrincipalComponentAnalysis,PCA)是屬性規(guī)約的主要方法?;舅枷胧轻槍?duì)原始數(shù)據(jù)集,重新構(gòu)造一組有代表性的、互不相關(guān)的新特征。不相關(guān)意味著這些新特征包含的信息彼此不重復(fù),而有代表性則說(shuō)明,這些特征還能夠盡量多地涵蓋原始數(shù)據(jù)的信息。對(duì)于新特征互不相關(guān)的要求,可以利用正交基向量互不相關(guān)的性質(zhì),通過(guò)構(gòu)造多維度正交基向量來(lái)保證;而對(duì)于包含盡量多的信息的要求,則通過(guò)樣本在新特征上取值的方差來(lái)衡量,方差越大,說(shuō)明數(shù)據(jù)在此新特征上越分散,包含的信息也越多。6.?dāng)?shù)據(jù)規(guī)約(2)數(shù)值規(guī)約用部分或者較小規(guī)模的數(shù)據(jù)來(lái)替換原始數(shù)據(jù)。①直方圖通過(guò)劃分子區(qū)間的方式減少原數(shù)據(jù)的屬性取值。子區(qū)間的劃分可以是等寬的,也可以是等頻的。②聚類(lèi)利用聚類(lèi)進(jìn)行數(shù)值規(guī)約,將數(shù)據(jù)分簇,使得同簇的對(duì)象相似,不同簇的對(duì)象相異,用每個(gè)數(shù)據(jù)簇中的代表值來(lái)替換原始數(shù)據(jù)。6.?dāng)?shù)據(jù)規(guī)約(2)數(shù)值規(guī)約③抽樣基本思想是從原始數(shù)據(jù)集合中隨機(jī)抽取小得多的子集,用其代表原始數(shù)據(jù)集。抽樣的方法主要包括簡(jiǎn)單隨機(jī)抽樣、分層抽樣。簡(jiǎn)單隨機(jī)抽樣每條數(shù)據(jù)記錄以相同的概率被抽中。具體分為無(wú)放回和有放回兩種。兩者的區(qū)別在于當(dāng)一個(gè)數(shù)據(jù)記錄從原始數(shù)據(jù)集中被抽取之后,無(wú)放回抽樣將在剩余數(shù)據(jù)集中繼續(xù)抽取新數(shù)據(jù);而有放回抽樣會(huì)將被抽取的數(shù)據(jù)放回原始數(shù)據(jù)集,下一次再次以同樣的概率被抽取。該方法主要適用于總體個(gè)數(shù)較小且樣本類(lèi)別分布均衡的情況。分層抽樣先根據(jù)類(lèi)別將原始數(shù)據(jù)集劃分為不同的層(或組),層之間是互不相交的,然后對(duì)每一層各自進(jìn)行抽樣,最后將各層抽樣的結(jié)果進(jìn)行整合,得到對(duì)于原始數(shù)據(jù)集的抽樣。第二節(jié)特征工程特征指的是對(duì)數(shù)據(jù)各方面的描述,是進(jìn)行分析和解決問(wèn)題的基礎(chǔ)。好的數(shù)據(jù)和特征是所有模型和算法發(fā)揮到極致的前提。因此,需要圍繞分析的問(wèn)題,在原始數(shù)據(jù)特征中找到既能盡量多地代表全部特征又能使算法模型達(dá)到最佳性能的特征子集。特征工程包括三個(gè)方面:特征構(gòu)建、特征提取和特征選擇。特征構(gòu)建是指圍繞需要解決的問(wèn)題,用人工方法從原始數(shù)據(jù)中找出一些有代表性的、

能夠刻畫(huà)研究對(duì)象關(guān)鍵屬性的特征的過(guò)程。特征提取通過(guò)特征轉(zhuǎn)換,依據(jù)屬性取值之間的相關(guān)關(guān)系,去除不重要以及冗余的特征,減少特征數(shù)量的過(guò)程。第二節(jié)特征工程數(shù)據(jù)樣本的屬性特征分類(lèi)可以分為三種類(lèi)型:對(duì)當(dāng)前的學(xué)習(xí)任務(wù)有用的屬性稱(chēng)為“相關(guān)特征”,可以提升模型的效果;對(duì)當(dāng)前的學(xué)習(xí)任務(wù)沒(méi)用的稱(chēng)為“無(wú)用特征”;“冗余特征”是指其特征包含的信息能夠從其他特征中計(jì)算或者推演出來(lái)。特征選擇科學(xué)剔除不相關(guān)或者冗余特征的過(guò)程

1.特征選擇的目的“維數(shù)災(zāi)難”就是當(dāng)數(shù)據(jù)的特征維度超過(guò)某個(gè)值之后,隨著特征數(shù)量的進(jìn)一步增加,模型訓(xùn)練的效率會(huì)降低,同時(shí)訓(xùn)練出的模型準(zhǔn)確度反而會(huì)下降。為了降低模型的復(fù)雜性、降低模型訓(xùn)練的時(shí)間,同時(shí)提高模型的效果、準(zhǔn)確率,我們需要進(jìn)行特征選擇。

2.特征選擇的過(guò)程特征選擇的目標(biāo)就是從備選的特征子集中選擇出對(duì)算法模型表現(xiàn)最好的子集。特征選擇的過(guò)程一般為特征子集搜索、構(gòu)建候選子集、利用評(píng)價(jià)函數(shù)對(duì)子集進(jìn)行評(píng)價(jià),然后利用停止規(guī)則,驗(yàn)證所得到的特征子集是否滿(mǎn)足要求。

3.子集搜索(1)完全搜索基本思路是遍歷原始特征所組成的所有可能的特征子集從中尋找最優(yōu)。需要對(duì)所有可能的特征子集利用評(píng)價(jià)函數(shù)進(jìn)行計(jì)算比較,評(píng)價(jià)函數(shù)表現(xiàn)最好的特征子集為最終的搜索結(jié)果。避免了局部最優(yōu)解,但是遍歷會(huì)帶來(lái)很大的計(jì)算開(kāi)銷(xiāo),其復(fù)雜度是指數(shù)級(jí)別的。

3.子集搜索(2)啟發(fā)式搜索從某一個(gè)候選特征子集出發(fā),向其中不斷添加或者減少特征,不斷構(gòu)建出新的特征子集,并在改變的過(guò)程中對(duì)候選子集進(jìn)行評(píng)價(jià)。序列前向選擇(SequentialForwardSelection,SFS),是不斷將新的特征添加到候選子集的方法。該方法的搜索從空集開(kāi)始,每次選擇一個(gè)特征加入當(dāng)前子集,加入的判斷標(biāo)準(zhǔn)是評(píng)價(jià)函數(shù)得到了優(yōu)化,這個(gè)過(guò)程持續(xù)進(jìn)行,直到評(píng)價(jià)函數(shù)的值不能變得更優(yōu)時(shí)停止。序列后向選擇(SequentialBackwardSelection,SBS),該方法以特征全集為初始的特征子集,每次從特征子集中剔除一個(gè)特征,剔除的標(biāo)準(zhǔn)是剔除某特征后,評(píng)價(jià)函數(shù)值會(huì)變優(yōu)。雙向搜索(BiDirectionalSearch,BDS),將前面介紹的兩種方法結(jié)合起來(lái)進(jìn)行搜索,當(dāng)兩者達(dá)到相同的特征子集時(shí)停止搜索。

3.子集搜索(3)隨機(jī)搜索基本思想:在啟發(fā)式算法中進(jìn)行更改,使之能夠在一定程度上跳出局部最優(yōu)值隨機(jī)產(chǎn)生序列選擇算法隨機(jī)產(chǎn)生一個(gè)特征子集,再在該特征子集上執(zhí)行前向搜索算法和后向搜索算法。多次進(jìn)行此過(guò)程后,找到表現(xiàn)最優(yōu)的子集作為特征搜索的結(jié)果。模擬退火算法核心思想是有一定隨機(jī)概率拒絕表現(xiàn)更優(yōu)的子集,防止陷入局部最優(yōu)。4.子集評(píng)價(jià)依據(jù)評(píng)價(jià)函數(shù)對(duì)候選特征子集的優(yōu)劣進(jìn)行評(píng)價(jià)的過(guò)程。一個(gè)特征子集的優(yōu)劣往往是對(duì)于特定的評(píng)價(jià)函數(shù)來(lái)說(shuō)的,對(duì)于不同問(wèn)題背景下的評(píng)價(jià)函數(shù),同一特征子集的優(yōu)劣可能表現(xiàn)得不同。

5.特征選擇的方法根據(jù)評(píng)價(jià)和搜索與后續(xù)模型算法的聯(lián)系的緊密程度,特征選擇方法可以分為三類(lèi)。5.特征選擇的方法(1)過(guò)濾式基本思想:首先選擇出在特征評(píng)價(jià)指標(biāo)下表現(xiàn)較好的特征子集,然后利用最終得到的最優(yōu)特征子集去訓(xùn)練模型。過(guò)濾式特征選擇的最大特點(diǎn)在于選擇特征子集的過(guò)程與模型的表現(xiàn)效果無(wú)關(guān),兩者是獨(dú)立進(jìn)行的。過(guò)濾式特征選擇對(duì)特征的評(píng)價(jià)與后續(xù)的模型算法無(wú)關(guān),是基于數(shù)據(jù)特征本身的性質(zhì)進(jìn)行評(píng)價(jià)的。優(yōu)點(diǎn):通用性較強(qiáng),選擇的特征子集可以應(yīng)用于多個(gè)問(wèn)題背景;算法在特征

選擇時(shí)不需要進(jìn)行模型訓(xùn)練優(yōu)化,復(fù)雜性較低;適用于大規(guī)模且需要高效率選擇特征的數(shù)據(jù)集。缺點(diǎn):所選擇的特征子集在模型準(zhǔn)確率上通常低于其他兩種特征選擇方法。

5.特征選擇的方法

5.特征選擇的方法(1)過(guò)濾式②依賴(lài)性度量又稱(chēng)為相關(guān)性度量,基于的假設(shè)為:特征子集所包含的特征應(yīng)該與目標(biāo)屬性的相關(guān)度較高,而子集中特征之間的相關(guān)度較低。皮爾遜相關(guān)系數(shù)被廣泛應(yīng)用于對(duì)兩個(gè)連續(xù)型數(shù)據(jù)屬性取值之間的相關(guān)程度的度量。用協(xié)方差除以?xún)蓚€(gè)變量的標(biāo)準(zhǔn)差得到,計(jì)算結(jié)果介于-1到1之間,度量的是兩個(gè)屬性之間是否存在線(xiàn)性關(guān)系??ǚ綑z驗(yàn)衡量?jī)蓚€(gè)離散屬性之間的相關(guān)程度。根本思想是:首先假設(shè)某特征屬性和目標(biāo)屬性是獨(dú)立的,也就是說(shuō),特征屬性與目標(biāo)結(jié)果沒(méi)有相關(guān)性,那么在此特征的取值范圍上,目標(biāo)屬性的分布理論上應(yīng)該是均勻的,通過(guò)比較理論值與實(shí)際值的吻合程度來(lái)確定原假設(shè)是否成立。5.特征選擇的方法(1)過(guò)濾式③信息增益度量信息增益的概念來(lái)自信息熵,通過(guò)衡量按照某屬性取值劃分后數(shù)據(jù)集的“純度”評(píng)價(jià)屬性的重要性。④一致性度量基于以下假設(shè):如果某特征對(duì)于研究目標(biāo)屬性是重要的,那么對(duì)于任意兩個(gè)樣本來(lái)說(shuō),當(dāng)它們?cè)谔卣魃系娜≈迪嗤瑫r(shí),其在目標(biāo)屬性中的取值也應(yīng)該相同。一致性常用不一致率來(lái)衡量,不一致率越小,表示根據(jù)這一評(píng)價(jià)標(biāo)準(zhǔn),特征子集的表現(xiàn)越好。

5.特征選擇的方法(2)包裹式直接將后續(xù)要使用的模型性能的好壞作為特征選擇的評(píng)價(jià)標(biāo)準(zhǔn),選擇使得后續(xù)模型表現(xiàn)最好的特征子集作為最優(yōu)子集。包裹式特征選擇的結(jié)果不是普遍適用的,是直接針對(duì)給定的模型來(lái)進(jìn)行特征選擇的。優(yōu)點(diǎn):顯然從最終模型的性能、準(zhǔn)確率等表現(xiàn)來(lái)看,包裹式特征選擇要優(yōu)于過(guò)濾式特征選擇。缺點(diǎn):需要選擇不斷地訓(xùn)練模型,以得到表現(xiàn)最好的特征子集,所以相對(duì)于過(guò)濾式特征選擇來(lái)說(shuō),其花費(fèi)的時(shí)間和成本都較大,不適用于較大規(guī)模或者無(wú)關(guān)特征較多的數(shù)據(jù)集。典型的包裹式特征選擇方法包括LVW(LasVegasWrapper)算法和遞歸特征消除法RFE(recursivefeatureelimination)。5.特征選擇的方法(3)嵌入式?jīng)]有專(zhuān)門(mén)的準(zhǔn)則對(duì)特征進(jìn)行評(píng)價(jià),而是將特征選擇的過(guò)程與模型的訓(xùn)練過(guò)程完全融合在一起,在模型構(gòu)建訓(xùn)練的過(guò)程中自動(dòng)實(shí)現(xiàn)了特征選擇。常見(jiàn)的一種嵌入式特征選擇方式是進(jìn)行正則化,把額外的懲罰項(xiàng)加到原有模型的損失函數(shù)上,通過(guò)最小化正則項(xiàng),使那些不重要的特征所對(duì)應(yīng)的系數(shù)變成0,進(jìn)而實(shí)現(xiàn)特征選擇。有些數(shù)據(jù)挖掘的算法在完成模型訓(xùn)練的同時(shí),自身就可以實(shí)現(xiàn)特征選擇,判斷哪些屬性對(duì)目標(biāo)屬性更重要。在自身的訓(xùn)練過(guò)程中完成了特征選擇,也是一種嵌入式特征選擇方法。計(jì)量模型

第一節(jié)時(shí)間序列分析

1.時(shí)間序列分析簡(jiǎn)介(2)時(shí)間序列分析方法主要可以分為兩類(lèi):描述性時(shí)序分析和統(tǒng)計(jì)時(shí)序分析。描述性時(shí)序分析指的是,通過(guò)繪制時(shí)序圖等方式,比較、觀(guān)察、發(fā)現(xiàn)時(shí)間序列中顯然存在的一些變化趨勢(shì),如數(shù)據(jù)逐漸增大或變小的趨勢(shì)性,或者數(shù)據(jù)變化呈現(xiàn)周期性等。1.時(shí)間序列分析簡(jiǎn)介(2)時(shí)間序列分析方法統(tǒng)計(jì)時(shí)序分析目前比較流行的方法是進(jìn)行時(shí)域分析,認(rèn)為時(shí)間序列的值之間存在有一定的相關(guān)關(guān)系,而且這種相關(guān)關(guān)系通常具備某些統(tǒng)計(jì)規(guī)律。時(shí)域分析就是利用模型刻畫(huà)時(shí)間序列的值中體現(xiàn)的關(guān)系的規(guī)律。2.時(shí)間序列建模:平穩(wěn)性檢驗(yàn)時(shí)間序列根據(jù)其所具備的統(tǒng)計(jì)特征(如平均數(shù)、方差等)隨時(shí)間變化是否發(fā)生改變,可以分為平穩(wěn)時(shí)間序列和非平穩(wěn)時(shí)間序列,針對(duì)這兩種時(shí)間序列進(jìn)行時(shí)序分析,需要采用不同的處理手段和建模方法。所以在獲得到一個(gè)時(shí)間序列之后,要做的第一件事就是判斷該序列的平穩(wěn)性,即“平穩(wěn)性檢驗(yàn)”。(1)平穩(wěn)性檢驗(yàn)定義平穩(wěn)性檢驗(yàn)的重要依據(jù)是數(shù)據(jù)的特征統(tǒng)計(jì)量,包括均值,方差,自協(xié)方差和自相關(guān)系數(shù)、偏自相關(guān)系數(shù)等。從特征統(tǒng)計(jì)量的角度來(lái)判斷,平穩(wěn)時(shí)間序列具有三個(gè)主要特征:方差有限,均值為常數(shù),且自協(xié)方差及相應(yīng)自相關(guān)的大小只與時(shí)間段的相對(duì)長(zhǎng)度而與時(shí)間發(fā)生的具體時(shí)間點(diǎn)無(wú)關(guān)的的時(shí)間序列。

2.時(shí)間序列建模:平穩(wěn)性檢驗(yàn)(1)平穩(wěn)性檢驗(yàn)方法繪制觀(guān)察自相關(guān)圖平穩(wěn)時(shí)間序列具有短期自相關(guān)性。用自相關(guān)系數(shù)來(lái)描述就是隨著延遲期數(shù)的增加,平穩(wěn)時(shí)間序列的自相關(guān)系數(shù)會(huì)很快衰減到0。在自相關(guān)系數(shù)圖上,自相關(guān)系數(shù)會(huì)隨著延遲期數(shù)的增長(zhǎng)迅速衰減到0附近,并有所波動(dòng)。單位根檢驗(yàn)方法時(shí)間序列無(wú)單位根,認(rèn)為該時(shí)間序列為平穩(wěn)時(shí)間序列。3.平穩(wěn)時(shí)間序列常用模型(1)非白噪聲序列白噪聲定義對(duì)平穩(wěn)時(shí)間序列進(jìn)行建模的一個(gè)前提是:該時(shí)間序列不是純隨機(jī)序列。純隨機(jī)序列也被稱(chēng)為白噪聲序列。因?yàn)橐粋€(gè)純隨機(jī)序列,數(shù)值之間沒(méi)有關(guān)聯(lián),對(duì)這種序列進(jìn)行預(yù)測(cè)是沒(méi)有任何意義的。白噪聲檢驗(yàn)在進(jìn)行平穩(wěn)時(shí)間序列建模前,需要對(duì)序列是否是白噪聲序列進(jìn)行檢驗(yàn)。如果一個(gè)時(shí)序值為白噪聲序列,則該序列延遲非零期的樣本自相關(guān)系數(shù)將近似服從均值為0,方差為序列長(zhǎng)度倒數(shù)的正態(tài)分布。由此建立原假設(shè)。通過(guò)計(jì)算時(shí)間序列的上述統(tǒng)計(jì)量,決定是否拒絕原假設(shè),即判斷該序列是不是白噪聲序列。3.平穩(wěn)時(shí)間序列常用模型(2)模型的定義常見(jiàn)的平穩(wěn)時(shí)間序列分析模型有三種:AR(AutoRegressive)MA(MovingAverage)ARMA(AutoRegressiveandMovingAverage)。從本質(zhì)上來(lái)看,這三個(gè)模型都是通過(guò)過(guò)去預(yù)測(cè)未來(lái),即基于對(duì)系統(tǒng)進(jìn)行觀(guān)測(cè)得到的平穩(wěn)時(shí)間序列數(shù)據(jù),用曲線(xiàn)擬合方法對(duì)系統(tǒng)進(jìn)行客觀(guān)的描述并預(yù)測(cè)未來(lái)數(shù)值。三個(gè)模型的不同在于,它們基于平穩(wěn)時(shí)間序列的不同特性,模型中采用了不同的自變量描述前期數(shù)據(jù)與當(dāng)前數(shù)據(jù)的關(guān)系。3.平穩(wěn)時(shí)間序列常用模型(2)模型的定義AR模型聚焦于數(shù)值本身,利用前期數(shù)值與后期數(shù)值的相關(guān)關(guān)系建立模型,即把本期數(shù)值用之前的若干個(gè)時(shí)序值的線(xiàn)性組合表示。MA模型聚焦于時(shí)序值的白噪聲,認(rèn)為時(shí)間序列本期數(shù)值等于之前若干個(gè)時(shí)點(diǎn)白噪聲的線(xiàn)性組合ARMA模型綜合了AR模型和MA模型的思想,把本期數(shù)值用之前的若干個(gè)時(shí)序值及若干個(gè)時(shí)點(diǎn)的白噪聲兩種成分線(xiàn)性組合而成3.平穩(wěn)時(shí)間序列常用模型(3)模型識(shí)別與定階從三個(gè)模型中選擇出適合描述特定時(shí)間序列的模型繪制自相關(guān)系數(shù)圖和偏自相關(guān)系數(shù)圖進(jìn)行觀(guān)察、定階根據(jù)AR模型,MA模型和ARMA模型的性質(zhì),決定選擇哪一種模型確定模型類(lèi)型后,參數(shù)估計(jì)可采用矩估計(jì),極大似然估計(jì)和最小二乘估計(jì)等方法。4.非平穩(wěn)時(shí)間序列基本思路是將非平穩(wěn)時(shí)間序列轉(zhuǎn)換成平穩(wěn)時(shí)間序列,建立平穩(wěn)時(shí)間序列模型,對(duì)轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行分析。(1)趨勢(shì)效應(yīng)與季節(jié)效應(yīng)非平穩(wěn)時(shí)間序列產(chǎn)生的原因長(zhǎng)期趨勢(shì),季節(jié)周期變化和隨機(jī)波動(dòng)。趨勢(shì)效應(yīng)有些時(shí)間序列具有非常顯著的隨著時(shí)間增長(zhǎng)或降低的趨勢(shì)。對(duì)于這種單調(diào)的變化趨勢(shì),可以使用趨勢(shì)擬合法來(lái)測(cè)定。趨勢(shì)擬合法描述時(shí)序值隨時(shí)間的變化趨勢(shì),所以模型將時(shí)間作為自變量,相應(yīng)的時(shí)序值作為因變量。進(jìn)而可以選擇線(xiàn)性或非線(xiàn)性回歸模型對(duì)自變量與因變量之間的關(guān)系進(jìn)行擬合。4.非平穩(wěn)時(shí)間序列(1)趨勢(shì)效應(yīng)與季節(jié)效應(yīng)季節(jié)效應(yīng)時(shí)間序列數(shù)據(jù)會(huì)呈現(xiàn)周期性波動(dòng)變化。通常通過(guò)季節(jié)指數(shù)進(jìn)行測(cè)量。季節(jié)指數(shù)反映的是每個(gè)季度時(shí)序值的平均值與總平均值之間,是否存在比較穩(wěn)定的關(guān)系,如果關(guān)系穩(wěn)定則判定存在季節(jié)效應(yīng)。具體的計(jì)算方法為:首先計(jì)算周期內(nèi)的各期平均數(shù),再計(jì)算總平均數(shù),周期內(nèi)各期平均數(shù)與總平均數(shù)之商,則為季節(jié)系數(shù)。季節(jié)系數(shù)與1相比的大(小)關(guān)系,說(shuō)明了該季度的值一般高(低)于總平均值。如果序列的季節(jié)指數(shù)都近似等于1,那就說(shuō)明該序列沒(méi)有明顯的季節(jié)效應(yīng)。4.非平穩(wěn)時(shí)間序列(2)非平穩(wěn)時(shí)間序列建模ARIMA模型(AutoregressiveIntegratedMovingAverageModel)即全稱(chēng)為差分自回歸移動(dòng)平均模型。原理即為將非平穩(wěn)時(shí)間序列做差分轉(zhuǎn)換為平穩(wěn)時(shí)間序列,然后將因變量?jī)H對(duì)它滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。對(duì)于趨勢(shì)性,可以使用一階差分,即使用時(shí)間序列的后一項(xiàng)減去前一項(xiàng),若一階差分后時(shí)間序列仍呈現(xiàn)有趨勢(shì)性,可再進(jìn)行一次一階差分。對(duì)于周期性,可以使用多步差分,例如如果周期約為7,則使用時(shí)間序列的第n項(xiàng)減去第n-7項(xiàng),形成新序列??梢允褂靡苿?dòng)平均法消除時(shí)間序列的季節(jié)性。移動(dòng)平均法是指對(duì)原時(shí)間序列中每個(gè)周期長(zhǎng)度內(nèi)的值取平均值,作為新的時(shí)間序列中的一項(xiàng)。如果經(jīng)過(guò)單位根檢驗(yàn)結(jié)果顯示,新的時(shí)間序列為平穩(wěn)時(shí)間序列,就可以對(duì)平穩(wěn)的時(shí)間序列進(jìn)行建模了。第二節(jié)回歸模型另一種常見(jiàn)的計(jì)量模型在回歸模型中,樣本數(shù)據(jù)的屬性特征被稱(chēng)為自變量,而代表研究對(duì)象的目標(biāo)特征被稱(chēng)為因變量。通過(guò)回歸分析研究自變量和因變量的關(guān)系,可以判斷自變量和因變量之間是否存在顯著因果關(guān)系,并且可以分析自變量對(duì)因變量的影響程度。常見(jiàn)的回歸有很多種分類(lèi)方法1.回歸模型評(píng)價(jià)標(biāo)準(zhǔn)

1.回歸模型評(píng)價(jià)標(biāo)準(zhǔn)(1)誤差平均平方差MSE將真實(shí)值和預(yù)測(cè)值之間的差進(jìn)行平方通過(guò)平方操作也可以解決總誤差因?yàn)檎`差之間正負(fù)不同會(huì)抵消的問(wèn)題,同時(shí)還方便求導(dǎo)。但是它對(duì)異常點(diǎn)比較敏感。平方根誤差RMSE將MSE值的開(kāi)方,對(duì)異常點(diǎn)比較敏感。平均絕對(duì)百分誤差MAPE考慮預(yù)測(cè)值與真實(shí)值的值域。是一個(gè)相對(duì)值,可以通過(guò)比較兩個(gè)模型的MAPE來(lái)衡量它們的優(yōu)劣,但是對(duì)于單個(gè)模型的MAPE值沒(méi)有實(shí)際意義。1.回歸模型評(píng)價(jià)標(biāo)準(zhǔn)

1.回歸模型評(píng)價(jià)標(biāo)準(zhǔn)

2.線(xiàn)性回歸

2.線(xiàn)性回歸

3.非線(xiàn)性回歸思路一:觀(guān)察散點(diǎn)圖,選擇合適的模型非線(xiàn)性函數(shù)擬合建模將樣本數(shù)值以散點(diǎn)圖表示,通過(guò)觀(guān)察數(shù)據(jù)點(diǎn)的分布特點(diǎn),包括因變量隨自變量的變化規(guī)律、散點(diǎn)圖的大致形狀,直接相應(yīng)可能的非線(xiàn)性函數(shù)進(jìn)行擬合建模,并結(jié)合數(shù)據(jù)點(diǎn)進(jìn)行對(duì)這些函數(shù)參數(shù)的估計(jì)。常見(jiàn)的非線(xiàn)性回歸模型有多項(xiàng)式模型、指數(shù)函數(shù)模型、對(duì)數(shù)函數(shù)模型、冪函數(shù)模型等。多項(xiàng)式回歸擬合建模如果通過(guò)觀(guān)察散點(diǎn)圖,發(fā)現(xiàn)因變量與自變量的關(guān)系是非線(xiàn)性的,但是又找不到合適的非線(xiàn)性函數(shù)曲線(xiàn)進(jìn)行擬合,則可以采用多項(xiàng)式回歸。采用多項(xiàng)式回歸模型對(duì)樣本數(shù)據(jù)進(jìn)行建模,基本上能夠取得一個(gè)較好的效果。不過(guò),模型在參數(shù)的估計(jì)、階數(shù)的選擇上有一定的難度,而且如果在多項(xiàng)式回歸中的指數(shù)選擇不當(dāng),容易導(dǎo)致過(guò)擬合。

3.非線(xiàn)性回歸思路二:轉(zhuǎn)化為線(xiàn)性模型常見(jiàn)的冪函數(shù)回歸、指數(shù)函數(shù)回歸、對(duì)數(shù)函數(shù)回歸均可以通過(guò)對(duì)原數(shù)據(jù)的轉(zhuǎn)換變?yōu)榫€(xiàn)性回歸。采用建立線(xiàn)性模型的方法建立模型、估計(jì)未知參數(shù)。在回歸中可以根據(jù)因變量類(lèi)型的不同來(lái)選擇不同的回歸模型,線(xiàn)性和非線(xiàn)性回歸是當(dāng)因變量是連續(xù)值的時(shí)候能夠應(yīng)用到的回歸模型,當(dāng)因變量是離散型時(shí),可以使用邏輯回歸模型。4.回歸模型和回歸系數(shù)的顯著性

4.回歸模型和回歸系數(shù)的顯著性

5.多重共線(xiàn)性的檢驗(yàn)多重共線(xiàn)性模型中兩個(gè)或者更多個(gè)自變量之間具有高度線(xiàn)性相關(guān)而導(dǎo)致。多重共線(xiàn)性的存在,會(huì)使得模型中一個(gè)自變量系數(shù)會(huì)依賴(lài)于在模型中的其他自變量,導(dǎo)致參數(shù)估計(jì)的不穩(wěn)定提高。多重共線(xiàn)性出現(xiàn)原因各變量之間本身存在相關(guān)聯(lián)系。各變量在時(shí)間上有共同變化的趨勢(shì)。在建立模型時(shí),使用因變量的滯后值作為自變量。常見(jiàn)的多重共線(xiàn)性檢驗(yàn)相關(guān)系數(shù)檢驗(yàn)?;跇颖緮?shù)據(jù),計(jì)算兩個(gè)自變量之間的相關(guān)系數(shù)。輔助回歸模型檢驗(yàn)。擇模型中的一個(gè)自變量作為因變量構(gòu)造輔助回歸模型。計(jì)算方差擴(kuò)大因子。變量的共線(xiàn)程度越高,參數(shù)估計(jì)量的方差就越大。觀(guān)察判斷。觀(guān)察得到的回歸模型中各變量系數(shù)的正負(fù)和大小是否與現(xiàn)實(shí)相悖。5.多重共線(xiàn)性的檢驗(yàn)多重共線(xiàn)性處理增加樣本數(shù)量。一般而言,基于越大數(shù)據(jù)集合擬合的模型,多重共線(xiàn)性的可能性越小。差分模型。前面提到多重共線(xiàn)性可能是因?yàn)樽兞抗餐S時(shí)間變化而引起,建立差分模型,多重共線(xiàn)性的影響通常會(huì)減小。模型修正。多重共線(xiàn)性本質(zhì)上講是變量選擇和模型設(shè)定的問(wèn)題,可以刪掉多重共線(xiàn)性比較嚴(yán)重的解釋變量。數(shù)據(jù)挖掘分類(lèi)預(yù)測(cè)模型商務(wù)數(shù)據(jù)分析中除了預(yù)測(cè)問(wèn)題,也存在很多分類(lèi)問(wèn)題。分類(lèi)就是根據(jù)對(duì)象在各屬性特征上的表現(xiàn),將其映射到給定的類(lèi)別。分類(lèi)與預(yù)測(cè)問(wèn)題有很多相似的地方,樣本數(shù)據(jù)都需要包括描述研究對(duì)象各方面表現(xiàn)的屬性特征和研究問(wèn)題對(duì)應(yīng)的目標(biāo)特征,只是在分類(lèi)問(wèn)題中目標(biāo)特征是離散的,而預(yù)測(cè)問(wèn)題中目標(biāo)特征是連續(xù)的。第一節(jié)分類(lèi)模型評(píng)價(jià)標(biāo)準(zhǔn)在分類(lèi)任務(wù)中,只用準(zhǔn)確率通常不能判斷算法的優(yōu)劣?;煜仃嚕–onfusionMatrix)混淆矩陣依據(jù)不同情況,對(duì)模型的分類(lèi)結(jié)果進(jìn)行了整理:TP是預(yù)測(cè)值與真實(shí)值都為正的樣本數(shù)量TN是預(yù)測(cè)值和真實(shí)值都為負(fù)的樣本數(shù)量,兩種情況都表示模型分類(lèi)結(jié)果正確FN表示真實(shí)值為正而預(yù)測(cè)為負(fù)的樣本數(shù)量,即實(shí)際的正樣本中有多少預(yù)測(cè)錯(cuò)誤了,這是統(tǒng)計(jì)學(xué)中的第I類(lèi)錯(cuò)誤,F(xiàn)P表示真實(shí)值為負(fù)但是預(yù)測(cè)為正出現(xiàn)錯(cuò)誤的樣本數(shù)量,是第II類(lèi)錯(cuò)誤。(1)準(zhǔn)確率、精確率、召回率、F1值精確率表示預(yù)測(cè)為正的樣本中有多少實(shí)際也為正的,召回率代表實(shí)際為正的樣本中有多少被識(shí)別出來(lái)了。換句話(huà)說(shuō),提高精確率是希望找到的都是正確的,而提高召回率是希望找得“全”。F1值是對(duì)精確率和召回率的一個(gè)結(jié)合評(píng)價(jià)。(2)ROC曲線(xiàn)和AUC

(2)ROC曲線(xiàn)和AUC選定閾值為某個(gè)值,所有數(shù)據(jù)樣本將會(huì)根據(jù)模型輸出值被判定相應(yīng)的類(lèi)別,以此為依據(jù)計(jì)算出一組(TPR,FPR)值,即得到了繪制曲線(xiàn)的一個(gè)點(diǎn)。ROC曲線(xiàn)是由一組點(diǎn)(FPR,TPR)組成的,衡量的是TPR、FPR隨著模型判斷為正值的概率閾值的變化曲線(xiàn)。完美分類(lèi)點(diǎn)(0,1)代表理想狀態(tài),即不管閾值如何,模型正確率為1,錯(cuò)誤率為0。越接近于點(diǎn)(0,1)的ROC曲線(xiàn)代表的模型越好,預(yù)測(cè)越準(zhǔn)確。ROC曲線(xiàn)下的面積AUC(AreaUnderrocCurve)的大小可以直接用來(lái)比較模型,越大的AUC代表表現(xiàn)越好的模型。第二節(jié)邏輯回歸在商務(wù)數(shù)據(jù)分析中,經(jīng)常會(huì)遇到二分類(lèi)問(wèn)題,即研究對(duì)象的類(lèi)別有兩個(gè),某個(gè)樣本非此類(lèi)即彼類(lèi)。邏輯回歸就是解決這類(lèi)問(wèn)題的常見(jiàn)方法。邏輯回歸(Logisticsregression)是一種有監(jiān)督的學(xué)習(xí)算法。1.從線(xiàn)性回歸到邏輯回歸

2.邏輯回歸的參數(shù)優(yōu)化

3.邏輯回歸小結(jié)優(yōu)點(diǎn):(1)邏輯回歸模型輸出值即為概率值,描述了事件發(fā)生的概率,這使得二分類(lèi)結(jié)果有更好的可分析性。(2)邏輯回歸中自變量前的系數(shù)具有很好的可解釋性。這一系數(shù)為分析自變量對(duì)于因變量的影響大小提供了依據(jù)。(3)邏輯回歸的計(jì)算代價(jià)低,容易實(shí)現(xiàn),在時(shí)間和內(nèi)存需求上相當(dāng)高效。缺點(diǎn):首先,它容易出現(xiàn)欠擬合的現(xiàn)象,分類(lèi)精度不高,其次,當(dāng)數(shù)據(jù)有較多確實(shí)或者特征空間很大時(shí),它的表現(xiàn)和效果并不是很理想。4.二分類(lèi)算法應(yīng)用于多分類(lèi)問(wèn)題現(xiàn)實(shí)生活中,有很多問(wèn)題可能有多個(gè)類(lèi)別值。二分類(lèi)模型應(yīng)用于多分類(lèi)問(wèn)題思路1:“一類(lèi)對(duì)其余”假設(shè)產(chǎn)品分類(lèi)中有n個(gè)類(lèi)別,則構(gòu)造n個(gè)分類(lèi)問(wèn)題,訓(xùn)練相應(yīng)n個(gè)分類(lèi)模型,第i個(gè)分類(lèi)模型用于判斷解決樣本是否屬于第i類(lèi),即模型的輸出為{是,否},是一個(gè)二分類(lèi)模型。原有的多類(lèi)別問(wèn)題被轉(zhuǎn)換為n個(gè)二分類(lèi)模型。訓(xùn)練完成后,n個(gè)模型一同對(duì)新樣本進(jìn)行分類(lèi)。將新樣本自變量屬性,分別輸入n個(gè)分類(lèi)模型,輸出結(jié)果為“是”的分類(lèi)模型對(duì)應(yīng)的類(lèi)別便是新樣本所屬類(lèi)別。好處:分類(lèi)模型數(shù)量少缺點(diǎn):每個(gè)分類(lèi)器的訓(xùn)練樣本分布都不均衡,影響了訓(xùn)練效果;而且每次有新的類(lèi)別加入,需要重新訓(xùn)練所有的模型。4.二分類(lèi)算法應(yīng)用于多分類(lèi)問(wèn)題現(xiàn)實(shí)生活中,有很多問(wèn)題可能有多個(gè)類(lèi)別值。二分類(lèi)模型應(yīng)用于多分類(lèi)問(wèn)題思路1:“一類(lèi)對(duì)一類(lèi)”在n個(gè)類(lèi)別中,每?jī)蓚€(gè)類(lèi)別建立一個(gè)分類(lèi)模型。基于已有的數(shù)據(jù)對(duì)這些模型進(jìn)行訓(xùn)練。訓(xùn)練完成后,模型一同對(duì)新樣本進(jìn)行分類(lèi)。將新樣本自變量屬性,分別輸入所有分類(lèi)模型,對(duì)模型輸出的類(lèi)別結(jié)果統(tǒng)計(jì),將產(chǎn)品歸類(lèi)為在分類(lèi)器中輸出最多數(shù)量的類(lèi)別。優(yōu)點(diǎn):每個(gè)分類(lèi)器相對(duì)簡(jiǎn)單缺點(diǎn):分類(lèi)器總體數(shù)量較大,影響了算法效率。第三節(jié)決策樹(shù)決策樹(shù)組成部分一個(gè)決策樹(shù)的分支節(jié)點(diǎn)代表一個(gè)特征屬性,一個(gè)分支代表特征的某一個(gè)取值范圍,而決策樹(shù)最底端的葉節(jié)點(diǎn)代表一種類(lèi)別。樣本按照如下的邏輯被劃分到某葉子節(jié)點(diǎn),即類(lèi)別節(jié)點(diǎn)中。分類(lèi)過(guò)程從根節(jié)點(diǎn)開(kāi)始,將樣本數(shù)據(jù)在相應(yīng)特征屬性上的取值與分支節(jié)點(diǎn)的范圍進(jìn)行匹配,按結(jié)果劃分到下一個(gè)分支中,直至到樣本數(shù)據(jù)被劃分到某個(gè)葉節(jié)點(diǎn),得到最終的類(lèi)別,作為模型的輸出。決策樹(shù)(DecisionTree)是通過(guò)構(gòu)造樹(shù)結(jié)構(gòu)來(lái)進(jìn)行分類(lèi)的方法,它是一種有監(jiān)督的機(jī)器學(xué)習(xí)分類(lèi)算法,即訓(xùn)練樣本需要含有類(lèi)別信息。1.信息熵

1.信息熵

2.信息熵、不確定性與集合純度信息熵在分類(lèi)問(wèn)題中,是度量集合純度的常用指標(biāo),熵越小,純度越高。在分類(lèi)任務(wù)中,好的分類(lèi)結(jié)果是指能得到高純度的樣本集合。對(duì)應(yīng)于決策樹(shù)中,按某屬性分支進(jìn)行分類(lèi)后得到的樣本純度越高,決策樹(shù)模型越好3.信息增益信息增益(InformationGain)表示的是隨機(jī)變量x的取值確定后,隨機(jī)變量y的信息熵的變化,或者說(shuō)隨機(jī)變量y的不確定性減少的程度。對(duì)于分類(lèi)問(wèn)題而言,從信息增益角度,可以理解為按特征x的取值將樣本進(jìn)行分類(lèi)后,樣本集合屬于某個(gè)類(lèi)別y不確定性下降的程度,也就是樣本集合純度增加的程度。每個(gè)特征針對(duì)于類(lèi)別都可以計(jì)算相應(yīng)的信息增益,不同特征對(duì)應(yīng)的信息增益大小不同。信息增益值更大,表明用這個(gè)特征分類(lèi)得到的集合更純,是應(yīng)該優(yōu)先選擇的決策樹(shù)分類(lèi)屬性。3.信息增益

4.常見(jiàn)的決策樹(shù)算法有多種方法可以完成對(duì)決策樹(shù)的構(gòu)建,實(shí)現(xiàn)分類(lèi),有些方法完全基于前面所介紹的信息增益,而有些方法則針對(duì)其不足對(duì)信息增益進(jìn)行了改進(jìn)。(1)ID3ID3是較早出現(xiàn)的決策樹(shù)算法,它以前面介紹的信息增益的值為依據(jù),每次選擇在當(dāng)前狀態(tài)下,信息增益最大的屬性為下一步的劃分屬性。對(duì)于可取值數(shù)目較多的屬性有偏好,會(huì)影響分類(lèi)效果。4.常見(jiàn)的決策樹(shù)算法

4.常見(jiàn)的決策樹(shù)算法(3)CART(ClassificationAndRegressionTree,CART)分類(lèi)與回歸樹(shù),既可以應(yīng)用于目標(biāo)屬性為離散型的分類(lèi)問(wèn)題,也可以應(yīng)用于目標(biāo)屬性為連續(xù)型的回歸問(wèn)題。假設(shè)決策樹(shù)是二叉樹(shù),即分支節(jié)點(diǎn)只有兩個(gè)分支(“是”與“否”),決策樹(shù)作為分類(lèi)樹(shù)和回歸樹(shù)時(shí),分別有不同的生成原則依據(jù)。當(dāng)決策樹(shù)作為分類(lèi)樹(shù),即判別的結(jié)果是樣本屬于哪個(gè)類(lèi)別時(shí),依據(jù)基尼指數(shù)的大小選擇分類(lèi)所依據(jù)的特征屬性。對(duì)于一個(gè)數(shù)據(jù)集D來(lái)說(shuō),其基尼指數(shù)可以理解為從數(shù)據(jù)集中隨機(jī)選取兩個(gè)樣本,兩者屬于不同類(lèi)別的概率。生成決策樹(shù)的過(guò)程即為每次選擇使得Gini指數(shù)小的屬性和該屬性上的某一取值(a)進(jìn)行劃分。當(dāng)CART作為回歸樹(shù),即判別的結(jié)果為具體的數(shù)值時(shí),生成樹(shù)的依據(jù)是回歸樹(shù)輸出的預(yù)測(cè)值與實(shí)際值的誤差平方和最小。5.決策樹(shù)的剪枝在決策樹(shù)的生成過(guò)程中很容易造成決策樹(shù)的分支過(guò)多,導(dǎo)致過(guò)擬合,泛化能力下降。“剪枝”是決策樹(shù)為了解決可能的過(guò)擬合問(wèn)題采用的方式(1)預(yù)剪枝預(yù)剪枝的思想是從空集開(kāi)始增加分類(lèi)屬性節(jié)點(diǎn),每次選擇一個(gè)屬性時(shí),需要判斷隨著該屬性被加入到?jīng)Q策樹(shù),決策樹(shù)在測(cè)試集上的表現(xiàn)(分類(lèi)準(zhǔn)確度)有沒(méi)有變優(yōu),如果變優(yōu),則將該屬性加入決策樹(shù),直到滿(mǎn)足停止條件。(2)后剪枝后剪枝的思想是先基于所有屬性生成一棵完整的樹(shù),這棵樹(shù)最終葉子節(jié)點(diǎn)中分類(lèi)純度是100%。然后自底向上假定某一個(gè)分支下面的子樹(shù)若被葉節(jié)點(diǎn)替代,計(jì)算此時(shí)在測(cè)試集中,決策樹(shù)的分類(lèi)準(zhǔn)確率有沒(méi)有變化。如果分類(lèi)準(zhǔn)確性增加或者沒(méi)有降低,則進(jìn)行剪枝,用葉子節(jié)點(diǎn)代替子樹(shù),葉子節(jié)點(diǎn)的類(lèi)別由相應(yīng)樣本集合中占多數(shù)的類(lèi)別決定。對(duì)比預(yù)剪枝思想直接,算法簡(jiǎn)單,但容易出現(xiàn)“欠擬合”的現(xiàn)象,對(duì)特征的學(xué)習(xí)不足,得到的決策樹(shù)分類(lèi)性能不高。后剪枝是生成整個(gè)決策樹(shù)后才進(jìn)行剪枝,因此其不容易出現(xiàn)該現(xiàn)象,但是所用時(shí)間要比預(yù)剪枝多,算法也更復(fù)雜。6.決策樹(shù)小結(jié)決策樹(shù)主要優(yōu)點(diǎn)包括:易于理解、并且很多情況下可以進(jìn)行可視化,比其他分類(lèi)模型更為清晰的表述分類(lèi)過(guò)程和結(jié)果;可以同時(shí)實(shí)現(xiàn)特征選擇,即特征工程中介紹的嵌入式方法,在構(gòu)建決策樹(shù)的過(guò)程中同時(shí)完成了分類(lèi)任務(wù)和特征選擇;一般不需要對(duì)數(shù)據(jù)預(yù)處理;可以處理數(shù)值變量和分類(lèi)變量(CART樹(shù));可以處理多值分類(lèi)問(wèn)題;結(jié)果具有一定的可解釋性。但是決策樹(shù)也存在一些缺點(diǎn),包括:較容易過(guò)擬合;決策樹(shù)不是很穩(wěn)定,一個(gè)比較小的變異就可能產(chǎn)生一個(gè)不同的樹(shù);需要數(shù)據(jù)的平衡;只能是依據(jù)當(dāng)前的標(biāo)準(zhǔn)選擇最好的分類(lèi)屬性,但不能保證最后的整棵樹(shù)是最優(yōu)的。第四節(jié)貝葉斯算法貝葉斯算法就是基于概率進(jìn)行分類(lèi)的算法。1.貝葉斯概率貝葉斯理論認(rèn)為人們基于自己已有的認(rèn)知,對(duì)事物發(fā)生的可能性有自己的判斷,這被稱(chēng)為先驗(yàn)知識(shí)。不同人得到的概率判斷不同,即概率是主觀(guān)的。隨著不斷觀(guān)察或收集到更多的樣本和結(jié)果,人們不斷地修正對(duì)事物的認(rèn)識(shí),形成后驗(yàn)分布,這稱(chēng)為后驗(yàn)知識(shí)。

2.

貝葉斯公式

2.貝葉斯公式

3.樸素貝葉斯算法

4.非樸素貝葉斯算法屬性之間總有一些關(guān)聯(lián)。“非或半樸素貝葉斯”算法基本想法是考慮一些比較強(qiáng)的屬性之間的依賴(lài)關(guān)系,并不考慮全部屬性之間的所有依賴(lài)關(guān)系。SPODE算法假設(shè)有一個(gè)特征屬性與其他所有的特征屬性有依賴(lài)關(guān)系,比較確認(rèn)父屬性之后,對(duì)后驗(yàn)概率進(jìn)行修正。TAN算法將屬性之間的依賴(lài)關(guān)系化為樹(shù)形結(jié)構(gòu),將任意兩個(gè)屬性之間的條件互信息(代表相關(guān)性大?。┳鳛閮蓚€(gè)變量之間的權(quán)重,然后利用最大帶權(quán)生成樹(shù)保留強(qiáng)相關(guān)屬性的依賴(lài)性,經(jīng)過(guò)依賴(lài)性確認(rèn)后,再利用貝葉斯公式繼續(xù)計(jì)算。貝葉斯網(wǎng)利用有向無(wú)環(huán)圖和條件概率表來(lái)計(jì)算屬性之間的聯(lián)合概率分布,貝葉斯網(wǎng)中一個(gè)屬性可以依賴(lài)不止一個(gè)屬性。5.貝葉斯算法小結(jié)優(yōu)點(diǎn)過(guò)程簡(jiǎn)單,基于概率算法容易理解;對(duì)于多分類(lèi)問(wèn)題或?qū)崟r(shí)分類(lèi)問(wèn)題,貝葉斯算法有很好的表現(xiàn);隨著樣本可能的分類(lèi)的增加,算法效率依然有保障,復(fù)雜度并沒(méi)有大幅度的上升;如果現(xiàn)實(shí)中某一分類(lèi)任務(wù)能夠滿(mǎn)足屬性之間相互獨(dú)立的假設(shè),樸素貝葉斯算法能夠簡(jiǎn)單又快速解決分類(lèi)。缺點(diǎn)真實(shí)的值沒(méi)有太多的意義現(xiàn)實(shí)生活中能夠滿(mǎn)足條件獨(dú)立性假設(shè)的問(wèn)題很少,屬性之間往往有共線(xiàn)性,如果考慮到所有屬性之間的共線(xiàn)性,貝葉斯算法很難求出所有變量的概率分布。第五節(jié)k最近鄰算法

2.K近鄰算法的三個(gè)基本要素

2.K近鄰算法的三個(gè)基本要素

2.K近鄰算法的三個(gè)基本要素(2)最近鄰數(shù)量K最近鄰數(shù)量k值的選擇不同,k近鄰算法分類(lèi)的結(jié)果也會(huì)不同。極端情況,k=1,新樣本的種類(lèi)就由與其最接近的一個(gè)樣本的類(lèi)別所決定;而k最大可以等于所有樣本數(shù)量,則新樣本的種類(lèi)是訓(xùn)練集中占多數(shù)的種類(lèi)。為了衡量不同的k值對(duì)于模型的影響,引入“近似誤差”(approximationerror),和“估計(jì)誤差”(estimationerror)兩個(gè)指標(biāo)。近似誤差可以理解為對(duì)訓(xùn)練集的訓(xùn)練誤差,估計(jì)誤差可以理解為對(duì)測(cè)試集的測(cè)試誤差。通常k值都比較小。(3)分類(lèi)決策規(guī)則一般情況下都是選擇多數(shù)表決法,即樣本的k個(gè)近鄰中,較多的樣本屬于某一類(lèi)別,就判定待預(yù)測(cè)樣本也屬于這一類(lèi)別。3.改進(jìn)最近鄰算法:kd樹(shù)的構(gòu)造從空間來(lái)看,kd樹(shù)在構(gòu)建過(guò)程中,根據(jù)已有的樣本點(diǎn),不斷用垂直于某一坐標(biāo)軸的超平面來(lái)對(duì)空間進(jìn)行劃分,劃分成很多個(gè)k維超矩形空間,樹(shù)的每一個(gè)節(jié)點(diǎn)都對(duì)應(yīng)著一個(gè)超矩形空間。K最近鄰算法需要遍歷一遍所有的樣本,找到最近的樣本,但是當(dāng)樣本量很大時(shí),這一方法十分耗時(shí)。改進(jìn)方法是構(gòu)造kd樹(shù)。kd樹(shù)是一個(gè)二叉樹(shù),即樹(shù)中每個(gè)節(jié)點(diǎn)只有兩個(gè)分支。kd樹(shù)將具有k個(gè)特征的樣本點(diǎn)進(jìn)行劃分,建立樹(shù)狀數(shù)據(jù)結(jié)構(gòu)。從而在此基礎(chǔ)上進(jìn)行最近鄰尋找時(shí),快速遍歷符合條件的樣本,而不需要遍歷所有樣本。4.最近鄰算法小結(jié)基于kd樹(shù)進(jìn)行最近鄰的查詢(xún),不需要每次遍歷所有樣本計(jì)算距離優(yōu)點(diǎn):算法簡(jiǎn)單,易于理解,算法沒(méi)有參數(shù)估計(jì),不需要訓(xùn)練,所以速度快;果k值的選擇恰當(dāng),那么k近鄰算法對(duì)于異常值不太敏感;k近鄰算法可以應(yīng)用于多分類(lèi)問(wèn)題,也比較適合對(duì)一些稀有事件進(jìn)行分類(lèi)。缺點(diǎn):它不能解釋哪個(gè)屬性對(duì)于最終的結(jié)果影響較大k值的選擇是一個(gè)難點(diǎn),很難直接找到最優(yōu)的k值,一般會(huì)通過(guò)設(shè)置多個(gè)k值,不斷比較的方式確定針對(duì)當(dāng)前樣本最優(yōu)的k值。第六節(jié)支持向量機(jī)

1.SVM基本原理

1.SVM基本原理

2.軟間隔

在很多情況下,樣本很難用一個(gè)超平面分開(kāi)不出現(xiàn)錯(cuò)誤,而且如果用一個(gè)超平面分開(kāi),也有可能導(dǎo)致過(guò)擬合的現(xiàn)象。因此,可以允許一些樣本分類(lèi)不正確如右圖所示,落入兩條虛線(xiàn)的樣本代表不滿(mǎn)足約束的樣本。3.SVM中的核函數(shù)很多情況下,樣本是不可線(xiàn)性分割的,SVM用核函數(shù)來(lái)解決這一問(wèn)題。核函數(shù)可以理解成一個(gè)映射函數(shù),目的是將低維空間無(wú)法線(xiàn)性可分的樣本,通過(guò)核函數(shù)映射到高維特征空間,最終在高維特征空間中構(gòu)造出分離的超平面。核函數(shù)簡(jiǎn)化了映射到高維空間后的優(yōu)化求解實(shí)際上確定了樣本被映射到高維的分類(lèi)效果,選擇不同的核函數(shù),意味著不同的分類(lèi)效果,即直接影響著最終模型的性能。常用的核函數(shù)有線(xiàn)性核、多項(xiàng)式核、高斯核、Sigmoid核函數(shù)等等。在實(shí)際應(yīng)用中,一般會(huì)通過(guò)嘗試不同的核函數(shù),比較分類(lèi)效果,確定合適當(dāng)前問(wèn)題的核函數(shù)。4.SVM算法的特點(diǎn)優(yōu)點(diǎn):在小樣本集上面有較高的準(zhǔn)確率,而且泛化能力強(qiáng);不依賴(lài)于全部的數(shù)據(jù),對(duì)分類(lèi)產(chǎn)生最終產(chǎn)生影響的只有支持向量,因此其對(duì)樣本的敏感度較低,容忍性較高。局限:如當(dāng)數(shù)據(jù)量很大時(shí),它的計(jì)算速度慢,將樣本映射到高維度空間上,結(jié)果不具備解釋性,核函數(shù)的選擇問(wèn)題是另一個(gè)難點(diǎn)。第七節(jié)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks)由若干節(jié)點(diǎn)形成交互網(wǎng)絡(luò),根據(jù)已經(jīng)收集的信息來(lái)學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò),最終能夠應(yīng)用網(wǎng)絡(luò)預(yù)測(cè)新的樣本。人工神經(jīng)網(wǎng)絡(luò)可以理解為一種黑箱模型,而且只要訓(xùn)練數(shù)據(jù)量足夠大,它可以擬合出輸入到輸出之間的任意函數(shù)關(guān)系,突破了回歸模型對(duì)函數(shù)類(lèi)型的要求。神經(jīng)網(wǎng)絡(luò)比較強(qiáng)大,可以處理機(jī)器學(xué)習(xí)領(lǐng)域中的很多問(wèn)題,它具有線(xiàn)性和非線(xiàn)性學(xué)習(xí)算法的能力,在最近幾年得到了迅猛發(fā)展1.神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)單層神經(jīng)網(wǎng)絡(luò)右圖所示的是一種最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),即單層神經(jīng)網(wǎng)絡(luò),也稱(chēng)作感知器,它是人工神經(jīng)網(wǎng)絡(luò)中的一種典型的結(jié)構(gòu),它的主要特點(diǎn)是結(jié)構(gòu)簡(jiǎn)單,它是兩層神經(jīng)元之間的連接,被稱(chēng)為輸入層和輸出層。

1.神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)多層神經(jīng)網(wǎng)絡(luò)在輸入層和輸出層之間加入了隱含層。隱含層的神經(jīng)元可以對(duì)其輸出函數(shù)進(jìn)行非線(xiàn)性化設(shè)計(jì),因此多層感知器可以處理非線(xiàn)性問(wèn)題。兩個(gè)隱層的神經(jīng)網(wǎng)絡(luò)就可以解決大多數(shù)復(fù)雜的分類(lèi)問(wèn)題。多層前饋神經(jīng)網(wǎng)絡(luò)每層神經(jīng)元與相鄰層神經(jīng)元全相連,神經(jīng)元之間不存在同層相連,也不存在跨層相連2.神經(jīng)元模型

2.神經(jīng)元模型

2.神經(jīng)元模型

3.BP神經(jīng)網(wǎng)絡(luò)一種基本的神經(jīng)網(wǎng)絡(luò)——BP(ErrorBackPropagation)誤差反向傳播神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)結(jié)構(gòu)確定后,建模本質(zhì)上就是確定網(wǎng)絡(luò)的兩類(lèi)主要參數(shù):神經(jīng)元之間的連接權(quán)重和每個(gè)功能神經(jīng)元激活閾值,目的是使得網(wǎng)絡(luò)在樣本中的分類(lèi)或訓(xùn)練誤差最小。BP算法是訓(xùn)練參數(shù)的一種方法。算法的學(xué)習(xí)過(guò)程由取值從輸入層到輸出層的正向傳播與誤差的反向傳播(算法名稱(chēng)由來(lái))兩個(gè)過(guò)程組成,是目前采用最多的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。3.BP神經(jīng)網(wǎng)絡(luò)BP算法屬于有監(jiān)督學(xué)習(xí),即訓(xùn)練樣本中包含目標(biāo)屬性的真實(shí)值。真實(shí)值與網(wǎng)絡(luò)模型的輸出值之間的誤差,是算法進(jìn)行參數(shù)調(diào)整的基礎(chǔ)。BP算法包括正、反兩個(gè)傳播過(guò)程右圖中實(shí)線(xiàn)箭頭表示的正向傳播是指將訓(xùn)練數(shù)據(jù)的特征值作為輸入層節(jié)點(diǎn)的取值,在網(wǎng)絡(luò)中根據(jù)權(quán)重和閾值,經(jīng)過(guò)各隱含層,直到計(jì)算到輸出層得到輸出結(jié)果,這是正向傳播。計(jì)算網(wǎng)絡(luò)的輸出值與訓(xùn)練數(shù)據(jù)的真實(shí)值之間的誤差,如果誤差滿(mǎn)足條件,則訓(xùn)練結(jié)束,當(dāng)前網(wǎng)絡(luò)為最優(yōu)網(wǎng)絡(luò);否則啟動(dòng)虛線(xiàn)箭頭表示的反向傳播,根據(jù)誤差調(diào)整權(quán)重參數(shù)。反向傳播指的是將為了達(dá)到誤差最小,誤差通過(guò)導(dǎo)數(shù)又從輸出層反向傳播到模型隱含層,再到輸入層,從后向前一層一層地更新連接權(quán)重、閾值等參數(shù)。更新后的網(wǎng)絡(luò)利用訓(xùn)練數(shù)據(jù)再次啟動(dòng)正向傳播,再次得到網(wǎng)絡(luò)輸出,計(jì)算誤差,不斷重復(fù)這個(gè)過(guò)程直到誤差不再減小或者模型效果滿(mǎn)意為止。4.BP神經(jīng)網(wǎng)絡(luò)特點(diǎn)優(yōu)點(diǎn)神經(jīng)網(wǎng)絡(luò)不僅僅適用于預(yù)測(cè)問(wèn)題,對(duì)于分類(lèi)問(wèn)題同樣適用。可以擬合目標(biāo)特征與屬性特征之間可能存在的任何關(guān)系,勝任任何預(yù)測(cè)任務(wù)。缺點(diǎn)神經(jīng)網(wǎng)絡(luò)中的輸入節(jié)點(diǎn)對(duì)輸出節(jié)點(diǎn)的影響無(wú)法用參數(shù)直接加以解釋。訓(xùn)練時(shí)權(quán)重和網(wǎng)絡(luò)結(jié)構(gòu)的初始化有可能會(huì)導(dǎo)致訓(xùn)練過(guò)程收斂到局部最小值,無(wú)法得到最優(yōu)網(wǎng)絡(luò)及參數(shù)。對(duì)于這個(gè)問(wèn)題,常常采取的應(yīng)對(duì)方法有生成多個(gè)初始網(wǎng)絡(luò)、模擬退火、引入隨機(jī)因素、遺傳算法等。第八節(jié)分類(lèi)和預(yù)測(cè)算法擴(kuò)展

1.?dāng)?shù)據(jù)不平衡問(wèn)題(2)過(guò)采樣與欠采樣訓(xùn)練集是真實(shí)樣本的無(wú)偏取樣,這一假設(shè)很難實(shí)現(xiàn)。因此,還可以采用過(guò)采樣和欠采樣的方法來(lái)平衡數(shù)據(jù)集。欠采樣是減少較多的那一類(lèi)的樣本欠采樣的時(shí)間開(kāi)銷(xiāo)較少,但是如果隨機(jī)任意刪除樣本,有可能損失樣本中的重要信息。欠采樣的代表性算法EasyEnsemble的主要思想是將數(shù)量占多的那一類(lèi)樣本隨機(jī)分為幾個(gè)子集,每一個(gè)子集和少的那一類(lèi)樣本整合起來(lái),作為訓(xùn)練數(shù)據(jù)集,分別訓(xùn)練多個(gè)分類(lèi)器模型,這樣在每個(gè)子分類(lèi)器中實(shí)現(xiàn)了樣本均衡,再利用集成學(xué)習(xí)算法得到最終的分類(lèi)器。過(guò)采樣是增加較少的那一類(lèi)的樣本,從而實(shí)現(xiàn)不同類(lèi)別樣本的均衡。過(guò)采樣也不能簡(jiǎn)單復(fù)制少數(shù)類(lèi)的樣本,代表性算法SMOTE的基本思想是通過(guò)插值法產(chǎn)生新的少數(shù)類(lèi)樣本。2.集成學(xué)習(xí)(EnsembleLearning)

不是一種新的分類(lèi)算法,而是一種思想影響集成學(xué)習(xí)效果的關(guān)鍵因素有兩個(gè):個(gè)體學(xué)習(xí)器的選擇以及對(duì)它們各自學(xué)習(xí)結(jié)果的整合方式?;舅枷胧峭ㄟ^(guò)構(gòu)建和結(jié)合多個(gè)個(gè)體分類(lèi)(學(xué)習(xí))器來(lái)實(shí)現(xiàn)學(xué)習(xí)任務(wù)?!耙粋€(gè)好漢三個(gè)幫”,多個(gè)個(gè)體學(xué)習(xí)器首先基于各自訓(xùn)練集,完成各自模型訓(xùn)練的任務(wù)。當(dāng)需要對(duì)新樣本進(jìn)行分類(lèi)時(shí),將新樣本輸入到每個(gè)個(gè)體學(xué)習(xí)器,會(huì)各自產(chǎn)生一個(gè)分類(lèi)結(jié)果,所有的分類(lèi)結(jié)果通過(guò)一定的方式進(jìn)行整合,得到對(duì)樣本的最終分類(lèi)結(jié)果。2.集成學(xué)習(xí)(1)個(gè)體學(xué)習(xí)器同質(zhì)的集成學(xué)習(xí)中,個(gè)體學(xué)習(xí)器的類(lèi)型是相同的,比如,可以都是決策樹(shù),此時(shí)個(gè)體學(xué)習(xí)器被稱(chēng)為“基學(xué)習(xí)器”,對(duì)應(yīng)的算法稱(chēng)為“基學(xué)習(xí)算法”。異質(zhì)的集成學(xué)習(xí)是由不同類(lèi)型的個(gè)體學(xué)習(xí)器組成。比如,組件學(xué)習(xí)器中既有決策樹(shù)也有神經(jīng)網(wǎng)絡(luò)模型。對(duì)個(gè)體學(xué)習(xí)器的第一個(gè)要求:“好”,能夠提高分類(lèi)的準(zhǔn)確度。對(duì)個(gè)體學(xué)習(xí)器的第二個(gè)要求:“不同”,能夠提高泛化程度。如何能夠讓個(gè)體分類(lèi)器“好而不同”是集成學(xué)習(xí)算法的主要目標(biāo)。(2)個(gè)體學(xué)習(xí)器的結(jié)果整合連續(xù)值預(yù)測(cè)問(wèn)題中,對(duì)各個(gè)體學(xué)習(xí)器的輸出,可以通過(guò)平均或者加權(quán)平均的方式整合為集成學(xué)習(xí)器的輸出。分類(lèi)問(wèn)題中,一般通過(guò)投票法,每個(gè)個(gè)體分類(lèi)器預(yù)測(cè)某樣本類(lèi)別,所輸出的類(lèi)別獲得投票,在所有個(gè)體分類(lèi)器中獲得投票占多數(shù)的樣本獲勝,個(gè)體分類(lèi)器在投票時(shí)也可以被賦予不同的權(quán)重。集成學(xué)習(xí)的性能通常要好于單個(gè)學(xué)習(xí)器。2.集成學(xué)習(xí)(3)迭代式集成學(xué)習(xí)Boosting按順序訓(xùn)練個(gè)體分類(lèi)器,根據(jù)初步訓(xùn)練分類(lèi)的結(jié)果,改變訓(xùn)練集合中樣本的分布,使得后續(xù)進(jìn)行分類(lèi)的分類(lèi)器聚焦在那些很難分類(lèi)準(zhǔn)確的樣本上,直至達(dá)到要求。在對(duì)個(gè)體學(xué)習(xí)器的結(jié)果進(jìn)行結(jié)合時(shí),通常使用加權(quán)的投票機(jī)制代替平均投票機(jī)制,賦予分類(lèi)效果好的分類(lèi)器較大的權(quán)重。這類(lèi)算法的學(xué)習(xí)主要關(guān)注的點(diǎn)是降低偏差,因此它能基于泛化性能相當(dāng)弱的學(xué)習(xí)器構(gòu)建出很強(qiáng)的集成效果。(4)并列式集成學(xué)習(xí)Bagging基本假設(shè)是個(gè)體學(xué)習(xí)器彼此是獨(dú)立的,對(duì)各個(gè)獨(dú)立訓(xùn)練的個(gè)體學(xué)習(xí)器的結(jié)果進(jìn)行綜合。使得它們的訓(xùn)練樣本集合盡可能的不同隨機(jī)森林是一個(gè)典型的Bagging算法一般情況下,當(dāng)個(gè)體學(xué)習(xí)器彼此之間有較強(qiáng)的依賴(lài)時(shí),Boosting算法更好,而當(dāng)個(gè)體學(xué)習(xí)器之間不存在強(qiáng)依賴(lài)時(shí),可以使用Bagging算法。數(shù)據(jù)挖掘聚類(lèi)

與關(guān)聯(lián)規(guī)則模型第一節(jié)聚類(lèi)1.聚類(lèi)概念按照某個(gè)特定標(biāo)準(zhǔn)(如距離遠(yuǎn)近、相似程度)把一個(gè)數(shù)據(jù)集分割成不同的類(lèi)或簇,分割原則是屬于同一個(gè)類(lèi)或簇內(nèi)的數(shù)據(jù)對(duì)象盡可能相似,同時(shí)不在同一個(gè)類(lèi)中的數(shù)據(jù)對(duì)象盡可能不同。聚類(lèi)的結(jié)果本質(zhì)上是將已有的大量數(shù)據(jù)濃縮成若干類(lèi),并用集體特征替代類(lèi)簇內(nèi)樣本特征。無(wú)監(jiān)督學(xué)習(xí)。在進(jìn)行聚類(lèi)的時(shí)候,事先并不知道每個(gè)類(lèi)別的特點(diǎn)、每個(gè)樣本的類(lèi)別,也不需要使用訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),只需要計(jì)算出各個(gè)訓(xùn)練樣本之間的相似度或距離,然后按照相似程度或距離遠(yuǎn)近,將數(shù)據(jù)集分成若干類(lèi)。同時(shí),在聚類(lèi)完成之后才能知道每個(gè)類(lèi)到底具備什么樣的特征。依據(jù)相似性進(jìn)行分析,距離計(jì)算是最為常見(jiàn)的相似度度量方法。2.K-Means聚類(lèi)方法操作簡(jiǎn)便,聚類(lèi)速度快,適合較為簡(jiǎn)單的聚類(lèi)場(chǎng)景,但是同樣受制于均值的局限性很容易受離群點(diǎn)的影響,而且需要提前設(shè)定K值的大小,通常在多次參數(shù)設(shè)定后,結(jié)合研究問(wèn)題,確定最好的聚類(lèi)結(jié)果對(duì)應(yīng)的K。首先根據(jù)聚類(lèi)類(lèi)別數(shù)量要求,隨機(jī)指定k個(gè)點(diǎn)作為各類(lèi)別的中心點(diǎn)(稱(chēng)之為質(zhì)心),初始化質(zhì)心的屬性值可以完全隨機(jī),也可以在觀(guān)察數(shù)據(jù)特征后人為規(guī)定屬性值;第二步,計(jì)算每個(gè)樣本數(shù)據(jù)點(diǎn)到質(zhì)心的距離,數(shù)據(jù)點(diǎn)距離哪個(gè)質(zhì)心點(diǎn)最近就劃分到哪一類(lèi)中;第三步,計(jì)算更新后的類(lèi)的質(zhì)心點(diǎn);重復(fù)第二、三步,直到每一類(lèi)質(zhì)心在迭代后變化不大為止。最常見(jiàn),也是最簡(jiǎn)單的一種聚類(lèi)算法,事先指定聚類(lèi)數(shù)量k,按照相似程度將全部樣本聚為k類(lèi),并用每一類(lèi)中所有樣本某項(xiàng)屬性的均值來(lái)代表該類(lèi)的屬性值。3.基于密度的聚類(lèi)方法(DBSCAN)DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)基于密度進(jìn)行聚類(lèi),并考慮噪聲。核心思想是,根據(jù)密度判定密切聯(lián)系的樣本屬于一類(lèi),不屬于任何一類(lèi)的樣本稱(chēng)為噪聲。密度具體衡量的是在設(shè)定的取值范圍內(nèi)樣本的數(shù)量,由此算法中有兩個(gè)重要參數(shù)衡量密度,r代表取值范圍,MinPts代表最少樣本數(shù)量。根據(jù)數(shù)據(jù)密度,將樣本點(diǎn)分為以下三類(lèi):核心點(diǎn):以此點(diǎn)為中心,在半徑r內(nèi)含有超過(guò)MinPts數(shù)目的點(diǎn);邊界點(diǎn):在半徑r內(nèi)點(diǎn)的數(shù)量小于MinPts,但是與某個(gè)核心點(diǎn)的距離小于指定半徑;噪音點(diǎn):樣本中既不是核心點(diǎn)也不是邊界點(diǎn)的點(diǎn),即與其他數(shù)據(jù)有顯著差異的樣本。3.基于密度的聚類(lèi)方法(DBSCAN)

算法的步驟如下:首先,以半徑r,最少樣本數(shù)量MinPts兩個(gè)參數(shù)判斷樣本集合中的核心點(diǎn)。然后,隨機(jī)找到一個(gè)核心點(diǎn),找到所有與其密度可達(dá)的核心點(diǎn),這些點(diǎn)構(gòu)成一類(lèi)。而對(duì)于每一個(gè)邊界點(diǎn),將其歸為半徑r內(nèi)最近的核心點(diǎn)所屬的類(lèi)。將已有類(lèi)別的點(diǎn)從集合中刪除,在集合中隨機(jī)找到下一個(gè)核心點(diǎn)繼續(xù)前面的步驟,直到給所有可能的點(diǎn)賦予了類(lèi)別。最后,不屬于任何一類(lèi)的點(diǎn)稱(chēng)為噪聲點(diǎn)。形成的聚類(lèi)形狀可以是任意形狀,并且能夠識(shí)別出噪聲點(diǎn),極大地減小了噪聲點(diǎn)(離群點(diǎn))對(duì)聚類(lèi)結(jié)果的影響。不足之處,主要表現(xiàn)在:(1)對(duì)于特征數(shù)量較多的高維樣本數(shù)據(jù)不適用;(2)如果樣本集的密度不均勻、聚類(lèi)間距差相差很大時(shí),聚類(lèi)質(zhì)量較差。4.層次凝聚聚類(lèi)(HAC)層次聚類(lèi)基于計(jì)算不同樣本點(diǎn)的相似度創(chuàng)建一棵有層次的聚類(lèi)樹(shù)實(shí)現(xiàn)聚類(lèi)每一個(gè)原始樣本點(diǎn)是這棵樹(shù)的最低層節(jié)點(diǎn),代表每個(gè)樣本點(diǎn)都是一類(lèi)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論