




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
MLAPP-C1熾聚AI1.引言機(jī)器學(xué)習(xí):是什么和為什么?機(jī)器學(xué)習(xí)的分類監(jiān)督學(xué)習(xí)分類回歸非監(jiān)督學(xué)習(xí)發(fā)現(xiàn)聚類發(fā)現(xiàn)潛在因子機(jī)器學(xué)習(xí)中的一些基本概念參數(shù)模型和非參數(shù)模型—個(gè)簡(jiǎn)單的非參數(shù)分類器:K近鄰(K-nearestneighbors)維度災(zāi)難1.4.4分類和回歸中的參數(shù)模型線性回歸邏輯回歸過擬合模型選擇沒有免費(fèi)的午餐理論1.引言機(jī)器學(xué)習(xí):是什么和為什么?Wearedrowningininformationandstarvingforknowledge.——JohnNaisbitt.我們正在進(jìn)入大數(shù)據(jù)時(shí)代。舉例來說,在網(wǎng)絡(luò)上有近1萬億張網(wǎng)頁(yè);每分鐘有近100小時(shí)的視頻上傳至Youtube;10世紀(jì)人的基因組,每一個(gè)都有長(zhǎng)度達(dá)3.8x109的基本基因?qū)?,其測(cè)序工作已經(jīng)被不同的實(shí)驗(yàn)室完成;沃爾瑪每小時(shí)完成1M的交易,并且擁有包含超過2.5x1015字節(jié)信息的數(shù)據(jù)庫(kù)。數(shù)據(jù)的泛濫要求有對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分析的方法,這便是機(jī)器學(xué)習(xí)所能解決的問題。我們定義機(jī)器學(xué)習(xí)(MachineLearning)為一系列可以自動(dòng)挖掘數(shù)據(jù)中潛在模式的方法,并且利用發(fā)現(xiàn)的模式去預(yù)測(cè)未來的數(shù)據(jù),或者在不確定的情況下執(zhí)行其他的決策(比如計(jì)劃如何獲取更多的數(shù)據(jù)!)全書基于如下觀點(diǎn):解決這類問題(探索數(shù)據(jù)中的模式)的最好方法是使用概率論中的工具。概率論可以應(yīng)用在任何涉及不確定度的問題上。在機(jī)器學(xué)習(xí)中,不確定度以很多形式出現(xiàn):在給定歷史數(shù)據(jù)的前提下未來最有可能出現(xiàn)的數(shù)據(jù)是什么?能夠解釋某些數(shù)據(jù)的最好的模型是什么?在機(jī)器學(xué)習(xí)中所使用的概率論相關(guān)的方法與統(tǒng)計(jì)學(xué)領(lǐng)域有密切的關(guān)聯(lián),但是兩者的側(cè)重點(diǎn)和一些術(shù)語(yǔ)上存在些許不同。本書將介紹多種概率模型,它們分別適用于不同類型的數(shù)據(jù)和任務(wù)。我們也會(huì)描述各種機(jī)器學(xué)習(xí)算法并且使用這些算法解決一些問題。我們的目的并不是簡(jiǎn)單的提供一本關(guān)于一項(xiàng)特殊技術(shù)的工具書,反之,我們希望透過概率模型和概率推理的視角來展示關(guān)于這個(gè)領(lǐng)域的統(tǒng)一的觀點(diǎn)。盡管我們會(huì)關(guān)注算法的計(jì)算效率但是將這些算法更好地應(yīng)用在真正大規(guī)模數(shù)據(jù)集上的細(xì)節(jié)部分最好還是參考其他的書籍。然而需要注意的是,即使某人擁有一個(gè)表面上十分龐大的數(shù)據(jù)集,但對(duì)于某些特定感興趣的情況,其中有效的數(shù)據(jù)量可能也是相當(dāng)小的。事實(shí)上,在很多領(lǐng)域中,數(shù)據(jù)都呈現(xiàn)出一種長(zhǎng)尾(longtail)效應(yīng),意味著經(jīng)常發(fā)生的那些事件往往是很少的,大部分事件是很少發(fā)生的。比如說,我們經(jīng)常遇到的那些單詞往往也就是那么一小部分(比如“the”和“and”),但是大部分單詞(比如“pareidolia”)卻很少使用。類似的,有些電影和書很有名,但大部分并非如此。章節(jié)2.4.7將進(jìn)一步介紹長(zhǎng)尾效應(yīng)。長(zhǎng)尾效應(yīng)所導(dǎo)致的一個(gè)結(jié)果是:我們只需要較少的數(shù)據(jù)就可以預(yù)測(cè)或者理解大部分行為。本書主要討論處理這種數(shù)據(jù)集的技術(shù)。1.1.1機(jī)器學(xué)習(xí)的分類機(jī)器學(xué)習(xí)一般分為2大類。在預(yù)測(cè)(predictive)或者監(jiān)督(supervised)學(xué)習(xí)方法中,模型的目的是在給定標(biāo)記數(shù)據(jù)集D=?x,y)h(標(biāo)記數(shù)據(jù)集是指針對(duì)iii=1每一個(gè)樣本x,都賦予一個(gè)標(biāo)簽值y)的情況下,通過學(xué)習(xí)得到一個(gè)從輸入x到輸出y的映射。其中D被稱為訓(xùn)練集(trainingset),N為訓(xùn)練集中樣本的數(shù)目。從最簡(jiǎn)單的情況出發(fā),假設(shè)訓(xùn)練集中的每一個(gè)輸入齊是一個(gè)D維向量,向量中的每一個(gè)分量分別代表一個(gè)人的身高和體重。這些分量被稱為特征(features)、屬性(attributes)或者協(xié)變量(covariates)。然而在通常情況下,輸入向量X)可以是一個(gè)復(fù)雜的結(jié)構(gòu)化對(duì)象,比如一張圖片,一個(gè)句子,一條郵件,一個(gè)時(shí)間序列,一個(gè)分子形狀,一個(gè)圖表等等。類似的,模型的輸出或者響應(yīng)(response)變量的形式原則上也可以是多樣的,但是在大部分方法中,都假設(shè)片是一個(gè)類別(categorical)或者名義(nominal)變量,變量取值于一個(gè)有限的集合yie{1,_,C}(比如男性或者女性類別),或者北是一個(gè)屬于實(shí)數(shù)域的標(biāo)量(比如一個(gè)人的收入)。當(dāng)北是一個(gè)類別變量,相應(yīng)的問題被稱為分類(classification)或者模式識(shí)別(patternrecognition),當(dāng)片是一個(gè)屬于實(shí)數(shù)域的標(biāo)量,相應(yīng)的問題被稱為回歸(regression)?;貧w問題的一個(gè)變種是有序回歸(ordinalregression),這種情況出現(xiàn)在需要輸出多個(gè)標(biāo)簽且標(biāo)簽之間具備一些自然的順序,比如等級(jí)A-F。機(jī)器學(xué)習(xí)中的另一類方法被稱為描述性(descriptive)或者無監(jiān)督(unsupervised)學(xué)習(xí)方法。在這種情況下,模型給定的輸入為D=&}N,模型ii=1的目標(biāo)是在數(shù)據(jù)中找到“感興趣的模式”。有時(shí)也稱這個(gè)方法為知識(shí)發(fā)掘(knowledgediscovery)。無監(jiān)督學(xué)習(xí)是-一個(gè)不夠明確的問題,因?yàn)槲覀儾]有被告知發(fā)掘什么類型的模式,所以也沒有明確的評(píng)價(jià)標(biāo)準(zhǔn)可以使用(不像監(jiān)督學(xué)習(xí),我們可以將模型的預(yù)測(cè)值與觀察到的真實(shí)值作對(duì)比)。在機(jī)器學(xué)習(xí)中還有一類被稱為強(qiáng)化學(xué)習(xí)(reinforcementlearning),在某種程度上很少被使用。在隨機(jī)的獎(jiǎng)勵(lì)或者懲罰信號(hào)的情況下,模型可以更好地學(xué)習(xí)采取什么的行為。(比如說,考慮一個(gè)兒童如何學(xué)習(xí)走路。)不幸的是,強(qiáng)化學(xué)習(xí)的內(nèi)容已經(jīng)超出本書范疇,盡管我們?cè)?.7節(jié)討論了決策論的內(nèi)容(強(qiáng)化學(xué)習(xí)的基礎(chǔ))。監(jiān)督學(xué)習(xí)我們從監(jiān)督學(xué)習(xí)開始對(duì)機(jī)器學(xué)習(xí)展開探索,它在實(shí)際過程中被廣泛使用。1.2.1分類本節(jié)我們將討論分類。分類的目的是通過算法學(xué)習(xí)得到一個(gè)從輸入x到輸出y的映射,其中yW{l,...,C},C為類的數(shù)量。如果C=2,貝V被稱為二分類(binary
classification)(在這種情況下,我們通常假設(shè)y${0,l});如果C>2,則被稱為多分類(multiclassclassification)。如果類的標(biāo)簽彼此之間互不排斥(比如某人可以被歸類為高的和強(qiáng)壯的),我們稱它為多標(biāo)簽分類(multi-labelclassification),當(dāng)然更好的方式是將它理解為預(yù)測(cè)多個(gè)相關(guān)二元類標(biāo)簽的問題(即所謂的多變量輸出模型)。當(dāng)我們使用術(shù)語(yǔ)“分類”時(shí),我們是指輸出單個(gè)變量的多分類問題,除非我們特別做出說明。一種關(guān)于這個(gè)問題的形式化表達(dá)是函數(shù)近似(functionapproximation)。假設(shè)存在一個(gè)未知函數(shù)f,使得y二f(x),我們的目的是在給定一個(gè)含標(biāo)簽的訓(xùn)練集的基礎(chǔ)上估計(jì)函數(shù)f的形式,然后使用得到的函數(shù)f進(jìn)行預(yù)測(cè)y=f(x)。(我們使用八符號(hào)表示估計(jì)量)。模型最終的目的是為了在新的輸入下,即對(duì)我們還未觀察到的輸入進(jìn)行預(yù)測(cè)(泛化generalization),因?yàn)榛谟?xùn)練集進(jìn)行輸入的預(yù)測(cè)是一件十分容易的事(我們可以僅僅通過查表的方式找到答案)。l.2.l.l舉例舉一個(gè)分類問題的小例子,考慮如圖1.1(a)所示的問題。我們有兩類對(duì)象,分別對(duì)應(yīng)標(biāo)簽0(no)和1(yes)。輸入為彩色的形狀,每個(gè)輸入通過D個(gè)屬性或特征進(jìn)行描述,所有輸入的屬性可以被存儲(chǔ)在一個(gè)大小為NxD的設(shè)計(jì)矩陣X中,如圖1.1(b)所示。輸入特征x的取值可以是離散的,連續(xù)的,或者是兩者的組合。除了輸入,在訓(xùn)練集中,包含一個(gè)標(biāo)簽向量y。圖1.1合。除了輸入,在訓(xùn)練集中,包含一個(gè)標(biāo)簽向量y。圖1.1左:一些含標(biāo)簽的訓(xùn)練樣本和3個(gè)未標(biāo)記的測(cè)試案例;右:表示訓(xùn)練樣本的設(shè)計(jì)矩陣。每一行代表一個(gè)特征向量,最后一列代表標(biāo)簽ye{0,1}。i在圖1.1中,測(cè)試樣本為一個(gè)藍(lán)色的新月,一個(gè)黃色的圓環(huán)和一個(gè)藍(lán)色的箭頭。這些形狀在訓(xùn)練集中都沒有出現(xiàn)過,所以我們需要模型具備泛化能力,從而在新的數(shù)據(jù)上也能表現(xiàn)良好。一個(gè)合理的猜測(cè)是藍(lán)色的新月應(yīng)該屬于y=1,因?yàn)樵谟?xùn)練集中所有的藍(lán)色形狀都被標(biāo)記為1。黃色的圓環(huán)很難被分類,因?yàn)樵谟?xùn)練集中有些黃色被標(biāo)記為1,有些則被標(biāo)記為0,有些圓被標(biāo)記為1,有些圓被標(biāo)記為0。因此很難說黃色的圓環(huán)應(yīng)該屬于哪一類。類似的情況在藍(lán)色箭頭上一樣適用。概率性預(yù)測(cè)的必要性為了處理如上文所提及的預(yù)測(cè)結(jié)果比較模糊的情況(比如黃色的圓環(huán)屬于哪一類),可以利用概率論中的相關(guān)知識(shí)。我們假設(shè)讀者已經(jīng)具備一定的概率論的相關(guān)知識(shí)。當(dāng)然,我們也將會(huì)在第二章進(jìn)行相關(guān)知識(shí)的回顧。在給定訓(xùn)練集D的情況下,輸入向量x所屬的類y服從的分布由p(ylx,D)表示。通常情況下,這個(gè)概率分布的取值有C個(gè)(即y的取值有C種,在二分類問題中,y的取值只有兩種,此時(shí)我們只需要關(guān)心p(y=llx,D)的取值即可,因?yàn)閜(y=llx,D)+p(y=Olx,D)=l)。在我們的符號(hào)表達(dá)中,我們明確概率分布以測(cè)試輸入(新的輸入)x和訓(xùn)練集D作為條件,在形式上表現(xiàn)為x,D被放置在符號(hào)“|”后面。當(dāng)然,在上述的概率分布中我們隱藏了概率分布所基于的模型種類,當(dāng)我們的預(yù)測(cè)是基于多種模型時(shí),我們會(huì)顯式地表達(dá)出概率分布對(duì)模型種類的依賴p(ylx,D,M),其中M表示模型的種類。然而,如果模型的種類在上下文中已經(jīng)很明確,我們?cè)诠街袑⒉辉贂鴮?。如果已知上文中所提及的概率分布p(ylx,D),那么我們總可以使用下式作出最好的預(yù)測(cè),并將其作為真實(shí)的標(biāo)簽輸出:l.l)y=f(x)=argmaxp(y=c|x,D)l.l)式中估計(jì)量y是輸入x最有可能的類的標(biāo)簽,同時(shí)也被稱為分布p(ylx,D)的眾數(shù)(mode)(在一個(gè)概率分布中發(fā)生頻率最高的情況);上式又被稱為最大后驗(yàn)估計(jì)(MAPestimate)。使用最有可能的輸出作為最終的選擇從直覺上是正確的,我們將在5.7節(jié)給出更加正式的證明?,F(xiàn)在回到之前的例子中,假設(shè)我們對(duì)黃色圓環(huán)的標(biāo)簽存在一個(gè)估計(jì)值y,但其概率值p(y|x,D)遠(yuǎn)離1。在這種情況下,我們對(duì)這個(gè)選擇并不是很確定,所以相較于給出這個(gè)不信任的答案,直接指出“我不知道”可能會(huì)更好。這在醫(yī)療或者金融等需要規(guī)避風(fēng)險(xiǎn)的領(lǐng)域尤其重要。
現(xiàn)實(shí)世界中的應(yīng)用分類可能是在機(jī)器學(xué)習(xí)中最廣泛應(yīng)用的形式,已經(jīng)被用來解決很多有趣的但在現(xiàn)實(shí)生活中很難解決的問題。接下來,我們將給出更多的例子。文本分類和垃圾郵箱過濾在文本分類(documentclassification)問題中,我們的目標(biāo)是將一個(gè)文本分類成C類中的一種,這里的文本可以是一個(gè)網(wǎng)頁(yè)或者一個(gè)郵件信息,從概率的角度分析,即需要計(jì)算p(y二c|x,D),其中x為某個(gè)文本的向量化表示。在文本分類問題中,有一類問題被稱為垃圾郵件過濾(emailspamfiltering),在這類問題中,y的取值可以是1(垃圾郵件)或者0(非垃圾郵件)。大部分分類器都假設(shè)輸入向量x的大小是固定的。一種將變長(zhǎng)文本轉(zhuǎn)化為固定長(zhǎng)度的特征向量的方法是詞袋法(bagofwords)。我們將在節(jié)解釋更多的細(xì)節(jié),其基本的思想是如果單詞j在文本i中出現(xiàn),則x二1。如果我們使用這ij種表達(dá)方式,我們將得到一個(gè)大小為“文本數(shù)量x單詞數(shù)量”的二元矩陣(這里的二元是指矩陣中的每一個(gè)元素只能取0或者1),圖1.2為我們提供了案例。-二?二一一S■三=—■二■III三一--S-亠一§_-_-==_-二?二一一S■三=—■二■III三一--S-亠一§_-_-==_----------=----=-H玄__=---■=--=-====-■3=---------------圖1.2圖中每一行代表一個(gè)文本(1000個(gè)),每一列代表一個(gè)單詞(100個(gè)),圖中黑色表示某個(gè)單詞在某個(gè)文本中出現(xiàn),白色代表不出現(xiàn)。紅色水平線將不同類別的文本分割開。不難發(fā)現(xiàn),同一類別的文本的圖形十分相似。圖中數(shù)據(jù)可以從/~roweis/data.html得到。圖形由程序newsgroupsVisualize生成。圖1.3不同種類的鳶尾花花朵分類圖1.3給出了分類問題的另一個(gè)例子,其目的是區(qū)分三種不同的鳶尾花,分別為setosa,versicolor和virginica。幸運(yùn)的是,我們不需要直接對(duì)圖像進(jìn)行分類,一個(gè)植物學(xué)家已經(jīng)提取了對(duì)分類有用的4種特征:萼片長(zhǎng)度和寬度,花瓣長(zhǎng)度和寬度。類似于這種選擇合適特征的工作被稱為特征提?。╢eatureextraction),這是一項(xiàng)特別重要而且困難的任務(wù)。大部分機(jī)器學(xué)習(xí)方法使用人工選擇的特征。后面我們將討論一些可以從數(shù)據(jù)中習(xí)得好的特征的方法。如果我們?nèi)鐖D1.4那樣繪制鳶尾花數(shù)據(jù)的散點(diǎn)圖,不難發(fā)現(xiàn),我們僅僅通過花瓣的長(zhǎng)度或者寬度就可以將setosas(紫色圓)與其他兩種區(qū)分開。然而,要想將versiclor與virginica區(qū)分開來卻有一點(diǎn)難度;任何決定都基于至少2個(gè)特征。(在應(yīng)用機(jī)器學(xué)習(xí)方法之間,對(duì)數(shù)據(jù)進(jìn)行探索性的分析是十分有用的,比如繪制數(shù)據(jù)圖。)
圖1.4不同鳶尾花數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,圖片由程序fisheririsDemo生成。圖1.4不同鳶尾花數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,圖片由程序fisheririsDemo生成。圖像分類和手寫識(shí)別在花朵分類問題中,我們并未對(duì)花朵的圖像直接處理,而是采用人為提取的特征進(jìn)行分類。下面考慮一個(gè)更困難的問題,對(duì)圖片直接進(jìn)行分類,這里并不涉及對(duì)數(shù)據(jù)的預(yù)處理。我們可能需要對(duì)一張圖片進(jìn)行整體上的分類,比如:這張圖片是室內(nèi)還是室外景?它是水平還是垂直的?圖中是否包含一條狗?這類任務(wù)被稱為圖像分類(imageclassification)o有一種情況比較特殊,即圖片中僅包含單獨(dú)的手寫數(shù)字和字母,比如一封信的郵政編碼,我們可以通過分類實(shí)現(xiàn)手寫識(shí)別(handwritingrecognition)o在這個(gè)領(lǐng)域中所使用的標(biāo)準(zhǔn)數(shù)據(jù)集是MNIST,全稱為:“ModfiedNationalInstituteofStandards”(單詞“Modified”是指為了使圖片中的數(shù)字居中而進(jìn)行了預(yù)處理。)這
個(gè)數(shù)據(jù)集包含60000張訓(xùn)練圖片和10000張測(cè)試圖片,每張圖片上為不同人書寫的數(shù)字0-9。圖片尺寸為28x28,灰度值范圍為0:255。圖1.5(a)展示了相關(guān)案例。irue=7trueclass工2trueclass工1(ruedass=0lru@clas^=4true亡lirue=7trueclass工2trueclass工1(ruedass=0lru@clas^=4true亡l昔ss-1truedas&=4trueclass-9trueclass-5圖1.5(a)MNIST中前9張手寫數(shù)字灰度圖。(b)與(a)相同,但其圖中像素被隨機(jī)變換。在兩個(gè)版本的數(shù)據(jù)集上分類的性能是一樣的(訓(xùn)練集按照相同的方法進(jìn)行像素的變換)圖1.6版本的數(shù)據(jù)集上分類的性能是一樣的(訓(xùn)練集按照相同的方法進(jìn)行像素的變換)圖1.6針對(duì)離散數(shù)據(jù)進(jìn)行擬合:(a)一階曲線擬合;(b)二階曲線擬合。圖形由程序linregPolyVsDegree生成。1.2.2回歸回歸與分類很像,不同之處在于,回歸所輸出的變量是連續(xù)的。圖1.6展示了一個(gè)簡(jiǎn)單的例子:我們擁有一個(gè)實(shí)值輸入xieo,和一個(gè)相應(yīng)的輸出yieQo我們考慮使用兩種模式去匹配這些數(shù)據(jù):一條直線和一條二次函數(shù)曲線(我們將在后文介紹如何訓(xùn)練這些模型)?;谶@個(gè)基本問題的展開還有很多,比如高維的輸入,異常值,非光滑相應(yīng)等等。我們將在后面介紹處理這些問題的方法。以下是在現(xiàn)實(shí)世界中的一些回歸問題。?基于當(dāng)前市場(chǎng)的情況和一些其他的輔助信息預(yù)測(cè)明天的股票價(jià)格;預(yù)測(cè)一個(gè)觀看YouTube上特定視頻的觀眾的年齡;使用天氣數(shù)據(jù),時(shí)間等信息預(yù)測(cè)某建筑內(nèi)任意位置的溫度。1.3非監(jiān)督學(xué)習(xí)我們現(xiàn)在考慮非監(jiān)督學(xué)習(xí),其目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)中“有趣的結(jié)構(gòu)”;這通常被稱為知識(shí)挖掘(knowledgediscovery)。與監(jiān)督學(xué)習(xí)不同,我們并沒有被告知每個(gè)輸入所對(duì)應(yīng)的預(yù)期輸出。相反,我們將無監(jiān)督學(xué)習(xí)任務(wù)作為密度估計(jì)中的一種,即我們希望建立一個(gè)模型p(x0)。這個(gè)形式與監(jiān)督學(xué)習(xí)中的概率表達(dá)存在兩個(gè)i方面的不同。首先,我們用p(x0)代替p(y|x,9);即監(jiān)督學(xué)習(xí)是一個(gè)條件密度iii估計(jì),然而非監(jiān)督學(xué)習(xí)是一個(gè)無條件概率估計(jì)。第二,氣是一個(gè)特征向量,所以我們需要建立一個(gè)多變量概率模型。相反,在監(jiān)督學(xué)習(xí)中,片通常只是一個(gè)單獨(dú)的變量。這就意味著,在大部分監(jiān)督學(xué)習(xí)中,我們可以使用單變量概率模型,從而大大簡(jiǎn)化了問題本身。非監(jiān)督學(xué)習(xí)可以說是人類和動(dòng)物學(xué)習(xí)的典型方法,相較于監(jiān)督學(xué)習(xí),其使用更加廣泛,因?yàn)樗恍枰藶榈臉?biāo)記數(shù)據(jù)。含標(biāo)簽的數(shù)據(jù)不僅很難獲得,同時(shí)它所具備的信息也相對(duì)較少,以至于難以用于估計(jì)復(fù)雜模型的參數(shù)。GeoffHinton是在ML(機(jī)器學(xué)習(xí))領(lǐng)域著名的教授,他說:當(dāng)我們學(xué)習(xí)觀察事物時(shí),沒有人告訴我們正確的答案是什么——我們只是在觀察。通常情況下,你的母親會(huì)說“那是一條狗”,但其所具備的信息是很少的。如果你獲得一些信息,哪怕一秒鐘只有一比特,那也是很幸運(yùn)的。人類大腦的視覺系統(tǒng)擁有1014個(gè)神經(jīng)連接。一個(gè)人的壽命為109秒。所以每秒鐘學(xué)習(xí)一個(gè)比特的信息并沒有用,你需要額外的105的學(xué)習(xí)速率。擁有如此多的信息的地方只有一個(gè),那就是輸入本身。——GeoffreyHinton,1996.接下來,我們將描述一些在非監(jiān)督學(xué)習(xí)中經(jīng)典的例子。5rara050衣25衛(wèi)刃17151210AA-?iAo??<183nBA.^?0SUsWBA-@AszA-snnsfXW8A-AEASHHiA-ASA-i5rara050衣25衛(wèi)刃17151210AA-?iAo??<183nBA.^?0SUsWBA-@AszA-snnsfXW8A-AEASHHiA-ASA-ia)ba)圖1.7(a)—些人的身高體重的數(shù)據(jù);(b)當(dāng)尺=2時(shí)可能存在的簇。圖片由程序kmeansHeightWeight繪制。1.3.1發(fā)現(xiàn)聚類作為非監(jiān)督學(xué)習(xí)中的典型案例,考慮將數(shù)據(jù)聚類為簇(clusters)。舉例來說,圖1.7(a)繪制了一些2維數(shù)據(jù),代表210個(gè)人的身高和體重。從圖中可以發(fā)現(xiàn),數(shù)據(jù)中好像存在不同的簇或者子群,盡管我們并不知道這些簇到底有多少個(gè)。假設(shè)K為簇的數(shù)目。我們首先需要估計(jì)簇的數(shù)目的分布p(KID)。為簡(jiǎn)單起見,我們通常利用p(K|D)的眾數(shù)作為估計(jì)量,即K*=argmaxp(K|D)。在監(jiān)督學(xué)習(xí)中,K我們會(huì)被告知預(yù)測(cè)值有多少個(gè)類別,但在非監(jiān)督學(xué)習(xí)中,我們可以自由選擇簇(類)的數(shù)目。我們的第二個(gè)目標(biāo)是估計(jì)每個(gè)數(shù)據(jù)點(diǎn)屬于哪一個(gè)簇。令zie{1,…,K}弋表數(shù)據(jù)點(diǎn)i所歸屬的簇。(勺又被稱為隱變量或者潛變量,因?yàn)樵谟?xùn)練集中從未見過)。我們可以通過計(jì)算z*=argmaxp(z=k|x,D)來推測(cè)每個(gè)數(shù)據(jù)點(diǎn)所歸屬的簇。ikii如圖1.7(b)所示,我們使用不同的顏色代表不同的簇,其中我們假設(shè)K=2。在本書中,我們主要關(guān)注基于模型方法的聚類,這就意味著我們利用概率模型去適應(yīng)數(shù)據(jù),而不是其他的一些算法?;谀P偷姆椒ǖ膬?yōu)勢(shì)在于,我們可以客觀的比較不同的模型,并且在一些大規(guī)模系統(tǒng)中,我們可以將不同的模型組合起來。在電子商務(wù)中,我們經(jīng)常會(huì)根據(jù)客戶的購(gòu)買行為或者網(wǎng)站搜索行為將它們聚類到不同簇中,然后針對(duì)不同的簇發(fā)送定制的廣告。圖1.8(a)將3維空間中的數(shù)據(jù)映射到二維線性空間中,其中紅色實(shí)線是第一組分方向,黑色虛線為第二組分方向。(b)數(shù)據(jù)映射在二維空間上的情況。1.3.2發(fā)現(xiàn)潛在因子在處理維度特別高的數(shù)據(jù)時(shí),通常需要通過將數(shù)據(jù)投影到低維空間中實(shí)現(xiàn)數(shù)據(jù)的降維,從而獲得數(shù)據(jù)的“本質(zhì)”。一個(gè)簡(jiǎn)單的例子如圖1.8所示,其中我們將一些3d數(shù)據(jù)投影到一個(gè)2d平面。這個(gè)2d的近似效果很好,因?yàn)榇蟛糠贮c(diǎn)都靠近這個(gè)子空間。將數(shù)據(jù)點(diǎn)映射到直線上可以將數(shù)據(jù)降到1維空間,如圖1.8(a)所示;這種近似的效果并不好。降維背后的動(dòng)力在于盡管實(shí)際的數(shù)據(jù)可能是高維的,但其可能只有少量的主導(dǎo)因素,這些潛在的主導(dǎo)因素被稱為潛在因子(latentfactors)。舉例來說,當(dāng)我們對(duì)人臉圖像進(jìn)行建模時(shí),可能只有少數(shù)潛在的因子主導(dǎo)著不同圖像的變化,比如光線,位置,身份(但是一個(gè)圖像的維度卻很高)等等。將低維的向量表示作為統(tǒng)計(jì)模型的輸入往往會(huì)取得更好的預(yù)測(cè)精度,因?yàn)檩斎雰H僅關(guān)注了數(shù)據(jù)的“本質(zhì)”,排除了那些不必要特征。同時(shí),低維表示可以加快最近鄰目標(biāo)的搜索,數(shù)據(jù)在二維空間的投影可以使數(shù)據(jù)的可視化更加直觀。最常用的降維方法是主元分析(principalcomponentsanalysis,PCA)。這可以被認(rèn)為是線性回歸的非監(jiān)督版本,在PCA中,我們觀察到的是最終的高維響應(yīng)數(shù)據(jù)y,而不是低維的“起因”z,所以模型具備形式z-y,我們需要“反轉(zhuǎn)這個(gè)箭頭”,從觀察到的高維數(shù)據(jù)y推斷出潛在的低維數(shù)據(jù)z。降維,尤其是PCA,已經(jīng)在很多領(lǐng)域中得到應(yīng)用。1.4機(jī)器學(xué)習(xí)中的一些基本概念本章,我們將介紹機(jī)器學(xué)習(xí)中一些核心概念。我們將在后面的內(nèi)容中擴(kuò)展這些概念。1.4.1參數(shù)模型和非參數(shù)模型在本書中,我們將關(guān)注概率模型p(y|x)或p(x),采用哪種模型取決于研究的問
題是監(jiān)督學(xué)習(xí)還是非監(jiān)督學(xué)習(xí)。有很多方法來確定概率模型,不同方法中最重要的區(qū)別在于:模型是否具備固定的參數(shù)數(shù)量,或者說參數(shù)數(shù)量是否隨訓(xùn)練樣本的增加而增加?前者被稱為參數(shù)模型(parametricmodel),后者被稱為非參數(shù)模型(non-parametricmodel)。參數(shù)模型的優(yōu)勢(shì)在于使用起來更加快捷,其缺點(diǎn)在于它需要對(duì)數(shù)據(jù)分布作很強(qiáng)的假設(shè)。非參數(shù)模型則更加靈活,但是對(duì)于大的數(shù)據(jù)集而言,其計(jì)算難度通常很大。我們?cè)诤竺娴恼鹿?jié)中給出兩種模型的例子。為了方便,我們主要針對(duì)監(jiān)督學(xué)習(xí)進(jìn)行討論,盡管我們很多的討論同樣適用于非監(jiān)督學(xué)習(xí)。1rainX4竇,采Vx204D別SOI0Dp{X-2ldatah1rainX4竇,采Vx204D別SOI0Dp{X-2ldatahK-iO?204060SHJ1Q0(0predictedlabel,K-ia(d}圖1.9(a)二維空間中的訓(xùn)練集(共3個(gè)類別);(b)K=10時(shí),數(shù)據(jù)屬于類1的概率分布;(c)數(shù)據(jù)屬于類2的概率分布;(d)類標(biāo)簽的最大后延概率。1.4.2—個(gè)簡(jiǎn)單的非參數(shù)分類器:K近鄰(K-nearestneighbors)非參數(shù)分類器的簡(jiǎn)單例子是K近鄰(KNN)分類器。在這個(gè)模型中,針對(duì)測(cè)試輸入x的分類僅僅參考距離該點(diǎn)最近的K個(gè)訓(xùn)練集中的樣本,統(tǒng)計(jì)在這個(gè)集合(K個(gè)鄰居)中,每個(gè)類的數(shù)量,返回在這個(gè)集合中每個(gè)類別的占比作為估計(jì)量,形式上表達(dá)為:TOC\o"1-5"\h\zp(y二cx,D,K)=—工I(y二c)(1.2)Kiz*gNk(x,D)其中Nk(x,D)為在數(shù)據(jù)集D中距離x最近的K個(gè)數(shù)據(jù)點(diǎn),I(e)為指示函數(shù),定義為:「1ifeistrue/、I(e)=\(1.3)[Oifeisfalse這個(gè)方法被稱為基于存儲(chǔ)的學(xué)習(xí)(memory-basedlearning)或者基于樣例的學(xué)習(xí)(instance-basedlearning)。在這個(gè)方法中,最常用的距離測(cè)度為歐拉距離(該距離將這個(gè)技術(shù)限制在了實(shí)數(shù)領(lǐng)域),盡管其他的測(cè)度也可以使用。圖1.9給出了這個(gè)方法在實(shí)際使用過程中的一個(gè)例子,其中輸入為2維向量,所有數(shù)據(jù)共有3類,此時(shí)我們選擇K=10(我們會(huì)在后面的內(nèi)容中討論K的影響)。圖(a)繪制了訓(xùn)練數(shù)據(jù),圖(b)繪制了p(y=1lx,D),圖(c)繪制了p(y=2|x,D),我們不需要繪制p(y=3lx,D),因?yàn)槊總€(gè)點(diǎn)屬于哪個(gè)類的概率滿足歸一化定理。圖(d)繪制了最大后驗(yàn)概率分布y(x)=argmaxp(y=c|x,D)。圖1.10維度災(zāi)難的示意圖。(a)將一個(gè)邊長(zhǎng)為s的小立方體嵌入到一個(gè)更大的單元立方體。(b)不同維度下小立方體的邊長(zhǎng)與數(shù)據(jù)包含占比的關(guān)系。1.4.3維度災(zāi)難KNN分類器十分簡(jiǎn)單且效果很好,其前提是需要一個(gè)好的距離測(cè)度以及足夠多的標(biāo)記數(shù)據(jù)。然而,KNN的劣勢(shì)在于它不適用于高維輸入。造成這個(gè)問題的原因是維度災(zāi)難(curseofdimensionality)。為了解釋維度災(zāi)難,我們給出一個(gè)案例??紤]一個(gè)在D維單元空間中非均勻分布的數(shù)據(jù)集,基于該數(shù)據(jù)集進(jìn)行KNN的分類。為了估計(jì)測(cè)試輸入x的類標(biāo)簽分布密度,我們?cè)趚附近建立一個(gè)超立方體,為了保證x的鄰居數(shù)目達(dá)到一定的比例f,我們不斷放大這個(gè)超立方體??紤]到整個(gè)數(shù)據(jù)集分布在一個(gè)單元空間(體積為1)中,所以當(dāng)比例f滿足時(shí),小的超立方體的體積為f,那么超立方體的邊長(zhǎng)為e二f1/D。如果D=10(即輸入特征維度為10),我們希望基于整個(gè)數(shù)據(jù)集D10%的數(shù)據(jù)做密度估計(jì),則e(0.1)=0.8,也就是說我們需要在每個(gè)維度擴(kuò)展超10立方體80%。哪怕我們只需要1%的數(shù)據(jù)量,e(0.01)=0.63:可以結(jié)合圖1.10加10深理解。因?yàn)閿?shù)據(jù)在每個(gè)維度的整個(gè)范圍只是1,所以當(dāng)使用KNN時(shí),這種方法不再具備局域性。換句話說,KNN需要考察最近的鄰居,而當(dāng)數(shù)據(jù)維度特別高時(shí),最近的鄰居實(shí)際上也很遠(yuǎn),那么它對(duì)測(cè)試輸入x的估計(jì)的參考價(jià)值就很低了。1.4.4分類和回歸中的參數(shù)模型為了解決維度災(zāi)難的問題,一種主要的方式是對(duì)數(shù)據(jù)的分布(p(y|x)或者p(x))作出一些假設(shè)。這些假設(shè)通常以參數(shù)模型的形式展示出來(比如我們假設(shè)數(shù)據(jù)分布服從高斯分布,那么相應(yīng)的模型就由參數(shù)期望和方差決定)。接下來,我們將簡(jiǎn)要的描述兩種廣泛使用的參數(shù)模型;我們會(huì)在后面的內(nèi)容中重新接觸這些模型。的可視化。1.4.5線性回歸在回歸模型中最廣泛使用的線性回歸,在這個(gè)模型中,輸出是輸入的線性函數(shù)。y(x)二wtx+s二蘭wx+£(1.4)jjj=1其中wTX代表輸入向量x和模型權(quán)重向量w的內(nèi)積。£表示線性預(yù)測(cè)值與真實(shí)值之間的殘差。通常情況下,我們假設(shè)£服從高斯或者正態(tài)分布,符號(hào)上表示為£口N(卩Q2),其中卩表示期望,b2表示方差。高斯分布的圖形如圖1.11(a)所示。為了建立線性回歸與高斯分布之間的聯(lián)系,我們重新書寫模型的形式為:p(yx,0)=N(yp(x),o2(x))(1.5)上式表明該模型是一個(gè)條件概率密度。在最簡(jiǎn)單的情況下,我們假設(shè)卩為關(guān)于輸入x的線性函數(shù),即R=WTx,方差取固定值b2(x)=b2。在這種情況下,0=(wQ2)為模型的參數(shù)。舉例來說,假設(shè)輸入是1維變量,我們可以表示期望輸出為:血)=w+wx=wTx(1.6)01其中W0為偏置項(xiàng),W]為斜率,向量x=(1,x)(通過在特征中引入常數(shù)項(xiàng)1,可以將偏置項(xiàng)與其他項(xiàng)組合起來,這是一個(gè)常用的技巧)。如果w1>0,意味著我們期望模型的輸出隨著輸入的增加而增加。圖1.12針對(duì)21個(gè)數(shù)據(jù)點(diǎn),利用階數(shù)為14和20的多項(xiàng)式擬合。線性回歸也可以表達(dá)關(guān)于x的非線性關(guān)系,只需要將輸入x代替為一些非線性函數(shù)0(x),即:
1.7)p(y|x,e)=N(y|w神(x),02)1.7)這被稱為基函數(shù)擴(kuò)展(basisfunctionexpansion)。舉例來說,圖1.12說明了這種情況,其中e(x)=[1x,x2,...,xd],圖中分別對(duì)應(yīng)d=14和d=20兩種情況;這被稱為多項(xiàng)式擬合。我們會(huì)在本書的后面部分介紹其他的基函數(shù)。事實(shí)上,許多著名的機(jī)器學(xué)習(xí)算法——比如支持向量機(jī),神經(jīng)網(wǎng)絡(luò),分類和決策樹等等——都可以看作是從數(shù)據(jù)當(dāng)中估計(jì)基函數(shù)的不同方法,我們將在14和16章討論。0.2(h)/圖1.130.2(h)/圖1.13(a)sigmoid函數(shù);(b)針對(duì)SAT分?jǐn)?shù)的邏輯回歸。實(shí)心黑點(diǎn)為原始數(shù)據(jù)。空心紅點(diǎn)為預(yù)測(cè)的概率值。綠色的x表示分類錯(cuò)誤的情況。1.4.6邏輯回歸我們只需要作出兩個(gè)調(diào)整,就可以將線性回歸泛化到(二元)分類問題。首p(y|x,p(y|x,w)=Ber(y卩1.8)其中卩(x)=町y|x]=p(y=1X)。其次,跟之前一樣,我們計(jì)算關(guān)于輸入的線性組合WTX,但是為了保證0(X)<1,需要將WTX傳入一個(gè)非線性函數(shù):1.9)(x)=sigm(wTX1.9)其中sigmG)為sigmoid函數(shù),又被稱為logistic或者logit函數(shù)。定義為:sigmS口sigmS口nexp^廠enen+11.10)術(shù)語(yǔ)“sigmoid”表示S-形:如圖1.13(a)所示。該函數(shù)又被稱為截?cái)嗪瘮?shù),因?yàn)樗鼘⒄麄€(gè)實(shí)數(shù)軸映射到[0,1]區(qū)間,這對(duì)于需要輸出具有概率解釋(需要保證在區(qū)間[0,1]內(nèi))的變量來說很重要。綜合考慮前文內(nèi)容,得到p(—綜合考慮前文內(nèi)容,得到p(—p(yx,w)=BerCsigm(wTXA1.11)上式被稱為邏輯回歸(logisticregression),我們稱其為回歸,是因?yàn)樗c線性回歸的形式十分相似(盡管它實(shí)質(zhì)上是分類而非回歸問題)。一個(gè)簡(jiǎn)單的關(guān)于邏輯回歸的例子如圖1.13(b)所示,圖中我們繪制了p(yp(yi=1lx,w)=sigm(w+wx)-oii1.12)其中%為學(xué)生i的SATio的成績(jī),北表示學(xué)生是否通過了課程。黑點(diǎn)展示了訓(xùn)練數(shù)據(jù),紅圈繪制了p(y=1|x,W)曲線,其中W為根據(jù)訓(xùn)練樣本得到的關(guān)于參數(shù)的估計(jì)ii值(我們將在后面討論如何計(jì)算這個(gè)估計(jì)值)。如果我們?yōu)檩敵龈怕试O(shè)置閾值為0.5,我們可以決定一個(gè)決策規(guī)則(decisionrule)為:y(x)=1op(y=1|x)>0.5(1.13)通過觀察圖1.13(b),我們發(fā)現(xiàn)sigm(w+wx)=0.5時(shí)對(duì)應(yīng)的x?545=x*。我們01i可以想象在圖中繪制了一條垂直曲線x=x*,這被稱為決策邊界。邊界左邊的所有情況都?xì)w為0(沒通過),右邊歸類為1(通過)。我們發(fā)現(xiàn)基于這條決策規(guī)則的分類結(jié)果存在誤分類。因?yàn)閿?shù)據(jù)不是線性可分(linearlyseparable)的,也就是說沒有一條直線可以將0類和1類分開。我們可以利用基函數(shù)建立模型從而輸出非線性決策邊界。我們?cè)诤竺娴恼鹿?jié)中將會(huì)看到更多的例子。1.4.7過擬合當(dāng)我們訓(xùn)練非常靈活的模型時(shí),我們需要關(guān)注模型是否過分適應(yīng)數(shù)據(jù)(過擬合),也就是說我們應(yīng)該避免對(duì)輸入中的任何微小的變化進(jìn)行建模,因?yàn)槟切┪⑿〉淖兓苡锌赡苁窃胍舳钦鎸?shí)的信號(hào)。這個(gè)在圖1.12(b)中可以體現(xiàn),我們發(fā)現(xiàn)當(dāng)使用一個(gè)階數(shù)特別高的多項(xiàng)式擬合數(shù)據(jù)時(shí),曲線會(huì)非常“扭曲”。真實(shí)的函數(shù)基本上不會(huì)是這樣的變化趨勢(shì)。因此使用這樣的模型很難保證未來預(yù)測(cè)的精度。[:redidEdlabel.K-lpredba^llabel.K-5[:redidEdlabel.K-lpredba^llabel.K-5圖1.14(a)當(dāng)K=1時(shí)的決策邊界;(b)當(dāng)K=5時(shí)的決策邊界。另一個(gè)例子,考慮KNN分類器。K值對(duì)模型的性能有重要的影響。當(dāng)K=1時(shí),模型在訓(xùn)練樣本上沒有錯(cuò)誤,但最終的預(yù)測(cè)表面卻非常“扭曲”(如圖1.14(a))所示。所以這種方法在預(yù)測(cè)未來的數(shù)據(jù)時(shí)未必奏效。在圖1.14(b)中,我們發(fā)現(xiàn)當(dāng)使用K=5時(shí),結(jié)果的預(yù)測(cè)表面將會(huì)更加光滑,因?yàn)槲覀冊(cè)谝粋€(gè)更大的鄰居域內(nèi)求平均。當(dāng)K不斷增加時(shí),決策邊界將會(huì)更加光滑,當(dāng)K=N時(shí),我們將所有預(yù)測(cè)輸入的類別都判定為數(shù)據(jù)集中的占主要部分的類別。接下來,我們將討論如何選擇合適的K值。(a)(a)圖1.15圖1.15(a)KNN分類誤分類率與K值的關(guān)系。在圖形左側(cè),當(dāng)K非常小時(shí),模型因?yàn)檫^于復(fù)雜因此出現(xiàn)過擬合,在圖形右側(cè),當(dāng)K很大時(shí),模型簡(jiǎn)單出現(xiàn)欠擬合。藍(lán)色點(diǎn)畫線為訓(xùn)練集誤分類率。紅色實(shí)線為測(cè)試集上的誤分類率。(b)5-flod交叉驗(yàn)證示意圖。1.4.8模型選擇當(dāng)我們擁有一系列不同復(fù)雜度的模型時(shí)(比如,包含不同階數(shù)的線性或邏輯回歸模型,或者具有不同K值的KNN模型),我們?cè)撊绾芜x擇最合適的那一個(gè)呢?一個(gè)自然的方法是計(jì)算每個(gè)方法在訓(xùn)練集上的誤分類率(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 人防工程制式銷售合同范本
- 分散采購(gòu)服務(wù)合同范本
- 農(nóng)村燃?xì)獍惭b合同范例
- 協(xié)助寵物國(guó)際托運(yùn)合同范本
- 農(nóng)田租賃合同范本
- 專利轉(zhuǎn)讓入股合同范本
- 養(yǎng)魚合作轉(zhuǎn)讓合同范本
- 公版采購(gòu)合同范本
- 單位解聘教師合同范本
- 買賣中介公司合同范本
- 人教版小學(xué)數(shù)學(xué)一年級(jí)下冊(cè)教案
- 《住院患者身體約束的護(hù)理》團(tuán)體標(biāo)準(zhǔn)解讀課件
- 新版人音版小學(xué)音樂一年級(jí)下冊(cè)全冊(cè)教案
- 2024年黑龍江建筑職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)全面
- 公因數(shù)、最大公因數(shù)的應(yīng)用
- CBT主要技術(shù)精品課件
- 常用液壓元件型號(hào)對(duì)照表230
- 項(xiàng)目章程模板范文
- 泰山產(chǎn)業(yè)領(lǐng)軍人才工程系統(tǒng)
- 輪扣架支模體系材料量計(jì)算
- 主題班會(huì)教案《讀書好讀好書好讀書》班會(huì)方案
評(píng)論
0/150
提交評(píng)論