版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中,我們經(jīng)常需要知道個(gè)體間差異的大小,進(jìn)而評(píng)價(jià)個(gè)體 的相似性和類(lèi)別。最常見(jiàn)的是數(shù)據(jù)分析中的相關(guān)分析,數(shù)據(jù)挖掘中的分類(lèi)和聚 類(lèi)算法,如K最近鄰(KNN)和K均值(K-Means)等等。根據(jù)數(shù)據(jù)特性的不同,可以采用不同的度量方法。一般而言,定義一個(gè)距離函數(shù) d(x,y),需要滿足下面幾個(gè)準(zhǔn)則:1) d(x,x) = 0/到自己的距離為02) d(x,y) = 0/ 距離非負(fù)3) d(x,y) = d(y,x)/對(duì)稱(chēng)性:如果 A至U B距離是a,那么B到A的距離也應(yīng)該是a4) d(x,k)+ d(k,y) = d(x,y) /三角形法則:(兩邊之和大于第三邊)這篇博客主要介紹機(jī)器
2、學(xué)習(xí)和數(shù)據(jù)挖掘中一些常見(jiàn)的距離公式,包括:1 .閔可夫斯基距離2 .歐幾里得距離3 .曼哈頓距離4 .切比雪夫距離5 .馬氏距離6 .余弦相似度7 .皮爾遜相關(guān)系數(shù)8 .漢明距離9 .杰卡德相似系數(shù)10 .編輯距離11 . DTW距離12 . KL散度1 .閔可夫斯基距離閔可夫斯基距離(Minkowski distance )是衡量數(shù)值點(diǎn)之間距離的一種非常常見(jiàn)的方法,假設(shè)數(shù)值點(diǎn) P和Q坐標(biāo)如下:P =(雹入1方7重刀and Q =(如,眥) Rn那么,閔可夫斯基距離定義為:1/?該距離最常用的p是2和1,前者是歐幾里得距離(Euclidean distance),后者是曼哈頓距離(Manhat
3、tan distance )。假設(shè)在曼哈頓街區(qū)乘坐出租車(chē)從P點(diǎn)到Q點(diǎn),白色表示高樓大廈,灰色表示街道:綠色的斜線表示歐幾里得距離,在現(xiàn)實(shí)中是不可能的。其他三條折線表示了曼哈頓距離,這三條折線的長(zhǎng)度是相等的。當(dāng)p趨近于無(wú)窮大時(shí),閔可夫斯基距離轉(zhuǎn)化成 切比雪夫距離(Chebyshevdistance):我們知道平面上到原點(diǎn)歐幾里得距離(p = 2)為1的點(diǎn)所組成的形狀是一個(gè)圓,當(dāng)p取其他數(shù)值的時(shí)候呢?注意,當(dāng)p 1時(shí),閔可夫斯基距離不再符合三角形法則,舉個(gè)例子:當(dāng)p 2,而(0,1)到這兩個(gè)點(diǎn)的距離都是1。閔可夫斯基距離比較直觀,但是它與數(shù)據(jù)的分布無(wú)關(guān),具有一定的局限性,如果x方向的幅值遠(yuǎn)遠(yuǎn)大于y
4、方向的值,這個(gè)距離公式就會(huì)過(guò)度放大x維度的作用。所以,在計(jì)算距離之前,我們可能還需要對(duì)數(shù)據(jù)進(jìn)行z-transform 處理,即減去均值,除以標(biāo)準(zhǔn)差:產(chǎn)1 一口工協(xié)一口八(徹 i 敢)T (-)M:該維度上的均值。:該維度上的標(biāo)準(zhǔn)差可以看到,上述處理開(kāi)始體現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)特性了。這種方法在假設(shè)數(shù)據(jù)各個(gè)維度不相關(guān)的情況下利用數(shù)據(jù)分布的特性計(jì)算出不同的距離。 如果維度相互之間數(shù)據(jù) 相關(guān)(例如:身高較高的信息很有可能會(huì)帶來(lái)體重較重的信息, 因?yàn)閮烧呤怯嘘P(guān) 聯(lián)的),這時(shí)候就要用到 馬氏距離(Mahalanobis distance) 了。2 .馬氏距離考慮下面這張圖,橢圓表示等高線,從歐幾里得的距離來(lái)算,綠
5、黑距離大于紅黑 距離,但是從馬氏距離,結(jié)果恰好相反:Y八distance (red, black) disUnce(greenF black) X馬氏距離實(shí)際上是利用 Cholesky transformation來(lái)消除不同維度之間的相關(guān)性 和尺度不同的性質(zhì)。假設(shè)樣本點(diǎn)(列向量)之間的協(xié)方差對(duì)稱(chēng)矩陣是 ,通過(guò)Cholesky Decomposition (實(shí)際上是對(duì)稱(chēng)矩陣 LU分解的一種特殊形式,可參考 之前的援笈)可以轉(zhuǎn)化為下三角矩陣和上三角矩陣的乘積: = LLT 0消除不同維度之間的相關(guān)性和尺度不同,只需要對(duì)樣本點(diǎn)x做如下處理:;=-1(一,力。處理之后的歐幾里得距離就是原樣本的馬氏距離
6、:為了書(shū)寫(xiě)方便,這里求馬氏距離的平方):= (L1(x-p)T(L1(x-ij)(x -(j)T (LL7)1 (x - p)T -1二切工(X . P)下圖藍(lán)色表示原樣本點(diǎn)的分布,兩顆紅星坐標(biāo)分別是(3, 3) , (2,-2)由于x, y方向的尺度不同,不能單純用歐幾里得的方法測(cè)量它們到原點(diǎn)的距 離。并且,由于x和y是相關(guān)的(大致可以看出斜向右上),也不能簡(jiǎn)單地在 x和y方向上分別減去均值,除以標(biāo)準(zhǔn)差。最恰當(dāng)?shù)姆椒ㄊ菍?duì)原始數(shù)據(jù)進(jìn)行Cholesky變換,即求馬氏距離(可以看到,右邊的紅星離原點(diǎn)較近):將上面兩個(gè)圖的繪制代碼和求馬氏距離的代碼貼在這里,以備以后查閱:View Code馬氏距離的
7、變換和 PCA分解的白化處理頗有異曲同工之妙.不同之處在于:就 二維來(lái)看,PCA是將數(shù)據(jù)主成分旋轉(zhuǎn)到x軸(正交矩陣的酉變換),再在尺度 上縮放(對(duì)角矩陣),實(shí)現(xiàn)尺度相同。而馬氏距離的L逆矩陣是一個(gè)下三角,總體來(lái)說(shuō)是一個(gè)仿射變換。3 .向量?jī)?nèi)積向量?jī)?nèi)積是線性代數(shù)里最為常見(jiàn)的計(jì)算,實(shí)際上它還是一種有效并且直觀的相似性測(cè)量手段。向量?jī)?nèi)積的定義如下:直觀的解釋是:如果x高的地方y(tǒng)也比較高,x低的地方y(tǒng)也比較低,那么 整體的內(nèi)積是偏大的,也就是說(shuō) x和y是相似的。舉個(gè)例子,在一段長(zhǎng)的序列 信號(hào)A中尋找哪一段與短序列信號(hào) a最匹配,只需要將a從A信號(hào)開(kāi)頭逐 個(gè)向后平移,每次平移做一次內(nèi)積,內(nèi)積最大的相似度
8、最大。信號(hào)處理中DFT和 DCT也是基于這種內(nèi)積運(yùn)算計(jì)算出不同頻域內(nèi)的信號(hào)組分(DFT和DCT是正交標(biāo)準(zhǔn)基,也可以看做投影)。向量和信號(hào)都是離散值,如果是連續(xù)的函數(shù)值, 比如求區(qū)間-1,1兩個(gè)函數(shù)之間的相似度,同樣也可以得到(系數(shù))組分,這 種方法可以應(yīng)用于多項(xiàng)式逼近連續(xù)函數(shù),也可以用到連續(xù)函數(shù)逼近離散樣本點(diǎn)(最小二乘問(wèn)題,OLS coefficients )中,扯得有點(diǎn)遠(yuǎn)了 -!。向量?jī)?nèi)積的結(jié)果是沒(méi)有界限的,一種解決辦法是除以長(zhǎng)度之后再求內(nèi)積,這就是應(yīng)用十分廣泛的 余弦相似度(Cosine similarity):余弦相似度與向量的幅值無(wú)關(guān),只與向量的方向相關(guān),在文檔相似度(TF-JDF)和
9、圖片相似性(histogram )計(jì)算上都有它的身影。需要注意一點(diǎn)的是,余弦相 似度受到向量的平移影響,上式如果將x平移到x+1,余弦值就會(huì)改變。怎樣才能實(shí)現(xiàn)平移不變性?這就是下面要說(shuō)的皮爾遜相關(guān)系數(shù)(Pearson correlation ),有時(shí)候也直接叫 相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)具有平移不變性和尺度不變性,計(jì)算出了兩個(gè)向量(維度)的相 關(guān)性。不過(guò),一般我們?cè)谡務(wù)撓嚓P(guān)系數(shù)的時(shí)候,將 x與y對(duì)應(yīng)位置的兩個(gè)數(shù)值 看作一個(gè)樣本點(diǎn),皮爾遜系數(shù)用來(lái)表示這些樣本點(diǎn)分布的相關(guān)性。由于皮爾遜系數(shù)具有的良好性質(zhì), 在各個(gè)領(lǐng)域都應(yīng)用廣泛,例如,在推薦系統(tǒng)根 據(jù)為某一用戶(hù)查找喜好相似的用戶(hù),進(jìn)而提供推薦,優(yōu)點(diǎn)是
10、可以不受每個(gè)用戶(hù)評(píng) 分標(biāo)準(zhǔn)不同和觀看影片數(shù)量不一樣的影響。4 .分類(lèi)數(shù)據(jù)點(diǎn)間的距離漢明距離(Hamming distance )是指,兩個(gè)等長(zhǎng)字符串si與s2之間的漢明距離定義為將其中一個(gè)變?yōu)榱硗庖粋€(gè)所需要作的最小替換次數(shù)。舉個(gè)維基百科上的例子: 10111011001001之間的漢明距離是2.2143896與2233796之間的漢明距離是工 toned與roses之間的漢明距離是3還可以用簡(jiǎn)單的 匹配系數(shù)來(lái)表示兩點(diǎn)之間的相似度 匹配字符數(shù)/總字符數(shù) 在一些情況下,某些特定的值相等并不能代表什么。舉個(gè)例子,用 1表示用戶(hù)看過(guò)該電影,用0表示用戶(hù)沒(méi)有看過(guò),那么用戶(hù)看電影的的信息就可用0,1表示成
11、一個(gè)序列??紤]到電影基數(shù)非常龐大,用戶(hù)看過(guò)的電影只占其中非常小的一部分,如果兩個(gè)用戶(hù)都沒(méi)有看過(guò)某一部電影(兩個(gè)都是0),并不能說(shuō)明兩者相似。反而言之,如果兩個(gè)用戶(hù)都看過(guò)某一部電影(序列中都是 1),則說(shuō)明用戶(hù)有很大的相似度。在這個(gè)例子中,序列中等于1所占的權(quán)重應(yīng)Ig遠(yuǎn)遠(yuǎn)大于 0的 權(quán)重,這就引出下面要說(shuō)的 杰卡彳惠相似系數(shù)(Jaccard similarity)。在上面的例子中,用 M11表示兩個(gè)用戶(hù)都看過(guò)的電影數(shù)目,M10表示用戶(hù)A看過(guò),用戶(hù)B沒(méi)看過(guò)的電影數(shù)目,M01表示用戶(hù)A沒(méi)看過(guò),用戶(hù)B看過(guò)的電影數(shù)目,M00表示兩個(gè)用戶(hù)都沒(méi)有看過(guò)的電影數(shù)目。Jaccard相似性系數(shù)可以 表小為:Afoi
12、 + A/io + AfiiJaccard similarity還可以用集合的公式來(lái)表達(dá),這里就不多說(shuō)了。如果分類(lèi)數(shù)值點(diǎn)是用樹(shù)形結(jié)構(gòu)來(lái)表示的,它們的相似性可以用相同路徑的長(zhǎng)度來(lái)表示,比如,7product/spot/ballgame /basketball ”離product/spot/ballgame/soccer/shoes ” 的距離小于到/product/luxury/handbags的距離,以為前者相同父節(jié)點(diǎn)路徑更長(zhǎng)。5 .序列之間的距離上一小節(jié)我們知道,漢明距離可以度量?jī)蓚€(gè)長(zhǎng)度相同的字符串之間的相似度,如果要比較兩個(gè)不同長(zhǎng)度的字符串,不僅要進(jìn)行替換,而且要進(jìn)行插入與刪除的運(yùn) 算,在
13、這種場(chǎng)合下,通常使用更加復(fù)雜的 編輯距離(Edit distance, Levenshtein distance)等算法。編輯距離是指兩個(gè)字用之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少 編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一 個(gè) 字符,刪除一個(gè)字符。編輯距離求的是最少編輯次數(shù),這是一個(gè)動(dòng)態(tài)規(guī)劃的問(wèn)題, 有興趣的同學(xué)可以自己研究研究。時(shí)間序列是序列之間距離的另外一個(gè)例子。 DTW 距離(Dynamic Time Warp) 是序列信號(hào)在時(shí)間或者速度上不匹配的時(shí)候一種衡量相似度的方法。 神馬意思? 舉個(gè)例子,兩份原本一樣聲音樣本 A、B都說(shuō)了 “你好” A在時(shí)間上發(fā)生了扭曲,“你
14、”這個(gè)音延長(zhǎng)了幾秒。最后A: “你好”,B: “你好” DTW正是這樣一種可以 用來(lái)匹配A、B之間的最短距離的算法。DTW距離在保持信號(hào)先后順序的限制下對(duì)時(shí)間信號(hào)進(jìn)行“膨脹”或者“收縮”找到 最優(yōu)的匹配,與編輯距離相似,這其實(shí)也是一個(gè)動(dòng)態(tài)規(guī)劃的問(wèn)題:今天天靠好好啊韓阻今今今爭(zhēng)爭(zhēng)天天標(biāo)最策真標(biāo)好好好好鞭啊實(shí)現(xiàn)代碼(轉(zhuǎn)自McKelvins Blog )View Code6 .概率分布之間的距離前面我們談?wù)摰亩际莾蓚€(gè)數(shù)值點(diǎn)之間的距離,實(shí)際上兩個(gè)概率分布之間的距離是可以測(cè)量的。在統(tǒng)計(jì)學(xué)里面經(jīng)常需要測(cè)量?jī)山M樣本分布之間的距離,進(jìn)而判斷出 它們是否出自同一個(gè) population ,常見(jiàn)的方法有 卡方檢驗(yàn)
15、(Chi-Square )和KL散 度(KL-Divergence),下面說(shuō)一說(shuō) KL散度吧。先從信息嫡說(shuō)起,假設(shè)一篇文章的標(biāo)題叫做“黑洞到底吃什么”,包含詞語(yǔ)分別是黑洞,到底,吃什么,我們現(xiàn)在要根據(jù)一個(gè)詞語(yǔ)推測(cè)這篇文章的類(lèi)別。 哪個(gè)詞語(yǔ) 給予我們的信息最多?很容易就知道是“黑洞”,因?yàn)椤昂诙础边@個(gè)詞語(yǔ)在所有的文 檔中出現(xiàn)的概率太低 啦,一旦出現(xiàn),就表明這篇文章很可能是在講科普知識(shí)。而其他兩個(gè)詞語(yǔ)“到底”和“吃什么”出現(xiàn)的概率很高,給予我們的信息反而越少。如何用一個(gè)函數(shù)h(x)表示詞語(yǔ)給予的信息量呢?第一,肯定是與p(x)相關(guān),并且是負(fù)相關(guān)。第二,假設(shè)x和y是獨(dú)立的(黑洞和宇宙不相互獨(dú)立,談到
16、黑 洞必然會(huì)說(shuō)宇宙),即p(x,y) = p(x)p(y),那么獲得的信息也是疊加的,即h(x, y)= h(x) + h(y)。滿足這兩個(gè)條件的函數(shù)肯定是負(fù)對(duì)數(shù)形式:對(duì)假設(shè)一個(gè)發(fā)送者要將隨機(jī)變量 X產(chǎn)生的一長(zhǎng)串隨機(jī)值傳送給接收者,接受者獲得的平均信息量就是求它的數(shù)學(xué)期望:Hx = (貨)lnp(z)這就是嫡的概念。另外一個(gè)重要特點(diǎn)是,嫡的大小與字符平均最短編碼長(zhǎng)度是一樣的(shannon)。設(shè)有一個(gè)未知的分布 p(x),而q(x)是我們所獲得的一個(gè)對(duì) p(x)的近似,按照q(x)對(duì)該隨機(jī)變量的各個(gè)值進(jìn)行編碼,平均長(zhǎng)度比按照真實(shí)分布的p(x)進(jìn)行編碼要額外長(zhǎng)一些,多出來(lái)的長(zhǎng)度這就是 KL散度(之所以不說(shuō)距離,是因?yàn)椴粷M足對(duì)稱(chēng)性和三角形法則),即:KL(plk)I In g(x) dx(/ p(x) lnp(x) dx=-/小)】“鬻待補(bǔ)充的方法:卡方檢驗(yàn)Chi-Square衡量 categorical attributes 相關(guān)性的 mutual informationSpearmans rank coefficient二
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度新型城鎮(zhèn)化內(nèi)外墻抹灰施工與配套服務(wù)合同4篇
- 2025年度雛雞養(yǎng)殖產(chǎn)業(yè)鏈產(chǎn)業(yè)鏈協(xié)同發(fā)展合作合同4篇
- 2025年度科技園區(qū)研發(fā)場(chǎng)地租賃及合作開(kāi)發(fā)合同4篇
- 2024年度陜西省公共營(yíng)養(yǎng)師之四級(jí)營(yíng)養(yǎng)師練習(xí)題及答案
- 科技教育行業(yè)的前沿趨勢(shì)與展望
- 科技引領(lǐng)下的學(xué)校體育設(shè)施創(chuàng)新布局實(shí)踐
- 二零二五年度物流行業(yè)標(biāo)準(zhǔn)制定采購(gòu)合同范本3篇
- 2025年度夜市攤位租賃與食品安全監(jiān)督合同4篇
- 二零二五年度櫥柜行業(yè)標(biāo)準(zhǔn)制定與實(shí)施服務(wù)合同4篇
- 2025年度個(gè)人與健身中心會(huì)員服務(wù)購(gòu)買(mǎi)合同范本4篇
- 遼寧省撫順五十中學(xué)2024屆中考化學(xué)全真模擬試卷含解析
- 2024年湖南汽車(chē)工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案解析
- 2024年中國(guó)科學(xué)技術(shù)大學(xué)少年創(chuàng)新班數(shù)學(xué)試題真題(答案詳解)
- 家長(zhǎng)心理健康教育知識(shí)講座
- GB/T 292-2023滾動(dòng)軸承角接觸球軸承外形尺寸
- 軍人結(jié)婚函調(diào)報(bào)告表
- 民用無(wú)人駕駛航空器實(shí)名制登記管理規(guī)定
- 北京地鐵6號(hào)線
- 航空油料計(jì)量統(tǒng)計(jì)員(初級(jí))理論考試復(fù)習(xí)題庫(kù)大全-上(單選題匯總)
- 諒解書(shū)(標(biāo)準(zhǔn)樣本)
評(píng)論
0/150
提交評(píng)論