5.1 距離與相似系數(shù).ppt_第1頁(yè)
5.1 距離與相似系數(shù).ppt_第2頁(yè)
5.1 距離與相似系數(shù).ppt_第3頁(yè)
5.1 距離與相似系數(shù).ppt_第4頁(yè)
5.1 距離與相似系數(shù).ppt_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2020年7月13日星期一,第五章,第一節(jié),一、聚類(lèi)分析的基本思想及意義,二、樣品間的相似度量,三、變量間的相似度量,距離與相似系數(shù),2020年7月13日星期一,一、聚類(lèi)分析的基本思想及意義,聚類(lèi)分析是研究分類(lèi)問(wèn)題的多元數(shù)據(jù)分析方法,是數(shù)值分類(lèi)學(xué)的一分支。有廣泛的應(yīng)用背景,如在經(jīng)濟(jì)學(xué)中,為了了解不同地區(qū)城鎮(zhèn)居民的收入及消費(fèi)情況,往往需要?jiǎng)澐植煌念?lèi)型區(qū)研究;在產(chǎn)品質(zhì)量管理中,要根據(jù)各產(chǎn)品的某些重要指標(biāo)而將其分為一等品、二等品等;在生物學(xué)中,要根據(jù)各生物體的綜合特征進(jìn)行分類(lèi);在考古中要將某些古生物化石進(jìn)行科學(xué)的分類(lèi),等等。,2020年7月13日星期一,聚類(lèi)分析的基本思想是在樣品之間定義距離,在變

2、 量之間定義相似系數(shù),距離或相似系數(shù)代表樣品或變量 之間的相似程度。按相似程度的大小,將樣品(或變量) 逐一歸類(lèi),關(guān)系密切的類(lèi)聚集到一個(gè)小的分類(lèi)單位,然 后逐步擴(kuò)大,使得關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位, 直到所有的樣品(或變量)都聚集完畢,形成一個(gè)表示 親疏關(guān)系的譜系圖,依次按照某些要求對(duì)樣品(或變量) 進(jìn)行分類(lèi)。,2020年7月13日星期一,多元數(shù)據(jù)形成數(shù)據(jù)矩陣,在這個(gè)數(shù)據(jù)矩陣中,共有n,聚類(lèi)分析 有兩種類(lèi)型: 按樣品聚類(lèi)或 按變量(指標(biāo)) 聚類(lèi)。,2020年7月13日星期一,聚類(lèi)分析與判別分析的區(qū)別與聯(lián)系,聚類(lèi)分析一般尋求客觀的分類(lèi)方法。在進(jìn)行聚類(lèi)之 前,對(duì)總體到底有幾類(lèi)類(lèi)型并不知道(究

3、竟分幾類(lèi)較為 合適需從計(jì)算中探索調(diào)整)。,判別分析則是在總體類(lèi)型劃分已知,在各總體分布 或來(lái)自總體訓(xùn)練樣本基礎(chǔ)上,對(duì)當(dāng)前的新樣本判定它們 屬于哪個(gè)總體。,聯(lián)系:例如當(dāng)我們對(duì)研究的多元數(shù)據(jù)的特征不悉, 就要先進(jìn)行聚類(lèi)分析,才能考慮判別分析問(wèn)題.,2020年7月13日星期一,二、樣品間的相似性度量距離,設(shè)有n個(gè)樣品的多元觀測(cè)數(shù)據(jù):,每個(gè)樣品可看成p元空間的一個(gè)點(diǎn),n個(gè)樣品組成p 元空間的n個(gè)點(diǎn)。,我們用各點(diǎn)之間的距離來(lái)衡量各種樣品之間的相似 程度(或靠近程度)。,2020年7月13日星期一,下列條件:,在聚類(lèi)分析中,有些距離不滿(mǎn)足3),我們?cè)趶V義的 角度上仍稱(chēng)它為距離。,2020年7月13日星期一

4、,聚類(lèi)分析中常用的距離,歐式距離,其中,2020年7月13日星期一,絕對(duì)距離,Minkowski距離,Chebyshev距離,2020年7月13日星期一,以上距離與各變量指標(biāo)的量綱有關(guān),為消除量綱的 影響,有時(shí)應(yīng)先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化數(shù)據(jù) 計(jì)算距離。標(biāo)準(zhǔn)化數(shù)據(jù),其中,方差加權(quán)距離,2020年7月13日星期一,馬氏距離,樣品聚類(lèi)通常稱(chēng)為Q型聚類(lèi).在SAS系統(tǒng)中,采用歐式距離聚類(lèi)或先將數(shù)據(jù)標(biāo)準(zhǔn)化,再計(jì)算歐式距離進(jìn)行聚類(lèi).(實(shí)際上就是采用了方差加權(quán)距離),2020年7月13日星期一,三、變量間的相似性度量相似系數(shù),當(dāng)對(duì)p個(gè)指標(biāo)變量進(jìn)行聚類(lèi)時(shí),用相似系數(shù)來(lái)衡量變 量之間的相似性程度(或關(guān)聯(lián)性程度)。,2020年7月13日星期一,相關(guān)系數(shù),系數(shù)為:,2020年7月13日星期一,系數(shù)為:,夾角余弦,2020年7月13日星期一,變量聚類(lèi)通常稱(chēng)為R型聚類(lèi)。在R型聚類(lèi)中,相似矩 陣,相似系數(shù)矩陣可以是相關(guān)矩陣,也可以是夾角余弦矩陣,Spearman相關(guān)矩陣。,是出

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論