




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2020年7月13日星期一,第五章,第一節(jié),一、聚類(lèi)分析的基本思想及意義,二、樣品間的相似度量,三、變量間的相似度量,距離與相似系數(shù),2020年7月13日星期一,一、聚類(lèi)分析的基本思想及意義,聚類(lèi)分析是研究分類(lèi)問(wèn)題的多元數(shù)據(jù)分析方法,是數(shù)值分類(lèi)學(xué)的一分支。有廣泛的應(yīng)用背景,如在經(jīng)濟(jì)學(xué)中,為了了解不同地區(qū)城鎮(zhèn)居民的收入及消費(fèi)情況,往往需要?jiǎng)澐植煌念?lèi)型區(qū)研究;在產(chǎn)品質(zhì)量管理中,要根據(jù)各產(chǎn)品的某些重要指標(biāo)而將其分為一等品、二等品等;在生物學(xué)中,要根據(jù)各生物體的綜合特征進(jìn)行分類(lèi);在考古中要將某些古生物化石進(jìn)行科學(xué)的分類(lèi),等等。,2020年7月13日星期一,聚類(lèi)分析的基本思想是在樣品之間定義距離,在變
2、 量之間定義相似系數(shù),距離或相似系數(shù)代表樣品或變量 之間的相似程度。按相似程度的大小,將樣品(或變量) 逐一歸類(lèi),關(guān)系密切的類(lèi)聚集到一個(gè)小的分類(lèi)單位,然 后逐步擴(kuò)大,使得關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位, 直到所有的樣品(或變量)都聚集完畢,形成一個(gè)表示 親疏關(guān)系的譜系圖,依次按照某些要求對(duì)樣品(或變量) 進(jìn)行分類(lèi)。,2020年7月13日星期一,多元數(shù)據(jù)形成數(shù)據(jù)矩陣,在這個(gè)數(shù)據(jù)矩陣中,共有n,聚類(lèi)分析 有兩種類(lèi)型: 按樣品聚類(lèi)或 按變量(指標(biāo)) 聚類(lèi)。,2020年7月13日星期一,聚類(lèi)分析與判別分析的區(qū)別與聯(lián)系,聚類(lèi)分析一般尋求客觀的分類(lèi)方法。在進(jìn)行聚類(lèi)之 前,對(duì)總體到底有幾類(lèi)類(lèi)型并不知道(究
3、竟分幾類(lèi)較為 合適需從計(jì)算中探索調(diào)整)。,判別分析則是在總體類(lèi)型劃分已知,在各總體分布 或來(lái)自總體訓(xùn)練樣本基礎(chǔ)上,對(duì)當(dāng)前的新樣本判定它們 屬于哪個(gè)總體。,聯(lián)系:例如當(dāng)我們對(duì)研究的多元數(shù)據(jù)的特征不悉, 就要先進(jìn)行聚類(lèi)分析,才能考慮判別分析問(wèn)題.,2020年7月13日星期一,二、樣品間的相似性度量距離,設(shè)有n個(gè)樣品的多元觀測(cè)數(shù)據(jù):,每個(gè)樣品可看成p元空間的一個(gè)點(diǎn),n個(gè)樣品組成p 元空間的n個(gè)點(diǎn)。,我們用各點(diǎn)之間的距離來(lái)衡量各種樣品之間的相似 程度(或靠近程度)。,2020年7月13日星期一,下列條件:,在聚類(lèi)分析中,有些距離不滿(mǎn)足3),我們?cè)趶V義的 角度上仍稱(chēng)它為距離。,2020年7月13日星期一
4、,聚類(lèi)分析中常用的距離,歐式距離,其中,2020年7月13日星期一,絕對(duì)距離,Minkowski距離,Chebyshev距離,2020年7月13日星期一,以上距離與各變量指標(biāo)的量綱有關(guān),為消除量綱的 影響,有時(shí)應(yīng)先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化數(shù)據(jù) 計(jì)算距離。標(biāo)準(zhǔn)化數(shù)據(jù),其中,方差加權(quán)距離,2020年7月13日星期一,馬氏距離,樣品聚類(lèi)通常稱(chēng)為Q型聚類(lèi).在SAS系統(tǒng)中,采用歐式距離聚類(lèi)或先將數(shù)據(jù)標(biāo)準(zhǔn)化,再計(jì)算歐式距離進(jìn)行聚類(lèi).(實(shí)際上就是采用了方差加權(quán)距離),2020年7月13日星期一,三、變量間的相似性度量相似系數(shù),當(dāng)對(duì)p個(gè)指標(biāo)變量進(jìn)行聚類(lèi)時(shí),用相似系數(shù)來(lái)衡量變 量之間的相似性程度(或關(guān)聯(lián)性程度)。,2020年7月13日星期一,相關(guān)系數(shù),系數(shù)為:,2020年7月13日星期一,系數(shù)為:,夾角余弦,2020年7月13日星期一,變量聚類(lèi)通常稱(chēng)為R型聚類(lèi)。在R型聚類(lèi)中,相似矩 陣,相似系數(shù)矩陣可以是相關(guān)矩陣,也可以是夾角余弦矩陣,Spearman相關(guān)矩陣。,是出
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 棋牌室合伙人二零二五年度戰(zhàn)略合作伙伴合同
- 二零二五年度商鋪?zhàn)赓U合同(含商業(yè)秘密及競(jìng)業(yè)禁止條款)
- 二零二五年度農(nóng)村自建房屋買(mǎi)賣(mài)與鄉(xiāng)村旅游項(xiàng)目融資合同
- 2025年度跨境交易專(zhuān)用個(gè)人銀行卡領(lǐng)用及結(jié)算合同
- 2025年度時(shí)尚品牌門(mén)店整體轉(zhuǎn)讓合同
- 2025年度集裝箱租賃與海上鉆井平臺(tái)設(shè)備運(yùn)輸合同
- 贖樓貸款擔(dān)保合同
- 會(huì)議用車(chē)租賃合同
- 新能源汽車(chē)租賃項(xiàng)目投資合同
- 設(shè)備維修合同模板3
- 2023年中央廣播電視總臺(tái)校園招聘筆試參考題庫(kù)附帶答案詳解
- 2023年青島港灣職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)模擬試題及答案解析
- 消防栓定期檢查記錄表
- 員工面試登記表通用模板
- 新人教版小學(xué)五年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)同步課堂練習(xí)題
- DB63T 2105-2023 蒸發(fā)量觀測(cè) 全自動(dòng)水面蒸發(fā)器比測(cè)規(guī)程
- 單位(個(gè)人或集體)約談表
- 在戲劇家協(xié)會(huì)會(huì)員大會(huì)上的講話
- 體育賽事管理
- A類(lèi)業(yè)余無(wú)線電操作技術(shù)能力驗(yàn)證題目題庫(kù)1
- 兒行千里母擔(dān)憂(yōu)(京劇)課件
評(píng)論
0/150
提交評(píng)論