版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、電子科技大學(xué)政治與公共管理學(xué)院本科教學(xué)實(shí)驗(yàn)報(bào)告(實(shí)驗(yàn))課程名稱(chēng):數(shù)據(jù)分析技術(shù)系列實(shí)驗(yàn)電子科技大學(xué)教務(wù)處制表電 子 科 技 大 學(xué)實(shí) 驗(yàn) 報(bào) 告學(xué)生姓名: 學(xué) 號(hào): 指導(dǎo)教師: 一、實(shí)驗(yàn)室名稱(chēng): 電子政務(wù)可視化實(shí)驗(yàn)室二、實(shí)驗(yàn)項(xiàng)目名稱(chēng):聚類(lèi)分析三、實(shí)驗(yàn)原理基于劃分的聚類(lèi): 基于劃分的聚類(lèi)分析(partitioning-based cluster analysis) 與層次聚類(lèi)分析不同, 事先需要指定將數(shù)據(jù)分為幾類(lèi)。給定一個(gè)有 n 個(gè)個(gè)體的數(shù)據(jù)集, 將它劃分為 k 個(gè)部分( kn ), 每個(gè)小部分即為一類(lèi)。它需要滿足以下兩個(gè)條件: (1) k 類(lèi)中任意一類(lèi)不為空集,即每一類(lèi)中至少有一個(gè)個(gè)體; (2)
2、 每一個(gè)體都屬于且僅屬于 k 類(lèi)中的一類(lèi)。在新近發(fā)展起來(lái)的一些基于劃分的聚類(lèi)分析算法中,第二個(gè)條件可以被適當(dāng)放松??傊拗茥l件不是絕對(duì)的。1.初始凝聚點(diǎn)的選擇凝聚點(diǎn)即各類(lèi)的代表點(diǎn), 基于劃分的聚類(lèi)分析算法中首先需要找到 k 個(gè)凝聚點(diǎn)分別作為 k 類(lèi)的中心, 用來(lái)形成初始分類(lèi)。初始凝聚點(diǎn)的選擇主要有以下幾種方法:(1)經(jīng)驗(yàn)選擇, 根據(jù)對(duì)問(wèn)題背景的了解,選擇合適的點(diǎn)作為初始凝聚點(diǎn)。這是最理想的一種方法, 利用對(duì)問(wèn)題本身背景信息的了解,既可以通過(guò)較少的迭代次數(shù)達(dá)到穩(wěn)定分類(lèi), 又能夠滿足問(wèn)題在聚類(lèi)中的一些特殊需求。(2) 隨機(jī)選取 k 個(gè)點(diǎn)或者選擇數(shù)據(jù)中前 k 個(gè)點(diǎn)作為凝聚點(diǎn)。在缺少已知信息的情況下
3、常常使用這種方法。(3) 將數(shù)據(jù)人為地分為 k 類(lèi), 將每一類(lèi)的重心作為初始凝聚點(diǎn)。(4) 密度法人為地指定兩個(gè)正數(shù) d1 和 d2 (d2 > d1), 以每個(gè)樣本點(diǎn)為中心, 落在與該點(diǎn)距離小于 dl 的球內(nèi)的樣本個(gè)數(shù)即為該點(diǎn)的密度。首先選擇具有最大密度的點(diǎn)作為第一個(gè)凝聚點(diǎn), 然后選擇次大密度的樣本點(diǎn), 如果它和第一凝聚點(diǎn)之間的距離小于d2, 則該點(diǎn)取消;如果它與第一凝聚點(diǎn)之間的距離大于d2, 則該點(diǎn)作為第二個(gè)凝聚點(diǎn)。按照這個(gè)方法一直選下去, 每個(gè)新選出的凝聚點(diǎn)與已經(jīng)選好的凝聚點(diǎn)之間的距離均要大于d2, 直到選出 k 個(gè)凝聚點(diǎn)為止。若無(wú)法選出 k 個(gè)凝聚點(diǎn), 則應(yīng)適當(dāng)調(diào)整d1 和 d2
4、 的大小使過(guò)程能夠進(jìn)行下去。2. 初始分類(lèi)最常用的初始分類(lèi)方法有以下幾種。(1) 根據(jù)樣本點(diǎn)間距離的定義, 每個(gè)樣本歸入與其距離最近的凝聚點(diǎn)所代表的類(lèi)中。(2) 將選出的每個(gè)凝聚點(diǎn)視為一類(lèi),第一個(gè)樣本點(diǎn)進(jìn)入時(shí),歸入與其距離最近的凝聚點(diǎn)所代表的一類(lèi),并對(duì)更新的類(lèi)重新計(jì)算中心作為修正后的凝聚點(diǎn)替代原有凝聚點(diǎn), 此后各個(gè)樣本點(diǎn)按此方法依次進(jìn)入。(3) 首先人為指定一個(gè)正數(shù) d , 將第一個(gè)樣本點(diǎn)視為第一類(lèi)。此后第二個(gè)樣本點(diǎn)進(jìn)入, 若它與第一個(gè)樣本點(diǎn)之間的距離 d12>d, 則第二個(gè)樣本點(diǎn)視為第二類(lèi); 若它與第一個(gè)樣本點(diǎn)之間的距離d12 d, 則第二個(gè)樣本點(diǎn)進(jìn)入第一類(lèi)。當(dāng)?shù)?l 個(gè)樣本點(diǎn)進(jìn)入時(shí)已
5、經(jīng)有 m 個(gè)劃分好的類(lèi), 每個(gè)類(lèi)第一次進(jìn)入的樣本點(diǎn)記為 xi1, xi2, ,xim。若 min diijd, 則第 l 個(gè)樣本進(jìn)入與其距離最近的點(diǎn)所代表的那一類(lèi); 否則, 第 l 個(gè)樣本自成為新的一類(lèi)。注意, 這個(gè)方法不需要選擇初始凝聚點(diǎn)就能夠進(jìn)行初始分類(lèi)。3.修改分類(lèi)的方法修改分類(lèi)的方法主要有兩種: (1) 按批修改法1) 選擇一批初始凝聚點(diǎn), 定義點(diǎn)與點(diǎn)之間的距離;2) 所有樣本點(diǎn)按照最近初始凝聚點(diǎn)分類(lèi); 3) 計(jì)算每一類(lèi)的重心, 將類(lèi)的重心作為新的凝聚點(diǎn),重新對(duì)所有樣本點(diǎn)分類(lèi), 當(dāng)所有凝聚點(diǎn)與上一次凝聚點(diǎn)重合時(shí)過(guò)程停止。按批修改法的優(yōu)點(diǎn)是計(jì)算量較小, 計(jì)算速度快; 其缺點(diǎn)是最終聚類(lèi)結(jié)果
6、與初始凝聚點(diǎn)選擇有關(guān)。逐個(gè)修改法(2) 逐個(gè)修改法按批修改法在每一次迭代的過(guò)程中凝聚點(diǎn)不變, 另一種想法是在每一個(gè)樣本進(jìn)入之后隨之調(diào)整凝聚點(diǎn), 這就是逐個(gè)修改法。逐個(gè)修改法又被稱(chēng)為“K-means” 方法, 由MacQueen在1967年提出, 現(xiàn)在已經(jīng)成為聚類(lèi)分析中最常用的方法之一。其步驟為:1) 在 n 個(gè)數(shù)據(jù)中選取 k 個(gè)作為凝聚點(diǎn), 并且定義點(diǎn)與點(diǎn)之間的距離;2) 其余 n-k 個(gè)點(diǎn)逐個(gè)進(jìn)入, 每個(gè)點(diǎn)進(jìn)入時(shí)歸入與相應(yīng)凝聚點(diǎn)距離最近的類(lèi)中,每個(gè)點(diǎn)進(jìn)入之后重新計(jì)算每一類(lèi)的重心作為該類(lèi)新的凝聚點(diǎn);3) 重復(fù)2)直至所有類(lèi)的凝聚點(diǎn)均不再變化為止。EM 聚類(lèi) EM聚類(lèi)是一種基于模型的聚類(lèi)方法。即
7、試圖使給定數(shù)據(jù)與某個(gè)數(shù)學(xué)模型達(dá)到最佳擬合。主要有統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法。 EM聚類(lèi)主要基于數(shù)理統(tǒng)計(jì)模型和概念進(jìn)行聚類(lèi)。EM聚類(lèi)方法認(rèn)為: 樣本點(diǎn)都是來(lái)自服從某種分布的總體, 屬于不同類(lèi)的個(gè)體分別來(lái)自具有不同分布或者參數(shù)的總體,而整個(gè)樣本就是來(lái)自多個(gè)分布的數(shù)據(jù)的一個(gè)混合, 每一個(gè)分布成為一個(gè)子總體。 EM聚類(lèi)即要在一定的分布假定基礎(chǔ)上找到一系列參數(shù)來(lái)擬合不同的子總體, 再根據(jù)每個(gè)樣本落入不同總體的概率來(lái)判定該樣本來(lái)自哪一個(gè)子總體, 進(jìn)而對(duì)樣本進(jìn)行聚類(lèi)。EM聚類(lèi)算法的具體過(guò)程如下:1) 確定數(shù)據(jù)被聚為多少類(lèi),即需確定 k 。2) 對(duì)數(shù)據(jù)的分布類(lèi)型作出假定。3) 給出各子總體的初始參數(shù)初始參數(shù)的選擇
8、對(duì)最終結(jié)果有很大影響。4) 利用EM方法對(duì)初始參數(shù)迭代進(jìn)行修正,直到滿足終止條件。1. E步驟E 代表 expectation根據(jù)貝葉斯公式計(jì)算樣本點(diǎn) xi 來(lái)自第 m 個(gè)子總體的概率??梢岳斫鉃樵谙闰?yàn)分布條件下 xi 來(lái)自第 m 個(gè)子總體的概率的期望值, 公式如下:2. M步驟M 代表 maximization利用 E 步驟中得到的每個(gè)樣本點(diǎn)來(lái)自不同子總體的概率對(duì)子總體參數(shù)進(jìn)行更新, 使數(shù)據(jù)似然函數(shù)達(dá)到最大值,這里假定每個(gè)子總體均服從高斯分布, 則參數(shù)更新公式如下:似然函數(shù)計(jì)算公式為:四、實(shí)驗(yàn)?zāi)康?掌握Statistica軟件的基本運(yùn)用,運(yùn)用基于劃分的聚類(lèi)方法(K-means)和EM模型進(jìn)行
9、聚類(lèi)分析,理解相關(guān)參數(shù)設(shè)置的具體含義。五、實(shí)驗(yàn)內(nèi)容及步驟實(shí)驗(yàn)內(nèi)容:根據(jù)花萼的長(zhǎng)度(sepal length)和寬度(sepal width),花瓣的長(zhǎng)度(petal length)和寬度(petal width)把鳶尾花分為三類(lèi)。運(yùn)用基于劃分的聚類(lèi)方法:K-means 進(jìn)行分析和EM聚類(lèi)算法。實(shí)驗(yàn)步驟:基于K-means聚類(lèi)算法的步驟:選擇聚類(lèi)方法選擇聚類(lèi)變量聚類(lèi)參數(shù)(細(xì)節(jié))設(shè)置總的輸出結(jié)果EM模型聚類(lèi)步驟:聚類(lèi)參數(shù)(細(xì)節(jié))設(shè)置EM聚類(lèi)總體輸出窗口六、實(shí)驗(yàn)器材(設(shè)備、元器件):計(jì)算機(jī)、打印機(jī)、硒鼓、碳粉、紙張七、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析基于K-means聚類(lèi)算法結(jié)果分析:表1 如表1所示,三個(gè)類(lèi)別中
10、心位置分別為(5.006,3.428,1.462,0.246)、(6.846,3.082,5.703,2.079)和(5.889,2.738,4.397,1.418),包含的個(gè)體分別為50、39和61個(gè)。各類(lèi)別在總體中所占的比例分別為33.33%、26%和40.67%。表2 如表2所示,類(lèi)1與類(lèi)2的距離為1.175699,類(lèi)2和類(lèi)3的距離為0.465071,類(lèi)1和類(lèi)3的距離為0.792921。表3表3反映了四個(gè)變量在各類(lèi)中的均值,第一類(lèi)與另二類(lèi)差別較大。 表4表4展示了該變量取值在不同類(lèi)別之間分布的不同。EM模型結(jié)果分析: 表5 如圖5所示,最終分入第1類(lèi)所占比例為25.208%,分入第2類(lèi)所
11、占的比例為33.333%,分入第3類(lèi)所占的比例為41.4586%。 表6 如表6所示,輸出每個(gè)樣本點(diǎn)指定到每個(gè)子總體的權(quán)數(shù)。該權(quán)數(shù)即成為每個(gè)樣本點(diǎn)歸屬的依據(jù)。 表7表7反映了四個(gè)變量在各類(lèi)中的均值,第二類(lèi)與另二類(lèi)差別較大。表8表8展示了每個(gè)樣本點(diǎn)的最終分類(lèi)結(jié)果、所有聚類(lèi)變量的取值、該樣本點(diǎn)分到該類(lèi)中的權(quán)數(shù)。表9表9展示了該變量取值在不同類(lèi)別之間分布的不同。八、實(shí)驗(yàn)結(jié)論Statistica在數(shù)據(jù)分析方面提供了強(qiáng)大的能力,可以快速地得到豐富的描述性統(tǒng)計(jì)分析結(jié)果供數(shù)據(jù)分析人員選用,重點(diǎn)在于理解各輸出參量的含義及其與數(shù)據(jù)分析對(duì)象屬性之間的關(guān)系。本實(shí)驗(yàn)的結(jié)果讓我比較好地掌握了聚類(lèi)分析的具體方法。九、總結(jié)及心得體會(huì)利
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度匯編大合集【人事管理篇】十篇
- 單位管理制度合并匯編員工管理
- 《眩暈基礎(chǔ)知識(shí)》課件
- 單位管理制度分享大全【職工管理篇】十篇
- 單位管理制度范例合集【員工管理】十篇
- 單位管理制度呈現(xiàn)匯編人力資源管理十篇
- 單位管理制度呈現(xiàn)大合集【職工管理】十篇
- 《離心泵工作點(diǎn)》課件
- 貴都高速某合同段施工組織設(shè)計(jì)
- 《祝世界好友周快樂(lè)》課件
- “雙減”初中九年級(jí)英語(yǔ)課時(shí)作業(yè)設(shè)計(jì)案例
- 廣東省潮州市暨實(shí)高級(jí)中學(xué)2024-2025學(xué)年高二上學(xué)期9月月考語(yǔ)文試題
- GB/T 44415-2024基于全球衛(wèi)星導(dǎo)航的機(jī)動(dòng)車(chē)制動(dòng)性能路試檢驗(yàn)要求和方法
- 物流園區(qū)運(yùn)營(yíng)管理合同
- 紅船女子(2022年安徽中考語(yǔ)文試卷記敘文閱讀題及答案)
- 空氣動(dòng)力學(xué)實(shí)驗(yàn)方法:激光多普勒測(cè)速(LDV):原理與應(yīng)用
- 反思單元 沈括的“海陸變遷”說(shuō)(習(xí)題教學(xué)設(shè)計(jì))2023-2024學(xué)年三年級(jí)上冊(cè)科學(xué)(大象版 河南專(zhuān)用)
- 2023-2024屆高考語(yǔ)文復(fù)習(xí)-閱讀與訓(xùn)練主題+工匠精神(含答案)
- 裝表接電培訓(xùn)課件
- 新蘇教版五年級(jí)上冊(cè)科學(xué)全冊(cè)期末復(fù)習(xí)知識(shí)點(diǎn)(彩版)
- 部編版小學(xué)一年級(jí)上冊(cè)道德與法治教學(xué)設(shè)計(jì)(第三、第四單元)
評(píng)論
0/150
提交評(píng)論