下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《數(shù)據(jù)挖掘與商務(wù)智能實(shí)驗(yàn)》實(shí)驗(yàn)報(bào)告實(shí)驗(yàn)題目:聚類分析:K-Means姓名:王俊學(xué)號(hào):202330850164指導(dǎo)教師:張大斌實(shí)驗(yàn)時(shí)間:2023.11.102023年11月10日實(shí)驗(yàn)題綱:實(shí)驗(yàn)?zāi)康牧私馐煜PSSModeler及其相關(guān)知識(shí)掌握SPSSModeler工具建立K-Means聚類的方法學(xué)會(huì)運(yùn)用SPSSModeler聚類進(jìn)行相關(guān)內(nèi)容的分析實(shí)驗(yàn)內(nèi)容本實(shí)驗(yàn)是以我國(guó)31個(gè)省市自治區(qū)2023年各地區(qū)經(jīng)濟(jì)開展的數(shù)據(jù)為例,來討論K-Means的具體操作。文件名為K-Means.sav,它是一個(gè)SPSS類型的文件。文件中的變量x1至x11依次表示:人口及分性別的人口數(shù),反映各地區(qū)的人口水平;出生預(yù)期壽命和每萬人平均病床數(shù),反映各地區(qū)人民的健康水平;大專以上文化程度人口比例反映各地區(qū)的教育水平;人均GDP。第三產(chǎn)業(yè)增加值占GDP的比例、人均道路面積、省會(huì)城市空氣質(zhì)量到達(dá)并好于二級(jí)的天數(shù)以及人均環(huán)境污染治理投資額,反映各地區(qū)的經(jīng)濟(jì)開展和社會(huì)環(huán)境水平等。本次實(shí)驗(yàn)分析的目的,根據(jù)所給變量研究我國(guó)3個(gè)省會(huì)自治區(qū)的綜合開展水平,分析哪些省會(huì)自治區(qū)處在相同的開展結(jié)構(gòu)水平上。具體實(shí)驗(yàn)步驟如下所示。實(shí)驗(yàn)步驟與結(jié)果步驟1.創(chuàng)立K-means聚類數(shù)據(jù)流通過“Statistics文件〞節(jié)點(diǎn)導(dǎo)入本節(jié)分析文件K-means.sav。選擇“字段選擇〞—“類型〞節(jié)點(diǎn),雙擊“類型〞節(jié)點(diǎn),在類型的編輯窗口中,設(shè)置“地區(qū)〞角色為“無〞,如下圖在“建模〞卡中選擇“K-means〞節(jié)點(diǎn),將其連接到數(shù)據(jù)流中。步驟2設(shè)置相關(guān)參數(shù)點(diǎn)擊鼠標(biāo)右鍵,選擇菜單中“編輯〞選項(xiàng)進(jìn)行參數(shù)設(shè)置,在“模型〞模塊下指定聚類數(shù)目為4,勾選“生成距離字段〞和“數(shù)值〞選項(xiàng),如下圖在“專家〞模塊下,勾選“模式〞下的“專家〞選項(xiàng),其他保持不變步驟3運(yùn)行結(jié)果本例的聚類的結(jié)果如下圖由圖10-4分析結(jié)果得到了4類所包含的樣本數(shù)〔分別是2,4,,10,15〕以及樣本所占的百分比〔48.4%,32.3%,12.9%,6.5%〕在圖10-5中可以知道每一個(gè)變量屬于哪一類以及它與類中心的歐氏距離。從結(jié)果圖10-5中可以知道31條數(shù)據(jù)共分為4類,例如上海和北京在第一類中,廣西和江西在第二類中,同樣的KMD—K-Means中可以知道每一個(gè)地區(qū)與對(duì)應(yīng)類的中心的之間的距離。實(shí)驗(yàn)分析與擴(kuò)展練習(xí)擴(kuò)展訓(xùn)練:請(qǐng)總結(jié)K均值聚類的優(yōu)缺點(diǎn)答:主要優(yōu)點(diǎn):1.K均值是解決聚類問題的一種經(jīng)典算法,簡(jiǎn)單、快速。對(duì)處理大數(shù)據(jù)集,該算法是相對(duì)可伸縮和高效率的。因?yàn)樗膹?fù)雜度是0(nkt),其中,n是所有對(duì)象的數(shù)目,k是簇的數(shù)目,t是迭代的次數(shù)。通常k<<n且t<<n。當(dāng)結(jié)果簇是密集的,而簇與簇之間區(qū)別明顯時(shí),它的效果較好。2.K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。主要缺點(diǎn):1.在簇的平均值被定義的情況下才能使用,這對(duì)于處理符號(hào)屬性的數(shù)據(jù)不適用。必須事先給出k〔要生成的簇的數(shù)目〕,而且對(duì)初值敏感,對(duì)于不同的初始值,可能會(huì)導(dǎo)致不同結(jié)果。它對(duì)于“躁聲〞和孤立點(diǎn)數(shù)據(jù)是敏感的,少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響。當(dāng)數(shù)據(jù)數(shù)量不是足夠大時(shí),初始化分組很大程度上決定了聚類,影響聚類結(jié)果。對(duì)初始化條件敏感。無法確定哪個(gè)屬性對(duì)聚類的奉獻(xiàn)更大。使用算術(shù)平均值對(duì)outlier不魯棒。因?yàn)榛诰嚯x,故結(jié)果是圓形的聚類形狀。K均值很難處理非球形的簇和不同大小的簇,K均值可以發(fā)現(xiàn)不是明顯別離的簇。五、結(jié)論與討論(重點(diǎn))通過此次實(shí)驗(yàn)課,了解了以下知識(shí)點(diǎn):1.KMeans算法的根本思想是初始隨機(jī)給定K個(gè)簇中心,按照最鄰近原那么把待分類樣本點(diǎn)分到各個(gè)簇。然后按平均法重新計(jì)算各個(gè)簇的質(zhì)心,從而確定新的簇心。一直迭代,直到簇心的移動(dòng)距離小于某個(gè)給定的值。2.K-Means聚類算法主要分為三個(gè)步驟:
(1)第一步是為待聚類的點(diǎn)尋找聚類中心
(2)第二步是計(jì)算每個(gè)點(diǎn)到聚類中心的距離,將每個(gè)點(diǎn)聚類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞動(dòng)仲裁調(diào)解協(xié)議書7篇
- 商業(yè)合伙人的協(xié)議書
- 傳統(tǒng)民間工藝品-捏面人簡(jiǎn)介
- (參考模板)三通項(xiàng)目立項(xiàng)報(bào)告
- 第三次月考試卷-A4
- 重慶2020-2024年中考英語5年真題回-教師版-專題08 閱讀理解之記敘文
- 電能表安06課件講解
- 2023年抗甲狀腺藥項(xiàng)目融資計(jì)劃書
- 國(guó)華電力危險(xiǎn)化學(xué)品安全管理培訓(xùn)課件
- PLC控制技術(shù)試題庫(附參考答案)
- 李商隱詩歌《錦瑟》課件
- 世界文化遺產(chǎn)-樂山大佛課件
- 2022小學(xué)一年級(jí)數(shù)學(xué)活用從不同角度解決問題測(cè)試卷(一)含答案
- 博爾赫斯簡(jiǎn)介課件
- 2021年山東交投礦業(yè)有限公司招聘筆試試題及答案解析
- 施工單位資料檢查內(nèi)容
- 大氣課設(shè)-酸洗廢氣凈化系統(tǒng)
- 學(xué)校校慶等大型活動(dòng)安全應(yīng)急預(yù)案
- 檢測(cè)公司檢驗(yàn)檢測(cè)工作控制程序
- 高血壓病例優(yōu)秀PPT課件
- 精密電主軸PPT課件
評(píng)論
0/150
提交評(píng)論