版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于散類K-means算法的初值依好性研討摘要散類闡收是數(shù)據(jù)挖客中的一個慌張研討范疇。K-eans算法對隨機拔與K個初初面做為初初值是很敏感的,散類的量量依好于初初值。正在闡收散類結果對初值依好性的根底上,對初值拔與要收停頓了闡收戰(zhàn)研討,并提出了一種有用的革新要收,經由過程試考證年夜黑革新算法的有用性。閉鍵詞數(shù)據(jù)挖客;散類;K-eans;初值1引止數(shù)據(jù)挖客(Dataining),又稱為數(shù)據(jù)庫中的常識創(chuàng)制(簡稱KDD),是從年夜量數(shù)據(jù)中提與可疑的、新穎的、有用的并能被人們明黑的形式的處置懲獎歷程。它是一門新興的交織教科,匯散了去自機器進修、形式識別、數(shù)據(jù)庫、統(tǒng)計教、野生智能等各范疇的研討結果。散
2、類是數(shù)據(jù)挖客中的一種慌張妙技,是把一組個別根據(jù)類似性回成多少類別即“物以類散。它的目的是使得屬于統(tǒng)一種其中個別之間的隔絕間隔 盡年夜要的小而差異類別上的個別間的隔絕間隔 盡年夜要年夜。2散類K-eans算法簡介K-eans算法屬于數(shù)據(jù)挖客散類闡收要收中一種根底的且利用最廣泛的別離算法,它是一種散類類別數(shù)的散類算法。指定類別數(shù)為K,對樣本靠攏停頓散類,散類的結果由K個散類中間去表達,基于給定的散類目的函數(shù)(年夜要道是散類結果分辨本那么),算法采納迭代更新的要收,每次迭代歷程皆是背目的函數(shù)值減小的標的目的停頓,最終的散類結果使目的函數(shù)值獲得細小值,抵達較劣的散類結果。根據(jù)散類結果的表達要收又可以分
3、為硬K-eans(H)算法、模糊K-eans算法(F)戰(zhàn)幾率K-eans算法(P)。該算法的根底框架以下:(1)給定大小為N的數(shù)據(jù)散,令I=1,拔與k個初初散類中間Zj(I),j=1,2,3,.,k。(2)策畫每個數(shù)據(jù)工具與散類中間的隔絕間隔 D(Xi,Zj(I)。其中i=1,2,3,n,j=1,2,3,k,假設謙意(1)式:那么Xik;(3)策畫K個新的散類中間(4)斷定:假設Zj(I+1)Zj(I),j=1,2,3,K,那么I=I+1,返回(2),沒有然該算法完畢。從上里的算法思維戰(zhàn)算法框架,我們沒有易看出,K個初初散類中間面的拔與對散類結果具有較年夜的影響,因為正在該算法中是隨機天拔與盡
4、情K個面做為初初散類中間。假設有先驗常識,可以拔與具有代表性的面做為初初中間面。3散類K-eans算法的初值依好性3.1初值依好性闡收沒有管是本初K-eans算法借是利用了散類本那么函數(shù)的K-eans算法,皆具有一個配開的特征:正在算法的初初階段皆要拔與K個面做為初初散類中間,然后正在此根底上停頓反復迭代。拔與的面差異,散類結果年夜要便有所差異,所以那個算法的散類結果對初值的依好性很強,多么的依好性招致散類結果的沒有沒有變。固然也有年夜要碰著最非常的初值拔與狀況,那種狀況使得算法運轉工夫減少,散類本那么函數(shù)易以支斂,散類結果越收易以揣測。3.2嘗試結論為了證實初值拔與對散類結果的影響,制做了一
5、個測試模塊。利用算法測試模塊獲得的結果別離如圖1戰(zhàn)2所示,圖中圓圈代表的是初初的散類中間即初值,zi(i=1,2,3,4,5)暗示散類完成后的散類中間,i(i=1,2,3,4,5)暗示每個簇。每個數(shù)據(jù)工具被分派給離它比去的散類中間所正在的類。我們可以很清楚天看到初初值的拔與對散類結果的影響,反過去也可以道是散類結果對初初散類中間的依好。隱然,圖2中因為初初散類中間面的挑選比力好,果而終了的散類結果較為幻念。果而,隨機挑選初初散類中間使得散類很易過到一個沒有變的散類結果。針對散類初值挑選那一題目成績,有文獻考慮了冗余類中間初初化要收,該要收擴年夜理解空間的搜刮范疇,淘汰了某些極值面四周無初值的機
6、緣,初初散類中間正在數(shù)據(jù)空間中分布較廣,具有多樣性。詳細要收為采納得當本那么緩緩減小類的個數(shù),曲到指定抵達指定的k的數(shù)量,多么獲得的散類結果受隨機挑選初初散類中間的影響較校初初的散類中間選的越多,散類結果受初值的影響便越校但正在那個算法中,需要肯定一個開并參數(shù)d,即對類間距小于d的類便停頓開并。真踐上,對那個開并參數(shù)d很易肯定,而那個參數(shù)的挑選又間接影響著散類結果。該革新算法使得正在刪減散類中間的同時也刪減了算法中的策畫量戰(zhàn)散類結果的沒有肯定性。圖1測試結果1圖2測試結果2果而,初初散類中間的拔與要收是許多的,可以隨機收死,憑經歷常識獵與,采納稀度要收等等。沒有管散類算法采納哪種拔與要收,我們
7、皆渴視散類中間越沒有變越好,需要先驗常識越少越好,需要肯定的參數(shù)越少越好,并且渴視算法可以年夜要收死一個較沒有變的散類結果,而沒有是對初初散類中間非常敏感,差異的初初散類中間收死差異的散類結果。正在傳統(tǒng)的K-eans算法中,散類結果對初初散類中間有較強的依好性,即差異的初初散類中間會收死差異的散類結果,果而散類結果的有用性間接依好于初初散類中間的挑選。4有閉初值拔與的現(xiàn)有要收如古針對初值拔與的題目成績,慌張概括有以下幾種要收:(1)盡情拔與K個樣本數(shù)據(jù)做為初初散類中間。(2)根據(jù)經歷拔與有代表性的面做為初初散類中間。根據(jù)個別性質,沒有俗觀觀察數(shù)據(jù)構制,挑選出比力切開的代外表。(3)把部分混淆樣
8、本曲沒有俗觀沒有俗觀天分紅k類,策畫各種均值做為初初散類中間。(4)經由過程“稀度法挑選代外表做為初初散類中間。所謂稀度是指具有統(tǒng)計性質的樣本稀度。例如,以每個樣本為中間,以某個給定正數(shù)d1為半徑,正在特征空間里劃出一個球形鄰域,策畫降進該鄰域里的樣本數(shù)量做為該面的稀度。正在策畫完每個數(shù)據(jù)工具的稀度后,起尾拔與稀度最年夜的樣本做為第一個初初散類中間,它對應著樣天職布稀度的最頂峰值面;然后,給定一個正數(shù)d2,正在分開第一個初初散類中間隔絕間隔 d2之中挑選次年夜稀度面做為第2個代外表,如答應以制止代外表過分會開;依此類推,可以選出k個初初散類中間。(5)由(k-1)類散類題目成績解出k類題目成績
9、的代外表。例如:先把部分樣本算作一個類,樣本總均值面便是第1類的初初散類中間;然后,由第1類的初初散類中間戰(zhàn)離它最遠的一個樣本做為兩類的初初散類中間;依此類推,由(k-1)類的代外表戰(zhàn)離它們最遠的一個數(shù)據(jù)工具做為k類題目成績的初初散類中間。(6)按最年夜最小隔絕間隔 散類法中根究散類中間的要收肯定初初散類中間。(7)停頓屢次初值挑選、散類,覓出一組最劣的散類結果。(8)采納遺傳算法年夜要免疫謀劃要收停頓混淆散類。除以上的拔與要收以中,其中另有一種擴展的散類中間拔與要收。那種拔與要收與上述要擁有一個很年夜的區(qū)分,即由本去的面延少到一條線段,那種拔與要收正在類之間有干擾面時結果較好。由圖3我們可以
10、創(chuàng)制,假設散類中間挑選如下圖的1戰(zhàn)2,那么1,2兩個類皆年夜要被拆分,并且p面從實際上講該當別離到2類中,因為p1p2,即p面隔絕間隔 簇2遠,但真踐上把p面別離到簇1更公平,因為p到1的隔絕間隔 較遠。所以此時,選用A1B1,A2B2那么更切開,正在此要收中p面是1,2兩個類間的干擾面。圖3帶有干擾面P的散類綜上所述,初初散類中間的拔與要收許多,沒有管散類算法采納哪種拔與要收,皆是為算法可以年夜要收死一個較沒有變的散類結果,而沒有依好于初初散類中間。5革新初值拔與的K-eans算法從隨機挑選的初初散類中間開端停頓散類是很易過到一個沒有變的散類結果,針對那個題目成績,對散類中間的拔與停頓了革新
11、,革新散類算法中挑選初值工夫的依好性,前進散類結果的沒有變性,并給出嘗試結果。5.1革新歷程簡要闡收采納K-eans算法對本初數(shù)據(jù)散停頓散類輸出K/個散類中間,那里K/K,K是最終要肯定的簇數(shù)量,然后沒有俗觀觀察各散類中間之間的隔絕間隔 ,開并散類中間最為接遠的散類數(shù),曲到散類簇的數(shù)量淘汰到指定的K值為止。詳細描摹以下:算法:基于革新拔與初初散類中間的K-eans算法;輸進:n個數(shù)據(jù)工具靠攏xi;輸出:k個散類中間Zj及k個散類數(shù)據(jù)工具靠攏j;BeginRuneans(K/);/嘗試K-eans算法,收死K/個散類中間;Repeat開并散類中間中隔絕間隔 比去的面;Until散類數(shù)淘汰到K;/
12、開并K/KEnd;正在該算法中,塞責比力小的數(shù)據(jù)散,搜刮初初散類中間的歷程數(shù)據(jù)量較少,迭代次數(shù)也很小,速度很快。塞責數(shù)據(jù)靠攏非常年夜的狀況,搜刮初初散類中間的歷程所泯滅的工夫正在全部算法中可以忽略沒有計,所需總的工夫為(nk/d)。5.2嘗試結果如表1所示為革新前后的簇中間及均勻隔絕間隔 。表1革新前后參數(shù)比較算法簇中間坐標(七維)各簇均勻隔絕間隔 革新前簇1:(-0.52,-0.45,-0.31,-0.29,-1.23,-1.06,-0.62)簇2:(0.49,0.41,0.56,0.32,0.73,0.59,0.24)簇3:(0.09,0.09,0.25,-0.05,-0.14,-0.15
13、,-0.32)1.1030.7820.913革新后簇1:(-0.15,-0.20,-0.14,-0.14,-0.65,-0.58,-0.58)簇2:(0.42,0.40,0.53,0.33,0.73,0.57,0.33)簇3:(0.25,0.30,0.64,-0.06,0.09,0.08,-0.4)1.070.7760.690比較嘗試慌張沒有俗觀觀察算法革新前后收死散類結果的準確性。嘗試中拔與的數(shù)據(jù)散是我校門死的真正在結果。由表1我們可以看到革新后的算法隱著劣于革新前的,一樣那也證年夜黑革新后的算法是有用可用的。6結論正在K-eans算法中,起尾需要根據(jù)初初散類中間去肯定一個初初別離,然后對初
14、初別離停頓劣化,那個初初散類中間的挑選對散類結果有較年夜的影響,一旦初初值挑選的欠好,年夜要沒法獲得有用的散類結果,所以對該題目成績的研討成為散類K-eans算法的重面,初值拔與的好壞間接閉連到算法運轉的結果。參考文獻1張云濤等.數(shù)據(jù)挖客本理與妙技.電子財富出版社,20222減JiaEiHan,ihelineKaber.數(shù)據(jù)挖客沒有俗觀觀面與妙技范明,孟小峰,譯.北京:機器財富出版社,20013譚怯,枯春死.一個基于K-eans的散類算法的真現(xiàn)J.湖北平易遠族教院教報,2022.22(1):69-714范森淼,程曉青.數(shù)量聯(lián)絡閉系規(guī)矩創(chuàng)制中的散類要收研討J.策畫機教報,2002.8,Vl.23,N.8:P866-8715王真數(shù)據(jù)挖客中的散類算法J策畫機科教,2002,27(4):4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技賦能下的家庭中醫(yī)保健新模式研究
- 江西2025年江西應用工程職業(yè)學院招聘7人筆試歷年參考題庫附帶答案詳解
- 昭通云南昭通市應急管理局招聘應急救援指戰(zhàn)員和駕駛員12人筆試歷年參考題庫附帶答案詳解
- 文山云南文山富寧縣農業(yè)農村和科學技術局考察調(流)動工作人員筆試歷年參考題庫附帶答案詳解
- 2025年蘇教版九年級歷史下冊月考試卷
- 2025年外研版三年級起點八年級地理下冊月考試卷含答案
- 2025年外研版二年級英語下冊月考試卷含答案
- 2025年蘇科版選擇性必修1物理上冊階段測試試卷
- 2025年冀教版九年級歷史下冊階段測試試卷含答案
- 2025年牛津譯林版選修4地理上冊月考試卷含答案
- 2024屆上海高考語文課內古詩文背誦默寫篇目(精校版)
- DL-T5024-2020電力工程地基處理技術規(guī)程
- 2024年度-美團新騎手入門培訓
- 初中數(shù)學要背誦記憶知識點(概念+公式)
- 駕照體檢表完整版本
- 農產品農藥殘留檢測及風險評估
- 農村高中思想政治課時政教育研究的中期報告
- 20100927-宣化上人《愣嚴咒句偈疏解》(簡體全)
- 4-熔化焊與熱切割作業(yè)基礎知識(一)
- 單元教學評一體化設計的探索與實踐以統(tǒng)編語文教材四年級下冊第一單元為例
- 醫(yī)院標識牌方案設計2
評論
0/150
提交評論