基于系統(tǒng)聚類的k-means聚類分析在人體體型分類中的應(yīng)用_第1頁
基于系統(tǒng)聚類的k-means聚類分析在人體體型分類中的應(yīng)用_第2頁
基于系統(tǒng)聚類的k-means聚類分析在人體體型分類中的應(yīng)用_第3頁
基于系統(tǒng)聚類的k-means聚類分析在人體體型分類中的應(yīng)用_第4頁
基于系統(tǒng)聚類的k-means聚類分析在人體體型分類中的應(yīng)用_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于系統(tǒng)聚類的k-means聚類分析在人體體型分類中的應(yīng)用

隨著人們生活水平的提高,人們的體重發(fā)生了顯著變化。由于年齡、個(gè)體、地區(qū)和種族的不同,以及服裝個(gè)性化的需要,服裝生產(chǎn)和加工對(duì)人體體型的分類有了越來越詳細(xì)的要求。許多專家和科學(xué)家在分類方法、分類變量和分類數(shù)字方面進(jìn)行了探討。在文獻(xiàn)中,中國北方的年輕女性的人體數(shù)據(jù)通過聚類分析將人體分為三種類型:薄、正常和胖,并使用距離法分析了體重的比例。在文獻(xiàn)中,我們發(fā)現(xiàn)了四個(gè)具有代表人體的體表角度,即斜角、胸凸角、體側(cè)角和脊柱凸角。采用k-mean聚類分析將人體分為四種類型。文獻(xiàn)使用heat-torr脂肪體法對(duì)865名土家族兒童的體重進(jìn)行了評(píng)價(jià)。結(jié)果表明,除了標(biāo)準(zhǔn)水平的胸腰椎差異外,還有人體特征點(diǎn)、生態(tài)單元、綜合變量和特征指數(shù)。通過對(duì)1995年至2014年文獻(xiàn)中的數(shù)據(jù)庫電子資源進(jìn)行調(diào)查,發(fā)現(xiàn)k-mean聚類分析是人類規(guī)模分析中最常見的分類方法。應(yīng)用現(xiàn)狀如下。(1)分類變量為人體特征部位數(shù)據(jù)或這些部位的派生變量;(2)分類數(shù)的確定主要有2種:一是根據(jù)經(jīng)驗(yàn)或參照國內(nèi)外服裝號(hào)型標(biāo)準(zhǔn)中的分類數(shù),二是根據(jù)多次聚類結(jié)果進(jìn)行對(duì)比后選定最佳分類數(shù)目.同時(shí),文獻(xiàn)檢索發(fā)現(xiàn)K-means聚類分析在人體體型分析的應(yīng)用中存在以下問題:(1)K-means聚類只能對(duì)連續(xù)變量進(jìn)行分類,大量使用該方法的文獻(xiàn)幾乎沒有提及K-means聚類分析對(duì)數(shù)據(jù)的分布要求;(2)人體體型分類相關(guān)研究極少提到確定K-means聚類分析分類數(shù)的科學(xué)合理依據(jù);(3)K-means聚類受到聚類中心和分類數(shù)的影響,達(dá)到聚類收斂所需的迭代次數(shù)各不相同,查閱到的文獻(xiàn)中只有少數(shù)幾篇提到,因此迭代次數(shù)的選擇與聚類收斂的關(guān)系有待探索.針對(duì)以上總結(jié),本文將從以下幾個(gè)方面對(duì)K-means在人體體型分析中的應(yīng)用進(jìn)行探索:(1)K-means聚類只能應(yīng)用于連續(xù)型變量,先對(duì)已有的變量進(jìn)行分布檢驗(yàn),確定可行性;(2)尋找確定分類數(shù)的方法;(3)探索K-means聚類中迭代次數(shù)和迭代收斂的關(guān)系,確定使用SPSS做聚類分析時(shí)的最大迭代次數(shù),確保聚類收斂.1k-mean聚集類分析數(shù)據(jù)的準(zhǔn)備1.1人體差異檢驗(yàn)樣本容量是指樣本中所包含的單位個(gè)數(shù).樣本容量過大,會(huì)造成人力、物力和財(cái)力的浪費(fèi);樣本容量過小,會(huì)增大抽樣誤差,影響樣本可靠程度,因此,樣本容量的確定是抽樣方案中的基礎(chǔ)問題.服裝號(hào)型標(biāo)準(zhǔn)GB/T1335—2008規(guī)定了成年人體各部位尺寸的標(biāo)準(zhǔn)差和最大容許誤差,如表1所示.根據(jù)樣本容量計(jì)算式其中,n為樣本容量,t為置信度5%和自由度為∞下的概率度,為1.96,Δ為樣本的容許誤差,δ為總體標(biāo)準(zhǔn)差,代表離散程度.以成年人體各部位為考核對(duì)象的樣本容量計(jì)算結(jié)果如表1所示.由表1可知,以腰圍為基礎(chǔ)的樣本容量最大,故本實(shí)驗(yàn)中測(cè)量的人數(shù)不得少于173人.本文以219名18~25歲青年女性的人體數(shù)據(jù)作為檢驗(yàn)樣本,采用統(tǒng)計(jì)軟件SPSS(StatisticalPackagefortheSocialSciences)作為數(shù)據(jù)分析工具,參考我國服裝號(hào)型標(biāo)準(zhǔn)GB/T1335—2008,以胸腰差作為體型分類判別變量,對(duì)數(shù)據(jù)進(jìn)行K-means聚類分析.1.2性檢驗(yàn)—正態(tài)分布檢驗(yàn)一般情況下人體的胸腰差符合正態(tài)分布.K-means聚類分析只能對(duì)連續(xù)型變量進(jìn)行分類,在數(shù)理統(tǒng)計(jì)中許多統(tǒng)計(jì)量不論原分布是何種形式,只要樣本容量n充分大,它都近似于正態(tài)分布,正態(tài)分布是連續(xù)型分布的一種.因此,聚類分析之前需要檢驗(yàn)胸腰差變量是否符合正態(tài)分布.本文選用分布檢驗(yàn)中的χ2檢驗(yàn)法.首先給出假設(shè):H0:ξue01bN(μ,σ2),將總體劃分為k個(gè)不相交的區(qū)間,樣本落在第i個(gè)區(qū)間的頻數(shù)即觀察頻數(shù)為νi,當(dāng)k足夠大時(shí)統(tǒng)計(jì)量由表3數(shù)據(jù)求得χ2=11.476.α=0.05,k=8,r=2時(shí)查表得到漸進(jìn)顯著性為0.119,大于顯著性水平0.05,接受原假設(shè),則可以認(rèn)為該群體青年女子的胸腰差服從N(15.66,2.94072)的正態(tài)分布,符合K-means聚類分析和系統(tǒng)聚類分析的前提要求.1.3按胸腰差分類根據(jù)國家服裝號(hào)型標(biāo)準(zhǔn)對(duì)成年女子體型劃分依據(jù)(如表4所示)可知,國家標(biāo)準(zhǔn)的體型劃分趨于均勻,便于實(shí)際應(yīng)用.檢驗(yàn)樣本按胸腰差分類的結(jié)果如表5所示.由表5可知,與國家服裝號(hào)型標(biāo)準(zhǔn)相比,檢驗(yàn)樣本的胸圍、腰圍、臀圍、腰圍高、身高均值略小,但兩者非常接近,說明該地區(qū)青年女子體型具有代表性.2確定最佳分類數(shù)的方法K-means聚類分析必須先給定分類數(shù),分類數(shù)K決定最終的聚類結(jié)果,K的選定需要經(jīng)過多次試驗(yàn)確定最佳值.現(xiàn)有的人體體型分類文獻(xiàn)中分類數(shù)的選擇多為根據(jù)經(jīng)驗(yàn)或參照國內(nèi)外相關(guān)標(biāo)準(zhǔn)確定,或?qū)Χ啻尉垲惤Y(jié)果進(jìn)行對(duì)比后選定最佳值.選擇合適的方法確定最佳分類數(shù)是非常重要的.通過查閱2001—2014年數(shù)據(jù)挖掘的相關(guān)文獻(xiàn),發(fā)現(xiàn)確定最佳分類數(shù)常用的方法:(1)根據(jù)數(shù)據(jù)點(diǎn)的分布情況,憑經(jīng)驗(yàn)直觀判斷;(2)根據(jù)適當(dāng)?shù)拈撝?即按照系統(tǒng)聚類步驟分類后,使用臨界相似性尺度分割譜系圖得到分類;(3)根據(jù)統(tǒng)計(jì)量如偽F統(tǒng)計(jì)量、偽T2統(tǒng)計(jì)量、混合F統(tǒng)計(jì)量等;(4)提出有效性指標(biāo)如Silhouette指標(biāo)和各種距離評(píng)價(jià)函數(shù).上述方法各有優(yōu)劣,其中,距離評(píng)價(jià)函數(shù)是基于同類之間的相似度最大而差異度最小,類與類之間的相似度最小而差異度最大的準(zhǔn)則.距離評(píng)價(jià)函數(shù)與人體體型分類要求吻合,因此,將其引入人體體型分類中具有可行性.距離評(píng)價(jià)函數(shù)需要確定分類數(shù)范圍[Kmin,Kmax],通過編程語言計(jì)算得到相關(guān)參數(shù),最終判斷最優(yōu)分類數(shù).為了簡化計(jì)算,降低計(jì)算難度,本文在距離評(píng)價(jià)函數(shù)F(S,K)的基礎(chǔ)上提出了一種新的確定分類數(shù)的方法,即基于系統(tǒng)聚類分析的距離評(píng)價(jià)函數(shù)優(yōu)化法.該方法采用系統(tǒng)聚類分析的樹狀圖判斷可能較優(yōu)的分類數(shù),再通過距離評(píng)價(jià)函數(shù)優(yōu)化法確定分類數(shù).2.1不同樹狀的分類結(jié)果圖1所示系統(tǒng)聚類分析樹狀圖顯示聚類過程和不同類時(shí)個(gè)案所屬的分類結(jié)果,觀察樹狀圖發(fā)現(xiàn),以胸腰差為分類依據(jù),樣本可以劃分為2,3,4,5,6,7類,僅僅需要驗(yàn)證6種分類數(shù)時(shí)的分類結(jié)果,工作量大大減少.2.2距離評(píng)價(jià)函數(shù)樣本數(shù)據(jù)集合為S={x1,x2,...,xn},K為分類數(shù),令I(lǐng)={S,K}為聚類空間.(1)類間距離Dout為所有聚類中心(類內(nèi)樣本均值)到全域中心(全體樣本均值)的距離之和,計(jì)算式如式(2)所示.其中:珚x為全體樣本均值,xi為類Ci中的所有樣本均值.(2)類內(nèi)距離Din為每個(gè)類內(nèi)對(duì)象到該類中心距離的總和,計(jì)算式如式(3)所示.其中:p為任一類內(nèi)的空間對(duì)象.(3)由文獻(xiàn)可知,當(dāng)Dout+Din最小時(shí),K值接近最優(yōu),定義距離評(píng)價(jià)函數(shù)為運(yùn)用距離評(píng)價(jià)函數(shù)檢驗(yàn)聚類的有效性時(shí),確定了距離代價(jià)最小的原則,即距離評(píng)價(jià)函數(shù)達(dá)到最小值時(shí),空間聚類結(jié)果最優(yōu),K=min{F(S,K)},由系統(tǒng)聚類分析樹狀圖確定K=2,3,4,5,6,7,不同的K值對(duì)應(yīng)的評(píng)價(jià)參數(shù)如表6所示.由表6可知,分類數(shù)為7時(shí)距離評(píng)價(jià)函數(shù)達(dá)到最小值,可判斷7為最優(yōu)分類數(shù);分類數(shù)為4的距離評(píng)價(jià)函數(shù)值小于分類數(shù)為3和5的情況,說明分類數(shù)為4要優(yōu)于3和5,所以當(dāng)分類數(shù)限定為3~5時(shí),應(yīng)優(yōu)先將其分為4類.基于系統(tǒng)聚類的距離函數(shù)評(píng)價(jià)法減少了運(yùn)算量和運(yùn)算的復(fù)雜程度,提高了效率,并且通過219名青年女性的人體數(shù)據(jù)驗(yàn)證了該方法的可行性和有效性.需要注意的是,此處的分類數(shù)僅代表本次219個(gè)樣本的計(jì)算結(jié)果,受樣本量和分布區(qū)域的影響,不同樣本的最佳分類數(shù)需要根據(jù)實(shí)際情況確定.3k-mens聚類分析的迭代收斂K-means聚類分析通過計(jì)算每個(gè)觀測(cè)量到各個(gè)聚類中心的歐氏距離,按就近原則將觀測(cè)量歸入一類,再計(jì)算歸類后各類的中心位置,并將該中心位置作為新的聚類中心.如此反復(fù),直到迭代停止.只有迭代收斂才能確定樣本最終屬于哪一類,因此,迭代必須收斂是K-means聚類分析中十分重要卻容易被忽視的問題.已知K-means聚類分析的迭代收斂條件為maxΔ{zN}<minz{i-zj}×θ,其中,maxΔz{N}為迭代到第N次時(shí),聚類中心的最大改變量;為初始中心間的最小距離;θ為聚類比例系數(shù).SPSS17.0系統(tǒng)默認(rèn)的K-means聚類分析的最大迭代次數(shù)為10次,因不能確定10次是否滿足聚類分析的迭代收斂,這里通過對(duì)兩組不同的數(shù)據(jù)進(jìn)行聚類分析,探索K-means聚類分析收斂的迭代次數(shù),分類數(shù)為4.選取總體樣本219名青年女性人體數(shù)據(jù)為數(shù)據(jù)1,已經(jīng)證明符合正態(tài)分布;從219個(gè)樣本量中隨機(jī)抽取100名青年女性人體數(shù)據(jù)為數(shù)據(jù)2,數(shù)理統(tǒng)計(jì)中重復(fù)抽樣的每一個(gè)樣本都具有總體特征,即與總體有相同分布.數(shù)據(jù)1和數(shù)據(jù)2用于K-means聚類收斂迭代次數(shù)的探索.3.1k-me現(xiàn)行聚類分析數(shù)據(jù)1的不同體型聚類中心隨迭代次數(shù)增加的變化趨勢(shì)如表7所示.由表7可知,經(jīng)過K-means聚類分析之后,第1類體型的最終聚類中心位于Y體型中,第2類體型的最終聚類中心位于A體型中,第3類體型的最終聚類中心位于B體型,第4類體型的最終聚類中心位于C體型中.由此可見,K-means聚類分析與國標(biāo)體型劃分是相當(dāng)接近的.表7顯示,初始中心間的最小距離為3.7cm(14.3-10.6=3.7),取聚類比例系數(shù)θ=0.02,初始聚類中心之間最小距離的θ倍為0.074cm(0.02×3.7=0.074).數(shù)據(jù)1的K-means聚類分析的迭代歷史記錄如表8所示.由表8可知,迭代次數(shù)為7,聚類中心之間的最大改變量為0,小于0.074,聚類中心之間的最大改變量小于初始聚類中心之間最小距離的θ倍時(shí),聚類分析收斂,從而停止迭代,由此可知,本文對(duì)數(shù)據(jù)1的K-means聚類分析的最小迭代次數(shù)為7次.3.2k-me黨組織聚類分析數(shù)據(jù)2的不同體型聚類中心隨迭代次數(shù)增加的變化趨勢(shì)如表9所示.由表9可知,4種體型的最終聚類中心分別位于Y,A,B,C4類體型中.表9顯示數(shù)據(jù)2初始中心間的最小距離為2.3cm(10.6-8.3=2.3),取聚類比例系數(shù)θ=0.02,初始聚類中心之間最小距離的θ倍為0.046cm(0.02×2.3=0.046).數(shù)據(jù)2的K-means聚類分析的迭代歷史記錄如表10所示.由表10可知,迭代次數(shù)為17時(shí),聚類中心的最大改變量小于初始聚類中心之間最小距離的θ倍,迭代收斂.由此可知,本文對(duì)數(shù)據(jù)2的K-means聚類分析的最小迭代次數(shù)為17次,所以迭代次數(shù)不能小于17.由以上兩組數(shù)據(jù)的K-means聚類分析可以看出,因數(shù)據(jù)的離散程度和范圍不同,不同數(shù)據(jù)聚類分析所需要迭代的次數(shù)也有所不同.SPSS軟件默認(rèn)的迭代次數(shù)比較小,所以K-means聚類分析時(shí)要注意迭代次數(shù)的選定,確定迭代是否已經(jīng)收斂,如不收斂,則需要設(shè)定更大的迭代次數(shù)直到聚類收斂.4k-me現(xiàn)行聚類分析方法k-me-pb本文以現(xiàn)行的國家服裝號(hào)型標(biāo)準(zhǔn)規(guī)定的體型分類依據(jù)———胸腰差為分類變量,對(duì)K-Means聚類分析在人體體型分類中的應(yīng)用進(jìn)行了研究,分析了樣本量的確定,應(yīng)用統(tǒng)計(jì)學(xué)的χ2檢驗(yàn)法驗(yàn)證了本次樣本的人體胸腰差數(shù)據(jù)符合正態(tài)分布,確定該樣本符合K-means聚類分析的前提要求.然后,采用基于系統(tǒng)聚類的距離評(píng)價(jià)函數(shù)法,確定本次樣本的最優(yōu)分類數(shù)為7,當(dāng)分類數(shù)的范圍限定為3~5類時(shí),則最優(yōu)分類數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論