版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一章1.6(1)數(shù)據(jù)特征化是目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總.例如,在某商店花費(fèi)1000元以上的顧客特征的匯總描述是:年齡在40—50歲、有工作和很好的信譽(yù)等級.(2)數(shù)據(jù)區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一般特性與一個(gè)或多個(gè)比照類對象的一般特性進(jìn)行比較.例如,高平均分?jǐn)?shù)的學(xué)生的一般特點(diǎn),可與低平均分?jǐn)?shù)的學(xué)生的一般特點(diǎn)進(jìn)行比較.由此產(chǎn)生的可能是一個(gè)相當(dāng)普遍的描述,如平均分高達(dá)75%的學(xué)生是大四的計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生,而平均分低于65%的學(xué)生那么不是.(3)關(guān)聯(lián)和相關(guān)分析是指在給定的頻繁項(xiàng)集中尋找相關(guān)聯(lián)的規(guī)那么.例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能會(huì)發(fā)現(xiàn)這樣的規(guī)那么:專業(yè)(X,計(jì)算機(jī)科學(xué)〞)=>擁有(X,〞個(gè)人電腦J[support=12%,confidence=98%],其中X是一個(gè)變量,代表一個(gè)學(xué)生,該規(guī)那么說明,98%的置信度或可信性表示,如果一個(gè)學(xué)生是屬于計(jì)算機(jī)科學(xué)專業(yè)的,那么擁有個(gè)人電腦的可能性是98%.12%的支持度意味著所研究的所有事務(wù)的12%顯示屬于計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生都會(huì)擁有個(gè)人電腦.(4)分類和預(yù)測的不同之處在于前者是構(gòu)建了一個(gè)模型(或函數(shù)),描述和區(qū)分?jǐn)?shù)據(jù)類或概念,而后者那么建立了一個(gè)模型來預(yù)測一些喪失或不可用的數(shù)據(jù),而且往往是數(shù)值,數(shù)據(jù)集的預(yù)測.它們的相似之處是它們都是為預(yù)測工具:分類是用于預(yù)測的數(shù)據(jù)和預(yù)測對象的類標(biāo)簽,預(yù)測通常用于預(yù)測缺失值的數(shù)值數(shù)據(jù).例如:某銀行需要根據(jù)顧客的根本特征將顧客的信譽(yù)度區(qū)分為優(yōu)良中差幾個(gè)類別,此時(shí)用到的那么是分類;當(dāng)研究某只股票的價(jià)格走勢時(shí),會(huì)根據(jù)股票的歷史價(jià)格來預(yù)測股票的未來價(jià)格,此時(shí)用到的那么是預(yù)測.(5)聚類分析數(shù)據(jù)對象是根據(jù)最大化類內(nèi)部的相似性、最小化類之間的相似性的原那么進(jìn)行聚類和分組.聚類還便于分類法組織形式,將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一起.例如:世界上有很多種鳥,我們可以根據(jù)鳥之間的相似性,聚集成n類,其中n可以認(rèn)為規(guī)定.(6)數(shù)據(jù)演變分析描述行為隨時(shí)間變化的對象的規(guī)律或趨勢,并對其建模.這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分、分類、預(yù)測和聚類,這類分析的不同特點(diǎn)包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配和基于相似性的數(shù)據(jù)分析.例如:假設(shè)你有紐約股票交易所過去幾年的主要股票市場(時(shí)間序列)數(shù)據(jù),并希望投資高科技產(chǎn)業(yè)公司的股票.股票交易數(shù)據(jù)挖掘研究可以識(shí)別整個(gè)股票市場和特定的公司的股票的演變規(guī)律.這種規(guī)律可以幫助預(yù)測股票市場價(jià)格的未來走向,幫助你對股票投資做決策.1.11一種是聚類的方法,另一種是預(yù)測或回歸的方法.(1)聚類方法:聚類后,不同的聚類代表著不同的集群數(shù)據(jù).這些數(shù)據(jù)的離群點(diǎn),是不屬于任何集群.在各種各樣的聚類方法當(dāng)中,基于密度的聚類可能是最有效的.(2)使用預(yù)測或回歸技術(shù):構(gòu)建一個(gè)基于所有數(shù)據(jù)的概率(回歸)模型,如果一個(gè)數(shù)據(jù)點(diǎn)的預(yù)測值有很大的不同給定值,然后給定值可考慮是異常的.用聚類的方法來檢查離群點(diǎn)更為可靠,由于聚類后,不同的聚類代表著不同的集群數(shù)據(jù),離群點(diǎn)是不屬于任何集群的,這是根據(jù)原來的真實(shí)數(shù)據(jù)所檢查出來的離群點(diǎn).而用預(yù)測或回歸方法,是通過構(gòu)建一個(gè)基于所有數(shù)據(jù)的(回歸)模型,然后根據(jù)預(yù)測值與原始數(shù)據(jù)的值比較,當(dāng)二者相差很大時(shí),就將改點(diǎn)作為離群點(diǎn)處理,這對所建立的模型有很大的依賴性,另外所建立的模型并不一定可以很好地?cái)M合原來的數(shù)據(jù),因此一個(gè)點(diǎn)在可能某個(gè)模型下可能被當(dāng)作離群點(diǎn)來處理,而在另外一個(gè)模型下就是正常點(diǎn).所以用聚類的方法來檢查離群點(diǎn)更為可靠15挖掘海量數(shù)據(jù)的主要挑戰(zhàn)是:1)第一個(gè)挑戰(zhàn)是關(guān)于數(shù)據(jù)挖掘算法的有效性、可伸縮性問題,即數(shù)據(jù)挖掘算法在大型數(shù)據(jù)庫中運(yùn)行時(shí)間必須是可預(yù)計(jì)的和可接受的,且算法必須是高效率和可擴(kuò)展的.2)另一個(gè)挑戰(zhàn)是并行處理的問題,數(shù)據(jù)庫的巨大規(guī)模、數(shù)據(jù)的廣泛分布、數(shù)據(jù)挖掘過程的高開銷和一些數(shù)據(jù)挖掘算法的計(jì)算復(fù)雜性要求數(shù)據(jù)挖掘算法必須具有并行處理的水平,即算法可以將數(shù)據(jù)劃分成假設(shè)干局部,并行處理,然后合并每一個(gè)局部的結(jié)果.第二章11三種標(biāo)準(zhǔn)化方法:(1)最小一最大標(biāo)準(zhǔn)化(min-max標(biāo)準(zhǔn)化):對原始數(shù)據(jù)進(jìn)行線性變換,將原始數(shù)據(jù)映射到一個(gè)指定的區(qū)間.,v_min/_一._v=(new_max-new_min)+new_minmax-min一一一(2)z-score標(biāo)準(zhǔn)化(零均值標(biāo)準(zhǔn)化):將某組數(shù)據(jù)的值基于它的均值和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,是其標(biāo)準(zhǔn)化后的均值為0方差為1.,vv=,其中N是均值,仃是標(biāo)準(zhǔn)差(3)小數(shù)定標(biāo)標(biāo)準(zhǔn)化:通過移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行標(biāo)準(zhǔn)化.7=本其中,j是使得Maxfv|)<1的最小整數(shù)(a)min-max標(biāo)準(zhǔn)化v-minv=(new_max-new_min)+new_minmax-min一一一其中v是原始數(shù)據(jù),min和max是原始數(shù)據(jù)的最小和最大值,new_max和new_min是要標(biāo)準(zhǔn)化到的區(qū)間的上下限原始數(shù)據(jù)2003004006001000[0,1]標(biāo)準(zhǔn)化00.1250.250.51(b)z-score標(biāo)準(zhǔn)化1v-v=,其中N是均值,仃是標(biāo)準(zhǔn)差,200300400600100010005001000_~zTT2TTTT2TTTT22(200—500)+(300—500)2+(400-500)2+(500—500)2+(1000-500)2ooo二2o2.o427原始數(shù)據(jù)2003004006001000z-score-1.06-0.7-0.350.351.782.13(1)逐步向前選擇(2)逐步向后刪除(3)向前選擇和向后刪除的結(jié)合第三章3.2簡略比較以下概念,可以用例子解釋你的觀點(diǎn)(a)雪花形模式、事實(shí)星座形、星形網(wǎng)查詢模型.答:雪花形和事實(shí)星形模式都是變形的星形模式,都是由事實(shí)表和維表組成,雪花形模式的維表都是標(biāo)準(zhǔn)化的;而事實(shí)星座形的某幾個(gè)事實(shí)表可能會(huì)共享一些維表;星形網(wǎng)查詢模型是一個(gè)查詢模型而不是模式模型,它是由中央點(diǎn)發(fā)出的涉嫌組成,其中每一條射線代表一個(gè)維的概念分層.(b)數(shù)據(jù)清理、數(shù)據(jù)變換、刷新答:數(shù)據(jù)清理是指檢測數(shù)據(jù)中的錯(cuò)誤,可能時(shí)訂正它們;數(shù)據(jù)變換是將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式;刷新是指傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新.(見74頁)(見74頁)student維表area維表univfacttable(a)雪花形模式圖如下:course維表(b)特殊的QLAP操作如下所示:(見79頁)在課程維表中,從course_id到department進(jìn)行上卷操作;在學(xué)生維表中,從student_id到university進(jìn)行上卷操作;根據(jù)以下標(biāo)準(zhǔn)進(jìn)行切片和切塊操作:department="C6anduniversity="BigUniversity";在學(xué)生維表中,從university到student_id進(jìn)行下鉆操作.(c)這個(gè)立方體將包含54=625個(gè)長方體.(見課本88與89頁)第五章5.1(a)假設(shè)s是頻繁項(xiàng)集,min_sup表示項(xiàng)集的最低支持度,D表示事務(wù)數(shù)據(jù)庫.由于s是個(gè)頻繁項(xiàng)集,所以有
supsupport(s)二support_count(s)之min_sup假設(shè)s是s的一個(gè)非空子集,由于support_count(s)>support_sup(s),故有至min_sup」,'supprotcount(s)support(s至min_sup所以原題得證,即頻繁項(xiàng)集的所有非空子集必須也是頻繁的.(b)由定(b)由定義知,support(s)=support_count(s)令s是s的任何一個(gè)非空子集,那么有support(s)='supprot_count(s)s的任意非空子集s的支持度p(l)
p(s)由(a)可知,support(s)-ss的任意非空子集s的支持度p(l)
p(s)至少和s的支持度一樣大.(c)由于confidence(s=l-s)=血?,confidence(s=p(s)根據(jù)(b)有p(s)=>p(s)''所以confidence(s=>l-s)_confidence(s-三l-s)..''..........■.一即“s=>(l-s)〞的置信度不可能大于"s=A(l—s)〞(d)反證法:即是D中的任意一個(gè)頻繁項(xiàng)集在D的任一劃分中都不是頻繁的假設(shè)D劃分成d1,d2,…,dn,設(shè)d1=Ci,dz|=C2,…,dn=Cn,min_sup表示最小支持度,C=D=GC2-CnF是某一個(gè)頻繁項(xiàng)集,A=F,A>CXmin_sup,D=d1=d25-udn設(shè)F的項(xiàng)集在d1,d2,…,dn中分別出現(xiàn)a1,a2,…,an次所以A=a1+a2+…+an*)故A之C父min_sup=(C1+C2+…+CN)父min_sup)*)=ai+a2++an之(Ci+C2+Cn)xmin_sup丁FftD的任意一個(gè)劃分都不是頻繁的:.a1<C1Mmin_sup,a2cC2Mmin_sup;",ancCn父min_sup(ai+a2+…+an)<(C[+C2+…+Cn)xmin_sup=A<Cmmin_sup這與(*)式矛盾從而證實(shí)在D中頻繁的任何項(xiàng)集,至少在D的一個(gè)局部中是頻繁.5.3最小支持度為3(a)Apriori方法:CiLiC2L2C3L3m3o3n2m3o3n2k5e4y3diaiuic2iim3o3k5e4y3moimk3me2my2ok3oe3oy2ke4ky3ey2mk3ok3oe3ke4ky31oke3keyokey3FFP-growth:Y:iitemCY:iitemConditionalpatternbaseConditionaltreeFrequentpatterny{{k,e,m,o:1},{k,e,o:1},{k,m:1}}K:3{k,y:3}o{{k,e,m:1},{k,e:2}}K:3,e:3{k,o:3},{e,o:3},{k,e,o:3}m{{k,e:2},{k:1}}K:3{k,m:3}e{{k:4}}K:4{k,e:4}這兩種挖掘過程的效率比較:Aprior算法必須對數(shù)據(jù)庫進(jìn)行屢次的掃描,而FP增長算法是建立在單次掃描的FP樹上.在Aprior算法中生成的候選項(xiàng)集是昂貴的〔需要自身的自連接〕而FP-growth不會(huì)產(chǎn)生任何的候選項(xiàng)集.所以FP算法的效率比先驗(yàn)算法的效率要高.(b)(b)k,o)e,o>e[0.6,1]k[0.6,1]5.6一個(gè)全局的關(guān)聯(lián)規(guī)那么算法如下:1〕找出每一家商店自身的頻繁項(xiàng)集.然后把四個(gè)商店自身的頻繁項(xiàng)集合并為CF項(xiàng)集;2〕通過計(jì)算四個(gè)商店的頻繁項(xiàng)集的支持度,然后再相加來確定CF項(xiàng)集中每個(gè)頻繁項(xiàng)集的總支持度即全局的支持度.其支持度超過全局支持度的項(xiàng)集就是全局頻繁項(xiàng)集.3〕據(jù)此可能從全局頻繁項(xiàng)集發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)那么.5.14support(hotdogs=humbergers)⑶=(h0td0gs「harmburge⑶=2000=40%>25%500055000confidence黑—%p(hotdogs,hamburger,
p(confidence黑—%所以該關(guān)聯(lián)規(guī)那么是強(qiáng)規(guī)那么.、p〔hotdogs,hamburgers〕corr〔hotdogs,hamburgers〕=--〔b〕p〔hotdogs〕p〔hamburgers〕TOC\o"1-5"\h\z200050000.44,===—130005000250050000.62.53所以給定的數(shù)據(jù),買hotdogs并不獨(dú)立于hamburgers,二者之間是正相關(guān).5.191〕挖掘免費(fèi)的頻繁1-項(xiàng)集,記為S12〕生成頻繁項(xiàng)集S2,條件是商品價(jià)值不少于$200〔使用FP增長算法〕3〕從S1S2找出頻繁項(xiàng)集4〕根據(jù)上面得到的滿足最小支持度和置信度的頻繁項(xiàng)集,建立規(guī)那么S1=>S2第六章6.1簡述決策樹的主要步驟答:假設(shè)數(shù)據(jù)劃分D是練習(xí)元組和對應(yīng)類標(biāo)號的集合1)樹開始時(shí)作為一個(gè)根節(jié)點(diǎn)N包含所有的練習(xí)元組;2)如果D中元組都為同一類,那么節(jié)點(diǎn)N成為樹葉,并用該類標(biāo)記它;3)否那么,使用屬性選擇方法確定分裂準(zhǔn)那么.分裂準(zhǔn)那么只當(dāng)分裂屬性和分裂點(diǎn)或分裂子集.4)節(jié)點(diǎn)N用分裂準(zhǔn)那么標(biāo)記作為節(jié)點(diǎn)上的測試.對分裂準(zhǔn)那么的每個(gè)輸出,由節(jié)點(diǎn)N生長一個(gè)分枝.D中元組厥詞進(jìn)行劃分.(1)如果A是離散值,節(jié)點(diǎn)N的測試輸出直接對應(yīng)于A的每個(gè)值.(2)如果A是連續(xù)值的,那么節(jié)點(diǎn)N的測試有兩個(gè)可能的輸出,分別對應(yīng)于A<split_point和A>split_point.(3)如果A是離散值并且必須產(chǎn)生二叉樹,那么在節(jié)點(diǎn)N的測試形如“AWSa",Sa是A的分裂子集.如果給定元組有A的值aj,并且ajWSa,那么節(jié)點(diǎn)N的測試條件滿足,從N生長出兩個(gè)分枝.5)對于D的每個(gè)結(jié)果劃分Dj,使用同樣的過程遞歸地形成決策樹.6)遞歸劃分步驟僅當(dāng)以下條件之一成立時(shí)停止:(1)劃分D的所有元組都屬于同一類;(2)沒有剩余的屬性可以進(jìn)一步劃分元組;(3)給定分枝沒有元組.計(jì)算決策樹算法在最壞情況下的計(jì)算復(fù)雜度是重要的.給定數(shù)據(jù)集D,具有n個(gè)屬性和|D|個(gè)練習(xí)元組,證實(shí)決策樹生長的計(jì)算時(shí)間最多為nM|D|xlogqD)證實(shí):最壞的可能是我們要用盡可能多的屬性才能將每個(gè)元組分類,樹的最大深度為10g(|D|),在每一層,必須計(jì)算屬性選擇O(n)次,而在每一層上的所有元組總數(shù)為|D|,所以每一層的計(jì)算時(shí)間為O(nx|D|),因此所有層的計(jì)算時(shí)間總和為O(n父|D|父logD),即證實(shí)決策樹生長的計(jì)算時(shí)間最多為n父D父10gqD|)為什么樸素貝葉斯分類稱為“樸素〞簡述樸素貝葉斯分類的主要思想.答:(1)樸素貝葉斯分類稱為“樸素〞是由于它假定一個(gè)屬性值對給定類的影響?yīng)毩⒂谄渌麑傩灾?做此假定是為了簡化所需要的計(jì)算,并在此意義下稱為“樸素〞.(2)主要思想:(a)設(shè)D是練習(xí)元組和相關(guān)聯(lián)的類標(biāo)號的集合.每個(gè)元組用一個(gè)n維屬性向量X={x1,X2,…,Xn}表示,描述由n個(gè)屬性Ai,A2,…,An對元組的n個(gè)測量.另外,假定有m個(gè)類Ci,C2,…,Cm(b)樸素貝葉斯分類法預(yù)測X屬于類G,當(dāng)且僅當(dāng)P(Ci|X)>P(Cj|X)1WjWm,j#i,因此我們要最大化P(Ci|X)=P(X髭;(.",由于P(X)對于所有類為常數(shù),因此只需要P(X|Ci)P(Ci)最大即可.如果類的先驗(yàn)概率未知,那么通過假定這些類是等概率的,即P(Ci)=P(C2)=…P(Cm),并據(jù)此對P(X|Ci)最大化,否那么,最大化P(X|Ci)P(Ci),類的先驗(yàn)概率可以用P(Ci)=巴也估計(jì).其中|GD|是D中Ci類的練習(xí)元組數(shù).(c)假IDI定屬性值有條件地相互獨(dú)立,那么nP(X|Ci)=nP(Xk|Ci)=P(X1|Ci)MP(X2|Ci)M…MP(Xn|G),如果Ak是分類屬k4性,那么P(Xk|0)是口中屬性Ak的值為Xk的Ci類的元組數(shù)除以D中Ci類的元組數(shù)|Ci,D|;如果Ak是連續(xù)值屬性,那么P(Xk|Ci)由高斯分布函數(shù)決定.6.13給定k和描述每個(gè)元組的屬性數(shù)n,寫一個(gè)k最近鄰分類算法.算法:輸入:(1)設(shè)U是待分配類的元組;T是一個(gè)練習(xí)元組集,包括T1=(t1Gti,2,…,t1,n),T2-(t2,1,t2,2,,t2,n),,Tm-(tm,1)tm,21,tm,n)(3)假設(shè)屬性ti,n是Ti的類標(biāo)簽;m為練習(xí)元組的個(gè)數(shù);n為每個(gè)元組的描述屬性的個(gè)數(shù);k是我們要找的最鄰近數(shù).輸出:U的分類標(biāo)簽算法過程:(1)定義矩陣a[m][2]0//(m行是存儲(chǔ)與m個(gè)練習(xí)元組有關(guān)的數(shù)據(jù),第一列是存儲(chǔ)待分類元組U與練習(xí)元組的歐幾里得距離,第二列是存儲(chǔ)練習(xí)元組的序號)(2)fori=1tomdofa[i][1]=Euclideandistance(U;Ti);a[i][2]=i;g//savetheindeX,becauserowswillbesortedlater(3)將a[i][1]按升序排列.(4)定義矩陣b[k][2].〃第一列包含的K-近鄰不同的類別,而第二列保存的是它們各自頻數(shù)⑸fori=1tokdofif類標(biāo)簽ta[i][2];n已經(jīng)存在于矩陣b中then矩陣b中找出這個(gè)類標(biāo)簽所在的行,并使其對應(yīng)的頻數(shù)增加1eles將類標(biāo)簽添加到矩陣b可能的行中,并使其對應(yīng)的頻數(shù)增加1(6)將矩陣b按類的計(jì)數(shù)降序排列(7)返回b(1).//返回頻數(shù)最大的類標(biāo)簽作為U的類標(biāo)簽.第七章
簡單地描述如何計(jì)算由如下類型的變量描述的對象間的相異度:(a)數(shù)值(區(qū)間標(biāo)度)變量答:區(qū)間標(biāo)度變量描述的對象間的相異度通?;诿繉ο箝g的距離計(jì)算的,常用的距離度量有歐幾里得距離和曼哈頓距離以及閔可夫基距離.歐幾里得距離的定義如下:d(i,j)-xi1-xji,xi2-xj2;xin-X川其中i=(xii,xi2,,xin)和j=(xji,xj2,,xjn)是兩個(gè)n維數(shù)據(jù)對象.曼哈頓距離的定義:d(i,j)=為1—x〞+xx2—xj2+…+*所一*而iijixjjuinjnPpp1n閔可夫基距離的定義:d(i,j)=(xi1-xj1+xx2-xj2+…+xin—xjny(b)非對稱的二元變量答:如果二元變量具有相同的權(quán)值,那么一個(gè)二元變量的相依表如下:對象j10和1qrq+r0sts+t和q+sr+tp因此計(jì)算相異度時(shí)可以在計(jì)算非對稱二元變量的相異度時(shí),認(rèn)為負(fù)匹配的情況不那么重要,忽略,所以二忽略,所以二元變量的相異度的計(jì)算公式為:d(i,j))qrs(c)分類變量i和j之間的相異度答:分類變量是二元變量的推廣,它可以取多于兩個(gè)i和j之間的相異度可以根據(jù)不匹配率來計(jì)算:d(i,j)=上二m,其中m是匹配的數(shù)目(即對i和j取值相同狀P態(tài)的變量的數(shù)目),而p是全部變量的數(shù)目.另外,通過為M個(gè)狀態(tài)的每一個(gè)創(chuàng)立一個(gè)二元變量,可以用非對稱二元變量對分類變量編碼.對于一個(gè)具有給定狀態(tài)值的對象,對應(yīng)于該狀態(tài)值的二元變量置為1,而其余的二元變量置為0.(d)比例標(biāo)度變量答:有以下三種方法:(1)將比例標(biāo)度變量當(dāng)成是區(qū)間標(biāo)度標(biāo)量,那么可以用閩可夫基距離、歐幾里得距離和曼哈頓距離來計(jì)算對象間的相異度.(2)比照例標(biāo)度變量進(jìn)行對數(shù)變換,例如對象i的變量f的值%變換為yif=log(xif),變換得到的yif可以看作區(qū)間值.(3)將xif看作連續(xù)的序數(shù)數(shù)據(jù),將其秩作為區(qū)間值來對待.(e)非數(shù)值向量對象答:為了測量復(fù)雜對象間的距離,通常放棄傳統(tǒng)的度量距離計(jì)算,而引入非度量的相似度函數(shù).例如,兩個(gè)向量x和y,可以將相似度函數(shù)定義為如下所示的余弦度量:s(x,y)=其中,x,是向量x的轉(zhuǎn)置,Hx|是向量x的歐幾里得范數(shù),|y|是向量y的歐幾里得范數(shù),s本質(zhì)上是向量x和y之間夾角的余弦值.7.5簡略描述如下的聚類方法:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法、針,高維數(shù)據(jù)的方法和基于約束的方法.為每類方法給出例子.(1)劃分方法:給定n個(gè)對象或數(shù)據(jù)元組的數(shù)據(jù)可,劃分方法構(gòu)建數(shù)據(jù)的k個(gè)劃分,每個(gè)劃分表示一個(gè)簇,k<=n.給定要構(gòu)建的劃分?jǐn)?shù)目k,劃分方法創(chuàng)立一個(gè)初始畫風(fēng).然后采用迭代重定位技術(shù),嘗試通過對象在組間移動(dòng)來改進(jìn)劃分.好的劃分的一般準(zhǔn)那么是:在同一個(gè)簇的對象間互相“接近〞和相關(guān),而不同簇中的對象之間“遠(yuǎn)離〞或不同.k均值算法和k中央點(diǎn)算法是兩種常用的劃分方法.(2)層次方法:層次方法創(chuàng)立給定數(shù)據(jù)對象集的層次分解.根據(jù)層次的分解的形成方式,層次的方法可以分類為凝聚的或分裂的方法.凝聚法,也稱自底向上方法,開始將每個(gè)對象形成單獨(dú)的組,然后逐次合并相近的對象或組,直到所有的組合并
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024房地產(chǎn)經(jīng)紀(jì)人培訓(xùn)計(jì)劃:形象禮儀篇
- Excel2024版高級數(shù)據(jù)可視化技巧
- 創(chuàng)新思維下的2024年《畫漫畫》教案設(shè)計(jì)
- 2023年遼寧省大連市大學(xué)英語6級大學(xué)英語六級模擬考試(含答案)
- 術(shù)后鎮(zhèn)痛六大優(yōu)點(diǎn)及可能產(chǎn)生的副作用
- 2024年教育發(fā)展趨勢:《我有兩件寶》課件的未來展望
- 小學(xué)生校園欺凌主題班會(huì)教案
- 2024-2025學(xué)年高中數(shù)學(xué)第七章三角函數(shù)7.3三角函數(shù)的性質(zhì)與圖像7.3.1正弦函數(shù)的性質(zhì)與圖像精英同步練含解析新人教B版必修第三冊
- 2025屆高考?xì)v史統(tǒng)考一輪復(fù)習(xí)課后限時(shí)集訓(xùn)39專制下的啟蒙及理性之光與浪漫之聲含解析人民版
- 2024-2025學(xué)年八年級物理上冊2.3熔化和凝固考點(diǎn)突破與同步練習(xí)含解析新版蘇科版
- 四級翻譯完整版本
- 四川省眉山市2023-2024學(xué)年八年級上學(xué)期語文期中試卷(含答案)
- 2024年酒店轉(zhuǎn)讓居間協(xié)議
- 小學(xué)生安全教育與自我保護(hù)能力培養(yǎng)研究課題研究方案
- 2024年福建省公務(wù)員錄用考試《行測》答案及解析
- 美麗農(nóng)村路建設(shè)指南DB41-T 1935-2020
- 2024年大學(xué)試題(計(jì)算機(jī)科學(xué))-網(wǎng)絡(luò)工程設(shè)計(jì)與系統(tǒng)集成考試近5年真題集錦(頻考類試題)帶答案
- 落實(shí)《中小學(xué)德育工作指南》制定的實(shí)施方案
- 期中 (試題) -2024-2025學(xué)年譯林版(三起)英語三年級上冊
- 2023年制藥設(shè)備行業(yè)分析報(bào)告及未來五至十年行業(yè)發(fā)展報(bào)告
- 期中測試卷(試題)-2024-2025學(xué)年三年級上冊語文統(tǒng)編版
評論
0/150
提交評論