![數(shù)據(jù)挖掘考試重點(diǎn)復(fù)習(xí)_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/3/5222038e-7fbe-4e92-ac39-557bc890e30e/5222038e-7fbe-4e92-ac39-557bc890e30e1.gif)
![數(shù)據(jù)挖掘考試重點(diǎn)復(fù)習(xí)_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/3/5222038e-7fbe-4e92-ac39-557bc890e30e/5222038e-7fbe-4e92-ac39-557bc890e30e2.gif)
![數(shù)據(jù)挖掘考試重點(diǎn)復(fù)習(xí)_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/3/5222038e-7fbe-4e92-ac39-557bc890e30e/5222038e-7fbe-4e92-ac39-557bc890e30e3.gif)
![數(shù)據(jù)挖掘考試重點(diǎn)復(fù)習(xí)_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/3/5222038e-7fbe-4e92-ac39-557bc890e30e/5222038e-7fbe-4e92-ac39-557bc890e30e4.gif)
![數(shù)據(jù)挖掘考試重點(diǎn)復(fù)習(xí)_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/3/5222038e-7fbe-4e92-ac39-557bc890e30e/5222038e-7fbe-4e92-ac39-557bc890e30e5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1 ,了解商務(wù)智能的定義與大數(shù)據(jù)的四個(gè)基本特征;答:商務(wù)智能是企業(yè)利用數(shù)據(jù)倉(cāng)庫(kù)(DW)、數(shù)據(jù)挖掘(DM)、在線分析處理(OLAP)、決策支持系統(tǒng)(DS0等現(xiàn)代信息技術(shù)對(duì)企業(yè)生產(chǎn)、經(jīng)營(yíng)過(guò)程中產(chǎn)生的大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行收集、整理、分析,形成知識(shí)或情報(bào),以輔助企業(yè)做出正確的決策、采取有效的商務(wù)行動(dòng)、優(yōu)化商務(wù)流程、全面提升商務(wù)績(jī)效的工具、方法和技術(shù)的統(tǒng)稱。大數(shù)據(jù)特征:(4個(gè)V)大數(shù)據(jù)的特征特征體量VqIuee多樣性"ariety士匕看萌號(hào)的超大規(guī)模和增長(zhǎng)總數(shù)揖用的80F0%比轉(zhuǎn)構(gòu)化數(shù)據(jù)增代快10倍到50倍是傳統(tǒng)數(shù)據(jù)含庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像,視理
2、、機(jī)益麴據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義價(jià)值密度Value大量的不相關(guān)信息對(duì)未來(lái)趨騁與模式的可預(yù)泅分析深度篁雜分析(機(jī)學(xué)習(xí).人工智陡也傳統(tǒng)商信智就(咨詢、報(bào)告等)速度Velocity昇毒斤茄而非批量式分析數(shù)據(jù)瞬入,處再萬(wàn)丟棄立竿見(jiàn)影而非事后見(jiàn)效2 .理解商務(wù)智能系統(tǒng)的5層結(jié)構(gòu)商務(wù)智能系統(tǒng)結(jié)構(gòu)大致分為五層數(shù)據(jù)源層:也可稱作操作型數(shù)據(jù)層,是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ),提供了整個(gè)系統(tǒng)最原始的數(shù)據(jù)精選文檔數(shù)據(jù)獲取層:也可稱作數(shù)據(jù)轉(zhuǎn)換層,主要是把數(shù)據(jù)源層的數(shù)據(jù)通過(guò)ETCL過(guò)程轉(zhuǎn)換到數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)存取層:該層是按主題進(jìn)行分析和對(duì)相關(guān)的數(shù)據(jù)進(jìn)行挖掘的數(shù)據(jù)源,包括每一個(gè)按主題進(jìn)行分類的數(shù)據(jù)集市或?qū)iT用于數(shù)據(jù)
3、挖掘的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析服務(wù)層:該層是數(shù)據(jù)存儲(chǔ)和前端分析工具的橋梁前端展現(xiàn)層:用戶界面3 .理解操作型與分析型系統(tǒng)分離的必要性以及他們的特征數(shù)據(jù)處理模式對(duì)數(shù)據(jù)庫(kù)聯(lián)機(jī)的日常操作.通常是對(duì)一個(gè)或一組記錄的查詢和修改,主要是為企業(yè)的特定應(yīng)用服務(wù),人們關(guān)心的是響應(yīng)時(shí)間、數(shù)據(jù)安全性和完整性保證業(yè)務(wù)正常運(yùn)作對(duì)歷史數(shù)據(jù)進(jìn)行分析和推理,找田有價(jià)值的模式為決策提供依據(jù).一推就業(yè)務(wù)持續(xù)改進(jìn)精選文檔推陳出新操作型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)分離提高兩個(gè)系統(tǒng)的性能數(shù)據(jù)庫(kù)系統(tǒng)是為已知的任務(wù)和負(fù)載設(shè)計(jì)的.數(shù)據(jù)倉(cāng)庫(kù)的查詢通常是復(fù)雜的,涉及大量匯總級(jí)的計(jì)算,在數(shù)據(jù)庫(kù)系統(tǒng)上處理分析,會(huì)大大降低操作任務(wù)的性能。兩系統(tǒng)對(duì)比操作型系統(tǒng)分析型系統(tǒng)系
4、統(tǒng)日的頗內(nèi)支持日常操作辦事員-數(shù)據(jù)摩專家支持管理需求、獲取信息管理者.經(jīng)理-分析專家數(shù)據(jù)內(nèi)容當(dāng)前俏歷史.推導(dǎo)的,匯總的俏適于事務(wù)處理適于分析處理訪問(wèn)頻率IHI中、ft特別*詢.隨機(jī),啟發(fā)式1兩倒幾分科甚至更多相對(duì)較少訪間類型讀取、更新、刪除使用方法可預(yù)知的.反復(fù)的響應(yīng)時(shí)間1杪以F用戶大量精選文檔4 .理解維度爆炸給數(shù)據(jù)挖掘帶來(lái)的困難數(shù)據(jù)過(guò)高的維度會(huì)給計(jì)算帶來(lái)麻煩,在數(shù)據(jù)挖掘處理時(shí),它會(huì)耗費(fèi)很多的處理時(shí)間和內(nèi)存容量。數(shù)據(jù)的高維度還使得數(shù)據(jù)間的關(guān)系也不容易察覺(jué),增加了數(shù)據(jù)的無(wú)關(guān)屬性和噪音點(diǎn)。5 .掌握數(shù)據(jù)倉(cāng)庫(kù)的定義并理解其四個(gè)方面的特征數(shù)據(jù)倉(cāng)庫(kù)是決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)
5、據(jù)倉(cāng)庫(kù)研究和解決從數(shù)據(jù)庫(kù)中獲取信息的問(wèn)題。(數(shù)據(jù)倉(cāng)庫(kù)是為支持管理決策建立的,面向主題的、集成的、隨時(shí)間變化的、相對(duì)穩(wěn)定的數(shù)據(jù)集合。)【滔注:我覺(jué)得寫(xiě)括號(hào)里的會(huì)好一點(diǎn)】四方面特征: 面向主題:主題是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)忙面。 集成性:在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,要進(jìn)過(guò)統(tǒng)一于綜合,將多個(gè)異源數(shù)據(jù)集成在一起。這一步是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中最關(guān)鍵、最復(fù)雜的一步。 時(shí)變性:數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化不斷增加新的數(shù)據(jù)。 相對(duì)穩(wěn)定性:數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史的內(nèi)容,而不是聯(lián)機(jī)數(shù)據(jù),主要供企業(yè)決策分析之用。精選文檔6,掌握數(shù)據(jù)挖掘的定義并描述其主要特征【數(shù)據(jù)挖掘定義】從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)
6、據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)?!局饕襟E】(1)數(shù)據(jù)準(zhǔn)備:從各種數(shù)據(jù)源中選取和集成用于數(shù)據(jù)挖掘的數(shù)據(jù);(2)規(guī)律尋找:用某種方法將數(shù)據(jù)中的規(guī)律找出來(lái);(3)規(guī)律表示:用盡可能符合用戶習(xí)慣的方式將找出的規(guī)律表不出來(lái)。7,掌握Minkowski距離,并熟練計(jì)算11,12,l無(wú)窮norm1nr二dist(|Pkqkl)rk1Llnorm當(dāng)r=1,城市街區(qū)(也稱曼哈頓、出租車、L1范數(shù))距離;L2norm當(dāng)r=2,歐幾里得距離;L°°norm當(dāng)r=°0,上確界距離,這是對(duì)象屬性之間的最
7、大距離。精選文檔MinkowskiDistance閔可夫斯基距離例題pOlOtpl0pa0p3&15I.1Npit>ypl0446P-A0Ap3402P-*6-r0Lin<xwL2pl向P】02S263162P-2£280414:S2p33.1621.4X402,聽(tīng)9j.162工olL2ncrrrLunomL«PlP2F3pl0j35向013淤310p45320DistanceMatrix距離矩陣8,理解Hunt's算法的基本過(guò)程通過(guò)將訓(xùn)練記錄相繼劃分成較純的子集,以遞歸方式建立決策樹(shù)。設(shè)Dt是與節(jié)點(diǎn)t相關(guān)聯(lián)的訓(xùn)練記錄集,而Y=y1,y2,c號(hào)類
8、標(biāo)號(hào),Hunt算法的遞歸定義如下:(1)如果Dt中所有記錄都屬于同一個(gè)類yt,則t是葉節(jié)點(diǎn),用yt標(biāo)記。(2)如果Dt中包含屬于多個(gè)類的記錄,則選擇一個(gè)屬性測(cè)試條件,將記錄劃分成較小的子集。對(duì)于測(cè)試條件的每個(gè)輸出創(chuàng)建一個(gè)子女節(jié)點(diǎn),并根據(jù)測(cè)試結(jié)果將Dt中的記錄分布到子女節(jié)點(diǎn)中。然后,對(duì)于每個(gè)子女節(jié)點(diǎn),遞歸地調(diào)用該算法。精選文檔Hunt'sAlgorithmKi:fund1ItuMcIncome露心,1s4hgta125KNo4N0MarrwdlOOKNo3ShgieFNd4YeaMamed120KNo5No口的95K9Mo“arrw,皿No7YmD時(shí)時(shí)£方2MKNoaNo啾Vf
9、t9NoMamedmNO10NO5-hgioWK¥*TKtHtlbndHviiUIT.kx«bl*SUtUitI方已"rt總Chwt9.掌握吉尼系數(shù)、嫡的定義,會(huì)計(jì)算其最大值與最小值,理解信息增益在構(gòu)造決策樹(shù)時(shí)的意義【基尼系數(shù)、嫡是度量不純度的方法】GINI系數(shù)和嫡都是越小,代表所分的節(jié)點(diǎn)屬性越純,最小可取到0,表示這個(gè)節(jié)點(diǎn)中只有一個(gè)類。當(dāng)一個(gè)節(jié)點(diǎn)中有n個(gè)父節(jié)點(diǎn),而且能分出n個(gè)子節(jié)點(diǎn),GINI系數(shù)取到最大值,為1-1/n.嫡也取到最大值10g2n(滔注:那個(gè)2是角標(biāo),不是1og2n!)【基尼值的性質(zhì)】:越大越不純,越小越純,0最純,1-1/n最不純。精選文檔Mea
10、sureofImpurity:GINIGimIndexforagivennodet:(NOTE.p(j11)istherelativefrequencyofclassjatnodeti.Maximum(1-1/nc)whenrecordsareequallydistributedamongallclasses,implyingleastinterestinginformation-Minimum(0.0)whenallrecordsbelongtooneclass,implyingmostinterestinginformationExamplesforcomputingGINIf7/7(o=
11、1-£uiorGiM1-戶一印6戶口.打電P(C1)*06-0P1C2)*6蘋(píng)*1白坨|1_PC1|2-P1C2)3*1-o-1*0ClPfC力餐由6Pie藥=4圖Gink=1-例產(chǎn)T*呼=O+Mt*i11lcsnull.T.llupirer*Cl.3a3b.子節(jié)點(diǎn)基尼值C2SplittingBasedonGINIUsedinCART,SLIQ,SPRINT«Whenanodepissplitintokpartitions(children,thequalityofsplit(chhdren)iscomputedasi=lftwhere,n,=numberofrecords
12、atchildi.n=numberofrecordsatnodep.精選文檔BinaryAttributes:ComputingG1NIIndex Splitsintotwopartitions EffectolWeighingpartitionsLarger白ndPurerPartitionsaresoughtfdiB7J)rGini(NI)二1-|麗-(2ffp=o.4oaGi而N?)=1-11SF_(W5產(chǎn)=0.32Yrfi,NdX_ModeMlIiNodeN:ClC2GIM=0.500GlnHChildren)7/12r0.408+9/12*o.aa0.375c.最大值、最小值Meas
13、ureofImpurity:GINI*GlnlIndexfaragivennodet:(NOTE:/1門istherelativefrequencyofclassjatnodet).-Maximum(1-1/nc)whenrecordsareequallydistributedamongallclasses,implyingleastinterestinginformation-Minimum(0.0)whenallrecordsbelongtooneclass,implyingmostinterestinginformation(最小值表示最純,最大值表示最不純)【嫡】在信息領(lǐng)域嫡被用來(lái)衡量
14、一個(gè)隨機(jī)變量出現(xiàn)的期望值。嫡是對(duì)信息的不確定性的度量。嫡越低,意味著傳輸?shù)男畔⒃缴佟!镜盏男再|(zhì)】:嫡是衡量節(jié)點(diǎn)一致性的函數(shù)。嫡大于等于0,當(dāng)且僅當(dāng)p1=p2=pn時(shí),嫡最大,純的節(jié)點(diǎn)嫡是0.精選文檔SplittingCriteriabasedonEntropy«Entropyatagivennodet:Entropylf)="zQlogp(j/)(NOTE:isrelativefrequencyofclassjatnodet)-Measureshomogeneityofanode. Maximum0兇n.vhenrecordsareequallydistributedamo
15、ngallclassesimplyingleastinformation Minimum(0.0)whenallrecordsbelongtooneclass,implyingmostinformation EntropybasedcomputationsaresimilartotheGINIindexcomputationsExamplesforcomputingEntropyEnlropy(t)=Np(/1/)logpjF)【信息增益】當(dāng)選擇嫡作為公式的不純性度量時(shí),嫡的差就是所謂的信息增益。信息增益描述了當(dāng)使用Q進(jìn)行編碼時(shí),再使用P進(jìn)行編碼的差異。通常P代表樣本或觀察值的分布,也有可能是
16、精確計(jì)算的理論分布。Q代表一種理論,模型,描述或者對(duì)P的近似。當(dāng)純度高達(dá)1時(shí)(即只有一種數(shù)據(jù)類型):嫡最小,為0;當(dāng)其中的各類數(shù)據(jù)均勻分布時(shí),嫡最大,為-log2P(j|t)。精選文檔10.理解了解最鄰近分類的基本思想,鄰近分類的前提條件與分類過(guò)程【近鄰分類法】是基于類比學(xué)習(xí),即通過(guò)將給定的檢驗(yàn)元組與和它相似的訓(xùn)練元組進(jìn)行比較來(lái)學(xué)習(xí)。訓(xùn)練元組用n個(gè)屬性描述。每個(gè)元祖代表n維空間的一個(gè)點(diǎn)。這樣,所有的訓(xùn)練元組都存放在n維模式空間中。當(dāng)給定一個(gè)未知元組時(shí),近鄰分類法搜索模式空間,找出最接近未知元組的k個(gè)訓(xùn)練元組。這k個(gè)訓(xùn)練元組是未知元組的k個(gè)“最近鄰”。一句話概述:點(diǎn)x的k-最近鄰分類就是離點(diǎn)x的
17、歐式距離最近的k個(gè)點(diǎn)的集Nearest-NeighborClassifiersUnknownrecordRequiresthreethings-ThesetofstoredrecordsDistanceMetrictocomputedistancebetweenrecords-Thevalueofk,thenumberofnearestneighborstoBtrieveToclassifyanunknownrecord:ComputedistancetoothertrainingrecordsIdentityknearestneighbors-Useclasslabelsofnearestn
18、eighborstodeterminetheclasslabelofunknownrecord(eg,bytakingmajorityvote)三個(gè)前提條件:訓(xùn)練集存在內(nèi)存中;給定距離度量指標(biāo);給定K值分類過(guò)程:1計(jì)算未知點(diǎn)與其他訓(xùn)練集的距離精選文檔2找到K個(gè)最鄰近的鄰近組3用鄰近組的分類標(biāo)簽來(lái)決定未知點(diǎn)所在組的標(biāo)簽。11. 了解分類中的過(guò)擬合及產(chǎn)生的原因【過(guò)度擬合數(shù)據(jù)】當(dāng)決策樹(shù)變大時(shí),測(cè)試誤差會(huì)越來(lái)越小,而訓(xùn)練誤差會(huì)越來(lái)越大,測(cè)試集產(chǎn)生的決策樹(shù)與實(shí)際會(huì)不符。【產(chǎn)生的原因】(1)噪聲導(dǎo)致的過(guò)分?jǐn)M合(2)決策樹(shù)的復(fù)雜程度超過(guò)了需要的程度,會(huì)產(chǎn)生過(guò)度擬合(3)訓(xùn)練誤差的減小已經(jīng)對(duì)結(jié)果沒(méi)有更多意義但
19、卻依然在計(jì)算,會(huì)產(chǎn)生過(guò)度擬合(4)沒(méi)有更多的屬性來(lái)減小樣本誤差,會(huì)產(chǎn)生過(guò)度擬合12. 理解關(guān)聯(lián)規(guī)則及支持與置信度的定義,并熟練計(jì)算支持度與置信度【關(guān)聯(lián)規(guī)則】關(guān)聯(lián)規(guī)則是形如X-Y的蘊(yùn)涵式,其中,X和Y都是事務(wù)數(shù)據(jù)集。關(guān)聯(lián)規(guī)則的強(qiáng)度可以用它的支持度和置信度度量?!局С侄萐upport!事務(wù)數(shù)據(jù)庫(kù)中既包含X又包含Y某個(gè)項(xiàng)集的事務(wù)占事務(wù)總數(shù)的比例;【置信度Confidence在所有包含X的事務(wù)中包含Y的事務(wù)所占比例。精選文檔Example:Milk,Di叩ernBeertr(MiIkzDiaperBeer)_2_|T|",二一0U+nr。二仃(MilkQ加鈍B"r)二ofMilkD
20、iaper)支持度(Support)f事務(wù)敵據(jù)滓中包含國(guó)小項(xiàng)集的事多占事務(wù)總效的比例白77DItfMSEMilk.Di邛帝質(zhì)=2=041即閑,Milk|I52Br»d.Diaper.E陽(yáng)13Ulk,DIj卬”.除一匚dif-1Eke山MillDia|itiBtei5Biffld,Dupcr,f&ke例子iMilk,Diaper)->Beer(0.4.0,67),矍信度-Confidence(c)一4所布包畬x的事務(wù)中電含丫的事務(wù)所占比例b(Mi【k)_?EMilk,Diaper)4MiningAssociationRulesIF/U一ExampleofRulesMilk
21、hDiaperBeers=Q4,o=067)MEBeelDEF)(s=04hc=1.0)DiaperB&erMilk(s=04,c=0.6711Ikrid.5Iilk2BrucklMpmBrer.FfgE3Milk.口岫p*由卜/4Rrnd.Milk,IHapfr.H«r5llrnd.Milk.Dhpcr.CckrBeer1(Milk,Diaper*(s=04c=067)DiaperMilkhBeer)(5=0.4c=&5)Milk*DHper.EgF)$=0.4c=05)13. 理解Apriori性質(zhì)及其意義Apriori如果一個(gè)項(xiàng)集是頻繁的,那么它的所有子集都是頻
22、繁的。相反,如果一個(gè)項(xiàng)集是非頻繁的,則它的所有超集也一定是非頻繁的?!疽饬x】利用該性質(zhì),通過(guò)減少搜索空間,來(lái)提高頻繁項(xiàng)集逐層產(chǎn)生的效率精選文檔14. 理解FP-Growth算法克服了Apriori算法的那些不足1 .減少了掃描數(shù)據(jù)庫(kù)的次數(shù),只用掃描兩次2 .候選項(xiàng)變少,不會(huì)產(chǎn)生那么大的候選項(xiàng)集15. 給定一個(gè)交易數(shù)據(jù)庫(kù)與支持度閾值,能熟練運(yùn)用Apriori算法與FP-Growth算法挖掘頻繁項(xiàng)集Min'rnumSupport=3Items(1Kcmsas)PairsgnifmK)(NntocandidalesinvolvingCokeorrroTriplets3itens&ts
23、)Apriori算法計(jì)算頻繁項(xiàng)集】1BrewlpAnik?Br»flipDid/叫Mr.E巴爐iMilkDiipff.BwCotoi-2dlimxXs5-Bread.103k.DiaperTCokf【步驟】1、第一次掃描,列出一項(xiàng)集,并計(jì)數(shù)2、去除低于閾值的項(xiàng)集,組合出二項(xiàng)集,掃描計(jì)數(shù)。3、重復(fù)步驟2,依次組合出N項(xiàng)集,直至項(xiàng)集計(jì)數(shù)小于閾值,結(jié)束【注意】Apriori定義:如果一個(gè)項(xiàng)集是非頻繁的,則它的所有超集也一定是非頻繁的。所以在組合項(xiàng)集時(shí)一定要注意,新組合出的項(xiàng)集不應(yīng)包含已經(jīng)被“淘汰”的項(xiàng)集。精選文檔FP-Growth算法計(jì)算頻繁項(xiàng)集】步驟一、掃描一次數(shù)據(jù)集,確定每個(gè)項(xiàng)的支持度
24、計(jì)數(shù)。丟棄非頻繁項(xiàng),將頻繁項(xiàng)按照支持度的遞減排序,生成頻繁項(xiàng)集頭表。(注意事項(xiàng):1、降序排列。2、MinSup的存在!)TITyTfrw.sbought100tfac,g,irrn,p200a,bfctfLmto>300也£hj.o)400byc,k.spBy-FrodjctofFirstScanofDatabase步驟二、第二次掃描投影,按照f(shuō),c,a,b,m,p的順序逐條對(duì)應(yīng)寫(xiě)出剔除非頻繁項(xiàng)后的頻繁集,(注意:f,c,a,b,m,p的順序確定后就不在變動(dòng),這在下面的步驟中起關(guān)鍵作用)f,cTaTb,m.p)TIPItems如ughtf0由-eg賽儂IO0dfgti,m,p)
25、200a.b,e,ft(mto300(Vh,i。400brcf500。/c良2P.nih.1的也ffi。arR5A£切瓦cMstrkJjr-ITJp朋IJJ.步驟三、并開(kāi)始構(gòu)建FP樹(shù)。按照事務(wù)ID號(hào)的順序,將處理好的頻繁項(xiàng)集映射$0。彳烏/G凡LP附h創(chuàng)建FP樹(shù),并在對(duì)應(yīng)節(jié)點(diǎn)計(jì)數(shù)恍£鼻FpNOTE:Lachtransactionccrie5pundstucrivpaliiintheFP-tree精選文檔FinalFP-tree(注意:不要步驟四、構(gòu)建每個(gè)對(duì)象的條件模式基,建議從頻率低的節(jié)點(diǎn)開(kāi)始。忘了f對(duì)應(yīng)的()Conditionalpauernbases族刎mud.刀口仃電
26、界通口壁pJicam;2fcb:lbc;lafi:3c#3/1)步驟五、列出下表,對(duì)照MinSup剔除低于閾值的項(xiàng)。ItemConditionalpatternbaseConditionalFP-treeP(fcam:2)/cb:l)i(c:3)|pm(fca(fcab;l)(f:3fc:3,a3)|mbEmptya體;3)(f;3,c:3)|ac«f:3»fEmptyEmptyMinSup-3步驟六、針對(duì)每一項(xiàng)建立條件FP樹(shù)。下面用m項(xiàng)作例子,如下精選文檔Md叩=3HeaderTable步驟七、找出頻繁項(xiàng)集。1I儲(chǔ)c;3-a:3m-conditionalFP-treeAl
27、lfrequentpatternsconcerning川:combinationof£c:aandJm風(fēng)fin,an.am,ca)nfcam16. 理解關(guān)聯(lián)規(guī)則產(chǎn)生時(shí)所采取的優(yōu)化策略(老師說(shuō)直接距離就可以)比如,L=A,B,C,D):c(ABCD)>c(AB-CD)>c(ABCD)【為什么?分子不變,都是ABCD,分母越來(lái)越大】17. 理解K-means算法的內(nèi)容并討論該算法之不足【K-meandK均值算法流程1、隨機(jī)選擇K個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的初始均值或中心2、對(duì)剩余的每個(gè)對(duì)象,根據(jù)它與簇均值的距離,將他指派到最相似的簇3、計(jì)算每個(gè)簇的新均值精選文檔4、回到步驟2
28、,循環(huán),直到準(zhǔn)則函數(shù)收斂*K-均值其法過(guò)程示例K=2隨機(jī)選打2個(gè):象作為族的中心個(gè)指最的苗第卦像將時(shí)港相族掠的新唉他叱個(gè)均年的新技tfL一更個(gè)均【不足之處】1、只有當(dāng)簇均值有定義的情況下,K-means方法才能夠使用2、用戶必須首先給定簇?cái)?shù)目3、不適合發(fā)現(xiàn)非凸形狀的簇,或者大小差別很大的簇。4、對(duì)噪聲和離群點(diǎn)數(shù)據(jù)敏感。18. 理解凝聚聚類算法的基本過(guò)程,并分析算法時(shí)間與空間復(fù)雜度精選文檔AgglomerativeClusteringIPopularhierarchicalclusteringtechniquefBasicalgorithmisstraightforward1, Computet
29、heproximitymatrix2, Leteachdatapointbeaduster3, Repeat4, MergethetwogI。33stclusters5, Updatetheproximitymatrix6, Untilonlyasingleclusterremains/Keyoperationisthecomputationoftheproximityoftwoclusters-Differentapproachesdefiningthedistancebetweenclustersdistinguishthedifferentalgorithmsd步驟:1計(jì)算距離矩陣2讓每
30、個(gè)數(shù)據(jù)點(diǎn)成為一個(gè)群集3,循環(huán)開(kāi)始4,合并兩個(gè)距離最近的群集5,更新距離矩陣6,直到只剩下一個(gè)群集精選文檔TimeandSpacerequirementsl0(N2)spacesincehierarchicalclusteringusestheproximitymatrix.-Nisthenumberofpoints,.O(N3:timeinmanycases一ThereareNstepsandateachstepthesize,N2,proximitymatrixmustbeupdatedandsearched-ComplexitycanbereducedtoO(N2log(N):timeforsomeapproaches時(shí)間復(fù)雜度:N2倍空間復(fù)雜度:N3倍19. 理解DBSCAN算法將待聚類的點(diǎn)分為哪幾類,分解解釋之精選文檔DensityBasedClustering:DBSCANIDBSCANisadensity-basedalgorithm.- Den
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年二年級(jí)班主任年度考核個(gè)人總結(jié)例文(二篇)
- 2025年個(gè)人租房的合同協(xié)議(4篇)
- 2025年企業(yè)公轉(zhuǎn)私借款合同模板(2篇)
- 民航旅客運(yùn)輸安全協(xié)議
- 文化產(chǎn)業(yè)土地交易居間協(xié)議
- 汽車維修傭金居間合同樣本
- 洗浴中心裝修安全合同
- 教育機(jī)構(gòu)貸款居間協(xié)議
- 汽車維修廠租賃居間協(xié)議
- 消費(fèi)品以舊換新策略在市場(chǎng)中的適應(yīng)性與優(yōu)化
- 小學(xué)作文指導(dǎo)《難忘的一件事》課件
- 斷絕關(guān)系協(xié)議書(shū)范文參考(5篇)
- 量子力學(xué)課件1-2章-波函數(shù)-定態(tài)薛定諤方程
- 最新變態(tài)心理學(xué)課件
- 工程洽商記錄表格
- 2021最新版三年級(jí)下冊(cè)生命-生態(tài)-安全教案
- 【自考練習(xí)題】石家莊學(xué)院概率論與數(shù)理統(tǒng)計(jì)真題匯總(附答案解析)
- 農(nóng)村集體“三資”管理流程圖
- 高中英語(yǔ) 牛津譯林版必修第三冊(cè) Unit 2詞匯全解
- (新版教材)粵教粵科版三年級(jí)下冊(cè)科學(xué)全冊(cè)教學(xué)課件PPT
- 混合痔的治療PPT課件
評(píng)論
0/150
提交評(píng)論