




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)分析與挖掘?qū)嶒瀳蟾妗稊?shù)據(jù)挖掘》實驗報告許多人將數(shù)據(jù)挖掘視為另一個流行詞匯數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD)的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程如下:·數(shù)據(jù)清理(消除噪聲和刪除不一致的數(shù)據(jù))·數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)·數(shù)據(jù)轉(zhuǎn)換(從數(shù)據(jù)庫中提取和分析任務(wù)相關(guān)的數(shù)據(jù))·數(shù)據(jù)變換(從匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式))·模式評估(根據(jù)某種興趣度度量,識別代表知識的真正有趣的模式)儲和高度容錯等特性非常適合解決數(shù)據(jù)挖掘的問題,因此近年來函數(shù)型網(wǎng)絡(luò)為代表的,用于分類、預(yù)測和模式識別的前饋式神經(jīng)織映射方法。神經(jīng)網(wǎng)絡(luò)方法的缺點是"黑箱"性,人們難以理解網(wǎng)絡(luò)過程。具,利用該工具對兩個飛機失事的真實數(shù)據(jù)庫進行了數(shù)點:不需要給出額外信息;簡化輸入信息的表達空間;算法粗糙集處理的對象是類似二維關(guān)系表的信息表。目前成熟的統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng),為粗糙集的數(shù)據(jù)挖掘。但粗糙集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)的屬中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗來關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)。析。系統(tǒng)的復(fù)雜性越高,模糊性越強,一般模糊集出了定性定量不確定性轉(zhuǎn)換模型--云模型,并形成還有接下來重點介紹的關(guān)聯(lián)規(guī)則方法。百強沃爾瑪界最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準確了解顧客在其門對其顧客的購物行為進行購物籃分析,想知道顧客經(jīng)常。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行了他們喜歡的啤酒。關(guān)聯(lián)規(guī)則由此進入人們的視野。tApriori源于算法使用了頻繁項集性質(zhì)的先驗(prior)知識。在具體實驗時,Apriori算法將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程分為兩個步驟:第一步通過迭代,檢索出事務(wù)數(shù)據(jù)庫中的所有頻繁項集,即支持度不低于用戶設(shè)定的閾值的項集;第二步利用頻繁項集構(gòu)造出滿足用戶最小信任度的規(guī)則。其中,挖掘或識別出所有頻繁項集是該算法的核Apriori算法使用一種稱作逐層搜索的迭代方法,K項集用于搜索(K+1)項j執(zhí)行L(k-1)連接L(k-1),如果它們的前(K-2)項相同的話,其中L(k-1)的元素是可(2)剪枝步:為壓縮CK,可以用Apriori的性質(zhì):任何非頻繁的(K-1)項集都不是頻繁K項集的子集。因此,如果候選K項集的(K-1)項子集不在L(k-1)Apriori算法的偽代碼While(Ck)doFor(i=1;i<[DB];i++)Lk保留;Ck+1:=所有的(k+1)-項集中滿足其k-子集都在Lk里的全體; L (k-1)項集是否頻繁。如圖中的第三行的第一個表所示。 2互式程序設(shè)計的高科技計算環(huán)境。它將數(shù)值分析、矩陣計算、科學(xué)數(shù)據(jù)可視化以及非線性動態(tài)系統(tǒng)的建模和仿真等諸多強大功能集成在一個易于使用的視窗環(huán)境中,為科學(xué)研究、工程設(shè)計以及必須進行有效數(shù)值計算的眾多科學(xué)領(lǐng)域提供了一種全面的解決方案,并在很大程度上擺脫了傳統(tǒng)非交互式程序設(shè)計語言 abRANleMATLAB成為一個強大的數(shù)學(xué)軟件。sup=2;%假設(shè)支持度為2shw=[11001;01010;01100;11010;10100;01100;10100;11101;11100];%shw是事務(wù)矩陣,行表示一個事務(wù),列表示項目;若某一事務(wù)沒有某項,則該項目用0表示。將上述表的數(shù)據(jù)表示為事務(wù)矩陣,每個項目都用數(shù)字表示。01010110100000[m1,n1]=size(shw);95col=(1:n1)';col=12345%求出所有候選項集C1的支持度count_sup=%求出所有候選項集C1的支持度count_sup=67622temp=find(count_sup>=sup);%查找候選項集C1中支持度>2的項集,生成頻繁項集L1temp=12345col=col(temp);count_col_sup=count_sup(temp);L1=[colcount_col_sup];12345i=0;j=0;co2=nchoosek(col,2);coco2=222332353555[m2,n2]=size(co2);count_co2_sup=zeros(m2,1);fori=1:m2forj=1:m1if(shw(j,co2(i,1))==1)&&(shw(j,co2(i,2))==1)count_co2_sup(i)=count_co2_sup(i)+1;endj=j+1;endendtemp=find(count_co2_sup>=sup);%查找候選項集C2支持度>2的項集,生成頻繁項L2co2=co2(temp,:);count_co2_sup=count_co2_sup(temp,:);L2=[co2count_co2_sup];L2=111222235345A=[co2(:,1)co2(:,2)];A=35345[mA,nA]=size(A);B(1)=A(1);k=2;fori=1:mAforj=1:nAif(A(i,j)~=B(1:end))%查找重復(fù)出現(xiàn)的商品號B(k)=A(i,j);k=k+1;%B=[12354]endj=j+1;endi=i+1;endco3=nchoosek(B,3);%產(chǎn)生候選項集C3coco3=2223353355[m3,n3]=size(co3);22233555count_co3_sup=zeros(m3,1);fori=1:m3forj=1:m1if(shw(j,co3(i,1))==1)&&(shw(j,co3(i,2))==1)&&(shw(j,co3(i,3))==1)count_co3_sup(i)=count_co3_sup(i)+1;endj=j+1;endendtemp=find((count_co3_sup)>=sup);%查找候選項集C3支持度>2的項集,生成頻繁項L3co3=co3(temp,:);count_co3_sup=count_co3_sup(temp,:);L3=[co3count_co3_sup];L3=222222225C=[co3(:,1)'co3(:,2)'co3(:,3)'];[mC,nC]=size(C);D(1)=C(1);K=2;fori=2:nCif(C(i)~=D(1:end))%查找重復(fù)出現(xiàn)的商品號D(K)=C(i);K=K+1;endi=i+1;endco4=nchoosek(D,4);[m4,n4]=size(co4);count_co4_sup=zeros(m4,1);fori=1:m4forj=1:m1if(shw(j,co4(i,1))==1)&&(shw(j,co4(i,2))==1)&&(shw(j,co4(i,3))==1)&&(shw(j,co4(i,4))==1)count_co4_sup(i)=count_co4_sup(i)+1;endj=j+1;endendtemp=find((count_co4_sup)>=sup);co4=co4(temp,:);count_co4_sup=count_co4_sup(temp,:);L4=[co4count_co4_sup];C4=Emptymatrix:0-by-5擊生成關(guān)聯(lián)規(guī)則,結(jié)果如下圖所示頻繁項集的候選項集,如果不是頻繁項集,則這樣可以避免在掃描數(shù)據(jù)庫時的開銷;則可以提高算法的效率;次不必
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 行政管理公文寫作復(fù)習(xí)參考試題及答案
- 公共關(guān)系中的信息管理試題及答案
- 工程經(jīng)濟案例解答試題及答案
- 冰雪旅游項目投資可行性評估與2025年市場機遇分析報告
- 2025年工程項目管理實踐指導(dǎo)試題及答案
- 2025年康復(fù)醫(yī)療服務(wù)體系與康復(fù)醫(yī)療人才培養(yǎng)研究報告
- 現(xiàn)代管理中的綜合評估試題及答案
- 家具制造業(yè)個性化定制生產(chǎn)模式與個性化定制家具市場前景預(yù)測報告
- 2025年金融行業(yè)數(shù)據(jù)治理與隱私保護技術(shù)應(yīng)用與創(chuàng)新研究報告
- 行政管理市政學(xué)考試內(nèi)容解析試題及答案
- 得到上市招股書:北京思維造物信息科技股份有限公司
- 機動車檢測站授權(quán)簽字人內(nèi)部培訓(xùn)考題(含答案)
- 幼兒園:周佳茵 中班科學(xué)教案《有趣的紙橋》
- 2022年浙江省小升初語文試卷(含答案)
- Q∕GDW 12158-2021 國家電網(wǎng)有限公司重大活動電力安全保障工作規(guī)范
- 我把沒有送給你(課堂版)(1)
- 施工噪聲監(jiān)測記錄表附表
- 劉半農(nóng)雨散文的特點
- 南靖和溪各姓氏源流
- 智能PID算法在液位控制系統(tǒng)中的應(yīng)用畢業(yè)論
- 腎病及生活質(zhì)量KDQOL-SF
評論
0/150
提交評論