




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一、數(shù)據(jù)挖掘的目的數(shù)據(jù)挖掘(Data Mining)階段首先要確定挖掘的任務(wù)或目的。數(shù)據(jù)挖掘的目 的就是得出隱藏在數(shù)據(jù)中的有價(jià)值的信息。數(shù)據(jù)挖掘是一門(mén)涉及面很廣的交叉學(xué) 科,包括器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、模式識(shí)別、粗糙集、模糊數(shù)學(xué) 等相關(guān)技術(shù)。它也常被稱(chēng)為“知識(shí)發(fā)現(xiàn)”。知識(shí)發(fā)現(xiàn)(KDD)被認(rèn)為是從數(shù)據(jù)中發(fā) 現(xiàn)有用知識(shí)的整個(gè)過(guò)程。數(shù)據(jù)挖掘被認(rèn)為是KDD過(guò)程中的一個(gè)特定步驟,它用 專(zhuān)門(mén)算法從數(shù)據(jù)中抽取模式(patter,如數(shù)據(jù)分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模 式發(fā)現(xiàn)等。數(shù)據(jù)挖掘主要步驟是:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋評(píng)估。二、數(shù)據(jù)挖掘算法說(shuō)明確定了挖掘任務(wù)后,就要決定使用什么樣的挖掘算
2、法。由于條件屬性在各樣 本的分布特性和所反映的主觀特性的不同,每一個(gè)樣本對(duì)應(yīng)于真實(shí)情況的局部 映射。建立了粗糙集理論中樣本知識(shí)與信息之間的對(duì)應(yīng)表示關(guān)系,給出了由屬性 約簡(jiǎn)求約簡(jiǎn)決策表的方法?;诤箅x散化策略處理連續(xù)屬性,實(shí)現(xiàn)離散效率和信 息損失之間的動(dòng)態(tài)折衷。提出相對(duì)值條件互信息的概念衡量單一樣本中各條件屬 性的相關(guān)性,可以充分利用現(xiàn)有數(shù)據(jù)處理不完備信息系統(tǒng)。本次數(shù)據(jù)挖掘的方法是兩種,一是找到若干條特殊樣本,而是找出若干條特 殊條件屬性。最后利用這些樣本和屬性找出關(guān)聯(lián)規(guī)則。(第四部分詳細(xì)講解樣本 和屬性的選擇)三數(shù)據(jù)預(yù)處理過(guò)程數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)
3、據(jù)類(lèi)型轉(zhuǎn)換(如把連續(xù)值數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù),以便于符號(hào)歸納,或是把離散 型數(shù)據(jù)轉(zhuǎn)換為連續(xù))。本文使用的數(shù)據(jù)來(lái)源是名為“CardiologyCategorical”的excel文件中的源數(shù) 據(jù)”。該數(shù)據(jù)表共303行,14個(gè)屬性。即共有303個(gè)樣本。將該數(shù)據(jù)表的前200行設(shè) 為訓(xùn)練樣本,剩下后的103行作為測(cè)試樣本,用基于粗糙集理論的屬性約簡(jiǎn)的方 法生成相應(yīng)的規(guī)則,再利用測(cè)試樣本對(duì)這些規(guī)則進(jìn)行測(cè)試。首先對(duì)源數(shù)據(jù)進(jìn)行預(yù)處理,主要包括字符型數(shù)據(jù)的轉(zhuǎn)化和數(shù)據(jù)的歸一化。數(shù)據(jù)預(yù)處理的第一步是整理源數(shù)據(jù),為了便于matlab讀取數(shù)據(jù),把非數(shù)字 數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)字?jǐn)?shù)據(jù)。生成lisanhua.xsl文件。這一部
4、分直接在excel工作 表中直接進(jìn)行。步驟如下:將屬性“sex”中的“Male”用“1”表示,“Female”用“2”表示;將屬性“chest pain type”中的“Asymptomatic”用“1”表示,“Abnormal Angina” 用 “2”表示,“Angina”用 “3”表示,“NoTang用 “4表示;將屬性 “Fasting blood suga=0.9&ncc=8)l(ncc=10&nc=0.6)得到?jīng)Q策屬性 healthy、不滿(mǎn)足以上條件的話(huà)如果(mc=0.9|mcc=8)|(mcc=9&mc=0.6)得到?jīng)Q策 屬性sick。、不滿(mǎn)足以上條件的話(huà)如果nc=(mc+0.3
5、)|ncc=(mcc+2)得到?jīng)Q策屬性healthy。、不滿(mǎn)足以上條件的話(huà) 如果mcnc得到?jīng)Q策屬性為sick。、不滿(mǎn)足以上條件的話(huà) 如果nccmcc得到?jīng)Q策屬性為healthy。、不滿(mǎn)足以上條件的話(huà) 如果mccncc得到?jīng)Q策屬性為sick。、不滿(mǎn)足以上條件的話(huà)得到?jīng)Q策屬性為sick。六、正確率及結(jié)果分析正確率為82.5%結(jié)果分析:由于采用了兩類(lèi)約束方法,所以效果還可以。七、程序如下頁(yè)所示clear;% 數(shù)據(jù)預(yù)處理程序 % dm=xlsread(lisanhua);% 載入數(shù)據(jù)% z1=dm(:,1);%離散化第一列數(shù)據(jù)for i=1:303if z1(i)=29&z1(i)=48&z1(i)
6、=94&z4 (i) =110&z4 (i) =126&z5(i)=205&z5 (i) =71&z8 (i) =120&z8 (i) =0&z10(i)=1.5&z10(i)2.5 z10(i)=2;else z10(i)=3;endendz11=dm(:,11);for i=1:303z11(i)=z11(i)+1;endz12=dm(:,12);for i=1:303z12(i)=z12(i)+1;endz13=dm(:,13);for i=1:303z13(i)=z13(i)+1;endz14=dm(:,14);for i=1:303z14(i)=z14(i)+1;enddm2=z1,
7、z2,z3,z4,z5,z6,z7,z8,z9,z10,z11,z12,z13,z14;%m1=0,3,2,4,3,3,2,3,3,2,3,3,4,3;k=1;w=m1(k);dm3=dm2;for i=1:3939dm3(i)=dm2(i)+w;if rem(i,303)=0k=k+1;w=w+m1(k);endend% 預(yù)處理結(jié)束 % 挖掘算法 % 找6條樣本前的預(yù)處理dm4=zeros(200,14);dm5=zeros(200,14);for i=1:200if dm3(i,14)=1dm4(i,1:13)=dm3(i,1:13);else dm5(i,1:13)=dm3(i,1:13
8、);endenda1=zeros(38,1);a2=zeros(38,1);for k=1:38for i=1:13for j=1:200if dm4(j,i)=k&dm4(j,i)=0 a1(k)=a1(k)+1;endif dm5(j,i)=k&dm5(j,i)=0 a2(k)=a2(k)+1;endendendenda5=a1;a6=a2;a3=zeros(5,1);a4=zeros(5,1);jT;while j5break;enda1(i)=0;endendendjT;while j5break;enda2(i)=0;endendend% 構(gòu)造 hl h2 矩陣 h1=zeros(2
9、00,14);h2=zeros(1,200);y1=0;y2=0;y3=0;y4=0;for j=1:200 x=0;for i=1:200h1(i,1:13)=dm3(j,1:13)=dm3(i,1:13);h1(i,14)=dm3(j,14)=dm3(i,14);if sum(h1(i,1:13)=10&h1(i,14)=1x=x+1;endendh2(j)=x;end%篩選h2矩陣 得到h3 h4矩陣 h3=zeros(1,200);h4=zeros(1,200);for i=1:200if z14(i)=1h3(i)=h2(i);else h4(i)=h2(i);end% h5=h3;
10、h6=h4;% 找六條重要樣本 % y1=max(h5);for i=1:200if h5(i)=y1h5(i)=0;t1=i;endendy2=max(h5);for i=1:200if h5(i)=y2h5(i)=0;t2=i;endendy3=max(h5);for i=1:200if h5(i)=y3h5(i)=0;t3=i;endendy4=max(h6);for i=1:200if h6(i)=y4h6(i)=0;t4=i;endendy5=max(h6);for i=1:200if h6(i)=y5h6(i)=0;t5=i;endendy6=max(h6);for i=1:200
11、if h6(i)=y6h6(i)=0;t6=i;endend%找特殊樣本結(jié)束% 找特殊屬 性值dm4=zeros(200,14);dm5=zeros(200,14);for i=1:200if dm3(i,14)=1dm4(i,1:13)=dm3(i,1:13);else dm5(i,1:13)=dm3(i,1:13);endenda1=zeros(38,1);a2=zeros(38,1);for k=1:38for i=1:13for j=1:200if dm4(j,i)=k&dm4(j,i)=0a1(k)=a1(k)+1;endif dm5(j,i)=k&dm5(j,i)=0a2(k)=a
12、2(k)+1;endendendenda5=a1;a6=a2;a3=zeros(6,1);a4=zeros(6,1);jT;while j6break;enda1(i)=0;endendendjT;while j6break;enda2(i)=0;endendendb1=zeros(6,1);b2=zeros(6,1);for j=1:6for i=1:38if a5(i)=a3 b1(j)=i;endendendfor j=1:6for i=1:38if a6(i)=a4 (j)b2(j)=i;endendendb3(1:5,1)=b1(2:6,1);b4(1:5,1)=b2(1:5,1);
13、% 尋找 結(jié)束% 驗(yàn)證程序開(kāi)始h7=zeros(103,14);h8=zeros(103,14);tc=0;for i=1:103h7(i,1:13)=dm3(200+i,1:13);end% 特殊樣本for i=1:103nc=0;mc=0;ncc=0;mcc=0;h8(i,1:13)=h7(i,1:13)=dm3(t1,1:13);if sum(h8(i,1:13)=9nc=nc+0.3;endh8(i,1:13)=h7(i,1:13)=dm3(t2,1:13);if sum(h8(i,1:13)=9nc=nc+0.3;endh8(i,1:13)=h7(i,1:13)=dm3(t3,1:1
14、3);if sum(h8(i,1:13)=9nc=nc+0.3;endh8(i,1:13)=h7(i,1:13)=dm3(t4,1:13);if sum(h8(i,1:13)=9mc=mc+0.3;endh8(i,1:13)=h7(i,1:13)=dm3(t5,1:13);if sum(h8(i,1:13)=9mc=mc+0.3;endh8(i,1:13)=h7(i,1:13)=dm3(t6,1:13);if sum(h8(i,1:13)=9mc=mc+0.3;end% 樣本結(jié) 束% 特殊屬 性值ncc=0;mcc=0;for j=1:13if h7(i,j)=b3(1)ncc=ncc+3;e
15、lse if h7(i,j)=b3 (2)ncc=ncc+3;else if h7(i,j)=b3 (3)ncc=ncc+2;else if h7(i,j)=b3(4)ncc=ncc+2;else if h7(i,j)=b3(5)ncc=ncc+2;else if h7(i,j)=b4 (1)mcc=mcc+3;else if h7(i,j)=b4(2)pu。pu。pu。pu。pu。pu。pu。pu。pu。pu。CN+8UIH8UI(a17qHH(3w 七 OSKCN+8UIH8UI(寸)寸 qnAsw 七 OSKCN+8UIH8UI(g)17qHH(3w 七 OSK-S+8UIH8UI2二Awq8UIA8U 七 OslocnaemOUAOUI 七 Oslo二Awq(z+ooui)haoou-(so+oui)haou 七OSK
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 新能源產(chǎn)業(yè)股權(quán)代持風(fēng)險(xiǎn)防范與化解協(xié)議
- 智能化住宅小區(qū)安防監(jiān)控系統(tǒng)建設(shè)與全面維護(hù)協(xié)議
- 數(shù)據(jù)安全事件應(yīng)急響應(yīng)責(zé)任保證合同
- 節(jié)慶活動(dòng)市場(chǎng)代理補(bǔ)充協(xié)議
- 智能電網(wǎng)新能源汽車(chē)充電站建設(shè)與運(yùn)維服務(wù)協(xié)議
- 戶(hù)外活動(dòng)專(zhuān)用臨時(shí)舞臺(tái)租賃與活動(dòng)效果評(píng)估服務(wù)協(xié)議
- 購(gòu)買(mǎi)商品混凝土協(xié)議書(shū)
- 旅行社與景區(qū)旅游基礎(chǔ)設(shè)施共建合作協(xié)議
- 聯(lián)營(yíng)轉(zhuǎn)租賃協(xié)議書(shū)
- 招投標(biāo)代理協(xié)議書(shū)
- 實(shí)測(cè)實(shí)量方案交底
- 銀行客戶(hù)經(jīng)理之情緒管理
- 生產(chǎn)良率系統(tǒng)統(tǒng)計(jì)表
- 用TOC理論提高生產(chǎn)制造的競(jìng)爭(zhēng)力課件
- SketchUp (草圖大師) 基礎(chǔ)培訓(xùn)PPT課件
- 生命線(xiàn)安裝方案
- 代理機(jī)構(gòu)服務(wù)質(zhì)量考核評(píng)價(jià)表
- 電廠保安人員管理制度
- 2018年瀘州市生物中考試題含答案
- ge核磁共振機(jī)房專(zhuān)用精密空調(diào)機(jī)技術(shù)要求
- 新干縣人民醫(yī)院血液透析治療患者告知書(shū)
評(píng)論
0/150
提交評(píng)論