




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、實(shí)驗(yàn)題目: 直方圖進(jìn)行數(shù)據(jù)離散化 1 實(shí)驗(yàn)?zāi)康闹狈綀D使用分箱來(lái)近似數(shù)據(jù)分布,是數(shù)據(jù)規(guī)約的一種形式。通過(guò)本實(shí)驗(yàn),需要掌握不同直方圖的數(shù)學(xué)原理和構(gòu)造方法。同時(shí),掌握使用不同直方圖對(duì)數(shù)據(jù)進(jìn)行離散化的原理和方法。最后,利用實(shí)驗(yàn)數(shù)據(jù)實(shí)現(xiàn)一種直方圖并進(jìn)行評(píng)估。2 實(shí)驗(yàn)步驟2.1 算法原原理首先,假設(shè)有NN個(gè)自然數(shù)的的集合U=x | xxN,其中最最大值為。(1)等寬度直直方圖對(duì)數(shù)據(jù)進(jìn)行分分箱。假設(shè)按按等寬度的方方法進(jìn)行分箱箱(寬度w=1),則對(duì)對(duì)于N個(gè)數(shù)據(jù)據(jù),按其值分別放放入到相應(yīng)的的箱中,箱子子的數(shù)目。設(shè)每個(gè)箱中中的統(tǒng)計(jì)數(shù)據(jù)據(jù)為,按照坐坐標(biāo)值/頻率率對(duì)()表示在二維維坐標(biāo)上,則則可以得到該該組數(shù)據(jù)的單單
2、桶直方圖。其中,。一般情況下,為為了進(jìn)一步壓壓縮數(shù)據(jù),通通常進(jìn)行數(shù)據(jù)據(jù)分箱時(shí),每每一個(gè)桶代表表的是連續(xù)的的屬性值,即即取寬度。在在這種分箱方方法下,分箱箱數(shù)目。則按照公式式,其中,令所得到的值/頻頻率對(duì),的寬度為qq的直方圖,即即為常見(jiàn)的等等寬度直方圖圖。(2)等深度直直方圖與等寬度直方方圖相比,等等深度直方圖圖僅僅是在創(chuàng)創(chuàng)建數(shù)據(jù)桶時(shí)時(shí)與其不同。等等深度直方圖圖的數(shù)據(jù)桶的的創(chuàng)建思想是是:使得每個(gè)個(gè)桶的頻率粗粗略的為常數(shù)數(shù),即每個(gè)桶桶中包含大致致相當(dāng)?shù)臉颖颈緮?shù)據(jù)數(shù)目。設(shè)分箱的數(shù)目目為K,則對(duì)對(duì)于每一個(gè)桶桶,有,其中中。只有在這種種情況下,才才滿足大致相相當(dāng)。所要求求的是每一個(gè)個(gè)桶的邊界,。求邊界
3、的過(guò)程程:首先對(duì)該該集合U進(jìn)行行排序(由小小到大),由由于每桶的數(shù)數(shù)目相等,所所以每間隔cc個(gè)數(shù)據(jù),取取一次數(shù)據(jù)值值,即為一個(gè)個(gè)有效的邊界界值。對(duì)于排排序后的序列列,有。所得到的二二維值對(duì),即即是等深度直直方圖。2.2 算法步步驟用戶輸入數(shù)據(jù)分分桶的數(shù)目KK,然后按如如下步驟計(jì)算算:(1)對(duì)樣本數(shù)數(shù)據(jù)進(jìn)行排序序(2)計(jì)算寬度度w和c(2)對(duì)數(shù)據(jù)進(jìn)進(jìn)行掃描和計(jì)計(jì)算等寬度直直方圖的數(shù)目目值和等深度度直方圖的邊邊界2.3 程序流流程圖開(kāi)始開(kāi)始獲取分桶數(shù)目k讀入文件數(shù)據(jù)計(jì)算桶寬度w逐個(gè)掃描數(shù)據(jù),統(tǒng)計(jì)數(shù)目結(jié)束圖1 等寬度直直方圖流程圖圖在圖1中,數(shù)數(shù)據(jù)的分桶數(shù)數(shù)目是用戶輸輸入的數(shù)據(jù),預(yù)預(yù)先由用戶設(shè)設(shè)定。
4、樣本數(shù)數(shù)據(jù)存放在文文本文件egggs.txxt中,由程程序運(yùn)行時(shí)讀讀入。在實(shí)驗(yàn)驗(yàn)中,通過(guò)對(duì)對(duì)樣本數(shù)據(jù)的的考察,計(jì)算算桶寬度w的的方法是。統(tǒng)計(jì)結(jié)果存存放在數(shù)組中中,返回統(tǒng)計(jì)計(jì)結(jié)果。獲取分桶數(shù)目k獲取分桶數(shù)目k讀入文件數(shù)據(jù)數(shù)據(jù)順序排序計(jì)算桶的深度p,每個(gè)桶的數(shù)目c開(kāi)始結(jié)束間隔c個(gè)數(shù)目在數(shù)據(jù)中一個(gè)值,作為邊界值圖2 等深度直直方圖流程圖圖在圖2中,數(shù)據(jù)據(jù)的分桶數(shù)目目是用戶輸入入的數(shù)據(jù),預(yù)預(yù)先由用戶設(shè)設(shè)定。樣本數(shù)數(shù)據(jù)存放在文文本文件egggs.txxt中,由程程序運(yùn)行時(shí)讀讀入。每個(gè)桶的數(shù)據(jù)量c的計(jì)算公公式,N表示示原始數(shù)據(jù)的的數(shù)據(jù)個(gè)數(shù)。邊界計(jì)算結(jié)結(jié)果存放在數(shù)數(shù)組e中,返回邊界界數(shù)組,計(jì)算算過(guò)程結(jié)束。3
5、 實(shí)驗(yàn)結(jié)果分分析圖3 等寬度直直方圖(K=10)統(tǒng)計(jì)計(jì)結(jié)果圖4 等寬度直直方圖(K=20)統(tǒng)計(jì)計(jì)結(jié)果圖5 等深度直直方圖(K=10)統(tǒng)計(jì)計(jì)結(jié)果圖6 等深度直直方圖(K=20)統(tǒng)計(jì)計(jì)結(jié)果上面的圖分別別表示K=110和K=20的情情況下egggs.txtt中數(shù)據(jù)的等等寬度和等深深度直方圖的的統(tǒng)計(jì)結(jié)果。直方圖的使用是為了離散化數(shù)據(jù)。在實(shí)驗(yàn)中,使用每個(gè)桶的中值來(lái)代表該桶中數(shù)據(jù)的離散結(jié)果。在K=10的情況下:使用等寬度直方圖,樣本數(shù)據(jù)離散值為550,1650,2750,3850,4950,6050,7150,8250,9350,10450;使用等深度直方圖,樣本數(shù)據(jù)的離散值為3,43,182,403,6
6、43,981,1378,1803,2365,6770。在K=20的情況下,使用等寬度直方圖,樣本數(shù)據(jù)離散值為275,825,1375,1650,1925,2475,3025,3575,4125,4675,5225,5775,6325,6875,7425,7975,8525,9075,9625,10175,10725;使用等深度直方圖,樣本數(shù)據(jù)的離散值為0,2,17,50,108,199,308,412,539,683,842,1051,1221,1368,1552,1776,2035,2338,2742,6915。實(shí)驗(yàn)表明:對(duì)于采用不同的直方圖和不同的桶數(shù)目K,得到不同的離散化結(jié)果。4 實(shí)驗(yàn)結(jié)
7、論對(duì)于上述的四四種離散化結(jié)結(jié)果,如何來(lái)來(lái)判定哪種離離散化數(shù)據(jù)的的效果更好呢呢?一般的,離散散后的數(shù)據(jù)越越接近樣本原原始數(shù)據(jù),則則效果越好。數(shù)據(jù)離散化后,與原始數(shù)據(jù)肯定存在差異,一般用誤差度量這種差異大小。在這里,定義平均相對(duì)誤差和最大相對(duì)誤差來(lái)表示離散數(shù)據(jù)逼近原始樣本數(shù)據(jù)的程度,作為離散化的評(píng)判標(biāo)準(zhǔn)。平均相對(duì)誤差差E定義如下:,其中,和分分別表示第ii個(gè)值的離散散值和真實(shí)值值,N表示數(shù)數(shù)據(jù)總量。最大相對(duì)誤差差M定義如下:,其中,NN的定義和平平均相對(duì)誤差差中的相同。對(duì)于K=100,根據(jù)等寬寬度和等深度度的方法,可可以得到兩組組不同的離散散值T1和TT2。對(duì)于這這兩組離散值值,通過(guò)計(jì)算算,得到平
8、均均相對(duì)誤差EE1=8.55384188,E2=0.3997669,最大相相對(duì)誤差M11=549.00,M22=2.000。由上述兩組組比較可得,在在對(duì)該樣本數(shù)數(shù)據(jù)進(jìn)行離散散化時(shí),采用用等寬度直方方圖的方法,效效果更好。對(duì)于等寬度直直方圖,當(dāng)KK=10和KK=20的情情況下,可得得到兩組不同同的離散值TT1和T2。通通過(guò)上述方法法計(jì)算可得,平均相對(duì)誤誤差E1=88.5384418,E22=4.2661210,最最大相對(duì)誤差差M1=5449.00,MM2=2744.00。對(duì)于上述兩兩組數(shù)據(jù),對(duì)對(duì)于采用直方方圖進(jìn)行數(shù)據(jù)據(jù)離散化,在在桶數(shù)目多的的情況下,誤誤差較小。當(dāng)當(dāng)K=N時(shí),數(shù)數(shù)據(jù)即為原始始數(shù)據(jù)
9、,此時(shí)時(shí),誤差E和和M都為0。但但是這樣的數(shù)數(shù)據(jù)離散化時(shí)時(shí)無(wú)意義的,在在比較K不同同時(shí),還需要要考慮另一項(xiàng)項(xiàng)指標(biāo):數(shù)據(jù)據(jù)壓縮比率。在實(shí)驗(yàn)中,對(duì)對(duì)于每個(gè)桶中中的數(shù)據(jù),取取離散值的方方法是取中值值。如果改變變?nèi)≈捣椒?,比比如用桶?nèi)樣樣本的平均值值來(lái)表示離散散值,則會(huì)得得到不同的EE和M,但是是結(jié)論不會(huì)改改變。5 實(shí)驗(yàn)心得體體會(huì)1、使用程序讀讀入文本數(shù)據(jù)據(jù)方法讀入數(shù)據(jù)問(wèn)題題,使用的數(shù)數(shù)據(jù)是從daat文件轉(zhuǎn)換換過(guò)來(lái)的txxt文件,每每行的數(shù)據(jù)都都是換行后的的,所以可以以直接通過(guò)ggetlinne函數(shù)獲取取每行值,然然后使用attoi函數(shù)轉(zhuǎn)轉(zhuǎn)換為整型數(shù)數(shù)據(jù)。2、為何在實(shí)驗(yàn)驗(yàn)結(jié)論中的評(píng)評(píng)價(jià)標(biāo)準(zhǔn)不使使用絕對(duì)
10、誤差差?絕對(duì)誤差對(duì)于于離群點(diǎn)敏感感,不能代表表整體逼近效效果。3、對(duì)于一簇樣樣本數(shù)據(jù),應(yīng)應(yīng)采用何種直直方圖劃分更更為合理?對(duì)對(duì)于數(shù)據(jù)的劃劃分,在實(shí)驗(yàn)驗(yàn)中是采用用用戶的一個(gè)預(yù)預(yù)設(shè)值,可以以通過(guò)數(shù)學(xué)的的方法獲取一一個(gè)較為良好好的K值嗎? 參考文獻(xiàn) 1 數(shù)據(jù)據(jù)挖掘:概念念與技術(shù)/(加加)韓家煒,(加加)坎伯(KKamberr,M.)著;范明等等譯.-北京京:機(jī)械工業(yè)業(yè)出版社,22001.88附錄(源代碼)/讀入數(shù)據(jù)BOOL CDDrawHiistogrramDocc:ReaadFilee(CStrring ffilePaath)fstreaam inffile(eggs.txt);if(!innfi
11、le)returrn FALLSE;char cch_numm10;/int i=0;/infiile.seeekgwhile(!infiile.eoof() )infille.gettline(ch_nuum,sizzeof(cch_numm);vt_daata_orrg.pussh_bacck(atooi(ch_num);infilee.closse();returnn TRUEE;/等寬度直方方圖統(tǒng)計(jì)void CDDrawHiistogrramDocc:WiddthEquualCatte(vecctor vvt,intt min,int mmax,innt numm)if(maxx=0
12、| numm=0)returrn;int inntervaal=maxx/(intt)num;/申請(qǐng)數(shù)組組,初始化為為0int * arrayy=new intnnum;for(innt poss=0;poosnumm;pos+)arrayypos=0;for(innt i=00;i(iint)vtt.sizee();i+)if(vtti/iintervval vt_daata_wiidth.aassignn(arraay,arrray+nuum);deletee aarray;/等深度直方方圖計(jì)算邊界界void CDDrawHiistogrramDocc:DeppthEquualCatte(
13、vecctor vvt,intt min,int mmax,innt numm)if(maxx=0 | numm=0)returrn;/首先排序序,然后查找找值,默認(rèn)升升序sort(vvt.beggin(),vt.ennd();int siize=(iint)vtt.sizee();int inntervaal=(innt)vt.size()/numm;int i=interrval;for(innt j=00;jvt_ddata_ddepth.push_back(vti);i += interrval;this-vt_daata_deepth.ppush_bback(vvtsizze-1);
14、/直方圖繪制制void CDDrawHiistogrramVieew:DrrawEquualWiddthHisstograam(intt x_siize)/thiss-OnIInitiaalUpdaate();/thiss-Invvalidaate();CDrawHHistoggramDooc* pDDoc = GetDoocumennt();ASSERTT_VALIID(pDooc);CClienntDC ddc(thiis);vectorr:iteeratorr ptr;int i=0;for(pttr=pDooc-vtt_dataa_widtth.beggin();ptr!=pDoc-v
15、t_ddata_wwidth.end();ptr+)/計(jì)算矩矩形區(qū)域CRectt rectt(thiss-orggPointt.x + i*x_ssize,tthis-orgPooint.yy-(pDooc-vtt_dataa_widtthi)/thiss-y_rratio,this-orgPPoint.x+ (ii+1)*xx_sizee ,thiis-orrgPoinnt.y);CBrussh * mmyBrussh=neww CBruush;myBruush-CCreateeSoliddBrushh(RGB(i*45%255,ii*75%2255,i*5);/填充區(qū)區(qū)域dc.FiillR
16、ecct(&reect,myyBrushh);i+;/顯示統(tǒng)計(jì)計(jì)值CStrinng strr;for(innt j=00;jvvt_datta_widdth.siize();j+)str.FFormatt(%d,pDocc-vt_data_widthhj);dc.TeextOutt(orgPPoint.x+X_LLENGTHH,orgPPoint.y-Y_LLENGTHH+20*jj,str);void CDDrawHiistogrramVieew:DrrawEquualDeppthHisstograam()/thiss-OnIInitiaalUpdaate();CDrawHHistoggra
17、mDooc* pDDoc = GetDoocumennt();ASSERTT_VALIID(pDooc);CClienntDC ddc(thiis);vectorr:iteeratorr ptr;int i=0;if(pDooc-vtt_dataa_deptthpDooc-vtt_dataa_deptth.sizze()-11/thiis-x_ratiooX_LEENGTH)this-Invaalidatte();MessaageBoxx(坐標(biāo)和和數(shù)據(jù)不符合合!,錯(cuò)錯(cuò)誤,MBB_OK | MB_IICONERRROR);returrn;/最后一個(gè)個(gè)數(shù)是終點(diǎn)邊邊界for(pttr=pDooc-v
18、tt_dataa_deptth.beggin();ptr!=pDoc-vt_ddata_ddepth.end();ptr+)/繪制00-vt_ddata_ddepth0if(i=0)CRecct recct(thiis-orrgPoinnt.x,tthis-orgPooint.yy-200,this-orgPPoint.x + ppDoc-vt_daata_deepth00/thiis-x_ratioo,thiss-orggPointt.y);CBruush * myBruush=neew CBrrush;myBrrush-CreatteSoliidBrussh(RGBB(i*255,i*755,i*5);dc.FFillReect(&rrect,mmyBrussh);else/計(jì)計(jì)算矩形區(qū)域域CRecct recct(thiis-orrgPoinnt.x + pDocc-vt_data_depthhi-1/thiss-x_rratio,this-orgPPoint.y-2000,thiss-orggPointt.x + pDoc-vt_ddata_ddepthi/thhis-xx_ratiio,thiis-orrgPoinnt.y);CBruush * myBruush=neew CBr
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 手機(jī)基礎(chǔ)知識(shí)培訓(xùn)課件
- 2025年幼教基本功培訓(xùn):聚焦兒童全面發(fā)展
- 2025年市場(chǎng)營(yíng)銷學(xué)授課教案的教學(xué)效果評(píng)估
- 重陽(yáng)節(jié)敬老活動(dòng)總結(jié)
- DB31∕T 223-2020 蒸汽供熱系統(tǒng)經(jīng)濟(jì)運(yùn)行
- 三農(nóng)產(chǎn)品電子商務(wù)營(yíng)銷創(chuàng)新方案
- 卷簾門安裝工程施工合同
- 電子商務(wù)運(yùn)營(yíng)增長(zhǎng)計(jì)劃
- 維修后備人才培訓(xùn)教材-設(shè)備管理基礎(chǔ)知識(shí)
- 社會(huì)保障國(guó)際比較課件6社會(huì)保障管理體制國(guó)際比較
- 衛(wèi)生健康大數(shù)據(jù)底座建設(shè)需求
- 北師大版四年級(jí)下冊(cè)書法9《日字底》教案
- 老年糖尿病的皮膚護(hù)理
- 《管理會(huì)計(jì)學(xué)》(孫茂竹主編)教案 第1-12章
- 2024年-ITSS新標(biāo)準(zhǔn)培訓(xùn)學(xué)習(xí)材料
- 《職業(yè)道德與法治》開(kāi)學(xué)第一課(導(dǎo)言)(課件)-【中職專用】中職思想政治《職業(yè)道德與法治》高效課堂課件+教案(高教版2023·基礎(chǔ)模塊)
- 第2課《讓美德照亮幸福人生》第2框《做守家庭美德的好成員》-【中職專用】《職業(yè)道德與法治》同步課堂課件
- (正式版)SHT 3227-2024 石油化工裝置固定水噴霧和水(泡沫)噴淋滅火系統(tǒng)技術(shù)標(biāo)準(zhǔn)
- (正式版)JBT 10437-2024 電線電纜用可交聯(lián)聚乙烯絕緣料
- 法律知識(shí)圖譜構(gòu)建及應(yīng)用
- 誦讀經(jīng)典傳承文明課件
評(píng)論
0/150
提交評(píng)論