貝葉斯分類器報告_第1頁
貝葉斯分類器報告_第2頁
貝葉斯分類器報告_第3頁
貝葉斯分類器報告_第4頁
貝葉斯分類器報告_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PAGE實驗報告一、實驗?zāi)康耐ㄟ^上機編程加深對貝葉斯分類器分類過程的理解,同時提高分析問題、解決問題、實際操作的能力。二、實驗數(shù)據(jù)說明實驗數(shù)據(jù)來源于/ml/,詳細說明請見附件一。數(shù)據(jù)源的完整名稱是WineDataSet,是對3種不同的酒進行分類。這三種酒包括13種不同的屬性。13種屬性分別為:Alcohol,Malicacid,Ash,Alcalinityofash,Magnesium,Totalphenols,F(xiàn)lavanoids,Nonflavanoidphenols,Proanthocyanins,Colorintensity,Hue,OD280/OD315ofdilutedwines,Proline。在“wine.data”文件中,每行代表一種酒的樣本,共有178個樣本;一共有14列,其中,第一列為類標(biāo)志屬性,共有三類,分別記為“1”,“2”,“3”;后面的13列為每個樣本的對應(yīng)屬性的樣本值。其中第1類有59個樣本,第2類有71個樣本,第3類有48個樣本。樸素貝葉斯分類算法分析貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡(luò)。該網(wǎng)絡(luò)中應(yīng)包含類結(jié)點C,其中C的取值來自于類集合(c1,c2,...,cm),還包含一組結(jié)點X=(X1,X2,...,Xn),表示用于分類的特征。對于貝葉斯網(wǎng)絡(luò)分類器,若某一待分類的樣本D,其分類特征值為x=(x1,x2,...,xn),則樣本D屬于類別ci的概率P(C=ci|X1=x1,X2=x2,...,Xn=xn),(i=1,2,...,m)應(yīng)滿足下式:P(C=ci|X=x)=Max{P(C=c1|X=x),P(C=c2|X=x),...,P(C=cm|X=x)} 而由貝葉斯公式:P(C=ci|X=x)=P(X=x|C=ci)*P(C=ci)/P(X=x)其中,P(C=ci)可由領(lǐng)域?qū)<业慕?jīng)驗得到,而P(X=x|C=ci)和P(X=x)的計算則較困難。實驗結(jié)果使用貝葉斯分類算法,最后得到測試樣本是屬于哪個類的酒。以下是詳細實現(xiàn)過程。實驗結(jié)果如下圖所示。實驗源碼請見附件三。附件一:實驗數(shù)據(jù)說明:1.TitleofDatabase:Winerecognitiondata UpdatedSept21,1998byC.Blake:Addedattributeinformation2.Sources:(a)Forina,M.etal,PARVUS-AnExtendiblePackageforDataExploration,ClassificationandCorrelation.InstituteofPharmaceuticalandFoodAnalysisandTechnologies,ViaBrigataSalerno,16147Genoa,Italy.(b)StefanAeberhard,email:stefan@.au(c)July19913.PastUsage:(1)S.Aeberhard,D.CoomansandO.deVel,ComparisonofClassifiersinHighDimensionalSettings,Tech.Rep.no.92-02,(1992),Dept.ofComputerScienceandDept.ofMathematicsandStatistics,JamesCookUniversityofNorthQueensland.(AlsosubmittedtoTechnometrics).Thedatawasusedwithmanyothersforcomparingvariousclassifiers.Theclassesareseparable,thoughonlyRDAhasachieved100%correctclassification.(RDA:100%,QDA99.4%,LDA98.9%,1NN96.1%(z-transformeddata))(Allresultsusingtheleave-one-outtechnique)Inaclassificationcontext,thisisawellposedproblemwith"wellbehaved"classstructures.Agooddatasetforfirsttestingofanewclassifier,butnotverychallenging.(2)S.Aeberhard,D.CoomansandO.deVel,"THECLASSIFICATIONPERFORMANCEOFRDA"Tech.Rep.no.92-01,(1992),Dept.ofComputerScienceandDept.ofMathematicsandStatistics,JamesCookUniversityofNorthQueensland.(AlsosubmittedtoJournalofChemometrics).Here,thedatawasusedtoillustratethesuperiorperformanceoftheuseofanewappreciationfunctionwithRDA.4.RelevantInformation:--ThesedataaretheresultsofachemicalanalysisofwinesgrowninthesameregioninItalybutderivedfromthreedifferentcultivars.Theanalysisdeterminedthequantitiesof13constituentsfoundineachofthethreetypesofwines.--Ithinkthattheinitialdatasethadaround30variables,butforsomereasonIonlyhavethe13dimensionalversion.Ihadalistofwhatthe30orsovariableswere,buta.)Ilostit,andb.),Iwouldnotknowwhich13variablesareincludedintheset.--Theattributesare(dontatedbyRiccardoLeardi,riclea@anchem.unige.it) 1)Alcohol 2)Malicacid 3)Ash 4)Alcalinityofash 5)Magnesium 6)Totalphenols 7)Flavanoids 8)Nonflavanoidphenols 9)Proanthocyanins 10)Colorintensity 11)Hue 12)OD280/OD315ofdilutedwines 13)Proline5.NumberofInstances class159 class271 class3486.NumberofAttributes 137.ForEachAttribute: Allattributesarecontinuous.Nostatisticsavailable,butsuggesttostandardise variablesforcertainuses(e.g.foruswithclassifierswhichareNOTscaleinvariant) NOTE:1stattributeisclassidentifier(1-3)8.MissingAttributeValues: None9.ClassDistribution:numberofinstancesperclass class159 class271 class348附件二:實驗數(shù)據(jù):/ml/machine-learning-databases/wine/附件三:源程序:BayesianClassifier.h#include<string>#include<vector>#include<set>#include<ctime>#include<algorithm>#include<cmath>#include<map>usingnamespacestd;// 1)Alcohol// 2)Malicacid// 3)Ash// 4)Alcalinityofash// 5)Magnesium// 6)Totalphenols// 7)Flavanoids// 8)Nonflavanoidphenols// 9)Proanthocyanins// 10)Colorintensity// 11)Hue// 12)OD280/OD315ofdilutedwines// 13)ProlineintTrainNum=130; //所有訓(xùn)練數(shù)據(jù)的范圍intTestNum=48; structOriginalData{ doubleA1; doubleA2; doubleA3; doubleA4;doubleA5;doubleA6; doubleA7; doubleA8; doubleA9; doubleA10; doubleA11; doubleA12; doubleA13; doubleA14;};BayesianClassifier.cpp#include<iostream>#include<fstream>#include<sstream>#include"BayesianClassifier.h"usingnamespacestd;constintShuxing=13;//屬性總數(shù)ifstreamf; vector<OriginalData>trainData;//存放訓(xùn)練數(shù)據(jù)vector<OriginalData>testData;//存放測試數(shù)據(jù)doubleA[3];//先驗概率intm;//存放每一類型,每種屬性中某數(shù)值的概率map<double,double>C1_map[Shuxing];map<double,double>C2_map[Shuxing];map<double,double>C3_map[Shuxing];//從文件中讀取數(shù)值voidDataRead(vector<OriginalData>&data,constchar*fileName){ f.open(fileName); intZHjiang; if(fileName[0]=='w') ZHjiang=TrainNum; else ZHjiang=TestNum; stringline; OriginalDatawine; for(inti=0;i<ZHjiang;i++) { f>>line; while(line.find(',')>0&&line.find(',')<line.length()) { line[line.find(',')]=''; } istringstreamstream(line); stream>>wine.A1>>wine.A2>>wine.A3>>wine.A4>>wine.A5>>wine.A6>>wine.A7>>wine.A8>> wine.A9>>wine.A10>>wine.A11>>wine.A12>>wine.A13>>wine.A14; data.push_back(wine); } f.close();}voidbayes(){ intcount1=0,count2=0,count3=0; inti; for(i=0;i<TrainNum;i++) { if(trainData[i].A1==1) { count1++; } if(trainData[i].A1==2) { count2++; } if(trainData[i].A1==3) { count3++; }//統(tǒng)計三類數(shù)據(jù),各自求和 } A[0]=(double)count1/(double)TrainNum;//求先驗概率 A[1]=(double)count2/(double)TrainNum; A[2]=(double)count3/(double)TrainNum; map<double,double>::iteratorpipei;for(i=0;i<TrainNum;i++) { if(trainData[i].A1==1)//求P(Xk|C1)中Xk的個數(shù) { intj=0; for(;j<13;j++) { doubletemp=*(&trainData[i].A2+j); pipei=C1_map[j].find(temp); if(pipei==C1_map[j].end()) { C1_map[j].insert(map<double,double>::value_type(temp,1)); } else { doublej=pipei->second; pipei->second=j+1; } } } if(trainData[i].A1==2)//求P(Xk|C2)中Xk的個數(shù) { intj=0; for(;j<13;j++) { doubletemp=*(&trainData[i].A2+j); pipei=C2_map[j].find(temp); if(pipei==C2_map[j].end()) { C2_map[j].insert(map<double,double>::value_type(temp,1)); } else { doublej=pipei->second; pipei->second=j+1; } } } if(trainData[i].A1==3)//求P(Xk|C3)中Xk的個數(shù) { intj=0; for(;j<13;j++) { doubletemp=*(&trainData[i].A2+j); pipei=C3_map[j].find(temp); if(pipei==C3_map[j].end()) { C3_map[j].insert(map<double,double>::value_type(temp,1)); } else { doublej=pipei->second; pipei->second=j+1; } } } } //概率 for(i=0;i<Shuxing;i++) { for(pipei=C1_map[i].begin();pipei!=C1_map[i].end();++pipei) { doublenum=pipei->second; pipei->second=(double)num/(double)count1; } for(pipei=C2_map[i].begin();pipei!=C2_map[i].end();++pipei) { doublenum=pipei->second; pipei->second=(double)num/(double)count2; } for(pipei=C3_map[i].begin();pipei!=C3_map[i].end();++pipei) { doublenum=pipei->second; pipei->second=(double)num/(double)count3;} }}voidhouyan()//計算后驗分布,找出最大值{ inti,j,k; doublep[3]; for(i=0;i<TestNum;i++) { doublepXC[3]={0,0,0}; for(j=0;j<3;j++) { map<double,double>::iteratorpipei; //計算p(X|C1) for(k=0;k<Shuxing;k++) { pipei=C1_map[k].find(*(&testData[i].A2+k)); if(pipei!=C1_map[k].end()) { pXC[0]=pXC[0]+pipei->second; } } p[0]=A[0]*pXC[0]; //計算p(X|C2) for(k=0;k<Shuxing;k++) { pipei=C2_ma

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論