機(jī)器學(xué)習(xí)(慕課版)實(shí)驗(yàn)及參考結(jié)果 實(shí)驗(yàn)一 基于Bayes的手寫字符識(shí)別_第1頁(yè)
機(jī)器學(xué)習(xí)(慕課版)實(shí)驗(yàn)及參考結(jié)果 實(shí)驗(yàn)一 基于Bayes的手寫字符識(shí)別_第2頁(yè)
機(jī)器學(xué)習(xí)(慕課版)實(shí)驗(yàn)及參考結(jié)果 實(shí)驗(yàn)一 基于Bayes的手寫字符識(shí)別_第3頁(yè)
機(jī)器學(xué)習(xí)(慕課版)實(shí)驗(yàn)及參考結(jié)果 實(shí)驗(yàn)一 基于Bayes的手寫字符識(shí)別_第4頁(yè)
機(jī)器學(xué)習(xí)(慕課版)實(shí)驗(yàn)及參考結(jié)果 實(shí)驗(yàn)一 基于Bayes的手寫字符識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)驗(yàn)一:基于Bayes的手寫字符識(shí)別姓名:學(xué)號(hào):專業(yè):人工智能指導(dǎo)老師:(打印時(shí),下面的得分情況表留在封面)報(bào)告分:(100points)Attendance(5points)Results(10points)實(shí)驗(yàn)課時(shí)簽到成功(5)實(shí)驗(yàn)課時(shí)沒有簽到成功(0)給出算法正確和可運(yùn)行程序(10)程序算法原理有部分理解錯(cuò)誤(5)程序算法原理和程序都有完全錯(cuò)誤(0)ContentofReport(55points)formatinReport(30points)要求點(diǎn)全部高質(zhì)量完成(55)要求點(diǎn)完成但有錯(cuò)誤(給分點(diǎn)減半)要求點(diǎn)沒有完成(扣相應(yīng)給分點(diǎn)的分)圖表、引用等符合學(xué)術(shù)規(guī)范(15)、語言清晰,邏輯明確和表述清晰完整(15)圖表、引用不符合學(xué)術(shù)規(guī)范語言清晰,邏輯明確和表述清晰完整(0)最終本次實(shí)驗(yàn)得分成績(jī)=報(bào)告分x(時(shí)間或算法)性能排序因子(時(shí)間或算法)性能排序因子為:top1-3,100%Top4-10,95%Top11-15,90%Top16-最后,80%性能可以并列第一。(報(bào)告全文用宋體小四字體,所有的數(shù)學(xué)符號(hào)用word自帶的公式編輯器進(jìn)行編輯)以下是報(bào)告的內(nèi)容提綱一共7部分,共55分。問題描述(2points)基于MNIST數(shù)據(jù)集,采用樸素貝葉斯分類器,實(shí)現(xiàn)0-9數(shù)字手寫體的識(shí)別。問題的本質(zhì)和分析(10points)條件概率:指事件B發(fā)生的情況下,事件A發(fā)生的概率。P全概率公式:在條件概率的基礎(chǔ)上,將原本的P(A)轉(zhuǎn)化為各種條件下事件A發(fā)生概率的總和。P貝葉斯公式:對(duì)于條件概率P(A|B)和P(B|A)來說,PA∩B是一樣的,所以將P(B|A)P對(duì)上式做些小改動(dòng),得到:P再將P(A)用全概率公式表示,即可得到貝葉斯公式的另一形態(tài):P其中,P(Bi)被稱為先驗(yàn)概率,PBiA是事件A發(fā)生的條件下事件Bi發(fā)生的概率,也被稱作后驗(yàn)概率。如果將事件Bi視作事件A發(fā)生的原因之一(B1到Bn都是),那么上式所表達(dá)的含義就可以理解為:當(dāng)事件A發(fā)生時(shí),事件Bi是有原因的概率。這也是貝葉斯方法實(shí)現(xiàn)手寫數(shù)字識(shí)別的基本公式,即當(dāng)?shù)玫揭粡垐D片(事件解決問題的思路,方法,思路的可行性和預(yù)期結(jié)果表現(xiàn)(避免截圖和word打入公式)(10points)首先確定求取概率對(duì)象。計(jì)算出所有的PBiA,然后找出最大值。那么,根據(jù)前面提到的公式可以知道,我們需要通過訓(xùn)練數(shù)據(jù)集計(jì)算出所有的先驗(yàn)概率P(Bi)和條件概率T={其中x1,x都有xi={xi1,xi2,…,xinPP解決問題中遇到的難點(diǎn)(3points)條件概率P(X|Y)由于訓(xùn)練集的規(guī)模化而無法估計(jì)。假設(shè)P(X|Y)的條件概率分布是特征條件獨(dú)立的話,就可以將其表示為:P如此,后驗(yàn)概率P(X|Y)的算式就可以寫成:P再把公分母去掉,即可得到最簡(jiǎn)形式:y=f(x)=arg最后利用極大似然估計(jì)來估計(jì)相應(yīng)的先驗(yàn)概率PY和條件概率PP其中,I為指示函數(shù),l代表二值化后的像素點(diǎn)取值情況,j表示給定的圖片xi對(duì)應(yīng)的第j5.與算法對(duì)應(yīng)的關(guān)鍵代碼的實(shí)現(xiàn)進(jìn)行文字解釋和注釋,文字解釋:計(jì)算先驗(yàn)概率和后驗(yàn)概率代碼如下:defCalProb(train_data,train_label):#算條件概率和先驗(yàn)概率num,dimsnum=train_data.shape#num為行數(shù),dimsum為列數(shù)labelnum=len(set(train_label))##標(biāo)簽總個(gè)數(shù)pyj=np.zeros(labelnum)pyjk1=np.zeros((labelnum,dimsnum))foriinrange(num):label=train_label[i]pyj[label]=pyj[label]+1#計(jì)算屬于j類圖像的數(shù)量forjinrange(dimsnum):pyjk1[label][j]=pyjk1[label][j]+train_data[i][j]print("pyj個(gè)數(shù):",pyj)pyjk1=(pyjk1.T+1)/(pyj+2)##條件概率pyj=(pyj+1)/(num+labelnum)##先驗(yàn)概率returnpyj,pyjk1defCalTestProb_xk_yj(xk,pyjxk1):returnxk*np.log(pyjxk1)+(1-xk)*np.log(1-pyjxk1)deftest(test_data,test_label,pyjk1,pyj):##測(cè)試num,dimsnum=test_data.shape#dimsnum為784print(test_data[0])labelnum=len(set(test_label))acc=0foriinrange(num):testdata=test_data[i]p_yj_xi=np.log(pyj)##取對(duì)數(shù)forjinrange(labelnum):forkinrange(dimsnum):xk=testdata[k]p_yj_xi[j]=p_yj_xi[j]+CalTestProb_xk_yj(xk,pyjk1[j][k])##p_yj_xip_y_xi=np.argmax(p_yj_xi)#取出一維向量中值最大的序號(hào)acc=acc+(p_y_xi==test_label[i])print("realis:",test_label[i],"predictis:",p_y_xi)print("Testaccuracyis:",acc/num)#正確率對(duì)結(jié)果進(jìn)行分析,提出改進(jìn)想法的動(dòng)機(jī),依據(jù)、算法設(shè)計(jì)和預(yù)期結(jié)果(10points)正確率中規(guī)中矩,在編程的過程中,我曾嘗試輸出訓(xùn)練集中所有圖片,通過這一行為,我發(fā)現(xiàn)這些圖片中的數(shù)字絕大部分都在圖像的中央,圖片邊緣有很多冗余的區(qū)域,對(duì)圖像識(shí)別來說意義不大。把60000張圖片一層一層堆疊在一起,如果有超過600張圖片在某區(qū)域非0(即在圖像里不是黑色的),也就是說超過59400張?jiān)搮^(qū)域是有實(shí)際圖像的像素值的,那么就提取這樣的一個(gè)特征。根據(jù)mnist數(shù)據(jù)集可知,圖像一共有28×28=784個(gè)位置,經(jīng)過上述方法提取后,有493個(gè)特征位置。7.改進(jìn)的代碼(要求同5部分)和結(jié)果分析(10points)改進(jìn)的代碼如下:defpretreat(train_labels,test_labels,train_images,test_images):train_images_column=train_images.reshape(60000,784,1)test_images_column=test_images.reshape(10000,784,1)train_labels=train_labels.reshape(60000,1)test_labels=test_labels.reshape(10000,1)foriinrange(len(train_labels)):iftrain_labels[i]==0:train_labels[i]=1eliftrain_labels[i]!=0:train_labels[i]=-1##5923個(gè)0/60000約1/10正確foriinrange(len(test_labels)):iftest_labels[i]==0:test_labels[i]=1eliftest_labels[i]!=0:test_labels[i]=-1##980個(gè)0/10000約1/10正確train_images_2D=train_images_column.reshape(60000,784)test_images_2D=test_images_column.reshape(10000,784)train_images_2DT=train_images_2D.Ttest_images_2DT=test_images_2D.Treturntrain_labels,test_labels,train_images_2DT,test_images_2DTdefCalculateP(train_image_feature,train_labels):print("計(jì)算XY交事件的概率...")PP=0NP=0PN=0NN=0foriinrange(493):PP=0NP=0PN=0NN=0forjinrange(60000):iftrain_image_feature[i,j]==1andtrain_labels[j]==1:PP=PP+1eliftrain_image_feature[i,j]==0andtrain_labels[j]==1:NP=NP+1eliftrain_image_feature[i,j]==1andtrain_labels[j]==-1:PN=PN+1eliftrain_image_feature[i,j]==0andtrain_labels[j]==-1:NN=NN+1P[i,0]=PP/5923P[i,1]=NP/5923P[i,2]=PN/54077P[i,3]=NN/54077print("已完成XY交事件的概率的計(jì)算")returnPdefCDF(P,train_image_feature):print("計(jì)算XY條件概率...")PY_P=5923/60000PY_N=54077/60000b_predict=np.zeros([60000,1])forjinrange(60000):temp_PP=1temp_PN=1foriinrange(493):index=int(1-(train_image_feature[i,j]))multi_P=P[i,index]temp_PP=multi_P*temp_PPforiinrange(493):index=int(3-(train_image_feature[i,j]))multi_P=P[i,index]temp_PN=multi_P*temp_PNifPY_P*temp_PP>PY_N*temp_PN:b_predict[j]=1print("標(biāo)簽號(hào)為",j,"樣本預(yù)測(cè)為y=1")elifPY_P*temp_PP<PY_N*temp_PN:b_predict[j]=-1print("標(biāo)簽號(hào)為",j,"樣本預(yù)測(cè)為y=-1")print("已計(jì)算完畢XY的條件概率...")returnb_predictif__name__=='__main__':train_images=load_train_images()train_labels=load_train_labels()test_images=load_test_images()test_labels=load_test_labels()[train_labels,test_labels,train_images_2DT,test_images_2DT]=pretreat(train_labels,test_labels,train_images,test_images)tt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論