




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘分類演示文稿當(dāng)前第1頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)優(yōu)選數(shù)據(jù)挖掘分類當(dāng)前第2頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)3Classification
主要用于對(duì)離散的數(shù)據(jù)進(jìn)行預(yù)測(cè)分為兩步:根據(jù)訓(xùn)練集,構(gòu)造分類模型(訓(xùn)練集中每個(gè)元組的分類標(biāo)號(hào)事先已經(jīng)知道)估計(jì)分類模型的準(zhǔn)確性,如果其準(zhǔn)確性可以接受的話,則利用它來(lái)對(duì)未來(lái)數(shù)據(jù)進(jìn)行分類Prediction:構(gòu)造、使用模型來(lái)對(duì)某個(gè)樣本的值進(jìn)行估計(jì),例如預(yù)測(cè)某個(gè)不知道的值或者缺失值主要用于對(duì)連續(xù)或有序的數(shù)據(jù)進(jìn)行預(yù)測(cè)Typicalapplications信譽(yù)評(píng)估醫(yī)學(xué)診斷性能預(yù)測(cè)Classificationvs.Prediction當(dāng)前第3頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)4Classification—ATwo-StepProcess
模型構(gòu)造階段:describingasetofpredeterminedclasses假定每個(gè)元組/樣本都屬于某個(gè)預(yù)定義的類,這些類由分類標(biāo)號(hào)屬性所定義用來(lái)構(gòu)造模型的元組/樣本集被稱為訓(xùn)練集(trainingset)模型一般表示為:分類規(guī)則,決策樹或者數(shù)學(xué)公式模型使用階段:forclassifyingfutureorunknownobjects估計(jì)模型的準(zhǔn)確性用一些已知分類標(biāo)號(hào)的測(cè)試集和由模型進(jìn)行分類的結(jié)果進(jìn)行比較兩個(gè)結(jié)果相同所占的比率稱為準(zhǔn)確率測(cè)試集和訓(xùn)練集必須不相關(guān)如果準(zhǔn)確性可以接受的話,使用模型來(lái)對(duì)那些不知道分類標(biāo)號(hào)的數(shù)據(jù)進(jìn)行分類。當(dāng)前第4頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)5ClassificationProcess(1):ModelConstructionTrainingDataClassificationAlgorithmsIFrank=‘professor’ORyears>6THENtenured=‘yes’Classifier(Model)當(dāng)前第5頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)6ClassificationProcess(2):UsetheModelinPredictionClassifierTestingDataUnseenData(Jeff,Professor,4)Tenured?當(dāng)前第6頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)7分類和預(yù)測(cè)相關(guān)問(wèn)題(1):數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去掉噪聲,對(duì)缺失數(shù)據(jù)進(jìn)行處理(用某個(gè)最常用的值代替或者根據(jù)統(tǒng)計(jì)用某個(gè)最可能的值代替)相關(guān)分析(特征選擇)去掉某些不相關(guān)的或者冗余的屬性數(shù)據(jù)轉(zhuǎn)換對(duì)數(shù)據(jù)進(jìn)行概括(如將連續(xù)的值離散成若干個(gè)區(qū)域,將街道等上升到城市)對(duì)數(shù)據(jù)進(jìn)行規(guī)范化,將某個(gè)屬性的值縮小到某個(gè)指定的范圍之內(nèi)當(dāng)前第7頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)8分類和預(yù)測(cè)相關(guān)問(wèn)題(2):對(duì)分類方法進(jìn)行評(píng)價(jià)準(zhǔn)確性:分類準(zhǔn)確性和預(yù)測(cè)準(zhǔn)確性速度和可伸縮性構(gòu)造模型的時(shí)間(訓(xùn)練時(shí)間)使用模型的時(shí)間(分類/預(yù)測(cè)時(shí)間)魯棒性能夠處理噪聲和缺失數(shù)據(jù)可伸縮性對(duì)磁盤級(jí)的數(shù)據(jù)庫(kù)有效
易交互性模型容易理解,具有較好的洞察力當(dāng)前第8頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)16六月20239Visualizationofa
DecisionTree
inSGI/MineSet3.0當(dāng)前第9頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)10Supervisedvs.UnsupervisedLearningSupervisedlearning(classification)Supervision:Thetrainingdata(observations,measurements,etc.)areaccompaniedbylabelsindicatingtheclassoftheobservationsNewdataisclassifiedbasedonthetrainingsetUnsupervisedlearning
(clustering)TheclasslabelsoftrainingdataisunknownGivenasetofmeasurements,observations,etc.withtheaimofestablishingtheexistenceofclassesorclustersinthedata當(dāng)前第10頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)11簡(jiǎn)單例子分類兩歲寶寶,給他看幾個(gè)水果,并告訴他:紅的圓的是蘋果,橘黃的圓的是橘子(建模型)拿一個(gè)水果問(wèn)寶寶:這個(gè)水果,紅的圓的,是什么?(用模型)聚類兩歲寶寶,給他一堆水果,告訴他:根據(jù)顏色分成兩堆。寶寶會(huì)將蘋果分成一堆,橘子分成一堆。假如告訴他:根據(jù)大小分成3堆,則寶寶會(huì)根據(jù)大小分成3堆,蘋果和橘子可能會(huì)放在一起。當(dāng)前第11頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)12主要內(nèi)容分類和預(yù)測(cè)貝葉斯分類、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)當(dāng)前第12頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)13BayesianClassification是一種基于統(tǒng)計(jì)的分類方法,用來(lái)預(yù)測(cè)諸如某個(gè)樣本屬于某個(gè)分類的概率有多大基于Bayes理論研究發(fā)現(xiàn),Na?veBayesClassifier在性能上和DecisionTree、NeuralNetworkclassifiers相當(dāng)。在應(yīng)用于大數(shù)據(jù)集時(shí),具有較高的準(zhǔn)確率和速度Na?veBayesClassifier假設(shè)屬性值之間是獨(dú)立的,因此可以簡(jiǎn)化很多計(jì)算,故稱之為Na?ve。當(dāng)屬性值之間有依賴關(guān)系時(shí),采用BayesianBeliefNetworks進(jìn)行分類。當(dāng)前第13頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)14BayesianTheorem:Basics假設(shè)X是未知分類標(biāo)號(hào)的樣本數(shù)據(jù)H代表某種假設(shè),例如X屬于分類C
P(H|X):給定樣本數(shù)據(jù)X,假設(shè)H成立的概率例如,假設(shè)樣本數(shù)據(jù)由各種水果組成,每種水果都可以用形狀和顏色來(lái)描述。如果用X代表紅色并且是圓的,H代表X屬于蘋果這個(gè)假設(shè),則P(H|X)表示,已知X是紅色并且是圓的,則X是蘋果的概率。當(dāng)前第14頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)15BayesianTheorem:BasicsP(H):拿出任一個(gè)水果,不管它什么顏色,也不管它什么形狀,它屬于蘋果的概率P(X):拿出任一個(gè)水果,不管它是什么水果,它是紅色并且是圓的概率P(X|H):一個(gè)水果,已知它是一個(gè)蘋果,則它是紅色并且是圓的概率。當(dāng)前第15頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)16BayesianTheorem:Basics現(xiàn)在的問(wèn)題是,知道數(shù)據(jù)集里每個(gè)水果的顏色和形狀,看它屬于什么水果,求出屬于每種水果的概率,選其中概率最大的。也就是要算:P(H|X)但事實(shí)上,其他三個(gè)概率,P(H)、P(X)、P(X|H)都可以由已知數(shù)據(jù)得出,而P(H|X)無(wú)法從已知數(shù)據(jù)得出Bayes理論可以幫助我們:當(dāng)前第16頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)17Na?veBayesClassifier每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量表示,描述由屬性對(duì)樣本的n個(gè)度量。假定有m個(gè)類。給定一個(gè)未知的數(shù)據(jù)樣本X(即,沒有類標(biāo)號(hào)),分類法將預(yù)測(cè)X屬于具有最高后驗(yàn)概率(條件X下)的類。即,樸素貝葉斯分類將未知的樣本分配給類Ci,當(dāng)且僅當(dāng):這樣,我們最大化。其最大的類Ci稱為最大后驗(yàn)假定。根據(jù)貝葉斯定理:
當(dāng)前第17頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)18Na?veBayesClassifier由于P(X)對(duì)于所有類為常數(shù),只需要最大即可。如果類的先驗(yàn)概率未知,則通常假定這些類是等概率的;即,。并據(jù)此只對(duì)最大化。否則,我們最大化。類的先驗(yàn)概率可以用計(jì)算;其中,si是類C中的訓(xùn)練樣本數(shù),而s是訓(xùn)練樣本總數(shù)。當(dāng)前第18頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)19Na?veBayesClassifier給定具有許多屬性的數(shù)據(jù)集,計(jì)算的開銷可能非常大。為降低計(jì)算的開銷,可以樸素地假設(shè)屬性間不存在依賴關(guān)系。這樣,
概率,,…,可以由訓(xùn)練樣本估計(jì),其中,(a)
如果Ak是分類屬性,則;其中sik是在屬性Ak上具有值xk的類Ci的訓(xùn)練樣本數(shù),而si是Ci中的訓(xùn)練樣本數(shù)(b)
如果是連續(xù)值屬性,則通常假定該屬性服從高斯分布。因而,
其中,給定類Ci的訓(xùn)練樣本屬性Ak的值,是屬性Ak的高斯密度函數(shù),而分別為平均值和標(biāo)準(zhǔn)差。當(dāng)前第19頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)20Na?veBayesClassifier為對(duì)未知樣本X分類,對(duì)每個(gè)類Ci,計(jì)算。樣本X被指派到類Ci,當(dāng)且僅當(dāng):
換言之,X被指派到其最大的類Ci。當(dāng)前第20頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)21TrainingdatasetClass:C1:buys_computer=‘yes’C2:buys_computer=‘no’DatasampleX=(age<=30,Income=medium,Student=yesCredit_rating=Fair)當(dāng)前第21頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)22Na?veBayesianClassifier:AnExampleComputeP(X|Ci)foreachclass
P(buys_computer=“yes”)=9/14=0.643 P(buys_computer=“no”)=5/14=0.357
P(age=“<30”|buys_computer=“yes”)=2/9=0.222P(age=“<30”|buys_computer=“no”)=3/5=0.6P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.4P(student=“yes”|buys_computer=“yes)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.2P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4X=(age<=30,income=medium,student=yes,credit_rating=fair)
P(X|Ci):P(X|buys_computer=“yes”)=0.222x0.444x0.667x0.667=0.044P(X|buys_computer=“no”)=0.6x0.4x0.2x0.4=0.019P(X|Ci)*P(Ci):P(X|buys_computer=“yes”)*P(buys_computer=“yes”)=0.044x0.643=0.028
P(X|buys_computer=“no”)*P(buys_computer=“no”)=0.019x0.357=0.007Therefore,Xbelongstoclass“buys_computer=yes” 當(dāng)前第22頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)23Na?veBayesianClassifier:Comments優(yōu)點(diǎn)易于實(shí)現(xiàn)多數(shù)情況下結(jié)果較滿意缺點(diǎn)假設(shè):屬性間獨(dú)立,丟失準(zhǔn)確性實(shí)際上,屬性間存在依賴處理依賴BayesianBeliefNetworks當(dāng)前第23頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)24主要內(nèi)容分類和預(yù)測(cè)貝葉斯分類、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)當(dāng)前第24頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)25神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是以模擬人腦神經(jīng)元的數(shù)學(xué)模型為基礎(chǔ)而建立的,它由一系列神經(jīng)元組成,單元之間彼此連接。當(dāng)前第25頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)26神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)有三個(gè)要素:拓?fù)浣Y(jié)構(gòu)、連接方式、學(xué)習(xí)規(guī)則可以從這三方面對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行分類當(dāng)前第26頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)27神經(jīng)網(wǎng)絡(luò)的拓?fù)渖窠?jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu):神經(jīng)網(wǎng)絡(luò)的單元通常按照層次排列,根據(jù)網(wǎng)絡(luò)的層次數(shù),可以將神經(jīng)網(wǎng)絡(luò)分為單層神經(jīng)網(wǎng)絡(luò)、兩層神經(jīng)網(wǎng)絡(luò)、三層神經(jīng)網(wǎng)絡(luò)等結(jié)構(gòu)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),在學(xué)習(xí)時(shí)收斂的速度快,但準(zhǔn)確度低。神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層的單元數(shù)由問(wèn)題的復(fù)雜程度而定。問(wèn)題越復(fù)雜,神經(jīng)網(wǎng)絡(luò)的層數(shù)就越多。例如,兩層神經(jīng)網(wǎng)絡(luò)常用來(lái)解決線性問(wèn)題,而多層網(wǎng)絡(luò)就可以解決多元非線性問(wèn)題當(dāng)前第27頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)28神經(jīng)網(wǎng)絡(luò)的連接神經(jīng)網(wǎng)絡(luò)的連接:包括層次之間的連接和每一層內(nèi)部的連接,連接的強(qiáng)度用權(quán)來(lái)表示。根據(jù)層次之間的連接方式,分為:前饋式網(wǎng)絡(luò):連接是單向的,上層單元的輸出是下層單元的輸入,如反向傳播網(wǎng)絡(luò)反饋式網(wǎng)絡(luò):除了單項(xiàng)的連接外,還把最后一層單元的輸出作為第一層單元的輸入,如Hopfield網(wǎng)絡(luò)根據(jù)連接的范圍,分為:全連接神經(jīng)網(wǎng)絡(luò):每個(gè)單元和相鄰層上的所有單元相連局部連接網(wǎng)絡(luò):每個(gè)單元只和相鄰層上的部分單元相連當(dāng)前第28頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)29神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)根據(jù)學(xué)習(xí)方法分:感知器:有監(jiān)督的學(xué)習(xí)方法,訓(xùn)練樣本的類別是已知的,并在學(xué)習(xí)的過(guò)程中指導(dǎo)模型的訓(xùn)練認(rèn)知器:無(wú)監(jiān)督的學(xué)習(xí)方法,訓(xùn)練樣本類別未知,各單元通過(guò)競(jìng)爭(zhēng)學(xué)習(xí)。根據(jù)學(xué)習(xí)時(shí)間分:離線網(wǎng)絡(luò):學(xué)習(xí)過(guò)程和使用過(guò)程是獨(dú)立的在線網(wǎng)絡(luò):學(xué)習(xí)過(guò)程和使用過(guò)程是同時(shí)進(jìn)行的根據(jù)學(xué)習(xí)規(guī)則分:相關(guān)學(xué)習(xí)網(wǎng)絡(luò):根據(jù)連接間的激活水平改變權(quán)系數(shù)糾錯(cuò)學(xué)習(xí)網(wǎng)絡(luò):根據(jù)輸出單元的外部反饋改變權(quán)系數(shù)自組織學(xué)習(xí)網(wǎng)絡(luò):對(duì)輸入進(jìn)行自適應(yīng)地學(xué)習(xí)當(dāng)前第29頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)30基于神經(jīng)網(wǎng)絡(luò)的分類方法神經(jīng)網(wǎng)絡(luò)經(jīng)常用于分類神經(jīng)網(wǎng)絡(luò)的分類知識(shí)體現(xiàn)在網(wǎng)絡(luò)連接上,被隱式地存儲(chǔ)在連接的權(quán)值中。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)就是通過(guò)迭代算法,對(duì)權(quán)值逐步修改的優(yōu)化過(guò)程,學(xué)習(xí)的目標(biāo)就是通過(guò)改變權(quán)值使訓(xùn)練集的樣本都能被正確分類。當(dāng)前第30頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)31基于神經(jīng)網(wǎng)絡(luò)的分類方法神經(jīng)網(wǎng)絡(luò)特別適用于下列情況的分類問(wèn)題:數(shù)據(jù)量比較小,缺少足夠的樣本建立模型數(shù)據(jù)的結(jié)構(gòu)難以用傳統(tǒng)的統(tǒng)計(jì)方法來(lái)描述分類模型難以表示為傳統(tǒng)的統(tǒng)計(jì)模型當(dāng)前第31頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)32基于神經(jīng)網(wǎng)絡(luò)的分類方法缺點(diǎn):需要很長(zhǎng)的訓(xùn)練時(shí)間,因而對(duì)于有足夠長(zhǎng)訓(xùn)練時(shí)間的應(yīng)用更合適。需要大量的參數(shù),這些通常主要靠經(jīng)驗(yàn)確定,如網(wǎng)絡(luò)拓?fù)???山忉屝圆?。該特點(diǎn)使得神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘的初期并不看好。
當(dāng)前第32頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)33基于神經(jīng)網(wǎng)絡(luò)的分類方法優(yōu)點(diǎn):分類的準(zhǔn)確度高并行分布處理能力強(qiáng)分布存儲(chǔ)及學(xué)習(xí)能力高對(duì)噪音數(shù)據(jù)有很強(qiáng)的魯棒性和容錯(cuò)能力最流行的基于神經(jīng)網(wǎng)絡(luò)的分類算法是80年代提出的后向傳播算法。
當(dāng)前第33頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)34后向傳播算法后向傳播算法在多路前饋神經(jīng)網(wǎng)絡(luò)上學(xué)習(xí)。
當(dāng)前第34頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)35定義網(wǎng)絡(luò)拓?fù)?/p>
在開始訓(xùn)練之前,用戶必須說(shuō)明輸入層的單元數(shù)、隱藏層數(shù)(如果多于一層)、每一隱藏層的單元數(shù)和輸出層的單元數(shù),以確定網(wǎng)絡(luò)拓?fù)洹?/p>
當(dāng)前第35頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)36定義網(wǎng)絡(luò)拓?fù)?/p>
對(duì)訓(xùn)練樣本中每個(gè)屬性的值進(jìn)行規(guī)格化將有助于加快學(xué)習(xí)過(guò)程。通常,對(duì)輸入值規(guī)格化,使得它們落入0.0和1.0之間。離散值屬性可以重新編碼,使得每個(gè)域值一個(gè)輸入單元。例如,如果屬性A的定義域?yàn)?a0,a1,a2),則可以分配三個(gè)輸入單元表示A。即,我們可以用I0,I1,I2作為輸入單元。每個(gè)單元初始化為0。如果A=a0,則I0置為1;如果A=a1,I1置1;如此下去。一個(gè)輸出單元可以用來(lái)表示兩個(gè)類(值1代表一個(gè)類,而值0代表另一個(gè))。如果多于兩個(gè)類,則每個(gè)類使用一個(gè)輸出單元。當(dāng)前第36頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)37定義網(wǎng)絡(luò)拓?fù)潆[藏層單元數(shù)設(shè)多少個(gè)“最好”,沒有明確的規(guī)則。網(wǎng)絡(luò)設(shè)計(jì)是一個(gè)實(shí)驗(yàn)過(guò)程,并可能影響準(zhǔn)確性。權(quán)的初值也可能影響準(zhǔn)確性。如果某個(gè)經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)的準(zhǔn)確率太低,則通常需要采用不同的網(wǎng)絡(luò)拓?fù)浠蚴褂貌煌某跏紮?quán)值,重復(fù)進(jìn)行訓(xùn)練。
當(dāng)前第37頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)38后向傳播算法后向傳播算法學(xué)習(xí)過(guò)程:迭代地處理一組訓(xùn)練樣本,將每個(gè)樣本的網(wǎng)絡(luò)預(yù)測(cè)與實(shí)際的類標(biāo)號(hào)比較。每次迭代后,修改權(quán)值,使得網(wǎng)絡(luò)預(yù)測(cè)和實(shí)際類之間的均方差最小。這種修改“后向”進(jìn)行。即,由輸出層,經(jīng)由每個(gè)隱藏層,到第一個(gè)隱藏層(因此稱作后向傳播)。盡管不能保證,一般地,權(quán)將最終收斂,學(xué)習(xí)過(guò)程停止。
算法終止條件:訓(xùn)練集中被正確分類的樣本達(dá)到一定的比例,或者權(quán)系數(shù)趨近穩(wěn)定。當(dāng)前第38頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)39后向傳播算法后向傳播算法分為如下幾步:初始化權(quán)向前傳播輸入向后傳播誤差當(dāng)前第39頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)40后向傳播算法初始化權(quán)網(wǎng)絡(luò)的權(quán)通常被初始化為很小的隨機(jī)數(shù)(例如,范圍從-1.0到1.0,或從-0.5到0.5)。每個(gè)單元都設(shè)有一個(gè)偏置(bias),偏置也被初始化為小隨機(jī)數(shù)。
對(duì)于每一個(gè)樣本X,重復(fù)下面兩步:向前傳播輸入向后傳播誤差當(dāng)前第40頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)41向前傳播輸入計(jì)算各層每個(gè)單元的輸入和輸出。輸入層:輸出=輸入=樣本X的屬性;即,對(duì)于單元j,Oj
=Ij=Xj隱藏層和輸出層:輸入=前一層的輸出的線性組合,即,對(duì)于單元j,Ij=∑wijOi+θj
i輸出=當(dāng)前第41頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)42向后傳播誤差計(jì)算各層每個(gè)單元的誤差。向后傳播誤差,并更新權(quán)和偏置計(jì)算各層每個(gè)單元的誤差。輸出層單元j,誤差
Oj是單元j的實(shí)際輸出,而Tj是j的真正輸出。隱藏層單元j,誤差
wjk是由j到下一層中單元k的連接的權(quán)Errk是單元k的誤差當(dāng)前第42頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)43向后傳播誤差更新權(quán)和偏差,以反映傳播的誤差。 權(quán)由下式更新: 其中,wij是權(quán)wij的改變。l是學(xué)習(xí)率,通常取0和1之間的值。 偏置由下式更新: 其中,j是偏置j的改變。
當(dāng)前第43頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)后向傳播算法OutputnodesInputnodesHiddennodesOutputvectorInputvector:xiwij當(dāng)前第44頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)16六月202345Example設(shè)學(xué)習(xí)率為0.9。訓(xùn)練樣本X={1,0,1}類標(biāo)號(hào)為1x1x2x3w14w15w24w25W34w35w46w564561010.2-0.30.40.1-0.50.2-0.3-0.2-0.40.20.1單元j凈輸入Ij輸出Oj4560.2+0-0.5-0.4=-0.7-0.3+0+0.2+0.2=0.1(-0.3)(0.332)-(0.2)(0.525)+0.1=-0.1051+(1+e0.7)=0.3321+(1+e-0.1)=0.5251+(1+e-0.105)=0.474單元jErrj654(0.474)(1-0.474)(1-0.474)=0.1311(0.525)(1-0.525)(0.1311)(-0.2)=-0.0065(0.332)(1-0.332)(0.1311)(-0.3)=-0.02087權(quán)或偏差新值w46w56w14w15w24w25w34w35654-0.3+(0.9)(0.1311)(0.332)=-0.261-0.2+(0.9)(0.1311)(0.525)=-0.1380.2+(0.9)(-0.0087)(1)=0.192-0.3+(0.9)(0.0065)(1)=-0.3060.4+(0.9)(-0.0087)(0)=0.40.1+(0.9)(-0.0065)(0)=0.1-0.5+(0.9)(-0.0087)(1)=-0.5080.2+(0.9)(-0.0065)(1)=0.1940.1+(0.9)(0.1311)=0.2180.2+(0.9)(-0.0065)=0.194-0.4+(0.9)(-0.0087)=-0.408當(dāng)前第45頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)46主要內(nèi)容分類和預(yù)測(cè)貝葉斯分類、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)當(dāng)前第46頁(yè)\共有52頁(yè)\編于星期五\0點(diǎn)47WhatIsPredi
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園保健知識(shí)培訓(xùn)課件
- 金昌電梯裝修施工方案
- 干部法律知識(shí)培訓(xùn)課件
- 水塔工程施工方案
- 兒童租賃門店合同范例
- 個(gè)人勞務(wù)派遣工合同范例
- 個(gè)人田地出租合同范例
- 人工代加工合同范例
- 品牌引導(dǎo)消費(fèi)者行為的技巧計(jì)劃
- 秘書工作任務(wù)安排計(jì)劃表
- 醫(yī)療器械醫(yī)療器械研發(fā)合同
- 2025年岳陽(yáng)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及參考答案
- (二模)2024-2025學(xué)年佛山市順德區(qū)高三教學(xué)質(zhì)量檢測(cè) (二)歷史試卷(含答案)
- 2024初級(jí)會(huì)計(jì)職稱考試題庫(kù)(附參考答案)
- 國(guó)家安全教育大學(xué)生讀本高教社2024年8月版教材講義-第一章完全準(zhǔn)確領(lǐng)會(huì)總體國(guó)家安全觀
- 2025年四川省對(duì)口招生(旅游類)《前廳服務(wù)與管理》考試復(fù)習(xí)題庫(kù)(含答案)
- 2024年01月河北2024年唐山銀行社會(huì)招考筆試歷年參考題庫(kù)附帶答案詳解
- 【高++中語(yǔ)文++】《記念劉和珍君》課件+統(tǒng)編版高中語(yǔ)文選擇性必修中冊(cè)
- 2025年湖南信息職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 2025年江西環(huán)境工程職業(yè)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 2024年世界職業(yè)院校技能大賽高職組“研學(xué)旅行組”賽項(xiàng)參考試題庫(kù)(含答案)
評(píng)論
0/150
提交評(píng)論