模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第1頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第2頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第3頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第4頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、模式識(shí)別與機(jī)器學(xué)習(xí)期末考查思考題1:簡(jiǎn)述模式識(shí)別與機(jī)器學(xué)習(xí)研究的共同問題和各自的研究側(cè)重點(diǎn)。機(jī)器學(xué)習(xí)是研究讓機(jī)器(計(jì)算機(jī))從經(jīng)驗(yàn)和數(shù)據(jù)獲得知識(shí)或提高自身能力的科學(xué).機(jī)器學(xué)習(xí)和模式識(shí)別是分別從計(jì)算機(jī)科學(xué)和工程的角度發(fā)展起來的。然而近年來,由于它們關(guān)心的很多共同問題(分類、聚類、特征選擇、信息融合等),這兩個(gè)領(lǐng)域的界限越來越模糊。機(jī)器學(xué)習(xí)和模式識(shí)別的理論和方法可用來解決很多機(jī)器感知和信息處理的問題,其中包括圖像/視頻分析、(文本、語音、印刷、手寫)文檔分析、信息檢索和網(wǎng)絡(luò)搜索等.近年來,機(jī)器學(xué)習(xí)和模式識(shí)別的研究吸引了越來越多的研究者,理論和方法的進(jìn)步促進(jìn)了工程應(yīng)用中識(shí)別性能的明顯提高。機(jī)器學(xué)習(xí):要

2、使計(jì)算機(jī)具有知識(shí)一般有兩種方法;一種是由知識(shí)工程師將有關(guān)的知識(shí)歸納、整理,并且表示為計(jì)算機(jī)可以接受、處理的方式輸入計(jì)算機(jī).另一種是使計(jì)算機(jī)本身有獲得知識(shí)的能力,它可以學(xué)習(xí)人類已有的知識(shí),并且在實(shí)踐過程中不總結(jié)、完善,這種方式稱為機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)的研究,主要在以下三個(gè)方面進(jìn)行:一是研究人類學(xué)習(xí)的機(jī)理、人腦思維的過程;和機(jī)器學(xué)習(xí)的方法;以及建立針對(duì)具體任務(wù)的學(xué)習(xí)系統(tǒng)。 機(jī)器學(xué)習(xí)的研究是在信息科學(xué)、腦科學(xué)、神經(jīng)心理學(xué)、邏輯學(xué)、模糊數(shù)學(xué)等多種學(xué)科基礎(chǔ)上的。依賴于這些學(xué)科而共同發(fā)展.目前已經(jīng)取得很大的進(jìn)展,但還沒有能完全解決問題. 模式識(shí)別:模式識(shí)別是研究如何使機(jī)器具有感知能力,主要研究視覺模式和聽覺

3、模式的識(shí)別。如識(shí)別物體、地形、圖像、字體(如簽字)等。在日常生活各方面以及軍事上都有廣大的用途.近年來迅速發(fā)展起來應(yīng)用模糊數(shù)學(xué)模式、人工神經(jīng)網(wǎng)絡(luò)模式的方法逐漸取代傳統(tǒng)的用統(tǒng)計(jì)模式和結(jié)構(gòu)模式的識(shí)別方法。 特別神經(jīng)網(wǎng)絡(luò)方法在模式識(shí)別中取得較大進(jìn)展。 理解自然語言 計(jì)算機(jī)如能“聽懂”人的語言(如漢語、英語等),便可以直接用口語操作計(jì)算機(jī),這將給人們帶來極大的便利。計(jì)算機(jī)理解自然語言的研究有以下三個(gè)目標(biāo):一是計(jì)算機(jī)能正確理解人類的自然語言輸入的信息,并能正確答復(fù)(或響應(yīng))輸入的信息.二是計(jì)算機(jī)對(duì)輸入的信息能產(chǎn)生相應(yīng)的摘要,而且復(fù)述輸入的內(nèi)容。三是計(jì)算機(jī)能把輸入的自然語言翻譯成要求的另一種語言,如將漢語

4、譯成英語或?qū)⒂⒄Z譯成漢語等.目前,研究計(jì)算機(jī)進(jìn)行文字或語言的自動(dòng)翻譯,人們作了大量的嘗試,還沒有找到最佳的方法,有待于更進(jìn)一步深入探索。機(jī)器學(xué)習(xí)今后主要的研究方向如下:1)人類學(xué)習(xí)機(jī)制的研究;2)發(fā)展和完善現(xiàn)有學(xué)習(xí)方法,建立實(shí)用的學(xué)習(xí)系統(tǒng),特別是開展多種學(xué)習(xí)方法協(xié)同工作的集成化系統(tǒng)的研究;通過多個(gè)現(xiàn)有的具體例子進(jìn)行分析,歸納為更一般的概念.機(jī)器學(xué)習(xí)所關(guān)注的一個(gè)根本問題是如何提高學(xué)習(xí)系統(tǒng)的泛化能力,或者說是機(jī)器在數(shù)據(jù)中發(fā)現(xiàn)的模式怎樣才能具有良好的推廣能力。機(jī)器學(xué)習(xí)的研究主旨是使用計(jì)算機(jī)模擬人類的學(xué)習(xí)活動(dòng),它是研究計(jì)算機(jī)識(shí)別現(xiàn)有知識(shí)、獲取新知識(shí)、不斷改善性能和實(shí)現(xiàn)自身完善的方法. 模式識(shí)別(Pat

5、tern Recognition)是指對(duì)表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分。模式識(shí)別的研究的內(nèi)容是指利用計(jì)算機(jī)對(duì)要分析的客觀事物與標(biāo)準(zhǔn)模板的通過某種模式算法,對(duì)其進(jìn)行分類,在錯(cuò)誤概率最小的條件,使識(shí)別到的結(jié)果最接近于待識(shí)別的客觀事實(shí)。先用一定數(shù)量的樣本,根據(jù)它們之間的相似性進(jìn)行分類器設(shè)計(jì),而后用所設(shè)計(jì)的分類器對(duì)待識(shí)別的樣本進(jìn)行分類決策目前模式識(shí)別的主要研究的是提取目標(biāo)的運(yùn)動(dòng)特征,或在此基礎(chǔ)上進(jìn)行對(duì)目標(biāo)的整體的運(yùn)動(dòng)軌跡進(jìn)行研究,2:列出在模式識(shí)別與機(jī)器學(xué)習(xí)中的常用算法及其優(yōu)

6、缺點(diǎn)。1。k-近鄰法近鄰法是一種最簡(jiǎn)單的非參數(shù)模式識(shí)別方法中的模式匹配法,它主要依據(jù)樣本間的多維空間距離來實(shí)現(xiàn)分類.令Dn=x1,x2,xn,其中,每一個(gè)樣本所屬的類別均已知.對(duì)于測(cè)試樣本點(diǎn)x,分類是,在集合Dn中與每個(gè)模板進(jìn)行一一比較,將距離最近的點(diǎn)標(biāo)記為x'.那么,近鄰法就是把點(diǎn)x分為x所屬類別.(1)優(yōu)點(diǎn):算法簡(jiǎn)單,易于理解和分析,分類效果好.(2)缺點(diǎn):大樣本的計(jì)算量大,存儲(chǔ)所有樣本需較大容量,樣本小時(shí)誤差難控制。2. 貝葉斯決策法貝葉斯決策法是基于概率統(tǒng)計(jì)的基本的判別函數(shù)分類法。(1)貝葉斯決策優(yōu)點(diǎn):算法簡(jiǎn)單,易于理解和分析,其基本概念被眾多的先進(jìn)決策算法運(yùn)用,判斷結(jié)果較精確

7、。(2)貝葉斯決策的主要的缺陷:在采用貝葉斯算法之前,要事先收集一定數(shù)量的符合實(shí)際情況的樣本,這樣才能較精確得出先驗(yàn)概率和條件概率。且在實(shí)際生活中,決策表是很難確定的,計(jì)算所需要的損失差數(shù),往往是根據(jù)多位專家根據(jù)實(shí)際具體問題,共同其錯(cuò)誤的決策造成的損失的嚴(yán)重程度來大概確立的。3。 逆向傳播神經(jīng)網(wǎng)絡(luò)其算法在應(yīng)用中的缺點(diǎn)主要如下:(1) 算法的穩(wěn)定性與學(xué)效率成反比.(2) 還沒找到某一明確的規(guī)則確定學(xué)效率的大小,尤其相對(duì)于非線性網(wǎng)絡(luò)來說,學(xué)效率的選擇更是一個(gè)難題.(3) 訓(xùn)練過程也可能陷入局部最小,可以通過變換初始值進(jìn)行多次訓(xùn)練來決絕這個(gè)問題,但又增加了計(jì)算的負(fù)擔(dān)。(4) 沒有有效的方法可以確定網(wǎng)

8、絡(luò)層數(shù),太多或太少都會(huì)影響系統(tǒng)的性能。(5) 收斂于局部極小的較早收斂問題尚未解決主要的優(yōu)點(diǎn)如下:(6) 每個(gè)神經(jīng)元的運(yùn)算功能十分簡(jiǎn)單。(7) 各神經(jīng)元之間是并行結(jié)構(gòu)互使得其具有高速處理能力。(8) 在神經(jīng)網(wǎng)絡(luò)中,知識(shí)與信息的存儲(chǔ)表現(xiàn)為神經(jīng)元之間分布式的物理聯(lián)系,知識(shí)存儲(chǔ)容量很大。(9) 網(wǎng)狀結(jié)構(gòu)似的整個(gè)系統(tǒng)的工作不會(huì)因?yàn)閭€(gè)別的神經(jīng)元的損失而大大降低系統(tǒng)性能。(10) 它可以實(shí)現(xiàn)輸入和輸出數(shù)據(jù)之間的非線性映射。4. 遺傳算法遺傳算法的優(yōu)點(diǎn) 遺傳算法解決了傳統(tǒng)優(yōu)化算法容易誤入局部最優(yōu)解的缺點(diǎn),不用單值迭代,而是從解集合進(jìn)行搜索,利于全局擇優(yōu).遺傳算法需要的參數(shù)少,容易形成通用算法程序. 遺傳算法

9、有極強(qiáng)的容錯(cuò)能力,遺傳算法的初始串集本身就帶有大量與最優(yōu)解甚遠(yuǎn)的信息;該算法具有收斂性,通過選擇、交叉、變異操作能迅速排除與最優(yōu)解相差極大的串。 遺傳算法是采用隨機(jī)方法進(jìn)行最優(yōu)解搜索,選擇體現(xiàn)了向最優(yōu)解迫近,交叉體現(xiàn)了最優(yōu)解的產(chǎn)生,變異體現(xiàn)了全局最優(yōu)解的復(fù)蓋。 力稱為隱含并行性(Implicit Parallelism)。它說明遺傳算法其內(nèi)在具有并行處理的特質(zhì)。 遺傳算法的缺點(diǎn)遺傳算法雖然可以在多種領(lǐng)域都有實(shí)際應(yīng)用,并且也展示了它潛力和寬廣前景;遺傳算法還有大量的問題需要研究,目前也還有各種不足。選取的值范圍大,變量多時(shí),收斂速度也隨之下降,甚至有時(shí)還無法給定取值范圍時(shí)??烧业阶顑?yōu)解附近,但無

10、法精確確定最優(yōu)解位置.遺傳算法的參數(shù)(n,Pm,Pc)選擇還沒準(zhǔn)確的定數(shù),還需要進(jìn)一步研究其數(shù)學(xué)基礎(chǔ)理論.5. 決策樹算法優(yōu)點(diǎn):由于決策樹具有易構(gòu)造、結(jié)構(gòu)簡(jiǎn)單、易于理解、分類精度高,且易于轉(zhuǎn)化成SQI語句有效地存取數(shù)據(jù)庫(kù),易于算法實(shí)現(xiàn)等優(yōu)點(diǎn),決策樹尤其適于數(shù)據(jù)挖掘.描述簡(jiǎn)單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理缺點(diǎn):在學(xué)習(xí)過程中不能有很多背景知識(shí)。是非遞增學(xué)習(xí)算法;ID3決策樹是單變量決策樹,復(fù)雜概念的表達(dá)困難;同性間的相互關(guān)系強(qiáng)調(diào)不夠;抗噪性差。決策樹的這種明確性可能帶來誤導(dǎo)。神經(jīng)網(wǎng)絡(luò)方法神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合解決數(shù)據(jù)挖掘的問

11、題,因此近年來越來越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類:以感知機(jī)、BP反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表的,用于分類、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;以Hopfield的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射方法.神經(jīng)網(wǎng)絡(luò)方法的缺點(diǎn)是"黑箱"性,人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過程。遺傳算法遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。Sunil已成功地開

12、發(fā)了一個(gè)基于遺傳算法的數(shù)據(jù)挖掘工具,利用該工具對(duì)兩個(gè)飛機(jī)失事的真實(shí)數(shù)據(jù)庫(kù)進(jìn)行了數(shù)據(jù)挖掘?qū)嶒?yàn),結(jié)果表明遺傳算法是進(jìn)行數(shù)據(jù)挖掘的有效方法之一。遺傳算法的應(yīng)用還體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合上。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在不增加錯(cuò)誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和BP算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從網(wǎng)絡(luò)提取規(guī)則等.但遺傳算法的算法較復(fù)雜,收斂于局部極小的較早收斂問題尚未解決。決策樹方法決策樹是一種常用于預(yù)測(cè)模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息.它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。最有影響和最早的決策樹方法是由Qui

13、nlan提出的著名的基于信息熵的ID3算法.它的主要問題是:ID3是非遞增學(xué)習(xí)算法;ID3決策樹是單變量決策樹,復(fù)雜概念的表達(dá)困難;同性間的相互關(guān)系強(qiáng)調(diào)不夠;抗噪性差.針對(duì)上述問題,出現(xiàn)了許多較好的改進(jìn)算法,如 Schlimmer和Fisher設(shè)計(jì)了ID4遞增式學(xué)習(xí)算法;鐘鳴,陳文偉等提出了IBLE算法等。 粗集方法粗集理論是一種研究不精確、不確定知識(shí)的數(shù)學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn):不需要給出額外信息;簡(jiǎn)化輸入信息的表達(dá)空間;算法簡(jiǎn)單,易于操作.粗集處理的對(duì)象是類似二維關(guān)系表的信息表。目前成熟的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng),為粗集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。但粗集的數(shù)學(xué)基礎(chǔ)

14、是集合論,難以直接處理連續(xù)的屬性。而現(xiàn)實(shí)信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實(shí)用化的難點(diǎn).現(xiàn)在國(guó)際上已經(jīng)研制出來了一些基于粗集的工具應(yīng)用軟件,如加拿大Regina大學(xué)開發(fā)的KDD-R;美國(guó)Kansas大學(xué)開發(fā)的LERS等。覆蓋正例排斥反例方法它是利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則。首先在正例集合中任選一個(gè)種子,到反例集合中逐個(gè)比較。與字段取值構(gòu)成的選擇子相容則舍去,相反則保留.按此思想循環(huán)所有正例種子,將得到正例的規(guī)則(選擇子的合取式)。比較典型的算法有Michalski的AQ11方法、洪家榮改進(jìn)的AQ15方法以及他的AE5方法。統(tǒng)計(jì)分析方法在數(shù)據(jù)庫(kù)字段

15、項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對(duì)它們的分析可采用統(tǒng)計(jì)學(xué)方法,即利用統(tǒng)計(jì)學(xué)原理對(duì)數(shù)據(jù)庫(kù)中的信息進(jìn)行分析??蛇M(jìn)行常用統(tǒng)計(jì)(求大量數(shù)據(jù)中的最大值、最小值、總和、平均值等)、回歸分析(用回歸方程來表示變量間的數(shù)量關(guān)系)、相關(guān)分析(用相關(guān)系數(shù)來度量變量間的相關(guān)程度)、差異分析(從樣本統(tǒng)計(jì)量的值得出差異來確定總體參數(shù)之間是否存在差異)等.模糊集方法即利用模糊集合理論對(duì)實(shí)際問題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。系統(tǒng)的復(fù)雜性越高,模糊性越強(qiáng),一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。李德毅等人

16、在傳統(tǒng)模糊理論和概率統(tǒng)計(jì)的基礎(chǔ)上,提出了定性定量不確定性轉(zhuǎn)換模型云模型,并形成了云理論。3:請(qǐng)應(yīng)用一種具體的模式識(shí)別與機(jī)器學(xué)習(xí)算法,簡(jiǎn)述解決問題的主要步驟。反向傳播網(wǎng)絡(luò)訓(xùn)練設(shè)計(jì)步驟及算法設(shè)置初始值(初始化訓(xùn)練的樣本集、學(xué)習(xí)速率lr,賦給每個(gè)連接權(quán)值wij和節(jié)點(diǎn)數(shù)的閾值)。輸入一個(gè)隨機(jī)樣本X和期望輸出T。計(jì)算實(shí)際輸出Y,計(jì)算公式見公式(5)(6)。 (5) (6)從輸出層向第一隱層,逐層反向調(diào)整權(quán)值,調(diào)整公式見公式(7)(8)(9)。 (7) (8) (9)轉(zhuǎn) ,重復(fù)執(zhí)行,直到誤差滿足要求為止。遺傳算法步驟:(1) 初始化群體;(2) 計(jì)算群體上每個(gè)個(gè)體的適應(yīng)度值;(3) 按由個(gè)體適應(yīng)度值 所決

17、定的某個(gè)規(guī)則選擇將 進(jìn)入下一代的個(gè)體;(4) 按概率Pc進(jìn)行交叉操作;(5) 按概率Pc進(jìn)行突變操作;(6) 沒有滿足某種停止條件,則轉(zhuǎn)第(2)步,否則進(jìn)入(7)。(7) 輸出種群中適應(yīng)度值最優(yōu)的 染色體作為問題 的滿意解或最優(yōu)解。說明:算法停止條件最簡(jiǎn)單的有如下兩種:完成了預(yù)先給定的進(jìn)化代數(shù)則停止;種群中的最優(yōu)個(gè)體在連續(xù)若干代沒有改進(jìn)或平均適應(yīng)度若干代基本沒有改進(jìn)時(shí)停止。4:在模式識(shí)別與機(jī)器學(xué)習(xí)中,常常需要用已知的數(shù)據(jù)集來訓(xùn)練所建立的模型。如果所建立的模型被說成是overfit,請(qǐng)解釋這是什么意思?請(qǐng)陳述一些避免overfit'的方法。是”過擬合"現(xiàn)象,過擬合主要指訓(xùn)練后的

18、網(wǎng)絡(luò)對(duì)訓(xùn)練樣本(Train sample)具有極高的擬合精度,但是對(duì)工作樣本(Work sample)的預(yù)測(cè)誤差卻非常大.過擬合著重于網(wǎng)絡(luò)的推廣能力(Generalization Ability)問題,即網(wǎng)絡(luò)學(xué)習(xí)能力與推廣能力之間滿足一般測(cè)不準(zhǔn)關(guān)系。1. 測(cè)不準(zhǔn)關(guān)系式中的過擬合參數(shù) P的確定將有助于避免出現(xiàn)"過擬合"現(xiàn)象。 2. 過擬合的解決方法是設(shè)置滿足問題求解精度要求的上限,不要將目標(biāo)誤差設(shè)置太小。個(gè)人認(rèn)為過擬合還與樣本過于冗余有關(guān),采用刪除冗余樣本信息的特征樣本,不僅可以加快訓(xùn)練速度,還可以改善過擬合問題。3. 1。使用初期終止的方法來提高泛化能力。用訓(xùn)練集來訓(xùn)練網(wǎng)絡(luò)

19、,同時(shí)考察網(wǎng)絡(luò)在校驗(yàn)集上的誤差,一旦校驗(yàn)集上的誤差的誤差不再下降(或者累計(jì)n次不再下降),那么就停止訓(xùn)練,這樣可以減輕網(wǎng)絡(luò)過擬合的程度。4. 防止過擬合(overfitting)的方法:(1)按照一定比例在TRAIN函數(shù)導(dǎo)入校驗(yàn)和測(cè)試的VV和VT參數(shù);(2)采用TRAINGDX和LEARNGDM組合訓(xùn)練;(3)采用TRAINBR函數(shù)訓(xùn)練等等,發(fā)現(xiàn)沒有一個(gè)的泛化(GENERALIZATION)效果能很理想的。5。 通過加入擬合函數(shù)的先驗(yàn)知識(shí),加上正則項(xiàng).或是加懲罰項(xiàng)。決策樹對(duì)此歷史數(shù)據(jù)可能非常準(zhǔn)確,一旦應(yīng)用到新的數(shù)據(jù)時(shí)準(zhǔn)確性卻急劇下降,我們稱這種情況為訓(xùn)練過度。為了使得到的決策樹所蘊(yùn)含的規(guī)則具有

20、普遍意義,必須防止訓(xùn)練過度,同時(shí)也減少了訓(xùn)練的時(shí)間。因此我們需要有一種方法能讓我們?cè)谶m當(dāng)?shù)臅r(shí)候停止樹的生長(zhǎng).常用的方法是設(shè)定決策樹的最大高度(層數(shù))來限制樹的生長(zhǎng)。還有一種方法是設(shè)定每個(gè)節(jié)點(diǎn)必須包含的最少記錄數(shù),當(dāng)節(jié)點(diǎn)中記錄的個(gè)數(shù)小于這個(gè)數(shù)值時(shí)就停止分割。5:在模式識(shí)別與機(jī)器學(xué)習(xí)的研究中,還不斷有人提出新的算法。請(qǐng)問有那些方法可以用來判定他們的優(yōu)劣?1. 正確性    說一個(gè)算法是正確的,是指對(duì)于一切合法的輸入數(shù)據(jù),該算法經(jīng)過有限時(shí)間(算法意義上的有限)的執(zhí)行都能產(chǎn)生正確(或者說滿足規(guī)格說明要求)的結(jié)果。2. 時(shí)間復(fù)雜性應(yīng)該怎樣計(jì)算一個(gè)算法的執(zhí)行時(shí)間呢?首先想到的

21、是,我們應(yīng)選擇一種度量,對(duì)解決同一個(gè)問題的諸多算法用該度量可有效地進(jìn)行比較。:(1)它能告訴我們算法所用方法(包括數(shù)據(jù)結(jié)構(gòu))的時(shí)間效率;(2)它與算法描述語言(或程序設(shè)計(jì)語言)及設(shè)計(jì)風(fēng)格無關(guān);(3)它與算法實(shí)現(xiàn)過程中的許多細(xì)節(jié):諸如增加循環(huán)下標(biāo)、計(jì)算數(shù)組下標(biāo)、設(shè)置數(shù)據(jù)結(jié)構(gòu)指針等簿記運(yùn)算無關(guān);(4)它應(yīng)該是足夠精確和具有一般性的。一個(gè)算法的時(shí)間復(fù)雜性是指該算法的基本運(yùn)算次數(shù)。   3。 占用空間算法執(zhí)行需要存儲(chǔ)空間來存放算法本身包含的語句、常數(shù)、變量、輸入數(shù)據(jù)和實(shí)現(xiàn)其運(yùn)算所需的數(shù)據(jù)(如中間結(jié)果等),此外還需要一些工作空間用來對(duì)(以某種方式存儲(chǔ)的)數(shù)據(jù)進(jìn)行操作。4.

22、可讀性    可讀性好的算法有助于設(shè)計(jì)者和他人閱讀、理解、修改和重用。與此相反,晦澀難懂的算法不但容易隱藏較多的錯(cuò)誤,而且增加了人們?cè)陂喿x、理解、調(diào)試、修改和重用算法等方面的困難.5。 堅(jiān)固性     當(dāng)輸入數(shù)據(jù)非法時(shí),算法能適當(dāng)?shù)刈鞒龊线m的反應(yīng).時(shí)間復(fù)雜度算法分析同一問題可用不同算法解決,而一個(gè)算法的質(zhì)量?jī)?yōu)劣將影響到算法乃至程序的效率。算法分析的目的在于選擇合適算法和改進(jìn)算法。一個(gè)算法的評(píng)價(jià)主要從時(shí)間復(fù)雜度和空間復(fù)雜度來考慮。1、時(shí)間復(fù)雜度(1)時(shí)間頻度一個(gè)算法執(zhí)行所耗費(fèi)的時(shí)間,從理論上是不能算出來的,必須上機(jī)運(yùn)行測(cè)試才能知道。但我

23、們不可能也沒有必要對(duì)每個(gè)算法都上機(jī)測(cè)試,只需知道哪個(gè)算法花費(fèi)的時(shí)間多,哪個(gè)算法花費(fèi)的時(shí)間少就可以了。并且一個(gè)算法花費(fèi)的時(shí)間與算法中語句的執(zhí)行次數(shù)成正比例,哪個(gè)算法中語句執(zhí)行次數(shù)多,它花費(fèi)時(shí)間就多。一個(gè)算法中的語句執(zhí)行次數(shù)稱為語句頻度或時(shí)間頻度。記為T(n)。(2)時(shí)間復(fù)雜度在剛才提到的時(shí)間頻度中,n稱為問題的規(guī)模,當(dāng)n不斷變化時(shí),時(shí)間頻度T(n)也會(huì)不斷變化.但有時(shí)我們想知道它變化時(shí)呈現(xiàn)什么規(guī)律.為此,我們引入時(shí)間復(fù)雜度概念。一般情況下,算法中基本操作重復(fù)執(zhí)行的次數(shù)是問題規(guī)模n的某個(gè)函數(shù),用T(n)表示,若有某個(gè)輔助函數(shù)f(n),使得當(dāng)n趨近于無窮大時(shí),T(n)/f(n)的極限值為不等于零的常

24、數(shù),則稱f(n)是T(n)的同數(shù)量級(jí)函數(shù)。記作T(n)=O(f(n)),稱O(f(n)) 為算法的漸進(jìn)時(shí)間復(fù)雜度,簡(jiǎn)稱時(shí)間復(fù)雜度。在各種不同算法中,若算法中語句執(zhí)行次數(shù)為一個(gè)常數(shù),則時(shí)間復(fù)雜度為O(1),另外,在時(shí)間頻度不相同時(shí),時(shí)間復(fù)雜度有可能相同,如T(n)=n2+3n+4與T(n)=4n2+2n+1它們的頻度不同,但時(shí)間復(fù)雜度相同,都為O(n2)。按數(shù)量級(jí)遞增排列,常見的時(shí)間復(fù)雜度有:常數(shù)階O(1),對(duì)數(shù)階O(log2n),線性階O(n),線性對(duì)數(shù)階O(nlog2n),平方階O(n2),立方階O(n3),.。,k次方階O(nk),指數(shù)階O(2n)。隨著問題規(guī)模n的不斷增大,上述時(shí)間復(fù)雜度

25、不斷增大,算法的執(zhí)行效率越低。2、空間復(fù)雜度與時(shí)間復(fù)雜度類似,空間復(fù)雜度是指算法在計(jì)算機(jī)內(nèi)執(zhí)行時(shí)所需存儲(chǔ)空間的度量。記作:S(n)=O(f(n)我們一般所討論的是除正常占用內(nèi)存開銷外的輔助存儲(chǔ)單元規(guī)模。本文為互聯(lián)網(wǎng)收集,請(qǐng)勿用作商業(yè)用途本文為互聯(lián)網(wǎng)收集,請(qǐng)勿用作商業(yè)用途6:如果你所遇到的數(shù)據(jù)集是純數(shù)值型數(shù)據(jù),你會(huì)采用那些模式識(shí)別與機(jī)器學(xué)習(xí)算法?若是包含大量非數(shù)值數(shù)據(jù)你會(huì)采用那些模式識(shí)別與機(jī)器學(xué)習(xí)算法?為什么?純數(shù)值型數(shù)據(jù):貝葉斯決策法,神經(jīng)網(wǎng)絡(luò)非純數(shù)值型數(shù)據(jù):決策樹/1。 k-近鄰法,是一種最簡(jiǎn)單的模式識(shí)別方法中的模式匹配法,它主要依據(jù)樣本間的多維空間距離來實(shí)現(xiàn)分類。2。 貝葉斯決策法是基于概

26、率統(tǒng)計(jì)的基本的判別函數(shù)分類法。只要知道先驗(yàn)概率和條件概率就可以對(duì)樣本進(jìn)行判斷,算法簡(jiǎn)單,易于理解和分析,其基本概念被眾多的先進(jìn)決策算法運(yùn)用,判斷結(jié)果較精確。由于數(shù)據(jù)是純數(shù)值型數(shù)據(jù),數(shù)據(jù)簡(jiǎn)單,樣本間的空間距離易計(jì)算,且先驗(yàn)概率和條件概率易求得.2。 BP神經(jīng)網(wǎng)絡(luò)算法,神經(jīng)網(wǎng)絡(luò)只能處理數(shù)值型數(shù)據(jù)建立神經(jīng)網(wǎng)絡(luò)需要做的數(shù)據(jù)準(zhǔn)備工作量很大. 要想得到準(zhǔn)確度高的模型必須認(rèn)真的進(jìn)行數(shù)據(jù)清洗,整理,轉(zhuǎn)換,選擇等工作,對(duì)任何數(shù)據(jù)挖掘技術(shù)都是這樣,神經(jīng)網(wǎng)絡(luò)尤其注重這一點(diǎn)。比如神經(jīng)網(wǎng)絡(luò)要求所有的輸入變量都必須是0-1(或-1 - +1)之間的實(shí)數(shù),因此像”地區(qū)"之類文本數(shù)據(jù)必須先做必要的處理變成數(shù)值之后才能用作神經(jīng)網(wǎng)絡(luò)的輸入.但每個(gè)神經(jīng)元的運(yùn)算功能十分簡(jiǎn)單.各神經(jīng)元之間是并行結(jié)構(gòu)互使得其具有高速處理能力。在神經(jīng)網(wǎng)絡(luò)中,知識(shí)與信息的存儲(chǔ)表現(xiàn)為神經(jīng)元之間分布式的物理聯(lián)系,知識(shí)存儲(chǔ)容量很大。貝葉斯算法是一種具有最小錯(cuò)誤率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論