機器學習課件_第1頁
機器學習課件_第2頁
機器學習課件_第3頁
機器學習課件_第4頁
機器學習課件_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第七章 機器學習,機器學習是繼專家系統(tǒng)之后人工智能應用的又一重要研究領(lǐng)域,也是人工智能和神經(jīng)計算的核心研究課題之一?,F(xiàn)有的計算機系統(tǒng)和人工智能系統(tǒng)學習能力還非常有限,不能滿足日益發(fā)展更新的科技和應用領(lǐng)域提出的一些新要求。本章首先介紹機器學習的定義、意義和簡史,然后討論機器學習的主要策略和基本結(jié)構(gòu),最后研究目前幾種主流的機器學習的方法與技術(shù),包括機械學習、歸納學習、基于概念的學習、類比學習和基于訓練神經(jīng)網(wǎng)絡(luò)的學習等。對機器學習的討論和機器學習研究的進展,必將促使人工智能和整個科學技術(shù)的進一步發(fā)展。,7.1 機器學習的定義和發(fā)展歷史,7.1.1 機器學習的定義和研究意義 1、機器學習的定義 學習是

2、人類具有的一種重要智能行為,但究竟什么是學習,長期以來卻眾說紛紜。社會學家、邏輯學家和心理學家都各有其不同的看法。按照人工智能大師西蒙的觀點,學習就是系統(tǒng)在不斷重復的工作中對本身能力的增強或者改進,使得系統(tǒng)在下一次執(zhí)行同樣任務或類似任務時,會比現(xiàn)在做得更好或效率更高。西蒙對學習給出的定義本身,就說明了學習的重要作用。 機器能否象人類一樣能具有學習能力呢?1959年美國的塞繆爾(Samuel)設(shè)計了一個下棋程序,這個程序具有學習能力,它可以在不斷的對奕中改善自己的棋藝。4年后,這個程序戰(zhàn)勝了設(shè)計者本人。又過了3年,這個程序戰(zhàn)勝了美國一個保持8年之久的常勝不敗的冠軍。這個程序向人們展示了機器學習的

3、能力,提出了許多令人深思的社會問題與哲學問題。,機器的能力是否能超過人的,很多持否定意見的人的一個主要論據(jù)是:機器是人造的,其性能和動作完全是由設(shè)計者規(guī)定的,因此無論如何其能力也不會超過設(shè)計者本人。這種意見對不具備學習能力的機器來說的確是對的,可是對具備學習能力的機器就值得考慮了,因為這種機器的能力在應用中不斷地提高,過一段時間之后,設(shè)計者本人也不知它的能力到了何種水平。 什么叫做機器學習(machine learning)?至今,還沒有統(tǒng)一的“機器學習”定義,而且也很難給出一個公認的和準確的定義。一般,顧名思義,機器學習是研究如何使用機器來模擬人類學習活動的一門學科。稍為嚴格的提法是:機器學

4、習是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學問,不斷改善性能、實現(xiàn)自我完善的方法。這里所說的“機器”,指的就是計算機;現(xiàn)在是電子計算機,以后還可能是中子計算機、光子計算機或神經(jīng)計算機等等。,2、研究機器學習的意義 機器學習是研究怎樣使用計算機模擬人類學習活動的科學。它是人工智能中最具智能特征、最前沿的研究領(lǐng)域之一。 人的學習是一個相當緩慢而又艱苦的過程,要受到身體成長發(fā)育和生理規(guī)律的限制。而機器學習卻能以驚人的速度進行,甚至不知疲倦,其學習速度是人類所無法比擬的。 人類的知識不具有繼承性,而機器的知識可以具有繼承性。隨著社會和科技的不斷進步,知識以爆炸的形式迅猛增長,這就會使一個人的

5、學習時間越來越長,同時專家前輩的知識的卻無法完全傳授或轉(zhuǎn)讓給其他人。如果機器具有學習功能,就可以把學習不斷地延續(xù)下去,避免了大量的重復學習。,機器學習是人工智能研究較為年輕的分支,它的發(fā)展過程大體上可分為4個時期。 第一階段是在50年代中葉到60年代中葉,屬于熱烈時期。在這個時期,所研究的是 “無知”學習;其研究目標是各類自組織系統(tǒng)和自適應系統(tǒng)。 第二階段在60年代中葉至70年代中葉,被稱為機器學習的冷靜時期。本階段研究模擬人類的概念學習過程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機器內(nèi)部描述,沒有取得實質(zhì)進展。 第三階段從70年代中葉至80年代中葉,稱為復興時期。1980,在美國的卡內(nèi)基梅隆大學召開了第

6、一屆機器學習國際研討會,標志著機器學習研究已在全世界興起,探索不同的學習策略和各種學習方法。 機器學習的最新階段始于1986年。由于神經(jīng)網(wǎng)絡(luò)研究的重新興起,另一方面,對實驗研究和應用研究得到前所未有的重視。,7.1.2 機器學習的發(fā)展史,機器學習進入新階段的重要表現(xiàn)在下列諸方面: (1) 機器學習已成為新的邊緣學科并在高校形成一門課程。它綜合應用心理學、生物學和神經(jīng)生理學以及數(shù)學、自動化和計算機科學形成機器學習理論基礎(chǔ)。 (2) 結(jié)合各種學習方法,取長補短的多種形式的集成學習系統(tǒng)研究正在興起。 (3) 機器學習與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點正在形成。例如學習與問題求解結(jié)合進行、知識表達便于

7、學習的觀點產(chǎn)生了通用智能系統(tǒng)SOAR的組塊學習。 (4) 各種學習方法的應用范圍不斷擴大,一部分已形成商品。歸納學習的知識獲取工具已在診斷分類型專家系統(tǒng)中廣泛使用。神經(jīng)網(wǎng)絡(luò)的連接學習在聲音、圖文識別中占優(yōu)勢。遺傳算法與強化學習在工程控制中有較好的應用前景。 (5) 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的研究已形成熱潮。 (6) 與機器學習有關(guān)的學術(shù)活動空前活躍。國際上每年一次的機器學習研討會,還有計算機學習理論會議和遺傳算法會議。,7. 2 機器學習的主要策略和基本結(jié)構(gòu),7.2.1 機器學習的主要策略 學習是一項復雜的智能活動,學習過程與推理過程是緊密相連的,按照學習中使用推理的多少,機器學習所采用的策略大體上

8、可分為4種機械學習、示教學習、類比學習和示例學習。學習中所用的推理越多,系統(tǒng)的能力越強。 機械學習就是記憶,是最簡單的學習策略。這種學習策略不需要任何推理過程。 比機械學習更復雜一點的學習是示教學習策略。系統(tǒng)在接受外部知識時需要一點推理,翻譯和轉(zhuǎn)化工作。 類比學習系統(tǒng)只能得到完成類似任務的有關(guān)知識。因此,他比上述兩種學習策略需要更多的推理。 采用示例學習策略的計算機系統(tǒng),事先完全沒有完成任務的任何規(guī)律性的信息,系統(tǒng)需要對例子及經(jīng)驗進行分析、總結(jié)和推廣,得到完成任務的一般性規(guī)律,因此需要推理是最多的。,7.2.2 機器學習系統(tǒng)的基本結(jié)構(gòu),我們以西蒙的機器學習定義做為出發(fā)點,建立起下圖所示的簡單的

9、學習模型,然后通過對這個簡單模型的討論,總結(jié)出設(shè)計學習系統(tǒng)應當注意的某些總的原則。,上圖表示學習系統(tǒng)的基本結(jié)構(gòu)。環(huán)境向系統(tǒng)的學習部分提供某些信息,學習部分利用這些信息修改知識庫,以增進系統(tǒng)執(zhí)行部分完成任務的效能,執(zhí)行部分根據(jù)知識庫完成任務,同時把獲得的信息反饋給學習部分。具體的應用中,環(huán)境,知識庫和執(zhí)行部分決定了具體的工作內(nèi)容,學習部分所需要解決的問題完全由上述3部分確定。下面分別敘述這4部分對設(shè)計學習系統(tǒng)的影響。,影響學習系統(tǒng)設(shè)計的最重要的因素是環(huán)境向系統(tǒng)提供的信息。它可以是系統(tǒng)的工作對象,也可以包括工作對象和外界條件。例如,在控制系統(tǒng)中,環(huán)境就是生產(chǎn)流程或受控的設(shè)備;在計算機故障維修系統(tǒng)中

10、,環(huán)境就是待修計算機當前的癥狀以及與損壞狀態(tài)相關(guān)的操作情況。如何構(gòu)造高質(zhì)量、高水平的信息,將對學習系統(tǒng)獲取知識的能力產(chǎn)生很大影響。如果信息的質(zhì)量比較高,與一般原則的差別比較小,則學習部分比較容易處理。如果向?qū)W習系統(tǒng)提供的是雜亂無章的指導執(zhí)行具體動作的具體信息,則學習系統(tǒng)需要在獲得足夠數(shù)據(jù)之后,刪除不必要的細節(jié),進行總結(jié)推廣,形成指導動作的一般原則,放入知識庫,這樣學習部分的任務就比較繁重,設(shè)計起來也較為困難。 學習環(huán)節(jié)通過對環(huán)境的搜索獲得外部信息,并將這些信息與執(zhí)行環(huán)節(jié)所反饋的信息進行比較。一般情況下,環(huán)境提供的信息水平與執(zhí)行環(huán)節(jié)所需的信息水平之間往往有差距,經(jīng)分析、綜合、類比、歸納等思維過程

11、,學習環(huán)節(jié)就要從這些差距中獲取相關(guān)對象的知識,并將知識存入知識庫。,知識庫是影響學習系統(tǒng)設(shè)計的第二個因素。知識的表示有多種形式,比如特征向量、一階邏輯語句、產(chǎn)生式規(guī)則、語義網(wǎng)絡(luò)和框架等等。這些表示方式各有其特點,在選擇表示方式時要兼顧以下4個方面:(1)表達能力強;(2)易于推理;(3)容易修改知識庫;(4)知識表示易于擴展。 學習系統(tǒng)不能在全然沒有任何知識的情況下憑空獲取知識,每一個學習系統(tǒng)都要求具有某些知識理解環(huán)境提供的信息,分析比較,做出假設(shè),檢驗并修改這些假設(shè)。因此,更確切地說,學習系統(tǒng)是對現(xiàn)有知識的擴展和改進。 執(zhí)行環(huán)節(jié)是整個學習系統(tǒng)的核心。因為學習系統(tǒng)獲得的信息往往是不完全的,所以

12、學習系統(tǒng)所進行的推理并不完全是可靠的,它總結(jié)出來的規(guī)則可能正確,也可能不正確。這要通過執(zhí)行效果加以檢驗。將評價的結(jié)果反饋回學習環(huán)節(jié),以便系統(tǒng)進一步地學習。正確的規(guī)則能使系統(tǒng)的效能提高,應予保留;不正確的規(guī)則應予修改或從數(shù)據(jù)庫中刪除。,7.3 機械學習,1. 機械學習模式 機械學習是最簡單的機器學習方法。機械學習就是記憶,即把新知識存儲起來,供需要時檢索調(diào)用,無需計算和推理。 機械學習又是最基本的學習過程。任何學習系統(tǒng)都必須記住它們獲取的知識。 當機械學習系統(tǒng)的執(zhí)行部分解決問題之后,系統(tǒng)就記住該問題及其解。因此可把學習系統(tǒng)的執(zhí)行部分抽象地看成某個函數(shù),該函數(shù)在得到自變量輸入值(X1,X2,Xn)

13、之后,計算并輸出函數(shù)值(Y1,Y2,Yp)。機械學習在存儲器中簡單地記憶存儲對(X1,X2,Xn),(Y1,Y2,Yp)。當需要計算f(X1,X2,Xn)時,執(zhí)行部分就從存儲器中把(Y1,Y2,Yp)檢索出來而不是重新計算它。這種簡單的學習模式如下:,作為例子,我們考慮一個決定受損汽車修理費用的汽車保險程序。這個程序的輸入是被損壞的汽車的描述,包括制造廠家、生產(chǎn)年代、汽車的種類以及記錄汽車損壞部位和損壞程度的一個表,程序的輸出是保險公司應付的修理費用。這個系統(tǒng)是一個機械記憶系統(tǒng)。為了估算損壞汽車的修理的費用,程序系統(tǒng)必須在存儲器中查找同一廠家、同一生產(chǎn)年代、損壞的部位和程度相同的汽車,然后把對

14、應的費用提交給用戶。如果系統(tǒng)沒有發(fā)現(xiàn)這樣的汽車,則它使用保險公司的賠償規(guī)則估算出一個修理費用,然后把廠家、生產(chǎn)日期和損壞情況等特征估算出的費用保存起來,以便將來查找使用。,人工智能專家萊納特,羅思等人針對機械學習提出了一種有趣的觀點:把機械學習看成是數(shù)據(jù)化簡分級中的第一級。即在機械學習中只記憶計算的輸入輸出,忽略計算過程,這樣就把計算問題簡化成存取問題,見下圖,像計算問題可以簡化成存取問題一樣,其它推理過程也可以簡化成較為簡單的任務。例如第一次解一個一元二次方程的時候,必須使用很長的一段推導才能得出方程的求根公式。一旦有了求根公式,以后再解一元二次方程,就不必重復以前的推導過程,可以直接使用求

15、根公式計算出根,這樣就把推導問題簡化成計算問題。同樣,歸納過程可以簡化成推導過程。,2. 機械學習的主要問題 對于機械學習,需要注意3個重要的問題:存儲組織,穩(wěn)定性和存儲與計算之間的權(quán)衡。 (a) 存儲組織信息。采用適當?shù)拇鎯Ψ绞?,使檢索速度盡可能地快,是機械學習中的重要問題。在數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)庫領(lǐng)域,為提高檢索速度,人們研究了許多卓有成效的數(shù)據(jù)存儲方式,如索引、排序、雜湊等等。 (b) 環(huán)境的穩(wěn)定性與存儲信息的適用性問題。在急劇變化的環(huán)境下機械學習策略不適用。機械學習的一個重要假定是在某一時刻存儲的信息必須適用于后來的情況。例如,在保險公司確定被損壞汽車的修理費用的程序中,20世紀80年代收集

16、保存的有關(guān)汽車特征和修理費用的情況,到了本世紀被就很少適用了。因此,機械學習系統(tǒng)必須保證所保存的信息適應于外界環(huán)境變化的需要。目前已經(jīng)有一些解決辦法:一是密切監(jiān)視外界環(huán)境的變化,不斷保持信息更新;其次是核對,即在檢索某一信息的時候核對一下外界環(huán)境的有關(guān)條件,看看所檢索的信息是否仍適用。,(c) 存儲與計算之間的權(quán)衡。因為機械學習的根本目的是改進系統(tǒng)的執(zhí)行能力,因此對于機械學習來說很重要的一點是它不能降低系統(tǒng)的效率。比方說,如果檢索一個數(shù)據(jù)比重新計算一個數(shù)據(jù)所花的時間還要多,那么機械學習就失去了意義。 這種存儲與計算之間的權(quán)衡問題的解決方法有兩種。一種方法是估算一下存儲信息所要花費的存儲空間以及

17、檢索信息時所花費的時間,然后將其代價與重新計算所花的代價比較,再決定存儲信息是否有利。另一種方法是把信息先存儲起來,但為了保證有足夠的檢索速度,限制了存儲信息的量,系統(tǒng)只保留那些最常使用的信息,“忘記”那些不常使用的信息。這種方法也叫“選擇忘卻”技術(shù)。,歸納(induction)是人類拓展認識能力的重要方法,是一種從個別到一般的,從部分到整體的推理行為。 歸納推理是應用歸納方法,從足夠多的具體事例中歸納出一般性知識,提取事物的一般規(guī)律;是一種從個別到一般的推理。 歸納學習(induction learning)是應用歸納推理進行學習的一種方法。根據(jù)歸納學習有無教師指導,可把它分為示例學習和觀察

18、與發(fā)現(xiàn)學習。前者屬于有師學習,后者屬于無師學習。 由于在進行歸納時,多數(shù)情況下不可能考察全部有關(guān)的事例,因而歸納出的結(jié)論不能絕對保證它的正確性,只能以某種程度相信它為真,這是歸納推理的一個重要特征,歸納推理不是保真的(前提為真,結(jié)論不一定為真)。,7.4 歸納學習,7.4.1 歸納學習的模式和規(guī)則 除了窮盡歸納和數(shù)學歸納以外,一般的歸納推理只是保假的。即歸納依據(jù)的前提為假,那么結(jié)論也是假的,但前提正確時結(jié)論也不一定正確。 1. 歸納學習的一般模式 給定: (1) 觀察陳述(事實)F,用以表示有關(guān)某些對象、狀態(tài)、過程等的特定知識; (2) 假定的初始歸納斷言(可能為空); (3) 背景知識,用于

19、定義有關(guān)觀察陳述、候選歸納斷言以及任何相關(guān)問題領(lǐng)域知識、假設(shè)和約束,其中包括能夠刻畫所求歸納斷言的性質(zhì)的優(yōu)先準則。 求:歸納斷言(假設(shè))H,能重言蘊涵或弱蘊涵觀察陳述,并滿足背景知識。,假設(shè)H永真蘊涵事實F,說明F是H的邏輯推理,則有: H | F (讀作H特殊化為F) 另一種形式: F | H (讀作F一般化或消解為H) 這里,從H推導F是演繹推理,因此是保真的;而從事實F推導出假設(shè)H是歸納推理,因此不是保真的,而是保假的。 2. 歸納概括規(guī)則 在歸納推理過程中,需要引用一歸納規(guī)則。這些規(guī)則分為選擇性概括規(guī)則和構(gòu)造性概括規(guī)則。令和分別為歸納前后的知識描述,則歸納是。如果只對中基本單元(謂詞子

20、句的謂詞)有所取舍,或改變連接關(guān)系,那么就是選擇性概括。若 中有新的描述基本單元(如反映各單元間的某種關(guān)系的新單元),那么就稱之為構(gòu)造性概括。兩種概括規(guī)則的主要區(qū)別:后者能夠構(gòu)造新的描述符或?qū)傩?。設(shè),表示任意描述項,表示結(jié)論,則有如下幾條常用的選擇性概括規(guī)則:,(1)取消部分條件 其中,是對事例的一種限制,這種限制可能是不必要的,只是聯(lián)系著具體事物的某些無關(guān)特性,因此可以去除。例如: 示例1:花色(C1,梅花)點數(shù)(C1,3)花色(C2,梅花)點數(shù)(C2,5)花色(C3,梅花)點數(shù)(C3,8)花色(C4,梅花)點數(shù)(C4,10)花色(C5,梅花)點數(shù)(C5,K)同花(C1,C2,C3,C4,C

21、5) 可以去掉所有的“點數(shù)”謂詞,因為“點數(shù)”謂詞對形成“同花”概念不存在直接的影響。 (2)放松條件 () 一個事例的原因可能不只一個,當出現(xiàn)新的原因時,應該把新原因包含進去。這條規(guī)則的一種特殊用法是擴展的取值范圍。如將一個描述單元項擴展為。,例如,要程序?qū)W習“人面牌”的概念,“人面牌”是指點數(shù)為J、Q、K的牌。提供的兩個正例是: 示例2:點數(shù)(C1,J)人面牌(C1) 示例3:點數(shù)(C1,K)人面牌(C1) 將兩個示例的前件進行析取合并后等價地得到: 點數(shù)(C1,J)點數(shù)(C1,K)人面牌(C1) 如果在析取條件中再增加一種選擇(即增加一個新的析取項),就可以形成一條規(guī)則。 規(guī)則1:點數(shù)(

22、C1,J)點數(shù)(C1,Q)點數(shù)(C1,K)人面牌(C1) (3)沿概念樹上溯 其中,是一種結(jié)構(gòu)性的描述項,代表所有條件中的值在概念分層樹上最近的共同祖先。這是一種從個別推論總體的方法。,例如:人很聰明,猴子比較聰明,猩猩也比較聰明,人、猴子、猩猩都屬于動物分類中的靈長目。因此,利用這種歸納方法可以推出結(jié)論:靈長目的動物都很聰明的。 (4)形成閉合區(qū)域 其中,是一種具有線性關(guān)系的描述項,是它的特殊值。這條規(guī)則實際上是一種選取極端情形,再根據(jù)極端情形下的特性來進行歸納的方法。 例如,在溫度為攝氏5度時,水不結(jié)冰,處于液態(tài);在溫度為攝氏80度時,水也不結(jié)冰,處于液態(tài)。由此可推出:溫度在攝氏5到80度

23、之間時,水都不結(jié)冰,都處于液態(tài)。 (5)將常量轉(zhuǎn)化成變量 該規(guī)則只從事例中提取各描述項間的某種相互關(guān)系,忽略其他關(guān)系信息。該關(guān)系表現(xiàn)為同一關(guān)系,即變量描述同一事物。,假設(shè)例子空間中有兩個學習撲克牌中“同花”概念的示例。 示例4:花色(C1,梅花)花色(C2,梅花)花色(C3,梅花)花色(C4,梅花)花色(C5,梅花)同花(C1,C2,C3,C4,C5) 示例5:花色(C1,紅桃)花色(C2,紅桃)花色(C3,紅桃)花色(C4,紅桃)花色(C5,紅桃)同花(C1,C2,C3,C4,C5) 其中示例1表示五張可梅花牌是同花,示例2表示五張紅桃是同花。把常量“梅花”和“紅桃”換成變量(代表任何花色)

24、,就歸納出一條假設(shè)的規(guī)則。 規(guī)則2:花色(C1,)花色(C2,)花色(C3,)花色(C4,)花色(C5,)同花(C1,C2,C3,C4,C5) 上述方法中 “取消部分條件”就是去掉合取項,也就是去掉部分約束;“放松條件”就是增加析取項;“把常量化成變量”是一種由具體到一般的演變或歸納。,方法2和5都是直接擴大范圍,但方法2較弱,歸納較慢,不易出錯;方法5更強,歸納過快,更容易出錯。例如,對示例2和3使用方法5就會得到下列錯誤的規(guī)則。 規(guī)則3:點數(shù)(C1,)人面牌(C1)(錯誤) 這個結(jié)果說明歸納過程很容易出錯,因為歸納推理不是保真的,是保假的。這就是說,如果前提為真,則由歸納推理得到的結(jié)果不一

25、定為真。因此,歸納過程就是一種搜索過程,在歸納過程中,出現(xiàn)錯誤后要及時進行回溯。,7.4.1 歸納學習方法 1.示例學習 示例學習(Learning from examples)又稱為實例學習或從例子中學習,它是通過從環(huán)境中取得若干與某概念有關(guān)的例子,經(jīng)歸納得出一般性概念的一種學習方法。在這種學習方法中,外部環(huán)境(教師)提供的是一組例子(正例和反例),這些例子實際上是一組特殊的知識,每一個例子表達了僅適用于該例子的知識,示例學習就是要從這些特殊知識中歸納出適用于更大范圍的一般性知識,它將覆蓋所有的正例并排除所有反例。例如,如果我們用一批動物作為示例,并且告訴學習系統(tǒng)哪一個動物是“馬”,哪一個動

26、物不是,當示例足夠多時,學習系統(tǒng)就能概括出關(guān)于“馬”的概念模型,使自己能識別馬,并且能把馬與其它動物區(qū)別開來,這一學習過程就是示例學習。,例,表7.1(書本186頁)給出肺炎與肺結(jié)核兩種病的部分病例。每個病例都含有5種癥狀:發(fā)燒(無、低、高),咳嗽(輕微、中度、劇烈),X光所見陰影(點狀、索條狀、片狀、空洞)、血沉(正常、快),聽診(正常、干鳴音、水泡音)。 通過示例學習,可以從病例中歸納產(chǎn)生如下的診斷規(guī)則: (1)血沉正常(聽診干鳴音水泡音)診斷肺炎 (2)血沉快診斷肺結(jié)核 2.觀察與發(fā)現(xiàn)學習 觀察與發(fā)現(xiàn)學習分觀察學習與機器發(fā)現(xiàn)。前者對事例進行概念聚類,形成概念描述;后者用于發(fā)現(xiàn)規(guī)律,產(chǎn)生定

27、律或規(guī)則。 (1) 概念聚類 概念聚類是觀察學習研究中的一個重要方法和技術(shù),是由米卡爾斯基(RSMichalski)在1980年首先提出來的,其基本思想是把事例按一定的方式和準則進行分組,如劃分為不同的類,不同的層次等,使不同的組代表不同的概念,并且對每一個組進行特征概括,得到一個概念的語義符號描述。,例如,對如下事例: 喜鵲、麻雀、布谷鳥、烏鴉、雞、鴨、鵝, 可根據(jù)它們是否家養(yǎng)分為如下兩類: 鳥喜鵲、麻雀、布谷鳥、烏鴉, 家禽雞、鴨、鵝, 這里,“鳥”和“家禽”就是由分類得到的新概念,而且根據(jù)相應動物的特征還可得知: “鳥有羽毛、有翅膀、會飛、會叫、野生” “家禽有羽毛、有翅膀、不會飛、會叫

28、、家養(yǎng)” 如果把它們的共同特性抽取出來,可進一步形成“鳥類”的概念。 (2) 機器發(fā)現(xiàn) 機器發(fā)現(xiàn)是指從觀察的事例或經(jīng)驗數(shù)據(jù)中歸納出規(guī)律或規(guī)則,這是最困難且最富創(chuàng)造性的一種學習。它可分為經(jīng)驗發(fā)現(xiàn)與知識發(fā)現(xiàn)兩種,前者指從經(jīng)驗數(shù)據(jù)中發(fā)現(xiàn)規(guī)律和定律,后者是指從已觀察的事例中發(fā)現(xiàn)新的知識。,類比(analogy)是一種很有用的和有效的推理方法,它能夠清晰簡潔地描述對象間的相似性;同時,也是人類認識世界的一種重要方法,許多發(fā)明和發(fā)現(xiàn)就是通過類比學習獲得的。例如,盧瑟福將原子結(jié)構(gòu)和太陽系進行類比,發(fā)現(xiàn)了原子結(jié)構(gòu),水管中的水壓計算公式和電路中電壓計算公式相似等等。 7.5.1 類比推理和類比學習形式 類比推理

29、是在兩個相似域之間進行的;一個已經(jīng)認識的域,它包括過去曾經(jīng)解決過且與當前問題類似及相關(guān)知識,稱為源域S;另一個是尚未完全認識的域,它是待解決的新問題,稱為目標域T。類比推理的目的是從源域S中選出與當前問題最近似的部分及其求解方法來解決目標域T中的問題,或者建立起目標域中已有命題間的聯(lián)系,形成新知識。,7.5 類比學習,設(shè)用與分別表示源域S與目標域T中的某一情況或性質(zhì),且與相似;再性質(zhì)與相關(guān),則由類比推理過程可推出T也具有性質(zhì),且與相似。其推理過程如下: (1) 回憶與聯(lián)想 遇到新情況或新問題時,首先通過回憶與聯(lián)想在源域S中找出與當前情況相似的一些情況,這些情況是過去已經(jīng)處理過的,有現(xiàn)成的解決方

30、法及相關(guān)的知識。 (2) 選擇 從找出的相似情況中選出與當前情況最相似的情況及其有關(guān)知識。 (3) 建立對應映射 在源域S與目標域T的相似情況之間建立相似元素的對應關(guān)系,并建立起相應的映射。 (4) 轉(zhuǎn)換 在上一步建立的映射下,把S中的有關(guān)知識引到T中來,從而建立起求解當前問題的方法或者學習到關(guān)于T的新知識。,下面對類比學習給出形式說明: 兩個具有相同或相似性質(zhì)的論域:源域S和目標域T,已知S中的元素和T中的元素具有相似的性質(zhì),即 (這里表示相似),還具有性質(zhì),即 ,且有。根據(jù)類比推理,則T中的元素也具有性質(zhì),即: , 其中,符號表示類比推理。 類比學習采用類比推理,其一般步驟如下: (1)找

31、出源域S與目標域T的相似性質(zhì),找出源域中另一個性質(zhì)和性質(zhì)對元素的關(guān)系: 。 (2)在源域中推廣和的關(guān)系為一般關(guān)系,即對于所有的變量來說,存在。 (3)由源域S和目標域T之間的映射關(guān)系(相似性),得到目標域T的新性質(zhì),即目標域T的所有變量,存在 。 (4)利用假言推理: , ,通過置換最后得出目標域T中的元素具有性質(zhì)。,上述步驟可見,類比學習實際上是演繹學習和歸納學習的組合。步驟2是一個歸納過程,即從個別現(xiàn)象推斷出一般規(guī)律;而步驟4則是一個演繹過程,即從一般規(guī)律找出個別現(xiàn)象。 7.5.2 類比學習過程與研究類型 類比學習主要包括如下四個過程: (1) 輸入一組已知條件(已解決問題)和一組未完全確

32、定的條件(新問題)。 (2) 對輸入的兩組條件,根據(jù)其描述,按某種相似性的定義尋找兩者可類比的對應關(guān)系。 (3) 按相似變換的方法,將已有問題的概念、特性、方法、關(guān)系等映射到新問題,以獲得待求解新問題所需的新知識。 (4) 對類推得到的新問題的知識進行校驗。驗證正確的知識存入知識庫中,而暫時還無法驗證的知識只能作為參考性知識,置于數(shù)據(jù)庫中。,基于解釋的學習,是20世紀80年中期開始興趣的一種機器學習方法。解釋學習根據(jù)任務所在領(lǐng)域知識和正在學習的概念知識,對當前實例進行分析和求解,得出一個表征求解過程的因果解釋樹,以獲取新的知識。在獲取新知識的過程中,通過對屬性、表征現(xiàn)象和內(nèi)存關(guān)系等進行解釋而學

33、習到新的知識。 7.6.1 解釋學習過程和算法 解釋學習一般包括下列3個步驟: (1) 利用基于解釋的方法對訓練例子進行分析與解釋。 (2) 對例子的結(jié)構(gòu)進行概括性解釋。 (3) 從解釋結(jié)構(gòu)中識別出訓練例子的特性,獲取一般控制知識。 1986年米切爾(Mitchell)等人為基于解釋的學習提出了一個統(tǒng)一的算法EBG,該算法建立了基于解釋的概括過程,并運用知識的邏輯表示和演繹推理進行問題求解。如下圖所示:,7.6 解釋學習,EBG求解問題的形式可描述于下: 給定: (1) 目標概念(要學習的概念)描述TC; (2) 訓練實例(目標概念的一個實例)TE; (3) 領(lǐng)域知識(由一組規(guī)則和事實組成的用

34、于解釋訓練實例的知識庫)DT; (4) 操作準則(說明概念具有的形式化謂詞公式)OC。 求解:訓練實例的一般化概括,使之滿足: (1) 目標概念的充分概括描述TC; (2) 操作準則OC。,其中,訓練實例TE應能地說明目標概念TC。操作準則用于指導學習系統(tǒng)對目標概念進行取舍,使得通過學習產(chǎn)生TC的關(guān)于目標概念的一般性描述成為可用的一般性知識。 7.6.2 解釋學習舉例 例子:通過解釋學習獲得一個物體(x)可安全放置到另一個物體(y)上的概念。(書本190頁例7.2,圖7.5解釋證明樹),神經(jīng)網(wǎng)絡(luò)的基本概念、結(jié)構(gòu)和工作原理已經(jīng)在第4章介紹過。本節(jié)將討論通過訓練神經(jīng)網(wǎng)絡(luò)(neural nets)的

35、學習問題: (1)神經(jīng)網(wǎng)絡(luò)是如何通過反向傳播(Back Propagation,簡稱BP)進行學習,以及模擬神經(jīng)網(wǎng)絡(luò)是如何改善學習特性的。 (2)Hopfield網(wǎng)絡(luò)是如何進行學習的。 7.7.1 基于反向傳播網(wǎng)絡(luò)的學習 反向傳播(backpropagation,BP)算法是一種計算連接權(quán)值變化引起網(wǎng)絡(luò)性能變化的較為簡單的方法。由于BP算法包含從輸出節(jié)點開始,反向地向第一隱含層(即最接近輸入層的隱含層)傳播由總誤差引起的權(quán)值修正,所以稱為“反向傳播”。,7.7 神經(jīng)學習,1.反向傳播網(wǎng)絡(luò)的結(jié)構(gòu) 魯梅爾哈特(Rumelhart)和麥克萊蘭(Meclelland)于1985年發(fā)展了BP網(wǎng)絡(luò)學習算法

36、,實現(xiàn)了明斯基的多層網(wǎng)絡(luò)設(shè)想。BP網(wǎng)絡(luò)不僅含有輸入節(jié)點和輸出節(jié)點,而且含有一層或多層隱(層)節(jié)點,如圖7.6所示。輸入信號先向前傳遞到隱節(jié)點,經(jīng)過作用后,再把隱節(jié)點的輸出信息傳遞到輸出節(jié)點,最后給出輸出結(jié)果。各層節(jié)點的激發(fā)函數(shù)一般選用S型函數(shù)。 BP算法的學習過程由正向傳播和反向傳播組成。在正向傳播過程中,輸入信息從輸入層經(jīng)隱單元層逐層處理后,傳至輸出層。每一層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。如果在輸出層得不到期望輸出,那么就轉(zhuǎn)為反向傳播,把誤差信號沿原連接路徑返回,并通過修改各層神經(jīng)元的權(quán)值,使誤差信號最小。,BP網(wǎng)絡(luò)圖,智能信息處理的瓶頸問題知識獲取,隨著數(shù)據(jù)庫技術(shù)和計算機網(wǎng)絡(luò)技術(shù)的

37、發(fā)展,全世界的數(shù)據(jù)庫和計算機網(wǎng)絡(luò)中所存儲的數(shù)據(jù)量極為宏大,堪稱海量數(shù)據(jù),且呈日益擴大之勢。在某一領(lǐng)域的海量數(shù)據(jù)里,數(shù)據(jù)彼此間可能存在某種關(guān)系或規(guī)律等重要信息,人們需要借助新的思路和技術(shù),對如此龐大的數(shù)據(jù)進行高級處理,從中尋找和發(fā)現(xiàn)某些規(guī)律和模式和有用信息,以幫助企業(yè)、科研團體和政府部門作出正確的決策。機器學習能夠通過對數(shù)據(jù)及其關(guān)系的分析,提取出隱含在海量數(shù)據(jù)中的知識。數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Database,簡稱KDD)技術(shù)就是在這種背景下應運而生的。,7.8 知識發(fā)現(xiàn),7.8.1 知識發(fā)現(xiàn)的定義和發(fā)展 1.知識發(fā)現(xiàn)的產(chǎn)生和發(fā)展 數(shù)據(jù)庫知識發(fā)現(xiàn)最早是于19

38、89年8月在第11屆國際人工智能聯(lián)合會議的專題討論會上提出,其目的就是用機器學習的方法來分析數(shù)據(jù)庫管理系統(tǒng)中所存儲的數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)則與知識,以解決“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。從此以后,有關(guān)知識發(fā)現(xiàn)的研究在全球迅速展開。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上已設(shè)立了不少研究KDD的網(wǎng)站、論壇和新聞報導。在研究的基礎(chǔ)上,也出現(xiàn)一些KDD產(chǎn)品和應用系統(tǒng),引起企業(yè)界的關(guān)注。,2.數(shù)據(jù)挖掘的定義:在數(shù)據(jù)庫中的知識發(fā)現(xiàn)是從大量數(shù)據(jù)中辨識出可信的、有效的、新穎的、潛在有用的、并可被理解的模式的高級處理過程。 (1)數(shù)據(jù)集:是指一個有關(guān)事實F的集合,它是用來描述事物有關(guān)方面的信息,是進一步發(fā)現(xiàn)知識的原材料。 (2)新穎:經(jīng)過知識發(fā)現(xiàn)提取出的模式必須是新穎的。 (3)潛在有用:提取出的模式應該是有意義的,這可以通過某些函數(shù)的值來衡量。 (4)可被人理解:知識發(fā)現(xiàn)的一個目標就是將數(shù)據(jù)庫中隱含的模式以容易被人理解的形式表現(xiàn)出來,從而幫助人們更好地了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論