




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第五章 機器學(xué)習(xí),一、概述 二、主要策略與基本結(jié)構(gòu) 三、常用的學(xué)習(xí)方法 四、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)方法 五、數(shù)據(jù)挖掘開發(fā)工具簡介,當(dāng)前人工智能和神經(jīng)計算的核心研究課題之一,教學(xué)要求,了解機器學(xué)習(xí)的定義、發(fā)展史及意義; 理解掌握機器學(xué)習(xí)的基本結(jié)構(gòu); 理解常用機器學(xué)習(xí)的方法原理; 初步了解數(shù)據(jù)挖掘及知識發(fā)現(xiàn)的知識,第五章 機器學(xué)習(xí),一、概述 定義、發(fā)展史、意義等 二、主要策略與基本結(jié)構(gòu) 三、常用的學(xué)習(xí)方法 四、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)方法 五、數(shù)據(jù)挖掘開發(fā)工具簡介,1 機器學(xué)習(xí)的定義,什么是機器學(xué)習(xí)? Simon(1983):學(xué)習(xí)就是系統(tǒng)中的變化,這種變化使系統(tǒng)比以前更有效地去做同樣的工作。 Minsky
2、(1985):學(xué)習(xí)是在我們頭腦中(心里)進(jìn)行有用的變化。 學(xué)習(xí)是一種具有多側(cè)面的現(xiàn)象。學(xué)習(xí)的過程有:獲取新的陳述性知識、通過教育或?qū)嵺`發(fā)展機械技能和認(rèn)知能力、將新知識組織成為通用化和有效的表達(dá)形式、借助觀察和實驗發(fā)現(xiàn)新的事實和新的理論,基本形式 知識獲取和技能求精。 學(xué)習(xí)的本質(zhì)就是獲取新的知識。包括物理系統(tǒng)和行為的描述和建模,構(gòu)造客觀現(xiàn)實的表示。 知識獲取,通過實踐逐漸改造機制和認(rèn)知技能。 例:騎自行車。這些技能包括意識的或機制的協(xié)調(diào)。這種改進(jìn)又是通過反復(fù)實踐和從失敗的行為中糾正偏差來進(jìn)行的。 技能求精,知識獲取的本質(zhì)可能是一個自覺的過程,其結(jié)果是產(chǎn)生新的符號知識結(jié)構(gòu)和智力模型。 技能求精是下
3、意識地借助于反復(fù)地實踐來實現(xiàn)的,機器學(xué)習(xí)是研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能,2 為什么要研究機器學(xué)習(xí)? 人工智能主要是為了研究人的智能,模仿其機理將其應(yīng)用于工程的科學(xué)。在這個過程中必然會問道:“人類怎樣做才能獲取這種特殊技能 (或知識)?”。 例子:機器人跳舞 機器人演奏,現(xiàn)在的人工智能系統(tǒng)還完全沒有或僅有很有限的學(xué)習(xí)能力。系統(tǒng)中的知識由人工編程送入系統(tǒng),知識中的錯誤也不能自動改正。也就是說,現(xiàn)有的大多數(shù)人工智能是演繹的、沒有歸納推理,因而不能自動獲取和生成知識,未來的計算機將有自動獲取知識的能力,它們直接由書本學(xué)習(xí),通
4、過與人談話學(xué)習(xí),通過觀察學(xué)習(xí)。它們通過實踐自我完善,克服人的存儲少、效率低、注意力分散、難以傳送所獲取的知識等局限性。一臺計算機獲取的知識很容易復(fù)制給任何其它機器,機器學(xué)習(xí)在AI研究中是較為年輕的分支,發(fā)展過程大體可分為4個時期: 第一階段50年代中到60年代中期,熱烈時期,3 機器學(xué)習(xí)的發(fā)展史,第二階段從60年代中至70年代中期,機器學(xué)習(xí)的冷靜時期,第三階段從70年代中至80年代中期,復(fù)興時期,機器學(xué)習(xí)的最新階段始于1986年,機器學(xué)習(xí)已成為新的邊緣學(xué)科并在高校形成一門課程。 結(jié)合各種學(xué)習(xí)方法,取長補短的多種形式的集成學(xué)習(xí)系統(tǒng)研究正在興起。 各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴大,一部分已形成商品。
5、歸納學(xué)習(xí)的知識獲取工具已在診斷分類型專家系統(tǒng)中廣泛使用。 與機器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動空前活躍。國際上除每年一次的機器學(xué)習(xí)研討會外,還有計算機學(xué)習(xí)理論會議以及遺傳算法會議,男,1973年11月生。分別于1996年6月、 1998年6月和2000年12月于 南京大學(xué)計算機 科學(xué)與技術(shù)系 獲學(xué)士、碩士和博士學(xué)位。 2001年1月起留校任教。 2002年3月破格晉升副教授, 2003年11月被聘任為教授, 2004年4月獲博士生導(dǎo)師資格。 現(xiàn)任 人工智能教研室 主任、機器學(xué)習(xí)與數(shù)據(jù)挖掘 研究組 負(fù)責(zé)人。南京航天航空大學(xué) 兼職教授、澳大利亞 Deakin大學(xué) 名譽研究員、復(fù)旦大學(xué)智能信息處理重點實驗室 學(xué)
6、術(shù)委員會委員,第五章 機器學(xué)習(xí),一、概述 二、主要策略與基本結(jié)構(gòu) 三、常用的學(xué)習(xí)方法 四、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)方法 五、數(shù)據(jù)挖掘開發(fā)工具簡介,學(xué)習(xí)是一項復(fù)雜的智能活動,學(xué)習(xí)過程與推理過程是緊密相連的。 按照學(xué)習(xí)中使用推理的多少,機器學(xué)習(xí)所采用的策略大體上可分為4種: 機械學(xué)習(xí) 通過傳授學(xué)習(xí) 類比學(xué)習(xí) 通過事例學(xué)習(xí),1 機器學(xué)習(xí)的主要策略,其它策略見“機器學(xué)習(xí)策略綜述”一文,2 機器學(xué)習(xí)的基本結(jié)構(gòu),圖1 學(xué)習(xí)系統(tǒng)的基本結(jié)構(gòu),環(huán)境向系統(tǒng)的學(xué)習(xí)環(huán)節(jié)提供某些信息; 學(xué)習(xí)環(huán)節(jié)利用這些信息修改知識庫,以增進(jìn)系統(tǒng)執(zhí) 行部分完成任務(wù)的效能; 執(zhí)行環(huán)節(jié)利用知識庫中的知識完成某種任務(wù),同時 把獲得的信息反饋給學(xué)習(xí)環(huán)
7、節(jié),在具體的應(yīng)用中,環(huán)境,知識庫和執(zhí)行部分決定了具體的工作內(nèi)容,學(xué)習(xí)部分所需要解決的問題完全由上述3部分確定。下面我們分別敘述這3部分對設(shè)計學(xué)習(xí)系統(tǒng)的影響。 影響學(xué)習(xí)系統(tǒng)設(shè)計的最重要的因素是環(huán)境向系統(tǒng)提供的信息質(zhì)量。 如果信息的質(zhì)量比較高,與一般原則的差別比較小,則學(xué)習(xí)部分比較容易處理。 如果向?qū)W習(xí)系統(tǒng)提供的是雜亂無章的指導(dǎo)執(zhí)行具體動作的具體信息,則學(xué)習(xí)系統(tǒng)需要在獲得足夠數(shù)據(jù)之后,刪除不必要的細(xì)節(jié),進(jìn)行總結(jié)推廣,形成指導(dǎo)動作的一般原則,放入知識庫,知識庫是影響學(xué)習(xí)系統(tǒng)設(shè)計的第二個因素。知識的表示有多種形式,比如特征向量、一階邏輯語句、產(chǎn)生式規(guī)則、語義網(wǎng)絡(luò)和框架等等。這些表示方式各有其特點,在選
8、擇表示方式時要兼顧以下4個方面:(1)表達(dá)能力強。 (2)易于推理。 (3)容易修改知識庫。 (4)知識表示易于擴展,執(zhí)行部分是整個學(xué)習(xí)系統(tǒng)的核心,因為執(zhí)行部分的動作就是學(xué)習(xí)部分力求改進(jìn)的動作。同執(zhí)行部分有關(guān)的問題有3個:復(fù)雜性、反饋和透明性,第五章 機器學(xué)習(xí),一、概述 二、主要策略與基本結(jié)構(gòu) 三、常用的學(xué)習(xí)方法 四、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)方法 五、數(shù)據(jù)挖掘開發(fā)工具簡介,1. 學(xué)習(xí)模式 機械學(xué)習(xí)是最簡單的機器學(xué)習(xí)方法記憶,即把新的知識存儲起來,供需要時檢索調(diào)用,而不需要計算和推理。 機械學(xué)習(xí)是最基本的學(xué)習(xí)過程,因為任何學(xué)習(xí)系統(tǒng)都必須記住它們獲取的知識。 在機械學(xué)習(xí)系統(tǒng)中,知識的獲取是以較為穩(wěn)定和直
9、接的方式進(jìn)行的,不需要系統(tǒng)進(jìn)行過多的加工,3.1 機械學(xué)習(xí),當(dāng)系統(tǒng)的執(zhí)行部分解決好問題之后,系統(tǒng)就記住該問題及其解。這樣,可把學(xué)習(xí)系統(tǒng)的執(zhí)行部分抽象地看成某個函數(shù),該函數(shù)在得到自變量輸入值(X1,X2,Xn)之后,計算并輸出函數(shù)值(Y1,Y2,Yp)。機械學(xué)習(xí)在存儲器中簡單地記憶存儲對(X1,X2,Xn),(Y1,Y2,Yp)。當(dāng)需要f(X1,X2,Xn)時,執(zhí)行部分就從存儲器中把(Y1,Y2,Yp)簡單地檢索出來而不是重新計算它。其學(xué)習(xí)模式如下,一個決定受損汽車修理費用的汽車保險程序。 這個程序的輸入是被損壞的汽車的描述,包括制造廠家、生產(chǎn)年代、汽車的種類以及記錄汽車被損壞部位和損壞程度的一
10、個表; 程序的輸出是保險公司應(yīng)付的修理費用。 這個系統(tǒng)是個機械記憶系統(tǒng)。為了估算損壞汽車的修理費用,程序系統(tǒng)必須在存儲器中查找同一廠家、同一生產(chǎn)年代、損壞的部位和程度相同的汽車,然后把對應(yīng)的費用提交給用戶。如果系統(tǒng)沒有發(fā)現(xiàn)這樣的汽車,則它使用保險公司公布的賠償規(guī)則估算出一個修理費用,然后把廠家、生產(chǎn)日期和損壞情況等特征與估算出的費用保存起來,以便將來查找使用,2 存在的主要問題 對于機械學(xué)習(xí),需要注意3個重要的問題:存儲組織,穩(wěn)定性和存儲與計算之間的權(quán)衡。 (a) 存儲組織信息。顯然,只有當(dāng)檢索一個項目的時間比重新計算一個項目的時間短時,機械學(xué)習(xí)才有意義,檢索的越快,其意義也就越大。因此,采用
11、適當(dāng)?shù)拇鎯Ψ绞?,使檢索速度盡可能地快,是機械學(xué)習(xí)中的重要問題。在數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)庫領(lǐng)域,為提高檢索速度,人們研究了許多數(shù)據(jù)存儲方式,如索引、排序、雜湊等等,在機械學(xué)習(xí)中我們可以充分利用這些成果來實現(xiàn)我們的要求,b) 環(huán)境的穩(wěn)定性與存儲信息的適用性問題。在急劇變化的環(huán)境下機械學(xué)習(xí)策略是不適用的。做為機械學(xué)習(xí)基礎(chǔ)的一個重要假定是在某一時刻存儲的信息必須適用于后來的情況。然而如果信息變換得特別頻繁,這個假定就被破壞了,例如在保險公司的確定被損壞汽車的修理費用的程序中,50年代收集保存的有關(guān)汽車特征和修理費用的情況,90年代就很少適用了。因為50年代生產(chǎn)汽車的廠家和所產(chǎn)汽車的牌號在90年代已經(jīng)有很多不存
12、在了。由于通貨膨脹和貨幣貶值,所要查詢的修理費用也不適用了。因此機械學(xué)習(xí)系統(tǒng)必須保證所保存的信息適應(yīng)于外界環(huán)境變化的需要,這也就是所謂的信息適用性問題,c) 存儲與計算之間的權(quán)衡。因為機械學(xué)習(xí)的根本目的是改進(jìn)系統(tǒng)的執(zhí)行能力,因此對于機械學(xué)習(xí)來說很重要的一點是它不能降低系統(tǒng)的效率。比方說,如果檢索一個數(shù)據(jù)比重新計算一個數(shù)據(jù)所花的時間還要多,那么機械學(xué)習(xí)就失去了意義,通過總結(jié)工作和訓(xùn)練經(jīng)驗進(jìn)行學(xué)習(xí),是學(xué)習(xí)的一個好方法。 本節(jié)通過對一個檢查莎士比亞劇本精確性的過程,用解釋學(xué)習(xí)來說明該學(xué)習(xí)方法。通過該過程可看到使用解釋能了解事情的因果關(guān)系,3.2 基于解釋的學(xué)習(xí),如同教師向?qū)W生提供先例,讓學(xué)生練習(xí),并
13、期望學(xué)生在練習(xí)后能夠發(fā)現(xiàn)一般原理一樣。讓機器設(shè)法找出先例與練習(xí)間的因果關(guān)系,并應(yīng)用先例去處理練習(xí),把工作上升為原理,然后把這些原理存儲起來供需要時檢索調(diào)用。 例:一個關(guān)于Greed(貪婪)的練習(xí)。這是關(guān)于一位軟弱貴族與一位貪婪女人的練習(xí)。該貴族與該女人結(jié)了婚。解釋一下為什么這位貴族很可能想當(dāng)國王,機器解釋學(xué)習(xí)的基本原理,貪婪女人,1)已知一些事實如下,2) 解釋轉(zhuǎn)換運用類比解題 建造一個解釋樣板,用于考慮例中的因果鏈以及所有與該因果鏈緊接的鏈??山忉層嘘P(guān)結(jié)婚、貪婪、軟弱等鏈如何導(dǎo)致麥克佩斯想當(dāng)國王的鏈。 本練習(xí)中的貴族是軟弱的,而他的妻子是貪婪的。具體例中,麥克佩斯軟弱,而他的妻子麥克佩斯夫人
14、很貪婪??紤]到這些特性,我們假定:兩個類比狀態(tài)中原因間的相似導(dǎo)致它們結(jié)果的相似,3) 具體化鏈:一個被上升的具體化鏈如圖 (a)所示,其簡化表示如圖 (b)所示,謀殺事件的具體化鏈表示,下面建立基于解釋的學(xué)習(xí),并從中學(xué)習(xí)新規(guī)則。 (4) 使用語義框架具體化鏈:使用合適描述予以表達(dá)人物特性、其動機以及隨之發(fā)生的行動。例如,麥克佩斯和鄧肯可由節(jié)點來說明,兩節(jié)點間用謀殺鏈連接,如圖 (a)所示,謀殺,5)使用語義網(wǎng)對具體化鏈進(jìn)一步的解釋: 這里對謀殺可用更多的說明,因為麥克佩斯用到一把刀。故可把謀殺當(dāng)作一個概念節(jié)點,并與它的一些描述鏈相連,如圖(b)所示,1. 歸納學(xué)習(xí)系統(tǒng)的模型 可把歸納學(xué)習(xí)形式化
15、地描述為使用訓(xùn)練實例,從而導(dǎo)出一般規(guī)則的搜索問題。全體可能的實例構(gòu)成實例空間,全體可能的一般規(guī)則構(gòu)成規(guī)則空間.歸納的過程就是完成實例空間與規(guī)則空間之間協(xié)調(diào)的搜索比較過程。歸納學(xué)習(xí)的“雙空間”模型可表示為下圖的形式,3.3歸納學(xué)習(xí),2.歸納學(xué)習(xí)系統(tǒng)的執(zhí)行過程: 歸納學(xué)習(xí)系統(tǒng)的執(zhí)行過程可大致描述為: 根據(jù)規(guī)則空間提供的一般規(guī)則,由實驗規(guī)劃過程通過對實例空間的搜索,完成實例選擇,并將選中的活躍實例提交解釋過程; 解釋過程對實例經(jīng)過適當(dāng)?shù)霓D(zhuǎn)換,將活躍實例變換為規(guī)則空間中的特定概念,以引導(dǎo)對規(guī)則空間的搜索,3. 歸納學(xué)習(xí)方法:一般歸納學(xué)習(xí)包括示例學(xué)習(xí)和發(fā)現(xiàn)學(xué)習(xí)兩類。 (1)示例學(xué)習(xí),又稱實例學(xué)習(xí)。它通過
16、環(huán)境取得的若干實例中,包括從相關(guān)的正例和反例中歸納出一般性概念或規(guī)則的方法。 (2)發(fā)現(xiàn)學(xué)習(xí)往往來自于觀察學(xué)習(xí)過程。觀察取自于有關(guān)環(huán)境的大量數(shù)據(jù)、實例以及經(jīng)驗數(shù)據(jù)的了解與分析;發(fā)現(xiàn)即經(jīng)過搜索而歸納出規(guī)則。這是一種沒有教師指導(dǎo)的歸納學(xué)習(xí),其學(xué)習(xí)形式包括概念聚類、結(jié)構(gòu)分類、數(shù)據(jù)擬合、發(fā)現(xiàn)自然定律以至建立系統(tǒng)行為的理論,1.示例概念學(xué)習(xí):針對產(chǎn)生概念的正例集合與反例集合,由歸納推理,得出覆蓋所有正例并排除所有反例的概念描述,并可用規(guī)則形式或決策樹的方法來表示這種概念的描述。 例如,要讓示例學(xué)習(xí)系統(tǒng)學(xué)到關(guān)于虎的概念,可以先提供給程序以各種動物,并告知程序哪些動物是虎,哪些不是虎,系統(tǒng)學(xué)習(xí)后便概括出虎的
17、概念模型和類型定義。利用這個類型定義,就可作為動物世界中識別虎的分類準(zhǔn)則。這種構(gòu)造類型定義的學(xué)習(xí),又稱為概念學(xué)習(xí),示例歸納學(xué)習(xí),2.示例歸納學(xué)習(xí)舉例:示例學(xué)習(xí)不僅可以學(xué)習(xí)概念,也可獲得規(guī)則。因此,示例學(xué)習(xí)又可以看作是實例空間和規(guī)則空間相互作用的過程。 例如,給出肺炎與肺結(jié)核兩種病的一些病例,構(gòu)成實例空間。每個病例都含有五種癥狀:發(fā)燒(無、低、高),咳嗽(輕度、中度、劇烈),X光所見陰影(點狀、索條狀、片狀、空洞),血沉(正常、快),聽診(正常、干鳴音、水泡音,肺炎和肺結(jié)核的部分病例集見下表。 表 肺病實例集,血沉是指在一定條件下,人體血液內(nèi)紅細(xì)胞沉降的速度,通過上述示例學(xué)習(xí)得到如下診斷規(guī)則:
18、血沉=正常(聽診=干鳴音水泡音)診斷=肺炎 血沉=快診斷=肺結(jié)核 于是從病例中歸納,產(chǎn)生了診斷規(guī)則。即實現(xiàn)了實例空間到規(guī)則空間的作用過程,1.發(fā)現(xiàn)和觀察學(xué)習(xí)過程: 這類代表性系統(tǒng)如AM系統(tǒng)(1977年);BACON系統(tǒng)等。這類系統(tǒng)有時不僅能發(fā)現(xiàn)人們所知而未見的規(guī)律或規(guī)則,甚至能發(fā)現(xiàn)客觀事物中被人們忽略的新概念。 例如,利用BACON實驗數(shù)據(jù)分析的學(xué)習(xí)系統(tǒng),人們不僅發(fā)現(xiàn)了歐姆定律、牛頓萬有引力定律、開普勒行星運動定律等,還發(fā)現(xiàn)一些早期化學(xué)家發(fā)現(xiàn)的定理,如普羅斯特定律、呂薩克定律等,發(fā)現(xiàn)和觀察學(xué)習(xí),2.發(fā)現(xiàn)和觀察學(xué)習(xí)舉例: 例如,利用BACON實驗數(shù)據(jù)分析的學(xué)習(xí)系統(tǒng),其思想是利用一些算子反復(fù)構(gòu)造一
19、些新的項,當(dāng)這些項中有一個是常數(shù)時,就得到概念“項”=“常數(shù)”的規(guī)律。 例如,對開普勒定律:行星繞太陽運動周期為p與行星到太陽的距離d有關(guān),即有公式: R = d3/p2 其中R為常數(shù)。計算過程如下表所示,由上表,對開普勒定律公式 R = d3/p2 發(fā)現(xiàn)過程為: p和d都是遞增,并且非線性互相依賴,觸發(fā)建立新項d/p的算子。 d和d/p的遞增方向剛好相反,觸發(fā)建立新項(d/p)d=d2/p的算子。 d/p和d2/p的遞增方向剛好相反,觸發(fā)建立新項(d/p)d2/p= d3/p2的算子。 項d3/p2是常數(shù),則得到行星運動定律,行星運動定律的發(fā)現(xiàn),第五章 機器學(xué)習(xí),一、概述 二、主要策略與基本
20、結(jié)構(gòu) 三、常用的學(xué)習(xí)方法 四、知識發(fā)現(xiàn)和數(shù)據(jù)挖掘 五、數(shù)據(jù)挖掘開發(fā)工具簡介,Motivation: Why data mining? 動機, 背景,發(fā)生在 數(shù)據(jù)庫上的 ”成長的煩惱” 數(shù)據(jù)庫的發(fā)展給自己引出了麻煩 。 數(shù)據(jù)爆增 103T 沒有數(shù)據(jù)時 千方百計搜集管理數(shù)據(jù),上世紀(jì)60-70年代 層次庫, 網(wǎng)狀庫, 有了數(shù)據(jù) 擴充能力,搜集管理更多數(shù)據(jù),上世紀(jì)80-90年代 關(guān)系庫,OODB. 數(shù)據(jù)太多了,管不下來。上世紀(jì)-90年代 現(xiàn)在 KDD ,DM. (作科研 找項目也類似,We are Data Rich but Information Poor,Databases are too big
21、,Terrorbytes,2021/3/5,54,一、提出 1989年8月,在美國底特律召開的第11屆國際AI會議專題討論會上,知識發(fā)現(xiàn)概念被首次提出。 數(shù)據(jù)挖掘概念,又稱數(shù)據(jù)開采或數(shù)據(jù)采掘,于1995年在加拿大召開的第一屆KDD和DM國際學(xué)術(shù)會議上被提出。 知識發(fā)現(xiàn)和數(shù)據(jù)挖掘是人工智能、機器學(xué)習(xí)與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。 目前,國內(nèi)外學(xué)術(shù)界和企業(yè)界,都十分重視對它們的研究與開發(fā),知識發(fā)現(xiàn),尿布和啤酒故事: 美國一家大型超市,經(jīng)過計算機對商場以往銷售記錄數(shù)據(jù)的分析、歸納、整理、運算后發(fā)現(xiàn)了這樣一條規(guī)律: 在超市中購買尿布的多為青年男性,他們往往在購買尿布之后還要順手買上一聽啤酒。 于是超市便改
22、變了以往嬰兒用品區(qū)域與啤酒類商品區(qū)域“相隔千里”的布局,將二者相鄰而置,結(jié)果兩種商品的銷量都立竿見影地大幅度上升。 這是數(shù)據(jù)挖掘運用于現(xiàn)實生活中的最為簡單的一個事例,人們給KDD下過很多定義,內(nèi)涵也各不相同,目前公認(rèn)的定義是由Fayyad等人提出的。 所謂基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的高級處理過程,二、KDD定義,三、KDD的處理過程,知識發(fā)現(xiàn)大致分為3部分:數(shù)據(jù)準(zhǔn)備;數(shù)據(jù)挖掘; 結(jié)果解釋和評價。 1.數(shù)據(jù)準(zhǔn)備: 所謂數(shù)據(jù)準(zhǔn)備,則又包含三個子過程,它們是數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)變換,數(shù)據(jù)選擇:目的是確定與任務(wù)相關(guān)目標(biāo)數(shù)據(jù),根
23、據(jù)用戶需要,從原始數(shù)據(jù)庫中抽取一組有用的數(shù)據(jù); 數(shù)據(jù)預(yù)處理:包括消除噪聲、推導(dǎo)計算并補充缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等。例如,把連續(xù)值數(shù)據(jù)轉(zhuǎn)換為離散型的數(shù)據(jù),以便于符號歸納;或是把離散型的轉(zhuǎn)換為連續(xù)值型的,以便于神經(jīng)網(wǎng)絡(luò)歸納等。 數(shù)據(jù)變換:目的在于消減數(shù)據(jù)維數(shù),即從初始特征中找出真正有用的特征,減少特征變量個數(shù),2.數(shù)據(jù)挖掘: 首先要確定挖掘的任務(wù)或目的是什么,如數(shù)據(jù)總結(jié)、分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等; 然后,決定采用什么樣的挖掘算法。為了提高挖掘效率,一要針對數(shù)據(jù)類型不同的特點,二要針對用戶或?qū)嶋H運行系統(tǒng)的要求來選用相關(guān)合適的算法來開采。 例如,有的用戶可能希望獲取描
24、述型的、容易理解的知識,而有的用戶或系統(tǒng)的目的要求獲取預(yù)測準(zhǔn)確度,需要盡可能高的預(yù)測型知識。完成系統(tǒng)分析和這些準(zhǔn)備工作后,就可實施數(shù)據(jù)挖掘操作了,3.結(jié)果解釋和評價: 數(shù)據(jù)挖掘出來的模式,經(jīng)過用戶或機器的評價,可能存在冗余或無關(guān)的模式,這時就需要將其剔除;也有可能得到的模式不滿足用戶要求,這時則需要系統(tǒng)退回到發(fā)現(xiàn)過程之前,重新選擇數(shù)據(jù),采用新的數(shù)據(jù)變換方法,設(shè)定新的參數(shù)值,甚至換一種開采算法,一、定義 數(shù)據(jù)挖掘定義由W.J.Frawley、G.Piatetsky等提出: 從大量數(shù)據(jù)中開采出隱含的、事先未知的、對決策有潛在價值的知識與規(guī)則,這些規(guī)則蘊含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出一些
25、有用的信息和知識。這些信息和知識可表示為相關(guān)的概念、規(guī)則、規(guī)律和模式,從而為系統(tǒng)決策、策劃提供知識依據(jù),數(shù)據(jù)挖掘,2.數(shù)據(jù)挖掘內(nèi)容 采用DM,能夠發(fā)現(xiàn)下列各種知識: 廣義型知識,反映同類事物共同性質(zhì)的知識。 特征型知識,反映事物各方面的特征知識。 差異型知識,反映不同事物之間屬性差別的知識。 關(guān)聯(lián)型知識,反映事物之間關(guān)聯(lián)或依賴的知識。 預(yù)測型知識,根據(jù)歷史和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù) 偏離型知識,揭示事物偏離常規(guī)的異常現(xiàn)象,3.數(shù)據(jù)挖掘系統(tǒng)基本結(jié)構(gòu) 數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫提取知識,并表示為概念、規(guī)則、規(guī)律、模式等形式。 典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)如下圖所示,4.數(shù)據(jù)挖掘系統(tǒng)基本過程 可分為數(shù)據(jù)集成、數(shù)
26、據(jù)選擇、數(shù)據(jù)預(yù)處理等步驟。 數(shù)據(jù)集成:將多文件或多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏,清洗臟數(shù)據(jù)等。 數(shù)據(jù)選擇:目的在于辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高DM的質(zhì)量。 預(yù)處理:為了克服目前DM 工具的局限性,主要是通過凈化、轉(zhuǎn)換、群聚、分類等手段降低數(shù)據(jù)的復(fù)雜性,并且重新加以組織,其次,研究開發(fā)一種或多種DM工具,如IBM 的IDM 和SGI的Mine Set 等。 最后,用DM 工具來發(fā)現(xiàn)未知的知識,并運用知識作為決策支持,達(dá)到預(yù)定目標(biāo),5.數(shù)據(jù)挖掘的任務(wù) 按照數(shù)據(jù)挖掘技術(shù)所能夠發(fā)現(xiàn)的規(guī)則,將常見的數(shù)據(jù)挖掘任務(wù)分為七種類型: 特征規(guī)則。特征規(guī)則是把由所有數(shù)據(jù)滿足的概念特征化。特征規(guī)則挖掘能夠總結(jié)并發(fā)現(xiàn)由用戶指定的數(shù)據(jù)集的一般特征,如特定疾病的癥狀等。 辨識規(guī)則。發(fā)現(xiàn)一個數(shù)據(jù)集(目標(biāo)類)與另一個數(shù)據(jù)集(對比類)區(qū)分開來的特性或性質(zhì)。例如為把一種疾病與另一種疾病區(qū)分開,辨識規(guī)則總結(jié)區(qū)分這些疾病的癥狀,互聯(lián)規(guī)則。描述對象集之間的關(guān)聯(lián)關(guān)系。 分類規(guī)則。把被分類數(shù)據(jù)映射到一組已知的類。例如,根
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度中醫(yī)藥文化交流中醫(yī)師聘任協(xié)議
- 科技在農(nóng)業(yè)廢棄物處理中的應(yīng)用與創(chuàng)新研究
- 中國名片切卡機項目投資可行性研究報告
- 2025年度安防產(chǎn)品研發(fā)合伙人股份合同
- 二零二五年度員工入股分紅協(xié)議:股權(quán)分紅與績效考核掛鉤
- 2025年度土地使用權(quán)出讓合同主體變更與土地流轉(zhuǎn)金融支持協(xié)議
- 二零二五年度消防安全咨詢與地方單位合作實施協(xié)議
- 二零二五年度購房合同房屋使用年限確認(rèn)協(xié)議
- 產(chǎn)業(yè)園區(qū)房產(chǎn)居間協(xié)議樣本
- 2025年啟動線圈項目投資可行性研究分析報告
- 2025年湘教版二年級美術(shù)下冊計劃與教案
- GB/T 4706.30-2024家用和類似用途電器的安全第30部分:廚房機械的特殊要求
- 2024年岳陽職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案解析
- 消防安全管理制度完整版完整版
- 稅法最全課件完整版ppt教程整套教學(xué)講義(最新)
- 2022年南京信息職業(yè)技術(shù)學(xué)院職業(yè)適應(yīng)性測試模擬試題及答案解析
- 英語演講素材OfMiceandMen課件
- 廣東佛山祖廟導(dǎo)游詞
- 硬筆書法紙可打印
- 正丁烷的理化性質(zhì)及危險特性表
- 入團志愿書(2016版本)(可編輯打印標(biāo)準(zhǔn)A4) (1)
評論
0/150
提交評論