數(shù)據(jù)挖掘課程內(nèi)容整理_第1頁
數(shù)據(jù)挖掘課程內(nèi)容整理_第2頁
數(shù)據(jù)挖掘課程內(nèi)容整理_第3頁
數(shù)據(jù)挖掘課程內(nèi)容整理_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1、數(shù)據(jù)挖掘:(定義)從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。(功能)概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。(典型數(shù)據(jù)挖掘系統(tǒng)組成)數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫;數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器;知識庫;數(shù)據(jù)挖掘引擎;圖形用戶界面。(步驟)(1)數(shù)據(jù)清理:消除重復(fù)的、不完全的、違反語義約束的數(shù)據(jù)(2)數(shù)據(jù)集成:多種數(shù)據(jù)源可以組合在一起(3)數(shù)據(jù)選擇:從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)(4)數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作(5)數(shù)據(jù)挖掘:使用智

2、能方法提取數(shù)據(jù)模式(6)模式評估:根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式(7)知識表示:使用可視化和知識表示技術(shù),向用戶提供挖掘的知識(前4個是數(shù)據(jù)預(yù)處理步驟)2、據(jù)預(yù)處理:(原因)原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。(內(nèi)容)a數(shù)據(jù)清洗:包括填充空缺值,識別孤立點,去掉噪聲和無關(guān)數(shù)據(jù)。b數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)

3、匹配問題、數(shù)值沖突問題和冗余問題等。c數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還可能需要進(jìn)行屬性的重構(gòu)。d數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。(數(shù)據(jù)清理基本內(nèi)容)1盡可能賦予屬性名和屬性值明確的含義;2統(tǒng)一多數(shù)據(jù)源的屬性值編碼;3去除無用的惟一屬性或鍵值(如自動增長的id);4去除重復(fù)屬性(在某些分析中,年齡和出生日期可能就是重復(fù)的屬性,但在某些時候它們可能又是同時需要的)5去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的,如果不去除可能造成錯誤的數(shù)據(jù)挖掘結(jié)果)6合理選擇關(guān)聯(lián)字段

4、(對于多個關(guān)聯(lián)性較強(qiáng)的屬性,重復(fù)無益,只需選擇其中的部分用于數(shù)據(jù)挖掘即可,如價格、數(shù)據(jù)、金額)7去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。(處理空缺值方法)忽略該記錄;去掉屬性;手工填寫空缺值;使用默認(rèn)值;使用屬性平均值;使用同類樣本平均值;預(yù)測最可能的值。(常見分箱方法)統(tǒng)一權(quán)重法(又稱等深分箱法);統(tǒng)一區(qū)間法(又稱等寬分箱法);最小嫡法;自定義區(qū)間法。(數(shù)據(jù)平滑處理方法)平均值法、邊界值法和中值法。(數(shù)據(jù)規(guī)約定義)保持原來數(shù)據(jù)的完整性,將數(shù)據(jù)集變小,并不影響對結(jié)果的分析(規(guī)約方法)數(shù)據(jù)立方體聚集;維歸約;數(shù)據(jù)壓縮;數(shù)值壓縮;離散化和概念分層。(規(guī)約原因)維歸約可以去掉不重要的屬性

5、,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率(數(shù)據(jù)規(guī)范化定義)將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一maxmin(x0min0)min(max0min0)x0XX個特定的區(qū)域(如0.01.0),稱為規(guī)范化。(常見方法)(1)最大一最小規(guī)范化:X(2)零均值規(guī)范化:X(3)小數(shù)定標(biāo)規(guī)范化:x=X0/10"3、數(shù)據(jù)倉庫:(定義)數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。(建立目的)一是為了解企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的

6、響應(yīng)速度。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。(方法)自頂向下方法;自底向上方法;二者結(jié)合的混合方法(基本步驟)選取待建模的商務(wù)處理;選取商務(wù)處理的粒變;選取用于每個事實表記錄的維;選取事實表中每條記錄的變量(特點精)面向主題的,時變的,集成的,非易失的(特點全)(1)面向?qū)ο笾笖?shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主體域進(jìn)行組織的。主題是一個抽象的概念,是指用戶使用數(shù)

7、據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面。(2)集成的指數(shù)據(jù)倉庫中的數(shù)據(jù)是對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上進(jìn)行系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。(3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供單位決策分析之用,對所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和加載,一旦某個數(shù)據(jù)加載到數(shù)據(jù)倉庫以后,一般情況下將作為數(shù)據(jù)檔案長期保存,幾乎不再做修改和刪除操作,也就是說針對數(shù)據(jù)倉庫,通常有大量的查詢操作及少量定期的加載(或刷新)操作。(4)反映歷史變化。操作型數(shù)據(jù)庫(OLTB主要關(guān)心當(dāng)前某一

8、個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含較久遠(yuǎn)的歷史數(shù)據(jù),因此總是包括一個時間維,以便可以研究趨勢和變化。數(shù)據(jù)倉庫系統(tǒng)通常記錄了一個單位從過去某一時點(如開始啟用數(shù)據(jù)倉庫系統(tǒng)的時點)到目前的所有時期的信息,通過這些信息,可以對單位的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。(與數(shù)據(jù)集市的區(qū)別)數(shù)據(jù)倉庫收集了關(guān)于整個組織的主題信息,因此是企業(yè)范圍的。對于數(shù)據(jù)倉庫,通常使用星座模式,因為它能對多個相關(guān)的主題建模;數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個部門子集,它針對選定的主題,因此是部門范圍的。對于數(shù)據(jù)集市,流行星型或雪花模式,因為它們都適合對單個主題建模。(數(shù)據(jù)庫不同)數(shù)據(jù)倉庫是面向主題的,集成的,不易更改且

9、隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)庫由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫,是組成數(shù)據(jù)倉庫的源數(shù)據(jù).它用表組織數(shù)據(jù),采用ER數(shù)據(jù)*II型.(數(shù)據(jù)庫相同)它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合。(系統(tǒng)結(jié)構(gòu))底層是倉庫數(shù)據(jù)服務(wù)器,總是關(guān)系數(shù)據(jù)庫系統(tǒng)。(2)中間層是OLAP服務(wù)器,有ROLAP和MOLAP(3)頂層是前端客戶端4、數(shù)據(jù)倉庫常見數(shù)據(jù)模型:(1)星形模式:在此模型下,數(shù)據(jù)倉庫包括一個大的包含大批數(shù)據(jù)并且不含冗余的中心表,一組小的附屬表,維表圍繞中心事實表顯示的射線上。例子:sales數(shù)據(jù)倉庫的星形模式,此模式包含一個中心事實表s

10、ales,它包含四個維time,item,branch和location。(2)雪花型模式:它是星形模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。例子同上,只不過把其中的某些維給擴(kuò)展了。(3)事實星座形:復(fù)雜的應(yīng)用可能需要多個事實表共享維表,這種模式可看作星形模式的匯集。例子:有兩個事實表sales和shipping,它們可以共享維表time,item和location。(特征)星型模型四周的實體是維度實體,具作用是限制和過濾用戶的查詢結(jié)果,縮小訪問范圍。每個維表都有自己的屬性,維表和事實表通過關(guān)鍵字相關(guān)聯(lián)。雪花模型通過最大限度地減少數(shù)據(jù)存儲量和聯(lián)合較小的維表來改善查詢

11、性能,增加了用戶必須處理的表數(shù)量和某些查詢的復(fù)雜性,但同時提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設(shè)要求。事實星座模型能對多個相關(guān)的主題建模。5、數(shù)據(jù)倉庫設(shè)計的三級模型及其基本內(nèi)容:(1)概念模型設(shè)計是在較高的抽象層次上的設(shè)計,其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。(2)邏輯模型設(shè)計的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。(3)物理數(shù)據(jù)模型設(shè)計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。要考慮的因素有:I/O存取時間、空間利用率和維護(hù)代價等6、OLAP即聯(lián)機(jī)分析處理,是

12、在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。OLAP的特點有:1.實時性要求不是很高。2.數(shù)據(jù)量大。3.因為重點在于決策支持,所以查詢一般是動態(tài)的,也就是說允許用戶隨機(jī)提出查詢要求。OLTP即聯(lián)機(jī)事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層管理人員、對基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的日常事務(wù)處理。OLTP的特點有:a.實時性要求高;b.數(shù)據(jù)量不是很大。C.交易一般是確定的,是對確定性數(shù)據(jù)進(jìn)行存取。d.并發(fā)性要求高且嚴(yán)格的要求事務(wù)的完整性,安全性。OLTP和OLAP的區(qū)另用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場;數(shù)據(jù)內(nèi)

13、容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而OLAPf理歷史的數(shù)據(jù);數(shù)據(jù)庫設(shè)計:OLTP系統(tǒng)采用實體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計,而OLAP系統(tǒng)通常采用星形和雪花模型;視圖:OLTP系統(tǒng)主要關(guān)注一個企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP系統(tǒng)主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù);訪問模式:OLTP訪問主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多可能是復(fù)雜的查詢。OLAP操作(上卷)通過沿一個維的概念分層向上攀登,或者通過維歸約,對數(shù)據(jù)立方體進(jìn)行類聚。下鉆:是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù),下鉆可以通過沿維的概念分層向下或引入附加的維來實現(xiàn)。切片:對給定方體的一個維進(jìn)

14、行進(jìn)行選擇,導(dǎo)致一個子立方體。切塊:通過對兩個或多個維執(zhí)行選擇,定義子立方體。轉(zhuǎn)軸:是一種可視化操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。7、聚類:(定義)聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。(與分類異同)聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進(jìn)行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。(數(shù)據(jù)挖掘?qū)垲惖牡湫鸵螅┛缮炜s性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀的聚類;用于決定輸入?yún)?shù)的領(lǐng)域

15、知識最小化;處理“噪聲”數(shù)據(jù)的能力;對于輸入記錄的順序不敏感;高維度;基于約束的聚類(常見數(shù)據(jù)類型)區(qū)間標(biāo)度變量、比例標(biāo)度型變量、二元變量、標(biāo)稱型、序數(shù)型以及混合類型等。(相異度矩陣)是用于存儲所有對象兩兩之間相異度的矩陣,為一個nn維的單模矩陣。其特點是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下圖所示:0d(2,1)0d(3,1)d(3,2)0MMMOd(n,1)d(n,2)08、聚類分析:(定義)是將物理的或者抽象的數(shù)據(jù)集合劃分為多個類別的過程,聚類之后的每個類別中任意兩個數(shù)據(jù)樣本之間具有較高的相似度,不同類別的數(shù)據(jù)樣本之間具有較低的相似度(應(yīng)用領(lǐng)域)是數(shù)據(jù)挖掘應(yīng)

16、用的主要技術(shù)之一,它可以作為一個獨立的工具來使用,將未知類標(biāo)號的數(shù)據(jù)集劃分為多個類別之后,觀察每個類別中數(shù)據(jù)樣本的特點,并且對某些特定的類別作進(jìn)一步的分析。此外,聚類分析還可以作為其他數(shù)據(jù)挖掘技術(shù)(例如分類學(xué)習(xí)、關(guān)聯(lián)規(guī)則挖掘等)的預(yù)處理工作。聚類分析在科學(xué)數(shù)據(jù)分析、商業(yè)、生物學(xué)、醫(yī)療診斷、文本挖、Web數(shù)據(jù)挖掘等領(lǐng)域都有廣泛應(yīng)用。在科學(xué)數(shù)據(jù)分析中,比如對于衛(wèi)星遙感照片,聚類可以將相似的區(qū)域歸類,有助于研究人員根據(jù)具體情況做進(jìn)一步分析;在商業(yè)領(lǐng)域,聚類可以幫助市場分析人員對客戶的基本數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)購買模式不同的客戶群,從而協(xié)助市場調(diào)整銷售計劃;在生物學(xué)方面,聚類可以幫助研究人員按照基因的相似

17、度對動物和植物的種群進(jìn)行劃分,從而獲得對種群中固有結(jié)構(gòu)的認(rèn)識;在醫(yī)療診斷中,聚類可以對細(xì)胞進(jìn)行歸類,有助于醫(yī)療人員發(fā)現(xiàn)異常細(xì)胞的聚類,從而對病人及時采取措施;在文本挖掘和Web數(shù)據(jù)挖掘領(lǐng)域中,聚類可以將網(wǎng)站數(shù)據(jù)按照讀者的興趣度進(jìn)行劃分,有助于網(wǎng)站內(nèi)容的改進(jìn)。9、分類:(定義)指把數(shù)據(jù)樣本映射到一個事先定義的類中的學(xué)習(xí)過程,即給定一組輸入的屬性向量及其對應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類(挖掘方法)決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。(過程)2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進(jìn)行分類。(應(yīng)用領(lǐng)域

18、)是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一,許多分類算法被包含在統(tǒng)計分析工具的軟件包中,作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進(jìn)行分類,從而采取有效措施減小銀行的損失;在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細(xì)胞和癌變細(xì)胞進(jìn)行分類,從而及時制定救治方案,挽救病人的生命;在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常郵件和垃圾郵件進(jìn)行分類,從而制定有效的垃圾郵件過濾機(jī)制,防止垃圾郵件干擾人們的正常生活。10、決策樹:(定義)是用樣本的屬性作為

19、結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點是所有樣本中信息量最大的屬性。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點是樣本的類別值。(如何分類)決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點,該葉結(jié)點表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。11、連續(xù)數(shù)值數(shù)據(jù)根據(jù)直觀劃分離散化的3-4-5規(guī)則可以用來將數(shù)值數(shù)據(jù)分割成相對一致,看上去自然的區(qū)間。一般,該規(guī)則根據(jù)最高有效位的取值范圍

20、,遞歸逐層地將給定的數(shù)據(jù)區(qū)域劃分成3,4或5個相對等寬的區(qū)間。12、ID3算法:(基本思想)首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進(jìn)行分類。(優(yōu)點)1、理論清晰,算法簡單,很有實用價值的示例學(xué)習(xí)算法。2、計算時間是例子個數(shù)、特征屬性個數(shù)、節(jié)點個數(shù)之積的線性函數(shù),總預(yù)測準(zhǔn)確率較令人滿意(缺點)(1)ID3算法在選擇根結(jié)點和各內(nèi)部結(jié)點中的分枝屬性時,使用信息增益作為評價標(biāo)準(zhǔn)。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信

21、息(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹(主算法基本步驟)從訓(xùn)練集中隨機(jī)選擇一個既含正例又含反例的子集(稱為窗口);用“建樹算法”對當(dāng)前窗口形成一棵決策樹;對訓(xùn)練集(窗口除外)中例子用所得決策樹進(jìn)行類別判定,找出錯判的例子;若存在錯判的例子,把它們插入窗口,重復(fù)步驟,否則結(jié)束。(建樹基本步驟)對當(dāng)前例子集合,計算各特征的互信息;選擇互信息最大的特征兒;把在A<處取值相同的例子歸于同一子集,兒取幾個值就得幾個子集;對既含正例又含反例的子集,遞歸調(diào)用建樹算法;若子集僅含正例或反例,對應(yīng)分枝標(biāo)上P或N,返回調(diào)用處。13、C4.5:(優(yōu)點)產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高

22、(缺點)在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。14、神經(jīng)元:(基本特征)多輸入、單輸出;突觸兼有興奮和抑制兩種性能;可時間加權(quán)和空間加權(quán);可產(chǎn)生脈沖;脈沖可進(jìn)行傳遞;非線性,有閾值。(M-P方程并說明其含義)M-P方程:Sif(WijSj,,W是神經(jīng)元之間的連接強(qiáng)度,j是閾彳t,f(x)是階梯函數(shù)。15、遺傳算法與傳統(tǒng)尋優(yōu)算法相比特點:遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機(jī)搜索,搜索效率高;遺傳算法處理的對象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運(yùn)算速度快,適應(yīng)性

23、好;遺傳算法具有隱含并行性,具有更高的運(yùn)行效率。16、K-平均算法:(輸入)簇的數(shù)目k和包含n個對象的數(shù)據(jù)集(輸出)k個簇,使平方誤差準(zhǔn)則最小(聚類過程)1.任意選擇k個對象作為初始的簇中心;2.計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇;3.計算各簇中對象的平均值,然后重新選擇簇中心(離平均值“最近”的對象值);4.重復(fù)第2第3步直到簇中心不再變化為止。優(yōu)點:算法速度快,計算簡單缺點:(1)必須輸入聚類個數(shù)k(2)只有當(dāng)簇均值有定義的情況下,這個方法才能使用(3)不能處理噪聲和孤立點數(shù)據(jù)(4)不適合發(fā)現(xiàn)大小差別很大的簇17、K-中心點算法:(輸入)結(jié)果簇的數(shù)目k,包含

24、n個對象的數(shù)據(jù)集。(輸出)k個簇,使得所有對象與其最近中心點的相異度總和最小。(聚類過程)(1)隨機(jī)選擇k個對象作為初始中心點;(2)計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近"的簇;(3)隨機(jī)地選擇一個非中心點對象Orandom,并計算用Orandom代替Oj的總代價S;(4)如果S<0,則用Orandom代替Oj,形成新的k個中心點集合;(5)重復(fù)迭代第3、4步,直到中心點不變?yōu)橹?。(改進(jìn)算法CLARANS思想)為了處理大的數(shù)據(jù)集,可以采用一種基于抽樣的方法CLARA,它的思想:不考慮整個數(shù)據(jù)集合,而是選擇實際數(shù)據(jù)的一小部分作為數(shù)據(jù)的代表,抽取數(shù)據(jù)集合中的

25、多個樣本,對每個樣本使用PAM算法。它的有效性取決于樣本的大小18、樸素貝葉斯分類:(為什么樸素)樸素貝葉斯分類假定一個屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?。該假定稱作類條件獨立。做此假定是為了簡化所需計算,并在此意義下稱為“樸素的”(主要思想)設(shè)為一個類別未知的數(shù)據(jù)樣本,H為某個假設(shè),若數(shù)據(jù)樣本X屬于一個特定的類別C,分類問題就是決定P(H|X),即在獲得數(shù)據(jù)樣本X時假設(shè)成立的概率。(定義)貝葉斯分類法是統(tǒng)計學(xué)分類方法,可以預(yù)測類成員關(guān)系的可能性。樸素貝葉斯分類法假定一個屬性值對給定類的影響?yīng)毩⒂谄渌麑傩灾?。它表示屬性子集間的依賴(優(yōu)點)(1)理論上,貝葉斯分類具有最小的錯誤率(2)可以用

26、來為不直接使用貝葉斯定理的其他分類法提供理論判定(3)有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率(4)模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單(5)網(wǎng)格結(jié)構(gòu)一旦確定下來后,添加新變量容易(5)適合處理不完整的數(shù)據(jù)(6)對過分?jǐn)M合問題魯棒。(缺點)(1)實際上,由于對其使用的假定的不正確性,以及缺乏可用的概率,此分類法并不具有最小的錯誤率(2)有可能遇到零概率值,需要修正(3)構(gòu)造網(wǎng)格費時、費力19、神經(jīng)網(wǎng)絡(luò):(優(yōu)點)其對噪音數(shù)據(jù)的高承受能力,以及它對未經(jīng)過訓(xùn)練的數(shù)據(jù)的分類能力(缺點)需要很長的訓(xùn)練時間,因而對于有足夠長訓(xùn)練時間的應(yīng)用更合適。20、聚類算法:(劃分方法)給定一個n個

27、對象或元組的數(shù)據(jù)庫,一個劃分方法構(gòu)造數(shù)據(jù)的k個劃分,每個劃分表示一個聚類,并且k<no(層次方法)對給定數(shù)據(jù)對象集合進(jìn)行層次的分解。(基于密度的方法)只要是臨近區(qū)域的密度超過某個閥值,就繼續(xù)聚類。(基于網(wǎng)格的方法)把對象空間量化為有限數(shù)目的單元。(基于模型的方法)試圖優(yōu)化給定的數(shù)據(jù)和某些數(shù)學(xué)模型之間的適應(yīng)性。21、關(guān)聯(lián)規(guī)則:(定義)最初由R.Agrawal等人提出,用來發(fā)現(xiàn)超級市場中用戶購買的商品之間的隱含關(guān)聯(lián)關(guān)系,并用規(guī)則的形式表示出來,稱為關(guān)聯(lián)規(guī)則(AssociationRule)(應(yīng)用)關(guān)聯(lián)規(guī)則除了可以發(fā)現(xiàn)超市購物中隱含的關(guān)聯(lián)關(guān)系之外,還可以應(yīng)用于其他很多領(lǐng)域。關(guān)聯(lián)規(guī)則的應(yīng)用還包括

28、文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等。(分類)(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類型不同,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。(挖掘步驟)1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻繁項集;(2)利用頻繁項集生成所需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小可信度進(jìn)行取舍,產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)。(挖掘步驟)(1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻繁項集;(2)利用頻繁項集生成所需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小可信度進(jìn)行取舍,產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。22、

29、Apriori算法:(基本思想)算法使用頻繁項集知識的先驗知識。Apriori使用一種逐層搜索的迭代方法,K項集用來搜索K+1項集。首先通過掃描數(shù)據(jù)庫,累積每個項的計數(shù),并收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記為L1.然后,L1用于找頻繁2項集的集合L2,L2用于找L3,如此下去,直到不能在找到頻繁K項集(優(yōu)點)Apriori的候選產(chǎn)生-檢驗的方法顯著壓縮了候選項集的大小,并導(dǎo)致很好的性能(缺點)1.它可能需要產(chǎn)生大量的候選項集。2.它可能需要重復(fù)的掃描數(shù)據(jù)庫,通過模式匹配檢查一個很大的候選項集。23、支持向量機(jī):(思想)使用一種非線性映射。將原訓(xùn)練集映射到較高的維。在新的維上

30、,它搜索最佳分離超平面(即將一類元組與其他類分離的“決策邊界。”)使用一個適合的對足夠高維的非線性映射,兩類數(shù)據(jù)總可以被超平面分開。(缺點)訓(xùn)練時間長(優(yōu)點)1對復(fù)雜的非線性決策邊界的建模能力是高度準(zhǔn)確的。2.不太容易過分?jǐn)M合。3.提供了學(xué)習(xí)模型的緊湊表示。24、人工神經(jīng)網(wǎng)絡(luò):(分類方法)1.依學(xué)習(xí)策略(Algorithm)分類主要有:監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò)為主、無監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò)、混合式學(xué)習(xí)網(wǎng)絡(luò)、聯(lián)想式學(xué)習(xí)網(wǎng)絡(luò)、最適化學(xué)習(xí)網(wǎng)絡(luò)2.依網(wǎng)絡(luò)架構(gòu)分類主要有:前向式架構(gòu)、回饋式架構(gòu)、強(qiáng)化式架構(gòu)(優(yōu)點)包括對噪聲數(shù)據(jù)的高承受能力,以及對未經(jīng)訓(xùn)練的數(shù)據(jù)的模式分類能力(缺點)1、需要很長的訓(xùn)練時間,對于有足夠長訓(xùn)練

31、時間的應(yīng)用更為合適。2、需要大量參數(shù),通常主要靠經(jīng)驗確定,如網(wǎng)絡(luò)拓?fù)浠蚪Y(jié)構(gòu)3、常常因其可解釋性差而受到批評,例如,人們很難解釋網(wǎng)絡(luò)中學(xué)習(xí)的權(quán)重和隱藏單元”的符號含義。25、KNN:(定義)即K最近鄰分類法,它是基于類比學(xué)習(xí),即通過給定的檢驗元組與和他相似的訓(xùn)練元組進(jìn)行比較來學(xué)習(xí)(優(yōu)點)1)算法簡單直觀,易于實現(xiàn);(2)不需要產(chǎn)生額外的數(shù)據(jù)來描述規(guī)則,并且可以存在噪音;(3)可以較好地避免樣本數(shù)量的不平衡問題;(4)減少了類別特征選擇不當(dāng)對分類結(jié)果造成的不利影響,可以最大程度地減少分類過程中的誤差項(5)適合增量學(xué)習(xí)(缺點)(1)分類速度慢(2)樣本庫容量依賴性較強(qiáng)(3)必須指定K值,K值選擇不當(dāng)則分類精度不能保證。(4)計算開銷大(5)需要有效的存儲技術(shù)和并行硬件的支撐。26、EM:(定義)EM(期望最大化)算法是一種流行的迭代求精算法,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論