版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
目錄1什么是數(shù)據(jù)挖掘〔DataMining〕?請舉例。 22簡述知識發(fā)現(xiàn)〔KDD〕過程。 23簡述數(shù)據(jù)挖掘的功能?!睵PT引言1.4〕 24為什么要進行數(shù)據(jù)預處理?〔PPT2,1〕 35怎樣平滑噪聲數(shù)據(jù)〔〕 36在數(shù)據(jù)清理中,對缺失值有哪些處理方法? 47描述數(shù)據(jù)有哪幾種根本圖形形式? 48簡述盒圖的作用。 49標準化有哪些形式,舉例。 410按照分箱法對數(shù)據(jù)進行離散化。 511什么是數(shù)據(jù)倉庫?或數(shù)據(jù)倉庫的4特性? 612簡述數(shù)據(jù)倉庫建模的根本模式?!?種,可圖示〕PPT數(shù)據(jù)倉庫P40~49 613頻繁模式與關聯(lián)規(guī)那么根本概念,最大頻繁項,閉合頻繁項。PPT8.1 814Apriori算法根本步驟。能夠根據(jù)所給數(shù)據(jù)寫出算法具體執(zhí)行過程。 915何為Apriori性質(zhì)、反單調(diào)性? 9分析算法效率。PPT8P25~27 916簡述FP-Growth算法根本步驟。 917比擬Apriori與FP-Growth算法?!矁?yōu)缺點、適用范圍?〕 1118闡述決策樹分類的主要步驟,有哪些算法? 1119闡述神經(jīng)網(wǎng)絡分類的主要原理?!踩龑咏Y構,后向傳播〕 1420簡述最近鄰分類的原理。 1421什么是急迫學習法、惰性學習法? 1422什么是聚類分析? 1523什么是層次聚類?有哪幾種類型? 1524簡述K-均值方法根本步驟,優(yōu)缺點。 1525寫出幾種典型層次聚類算法的名稱、各自特點。 1626簡述基于密度的聚類方法,例如DBSCAN。 16
1什么是數(shù)據(jù)挖掘〔DataMining〕?請舉例。數(shù)據(jù)挖掘:是從大量數(shù)據(jù)中提取或"挖掘"知識,也就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的數(shù)據(jù)挖掘有趣知識的過程.數(shù)據(jù)挖掘是可以從數(shù)據(jù)庫中提取有趣的知識規(guī)律或高層信息發(fā)現(xiàn)的知識,可以用于決策,過程控制,信息管理,查詢處理.它不是一種從數(shù)據(jù)庫,統(tǒng)計學和機器學習開展的技術的簡單轉(zhuǎn)化,它涉及多學科技術的集成,包括數(shù)據(jù)庫技術,統(tǒng)計學,機器學習,高性能計算模式識別,神經(jīng)網(wǎng)絡,數(shù)據(jù)可視化,信息檢索,圖象與信號處理和空間數(shù)據(jù)分析.隨著數(shù)據(jù)庫技術開展,數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述為"數(shù)據(jù)豐富,但信息貧乏",所以數(shù)據(jù)挖掘出來了.意義:需求:數(shù)據(jù)豐富,但知識貧乏。技術:數(shù)據(jù)庫技術的演化
隨著全球信息化的開展,自動數(shù)據(jù)采集工具和成熟的數(shù)據(jù)庫技術導致海洋數(shù)據(jù)存儲在數(shù)據(jù)庫中,從海量數(shù)據(jù)中提取可信的、新穎的、有效的并能被人們理解的知識是非常重要的,所以數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)的極大關注。涉及領域廣〔企業(yè)管理、產(chǎn)品控制、市場分析、工程設計和科學研究等〕。Where.How.What.意義2簡述知識發(fā)現(xiàn)〔KDD〕過程。當把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,它涉及的步驟為:數(shù)據(jù)清理:消除噪聲或不一致數(shù)據(jù)數(shù)據(jù)集成:多種數(shù)據(jù)源可以組合在一起數(shù)據(jù)選擇:從數(shù)據(jù)庫中檢索與分析任務相關的數(shù)據(jù)數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作數(shù)據(jù)挖掘:根本步驟,使用智能方法提取數(shù)據(jù)模式模式評估:根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式知識表示:使用可視化和知識表示技術,向用戶提供挖掘的知識3簡述數(shù)據(jù)挖掘的功能。〔PPT引言1.4〕〔網(wǎng)上〕數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務中要找的模式類型。一般地,數(shù)據(jù)挖掘任務可以分兩類:描述和預測。描述性挖掘任務刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性。預測性挖掘任務在當前數(shù)據(jù)上進行推斷,以進行預測。數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。
5.1自動預測趨勢和行為
數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。一個典型的例子是市場預測問題,數(shù)據(jù)挖掘使用過去有關促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產(chǎn)以及認定對指定事件最可能作出反響的群體。
5.2關聯(lián)分析
數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。假設兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)那么帶有可信度。
5.3聚類
數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。80年代初,Mchalski提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而防止了傳統(tǒng)技術的某些片面性。
5.4概念描述
概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
5.5偏差檢測
數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)那么的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的根本方法是,尋找觀測結果與參照值之間有意義的差異。4為什么要進行數(shù)據(jù)預處理?〔PPT2,1〕1〕不完整的缺少屬性值或某些感興趣的屬性,或僅包含聚集數(shù)據(jù)。
2〕含噪聲的包含錯誤或存在偏離期望的離群值。
3〕不一致的采用的編碼或表示不同,如屬性名稱不同
4〕冗余的如屬性之間可以相互導出
5〕數(shù)據(jù)錯誤的不可防止性與危害
6〕數(shù)據(jù)預處理的形式〔1〕數(shù)據(jù)清理補充缺失數(shù)據(jù)、平滑噪聲數(shù)據(jù)、識別或刪除離群點,解決不一致〔2〕數(shù)據(jù)集成集成多個數(shù)據(jù)庫、數(shù)據(jù)立方或文件〔3〕數(shù)據(jù)變換標準化和聚集〔4〕數(shù)據(jù)歸約簡化數(shù)據(jù)、但產(chǎn)生同樣或相似的結果5怎樣平滑噪聲數(shù)據(jù)〔〕分箱:
通過考察數(shù)據(jù)的“近鄰”〔周圍的值〕來光滑有序數(shù)據(jù)的值。局部光滑。
劃分:等頻、等寬
光滑:用箱均值、用箱中位數(shù)、用箱邊界〔去替換箱中的每個數(shù)據(jù)〕回歸:
用一個函數(shù)〔回歸函數(shù)〕擬合數(shù)據(jù)來光滑數(shù)據(jù)??煞譃椋壕€性回歸、多元線性回歸聚類:將類似的值聚集為簇。檢測離群點其他:如數(shù)據(jù)歸約、離散化和概念分層。6在數(shù)據(jù)清理中,對缺失值有哪些處理方法?〔1〕忽略元組:當缺少類標號時通常這樣做〔假定挖掘任務涉及分類〕。除非元組有多個屬性缺少值,否那么該方法不是很有效。當每個屬性缺少值的百分比變化很大時,它的性能特別差?!?〕人工填寫缺失值:一般,該方法很費時,并且當數(shù)據(jù)集很大,缺少很多值時,該方法可能行不通?!?〕使用一個全局常量填充缺失值:將缺失的屬性值用同一個常數(shù)〔如“Unknown”或-∞〕替換。如果缺失值都用“Unknown”替換,那么挖掘程序可能誤以為它們形成了一個有趣的概念,因為它們都具有相同的值“Unknown”。因此,盡管該方法簡單,但是它并不十分可靠。
〔4〕使用屬性的均值填充缺失值:例如,假定AllElectronics顧客的平均收入為56000美元,那么使用該值替換income中的缺失值。
〔5〕使用與給定元組屬同一類的所有樣本的屬性均值:例如,將顧客按credit_risk分類,那么用具有相同信用度給定元組的顧客的平均收入替換income中的缺失值。
〔6〕使用最可能的值填充缺失值:可以用回歸、使用貝葉斯形式化的基于推理的工具或決策樹歸納確定。例如,利用數(shù)據(jù)集中其他顧客的屬性,可以構造一棵決策樹來預測income的缺失值。7描述數(shù)據(jù)有哪幾種根本圖形形式?直方圖〔概括給定屬性分布的圖形方法、每個矩形等寬〕分位數(shù)圖、分位數(shù)-分位數(shù)圖〔q-q圖〕觀察單變量數(shù)據(jù)分布的簡單有效方法散布圖、散布圖矩陣〔直接觀察是否存在簇(cluster),離群點等、每個點對應一個坐標對〕局部回歸〔Loess〕曲線〔添加一條光滑曲線到散布圖〕8簡述盒圖的作用。直觀明了地識別數(shù)據(jù)集中的離群點判斷數(shù)據(jù)集的偏態(tài)和尾重比擬幾批數(shù)據(jù)的形狀9標準化有哪些形式,舉例。1〕最小-最大標準化:將原始數(shù)據(jù)v經(jīng)線性變換,映射到區(qū)間[new_minA,new_maxA]例如:income的最大,最小值分別為9000,2000,那么將它的值映射到[0,1]時,假設income的值6800標準后為:〔6800-2000〕/〔9000-2000〕*〔1-0〕+0=0.686缺點:1假設存在離群點,可能影響標準化。2在標準化后添加新的數(shù)據(jù),當新數(shù)據(jù)落在原數(shù)據(jù)的區(qū)間[minA,maxA]之外,將導致“越界”錯誤。2〕z-score標準化〔零均值標準化〕:屬性A的值基于A的平均值和標準差標準化。缺點:對離群點不敏感10按照分箱法對數(shù)據(jù)進行離散化。price的排序后數(shù)據(jù)(美元):4,8,9,15,21,21,24,25,26,28,29,34劃分為〔等深的〕箱:-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34用箱平均值平滑:-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29用箱邊界值平滑:-箱1:4,4,4,15-箱2:21,21,25,25-箱3:26,26,26,34〔以下內(nèi)容來的百度〕用邊界值平滑時,先確定兩個邊界,然后依次計算除邊界值外的其它值與兩個邊界的距離,與之距離最小的邊界確定為平滑邊界值。具體如下計算:-箱1:|8-4|=4;|15-8|=7;應選4做為平滑邊界值。|9-4|=5;|15-9|=6;應選4做為平滑邊界值。-箱2:|21-21|=0;|25-21|=4;應選21做為平滑邊界值。|24-21|=3;|25-24|=1;應選25做為平滑邊界值。-箱3:|28-26|=2;|34-28|=6;應選26做為平滑邊界值。|29-26|=3;|34-29|=5;應選26做為平滑邊界值。11什么是數(shù)據(jù)倉庫?或數(shù)據(jù)倉庫的4特性?“數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過程”數(shù)據(jù)倉庫的4特性:面向主題的、集成的、時變的、非易失的〔具體PPT數(shù)據(jù)倉庫2.1.1P16~20〕12簡述數(shù)據(jù)倉庫建模的根本模式?!?種,可圖示〕PPT數(shù)據(jù)倉庫P40~49星型模型:模式圖很像星星爆發(fā),維表圍繞事實表顯示在射線上
雪花模型:雪花模式是星型模式的變種,其中某些維表是標準化的,把數(shù)據(jù)進一步分解到附加的表中,形成類似于雪花的形狀
星網(wǎng)模型:多個事實表共享維表,這種模式可以看作星型模式集,因此也可以稱為星系模式,或者事實星座
13頻繁模式與關聯(lián)規(guī)那么根本概念,最大頻繁項,閉合頻繁項。PPT8.1閉〔頻繁〕項集:假設不存在真超項集Y〔Y?X〕,使得Y與X在數(shù)據(jù)集S中有相同的支持度計數(shù),那么稱項集X在S中是閉的。極大〔頻繁〕項集:如果X是頻繁的,并且不存在頻繁的超項集Y使得Y?X,稱X是極大項集。14Apriori算法根本步驟。能夠根據(jù)所給數(shù)據(jù)寫出算法具體執(zhí)行過程。掃描數(shù)據(jù)庫,累積每個項的支持度計數(shù),生成頻繁1項集集合L1;掃描數(shù)據(jù)庫,由L1構造、搜索頻繁2項集L2;同理,生成L3,…,直到不能生成頻繁k項集。15何為Apriori性質(zhì)、反單調(diào)性?分析算法效率。PPT8P25~27Apriori性質(zhì):頻繁項集的所有非空子集也必須是頻繁的。i.e.,如果{AB}是頻繁項集,{A}和{B}都應該是頻繁項集反單調(diào)性:如果一個集合不能通過測試,那么它的所有超集也都不能通過相同的測試。16簡述FP-Growth算法根本步驟。掃描數(shù)據(jù)庫一次,找到頻繁1項集對頻繁項集降序排序再次掃描數(shù)據(jù)庫,構造FP-樹(這個網(wǎng)上找的??)步驟〔一〕:
挖掘頻繁模式前首先要構造FP-Tree,算法為碼如下:
輸入:一個交易數(shù)據(jù)庫DB和一個最小支持度threshold.
輸出:它的FP-tree.
步驟:
1.掃描數(shù)據(jù)庫DB一遍.得到頻繁項的集合F和每個頻繁項的支持度.把F按支持度遞降排序,結果記為L.2.創(chuàng)立FP-tree的根節(jié)點,記為T,并且標記為’null’.然后對DB中的每個事務Trans做如下的步驟.
根據(jù)L中的順序,選出并排序Trans中的事務項.把Trans中排好序的事務項列表記為[p|P],其中p是第一個元素,P是列表的剩余局部.調(diào)用insert_tree([p|P],T).
函數(shù)insert_tree([p|P],T)的運行如下.
如果T有一個子結點N,其中N.item-name=p.item-name,那么將N的count域值增加1;否那么,創(chuàng)立一個新節(jié)點N,使它的count為1,使它的父節(jié)點為T,并且使它的node_link和那些具有相同item_name域串起來.如果P非空,那么遞歸調(diào)用insert_tree(P,N).注:構造FP-Tree的算法理解上相對簡單,所以不過多描述
步驟〔二〕:
對FP-Tree進行挖掘,算法如下:
輸入:一棵用算法一建立的樹Tree
輸出:所有的頻繁集
步驟:
調(diào)用FP-growth(Tree,null).
procedureFP-Growth(Tree,x)
{
(1)if(Tree只包含單路徑P)then
(2)
對路徑P中節(jié)點的每個組合〔記為B〕
(3)
生成模式B并x,支持數(shù)=B中所有節(jié)點的最小支持度
(4)else對Tree頭上的每個ai,do
{
(5)
生成模式B=ai并x,支持度=ai.support;
(6)
構造B的條件模式庫和B的條件FP樹TreeB;
(7)
ifTreeB!=空集
(8)
thencallFP-Growth(TreeB,B)17比擬Apriori與FP-Growth算法?!矁?yōu)缺點、適用范圍?〕FP優(yōu)點:完全:1不會破壞任何事務的長模式;2為頻繁模式挖掘保持完整的信息簡潔,緊密:1減少不相關的信息,去掉非頻繁項;2頻繁項的降序排序:越頻繁越可能被共享;3永遠不會比初始數(shù)據(jù)庫大性能說明:FP-Growth比Apriori算法快一個數(shù)量級,也比樹-投影算法快原因:1沒有候選集產(chǎn)生,沒有候選測試;2使用壓縮的數(shù)據(jù)結構;3沒有過多的數(shù)據(jù)庫的掃描;4根本操作是計算和FP-tree的構造Apriori算法時間消耗的主要癥結反映在兩個方面,一是由于對海量數(shù)據(jù)庫的多趟電子掃描,另外一個是用JOIN孕育發(fā)生潛在頻仍項集??赡墚a(chǎn)生大量的候選集,以及可能需要重復掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點
FP-Tree布局在完整性方面,它不會打破生意業(yè)務中的任何標準樣式,而且包羅了開采序列標準樣式所需的全部信息;在精密性方面,它不剔掉不相關信息,不包羅非頻仍項,按支撐度降序排列,支撐度高的項在FP-Tree中同享的時機也高。
機能研究顯示FP-growth比Apriori快一個數(shù)目級,這是由于FP-growth不生成候選集,不用候選集實驗,而且施用收縮的數(shù)據(jù)布局,防止反復數(shù)據(jù)庫電子掃描FP-growth算法的應用范圍最廣,它把事務數(shù)據(jù)庫壓縮.到一個FP-樹進行處理,相對Apriori算法來說,最大的優(yōu)點是不需要產(chǎn)生候選頻繁項集且只需要兩次掃描數(shù)據(jù)庫。但是它仍然存在一些問題,比方需要產(chǎn)生大量的條件FP-樹、不能有效的挖掘大型數(shù)據(jù)庫等。18闡述決策樹分類的主要步驟,有哪些算法?決策樹分類的步驟:以代表訓練樣本的單個節(jié)點開始建樹〔創(chuàng)立N節(jié)點〕。如果樣本都在同一個類,那么該節(jié)點成為樹葉,并用該類標記。否那么,算法使用稱為信息增益的基于熵的度量為啟發(fā)信息,選擇能夠最好的將樣本分類的屬性,該屬性成為該節(jié)點的測試或判定屬性?!沧⒁猓涸谶@類算法中,所有的屬性都是分類的,即取離散值的。連續(xù)值的屬性必須離散化?!硨y試屬性的每個的值,創(chuàng)立一個分支,并據(jù)此劃分樣本。算法使用同樣的過程,遞歸地形成每個劃分上的樣本決策樹。一旦一個屬性出現(xiàn)在一個節(jié)點上,就不必考慮該節(jié)點的任何后代。遞歸劃分步驟,當以下條件之一成立時停止:給定節(jié)點的所有樣本屬于同一類。沒有剩余屬性可以用來進一步劃分樣本。在此情況下,采用多數(shù)表決。這涉及將給定的節(jié)點轉(zhuǎn)換成樹葉,并用樣本中的多數(shù)所在的類別標記它。分支〔測試屬性的分枝〕沒有樣本。在這種情況下,以樣本中的多數(shù)創(chuàng)立一個樹葉。決策樹是以實例為根底的歸納學習算法。它從一組無次序、無規(guī)那么的元組中推理出決策樹表示形式的分類規(guī)那么。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部結點進行屬性值的比擬,并根據(jù)不同的屬性值從該結點向下分支,葉結點是要學習劃分的類。從根到葉結點的一條路徑就對應著一條合取規(guī)那么,整個決策樹就對應著一組析取表達式規(guī)那么。1986年Quinlan提出了著名的ID3算法。在ID3算法的根底上,1993年Quinlan又提出了C4.5算法。為了適應處理大規(guī)模數(shù)據(jù)集的需要,后來又提出了假設干改良的算法,其中SLIQ(super-visedlearninginquest)和SPRINT(scalableparallelizableinductionofdecisiontrees)是比擬有代表性的兩個算法。
(1)ID3算法ID3算法的核心是:在決策樹各級結點上選擇屬性時,用信息增益〔informationgain〕作為屬性的選擇標準,以使得在每一個非葉結點進行測試時,能獲得關于被測試記錄最大的類別信息。其具體方法是:檢測所有的屬性,選擇信息增益最大的屬性產(chǎn)生決策樹結點,由該屬性的不同取值建立分支,再對各分支的子集遞歸調(diào)用該方法建立決策樹結點的分支,直到所有子集僅包含同一類別的數(shù)據(jù)為止。最后得到一棵決策樹,它可以用來對新的樣本進行分類。某屬性的信息增益按以下方法計算。通過計算每個屬性的信息增益,并比擬它們的大小,就不難獲得具有最大信息增益的屬性。設S是s個數(shù)據(jù)樣本的集合。假定類標號屬性具有m個不同值,定義m個不同類Ci(i=1,…,m)。設si是類Ci中的樣本數(shù)。對一個給定的樣本分類所需的期望信息由下式給出:其中pi=si/s是任意樣本屬于Ci的概率。注意,對數(shù)函數(shù)以2為底,其原因是信息用二進制編碼。
設屬性A具有v個不同值{a1,a2,……,av}??梢杂脤傩訟將S劃分為v個子集{S1,S2,……,Sv},其中Sj中的樣本在屬性A上具有相同的值aj〔j=1,2,……,v〕。設sij是子集Sj中類Ci的樣本數(shù)。由A劃分成子集的熵或信息期望由下式給出:
熵值越小,子集劃分的純度越高。對于給定的子集Sj,其信息期望為其中pij=sij/sj是Sj中樣本屬于Ci的概率。在屬性A上分枝將獲得的信息增益是Gain(A)=I(s1,s2,…,sm)-E(A)ID3算法的優(yōu)點是:算法的理論清晰,方法簡單,學習能力較強。其缺點是:只比照擬小的數(shù)據(jù)集有效,且對噪聲比擬敏感,當訓練數(shù)據(jù)集加大時,決策樹可能會隨之改變。(2)C4.5算法C4.5算法繼承了ID3算法的優(yōu)點,并在以下幾方面對ID3算法進行了改良:1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的缺乏;2)在樹構造過程中進行剪枝;3)能夠完成對連續(xù)屬性的離散化處理;4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。C4.5算法與其它分類算法如統(tǒng)計方法、神經(jīng)網(wǎng)絡等比擬起來有如下優(yōu)點:產(chǎn)生的分類規(guī)那么易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數(shù)據(jù)集進行屢次的順序掃描和排序,因而導致算法的低效。此外,C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當訓練集大得無法在內(nèi)存容納時程序無法運行。(3)SLIQ算法SLIQ算法對C4.5決策樹分類算法的實現(xiàn)方法進行了改良,在決策樹的構造過程中采用了“預排序”和“廣度優(yōu)先策略”兩種技術。1)預排序。對于連續(xù)屬性在每個內(nèi)部結點尋找其最優(yōu)分裂標準時,都需要對訓練集按照該屬性的取值進行排序,而排序是很浪費時間的操作。為此,SLIQ算法采用了預排序技術。所謂預排序,就是針對每個屬性的取值,把所有的記錄按照從小到大的順序進行排序,以消除在決策樹的每個結點對數(shù)據(jù)集進行的排序。具體實現(xiàn)時,需要為訓練數(shù)據(jù)集的每個屬性創(chuàng)立一個屬性列表,為類別屬性創(chuàng)立一個類別列表。2)廣度優(yōu)先策略。在C4.5算法中,樹的構造是按照深度優(yōu)先策略完成的,需要對每個屬性列表在每個結點處都進行一遍掃描,費時很多,為此,SLIQ采用廣度優(yōu)先策略構造決策樹,即在決策樹的每一層只需對每個屬性列表掃描一次,就可以為當前決策樹中每個葉子結點找到最優(yōu)分裂標準。SLIQ算法由于采用了上述兩種技術,使得該算法能夠處理比C4.5大得多的訓練集,在一定范圍內(nèi)具有良好的隨記錄個數(shù)和屬性個數(shù)增長的可伸縮性。然而它仍然存在如下缺點:1)由于需要將類別列表存放于內(nèi)存,而類別列表的元組數(shù)與訓練集的元組數(shù)是相同的,這就一定程度上限制了可以處理的數(shù)據(jù)集的大小。2)由于采用了預排序技術,而排序算法的復雜度本身并不是與記錄個數(shù)成線性關系,因此,使得SLIQ算法不可能到達隨記錄數(shù)目增長的線性可伸縮性。(4)SPRINT算法為了減少駐留于內(nèi)存的數(shù)據(jù)量,SPRINT算法進一步改良了決策樹算法的數(shù)據(jù)結構,去掉了在SLIQ中需要駐留于內(nèi)存的類別列表,將它的類別列合并到每個屬性列表中。這樣,在遍歷每個屬性列表尋找當前結點的最優(yōu)分裂標準時,不必參照其他信息,將對結點的分裂表現(xiàn)在對屬性列表的分裂,即將每個屬性列表分成兩個,分別存放屬于各個結點的記錄。SPRINT算法的優(yōu)點是在尋找每個結點的最優(yōu)分裂標準時變得更簡單。其缺點是對非分裂屬性的屬性列表進行分裂變得很困難。解決的方法是對分裂屬性進行分裂時用哈希表記錄下每個記錄屬于哪個孩子結點,假設內(nèi)存能夠容納下整個哈希表,其他屬性列表的分裂只需參照該哈希表即可。由于哈希表的大小與訓練集的大小成正比,當訓練集很大時,哈希表可能無法在內(nèi)存容納,此時分裂只能分批執(zhí)行,這使得SPRINT算法的可伸縮性仍然不是很好。根本算法(貪心算法)1〕如何劃分訓練集自頂向下遞歸的分治法構造決策樹開始,所有的訓練樣本在根部屬性分類(假設是連續(xù)值,屬性首先離散化)基于選定的屬性遞歸的形成每個劃分選擇屬性基于啟發(fā)式或統(tǒng)計式策略(比方,信息增益)2〕如何停止〔停止條件〕給定節(jié)點的所有樣本屬于同一類沒有剩余屬性可以用來進一步劃分樣本–使用majorityvoting沒有樣本剩余算法:ID3,C4.5〔書p144-150〕19闡述神經(jīng)網(wǎng)絡分類的主要原理?!踩龑咏Y構,后向傳播〕神經(jīng)元是神經(jīng)網(wǎng)絡中根本的信息處理單元,他由以下局部組成:1一組突觸和聯(lián)結,聯(lián)結具有權值W1,W2,…,Wm通過加法器功能,將計算輸入的權值之和3鼓勵函數(shù)限制神經(jīng)元輸出的幅度BP網(wǎng)絡模型處理信息的根本原理是:輸入信號Xi通過中間節(jié)點〔隱層點〕作用于輸出節(jié)點,經(jīng)過非線形變換,產(chǎn)生輸出信號Yk,網(wǎng)絡訓練的每個樣本包括輸入向量X和期望輸出量t,網(wǎng)絡輸出值Y與期望輸出值t之間的偏差,通過調(diào)整輸入節(jié)點與隱層節(jié)點的聯(lián)接強度取值Wij和隱層節(jié)點與輸出節(jié)點之間的聯(lián)接強度Tjk以及閾值,使誤差沿梯度方向下降,經(jīng)過反復學習訓練,確定與最小誤差相對應的網(wǎng)絡參數(shù)〔權值和閾值〕,訓練即告停止。此時經(jīng)過訓練的神經(jīng)網(wǎng)絡即能對類似樣本的輸入信息,自行處理輸出誤差最小的經(jīng)過非線形轉(zhuǎn)換的信息?!泊祟}不確定〕20簡述最近鄰分類的原理?!舶俣劝倏啤橙绻粋€樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,那么該樣本也屬于這個類別。21什么是急迫學習法、惰性學習法?急性子〔急迫學習法〕決策樹、貝葉斯、神經(jīng)網(wǎng)絡給定訓練元組,立刻建立模型,學習分類慢性子〔惰性學習法〕給定訓練元組,知道看到檢驗元組時才分類,比方k-最近鄰分類,基于案例的推理22什么是聚類分析?聚類分析:將數(shù)據(jù)對象的集合分成由相似對象組成的多個類聚類分析中要劃分的類是未知的典型的應用:1作為獨立的工具來獲得數(shù)據(jù)分布的情況;2也可以作為其他算法的預處理步驟聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標就是在相似的根底上收集數(shù)據(jù)來分類。聚類源于很多領域,包括數(shù)學,計算機科學,統(tǒng)計學,生物學和經(jīng)濟學。在不同的應用領域,很多聚類技術都得到了開展,這些技術方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。23什么是層次聚類?有哪幾種類型?層次聚類:按某種標準將給定數(shù)據(jù)對象集合進行層次的分解。將嵌套定義的簇集組成一棵層次形式的樹按照分裂方式可分為:凝聚的把每個點都作為一個簇,開始聚類每一步合并兩個最近的簇,直到只剩下一個簇分裂的所有的點看做一個簇每一步,分裂一個簇,直到每個點都是一個簇24簡述K-均值方法根本步驟,優(yōu)缺點。步驟給定k:任意選擇k個點作為初始的質(zhì)心repeat將每個點指派到最近〔相似〕的簇集重新計算每個簇的均值,即更新質(zhì)心until不再發(fā)生變化.優(yōu)點:簡單、有效可用于各種數(shù)據(jù)類型〔但并非適合所有數(shù)據(jù)類型〕缺點:不能處理:1不同尺寸的簇;2不同密度的簇;3非球形的簇對含離群點的數(shù)據(jù)聚類時也有問題25寫出幾種典型層次聚類算法的名稱、各自特點。AGNES(凝聚的層次聚類)
KaufmannandRousseeuw(1990)
將具有最少相異性的點合并
將這些簇合并成越來越
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年高端裝備制造研發(fā)合同
- 2025年度二零二五木坑果場承包經(jīng)營與農(nóng)產(chǎn)品出口合同3篇
- 2024建材銷售合作協(xié)議書范本
- 2024虛擬現(xiàn)實游戲內(nèi)容制作及授權合同
- 2024年電廠煤炭供應與支付條款標準協(xié)議版B版
- 2024年跨境電商倉儲物流合同
- 2024年項目投資與合作合同
- 2025年度智能家居系統(tǒng)設計與裝修合同范本3篇
- 2025便利店品牌授權與區(qū)域管理合同范本3篇
- 2024年環(huán)保項目投資合同投資金額與環(huán)保效果
- 2021教科版五年級科學上冊全冊教案
- 100以內(nèi)兩位數(shù)進位加法退位減法計算題-(直接打印版)
- 2024年青海交通職業(yè)技術學院單招職業(yè)適應性測試題庫附答案
- 安全管理制度執(zhí)行情況
- (高清版)JTG 2232-2019 公路隧道抗震設計規(guī)范
- DZ∕T 0173-2022 大地電磁測深法技術規(guī)程(正式版)
- 二年級下冊數(shù)學口算題天天練帶答案
- 合作學習構建初中語文分層教學思考
- 2021-2022學年浙江省紹興市上虞區(qū)人教版四年級上冊期末質(zhì)量評估數(shù)學試卷
- 成功九大理念
- 初中英語七選五經(jīng)典5篇(附帶答案)
評論
0/150
提交評論