數(shù)據(jù)挖掘復(fù)習(xí)大綱1_第1頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)大綱1_第2頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)大綱1_第3頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)大綱1_第4頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)大綱1_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘復(fù)習(xí)大綱第一章數(shù)據(jù)挖掘概論什么是數(shù)據(jù)挖掘?請(qǐng)舉例。數(shù)據(jù)挖掘:是從大量數(shù)據(jù)中提取或”挖掘”知識(shí),也就是從存放在數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)或其 他信息庫(kù)中的數(shù)據(jù)挖掘有趣知識(shí)的過(guò)程.數(shù)據(jù)挖掘是可以從數(shù)據(jù)庫(kù)中提取有趣的知識(shí)規(guī)律或 高層信息發(fā)現(xiàn)的知識(shí),可以用于決策,過(guò)程控制,信息管理,查詢處理.它不是一種從數(shù)據(jù)庫(kù),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡(jiǎn)單轉(zhuǎn)化,它涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫(kù)技術(shù),統(tǒng) 計(jì)學(xué),機(jī)器學(xué)習(xí),高性能計(jì)算模式識(shí)別,神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)可視化,信息檢索,圖象與信號(hào)處理和空間 數(shù)據(jù)分析.隨著數(shù)據(jù)庫(kù)技術(shù)發(fā)展,數(shù)據(jù)的豐富帶來(lái)了對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求,大量的 數(shù)據(jù)被描述為”數(shù)據(jù)豐富,但信息貧乏”,所

2、以數(shù)據(jù)挖掘出來(lái)了.同義詞:從數(shù)據(jù)中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古、數(shù)據(jù)捕撈、數(shù)據(jù) 中的知識(shí)發(fā)現(xiàn)(KDD)。簡(jiǎn)述知識(shí)發(fā)現(xiàn)(KDD)過(guò)程。P3-5(P4圖1-4)當(dāng)把數(shù)據(jù)挖掘看作知識(shí)發(fā)現(xiàn)過(guò)程時(shí),它涉及的步驟為:數(shù)據(jù)清理(消除噪聲或不一致數(shù)據(jù))數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中檢索與分析任務(wù)相關(guān)的數(shù)據(jù))數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過(guò)匯總或聚集操作)數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別表示知識(shí)的真正有趣的模式)知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))知識(shí)挖掘的步驟了解應(yīng)用領(lǐng)域:(了解相關(guān)

3、的知識(shí)和應(yīng)用的目標(biāo))創(chuàng)建目標(biāo)數(shù)據(jù)集:選擇數(shù)據(jù)數(shù)據(jù)清理和預(yù)處理:(這個(gè)可能要占全過(guò)程60%的工作量)數(shù)據(jù)縮減和變換(找到有用的特征,維數(shù)縮減/變量縮減,不變量的表示。)選擇數(shù)據(jù)挖掘的功能(數(shù)據(jù)總結(jié),分類模型數(shù)據(jù)挖掘,回歸分析,關(guān)聯(lián)規(guī)則挖掘,聚類分 析等.)選擇挖掘算法數(shù)據(jù)挖掘:尋找感興趣的模式模式評(píng)估和知識(shí)表示(可視化,轉(zhuǎn)換,消除冗余模式等等)運(yùn)用發(fā)現(xiàn)的知識(shí)體系結(jié)構(gòu):典型數(shù)據(jù)挖掘系統(tǒng) (P5圖1-5)簡(jiǎn)述數(shù)據(jù)挖掘的功能。數(shù)據(jù)挖掘的任務(wù):描述和預(yù)測(cè)。描述性挖掘任務(wù)刻畫(huà)(描述)數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性;預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷。主要功能有:概念/類描述:特性化和區(qū)分(歸納,總結(jié)和對(duì)比數(shù)據(jù)的特

4、性。)關(guān)聯(lián)分析(發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性一值頻繁的在給定的數(shù)據(jù)中所 一起出現(xiàn)的條件。)分類和預(yù)測(cè)(通過(guò)構(gòu)造模型(或函數(shù))用來(lái)描述和區(qū)別類或概念,用來(lái)預(yù)測(cè)類型標(biāo)志未 知的對(duì)象類。)聚類分析(將類似的數(shù)據(jù)歸類到一起,形成一個(gè)新的類別進(jìn)行分析。)孤立點(diǎn)分析(通常孤立點(diǎn)被作為“噪音”或異常被丟棄,但在欺騙檢測(cè)中卻可以通過(guò)對(duì) 罕見(jiàn)事件進(jìn)行孤立點(diǎn)分析而得到結(jié)論。)趨勢(shì)和演變分析(描述行為隨時(shí)間變化的對(duì)象的發(fā)展規(guī)律或趨勢(shì)) 數(shù)據(jù)挖掘:多個(gè)學(xué)科的融合(P19圖1-12)數(shù)據(jù)挖掘的主要問(wèn)題:P23挖掘方法在不同的數(shù)據(jù)類型中挖掘不同類型的知識(shí)e.g.,生物數(shù)據(jù),流式數(shù)據(jù),Web數(shù)據(jù)性能:算法的有效

5、性、可伸縮性和并行處理模式評(píng)估:興趣度問(wèn)題背景知識(shí)的合并處理噪聲何不完全數(shù)據(jù)并行,分布式和增量挖掘算法新發(fā)現(xiàn)知識(shí)與已有知識(shí)的集成:知識(shí)融合用戶交互數(shù)據(jù)挖掘查詢語(yǔ)言和特定的數(shù)據(jù)挖掘數(shù)據(jù)挖掘結(jié)果的表示和顯示多個(gè)抽象層的交互知識(shí)挖掘應(yīng)用和社會(huì)因素特定域的數(shù)據(jù)挖掘&不可視的數(shù)據(jù)挖掘數(shù)據(jù)安全,完整和保密第二章數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的定義很多,但卻很難有一種嚴(yán)格的定義它是一個(gè)提供決策支持功能的數(shù)據(jù)庫(kù),它與公司的操作數(shù)據(jù)庫(kù)分開(kāi)維護(hù)。為統(tǒng) 一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合(4個(gè)特 性),支持管理部

6、門(mén)的決策過(guò)程.”一W. H. Inmon(數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造方面的領(lǐng)頭設(shè)計(jì)師) 建立數(shù)據(jù)倉(cāng)庫(kù)(data warehousing):(構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程。)數(shù)據(jù)倉(cāng)庫(kù)與異種數(shù)據(jù)集成傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成:在多個(gè)異種數(shù)據(jù)庫(kù)上建立包裝程序(wrappers)和中介程序 (mediators);查詢驅(qū)動(dòng)方法當(dāng)從客戶端傳過(guò)來(lái)一個(gè)查詢時(shí),首先使用元數(shù)據(jù)字典將查 詢轉(zhuǎn)換成相應(yīng)異種數(shù)據(jù)庫(kù)上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器 缺點(diǎn):復(fù)雜的信息過(guò)慮和集成處理,競(jìng)爭(zhēng)資源 數(shù)據(jù)倉(cāng)庫(kù):更新驅(qū)動(dòng)將來(lái)自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢和分析,高性能3.OITP系統(tǒng)和OLAP系統(tǒng)的比較 P

7、69表3-14.從關(guān)系表和電子表格到數(shù)據(jù)立方體P70數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)基于多維數(shù)據(jù)模型。這個(gè)模型把數(shù)據(jù)看作是數(shù)據(jù)立方體形式。多 維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實(shí)表表示。事實(shí)是數(shù)值度量的。數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實(shí)定義。維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。事實(shí)表包括事實(shí)的名稱或度量以及每個(gè)相關(guān)維表的關(guān)鍵字在數(shù)據(jù)倉(cāng)庫(kù)的研究文獻(xiàn)中,一個(gè)n維的數(shù)據(jù)的立方體叫做基本方體。給定一個(gè)維的集合,我 們可以構(gòu)造一個(gè)方體的格,每個(gè)都在不同的匯總級(jí)或不同的數(shù)據(jù)子集顯示數(shù)據(jù),方體的格稱 為數(shù)據(jù)立方體。0維方體存放最高層的匯總,稱作頂點(diǎn)方體;而存

8、放最底層匯總的方體則稱 為基本方體。度量的分類P76一個(gè)數(shù)據(jù)立方體的度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)據(jù)立方體的每一個(gè)點(diǎn)求值。度 量可以根據(jù)其所用的聚集函數(shù)分為三類:分布的(distributive):將函數(shù)用于n個(gè)聚集值得到的結(jié)果和將函數(shù)用于所有數(shù)據(jù)得到的結(jié) 果一樣。比如:count(),sum(),min(),max()等代數(shù)的(algebraic):函數(shù)可以由一個(gè)帶M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(M為有界整數(shù)),而每 個(gè)參數(shù)值都可以有一個(gè)分布的聚集函數(shù)求得。比如:avg(),min_N(),standard_deviation()整體的(holistic):描述函數(shù)的子聚集所需的存儲(chǔ)沒(méi)有一個(gè)常數(shù)

9、界。比如:median(),mode(), rank()概念分層:location維的一個(gè)概念分層(P78圖3-7)多維數(shù)據(jù)模型上的OLAP操作(P79)上卷(roll-up):匯總數(shù)據(jù)通過(guò)一個(gè)維的概念分層向上攀升或者通過(guò)維規(guī)約下鉆(drill-down):上卷的逆操作由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn)切片和切塊(slice and dice)投影和選擇操作轉(zhuǎn)軸(pivot)立方體的重定位,可視化,或?qū)⒁粋€(gè)3維立方體轉(zhuǎn)化維一個(gè)2維平面序列其他OLAP操作鉆過(guò)(drill_across):執(zhí)行涉及多個(gè)事實(shí)表的查詢鉆透(drill_through):使用關(guān)

10、系SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表概念倉(cāng)庫(kù)的四種視圖P82數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的四種視圖自頂向下視圖允許我們選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)所捕獲、存儲(chǔ)和管理的信息數(shù)據(jù)倉(cāng)庫(kù)視圖有事實(shí)表和維表所組成商務(wù)查詢視圖從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)三種數(shù)據(jù)倉(cāng)庫(kù)模型P84企業(yè)倉(cāng)庫(kù)(搜集關(guān)于跨越整個(gè)組織的主題的所有信息)數(shù)據(jù)集市(企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶是有用的。其范圍限于選定的主 題,比如一個(gè)商場(chǎng)的數(shù)據(jù)集市)獨(dú)立的數(shù)據(jù)集市VS.非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來(lái)自于企業(yè) 數(shù)據(jù)倉(cāng)庫(kù))虛擬倉(cāng)庫(kù)(操作數(shù)據(jù)庫(kù)上的一系列視圖只有一些可能的匯總視圖被物化)10.OLAP服務(wù)器類

11、型P86邏輯上,OLAP服務(wù)器從數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中給商業(yè)用戶提供多維數(shù)據(jù)物理上,OLAP的底層數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)可以有多種不同的方式關(guān)系OLAP服務(wù)器(ROLAP)使用關(guān)系數(shù)據(jù)庫(kù)或擴(kuò)展的關(guān)系數(shù)據(jù)庫(kù)存放并管理數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),而用OLAP中間件 支持其余部分;包括每個(gè)DBMS后端優(yōu)化,聚集導(dǎo)航邏輯的實(shí)現(xiàn),附加的工具和服務(wù);較大的可擴(kuò)展性多維OLAP服務(wù)器(MOLAP)基于數(shù)組的多維存儲(chǔ)引擎(稀疏矩陣技術(shù))能對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)快速索引混合OLAP服務(wù)器(HOLAP)結(jié)合上述兩種技術(shù),更大的使用靈活性特殊的SQL服務(wù)器在星型和雪花模型上支持SQL查詢11.方體計(jì)算的多路數(shù)組聚集方法(1) P1063體計(jì)算

12、的多路數(shù)組聚集方法(2)-將數(shù)組分成塊(chunk,一個(gè)可以裝入內(nèi)存的小子方)壓縮的稀疏數(shù)組尋址:(chunkjd, offset)從而減少內(nèi)存訪問(wèn)和磁盤(pán)I/O-通過(guò)訪問(wèn)立方體單元,計(jì)算聚黛U可以優(yōu)化訪問(wèn)單元組的次序, 使得每個(gè)單元被訪問(wèn)的次數(shù)最小化, 的開(kāi)銷,C(itern少o / 如 /苧=45 / 如 / 4T 7 4* 211Czzzb313141516B(crt) bl、9r) AbO123糖二aO al a2哪個(gè)是多路數(shù)組 聚集的最佳遍歷 次序?數(shù)據(jù)預(yù)處理1.為什么要進(jìn)行數(shù)據(jù)預(yù)處理?1)2)3)4)不完整的缺少屬性值或某些感興趣的屬性,或僅包含聚集數(shù)據(jù)。含噪聲的包含錯(cuò)誤或存在偏離期

13、望的離群值。不一致的采用的編碼或表示不同,如屬性名稱不同冗余的如屬性之間可以相互導(dǎo)出1.2數(shù)據(jù)錯(cuò)誤的不可避免性與危害高昂的操作費(fèi)用 糟糕的決策制定組織的不信任分散管理的注意力1.3數(shù)據(jù)預(yù)處理的形式(主要任務(wù))P31(1)數(shù)據(jù)清理補(bǔ)充缺失數(shù)據(jù)、平滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn),解決不一致(2)數(shù)據(jù)集成 集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方或文件(3)數(shù)據(jù)變換規(guī)范化和聚集(4)數(shù)據(jù)歸約 簡(jiǎn)化數(shù)據(jù)、但產(chǎn)生同樣或相似的結(jié)果現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù) 的質(zhì)量,從而有助于提高其后的挖掘過(guò)程的精度和性能。高質(zhì)量的決策必然依賴于高質(zhì) 量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過(guò)程的重要

14、步驟。檢測(cè)異常數(shù)據(jù)、盡早地調(diào)整數(shù) 據(jù)并歸約待分析的數(shù)據(jù),將在決策過(guò)程中得到高回報(bào)如何處理空缺值P39-40忽略元組:當(dāng)類標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任務(wù)設(shè)計(jì)分類或描述),當(dāng)每個(gè)屬性缺 少值的百分比變化很大時(shí),它的效果非常差。人工填寫(xiě)空缺值:工作量大,可行性低使用一個(gè)全局變量填充空缺值:比如使用unknown或-8使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定樹(shù)這樣的基于推斷的方法噪聲數(shù)據(jù)P40噪聲:一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差引起不正確屬性值的原因:數(shù)據(jù)收集工具的問(wèn)題數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)傳輸錯(cuò)誤技術(shù)限制命名規(guī)則的不一

15、致其它需要數(shù)據(jù)清理的數(shù)據(jù)問(wèn)題重復(fù)記錄不完整的數(shù)據(jù)不一致的數(shù)據(jù)如何處理噪聲數(shù)據(jù)P40分箱(binning):首先排序數(shù)據(jù),并將他們分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的邊界平滑等等聚類:監(jiān)測(cè)并且去除孤立點(diǎn)計(jì)算機(jī)和人工檢查結(jié)合計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù),然后對(duì)它們進(jìn)行人工判斷回歸通過(guò)讓數(shù)據(jù)適應(yīng)回歸函數(shù)來(lái)平滑數(shù)據(jù) 數(shù)據(jù)變換P45平滑:去除數(shù)據(jù)中的噪聲(分箱、聚類、回歸)聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)概化:沿概念分層向上匯總規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間最小一最大規(guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造通過(guò)現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中;以增加對(duì)高維

16、數(shù)據(jù)的結(jié)構(gòu)的理解和精確度數(shù)據(jù)規(guī)約策略P47數(shù)據(jù)倉(cāng)庫(kù)中往往存有海量數(shù)據(jù),在其上進(jìn)行復(fù)雜的數(shù)據(jù)分析與挖掘需要很長(zhǎng)的時(shí)間數(shù)據(jù)歸約(數(shù)據(jù)歸約可以用來(lái)得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾 乎相同的)分析結(jié)果)數(shù)據(jù)歸約策略數(shù)據(jù)立方體聚集 維歸約 數(shù)據(jù)壓縮 數(shù)值歸約離散化和概念分層產(chǎn)生用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過(guò)或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時(shí)間。6.分類數(shù)據(jù)的概念分層生成P60分類數(shù)據(jù)是指無(wú)序的離散數(shù)據(jù),它有有限個(gè)值(可能很多個(gè))。分類數(shù)據(jù)的概念分層生成方法:由用戶或?qū)<以谀J郊?jí)顯式的說(shuō)明屬性的部分序。通過(guò)顯示數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分。說(shuō)明屬性集,但不說(shuō)明它們的偏序,然后系統(tǒng)根

17、據(jù)算法自動(dòng)產(chǎn)生屬性的序,構(gòu)造有 意義的概念分層。對(duì)只說(shuō)明部分屬性集的情況,則可根據(jù)數(shù)據(jù)庫(kù)模式中的數(shù)據(jù)語(yǔ)義定義對(duì)屬性的捆綁 信息,來(lái)恢復(fù)相關(guān)的屬性。第四章、數(shù)據(jù)挖掘原語(yǔ)和DMQL數(shù)據(jù)挖掘原語(yǔ)的組成部分?jǐn)?shù)據(jù)挖掘原語(yǔ)應(yīng)該包括以下部分:說(shuō)明數(shù)據(jù)庫(kù)的部分或用戶感興趣的數(shù)據(jù)集要挖掘的知識(shí)類型用于指導(dǎo)挖掘的背景知識(shí)模式評(píng)估、興趣度量如何顯示發(fā)現(xiàn)的知識(shí)數(shù)據(jù)挖掘原語(yǔ)用于用戶和數(shù)據(jù)挖掘系統(tǒng)通信,讓用戶能從不同的角度和深度審查和發(fā)現(xiàn)結(jié) 果,并指導(dǎo)挖掘過(guò)程。興趣度度量沒(méi)有興趣度度量,挖掘出來(lái)的有用模式,很可能會(huì)給淹沒(méi)在用戶不感興趣的模式中。簡(jiǎn)單性確定性實(shí)用性新穎性興趣度的客觀度量方法:根據(jù)模式的結(jié)構(gòu)和統(tǒng)計(jì),用一個(gè)臨界

18、值來(lái)判斷某個(gè)模式是不是用 戶感興趣的。第五章特征化和比較數(shù)據(jù)挖掘的分類從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為描述性挖掘和預(yù)測(cè)性挖掘描述性挖掘:以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。預(yù)測(cè)性數(shù)據(jù)挖掘:通過(guò)分析數(shù)據(jù)建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。第六章關(guān)聯(lián)規(guī)則挖掘什么是關(guān)聯(lián)規(guī)則挖掘?關(guān)聯(lián)規(guī)則挖掘:從事務(wù)數(shù)據(jù)庫(kù),關(guān)系數(shù)據(jù)庫(kù)和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn) 有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。應(yīng)用:購(gòu)物籃分析、分類設(shè)計(jì)、捆綁銷售和虧本銷售分析2.Apriori 算法 P151Apriori算法利用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí)(prior knowledge),通過(guò)逐層搜索

19、的迭代方法, 即將k-項(xiàng)集用于探察(k+1)-項(xiàng)集,來(lái)窮盡數(shù)據(jù)集中的所有頻繁項(xiàng)集。先找到頻繁1-項(xiàng)集集合L1,然后用L1找到頻繁2-項(xiàng)集集合L2,接著用L2找L3,直到找不 到頻繁k-項(xiàng)集,找每個(gè)Lk需要一次數(shù)據(jù)庫(kù)掃描。Apriori性質(zhì):頻繁項(xiàng)集的所有非空子集也必須是頻繁的。(模式不可能比A更頻繁的出現(xiàn))Apriori算法是反單調(diào)的,即一個(gè)集合如果不能通過(guò)測(cè)試,則該集合的所有超集也不能通 過(guò)相同的測(cè)試。Apriori算法基本步驟。能夠根據(jù)所給數(shù)據(jù)寫(xiě)出算法具體執(zhí)行過(guò)程。Apriori算法是最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。使用逐層搜索的迭代方法找到1到K項(xiàng)頻繁項(xiàng)集;即由k項(xiàng)集搜索生成(k+

20、1)項(xiàng)集。為提高頻繁項(xiàng)集逐層產(chǎn)生的效率,利用Apriori性質(zhì)。(1)掃描數(shù)據(jù)庫(kù),累積每個(gè)項(xiàng)的支持度計(jì)數(shù),生成頻繁1項(xiàng)集集合L1;(2)掃描數(shù)據(jù)庫(kù),由L1構(gòu)造、搜索頻繁2項(xiàng)集L2;(3)同理,生成L3,直到不能生成頻繁k項(xiàng)集。注:每次搜索都要掃描一遍數(shù)據(jù)庫(kù)。算法偽碼:Ck: Candidate itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; Lk !=; k+) do beginCk+1 = candidates generated from Lk;for each transact

21、ion t in database doincrement the count of all candidates in Ck+1 that are contained in tLk+1 = candidates in Ck+1 with min_support endreturn k Lk;連接步:為找Lk,通過(guò)將Lk-1與其自身連接產(chǎn)生候選k項(xiàng)集集合Ck。例如,設(shè)l1和l2是Lk-1中的項(xiàng)集,如果它們的前(k-2)個(gè)項(xiàng)相同的話,則是可連接的。 剪枝步:Ck是Lk的超集,即Ck中的成員可能是頻繁的,也可能不是,但所有的頻繁k 項(xiàng)集都包含在Ck中。為壓縮Ck,剪枝:任何非頻繁的(k-1)-項(xiàng)集

22、都不是頻繁k項(xiàng)集的子集。設(shè) L3=abc, abd, acd, ace, bcd自連接:L3*L3abcd from abc and abdacde from acd and ace剪枝:刪acde,因?yàn)閍de不在L3中,即非頻繁C4=abcdTIDItems1001 3 42002 3 530012 3 54002 5Scan DC2l2itemset(2 322 531 S 5, |Jitem setsup1223334153item setsup1 21(1 32(1 51P 322 53(3 52itemsetsup.12233353C2Scan Ditem set(1(1 3(1 5

23、2 3(2 5(3 5C3 item setScan Dl3 it/mset sup2.何為ApriM朝質(zhì)、反單調(diào)性?分析算法效教3 5 | 2Apriori性質(zhì):頻繁項(xiàng)集的所有非空子集也必須是頻繁的。i.e.,如果AB是頻繁項(xiàng)集,A和B都應(yīng)該是頻繁項(xiàng)集反單調(diào)性:如果一個(gè)集合不能通過(guò)測(cè)試,則它的所有超集也都不能通過(guò)相同的測(cè)試。19多遍掃描事務(wù)數(shù)據(jù)庫(kù)龐大的候選集數(shù)量冗長(zhǎng)乏味的工作量:統(tǒng)計(jì)候選集支持度計(jì)數(shù)改進(jìn)Apriori:通常的想法減少數(shù)據(jù)庫(kù)掃描次數(shù)壓縮候選集數(shù)量改進(jìn)候選集支持度計(jì)數(shù)的統(tǒng)計(jì)方法多層關(guān)聯(lián)規(guī)則一致支持度:對(duì)所有層都使用一致的最小支持度優(yōu)點(diǎn):搜索時(shí)容易采用優(yōu)化策略,即一個(gè)項(xiàng)如果不滿足最

24、小支持度,它的所有子項(xiàng)都可以不用搜索缺點(diǎn):最小支持度值設(shè)置困難太高:將丟掉出現(xiàn)在較低抽象層中有意義的關(guān)聯(lián)規(guī)則太低:會(huì)在較高層產(chǎn)生太多的無(wú)興趣的規(guī)則遞減支持度:在較低層使用遞減的最小支持度抽象層越低,對(duì)應(yīng)的最小支持度越小關(guān)聯(lián)規(guī)則的興趣度度量客觀度量?jī)蓚€(gè)流行的度量指標(biāo)支持度置信度主觀度量最終,只有用戶才能確定一個(gè)規(guī)則是否有趣的,而且這種判斷是主觀的,因不同的用戶而異;通常認(rèn)為一個(gè)規(guī)則(模式)是有趣的,如果:它是出人意料的 行動(dòng)的(用戶可以使用該規(guī)則做某些事情)挖掘了關(guān)聯(lián)規(guī)則后,哪些規(guī)則是用戶感興趣的?強(qiáng)關(guān)聯(lián)規(guī)則是否就是有趣的?第七章分類和預(yù)測(cè)分類預(yù)測(cè)P184分類:預(yù)測(cè)分類標(biāo)號(hào)(或離散值)根據(jù)訓(xùn)練數(shù)

25、據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來(lái)分類現(xiàn)有數(shù)據(jù),并用來(lái)分類新數(shù)據(jù) 預(yù)測(cè):建立連續(xù)函數(shù)值模型,比如預(yù)測(cè)空缺值典型應(yīng)用信譽(yù)證實(shí)目標(biāo)市場(chǎng)醫(yī)療診斷性能預(yù)測(cè)什么是預(yù)測(cè)?預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無(wú)樣本類,或評(píng)估給定樣本可能具有的屬性或值空間。預(yù)測(cè)和分類的異同相同點(diǎn)兩者都需要構(gòu)建模型都用模型來(lái)估計(jì)未知值預(yù)測(cè)當(dāng)中主要的估計(jì)方法是回歸分析線性回歸和多元回歸非線性回歸不同點(diǎn)分類法主要是用來(lái)預(yù)測(cè)類標(biāo)號(hào)(分類屬性值)預(yù)測(cè)法主要是用來(lái)估計(jì)連續(xù)值(量化屬性值)2擻據(jù)分類第一步,建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個(gè)元組屬于一個(gè)預(yù)定義 的類,由一個(gè)類標(biāo)號(hào)屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣

26、本:訓(xùn)練數(shù)據(jù)集中的單個(gè)樣本(元組)學(xué)習(xí)模型可以用分類規(guī)則、判定樹(shù)或數(shù)學(xué)公式的形式提供第二步,使用模型,對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率對(duì)每個(gè)測(cè)試樣本,將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè) 比較模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的情況比較分類方法P187使用下列標(biāo)準(zhǔn)比較分類和預(yù)測(cè)方法預(yù)測(cè)的準(zhǔn)確率:模型正確預(yù)測(cè)新數(shù)據(jù)的類編號(hào)的能力速度:產(chǎn)生和使用模型的計(jì)算花銷健壯性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測(cè)的能力可伸縮性:對(duì)大量數(shù)據(jù),有效的構(gòu)建模型的能力可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次用判

27、定樹(shù)歸納分類什么是判定樹(shù)?類似于流程圖的樹(shù)結(jié)構(gòu)每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試每個(gè)分枝代表一個(gè)測(cè)試輸出每個(gè)樹(shù)葉節(jié)點(diǎn)代表類或類分布判定樹(shù)的生成由兩個(gè)階段組成判定樹(shù)構(gòu)建開(kāi)始時(shí),所有的訓(xùn)練樣本都在根節(jié)點(diǎn)遞歸的通過(guò)選定的屬性,來(lái)劃分樣本(必須是離散值)樹(shù)剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn),樹(shù)剪枝試圖檢測(cè)和剪去這種分枝 判定樹(shù)的使用:對(duì)未知樣本進(jìn)行分類通過(guò)將樣本的屬性值與判定樹(shù)相比較4.貝葉斯分類P200來(lái)預(yù)測(cè)類成員的概率,即給定一個(gè)樣本,計(jì)算貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理P ( D I h ) P ( h )P ( D )該樣本屬于一個(gè)特定的類的概率。P ( h I D )樸素貝葉斯分

28、類:假設(shè)每個(gè)屬性之間都是相互獨(dú)立的,并且每個(gè)屬性對(duì)非類問(wèn)題產(chǎn)生的 影響都是一樣的。5.后向傳播分類P212后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個(gè)連接都 與一個(gè)權(quán)相連。在學(xué)習(xí)階段,通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確標(biāo)號(hào)來(lái) 學(xué)習(xí)。優(yōu)點(diǎn)預(yù)測(cè)精度總的來(lái)說(shuō)較高健壯性好,訓(xùn)練樣本中包含錯(cuò)誤時(shí)也可正常工作輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值對(duì)目標(biāo)進(jìn)行分類較快缺點(diǎn)訓(xùn)練(學(xué)習(xí))時(shí)間長(zhǎng)蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號(hào)含義很難理解很難根專業(yè)領(lǐng)域知識(shí)相整合第八章聚類分析什么是聚類分析?聚類(簇):數(shù)據(jù)對(duì)象的集合在同一個(gè)聚類(簇)中的對(duì)象彼此相似不同簇中的對(duì)象則相異

29、聚類分析將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程 聚類是一種無(wú)指導(dǎo)的學(xué)習(xí):沒(méi)有預(yù)定義的類編號(hào)聚類分析的數(shù)據(jù)挖掘功能作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布的情況作為其他算法(如:特征和分類)的預(yù)處理步驟聚類分析的典型應(yīng)用模式識(shí)別空間數(shù)據(jù)分析在GIS系統(tǒng)中,對(duì)相似區(qū)域進(jìn)行聚類,產(chǎn)生主題地圖檢測(cè)空間聚類,并給出它們?cè)诳臻g數(shù)據(jù)挖掘中的解釋圖像處理經(jīng)濟(jì)學(xué)(尤其是市場(chǎng)研究) 萬(wàn)維網(wǎng)對(duì)WEB上的文檔進(jìn)行分類對(duì)WEB日志的數(shù)據(jù)進(jìn)行聚類,以發(fā)現(xiàn)相同的用戶訪問(wèn)模式主要的聚類方法聚類分析算法種類繁多,具體的算法選擇取決于數(shù)據(jù)類型,聚類的應(yīng)用和目的,常 用的聚類算法包括:劃分方法層次的方法基于密度的方法

30、基于網(wǎng)格的方法基于模型的方法孤立點(diǎn)挖掘什么是孤立點(diǎn)?一個(gè)數(shù)據(jù)集與其他數(shù)據(jù)有著顯著區(qū)別的數(shù)據(jù)對(duì)象的集合例如:運(yùn)動(dòng)員:MichaelJordon,舒馬赫,布勃卡孤立點(diǎn)產(chǎn)生原因度量或執(zhí)行錯(cuò)誤(年齡:-999)數(shù)據(jù)變異的結(jié)果孤立點(diǎn)挖掘給定一個(gè)n個(gè)數(shù)據(jù)對(duì)象的集合,以及預(yù)期的孤立點(diǎn)數(shù)目k,發(fā)現(xiàn)與剩余的數(shù)據(jù) 有著顯著差異的頭k個(gè)數(shù)據(jù)對(duì)象應(yīng)用信用卡欺詐檢測(cè) 移動(dòng)電話欺詐檢測(cè) 客戶劃分 醫(yī)療分析(異常)第九章電子商務(wù)與數(shù)據(jù)挖掘電子商務(wù)與數(shù)據(jù)挖掘完美結(jié)合在電子商務(wù)中進(jìn)行成功的數(shù)據(jù)挖掘得益于:電子商務(wù)提供海量的數(shù)據(jù)如果一個(gè)電子商務(wù)網(wǎng)站平均每個(gè)小時(shí)賣出五件物品,那么它一個(gè)月的平均點(diǎn)擊 量是160萬(wàn)次。豐富的記錄信息良

31、好的WEB站點(diǎn)設(shè)計(jì)將有助于獲得豐富的信息干凈的數(shù)據(jù)從電子商務(wù)站點(diǎn)收集的都是電子數(shù)據(jù),無(wú)需人工輸入或者是從歷史系統(tǒng)進(jìn)行整合研究成果容易轉(zhuǎn)化在電子商務(wù)中,很多知識(shí)發(fā)現(xiàn)都可以進(jìn)行直接應(yīng)用投資收益容易衡量對(duì)電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘通常在一個(gè)電子商務(wù)網(wǎng)站上應(yīng)用的數(shù)據(jù)挖掘技術(shù)是Web數(shù)據(jù)挖掘。我們可以在一個(gè)電子商務(wù)網(wǎng)站挖掘些什么東西??jī)?nèi)容挖掘(Web Content Mining)結(jié)構(gòu)挖掘(Web Structure Mining)使用挖掘(Web Usage Mining)一名詞解釋1 .數(shù)據(jù)挖掘:從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)。決策樹(shù):一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu),內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性(取值

32、)上的測(cè)試,其分支 代表每個(gè)結(jié)果;其每個(gè)葉子節(jié)點(diǎn)代表一個(gè)類別,樹(shù)的最高節(jié)點(diǎn)就是根節(jié)點(diǎn)。聚類:將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程。數(shù)據(jù)分類:從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)數(shù)據(jù)對(duì)象的共性,并將數(shù)據(jù)對(duì)象分成不同的幾類的一個(gè)過(guò)程。維:透視或關(guān)于一個(gè)組織想要記錄的實(shí)體。多層次關(guān)聯(lián)規(guī)則:一個(gè)關(guān)聯(lián)規(guī)則的內(nèi)容涉及不同抽象層次的內(nèi)容。單層次關(guān)聯(lián)規(guī)則:一個(gè)關(guān)聯(lián)規(guī)則的內(nèi)容涉及單一個(gè)層次的內(nèi)容。局外者:數(shù)據(jù)庫(kù)中可能包含一些數(shù)據(jù)對(duì)象,它們與數(shù)據(jù)的一般行為或模型不一致。數(shù)據(jù)倉(cāng)庫(kù):一個(gè)面向主體的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理過(guò)程的決 策制定。數(shù)據(jù)集市:數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門(mén)子集,它針對(duì)選定的主題,因此是

33、部門(mén)范圍的。數(shù)據(jù)區(qū)別:將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性比較。數(shù)據(jù)特征化:目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總。噪聲數(shù)據(jù):指數(shù)據(jù)中存在錯(cuò)誤、異常(偏離期望值)的數(shù)據(jù)。不完整數(shù)據(jù):感興趣的屬性沒(méi)有值。不一致數(shù)據(jù):數(shù)據(jù)內(nèi)涵出現(xiàn)不一致的情況。數(shù)據(jù)清洗:消除數(shù)據(jù)中所存在的噪聲以及糾正其不一致的錯(cuò)誤。數(shù)據(jù)集成:將來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并到一起構(gòu)成一個(gè)完整的數(shù)據(jù)集。數(shù)據(jù)消減:通過(guò)刪除冗余特征或聚類消除多余數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換:將一種格式的數(shù)據(jù)轉(zhuǎn)換為另一種格式的數(shù)據(jù)。分類:預(yù)測(cè)分類標(biāo)號(hào)(或離散值),在分類屬性中的訓(xùn)練樣本集和值(類標(biāo)號(hào))的基礎(chǔ)上分類,數(shù)據(jù)(建立模型)并使用它分類新數(shù)據(jù)。簇:是一組數(shù)

34、據(jù)對(duì)象的集合(是由聚類所生成的)。數(shù)據(jù)源:是表明數(shù)據(jù)地址的聯(lián)機(jī)字符串?dāng)?shù)據(jù)源視圖:是一個(gè)抽象層們能夠讓用戶修改查看數(shù)據(jù)的方式,或者定義一個(gè)圖表并在 稍后轉(zhuǎn)換實(shí)際的源。一個(gè)圖表題填空:菜單欄、標(biāo)簽頁(yè)、解決方案資源管理器、屬性窗口、錯(cuò)誤窗口、設(shè)計(jì) 窗口、設(shè)計(jì)標(biāo)簽。(順時(shí)針?lè)较蛱顚?xiě))P82二.簡(jiǎn)答題預(yù)測(cè)與分類的區(qū)別是什么?分類是預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別,預(yù)測(cè)是用于數(shù)據(jù)對(duì)象的連續(xù)取值數(shù)據(jù)分類由哪幾步過(guò)程組成?第一步,建立一個(gè)模型,描述指定的數(shù)據(jù)類集或概念集;第二步,使用模型進(jìn)行分類。ID3算法的核心是什么?在決策樹(shù)各級(jí)節(jié)點(diǎn)上選擇屬性時(shí),用信息增益作為屬性的選擇標(biāo)準(zhǔn),以使得在每一個(gè)葉節(jié)點(diǎn) 進(jìn)行測(cè)試時(shí)能獲得關(guān)

35、于被測(cè)試記錄最大的類別信息。為什么樸素貝葉斯分類稱為“樸素”的?簡(jiǎn)述樸素貝葉斯分類的主要思想。樸素貝葉斯分類假定一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?。該假定稱作類條 件獨(dú)立。做此假定是為了簡(jiǎn)化所需計(jì)算,并在此意義下稱為“樸素的”。設(shè)為一個(gè)類別未知的數(shù)據(jù)樣本,H為某個(gè)假設(shè),若數(shù)據(jù)樣本X屬于一個(gè)特定的類別C, 分類問(wèn)題就是決定P(HIX),即在獲得數(shù)據(jù)樣本X時(shí)假設(shè)成立的概率。神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)和缺點(diǎn)分別是什么??jī)?yōu)點(diǎn):其對(duì)噪音數(shù)據(jù)的高承受能力,以及它對(duì)未經(jīng)過(guò)訓(xùn)練的數(shù)據(jù)的分類能力。缺點(diǎn):需要很長(zhǎng)的訓(xùn)練時(shí)間,因而對(duì)于有足夠長(zhǎng)訓(xùn)練時(shí)間的應(yīng)用更合適。典型的數(shù)據(jù)挖掘系統(tǒng)主要由哪幾部分組成?數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)或

36、其他信息庫(kù);數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器;知識(shí)庫(kù);數(shù)據(jù)挖掘引擎;圖形 用戶界面OLAP與OLTP的全稱分別是什么?它們兩者之間的區(qū)別是什么?聯(lián)機(jī)事務(wù)處理 OLTP (on-line transaction processing);聯(lián)機(jī)分析處理 OLAP (on-line analytical processing);OLTP和OLAP的區(qū)別:用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場(chǎng);數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù);數(shù)據(jù)庫(kù)設(shè)計(jì):OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì),而OLAP系統(tǒng)通常采用星形和雪花模型;視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)

37、企業(yè)或部門(mén)內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP系統(tǒng)主要關(guān)注匯總的 統(tǒng)一的數(shù)據(jù);訪問(wèn)模式:OLTP訪問(wèn)主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問(wèn)大部分是只讀操作,盡管許多可能是復(fù)雜的查詢。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的區(qū)別是什么?數(shù)據(jù)倉(cāng)庫(kù)收集了關(guān)于整個(gè)組織的主題信息,因此是企業(yè)范圍的。對(duì)于數(shù)據(jù)倉(cāng)庫(kù),通常使用星座模式,因?yàn)樗軐?duì)多個(gè)相關(guān)的主題建模;數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門(mén)子集,它針對(duì)選定的主題,因此是部門(mén)范圍的。對(duì)于數(shù)據(jù)集 市,流行星型或雪花模式,因?yàn)樗鼈兌歼m合對(duì)單個(gè)主題建模。不完整數(shù)據(jù)的產(chǎn)生原因有哪些?有些屬性的內(nèi)容有時(shí)沒(méi)有有些數(shù)據(jù)當(dāng)時(shí)被認(rèn)為是不必要的由于誤解或檢測(cè)設(shè)備失靈導(dǎo)致相關(guān)數(shù)據(jù)沒(méi)有記錄下來(lái)與其他記錄內(nèi)

38、容不一致而被刪除歷史記錄或?qū)?shù)據(jù)的修改被忽略了。噪聲數(shù)據(jù)的產(chǎn)生原因有哪些?數(shù)據(jù)采集設(shè)備有問(wèn)題在數(shù)據(jù)錄入過(guò)程中發(fā)生了人為或計(jì)算機(jī)錯(cuò)誤數(shù)據(jù)傳輸過(guò)程中發(fā)生錯(cuò)誤由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致。對(duì)遺漏數(shù)據(jù)有哪些處理方法?忽略該條記錄;手工填補(bǔ)遺漏值;利用默認(rèn)值填補(bǔ)遺漏值;利用均值填補(bǔ)遺漏值;利用同類別均值填補(bǔ)遺漏值;利用最可能的值填充遺漏值。數(shù)據(jù)消減的主要策略有哪些?數(shù)據(jù)立方合計(jì);維數(shù)消減;數(shù)據(jù)壓縮;數(shù)據(jù)塊消減;離散化與概念層次生成。數(shù)據(jù)源對(duì)象可以創(chuàng)建幾種不同的安全認(rèn)證選項(xiàng)?4種:使用特定用戶名和密碼;使用服務(wù)賬戶;使用當(dāng)前用戶的憑據(jù);默認(rèn)值。數(shù)據(jù)挖掘?qū)垲惖牡湫鸵笥心男靠缮炜s性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀的聚類;用于決定輸入?yún)?shù)的領(lǐng)域知識(shí) 最小化;處理“噪聲”數(shù)據(jù)的能力;對(duì)于輸入記錄的順序不敏感;高維度;基于約束的聚類。簡(jiǎn)述下列聚類算法劃分方法:給定一個(gè)n個(gè)對(duì)象或元組的數(shù)據(jù)庫(kù),一個(gè)劃分方法構(gòu)造數(shù)據(jù)的k個(gè)劃分,每個(gè)劃 分表示一個(gè)聚類,并且k n。層次方法:對(duì)給定數(shù)據(jù)對(duì)象集合進(jìn)行層次的分解?;诿芏鹊姆椒ǎ褐灰桥R近區(qū)域的密度超過(guò)某個(gè)閥值,就繼續(xù)聚類。基于網(wǎng)格的方法:把對(duì)象空間量化為有限數(shù)目的單元?;谀P偷姆椒?/p>

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論