版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章1.6定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測(cè)聚類(lèi)和演變分析。使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫(kù)給出每種數(shù)據(jù)挖掘功能的例子。特征化是一個(gè)目標(biāo)類(lèi)數(shù)據(jù)的一般特性或特性的匯總可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專(zhuān)業(yè)一年級(jí)學(xué)生的輪這些特征包括作為一種高的年級(jí)平均成績(jī)(GPAGradepoint的信息,還有所修的課程的最大數(shù)量。區(qū)分是將目標(biāo)類(lèi)數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類(lèi)對(duì)象的一般特性進(jìn)行比較。例如,具有高GPA的學(xué)生的一般特性可被用來(lái)與具有低GPA的一般特性比較。最終的描述可能是學(xué)生的一個(gè)一般可比較的輪GPA的學(xué)生的75%是四年級(jí)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)GPA的學(xué)生的不是。關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:,“”)owns(X,“”)其中,X是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生,12%計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生擁有一臺(tái)個(gè)人電腦的概率是分類(lèi)與預(yù)測(cè)為前者的作用是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類(lèi)型或概念的模型(或功能是建立一個(gè)模型去預(yù)測(cè)缺失的或無(wú)效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測(cè)的工具:分類(lèi)被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類(lèi)的標(biāo)簽預(yù)測(cè)典型的應(yīng)用是預(yù)測(cè)缺失的數(shù)字型數(shù)據(jù)的值。聚類(lèi)分析的數(shù)據(jù)對(duì)象不考慮已知的類(lèi)標(biāo)號(hào)。對(duì)象根據(jù)最大花蕾內(nèi)部的相似性、最小化類(lèi)之間的相似性的原則進(jìn)行聚類(lèi)或分組以被看作一個(gè)對(duì)象類(lèi)類(lèi)也便于分類(lèi)法組織觀測(cè)組織成類(lèi)分層結(jié)構(gòu),把類(lèi)似的事件組織在一起。數(shù)據(jù)延邊分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì)這可能包括時(shí)間相關(guān)數(shù)聯(lián)類(lèi)預(yù)測(cè)這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分基于相似性的數(shù)據(jù)分析1.9列舉并描述說(shuō)明數(shù)據(jù)挖掘任務(wù)的五種原語(yǔ)。五種原語(yǔ)是:任務(wù)相關(guān)數(shù)據(jù):這種原語(yǔ)指明給定挖掘所處理的數(shù)據(jù)。它包括指明數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)表、或數(shù)據(jù)倉(cāng)庫(kù),其中包括包含關(guān)系數(shù)據(jù)、選擇關(guān)系數(shù)據(jù)的條件、用于探索的關(guān)系數(shù)據(jù)的屬性或維、關(guān)于修復(fù)的數(shù)據(jù)排序和分組。挖掘的數(shù)據(jù)類(lèi)型這種原語(yǔ)指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能征化、區(qū)分、關(guān)聯(lián)、分類(lèi)、聚類(lèi)樣,用戶(hù)的要求可能更特殊,并可能提供所發(fā)現(xiàn)的模式必須這些模版或超模式(也被稱(chēng)為超規(guī)則)能被用來(lái)指導(dǎo)發(fā)現(xiàn)過(guò)程。背景知識(shí)這種原語(yǔ)允許用戶(hù)指定已有的關(guān)于挖掘領(lǐng)域的知識(shí)這樣的知識(shí)能被用來(lái)指導(dǎo)知識(shí)發(fā)現(xiàn)過(guò)評(píng)估發(fā)現(xiàn)系的概念分層和用戶(hù)信念是背景知識(shí)的形式。模式興趣度度量這種原語(yǔ)允許用戶(hù)指定功能,用于從知識(shí)中分割不感興被用來(lái)指導(dǎo)挖掘過(guò)程,也可評(píng)估發(fā)現(xiàn)的模式。這樣就允許用戶(hù)限制在挖掘過(guò)程返回的不感興趣的模式的數(shù)量,因?yàn)橐环N數(shù)據(jù)挖掘系統(tǒng)可能產(chǎn)生大量的模式。興趣度測(cè)量能被指定為簡(jiǎn)易穎性的特征。發(fā)現(xiàn)模式的可視化這語(yǔ)述及發(fā)現(xiàn)的模式應(yīng)該被顯示出來(lái)為了使數(shù)據(jù)挖掘能有效地將知識(shí)傳給用戶(hù)統(tǒng)應(yīng)該能將發(fā)現(xiàn)的各種形式的模式展示出來(lái),正如規(guī)則、表格、餅或條形圖樹(shù)、立方體或其它視覺(jué)的表示。1.41.13描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)集成方法的差別緊耦合和緊認(rèn)為哪種方法最流行,為什么?解答:數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的集成的層次的差別如下統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始數(shù)據(jù)集,因?yàn)闆](méi)有數(shù)據(jù)庫(kù)系統(tǒng)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的任何功能被作為處理過(guò)程的一部分執(zhí)行。因此,這種構(gòu)架是一種糟糕的設(shè)計(jì)。松散耦合統(tǒng)不與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)集成,除了使用被挖掘的初始數(shù)據(jù)集的源數(shù)據(jù)和存儲(chǔ)挖掘結(jié)果。這樣這種構(gòu)架能得到數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)測(cè)性和良好的性能是非常困難的,因?yàn)樵S多這種系統(tǒng)是基于內(nèi)存的。半緊密耦合語(yǔ)類(lèi)統(tǒng)計(jì)功能的預(yù)計(jì)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)有效的執(zhí)統(tǒng)在挖掘-查詢(xún)過(guò)程的應(yīng)經(jīng)常用到的中間挖掘結(jié)果能被預(yù)計(jì)算并存儲(chǔ)到數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,從而增強(qiáng)了數(shù)據(jù)挖掘系統(tǒng)的性能。緊密耦合:數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部供了優(yōu)化的數(shù)據(jù)查詢(xún)處理。這樣的話(huà)統(tǒng)被視為一個(gè)信息系統(tǒng)的功能組件。這是一中高度期望的結(jié)為它有利于數(shù)據(jù)挖掘功能、高系統(tǒng)性能和集成信息處理環(huán)境的有效實(shí)現(xiàn)。從以上提供的體系結(jié)構(gòu)的描述看,緊密耦合是最優(yōu)值得顧慮的技術(shù)和執(zhí)行問(wèn)題緊密耦合系統(tǒng)所需的大量技術(shù)基礎(chǔ)結(jié)構(gòu)仍然在發(fā)展變實(shí)現(xiàn)結(jié)構(gòu)仍是半緊密耦為它是松散耦合和緊密耦合的折中。第2章理假設(shè)給值已經(jīng)分組為區(qū)間。區(qū)間和對(duì)應(yīng)的頻。年齡頻率計(jì)值。age的(以遞13,15,16,1619,2020,21,2222,2525,25,253033,33,35,35,35,35,36,40,45,46,52,70。該數(shù)據(jù)的均值該討論(c)QQ)嗎?13給(f)畫(huà)出數(shù)據(jù)的盒圖。分位數(shù)—分位數(shù)圖與分位數(shù)圖的不同之處分位數(shù)—分位數(shù)圖與分位數(shù)的不同之?dāng)?shù)圖值個(gè)單變量獨(dú)立的變這樣為獨(dú)立變量測(cè)值(縱軸)相對(duì)于它們的分位數(shù)(橫軸)被描繪圖用縱軸單變軸表示另一單變標(biāo)軸顯示它們的測(cè)量值相應(yīng)值值展示。一條(圖中,以增加圖該線以y軸上示的x軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值的分布高。反之,對(duì)使用分箱均光滑以上數(shù)據(jù)進(jìn)為釋你的步評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)(c)對(duì)于數(shù)據(jù)光滑,還答:使用分箱均值對(duì)以上數(shù)據(jù)為釋你的步驟評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)用箱深度為3的分箱均光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑需要以下步驟:驟:對(duì)為時(shí)不需要該步驟驟:將數(shù)據(jù)劃分到大小為3的等頻箱:,,4箱:,,箱:,,5箱:,,箱:,,6箱:,,驟:計(jì)算每個(gè)等頻箱的算數(shù)均值。驟:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。箱44/3箱:55/3,,箱:,,4箱:,,5箱:6箱:,,,,箱:,,箱121/3121/3箱聚類(lèi)組或檢測(cè)值可以被視為為選擇結(jié)合的檢測(cè)計(jì)這輕松的檢驗(yàn),而不必檢查對(duì)于數(shù)據(jù)光滑,還別邊為選擇寬被用來(lái)執(zhí)圍歸技術(shù)擬過(guò)線性或多線性回歸類(lèi)技術(shù)也能被用來(lái)對(duì)概念分層這是通過(guò)級(jí)到高級(jí)如下規(guī)值n-規(guī)z-score規(guī)小數(shù)定標(biāo)規(guī)規(guī)值域[是。z-score規(guī)值域是[--]總的來(lái)說(shuō)對(duì)集的值域是-∞,。(c)小數(shù)定標(biāo)規(guī)(值-,。使用給問(wèn)題:(a)使用規(guī)范化將age值35變換到[0.0,區(qū)間。(b)使用z-score規(guī)范化變換age值35,其中age的標(biāo)準(zhǔn)差為12.94歲。(c)使用小數(shù)定標(biāo)規(guī)范化變換age值。(d)對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由假設(shè)個(gè)銷(xiāo)已經(jīng)排序如下:1011131535,,,,等寬(c)類(lèi)。等頻為如樣技勾類(lèi)抽樣,分層5抽。使用大小為組:的本和層元y的數(shù)據(jù)倉(cāng)庫(kù)下4個(gè)維ty),,和i;2個(gè):和。在最低概念層,度量存放學(xué)生的實(shí)際課程成績(jī)。在較高概念層,avg_grade存放給定組績(jī)。為該數(shù)據(jù)倉(cāng)庫(kù)畫(huà)出雪花形模式圖。由基本方體開(kāi)始,為列出每個(gè)學(xué)生的課程的平均成績(jī),應(yīng)當(dāng)使用哪些特殊的(c)如果每有5t該為該數(shù)據(jù)倉(cāng)庫(kù)畫(huà)出雪花形模式圖。雪花模式如圖b)由基本方體[開(kāi)始,為列出CS課程的平均成績(jī)應(yīng)操作。這些特殊的聯(lián)機(jī)分析處理()操作有:沿課程()維從。沿學(xué)生()維從。iii.取“”和“沿課程()維()維如果每維有5t該這543.23.3題考慮查詢(xún):按{,on,子組,對(duì)每組貨對(duì)貨架壽命在最小貨倍之間的元組找出總銷(xiāo)售額畫(huà)出圖。b)用擴(kuò)表示該查詢(xún)。這嗎?為畫(huà)出該查詢(xún)圖。0→R1(≥1.25*min(shelf)and≤1.5*min(shelf))用擴(kuò)表示該查詢(xún)。iisuchthat≥≤(c)是一個(gè)分布式多特征立方體嗎這體,因?yàn)樵趕uch”語(yǔ)條第五章數(shù)據(jù)有5個(gè)事物。設(shè),80。購(gòu)買(mǎi){M,O,N,E,Y}{D,E,Y}{M,{M,K,Y}{C,O,K,I,分別使用和增長(zhǎng)算的繁項(xiàng)集較兩種挖掘過(guò)列舉規(guī)則的強(qiáng)關(guān)聯(lián)規(guī)則(給度s和置c中,X顧變i項(xiàng)的變A“B?x∈on,)123分別和增長(zhǎng)頻繁集。比較掘過(guò)5次事件,所以絕對(duì)。Xi?x∈on,E)“)c=1]或也可表示為E,O→K或或第六章6.11員數(shù)據(jù)庫(kù)的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已泛化。例如,“…齡在之對(duì)給us和在該給定值使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實(shí)例(,,傳值權(quán)重和偏倚以及學(xué)習(xí)基本決策,以便考義數(shù)據(jù)元的count?使用修改過(guò)的算法,構(gòu)造給定數(shù)據(jù)的決策樹(shù)。(c)給定一個(gè)數(shù)據(jù)元組,它的屬性,和的值分別2為“該元組貝類(lèi)解一:設(shè)元組的各個(gè)屬性之間類(lèi);;∵……;∴=25921/1442897=0.01796;;∵……;∴∵;∵;∴=;所以:樸素葉斯分類(lèi)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 婚禮宴會(huì)廳租賃合同范本
- 臨時(shí)演員聘用合同樣本
- 終止調(diào)解協(xié)議書(shū)
- 收藏行業(yè)打架私了協(xié)議書(shū)
- 學(xué)校體育場(chǎng)照明工程承包協(xié)議
- 一次性土地使用權(quán)賠償協(xié)議
- 專(zhuān)科醫(yī)院醫(yī)師勞動(dòng)合同范本
- 攝影背景板租賃合同范本
- 木質(zhì)戶(hù)外用品制作合同
- 居民小區(qū)保安員招聘合同范本
- 紀(jì)檢機(jī)關(guān)查辦案件分析報(bào)告
- 高一期末家長(zhǎng)會(huì)課件
- 文化藝術(shù)中心行業(yè)技術(shù)創(chuàng)新及應(yīng)用
- 2024年航空職業(yè)技能鑒定考試-航空乘務(wù)員危險(xiǎn)品歷年考試高頻考點(diǎn)試題附帶答案
- 精神病院設(shè)置可行性方案
- 2024版全文:中國(guó)2型糖尿病預(yù)防及治療指南
- 《工程地質(zhì)勘察 》課件
- 小兒腸梗阻護(hù)理查房
- 污水處理站管理制度及操作規(guī)程
- 廣東省(廣州市)職業(yè)技能鑒定申請(qǐng)表-模板
- 漳州市醫(yī)療保險(xiǎn)參保人員門(mén)診特殊病種申請(qǐng)表
評(píng)論
0/150
提交評(píng)論