版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
DataMiningConceptsandTechniquesJiaweiHan MichelineKamber 范明孟曉峰譯11.6定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預測聚征包括作為一種高的年級平均成績(GPA:Gradepointaversge的信息,區(qū)分是將目標類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般GPA的學生的一般特性可被用來與具有GPA的一般特性比較。最終的描述可能是學生的一個一般可比較的輪廓,就像具有高GPA的學生的75%是四年級計算機科學專業(yè)的學生,GPA65%不是。征值的條件。例如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X,“computingscience”)owns(X,“personalcomputer”) 其中,X98%(置信度,或確定度。或概念的模型(或功能,而后者是建立一個模型去預測缺失的或無效數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢,盡管這可1.9列舉并描述說明數(shù)據(jù)挖掘任務(wù)的五種原語。挖掘的數(shù)據(jù)類型:這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特(也被稱為超規(guī)則)模式興趣度度量:這種原語允許用戶指定功能,用于從知識中分割不感發(fā)現(xiàn)模式的可視化:這種原語述及發(fā)現(xiàn)的模式應(yīng)該被顯示出來。為了使1.13描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別:不耦緊密耦合:數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部1.142章數(shù)據(jù)預處理2.12.2∵∴20~50我們有:L120,N3197,(fq)l950,fqdian1500,wdt30,使用公式(2.3:
3197/2950medianL
width20
30
∴median=32.972.22.4ageage值(以遞增序)該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等x1NN
8092729.9630(2.1。中位數(shù)應(yīng)是第x14=25=Q2該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等這個數(shù)集的眾數(shù)有兩個:2535,發(fā)生在同樣最高的頻率處,因此是雙峰數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。即:midrange=(70+13)/2=41.575%3×(N+1)/4=21處。所以:Q3=355數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變兩種分布分位數(shù)值展示。一條線(yx)可畫到圖中,以增加圖像的信息。落在該線以上的點表示在y軸上顯示的值的分布比x的分布高。反之,對落在該線以下的點則低。2.32.72.4age3步驟1(23箱1:13,15,16 箱2:16,19,20 箱4:22,25,25 箱5:25,25,30 箱 箱 箱34箱1:44/3,44/3,44/3箱 箱箱 箱 箱箱 箱8:121/3,121/3,121/3箱2.42.10min-maxz-scoremin-max值域是[new_min,new_max]z-score值域是[(old_min-meanσ,(old_max-mean)/σ],總的來說,對于所有可能2.52.122.4age使用min-maxage35變換到[0.0,1.0]z-score規(guī)范化變換age35,其中age12.94使用小數(shù)定標規(guī)范化變換age35使用min-maxage35變換到[0.0,1.0]∵minA=13,maxA=70,new_minA=0.0,new_maxA=1.0
new_
new_
35131.00.00.00.38607013z-score規(guī)范化變換age35,其中age12.94A1315216192202122243023343536404546528092
AA
161.2949,
sAs或s2 167.4986,s
v'vA3529.963
0.3966
或vs
vA
35
5.0370.3892使用小數(shù)定標規(guī)范化變換age35。70j=2。v'
10
2.62.141250,55,72,92,204,215等頻(等深)等頻(等深)每個區(qū)間的寬度是:(215-232.72.152.4age10為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層510 為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層56mmiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddle2.83章數(shù)據(jù)倉庫與OLAPsudentstuden_nae,area_id,major,status,university),course(course_name,department),semester(semesteryearinstructor(dept,rank);2個度量:countavg_grade。在最低概念層,度量avg_grade存放學生的實際課程成績。在較高概念層,avg_grade存放給定組合的平均成績。[student,course,semester,instructor]BigUniversity每個學生的CS課程的平均成績,應(yīng)當使用哪些特殊的OLAP操作。all,[studentcoursesemesterinstructorBigUniversityCSOLAP操作。這些特殊的聯(lián)機分析處理(OLAP)沿課程(course)course_iddepartment沿學生(student)student_iduniversitydepartment=“CSuniversity=“BigUniversity”,沿課程(course)維和學生(student)沿學生(student)universitystudent_name5(allstudent<major<status<university<all,54=625
studentstudent
3.43.44章數(shù)據(jù)立方體計算與數(shù)據(jù)泛化4.12008-11-4.12考慮下面的多特征立方體查詢:按{item,region,month}2004100美元、貨架1.25~1.5倍之間的元組找出總銷售額部分。SQLSQL item,region,month,Min(shelf),SUM(R1) cube item,region,month:suchthat R1.shelf≥1.25*MIN(Shelf)and(R1.Shelf≤1.5*MIN(Shelf)and這不是一個分布多特征立方體,因為在“suchthat”語句中采用了“≤”條2008-11-2008-11-5章挖掘頻繁模式、關(guān)聯(lián)和相關(guān)Apriori5.2.2節(jié)介紹了由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則的方法。提出了一個更有效的方5.2.2節(jié)的方法更有效(5.1(b)5.1(c)數(shù)據(jù)庫有5個事物。設(shè)min_sup=60%,min_conf=80。 {M,O,N,K,E, {D,O,N,K,E, {M,A,K, {M,U,C,K, {C,O,O,K,I,AprioriFP增長算法找出所有的頻繁項集。比較兩種挖列舉所有與下面的的元規(guī)則匹配的強關(guān)聯(lián)規(guī)則(給出支持度s和置A:AprioriFP增長算法找出所有的頻繁項集。比較兩種挖掘過Apriori55×min_sup=3 C LOKE
L1
C2
L2
C FP-growthAprioriL1。再按支持度計數(shù)的遞減序排序,得到:L={(K:5),(E:4),(M:3),(O:3),(Y:3)}。掃描沒個事LFP-樹。5.3FP條件FP效率比較:AprioriFP-增長算Apriori算法中的自身連接過程產(chǎn)生候選項集,候選項集產(chǎn)生的計算代價非常高,而FP-增長算法不需產(chǎn)生任列舉所有與下面的的元規(guī)則匹配的強關(guān)聯(lián)規(guī)則(給出支持度s和置信度c,其中,如“A:xtransaction,buys(X,“E”)∧buys(X,“E”)buys(X,“K”)[s=0.6,K,O→E[s(support)=0.660%,c(confidence)=1100%]E,O→K[s(support)=0.660%,c(confidence)=1Java2008-12-2009-01-6章分類和預測count?department,agesalary的值分別為“systems26…3046K…50使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓練實例(sales,senior31…3546K…50K如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行)給定一個數(shù)據(jù)元組,它的屬性department,agesalary的值分別為“systems26…3046K…50K解一:P(46K-∵∴P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-P(46K-∵∴P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-∵∵∴P(X|junior)P(junior)=0.01796×0.68=0.0122128>0=0=P(X|senior)P(senior);Xjunior類。所以已知:X=(department=system,age=26…30,salary=46K…50K),元組總數(shù)status=senior當status=junior時,元組總數(shù)為:40+40+20+3+4+6=113status=seniorage=26
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學年年八年級數(shù)學人教版下冊專題整合復習卷第21章 二次根式綜合復習測試題(一)及答案
- 《俄羅斯農(nóng)業(yè)》課件
- 《設(shè)計審美批評論》課件
- 《使用與管理》課件
- 《認證學習資料》課件
- 《保險公司風險管理》課件
- 《數(shù)學正數(shù)和負數(shù)》課件
- 食堂承包業(yè)績報告范文
- 向上級請示報告范文
- 語言領(lǐng)域調(diào)研報告范文
- JJG 475-2008電子式萬能試驗機
- 2024年電動自行車行業(yè)商業(yè)計劃書
- (2024年)反壟斷法及反不正當競爭法課件
- 2024年醫(yī)學實驗室行業(yè)發(fā)展趨勢及前景展望分析報告
- 2023年6月國開(中央電大)行管本科《西方行政學說》期末考試試題及答案
- 【取水構(gòu)筑物計算2500字】
- 《銷售人員培訓完整》課件
- 水電安裝施工方案
- 中國網(wǎng)民權(quán)益保護調(diào)查報告
- 高一上學期期中考試語文試題(含答案)
- 心內(nèi)科入科教育培訓
評論
0/150
提交評論