



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1.1什么是數(shù)據(jù)挖掘?(a)它是一種廣告宣傳嗎?(d)它是一種從數(shù)據(jù)庫、統(tǒng)計學(xué)、機(jī)器學(xué)和模式識別發(fā)展而來的技術(shù)的簡單轉(zhuǎn)換或應(yīng)用嗎?(c)我們提出一種觀點,說數(shù)據(jù)挖掘是數(shù)據(jù)庫進(jìn)化的結(jié)果,你認(rèn)為數(shù)據(jù)挖掘也是機(jī)器學(xué)習(xí) 研究進(jìn)化的結(jié)果嗎?你能結(jié)合該學(xué)科的發(fā)展歷史提出這一觀點嗎?針對統(tǒng)計學(xué)和模式知識 領(lǐng)域做相同的事(d )當(dāng)把數(shù)據(jù)挖掘看做知識點發(fā)現(xiàn)過程時,描述數(shù)據(jù)挖掘所涉及的步驟答:數(shù)據(jù)挖掘比較簡單的定義是:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、 隨機(jī)的實際數(shù)據(jù)中, 提取隱含在其中的、 人們所不知道的、但又是潛在有用信息和知識的過 程。數(shù)據(jù)挖掘不是一種廣告宣傳,而是由于大量數(shù)據(jù)的可用性以及把這
2、些數(shù)據(jù)變?yōu)橛杏玫男?息的迫切需要,使得數(shù)據(jù)挖掘變得更加有必要。因此,數(shù)據(jù)挖掘可以被看作是信息技術(shù)的自然演變的結(jié)果。數(shù)據(jù)挖掘不是一種從數(shù)據(jù)庫、統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡單轉(zhuǎn)換,而是來自多 學(xué)科,例如數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué),機(jī)器學(xué)習(xí)、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視 化、信息檢索、圖像和信號處理以及空間數(shù)據(jù)分析技術(shù)的集成。數(shù)據(jù)庫技術(shù)開始于數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建機(jī)制的發(fā)展,導(dǎo)致了用于數(shù)據(jù)管理的有效機(jī) 制,包括數(shù)據(jù)存儲和檢索,查詢和事務(wù)處理的發(fā)展。提供查詢和事務(wù)處理的大量的數(shù)據(jù)庫系 統(tǒng)最終自然地導(dǎo)致了對數(shù)據(jù)分析和理解的需要。因此,出于這種必要性,數(shù)據(jù)挖掘開始了其發(fā)展。當(dāng)把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程
3、時,涉及步驟如下:數(shù)據(jù)清理,一個刪除或消除噪聲和不一致的數(shù)據(jù)的過程;數(shù)據(jù)集成,多種數(shù)據(jù)源可以組合在一起;數(shù)據(jù)選擇,從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù);數(shù)據(jù)變換,數(shù)據(jù)變換或同意成適合挖掘的形式,如通過匯總或聚集操作;數(shù)據(jù)挖掘,基本步驟,使用智能方法提取數(shù)據(jù)模式;模式評估,根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式;知識表示,使用可視化和知識表示技術(shù),向用戶提供挖掘的知識1.3定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)性分析、分類、回歸、聚類、離群 點分析。使用你熟悉的現(xiàn)實生活中的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功能的例子答:分類(Classification ):首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)
4、練集,在該訓(xùn)練集上運用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進(jìn)行分類。例子:a. 信用卡申請者,分類為低、中、高風(fēng)險b. 分配客戶到預(yù)先定義的客戶分片注意:類的個數(shù)是確定的,預(yù)先定義好的聚集(Clustering ):聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的 區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。例子:a. 一些特定癥狀的聚集可能預(yù)示了一個特定的疾病b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的聚集通常作為數(shù)據(jù)挖掘的第一步。例如,”哪一種類的促銷對客戶響應(yīng)最好?”,對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不
5、同的聚集,可能效果更好。關(guān)聯(lián)(association ):關(guān)聯(lián)分析就是從給定的數(shù)據(jù)集發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知識。關(guān)聯(lián) 分析廣泛用于市場營銷、事務(wù)分析等應(yīng)用領(lǐng)域。特征化:是一個目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所有大學(xué)的計算機(jī)科學(xué)專業(yè)一年級學(xué)生的輪廓,這些特征包括作為一種高的年級平均成績的信息, 還有所修的課程的最大數(shù)量。區(qū)分:是將目標(biāo)類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進(jìn)行比較。例如,具有高GPA 的學(xué)生的一般特性可被用來與具有低GPA 的一般特性比較。最終的描述可能是學(xué)生的一個一般可比較的輪廓,就像具有高 GPA 的學(xué)生的75%是四年級計算機(jī)科學(xué)
6、專業(yè)的學(xué)生,而具有低GPA 的學(xué)生的65%不是。1.6根據(jù)你的觀察,描述一個可能的知識類型,他需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但未在本章中 列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?答:建立一個局部的周期性作為一種新的知識類型,只要經(jīng)過一段時間的偏移量在時間序列中重復(fù)發(fā)生,那么在這個知識類型中的模式是局部周期性的。需要一種新的數(shù)據(jù)挖掘技術(shù)解決這類問題。1.9與挖掘少量數(shù)據(jù)(例如,幾百個元組的數(shù)據(jù)集合)相比,挖掘海量數(shù)據(jù)(例如,數(shù)十億 元組)的主要挑戰(zhàn)是什么?答:1)可伸縮由于數(shù)據(jù)產(chǎn)生和收集技術(shù)的進(jìn)步,數(shù)吉字節(jié)、數(shù)太字節(jié)甚至數(shù)拍字節(jié)的數(shù)據(jù)集越來越普遍。如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集,則算法必
7、須是可伸縮的(scalable)。許多數(shù)據(jù)挖掘算法使用特殊的搜索策略處理指數(shù)性搜索問題。可伸縮可能還 需要實現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),以有效的方式訪問個別記錄。例如,當(dāng)要處理的數(shù)據(jù)不能放進(jìn)內(nèi)存 時,可能需要非內(nèi)存算法。使用抽樣技術(shù)或開發(fā)并行和分布算法也可以提高可伸縮程度。(2)高維性 現(xiàn)在,常常遇到具有數(shù)以百計或數(shù)以千計屬性的數(shù)據(jù)集,而不是數(shù)十年前常見的只具有少量屬性的數(shù)據(jù)集。在生物信息學(xué)領(lǐng)域,微陣列技術(shù)的進(jìn)步已經(jīng)產(chǎn)生了涉及數(shù)千 特征的基因表達(dá)數(shù)據(jù)。具有時間或空間分量的數(shù)據(jù)集也趨向于具有很高的維度。例如,考慮包含不同地區(qū)的溫度測量的數(shù)據(jù)集。如果溫度在一個相當(dāng)長的時間周期內(nèi)重復(fù)地測量,則維度(特征數(shù))的增
8、長正比于測量的次數(shù)。為低維數(shù)據(jù)開發(fā)的傳統(tǒng)的數(shù)據(jù)分析技術(shù)通常不能很好地處理這樣的高維數(shù)據(jù)。此外,對于某些數(shù)據(jù)分析算法,隨著維度(特征數(shù))的增加,計 算復(fù)雜性迅速增加。(3)異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類的。隨著數(shù)據(jù)挖掘在商務(wù)、科學(xué)、醫(yī)學(xué)和其他領(lǐng)域的作用越 來越大,越來越需要能夠處理異種屬性的技術(shù)。近年來,已經(jīng)出現(xiàn)了更復(fù)雜的數(shù)據(jù)對象。這些非傳統(tǒng)的數(shù)據(jù)類型的例子包括含有半結(jié)構(gòu)化文本和超鏈接的Web頁面集、具有序列和三維結(jié)構(gòu)的DNA數(shù)據(jù)、包含地球表面不同位置上的時間序列測量值(溫度、氣壓等)的氣象 數(shù)據(jù)。為挖掘這種復(fù)雜對象而開發(fā)的技術(shù)
9、應(yīng)當(dāng)考慮數(shù)據(jù)中的聯(lián)系,如時間和空間的自相關(guān)性、圖的連通性、半結(jié)構(gòu)化文本和 XML文檔中元素之間的父子聯(lián)系。(4) 數(shù)據(jù)的所有權(quán)與分布有時,需要分析的數(shù)據(jù)并非存放在一個站點,或歸屬一個單位,而是地理上分布在屬于多個機(jī)構(gòu)的資源中。 這就需要開發(fā)分布式數(shù)據(jù)挖掘技術(shù)。 分布式 數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包括: (1) 如何降低執(zhí)行分布式計算所需的通信量? (2) 如何 有效地統(tǒng)一從多個資源得到的數(shù)據(jù)挖掘結(jié)果? (3) 如何處理數(shù)據(jù)安全性問題? 非傳統(tǒng)的分 析 傳統(tǒng)的統(tǒng)計方法基于一種假設(shè)檢驗?zāi)J健?換句話說, 提出一種假設(shè), 設(shè)計實驗來收集 數(shù)據(jù), 然后針對假設(shè)分析數(shù)據(jù)。 但是,這一過程勞力費神。當(dāng)前的數(shù)據(jù)分析任務(wù)常常需要產(chǎn) 生和評估數(shù)以千計的假設(shè),因此希望自動地產(chǎn)生和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 如何做好園藝師考試的心理準(zhǔn)備試題及答案
- 農(nóng)業(yè)職業(yè)經(jīng)理人的領(lǐng)導(dǎo)才能及試題及答案
- 緊急人才面試題目及答案
- 農(nóng)業(yè)職業(yè)經(jīng)理人素質(zhì)要求的變化試題及答案
- 2024年花藝師考試知識整合能力的實踐試題及答案
- 水產(chǎn)國企招聘面試題及答案
- 福建事業(yè)單位考試常識面面觀試題及答案
- 助理崗轉(zhuǎn)行面試題及答案
- 園藝師植物遺傳與變異知識試題及答案
- 福建事業(yè)單位考試資源整合試題及答案
- 《鐵道概論鐵路車站》PPT課件
- T∕CNTAC 22-2018 絨毛織物掉毛性的試驗方法
- TI-BQ40Z50-軟件(課堂PPT)
- 建設(shè)項目3000萬元以下估算投資額分檔收費標(biāo)準(zhǔn)
- 《禮儀培訓(xùn)》PPT課件
- 能源計量網(wǎng)絡(luò)圖范例二
- 歷代皇帝年號表
- 超星爾雅學(xué)習(xí)通《時間管理》章節(jié)測試含答案
- 110ZM241塔型圖
- 二至六年級24點試題與部分答案
- 2016年江蘇開放大學(xué)-實踐性考核作業(yè)-建設(shè)工程施工管理1課件
評論
0/150
提交評論