數(shù)據(jù)挖掘試題與答案_第1頁
數(shù)據(jù)挖掘試題與答案_第2頁
數(shù)據(jù)挖掘試題與答案_第3頁
數(shù)據(jù)挖掘試題與答案_第4頁
數(shù)據(jù)挖掘試題與答案_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、一、解答題 (總分值 30 分,每題 5 分)1. 如何明口得數(shù)據(jù)挖掘和知識(shí)發(fā)覺的關(guān)系?請(qǐng)?jiān)敿?xì)論述之第一從數(shù)據(jù)源中抽取感愛好的數(shù)據(jù),并把它組織成適合挖掘的數(shù)據(jù)組織形式;然后,挪用 業(yè)的智能系知識(shí)發(fā)覺是一個(gè)指出數(shù)據(jù)中有效、嶄新、潛在的、有價(jià)值的、一個(gè)不可輕忽的流程,其最終目標(biāo)是把握數(shù)據(jù)的 式。流程步驟:先明白得要應(yīng)用的領(lǐng)域、熟悉相關(guān)知識(shí),接著成立目標(biāo)數(shù)據(jù)集,并專注所選擇的數(shù)據(jù)子集;再 據(jù)預(yù)處巻,剔除錯(cuò)誤或不一致的數(shù)據(jù):然后進(jìn)行數(shù)據(jù)簡化與轉(zhuǎn)換工作:再通過數(shù)據(jù)挖掘的技術(shù)程序成為模式、 歸分析或找出分類模型:最后通過說明和評(píng)判成為有效的信息。 2. 時(shí)刻序列數(shù)據(jù)挖掘的方式有哪些,請(qǐng)?jiān)敿?xì)論述之1) 、確

2、信性時(shí)刻序列預(yù)測(cè)方式:關(guān)于平穩(wěn)轉(zhuǎn)變特點(diǎn)的時(shí)刻序列來講,假設(shè)以后行為與此刻的行有關(guān),利用屬性此刻的值預(yù)測(cè)以后的值是可行的。例如,要預(yù)測(cè)下周某種商品的銷售額,能 時(shí)刻序列是平穩(wěn)的,能夠用自回歸 (Auto Regressive,簡稱 AR)模型、移動(dòng)回歸模型 (Moving Average,簡稱 3) 、其他方式:可用于時(shí)刻序列預(yù)測(cè)的方式很多,其中比較成功的是神經(jīng)網(wǎng)絡(luò)。由于大量的時(shí)刻非平穩(wěn)的 , 因此特點(diǎn)參數(shù)和數(shù)據(jù)散布隨著時(shí)刻的推移而轉(zhuǎn)變。假設(shè)通過對(duì)某段歷史數(shù)據(jù)的訓(xùn)學(xué)統(tǒng)計(jì)模型估量神經(jīng)網(wǎng)絡(luò)的各層權(quán)重參數(shù)初值,就可能成立神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,用于時(shí) 刻序列的預(yù)測(cè)。3. 數(shù)據(jù)挖掘的分類方式有哪些,請(qǐng)?jiān)敿?xì)論述

3、之 類的中心來完成,在實(shí)際的汁算中往往用距離來表征,距 離越近,相似性越大,距離 試,每一個(gè)分枝代表一個(gè)測(cè)試輸出,而每一個(gè)樹葉結(jié)點(diǎn)代表類 或類散布。樹的最頂層結(jié)點(diǎn) 4)、規(guī)那么歸納方式:規(guī)那么歸納有四種策略:減法、加法,先加后減、先a) 減法策略:以具體例子為起點(diǎn),對(duì)例子進(jìn)行推行或泛化,推行即減除 b) 加法策略:起始假設(shè)規(guī)那么的條件部份為空(永真規(guī)那么),若是該 規(guī)那么覆蓋 c) 先加后減策略:山于屬性間存在相關(guān)性,因此可能某個(gè)條件的加入會(huì)致使前面加入的條件沒什么作用,因此需要減除前面的條件。 4.數(shù)據(jù)挖掘的聚類方式有哪些,請(qǐng)?jiān)敿?xì)論述之 技術(shù)將構(gòu)造 然后歸并這些原子簇為愈來愈大的簇,直到某個(gè)

4、終結(jié)條件被知足。b) 割裂的層次聚類:釆納自頂向下的策略,它第一將所有對(duì)象置于一個(gè)簇 2) 密度聚類方式:密度聚類方式的指導(dǎo)思想是,只要一個(gè)區(qū)域中的點(diǎn)的密 ,度大于某個(gè)域 率的方式來進(jìn)行聚類分析,該聚類算法的質(zhì)量取 決于網(wǎng)格結(jié)構(gòu)最低層的粒度。若是粒度比較細(xì),處置的代價(jià)會(huì)顯著增加 ; 但如果是粒度較粗,那么聚類質(zhì)量會(huì)受到阻礙。5?請(qǐng)論述數(shù)據(jù)挖掘的大體進(jìn)程及步驟 應(yīng)該是對(duì)數(shù)據(jù)挖掘的目標(biāo)有一個(gè)淸楚的熟悉,明白利潤所在,苴中包括數(shù)據(jù)搜集、數(shù)據(jù) 分析和數(shù)據(jù)報(bào) 始數(shù)據(jù)搜集、數(shù)搦描述、數(shù)據(jù)探討和數(shù)據(jù)質(zhì)量核查等。 一進(jìn)程包括原數(shù)據(jù)整理和數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)建模的預(yù)備工作需要在這一時(shí)期完成。更深層次的數(shù)據(jù)探 在這一時(shí)

5、期進(jìn)行,新增模型的應(yīng)用再次提供了在業(yè)務(wù)明白得基礎(chǔ)上看淸楚數(shù)據(jù)模式 四、成立模型:數(shù)據(jù)模型成立是應(yīng)用數(shù)據(jù)挖掘軟件不不同的情景下取得結(jié)果的進(jìn)程。討也能夠五、模型評(píng)估:數(shù)聽說明時(shí)期是相當(dāng)重要的,要對(duì)成立的模型是不是能夠達(dá)到問題解決的目 的進(jìn)行研究,即包括模型是不是能夠達(dá)到研究的目標(biāo):模型是不是能夠用適合的方式顯示。六、模型發(fā)布:數(shù)據(jù)挖掘既能夠應(yīng)用于核實(shí)先前的假設(shè),也能夠應(yīng)用于知識(shí)發(fā)覺(識(shí)別未預(yù) 期的有效的關(guān)6. 什么緣故說強(qiáng)關(guān)聯(lián)規(guī)那么不必然都是有效的,請(qǐng)舉例說明之。 飯。假設(shè)支持度閾值 s二,置信度閾值 c=60%o 基 于上面數(shù)據(jù)和假設(shè)咱們可挖掘出強(qiáng)關(guān)聯(lián)規(guī)那 都是頻繁項(xiàng),而規(guī)那么的置信度 c=40

6、%/60 %=%也大于置信度閾值。 一、請(qǐng)分析關(guān)聯(lián)規(guī)那么挖掘方式中,項(xiàng) LI 集格空間理論、進(jìn)展及其在數(shù)據(jù)挖掘中 的應(yīng)用價(jià) 隨著數(shù)據(jù)庫容量的增大,重復(fù)訪問數(shù)據(jù)庫(外存)將致使性能低下。因此超集都是非頻 論和算法來減少數(shù)據(jù)庫的掃描次數(shù)和侯選集空間占用,已經(jīng)成 為最近兒年來關(guān)聯(lián)規(guī)那 二、請(qǐng)分析 Web挖掘技術(shù)所采納的方式及其在數(shù)據(jù)挖掘中的應(yīng)用價(jià)值。 成、概化、分類等,挖掘某類信息所包括的知識(shí)模式。 Web訪問信息挖掘( Web Usage Mining Web訪問信息挖掘是對(duì)信息進(jìn)行集Web 時(shí)在效勞器方留下的訪問記錄進(jìn)行挖掘。通過度析 日記記錄中的規(guī)律,能夠識(shí)別用戶的忠實(shí)度、喜好、中意度,能夠

7、發(fā)覺潛在用戶,增強(qiáng)站點(diǎn)的效勞競 從大量的信息中發(fā)覺用戶感愛好的信息:因特網(wǎng)上蘊(yùn)藏著大量的 信息,通過簡單的閱讀或關(guān)鍵詞匹配的搜索引擎取得的是孤立而凌 亂的“表面信息” , Web挖 對(duì)用戶可用的信息,而這些信息的深層次含 義是很難被用戶直接利用的,必需 行為和方式的普遍知識(shí),用以改良 Web 效勞方的設(shè)訃,提供個(gè)性化的效勞。三、證明題 (總分值 16 分) 依照項(xiàng)集支持?jǐn)?shù)的概念,很容易明白支持 建造一個(gè)決策樹,有五個(gè)要緊步驟:依照已知的分類,從數(shù)據(jù) D 中找到例子 S。確信最正確謂詞 p 用來分類。一樣笫一在較粗的層次中尋覓相關(guān)謂找到最正確的緩沖區(qū)大小和形狀。關(guān)于取樣中的每一個(gè)實(shí)體,它周 利用 p 和 C,對(duì)每一個(gè)緩沖區(qū)歸納謂詞。利用泛化的謂詞和 ID3 建造二義樹 To 輸出:二義決策樹 T。 2. 指出算法的不足的地方,應(yīng)該從哪些方面增強(qiáng)算法的功能和性能。對(duì)任何數(shù)量的訓(xùn)練集,老是能找到相應(yīng)的多個(gè)線性判別函數(shù)把它分類,可是如此生成的 樹的深度可能太大 . 因?yàn)?,盡管利用了最好的特點(diǎn)進(jìn)行分類,但仍是可能存在一些特點(diǎn)對(duì)分 類很有效,盡管不是像最好的特點(diǎn)那樣有效,卻沒有效到 . 一個(gè)直覺是:有些特點(diǎn)對(duì)某些類 別有效,可是對(duì)另外一些那么無效,乃至可能有副作用,若是能把這些特點(diǎn)選擇出來,一次 就能夠最大限度地把多個(gè)類別分開

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論