



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)挖掘考試題目一一關聯(lián)分析一、10個選擇1. 以下屬于關聯(lián)分析的是()A. CPU性能預測B.購物籃分析C.自動判斷鳶尾花類別D.股票趨勢建模2. 維克托?邁爾-舍恩伯格在大數(shù)據(jù)時代:生活、工作與思維的大變革一書中,持續(xù)強調了一個觀點:大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應該注重數(shù)據(jù)中的相關關系,而不是因果關系。其中,數(shù)據(jù)之間的相關關系可以通過以下哪個算法直接挖掘()Bayes NetworkApriori)的指標。A. K-meansB.C. C4.5D.3. 置信度(confidence)是衡量興趣度度量(B.確定性D.新穎性)A.簡潔性C.實用性4.
2、Apriori算法的加速過程依賴于以下哪個策略(A.抽樣B.剪枝C.緩沖D.并行5. 以下哪個會降低 Apriori算法的挖掘效率()A.支持度閾值增大B.項數(shù)減少C.事務數(shù)減少D.減小硬盤讀寫速率6. Apriori算法使用到以下哪些東東()B.二叉樹、哈希樹D.多叉樹、有向無環(huán)圖A.格結構、有向無環(huán)圖C.格結構、哈希樹7. 非頻繁模式()B.令人不感興趣D.對異常數(shù)據(jù)項敏感A.其置信度小于閾值C.包含負模式和負相關模式8. 對頻繁項集、頻繁閉項集、極大頻繁項集的關系描述正確的是()注:分別以1、2、3代表之A. 3可以還原出無損的1B. 2可以還原出無損的1C. 3與2是完全等價的D. 2
3、與1是完全等價的9. Hash tree 在Apriori算法中所起的作用是()A.存儲數(shù)據(jù)B.查找C.加速查找D.剪枝10. 以下不屬于數(shù)據(jù)挖掘軟件的是()A.SPSS ModelerB.WekaC.Apache SparkD.Knime二、10個填空1. 關聯(lián)分析中表示關聯(lián)關系的方法主要有: 2. 關聯(lián)規(guī)則的評價度量主要有: 和 3. 關聯(lián)規(guī)則挖掘的算法主要有: 和 4. 購物籃分析中,數(shù)據(jù)是以 的形式呈現(xiàn)。5. 個項集滿足最小支持度,我們稱之為 。6. 一個關聯(lián)規(guī)則同時滿足最小支持度和最小置信度,我們稱之為7. 在回歸與相關分析中,因變量值隨自變量值的增大(減小)而減小(增大)的現(xiàn)象叫做
4、。8. 極大頻繁項集不能無損還原出頻繁項集,是因為它不包含頻繁項集的信息。9. 經(jīng)典的Apriori算法是逐層掃描的,也就是說它是(選:深度/寬度)優(yōu)先的。10. 數(shù)據(jù)挖掘大概步驟包括:輸入數(shù)據(jù)預處理 挖掘 后處理 輸出知識。其中,輸出的知識可以有很多種表示形式,兩種極端的形式是:內部結構難以被理解的黑匣子,比如說人工神經(jīng)網(wǎng)絡訓練得出的網(wǎng)絡;模式結構清晰的匣子,這種結構容易被人理解,比如說決策樹產生的樹。那么,關聯(lián)分析中輸出的知識的表示形式主要是( 選:黑匣子/清晰結構)。三、10個判斷()1.啤酒與尿布的故事是聚類分析的典型實例。()2.Apriori算法是一種典型的關聯(lián)規(guī)則挖掘算法。()3
5、.支持度是衡量關聯(lián)規(guī)則重要性的一個指標。()4.可信度是對關聯(lián)規(guī)則的準確度的衡量。)5.給定關聯(lián)規(guī)則 A B,意味著:若 A發(fā)生,B也會發(fā)生。()6.頻繁閉項集可用來無損壓縮頻繁項集。()7.關聯(lián)規(guī)則可以用枚舉的方法產生。)8.Apriori算法產生的關聯(lián)規(guī)則總是確定的。9. 不滿足給定評價度量的關聯(lián)規(guī)則是無趣的。10. 對于項集來說,置信度沒有意義。四、5個簡答1. 簡述關聯(lián)規(guī)則產生的兩個基本步驟。2. Apriori算法是從事務數(shù)據(jù)庫中挖掘布爾關聯(lián)規(guī)則的常用算法, 該算法利用頻繁項集性質 的先驗知識,從候選項集中找到頻繁項集。請簡述 Apriori算法的基本原理。3. 簡述Apriori算
6、法的優(yōu)點和缺點。4. 針對Apriori算法的缺點,可以做哪些方面的改進?5. 強關聯(lián)規(guī)則一定是有趣的嗎?為什么?C )B.二叉樹、哈希樹C.格結構、哈希樹7. 非頻繁模式(D )A.其置信度小于閾值D. 多叉樹、有向無環(huán)圖B. 令人不感興趣C.包含負模式和負相關模式D.對異常數(shù)據(jù)項敏感數(shù)據(jù)挖掘考試題目+參考答案、10個選擇1. 以下屬于關聯(lián)分析的是(B )A. CPU性能預測B.購物籃分析C.自動判斷鳶尾花類別D.股票趨勢建模2. 維克托?邁爾-舍恩伯格在大數(shù)據(jù)時代:生活、工作與思維的大變革一書中,持續(xù)強調了一個觀點:大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應該
7、注重數(shù)據(jù)中的相關關系,而不是因果關系。其中,數(shù)據(jù)之間的相關關系可以通過以下哪個算法直接挖掘(D )A. K-meansB. Bayes NetworkC. C4.5D.Apriori3. 置信度(con fide nee)是衡量興趣度度量(B )的指標。A.簡潔性B.確定性C.實用性D.新穎性4. Apriori算法的加速過程依賴于以下哪個策略(B )A.抽樣B.剪枝C.緩沖D.并行5. 以下哪個會降低 Apriori算法的挖掘效率(D )A.支持度閾值增大B.項數(shù)減少C.事務數(shù)減少D.減小硬盤讀寫速率6. Apriori算法使用到以下哪些東東(A.格結構、有向無環(huán)圖B )注:分別以1、2、3
8、代表之18. 對頻繁項集、頻繁閉項集、極大頻繁項集的關系描述正確的是(A. 3可以還原出無損的 1B. 2可以還原出無損的C. 3與2是完全等價的D. 2與1是完全等價的9. Hash tree 在Apriori 算法中所起的作用是(C )A.存儲數(shù)據(jù)B.查找C.加速查找D.剪枝10. 以下不屬于數(shù)據(jù)挖掘軟件的是(C )A.SPSS ModelerB.WekaC.Apache SparkD.Knime二、10個填空1. 關聯(lián)分析中表示關聯(lián)關系的方法主要有:項集 和 關聯(lián)規(guī)則 。2. 關聯(lián)規(guī)則的評價度量主要有:支持度 和 置信度 。3. 關聯(lián)規(guī)則挖掘的算法主要有:Apriori 和FP-Grow
9、th 。4. 購物籃分析中,數(shù)據(jù)是以不對稱二元變量的形式呈現(xiàn)。5. 個項集滿足最小支持度,我們稱之為頻繁項集。6. 一個關聯(lián)規(guī)則同時滿足最小支持度和最小置信度,我們稱之為強規(guī)則7. 在回歸與相關分析中, 因變量值隨自變量值的增大 (減小)而減小(增大)的現(xiàn)象叫做 負 相關 。8. 極大頻繁項集不能無損還原出頻繁項集,是因為它不包含頻繁項集的支持度信息。9. 經(jīng)典的Apriori算法是逐層掃描的,也就是說它是 寬度(選:深度/寬度)優(yōu)先的。10. 數(shù)據(jù)挖掘大概步驟包括:輸入數(shù)據(jù)預處理 挖掘 后處理 輸出知識。其中,輸出的知識可以有很多種表示形式,兩種極端的形式是:內部結構難以被理解的黑匣子,比如
10、說人工神經(jīng)網(wǎng)絡訓練得出的網(wǎng)絡;模式結構清晰的匣子,這種結構容易被人理解,比如說決策樹產生的樹。那么,關聯(lián)分析中輸出的知識的表示形式主要是清晰結構(選:黑匣子/清晰結構)。三、10個判斷(?)1啤酒與尿布的故事是聚類分析的典型實例。(?)2.Apriori算法是一種典型的關聯(lián)規(guī)則挖掘算法。(?)3.支持度是衡量關聯(lián)規(guī)則重要性的一個指標。(?)4.可信度是對關聯(lián)規(guī)則的準確度的衡量。? )5.給定關聯(lián)規(guī)則 A B,意味著:若 A發(fā)生,B也會發(fā)生。(?)6.頻繁閉項集可用來無損壓縮頻繁項集。(?)7.關聯(lián)規(guī)則可以用枚舉的方法產生。?)8.Apriori 算法產生的關聯(lián)規(guī)則總是確定的。(?)9.不滿足給
11、定評價度量的關聯(lián)規(guī)則是無趣的。(?)10.對于項集來說,置信度沒有意義。四、5個簡答1. 簡述關聯(lián)規(guī)則產生的兩個基本步驟。答:關聯(lián)規(guī)則產生的兩個基本步驟為:根據(jù)給定的支持度從項集中產生頻繁項集;根據(jù)給定的置信度從頻繁項集中產生關聯(lián)規(guī)則。2. Apriori算法是從事務數(shù)據(jù)庫中挖掘布爾關聯(lián)規(guī)則的常用算法,該算法利用頻繁項集性質的先驗知識,從候選項集中找到頻繁項集。請簡述Apriori算法的基本原理。答:關聯(lián)規(guī)則的產生并不依賴于Apriori算法,Apriori算法用來加速規(guī)則的產生過程。Apriori算法的加速過程依賴于這樣一個先驗原理:“頻繁項集的子集是頻繁的”。3. 簡述Apriori算法的優(yōu)點和缺點。答:Apriori算法的優(yōu)點:結構簡單、易于理解。Apriori算法的缺點:產生大量的候選項集,I/O開銷較大。4. 針對Apriori算法的缺點,可以做哪些方面的改進?答:Apriori算法的缺點主要是產生的候選項集較多,從而導致I/O開銷較大。由此,可以將龐大的數(shù)據(jù)集劃分為可以裝進內存的數(shù)據(jù)塊,利用“頻繁項集至少
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息傳遞的有效性與準確性計劃
- 輸血護理查對制度
- 《貴州林東礦業(yè)集團有限責任公司百里杜鵑風景名勝區(qū)金坡鄉(xiāng)紅林煤礦(變更)礦產資源綠色開發(fā)利用方案(三合一)》評審意見
- 第六單元寫作《表達要得體》教學設計 2024-2025學年統(tǒng)編版語文八年級上冊
- 2025年繪畫防疫創(chuàng)意口罩標準教案
- 2025年濟南貨運從業(yè)資格證試題和答案
- 2025年濰坊道路貨運從業(yè)資格證模擬考試官方題下載
- 2025年銅川貨運上崗證考試題庫
- 2025年營口貨車從業(yè)資格證理考試
- 2025年安康道路貨運輸從業(yè)資格證模擬考試題庫
- 《展示設計》課件-第一章 展示設計概述
- 建筑施工安全管理存在的問題及對策【15000字(論文)】
- 2024年湖南鐵道職業(yè)技術學院高職單招語文歷年參考題庫含答案解析
- 2024年山西同文職業(yè)技術學院高職單招職業(yè)適應性測試歷年參考題庫含答案解析
- 2025年青海省建筑安全員B證考試題庫
- 制種玉米種子質量控制培訓
- 竣工結算審計服務投標方案(2024修訂版)(技術方案)
- 《森林資源資產評估》課件-森林資源經(jīng)營
- 管道機器人研究綜述
- 《媒介社會學》課件
- 2024年考研政治真題及答案
評論
0/150
提交評論