下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
【MOOC】數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-青島大學(xué)中國大學(xué)慕課MOOC答案數(shù)據(jù)挖掘?qū)д搯卧獪y試1、【判斷題】數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成數(shù)據(jù)描述、預(yù)測數(shù)據(jù)等任務(wù).本題答案:【正確】2、【判斷題】尋找模式和規(guī)則主要是對數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。本題答案:【錯(cuò)誤】3、【判斷題】分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。本題答案:【正確】4、【判斷題】數(shù)據(jù)挖掘的過程可以粗略分為:問題定義、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘,以及結(jié)果的解釋和評估等步驟。本題答案:【正確】5、【判斷題】決策樹方法可以稱為一種數(shù)據(jù)挖掘技術(shù),也可以稱為一種機(jī)器學(xué)習(xí)技術(shù),所以數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是一樣的。本題答案:【錯(cuò)誤】6、【判斷題】數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中篩選出有效的、可信的以及隱含信息的高級處理過程。本題答案:【正確】數(shù)據(jù)倉庫與OLAP單元測試1、【單選題】數(shù)據(jù)倉庫是隨著時(shí)間變化的,下面的描述不正確的是:本題答案:【數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容?!?、【單選題】OLAP技術(shù)的核心是:本題答案:【多維分析】數(shù)據(jù)預(yù)處理單元測試1、【單選題】假定某屬性的最小與最大值分別為8000元和14000元。要將其映射到區(qū)間[0.0,1.0],按照最小-最大規(guī)范化方法對屬性進(jìn)行變換,屬性值12600將變換為:本題答案:【0.767】2、【單選題】若屬性income的平均值和標(biāo)準(zhǔn)差分別為32000元和17000元,則使用z-score規(guī)范化后,65600元被轉(zhuǎn)換為:本題答案:【1.867】3、【判斷題】等寬分箱法使每個(gè)箱子的取值區(qū)間相同。本題答案:【正確】4、【判斷題】數(shù)據(jù)取樣時(shí),除了要求抽樣時(shí)嚴(yán)把質(zhì)量關(guān)外,還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。本題答案:【正確】5、【判斷題】數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中。數(shù)據(jù)源可能涉及多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件。本題答案:【正確】6、【判斷題】數(shù)據(jù)歸約是用來得到數(shù)據(jù)集的歸約表示,它比源數(shù)據(jù)集小得多,但仍接近于保持源數(shù)據(jù)的完整性。本題答案:【正確】7、【判斷題】采用分箱方法不能進(jìn)行數(shù)據(jù)離散化。本題答案:【錯(cuò)誤】關(guān)聯(lián)分析單元測試1、【單選題】設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生個(gè)關(guān)聯(lián)規(guī)則。本題答案:【6】2、【單選題】某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?本題答案:【關(guān)聯(lián)分析】3、【單選題】一般數(shù)據(jù)挖掘的流程順序,下列正確的是①選擇數(shù)據(jù)挖掘的技術(shù)、功能和合適的算法②選擇數(shù)據(jù),數(shù)據(jù)清洗和預(yù)處理③了解應(yīng)用領(lǐng)域,了解相關(guān)的知識和應(yīng)用目標(biāo)④尋找感興趣的模式、模式評估、知識表示⑤收集數(shù)據(jù),創(chuàng)建目標(biāo)數(shù)據(jù)集本題答案:【③⑤②①④】4、【判斷題】頻繁項(xiàng)集的非空子集一定是頻繁項(xiàng)集。本題答案:【正確】5、【判斷題】FP-Growth算法挖掘頻繁項(xiàng)集,只需掃描一次數(shù)據(jù)庫。本題答案:【錯(cuò)誤】6、【判斷題】只要有兩個(gè)頻繁3項(xiàng)集,就一定能夠生成一個(gè)候選4項(xiàng)集。本題答案:【錯(cuò)誤】7、【判斷題】非頻繁項(xiàng)集的超集有可能是頻繁的。本題答案:【錯(cuò)誤】8、【判斷題】根據(jù)顧客去藥店的買藥記錄,想要知道哪些藥經(jīng)常被同時(shí)服用,可以采用關(guān)聯(lián)規(guī)則挖掘技術(shù)來解決。本題答案:【正確】決策樹單元測試1、【單選題】決策樹中不包含以下哪種節(jié)點(diǎn)。本題答案:【外部節(jié)點(diǎn)(externalnode)】2、【單選題】下列應(yīng)用場景不屬于分類的是本題答案:【為了解用戶特點(diǎn),公司將客戶分群】3、【單選題】下面對C4.5決策樹算法的描述錯(cuò)誤的是:本題答案:【只能處理連續(xù)屬性?!?、【單選題】已知某一連續(xù)屬性數(shù)據(jù)集如下,當(dāng)分割點(diǎn)為31時(shí),該分割點(diǎn)的信息增益比為:屬性值:25,30,32,40,48,67,98,100類別:1,1,1,1,2,2,2,2本題答案:【0.39】5、【單選題】假設(shè)有14個(gè)樣本,包含兩類,其中1類為9個(gè)樣本,2類為5個(gè)樣本,則根據(jù)熵的計(jì)算公式,此數(shù)據(jù)集的信息量為:本題答案:【0.940】6、【判斷題】分類是總結(jié)已有類別對象的特點(diǎn),并根據(jù)這些特點(diǎn),進(jìn)行未知類別對象的類別預(yù)測的過程,又可稱為無監(jiān)督學(xué)習(xí)。本題答案:【錯(cuò)誤】7、【判斷題】決策樹方法可用于連續(xù)數(shù)據(jù)離散化。本題答案:【正確】8、【判斷題】留一法是交叉驗(yàn)證法的特殊情況。本題答案:【正確】9、【判斷題】ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。本題答案:【正確】10、【判斷題】決策樹構(gòu)建之后,為了避免過度擬合,需要對樹進(jìn)行剪枝。本題答案:【正確】11、【判斷題】數(shù)據(jù)分類由兩步過程組成:第一步,建立一個(gè)分類模型,描述指定的數(shù)據(jù)類集或概念集;第二步,使用模型進(jìn)行分類。本題答案:【正確】貝葉斯單元測試1、【單選題】根據(jù)下表的訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個(gè)樸素貝葉斯分類器并確定x=(2,S)的類標(biāo)簽y。表中X1,X2為特征,取值的范圍分別為{1,2,3}和{S,M,L},Y為類標(biāo)簽。---------------------------------------------------------------------------------123456789101112131415----------------------------------------------------------------------------X1111112222233333X2SMMSSSMMLLLMMLLY001100011111110---------------------------------------------------------------------------本題答案:【y=0】2、【單選題】假設(shè)吸煙的本科生比例為15%,而吸煙的研究生占23%。如果五分之一的大學(xué)生是研究生,其余的是本科生,那么吸煙的學(xué)生是研究生的概率是多少?本題答案:【0.277】3、【單選題】公司里面男性有60人,女性有40人,男性穿皮鞋的人數(shù)有25人,穿運(yùn)動(dòng)鞋的人數(shù)有35人,女性穿皮鞋的人數(shù)有10人,穿高跟鞋的人數(shù)有30人?,F(xiàn)在你只知道有一個(gè)人穿了皮鞋,推測他是男性的概率為:本題答案:【0.714】4、【判斷題】先驗(yàn)概率是根據(jù)歷史資料或主觀估計(jì)的方法得到的概率。本題答案:【正確】5、【判斷題】后驗(yàn)概率P(H|X)表示條件X下H的概率。本題答案:【正確】6、【判斷題】樸素貝葉斯算法能夠解決特征之間有相關(guān)性的問題。本題答案:【錯(cuò)誤】聚類分析單元測試1、【單選題】簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對象恰在一個(gè)子集中,這種聚類類型稱作本題答案:【劃分聚類】2、【單選題】BIRCH是一種本題答案:【聚類算法】3、【單選題】關(guān)于K均值和DBSCAN的比較,以下說法不正確的是本題答案:【K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象?!?、【單選題】設(shè)有6個(gè)二維樣本點(diǎn),p1(0,0),p2(1,2),p3(3,1),p4(8,8),p5(9,10),p6(10,7),若想將其聚類為2類,首先選擇p1和p2為兩類中心點(diǎn),采用歐式距離測算方式,則第一輪劃分結(jié)束,新生成的簇中心點(diǎn)分別為:本題答案:【(0,0),(6.2,5.6)】5、【判斷題】聚類分析可以作為其它算法的預(yù)處理步驟,如數(shù)據(jù)離散化,數(shù)據(jù)歸約等。本題答案:【正確】期末考試1、【單選題】假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8個(gè)點(diǎn)(用(x,y)代表位置)聚類為3個(gè)簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距離函數(shù)是歐式距離。假設(shè)初始選擇A1,B1和C1分別為每個(gè)聚類的中心,用K-平均算法來給出在第一次循環(huán)執(zhí)行后的三個(gè)聚類中心:本題答案:【(2,10),(6,6),(1.5,3.5)】2、【單選題】設(shè)訓(xùn)練樣本集包含{ID,收入(萬元),婚否,愛旅游}四個(gè)特征,8條記錄如表所示,采用C4.5算法進(jìn)行連續(xù)屬性劃分,請問“收入”屬性具有幾種劃分可能?12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是本題答案:【7】3、【單選題】設(shè)訓(xùn)練樣本集包含{ID,收入(萬元),婚否,愛旅游}四個(gè)特征,8條記錄如表所示,采用C4.5算法進(jìn)行連續(xù)屬性劃分,對于“收入”屬性的劃分“2.75”,計(jì)算其信息增益率:12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是本題答案:【0.255】4、【單選題】在下表中給定的樣本上進(jìn)行合并(凝聚)層次聚類,初始簇{1},{2},{3},{4},{5},{6},{7},{8}.假定算法的終止條件為3個(gè)簇,則此3個(gè)簇為:序號屬性1屬性2序號屬性1屬性21210575225664384712458849本題答案:【最后3個(gè)簇為:{2,7},{1,4,8},{3,5,6}】5、【單選題】簡單的將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對象恰在一個(gè)子集中,這種聚類類型稱作本題答案:【劃分聚類】6、【多選題】1.數(shù)據(jù)庫有5個(gè)事物,設(shè)min_sup=60%,min_conf=80%。TID購買的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}使用Apriori算法找出所有頻繁項(xiàng)集包括:本題答案:【頻繁1項(xiàng)集:{M},{O},{K},{E},{Y}#頻繁2項(xiàng)集:{M,K},{O,K},{O,E},{K,E},{K,Y}#頻繁3項(xiàng)集:{O,K,E}】7、【多選題】數(shù)據(jù)庫有5個(gè)事物,設(shè)min_sup=60%,min_conf=80%。TID購買的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}列舉所有的強(qiáng)關(guān)聯(lián)規(guī)則(給出支持度s和置信度c):本題答案:【{O,K}-{E}(60%,100%)#{O,E}-{K}(60%,100%)】8、【多選題】假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8個(gè)點(diǎn)(用(x,y)代表位置)聚類為3個(gè)簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距離函數(shù)是歐式距離。假設(shè)初始選擇A1,B1和C1分別為每個(gè)聚類的中心,用K-平均算法來給出最后的三個(gè)簇以及簇中心:本題答案:【最后三個(gè)簇為:{A1,B1,C2}、{A3,B2,B3}、{A2,C1}#最后三個(gè)簇中心為:(3.67,9),(7,4.33),(1.5,3.5)】9、【多選題】設(shè)訓(xùn)練樣本集包含{ID,收入(萬元),婚否,愛旅游}四個(gè)特征,8條記錄如表所示,采用C4.5算法進(jìn)行連續(xù)屬性劃分,通過構(gòu)建決策樹,輸出規(guī)則為:12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是本題答案:【If收入5.8and婚否=“是”,則愛旅游=“是”;#If收入5.8and婚否=“否”,則愛旅游=“否”;#If收入=5.8,則愛旅游=“是”?!?0、【多選題】已知數(shù)據(jù)集如下,下面描述正確的為:贊成反對合計(jì)男性40120160女性103040合計(jì)50150200本題答案:【P(男性,贊成)=40/200#P(贊成)=5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 錐軸機(jī)械制造課程設(shè)計(jì)
- 2025年水平定向鉆回施工托管針對航空航天與衛(wèi)星發(fā)射基地建設(shè)3篇
- 2025年新型環(huán)保材料生產(chǎn)基地土地使用權(quán)交易合同4篇
- 二零二五版bot平臺建設(shè)與運(yùn)營融資合同范本3篇
- 2025年度環(huán)保材料加工技術(shù)保密合同4篇
- 2025年度互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)聘用合同4篇
- 2025年度叉車租賃與特種作業(yè)許可合同4篇
- 二零二五版大棚蔬菜種植與農(nóng)業(yè)品牌推廣服務(wù)合同3篇
- 二零二五版高速公路建設(shè)項(xiàng)目施工總承包管理合同范本3篇
- 2024版地產(chǎn)合作開發(fā)與房地產(chǎn)稅收籌劃合同3篇
- 直播帶貨助農(nóng)現(xiàn)狀及發(fā)展對策研究-以抖音直播為例(開題)
- 腰椎間盤突出疑難病例討論
- 《光伏發(fā)電工程工程量清單計(jì)價(jià)規(guī)范》
- 2023-2024學(xué)年度人教版四年級語文上冊寒假作業(yè)
- (完整版)保證藥品信息來源合法、真實(shí)、安全的管理措施、情況說明及相關(guān)證明
- 營銷專員績效考核指標(biāo)
- 陜西麟游風(fēng)電吊裝方案專家論證版
- 供應(yīng)商審核培訓(xùn)教程
- 【盒馬鮮生生鮮類產(chǎn)品配送服務(wù)問題及優(yōu)化建議分析10000字(論文)】
- 肝硬化心衰患者的護(hù)理查房課件
- 2023年四川省樂山市中考數(shù)學(xué)試卷
評論
0/150
提交評論