南開大學22年春學期《數(shù)據(jù)挖掘》在線作業(yè)-00002_第1頁
南開大學22年春學期《數(shù)據(jù)挖掘》在線作業(yè)-00002_第2頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、-本頁為預覽頁PAGE14-本頁為預覽頁-本頁為預覽頁22春學期(高起本1709-1803、全層次1809-2103)數(shù)據(jù)挖掘在線作業(yè)-00002第1題. ( )可能使挖掘過程陷入混亂,導致不可靠的輸出。選項A:臟數(shù)據(jù)選項B:一致性數(shù)據(jù)選項C:可信性數(shù)據(jù)選項D:可解釋性數(shù)據(jù)參考答案:A第2題. ( )去掉數(shù)據(jù)中的噪聲,這類技術包括分箱、回歸和聚類。選項A:光滑選項B:聚集選項C:規(guī)范化選項D:屬性構造參考答案:A第3題. ( )可以用來把數(shù)據(jù)變換到多個粒度層。例如,關于銷售的數(shù)據(jù)挖掘模式除了在單個分店挖掘之外,還可以針對指定的地區(qū)或國家挖掘。選項A:概念分層選項B:聚類選項C:數(shù)據(jù)變換選項D:

2、數(shù)據(jù)歸約參考答案:A第4題. 在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權值為mi,那么它的類型是( )。選項A:基于圖的凝聚度選項B:基于原型的凝聚度選項C:基于原型的分離度選項D:基于圖的凝聚度和分離度參考答案:C第5題. 假設12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等寬(寬度為50)劃分成四個箱時,15在第( )個箱子內(nèi)。選項A:第一個選項B:第二個選項C:第三個選項D:第四個參考答案:B第6題. 職位可以按順序枚舉,對于教師有:助教、講師、副教授、教授。職位屬性是( )。選項A:標稱屬

3、性選項B:序數(shù)屬性選項C:數(shù)值屬性選項D:二元屬性參考答案:B第7題. 只有非零值才重要的二元屬性被稱作( )。選項A:計數(shù)屬性選項B:離散屬性選項C:非對稱的二元屬性選項D:對稱屬性參考答案:C第8題. ( )是定量的,是可度量的量,用整數(shù)或?qū)崝?shù)值表示,也可以是區(qū)間標度的或比率標度的。選項A:標稱屬性選項B:序數(shù)屬性選項C:數(shù)值屬性選項D:二元屬性參考答案:C第9題. 二元屬性(binary attribute)是一種( ),只有兩個類別或狀態(tài):0或1,0通常表示該屬性不出現(xiàn),而1表示出現(xiàn)。選項A:標稱屬性選項B:序數(shù)屬性選項C:數(shù)值屬性選項D:離散屬性參考答案:A第10題. 假設12個銷售

4、價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等頻(等深)劃分成四個箱時,15在第( )個箱子內(nèi)。選項A:第一個選項B:第二個選項C:第三個選項D:第四個參考答案:B第11題. 用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務?( )選項A:根據(jù)內(nèi)容檢索選項B:建模描述選項C:預測建模選項D:尋找模式和規(guī)則參考答案:A第12題. 在( )的數(shù)據(jù)集上挖掘?qū)⒏行?而且會產(chǎn)生相同或幾乎相同的分析結果。選項A:歸約后選項B:集成后選項C:離散后選項D:規(guī)范后參考答案:A第13題. 用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù),這種技

5、術稱為( )。選項A:回歸選項B:聚類選項C:分類選項D:離散化參考答案:A第14題. 在有關數(shù)據(jù)倉庫測試,下列說法不正確的是( )。選項A:在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進行各種測試。測試工作中要包括單元測試和系統(tǒng)測試選項B:當數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進行單元測試選項C:系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試選項D:在測試之前沒必要制定詳細的測試計劃參考答案:D第15題. 如果股市受相同的產(chǎn)業(yè)趨勢影響,兩只股票5個時間點價格的協(xié)方差為4,它們的股價會( )。選項A:一起上漲選項B:一起下跌選項C:不確定選項D:一個漲一個跌參考答案:A

6、第16題. ( )是由隨時間變化的序列或事件組成的數(shù)據(jù)庫。選項A:關系數(shù)據(jù)庫選項B:時序數(shù)據(jù)庫選項C:序列數(shù)據(jù)庫選項D:多媒體數(shù)據(jù)庫參考答案:B第17題. 下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術?( )選項A:等高線圖選項B:餅圖選項C:曲面圖選項D:矢量場圖參考答案:B第18題. 顧客數(shù)據(jù)包含年齡和年薪屬性。年薪屬性的取值范圍可能比年齡大得多。這樣,如果屬性未( ),則距離度量在年薪上所取的權重一般要超過距離度量在年齡上所取的權重。選項A:挖掘選項B:歸約選項C:存儲選項D:規(guī)范化參考答案:D第19題. 以下哪種方法不屬于特征選擇的標準方法?( )選項A:嵌入選項B:過濾選項C:包裝選

7、項D:抽樣參考答案:D第20題. 簇是數(shù)據(jù)對象的集合,使得同一個簇中的對象互相( ),而與其他簇中的對象相異。選項A:相似選項B:相同選項C:相異選項D:不同參考答案:A第21題. 統(tǒng)計學研究數(shù)據(jù)的( )。選項A:收集選項B:分析選項C:解釋選項D:表示參考答案:A,B,C,D第22題. 貝葉斯信念網(wǎng)絡(BBN)有如下哪些特點( )。選項A:構造網(wǎng)絡費時費力選項B:對模型的過分問題非常魯棒選項C:貝葉斯網(wǎng)絡不適合處理不完整的數(shù)據(jù)選項D:網(wǎng)絡結構確定后,添加變量相當麻煩參考答案:A,B第23題. ( )都導致不正確的數(shù)據(jù)。選項A:缺失值選項B:噪聲選項C:不一致性選項D:分層參考答案:A,B,C

8、第24題. 在聚類分析當中,( )等技術可以處理任意形狀的簇。選項A:MIN(單鏈)選項B:MAX(全鏈)選項C:組平均選項D:Chameleon參考答案:A,D第25題. 數(shù)據(jù)挖掘算法的組件包括:( )。選項A:模型或模型結構選項B:評分函數(shù)選項C:優(yōu)化和搜索方法選項D:數(shù)據(jù)管理策略參考答案:A,B,C,D第26題. 非頻繁模式( )。選項A:其支持度小于閾值選項B:都是不讓人感興趣的選項C:包含負模式和負相關模式選項D:對異常數(shù)據(jù)項敏感參考答案:A,D第27題. 數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程中,ETL軟件的主要功能包括( )。選項A:數(shù)據(jù)抽取選項B:數(shù)據(jù)轉(zhuǎn)換選項C:數(shù)據(jù)加載選項D:數(shù)據(jù)稽核參考

9、答案:A,B,C第28題. 大量信息都以文本形式存儲,如:( )、博客、網(wǎng)頁等,因此,文本挖掘研究非?;钴S。選項A:新聞稿選項B:論文選項C:書籍選項D:數(shù)字圖書館參考答案:A,B,C,D第29題. 數(shù)據(jù)清理過程的第一步是偏差檢測(discrepancy detection)。導致偏差的因素可能有多種,包括:( )。選項A:具有很多可選字段的設計糟糕的輸入表單選項B:人為的數(shù)據(jù)輸入錯誤選項C:有意的錯誤選項D:數(shù)據(jù)退化參考答案:A,B,C,D第30題. 聚類分析是數(shù)據(jù)挖掘中的一個很活躍的研究領域,并提出了許多聚類算法。這些算法可以被分為( )。選項A:劃分方法選項B:層次方法選項C:基于密度的

10、方法選項D:基于網(wǎng)格的方法參考答案:A,B,C,D第31題. 粒度是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個衡量。粒度越大,細節(jié)程度越高,綜合程度越低,回答查詢的種類越多。選項A:對選項B:錯參考答案:B第32題. 多元回歸是簡單線性回歸的擴展,允許用兩個或多個自變量的線性函數(shù)對因變量y建模。選項A:對選項B:錯參考答案:A第33題. 數(shù)據(jù)挖掘是通過構建模型來完成的。從某種詞義來看,模型是對事物如何工作的一種解釋或說明,其足以反映現(xiàn)實,從而可以用來對現(xiàn)實世界進行推理。選項A:對選項B:錯參考答案:A第34題. 業(yè)務流程將客戶從客戶生存周期的一個階段轉(zhuǎn)移到另一個階段。這些業(yè)務流程非常重要,因為它們將

11、使得客戶隨著時間推移而更具價值。選項A:對選項B:錯參考答案:A第35題. 要進行聚類分析就要首先建立一個由某些事物屬性構成的指標體系,或者說是一個變量組合。入選的每個指標必須能刻畫事物屬性的某個側(cè)面,所有指標組合起來形成一個完備的指標體系,它們互相配合可以共同刻畫事物的特征。選項A:對選項B:錯參考答案:A第36題. 數(shù)據(jù)資源可以重復使用,在共享中不斷產(chǎn)生新的價值。選項A:對選項B:錯參考答案:A第37題. 高維數(shù)據(jù)的離群點檢測方法可以劃分成三種主要方法,包括擴充的傳統(tǒng)離群點檢測、找出子空間的離群點和對高維離群點建模。選項A:對選項B:錯參考答案:A第38題. 數(shù)據(jù)規(guī)范化指將數(shù)據(jù)按比例縮放(

12、如更換大單位),使之落入一個特定的區(qū)域(如0-1)以提高數(shù)據(jù)挖掘效率的方法。選項A:對選項B:錯參考答案:A第39題. 聚類分析的結果取決于變量的選擇和變量值獲取的兩個方面。變量選擇越準確、測量越可靠,得到的分類結果越是能描述事物各類間的本質(zhì)區(qū)別。選項A:對選項B:錯參考答案:A第40題. 客戶關系管理系統(tǒng)的主要目標是提高客戶價值。即使客戶已經(jīng)離開,仍有可能將他們吸引回來。選項A:對選項B:錯參考答案:A第41題. 具有較高的支持度的項集具有較高的置信度。選項A:對選項B:錯參考答案:B第42題. 尋找模式和規(guī)則主要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)則以及模式。選項A:對選項B:錯參考答案:B第

13、43題. 多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋轉(zhuǎn)等各種分析動作,以求剖析數(shù)據(jù),使擁護能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入理解多維數(shù)據(jù)集中的信息。選項A:對選項B:錯參考答案:A第44題. 數(shù)據(jù)挖掘結果經(jīng)??瓷先ナ强煽康?因為它們是基于實際的數(shù)據(jù),以看似科學的態(tài)度進行處理。這種可靠性看上去非常具有欺騙性,因為數(shù)據(jù)可能不正確或者與手頭的問題無關;匯總之類的數(shù)據(jù)轉(zhuǎn)換可能會破壞或隱藏重要信息,模式可能不代表任何基本規(guī)則等。選項A:對選項B:錯參考答案:A第45題. 用于分析的數(shù)據(jù)集可能包含數(shù)以百計的屬性,其中大部分屬性可能與數(shù)據(jù)任務不相關,或是冗余的。不相關或冗余的屬性增加了數(shù)據(jù)量,可能會減慢挖掘進程。選項A:對選項B:錯參考答案:A第46題. 頻繁模式是在數(shù)據(jù)中頻繁出現(xiàn)的模式,存在多種類型:頻繁項集、頻繁子結構、頻繁子序列。選項A:對選項B:錯參考答案:A第47題. 噪聲(noise)是被測量的變量的隨機誤差或方差。選項A:對選項B:錯參考答案:A第48題. 關聯(lián)規(guī)則的經(jīng)典算法包括A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論