《數(shù)據(jù)分析與挖掘》期末考試復(fù)習(xí)題庫(kù)(含答案)_第1頁(yè)
《數(shù)據(jù)分析與挖掘》期末考試復(fù)習(xí)題庫(kù)(含答案)_第2頁(yè)
《數(shù)據(jù)分析與挖掘》期末考試復(fù)習(xí)題庫(kù)(含答案)_第3頁(yè)
《數(shù)據(jù)分析與挖掘》期末考試復(fù)習(xí)題庫(kù)(含答案)_第4頁(yè)
《數(shù)據(jù)分析與挖掘》期末考試復(fù)習(xí)題庫(kù)(含答案)_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PAGEPAGE1《數(shù)據(jù)分析與挖掘》期末考試復(fù)習(xí)題庫(kù)(含答案)一、單選題1.(單選題,2分)關(guān)于一致性校驗(yàn)的說(shuō)法正確的是()A、一致性校驗(yàn)包含了時(shí)間校驗(yàn)和字段信息校驗(yàn)B、一致性校驗(yàn)是最好的校驗(yàn)方法C、一致性校驗(yàn)是唯一的校驗(yàn)方法D、一致性校驗(yàn)主要用于數(shù)據(jù)處理答案:A2.(單選題,2分)以下有關(guān)BP網(wǎng)絡(luò)說(shuō)法錯(cuò)誤的是()A、BP網(wǎng)絡(luò)是一種前饋網(wǎng)絡(luò),其隱章必需分層,又稱為多層前饋網(wǎng)絡(luò)B、反向傳播的目的是為了修改各層神經(jīng)元的權(quán)值,使誤差信號(hào)最小C、BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法最核心的三部分是權(quán)值調(diào)整、輸出層連接權(quán)調(diào)整、隱層連接權(quán)調(diào)整D、正向傳播是輸入信息由輸入層傳至隱層,最終在輸出層輸出答案:C3.(單選題,2.0分)皮爾森相關(guān)系數(shù)取值為()時(shí)說(shuō)明兩個(gè)對(duì)象不存在線性關(guān)系。A、0.05B、-1C、1D、0答案:D4.(單選題,2分)關(guān)于一致性校驗(yàn)的說(shuō)法正確的是()A、一致性校驗(yàn)包含了時(shí)間校驗(yàn)和字段信息校驗(yàn)B、一致性校驗(yàn)是最好的校驗(yàn)方法C、一致性校驗(yàn)是唯一的校驗(yàn)方法D、一致性校驗(yàn)主要用于數(shù)據(jù)處理答案:A5.(單選題,1分)某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題?()A、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B、聚類C、分類D、自然語(yǔ)言處理答案:A6.(單選題,2分)頻繁項(xiàng)集、頻繁閉項(xiàng)集、最大頻繁項(xiàng)集之間的關(guān)系是:()A、頻繁項(xiàng)集頻繁閉項(xiàng)集=最大頻繁項(xiàng)集B、頻繁項(xiàng)集=頻繁閉項(xiàng)集最大頻繁項(xiàng)集C、頻繁項(xiàng)集頻繁閉項(xiàng)集最大頻繁項(xiàng)集D、頻繁項(xiàng)集=頻繁閉項(xiàng)集=最大頻繁項(xiàng)集答案:C解析:頻繁項(xiàng)集是一個(gè)更廣泛的概念,它包含了頻繁閉項(xiàng)集和最大頻繁項(xiàng)集7.(單選題,2分)以下不屬于關(guān)聯(lián)規(guī)則算法的是()A、priori算法B、K-Means算法C、Eclat算法D、FP-Growth算法答案:B8.(單選題,2分)數(shù)據(jù)挖掘的主要功能是什么?A、挖掘數(shù)據(jù)潛在的信息B、對(duì)數(shù)據(jù)進(jìn)行記錄和處理C、提高數(shù)據(jù)存儲(chǔ)的效率D、對(duì)數(shù)據(jù)進(jìn)行分類和排序答案:A9.(單選題,2.0分)某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題?()A、分類B、聚類C、自然語(yǔ)言處理D、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)答案:D10.(單選題,2.0分)假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn)化為:()A、0.716B、1.458C、0.821D、1.224答案:A11.(單選題,2.0分)在利用linear_model.LinearRegression()構(gòu)造的reg對(duì)象訓(xùn)練模型后,可以通過(guò)以下哪行代碼查看回歸模型系數(shù)()A、reg.coefB、reg._coefC、reg.coefficientD、reg.coefficient答案:A12.(單選題,2分)“8,000米是飛機(jī)飛行最大高度”與“10,000米的高山”表示:()。A、數(shù)據(jù)B、信息C、知識(shí)D、智慧答案:B13.(單選題,2分)下列分別屬于分類與回歸模型的評(píng)價(jià)指標(biāo)的是()A、混淆矩陣、反饋率B、均方誤差、平均絕對(duì)誤差C、ROC曲線、絕對(duì)誤差與相對(duì)誤差D、Kappa統(tǒng)計(jì)值、精確率答案:C14.(單選題,2分)缺失值處理方法中錯(cuò)誤的是()。A、對(duì)于離散屬性或定性屬性,使用眾數(shù)B、轉(zhuǎn)換為分類問(wèn)題或數(shù)值預(yù)測(cè)問(wèn)題C、對(duì)于分類屬性,使用同類對(duì)象屬性值的均值D、對(duì)于所有屬性都可以使用均值答案:D15.(單選題,2.0分)下列應(yīng)用場(chǎng)景不屬于分類的是()。A、醫(yī)生根據(jù)患者的癥狀判斷所患疾病類型B、推廣新產(chǎn)品時(shí)預(yù)測(cè)已有客戶是否對(duì)新產(chǎn)品感興趣C、為了解用戶特點(diǎn),公司將客戶分群D、對(duì)信用卡申請(qǐng)者判斷其信普高低答案:C16.(單選題,1分)以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法A、嵌入B、過(guò)濾C、包裝D、抽樣答案:D17.(單選題,2分)當(dāng)數(shù)據(jù)所帶標(biāo)簽未知時(shí),可以使用()技術(shù)找出同類標(biāo)簽,分離其他標(biāo)簽。A、聚類B、關(guān)聯(lián)分析C、主成分分析D、分類答案:A18.(單選題,2分)在關(guān)聯(lián)規(guī)則分析中,以下哪個(gè)指標(biāo)表示“包含A的事務(wù)中同時(shí)包含B事務(wù)的比例”與“包含B事務(wù)的比例”的比值?A、Support(支持度)B、Confidence(置信度)C、Lift(提升度)D、Apriori答案:C19.(單選題,2.0分)(6)list(range(1,5))的返回結(jié)果是()。A、(1,2,3,4,5)B、[1,2,3,4,5]C、[1,2,3,4]D、(1,2,3,4)答案:C20.(單選題,2分)以下不屬于處理缺失值的插補(bǔ)方法的是()A、拉格朗日插值法B、分段插值法C、牛頓插值法D、切分?jǐn)?shù)據(jù)法答案:D21.(單選題,2分)在利用linear_model.LinearRegression()構(gòu)造的reg對(duì)象訓(xùn)練模型后,可以通過(guò)以下哪行代碼查看回歸模型系數(shù)()A、reg.coefficient_B、reg.coef_C、reg._coefD、reg._coefficient答案:B22.(單選題,2分)K一Means算法中的初始中心點(diǎn)()。A、可隨意設(shè)置B、必須在每個(gè)簇的真實(shí)中心點(diǎn)的附近C、必須足夠分散D、直接影響算法的收斂結(jié)果答案:D23.(單選題,2分)以下不屬于多表合并的方法的是()A、堆疊合并B、主鍵合并C、附件合并D、重疊合并答案:C24.(單選題,2.0分)設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生_()_個(gè)關(guān)聯(lián)規(guī)則。A、6B、4C、5D、7答案:A25.(單選題,2分)“8,000”和“10,000”表示:()。A、數(shù)據(jù)B、信息C、知識(shí)D、智慧答案:A26.(單選題,2分)以下不是常見(jiàn)的聚類算法的是()A、譜聚類B、層次聚類C、K-Means聚類D、密度聚類答案:A27.(單選題,2.0分)當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?()A、關(guān)聯(lián)分析B、聚類C、隱馬爾可夫鏈D、分類答案:B28.(單選題,2分)異常值校驗(yàn)常用的分析方法是()A、IQR準(zhǔn)則B、4西塔原則C、牛頓插值法D、等寬法答案:A29.(單選題,2分)在利用linear_model.LinearRegression()構(gòu)造的reg對(duì)象訓(xùn)練模型后,可以通過(guò)以下哪行代碼查看回歸模型系數(shù)()A、reg.coefficient_B、reg.coef_C、reg._coefD、reg._coefficient答案:B30.(單選題,2.0分)人從出生到長(zhǎng)大的過(guò)程中,是如何認(rèn)識(shí)事物的?()A、先聚類再分類B、聚類過(guò)程C、先分類再聚類D、分類過(guò)程答案:A31.(單選題,2分)以下不屬于聚類算法的是()。A、K均值B、DBSCANC、AprioriD、層次聚類答案:C解析:Apriori:這實(shí)際上是一種用于挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段頻集思想的遞推算法。它主要用于發(fā)現(xiàn)數(shù)據(jù)集中項(xiàng)之間的關(guān)聯(lián)關(guān)系,而不是對(duì)數(shù)據(jù)進(jìn)行聚類。32.(單選題,2分)獨(dú)熱編碼(One-Hot編碼)中,性別特征:["男","女"](這里N=2)祖國(guó)特征:["中國(guó)","美國(guó),"法國(guó)"](這里N=3)運(yùn)動(dòng)特征:["足球","籃球","羽毛球","乒乓球"](這里N=4)假如某個(gè)樣本,他的特征是["男","中國(guó)","乒乓球"],我們可以用[1,0,1,0,0,0,0,0,1]來(lái)表示對(duì)于特征["女","法國(guó)","羽毛球"],其獨(dú)熱編碼結(jié)果為?A、[1,0,0,0,1,0,0,0]B、[0,0,3]C、[0,1,0,0,1,0,0,1,0]D、[0,1,0,1,0,1]答案:C33.(單選題,1分)設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生_()_個(gè)關(guān)聯(lián)規(guī)則。A、4B、5C、6D、7答案:C34.缺失值處理方法中錯(cuò)誤的是()。A、對(duì)于離散屬性或定性屬性,使用眾數(shù)B、轉(zhuǎn)換為分類問(wèn)題或數(shù)值預(yù)測(cè)問(wèn)題C、對(duì)于分類屬性,使用同類對(duì)象屬性值的均值D、對(duì)于所有屬性都可以使用均值答案:D35.(單選題,2分)關(guān)于基本運(yùn)算2??3的含義,理解正確的是()。A、2x2+2B、2+2+2C、2x1x3D、2^3答案:D36.(單選題,1分)當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?()A、分類B、聚類C、關(guān)聯(lián)分析D、隱馬爾可夫鏈答案:B37.(單選題,2.0分)下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?()A、變量代換B、估計(jì)遺漏值C、聚集D、離散化答案:B38.(單選題,2分)Python在調(diào)用efficient-apriori包中的apriori函數(shù)進(jìn)行挖掘關(guān)聯(lián)規(guī)則時(shí),第二個(gè)返回值是()A、最小支持度B、關(guān)聯(lián)規(guī)則C、最小置信度D、頻繁項(xiàng)集答案:B39.(單選題,2分)關(guān)于while循環(huán)和for循環(huán)的區(qū)別,下列敘述正確的是()A、在很多情況下,while語(yǔ)句和for語(yǔ)句可以等價(jià)使用B、while語(yǔ)句只能用于可迭代變量,for語(yǔ)句可以用于任意條件表達(dá)式C、while語(yǔ)句的循環(huán)體至少無(wú)條件執(zhí)行一次,for語(yǔ)句的循環(huán)體有可能一次都不執(zhí)行D、while語(yǔ)句只能用于循環(huán)次數(shù)未知的循環(huán),for語(yǔ)句只能用于循環(huán)次數(shù)已知的循環(huán)答案:A40.(單選題,1分)在上題中,屬于定量的屬性類型是A、標(biāo)稱B、序數(shù)C、區(qū)間D、相異答案:D解析:定性屬性描述的是數(shù)據(jù)的性質(zhì)或類別,而定量屬性則描述的是數(shù)據(jù)的數(shù)量或度量。41.(單選題,2.0分)以下說(shuō)法正確的是()A、將類型數(shù)據(jù)默認(rèn)為連續(xù)數(shù)據(jù)進(jìn)行建模不會(huì)影響模型效果B、等寬法將屬性值域分成相同寬度的區(qū)間C、獨(dú)熱編碼是唯一有效的處理類型數(shù)據(jù)的方法D、聚類分析的離散化方法不需要用戶指定簇的個(gè)數(shù)答案:B42.(單選題,2分)對(duì)于任一個(gè)頻繁項(xiàng)集X和它的一個(gè)非空真子集Y,S=X-Y,規(guī)則S→Y成立的條件是()。A、confidence(S→Y)≥minconfB、confidence(Y→S)≥minconfC、onfidence(S→Y)<minconfD、confidence(Y→S)<minconf答案:A43.(單選題,1分)“8,000”和“10,000”表示:()。A、數(shù)據(jù)B、信息C、知識(shí)D、智慧答案:A44.(單選題,2.0分)利用信息增益方法作為屬性選擇度量建立決策樹(shù)時(shí),已知某訓(xùn)練樣本集的4個(gè)條件屬性的信息增益分別為:G(收入)=0.940位,G(職業(yè))=0.151位,G(年齡)=0.780位,G(信營(yíng))=0.048位,則應(yīng)該選擇()屬性作為決策樹(shù)的測(cè)試屬性。A、收入B、職業(yè)C、年齡D、信普答案:A45.(單選題,2.0分)下列哪個(gè)不是決策樹(shù)分類算法?A、C4.5B、CARTC、KNND、ID3答案:C解析:K近鄰46.(單選題,2分)數(shù)據(jù)變換中,最小-最大標(biāo)準(zhǔn)化處理的數(shù)據(jù)會(huì)落入哪個(gè)區(qū)間?A、[-1,1]B、[0,1]C、[1,0]D、(0,1)答案:B47.(單選題,2分)在上題中,屬于定量的屬性類型是A、標(biāo)稱B、序數(shù)C、區(qū)間D、相異答案:D48.(單選題,2.0分)異常值校驗(yàn)常用的分析方法是()A、IQR準(zhǔn)則B、4西塔原則C、牛頓插值法D、等寬法答案:A49.(單選題,2分)用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?()A、根據(jù)內(nèi)容檢索B、建模描述C、預(yù)測(cè)建模D、尋找模式和規(guī)則答案:A50.(單選題,2分)獨(dú)熱編碼(One-Hot編碼)中,性別特征:["男","女"](這里N=2)祖國(guó)特征:["中國(guó)","美國(guó),"法國(guó)"](這里N=3)運(yùn)動(dòng)特征:["足球","籃球","羽毛球","乒乓球"](這里N=4)假如某個(gè)樣本,他的特征是["男","中國(guó)","乒乓球"],我們可以用[0,0,3]來(lái)表示對(duì)于特征["男","中國(guó)","乒乓球"],其獨(dú)熱編碼結(jié)果為?A、[1,0,0,0,1,0,0,0]B、[0,0,3]C、[1,0,1,0,0,0,0,0,1]D、[0,1,0,1,0,1]答案:C解析:性別特征:"男"->[1,0]祖國(guó)特征:"中國(guó)"->[1,0,0]運(yùn)動(dòng)特征:"乒乓球"->[0,0,0,1]51.(單選題,2分)以下屬于異常值分析方法的是()A、權(quán)重法B、歸一法C、箱形圖分析D、插補(bǔ)法答案:C52.(單選題,1分)關(guān)于K均值和DBSCAN的比較,以下說(shuō)法不正確的是()。A、K均值丟棄被它識(shí)別為噪聲的對(duì)象,而DBSCAN一般聚類所有對(duì)象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇。答案:A解析:K均值算法不會(huì)主動(dòng)丟棄被它識(shí)別為噪聲的對(duì)象。它會(huì)嘗試將所有對(duì)象分配到某個(gè)簇中,即使某些對(duì)象可能并不適合任何一個(gè)簇(這可能導(dǎo)致簇的邊界不夠清晰或產(chǎn)生較大的簇內(nèi)誤差)。DBSCAN算法確實(shí)有能力識(shí)別并處理噪聲點(diǎn)。如果一個(gè)點(diǎn)的鄰域內(nèi)沒(méi)有足夠的點(diǎn)來(lái)形成一個(gè)簇,它就會(huì)被標(biāo)記為噪聲。53.(單選題,2分)數(shù)據(jù)挖掘技術(shù)中,常用決策樹(shù)進(jìn)行數(shù)據(jù)分析,這種分析屬于A、聚類分析B、分類分析C、趨勢(shì)分析D、偏差分析答案:B54.(單選題,2分)list(range(1,5))的返回結(jié)果是()。A、[1,2,3,4,5]B、(1,2,3,4,5)C、(1,2,3,4)D、[1,2,3,4]答案:D55.(單選題,1分)以下是哪一個(gè)聚類算法的算法流程:①構(gòu)造k-最近鄰圖。②使用多層圖劃分算法劃分圖。③repeat:合并關(guān)于相對(duì)互連性和相對(duì)接近性而言,最的自相似性的簇。④until:不再有可以合并的簇。()。A、MSTB、OPOSSUMC、hameleonD、Jarvis-Patrick(JP)答案:C解析:Chameleon算法確實(shí)涉及構(gòu)建k-最近鄰圖,并使用一種多層次的圖劃分方法來(lái)初步分割數(shù)據(jù)。然后,它基于相對(duì)互連性和相對(duì)接近性來(lái)迭代地合并簇,直到不再有可以合并的簇為止。56.(單選題,2分)以下不屬于平穩(wěn)性校驗(yàn)的是()A、時(shí)序圖檢驗(yàn)B、偏自相關(guān)圖檢驗(yàn)C、自相關(guān)圖檢驗(yàn)D、單位根檢驗(yàn)答案:B57.(單選題,2.0分)決策樹(shù)不包含以下哪個(gè)結(jié)點(diǎn)?()A、內(nèi)部結(jié)點(diǎn)B、外部結(jié)點(diǎn)C、葉結(jié)點(diǎn)D、根結(jié)點(diǎn)答案:B58.(單選題,1分)什么是KDD?()A、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)B、領(lǐng)域知識(shí)發(fā)現(xiàn)C、文檔知識(shí)發(fā)現(xiàn)D、動(dòng)態(tài)知識(shí)發(fā)現(xiàn)答案:A59.(單選題,2分)在分布分析中,數(shù)據(jù)類型被劃分為()種A、4B、3C、2D、1答案:C解析:定量數(shù)據(jù)和定性數(shù)據(jù)。60.(單選題,2分)數(shù)據(jù)挖掘的基礎(chǔ)是()A、不充全的數(shù)據(jù)B、隨機(jī)的數(shù)據(jù)C、模糊的數(shù)據(jù)D、大量的數(shù)據(jù)答案:D61.(單選題,1分)一所大學(xué)內(nèi)的各年級(jí)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是:()A、一年級(jí)B、二年級(jí)C、三年級(jí)D、四年級(jí)答案:A62.(單選題,2.0分)Python科學(xué)計(jì)算的基本包是()A、Scikit-learnB、MatplotlibC、PandasD、Numpy答案:D63.(單選題,2分)當(dāng)數(shù)據(jù)所帶標(biāo)簽未知時(shí),可以使用()技術(shù)找出同類標(biāo)簽,分離其他標(biāo)簽。A、聚類B、關(guān)聯(lián)分析C、主成分分析D、分類答案:A64.(單選題,2分)關(guān)于while循環(huán)和for循環(huán)的區(qū)別,下列敘述正確的是()A、在很多情況下,while語(yǔ)句和for語(yǔ)句可以等價(jià)使用B、while語(yǔ)句只能用于可迭代變量,for語(yǔ)句可以用于任意條件表達(dá)式C、while語(yǔ)句的循環(huán)體至少無(wú)條件執(zhí)行一次,for語(yǔ)句的循環(huán)體有可能一次都不執(zhí)行D、while語(yǔ)句只能用于循環(huán)次數(shù)未知的循環(huán),for語(yǔ)句只能用于循環(huán)次數(shù)已知的循環(huán)答案:A65.(單選題,2分)利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第一個(gè)參數(shù)是()A、樣本特征XB、樣本標(biāo)簽YC、判斷標(biāo)準(zhǔn)D、設(shè)置結(jié)點(diǎn)的最小樣本數(shù)量答案:A66.(單選題,2分)下列不是缺失值校驗(yàn)常用函數(shù)或方法的是()A、isnull()B、notnull()C、ount()D、mean()答案:D67.(單選題,2分)在處理重復(fù)值時(shí),pandas提供的drop_duplicates()方法的參數(shù)keep的默認(rèn)值是什么?A、firstB、lastC、allD、false答案:A68.(單選題,2分)只有非零值才重要的二元屬性被稱作:()A、計(jì)數(shù)屬性B、離散屬性C、非對(duì)稱的二元屬性D、對(duì)稱屬性答案:C69.(單選題,2.0分)一所大學(xué)內(nèi)的各年級(jí)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是:()A、四年級(jí)B、一年級(jí)C、二年級(jí)D、三年級(jí)答案:B70.(單選題,2分)以下不屬于平穩(wěn)性校驗(yàn)的是()A、時(shí)序圖檢驗(yàn)B、偏自相關(guān)圖檢驗(yàn)C、自相關(guān)圖檢驗(yàn)D、單位根檢驗(yàn)答案:B71.(單選題,2.0分)下列不是缺失值校驗(yàn)常用函數(shù)或方法的是()A、isnull()B、notnull(C、ount()D、mean()答案:D72.(單選題,1分)下面關(guān)于Jarvis-Patrick(JP)聚類算法的說(shuō)法不正確的是()。A、JP聚類擅長(zhǎng)處理噪聲和離群點(diǎn),并且能夠處理不同大小、形狀和密度的簇。B、JP算法對(duì)高維數(shù)據(jù)效果良好,尤其擅長(zhǎng)發(fā)現(xiàn)強(qiáng)相關(guān)對(duì)象的緊致簇。C、JP聚類是基于SNN相似度的概念。D、JP聚類的基本時(shí)間復(fù)雜度為O(m)。答案:D解析:JP聚類算法的時(shí)間復(fù)雜度并非簡(jiǎn)單地表示為O(m),其中m代表數(shù)據(jù)集中的分子數(shù)量。實(shí)際上,JP聚類算法的時(shí)間復(fù)雜度取決于多個(gè)因素,包括數(shù)據(jù)集的規(guī)模、分子的特征向量長(zhǎng)度以及算法參數(shù)(如K和Kmin)的設(shè)置。73.(單選題,1分)建立一個(gè)模型,通過(guò)這個(gè)模型根據(jù)已知的變量值來(lái)預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、根據(jù)內(nèi)容檢索B、建模描述C、預(yù)測(cè)建模D、尋找模式和規(guī)則答案:C74.(單選題,1分)在數(shù)據(jù)預(yù)處理中,以下哪種方法不是用于處理類別型變量的?A、獨(dú)熱編碼B、標(biāo)簽編碼C、標(biāo)準(zhǔn)化D、二進(jìn)制編碼答案:C解析:標(biāo)準(zhǔn)化通常用于數(shù)值型變量,而不是類別型變量。獨(dú)熱編碼、標(biāo)簽編碼和二進(jìn)制編碼都是處理類別型變量的有效方法。75.(單選題,1分)假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個(gè)箱。等頻劃分時(shí),15在第幾個(gè)箱子內(nèi)?()A、第一個(gè)B、第二個(gè)C、第三個(gè)D、第四個(gè)答案:B76.(單選題,2分)下列選項(xiàng)中不屬于函數(shù)優(yōu)點(diǎn)的是()。A、減少代碼重復(fù)B、使程序模塊化C、使程序便于閱讀D、便于發(fā)揮程序員的創(chuàng)造力答案:D77.(單選題,1分)下面()不屬于數(shù)據(jù)預(yù)處理的方法?A、變量代換B、離散化C、聚集D、估計(jì)遺漏值答案:D78.(單選題,2分)當(dāng)機(jī)器學(xué)習(xí)把訓(xùn)練樣本學(xué)得”太好“的時(shí)候,可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作潛在樣本都會(huì)具有的一般性質(zhì),這樣會(huì)導(dǎo)致泛化性能下降。這種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為()A、過(guò)擬合B、欠擬合C、擬合D、訓(xùn)練答案:A79.(單選題,2分)在Python中,實(shí)現(xiàn)多分支選擇結(jié)構(gòu)較好的方法是()。A、if-elif-elseB、if-elseC、if嵌套D、if答案:A80.(單選題,2分)不屬于數(shù)據(jù)特征分析的分析方法是()A、貢獻(xiàn)度分析B、對(duì)比分析C、杜邦分析D、相關(guān)性分析答案:C81.(單選題,1分)以下Python包中,提供了DataFrame數(shù)據(jù)類型的是()。A、NumpyB、PandasC、Scikit-learnD、Matplotlib答案:B82.(單選題,2.0分)根據(jù)聚類形成的簇的特點(diǎn),如果有交集的簇之間必然存在包含關(guān)系,這種聚類稱為()。A、重疊聚類B、劃分型聚類C、以上都不是D、層次型聚類答案:D83.(單選題,2.0分)假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個(gè)箱。等頻劃分時(shí),15在第幾個(gè)箱子內(nèi)?()A、第一個(gè)B、第四個(gè)C、第二個(gè)D、第三個(gè)答案:C84.(單選題,2.0分)所謂高維數(shù)據(jù),指的是()A、以上都正確B、數(shù)據(jù)屬性很多C、數(shù)據(jù)對(duì)象很多D、以上都錯(cuò)誤答案:B85.(單選題,2.0分)建立一個(gè)模型,通過(guò)這個(gè)模型根據(jù)已知的變量值來(lái)預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、建模描述B、尋找模式和規(guī)則C、預(yù)測(cè)建模D、根據(jù)內(nèi)容檢索答案:C86.(單選題,2.0分)下列哪些選項(xiàng)能表示序數(shù)屬性的數(shù)據(jù)集中趨勢(shì)度量()A、標(biāo)準(zhǔn)差B、均值C、四分位數(shù)D、眾數(shù)答案:D87.(單選題,2.0分)什么是KDD?()A、領(lǐng)域知識(shí)發(fā)現(xiàn)B、文檔知識(shí)發(fā)現(xiàn)C、動(dòng)態(tài)知識(shí)發(fā)現(xiàn)D、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)答案:D88.(單選題,2分)以下哪個(gè)算法不是用于分類與回歸的算法?A、決策樹(shù)B、支持向量機(jī)C、K-MeansD、人工神經(jīng)網(wǎng)絡(luò)答案:C解析:C(K-Means是聚類算法)89.(單選題,2.0分)以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類算法的評(píng)價(jià)標(biāo)準(zhǔn)()?(a)警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。(b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A、Precision,RecallB、Precision,ROCC、Recall,PrecisionD、Recall,ROC答案:A解析:精確率,召回率90.(單選題,1分)考慮兩隊(duì)之間的足球比賽:隊(duì)0和隊(duì)1。假設(shè)65%的比賽隊(duì)0勝出,剩余的比賽隊(duì)1獲勝。隊(duì)0獲勝的比賽中只有30%是在隊(duì)1的主場(chǎng),而隊(duì)1取勝的主場(chǎng)獲勝。如果下一場(chǎng)比賽在隊(duì)1的主場(chǎng)進(jìn)行隊(duì)1獲勝的概率為()A、,0.75B、,0.35C、,0.4678D、,0.5738答案:C91.(單選題,2分)在K-Means聚類算法中,誤差平方和()是衡量聚類質(zhì)量的目標(biāo)函數(shù),以下哪個(gè)描述是錯(cuò)誤的?A、SSE值越小,則聚類效果越好B、SSE值越大,則聚類效果越好C、SSE是每個(gè)數(shù)據(jù)點(diǎn)與其所歸屬的同一類中心點(diǎn)之間的距離的平方和D、SSE是一種直觀的衡量聚類緊密性的指標(biāo)答案:B92.(單選題,2分)數(shù)據(jù)挖掘的預(yù)處理不包括下列哪項(xiàng)?A、數(shù)據(jù)壓縮B、數(shù)據(jù)清洗C、數(shù)據(jù)變換D、數(shù)據(jù)標(biāo)準(zhǔn)化答案:A93.(單選題,1分)以下哪項(xiàng)關(guān)于決策樹(shù)的說(shuō)法是錯(cuò)誤的()A、冗余屬性不會(huì)對(duì)決策樹(shù)的準(zhǔn)確率造成不利的影響B(tài)、子樹(shù)可能在決策樹(shù)中重復(fù)多次C、決策樹(shù)算法對(duì)于噪聲的干擾非常敏感D、尋找最佳決策樹(shù)是NP完全問(wèn)題答案:C94.(單選題,2分)以下說(shuō)法正確的是()A、等寬法將屬性值域分成相同寬度的區(qū)間B、聚類分析的離散化方法不需要用戶指定簇的個(gè)數(shù)C、獨(dú)熱編碼是唯一有效的處理類型數(shù)據(jù)的方法D、將類型數(shù)據(jù)默認(rèn)為連續(xù)數(shù)據(jù)進(jìn)行建模不會(huì)影響模型效果答案:A95.(單選題,1分)“飛機(jī)無(wú)法飛過(guò)高山”表示:()。A、數(shù)據(jù)B、信息C、知識(shí)D、智慧答案:C96.(單選題,2分)決策樹(shù)的葉子結(jié)點(diǎn)對(duì)應(yīng)()。A、一個(gè)數(shù)值B、某個(gè)類別C、一個(gè)線性回歸方程D、以上都可以答案:B97.(單選題,1分)Python科學(xué)計(jì)算的基本包是()。A、PandasB、NumpyC、Scikit-learnD、Matplotlib答案:B98.(單選題,1分)以下哪些算法是分類算法()A、DBSCANB、C4.5C、K-MeanD、EM答案:B解析:EM算法是一種迭代算法,本身更偏向于參數(shù)估計(jì),而不是直接的分類。K-Means是一種聚類算法,不是分類算法DBSCAN是一種基于密度的聚類算法,而不是分類算法。C4.5是一種決策樹(shù)分類算法,是分類算法99.(單選題,1分)“8,000米是飛機(jī)飛行最大高度”與“10,000米的高山”表示:()。A、數(shù)據(jù)B、信息C、知識(shí)D、智慧答案:B100.(單選題,2分)以下哪個(gè)指標(biāo)用于衡量聚類結(jié)果與預(yù)設(shè)分類的匹配程度?A、純度(Purity)B、RandIndex(RI)C、F值評(píng)價(jià)法D、所有以上答案:D101.(單選題,2分)關(guān)聯(lián)規(guī)則分析中,以下哪個(gè)指標(biāo)用于衡量項(xiàng)集A發(fā)生,則項(xiàng)集B發(fā)生的概率?A、Support(支持度)B、Confidence(置信度)C、Lift(提升度)D、AUC答案:B102.(單選題,1分)下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?()A、變量代換B、離散化C、聚集D、估計(jì)遺漏值答案:D判斷題1.(判斷題,1.0分)K均值聚類需要提前設(shè)定K值,而凝聚層次法不需要預(yù)先設(shè)置參數(shù)。A、正確B、錯(cuò)誤答案:A2.(判斷題,1.0分)基于鄰近度的離群點(diǎn)檢測(cè)方法不能處理具有不同密度區(qū)域的數(shù)據(jù)集。()A、正確B、錯(cuò)誤答案:A3.(判斷題,1.0分)特征提取技術(shù)并不依賴于特定的領(lǐng)域。A、正確B、錯(cuò)誤答案:B4.(判斷題,1.0分)用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。()A、正確B、錯(cuò)誤答案:A5.(判斷題,2分)數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。()A、正確B、錯(cuò)誤答案:A6.(判斷題,1分)特征提取技術(shù)并不依賴于特定的領(lǐng)域。()A、正確B、錯(cuò)誤答案:B7.(判斷題,2分)定量屬性可以是整數(shù)值或者是連續(xù)值。()A、正確B、錯(cuò)誤答案:A8.數(shù)據(jù)取樣時(shí),除了要求抽樣時(shí)嚴(yán)把質(zhì)量關(guān)外,還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。A、正確B、錯(cuò)誤答案:A9.(判斷題,1分)ARIMA模型不能用于差分平穩(wěn)序列的擬合。A、正確B、錯(cuò)誤答案:B10.(判斷題,1分)如果一個(gè)項(xiàng)集是不頻繁的,則其所有的超集都是不頻繁的。利用這一性質(zhì)可以簡(jiǎn)化Apriori算法中的計(jì)算過(guò)程。A、正確B、錯(cuò)誤答案:A11.(判斷題,1分)數(shù)據(jù)分析可以將數(shù)據(jù)變成信息,而數(shù)據(jù)挖掘?qū)⑿畔⒆兂芍R(shí)。A、正確B、錯(cuò)誤答案:A12.(判斷題,2分)分類和回歸都可用于預(yù)測(cè),分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。()A、正確B、錯(cuò)誤答案:A13.(判斷題,1分)為了檢驗(yàn)回歸系數(shù)的顯著性,可以使用F檢驗(yàn)。A、正確B、錯(cuò)誤答案:B14.(判斷題,1分)ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。A、正確B、錯(cuò)誤答案:A15.(判斷題,1分)聚類分析可以看作是一種非監(jiān)督的分類。()A、正確B、錯(cuò)誤答案:A16.(判斷題,1分)購(gòu)買了此商品后還會(huì)購(gòu)買的商品,它們的地位是平等的,其中涉及了時(shí)間和順序的概念,強(qiáng)調(diào)的是一個(gè)規(guī)則,也就是我們所說(shuō)的關(guān)聯(lián)規(guī)則。A、正確B、錯(cuò)誤答案:B17.判定系數(shù)的取值范圍是,越接近1,表明兩個(gè)變量之間越有直線相關(guān)關(guān)系。A、正確B、錯(cuò)誤答案:A18.(判斷題,1分)分類和回歸都可用于預(yù)測(cè),分類的輸出是離散的類別值。A、正確B、錯(cuò)誤答案:A19.ID3算法可以處理離散屬性,不可以處理連續(xù)屬性。A、正確B、錯(cuò)誤答案:A20.(判斷題,1分)先驗(yàn)原理可以表述為:如果一個(gè)項(xiàng)集是頻繁的,那包含它的所有項(xiàng)集也是頻繁的。()A、正確B、錯(cuò)誤答案:B21.(判斷題,1.0分)相關(guān)系數(shù)用來(lái)度量標(biāo)稱屬性數(shù)據(jù)的相關(guān)性。A、正確B、錯(cuò)誤答案:B22.(判斷題,1分)F1值是綜合了精確率和召回率的評(píng)價(jià)方法,取值越高表明推薦算法越有效。A、正確B、錯(cuò)誤答案:A23.(判斷題,1.0分)在決策樹(shù)中,隨著樹(shù)中結(jié)點(diǎn)數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗(yàn)誤差開(kāi)始增大,這是出現(xiàn)了模型擬合不足的問(wèn)題。()A、正確B、錯(cuò)誤答案:B24.(判斷題,2分)在決策樹(shù)中,隨著樹(shù)中結(jié)點(diǎn)數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗(yàn)誤差開(kāi)始增大,這是出現(xiàn)了模型擬合不足的問(wèn)題。()A、正確B、錯(cuò)誤答案:B25.(判斷題,1.0分)DBSCAN是相對(duì)抗噪聲的,并且能夠處理任意形狀和大小的簇。()A、正確B、錯(cuò)誤答案:A26.(判斷題,2分)先驗(yàn)原理可以表述為:如果一個(gè)項(xiàng)集是頻繁的,那包含它的所有項(xiàng)集也是頻繁的。()A、正確B、錯(cuò)誤答案:B解析:那么它的所有子集也應(yīng)該是頻繁的27.(判斷題,1分)數(shù)據(jù)預(yù)處理中的歸一化處理是為了將數(shù)據(jù)縮放到一個(gè)固定的范圍,比如[0,1]區(qū)間。A、正確B、錯(cuò)誤答案:A解析:歸一化處理確實(shí)是為了將數(shù)據(jù)縮放到一個(gè)固定的范圍,以減少不同量綱數(shù)據(jù)之間的差異影響。28.(判斷題,2分)用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。()確答案:A、正確B、錯(cuò)誤答案:A29.(判斷題,1分)ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。A、正確B、錯(cuò)誤答案:A30.(判斷題,1分)支持向量機(jī)(SVM)的基本思想是在樣本空間或特征空間中,構(gòu)造出最優(yōu)超平面,使得超平面與不同類樣本集之間的距離最大,從而達(dá)到最大化泛化能力的目的。這種描述是正確的。A、正確B、錯(cuò)誤答案:A31.(判斷題,2分)如果規(guī)則不滿足置信度閾值,則形如的規(guī)則一定也不滿足置信度閾值,其中是X的子集。()A、正確B、錯(cuò)誤答案:A32.(判斷題,2分)序列數(shù)據(jù)沒(méi)有時(shí)間戳。()A、正確B、錯(cuò)誤答案:A33.(判斷題,1分)四分位數(shù)極差(IQR)是第1個(gè)和第2個(gè)四分位數(shù)之間的距離。A、正確B、錯(cuò)誤答案:B34.(判斷題,1.0分)逐層發(fā)現(xiàn)算法Apriori發(fā)現(xiàn)頻繁項(xiàng)集的過(guò)程是按照項(xiàng)集的長(zhǎng)度由大到小逐級(jí)進(jìn)行的。A、正確B、錯(cuò)誤答案:B35.(判斷題,1分)在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。()A、正確B、錯(cuò)誤答案:B36.(判斷題,1分)輪廓系數(shù)是將凝聚度和分離度相結(jié)合的一種度量,越大聚類效果越好。A、正確B、錯(cuò)誤答案:A37.(判斷題,1.0分)四分位數(shù)極差(IQR)是第1個(gè)和第2個(gè)四分位數(shù)之間的距離。A、正確B、錯(cuò)誤答案:B38.(判斷題,1分)DBSCAN是相對(duì)抗噪聲的,并且能夠處理任意形狀和大小的簇。()A、正確B、錯(cuò)誤答案:A39.(判斷題,1.0分)聚類(clustering)是這樣的過(guò)程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。()A、正確B、錯(cuò)誤答案:B40.(判斷題,1.0分)SVM是這樣一個(gè)分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器(minimalmarginclassifier)()A、正確B、錯(cuò)誤答案:B41.Adaboost算法是一種迭代算法,是對(duì)Boosting算法進(jìn)行改進(jìn)得到的。A、正確B、錯(cuò)誤答案:A42.(判斷題,1分)歐式距離用來(lái)度量連續(xù)數(shù)值屬性數(shù)據(jù)的相似性。A、正確B、錯(cuò)誤答案:A43.(判斷題,1.0分)聚類分析可以看作是一種非監(jiān)督的分類。()A、正確B、錯(cuò)誤答案:A44.(判斷題,1.0分)分類和回歸都可用于預(yù)測(cè),分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。()A、正確B、錯(cuò)誤答案:A45.數(shù)據(jù)預(yù)處理中的歸一化處理是為了將數(shù)據(jù)縮放到一個(gè)固定的范圍,比如[0,1]區(qū)間。A、正確B、錯(cuò)誤答案:A46.(判斷題,1分)時(shí)間序列是按照時(shí)間排序的一組隨機(jī)變量,主要研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律。A、正確B、錯(cuò)誤答案:A47.(判斷題,2分)離散屬性總是具有有限個(gè)值。()A、正確B、錯(cuò)誤答案:B48.(判斷題,1.0分)定量屬性可以是整數(shù)值或者是連續(xù)值。()A、正確B、錯(cuò)誤答案:A49.(判斷題,2分)離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或者值。()A、正確B、錯(cuò)誤答案:A50.(判斷題,1分)K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個(gè)數(shù)由算法自動(dòng)地確定。()A、正確B、錯(cuò)誤答案:B51.(判斷題,1分)對(duì)于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對(duì)分類結(jié)果沒(méi)有影響。()A、正確B、錯(cuò)誤答案:A52.(判斷題,1分)具有較高的支持度的項(xiàng)集具有較高的置信度。()A、正確B、錯(cuò)誤答案:B53.(判斷題,1.0分)離散屬性總是具有有限個(gè)值。A、正確B、錯(cuò)誤答案:B54.(判斷題,1分)SVM是這樣一個(gè)分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器(minimalmarginclassifier)()A、正確B、錯(cuò)誤答案:B55.決策樹(shù)算法只能在分類方面應(yīng)用,也能應(yīng)用于回歸。A、正確B、錯(cuò)誤答案:A填空題1.通常,在訓(xùn)練有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型的時(shí)候,會(huì)將數(shù)據(jù)劃分為()和(),劃分比例一般為07:0.3。答案:訓(xùn)練集|測(cè)試集2.(程序填空題,3.0分)填寫(xiě)完整以下程序:#數(shù)據(jù)標(biāo)準(zhǔn)化ImportpandasaspdImportnumpyasnpData=pd.read_excel('sdata.xls',header=None)#讀取數(shù)據(jù)Print(data)Print("最大最小規(guī)范化為:",(data-data.min()/C))#最小-最大規(guī)范化答案:data.max()-data.min()3.(填空題,2分)在數(shù)據(jù)校驗(yàn)中,______是指數(shù)據(jù)集中的某些記錄缺少必要的信息,而______則是指數(shù)據(jù)集中存在不符合預(yù)期的極端值。答案:缺失值校驗(yàn)|異常值校驗(yàn)解析:缺失值校驗(yàn)關(guān)注的是數(shù)據(jù)中的空白或缺失部分,而異常值校驗(yàn)則關(guān)注數(shù)據(jù)中的極端值。4.假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下表1所示,請(qǐng)計(jì)算該分類器的正確率是()%,召回率是%。(保留2位小數(shù))預(yù)測(cè)真實(shí)分類結(jié)果(1,1,5),(0,1,2),(1,0,1,(0,0,4)答案:75|71.435.(程序填空題,3.0分)分析以下部分程序和結(jié)果,Fromsklearn.linear_modelimportLogisticRegression#邏輯回歸模型Model=LogisticRegression().fit(x_train_scale,y_train)Y_pre=model.predict(x_test_scale)#預(yù)測(cè)類別,默認(rèn)閾值為0.5Y_proba=model.predict_proba(x_test_scale)[:,1]Print(model.coef_)Print(ercept_)輸出為:[[-0.02372323e1-0.08039984e10.54921778]][-0.127661856e1]請(qǐng)根據(jù)結(jié)果寫(xiě)出邏輯回歸模型表達(dá)式:(系數(shù)可保留三位小數(shù))答案:p=1/1+e^-(-0.237x1-0.804x2+0.549x3-1.277)6.(填空題,2分)數(shù)據(jù)挖掘的類型有分類、聚類和__________。答案:回歸7.(填空題,2分)數(shù)據(jù)預(yù)處理中的______是指將原始數(shù)據(jù)轉(zhuǎn)換成適合機(jī)器學(xué)習(xí)算法處理的形式。答案:數(shù)據(jù)轉(zhuǎn)換解析:數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)預(yù)處理的一個(gè)重要環(huán)節(jié),它能夠?qū)⒃紨?shù)據(jù)轉(zhuǎn)化為更適合機(jī)器學(xué)習(xí)算法處理的形式,提高算法的效果。8.(填空題,1分)Pandas中用于刪除重復(fù)行或列的函數(shù)是______。答案:drop_duplicates()9.(填空題,1分)JupyterNotebook是以網(wǎng)頁(yè)的形式打開(kāi),可以在網(wǎng)頁(yè)頁(yè)面中直接編寫(xiě)代碼和運(yùn)行代碼,代碼的運(yùn)行結(jié)果也會(huì)直接在代碼塊下顯示,這些文檔是保存為后綴名為_(kāi)_____的JSON格式文件。答案:.ipynb10.(填空題,2分)在數(shù)據(jù)校驗(yàn)過(guò)程中,______是指數(shù)據(jù)之間存在矛盾的情況,而______則是指數(shù)據(jù)集中出現(xiàn)不符合預(yù)期的極端值。答案:一致性校驗(yàn)|異常值校驗(yàn)解析:一致性校驗(yàn)關(guān)注的是數(shù)據(jù)之間的邏輯關(guān)系是否合理,而異常值校驗(yàn)則關(guān)注數(shù)據(jù)中的極端值。11.(程序填空題,5分)以下程序用于實(shí)現(xiàn):輸入一個(gè)數(shù),判斷其是否為素?cái)?shù)。X=int(input())Foriin____:If____:print(x,"不是素?cái)?shù)")________print(x,"是素?cái)?shù)")答案:Range(2,x)|x%i==0|break|else12.(程序填空題,5分)表達(dá)式eval(‘3+5’)的值為_(kāi)________。答案:813.(填空題,2分)數(shù)據(jù)挖掘可以發(fā)現(xiàn)數(shù)據(jù)中的__________規(guī)律。答案:潛在14.(程序填空題,4分)所有三位數(shù)中十位數(shù)與個(gè)位數(shù)之和是奇數(shù)的數(shù)字有多少個(gè)?直接輸出結(jié)果,注意不要輸出多余信息!請(qǐng)補(bǔ)充下面程序來(lái)實(shí)現(xiàn)。N=0Foriinrange____:gw=i%10sw=____if____:n=n+1Print(n)答案:(100,1000)|i//10%10|(gw+sw)%2==115.(填空題,1分)使用四分位距準(zhǔn)則(IQR)檢測(cè)異常值時(shí),如果數(shù)據(jù)集中的上四分位數(shù)(QU)為79,下四分位數(shù)(QL)為52,那么IQR的值是______。答案:2716.(填空題,2分)決策樹(shù)分類的根節(jié)點(diǎn)對(duì)應(yīng)的是__________。答案:最優(yōu)屬性17.(填空題,1分)數(shù)據(jù)清洗包括重復(fù)值處理、缺失值處理和______處理。答案:異常值18.(填空題,2分)數(shù)據(jù)預(yù)處理中的______是指通過(guò)某種方式填補(bǔ)數(shù)據(jù)中的缺失值。答案:缺失值填充解析:缺失值填充是數(shù)據(jù)預(yù)處理中的一個(gè)重要步驟,通過(guò)填補(bǔ)缺失值來(lái)保證數(shù)據(jù)集的完整性,便于后續(xù)的數(shù)據(jù)分析和建模。四.程序填空題(共5題,25分)19.(程序填空題,4分)補(bǔ)全程序代碼。ImportpandasaspdImportmatplotlib.pyplotaspltData=pd.read_excel("某品牌沐浴露銷售數(shù)量情況.xlsx")(data["quantity"],8)#繪制頻率分布直方圖Plt.rcParams['font.sans-serif']=['SimHei']Plt.title("銷售數(shù)量區(qū)間頻率分布直方圖")Plt.xlabel("銷售數(shù)量區(qū)間")Plt.ylabel("銷售數(shù)量(瓶)")Bins=range(0,1360,170)Plt.xticks(bins)Plt.show()答案:plt.hist五.程序題(共1題,9分)20.(填空題,1分)在異常值校驗(yàn)中,3σ原則指的是如果數(shù)據(jù)服從正態(tài)分布,異常值被定義為一組測(cè)定值中與平均值的偏差超過(guò)______倍標(biāo)準(zhǔn)差的值。答案:三21.(填空題,1分)在關(guān)聯(lián)規(guī)則分析中,如果項(xiàng)集I的相對(duì)支持度滿足預(yù)定義的最小支持度閾值,則I是______。答案:頻繁項(xiàng)集22.(程序填空題,5分)已知x=‘a(chǎn)bcd’,那么表達(dá)式‘,’.join(x.split())的值為_(kāi)_____。(‘A,b,c,d’)30.表達(dá)式[str(i)foriinrange(3)]的值為_(kāi)______。答案:[‘0’,‘1’,‘2’]23.(程序填空題,4分)線性回歸模型訓(xùn)練。根據(jù)以下部分程序可得輸出結(jié)果如下,F(xiàn)romsklearn.linear_modelimportLinearRegression#建立線性回歸模型Clf=LinearRegression().fit(x_train,y_train)#模型訓(xùn)練Intercept=ercept_Coefficients=clf.coef_Print(coefficients)Print(intercept)輸出為[2.21062667e-05-1.09743632e+006.38541253e-01]-182.1839047313889請(qǐng)寫(xiě)出線性回歸模型表達(dá)式(保留4位小數(shù))答案:y=-1.0974+0.6385-182.183924.(填空題,1分)時(shí)間序列分析中,ARIMA模型的實(shí)質(zhì)是差分運(yùn)算與______模型的組合。答案:ARMA三.判斷題(共10題,10分)25.(程序填空題,5分)數(shù)據(jù)表如圖所示,請(qǐng)?zhí)顚?xiě)完整程序。#繪制不同部門(mén)的各月份銷售額折線圖ImportpandasaspdImportmatplotlib.pyplotaspltData=pd.read_excel('各月份各部門(mén)銷售額.xlsx')Plt.figure(figsize=(6,4))Plt.plot(,,color='green',label='銷售部',marker='o')Plt.plot(,,color='red',label='事業(yè)部',marker='s')Plt.rcParams['font.sans-serif']='SimHei'Plt.legend()#顯示圖例Plt.title('各部門(mén)各月份銷售額')Plt.ylabel('銷售額(萬(wàn)元)')Plt.xlabel('月份')Plt.savefig('1.jpg',dpi=1080,bbox_inches='tight')Plt.show()答案:Data['月份'];data['事業(yè)部']|data['月份'];data['事業(yè)部']26.(填空題,1分)Python中的range函數(shù)用于生成一個(gè)數(shù)字序列,例如:foriinrange(1,5,1):print(i),將會(huì)輸出數(shù)字序列從1到___答案:427.(填空題,2分)在數(shù)據(jù)預(yù)處理過(guò)程中,______是指識(shí)別并處理異常值的過(guò)程。答案:異常值檢測(cè)解析:異常值檢測(cè)是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),目的是發(fā)現(xiàn)那些明顯偏離正常范圍的數(shù)據(jù)點(diǎn)。28.(程序填空題,5分)線性回歸模型訓(xùn)練。根據(jù)以下部分程序可得輸出結(jié)果如下,F(xiàn)romsklearn.linear_modelimportLinearRegression#建立線性回歸模型Clf=LinearRegression().fit(x_train,y_train)#模型訓(xùn)練Intercept=ercept_Coefficients=clf.coef_Print(coefficients)Print(intercept)輸出為[2.21062667e-05-1.09743632e+006.38541253e-01]-182.1839047313889請(qǐng)寫(xiě)出線性回歸模型表達(dá)式(保留4位小數(shù))答案:y=-1.0974+0.6385-182.1839五.程序題(共1題,11分)29.(填空題,1分)在描述性統(tǒng)計(jì)分析中,集中趨勢(shì)度量包括均值、中位數(shù)和眾數(shù)。其中,中位數(shù)是指將一組觀察值從小到大進(jìn)行排列,位于______的數(shù)據(jù)。答案:中間30.(填空題,2分)數(shù)據(jù)預(yù)處理中的______是指將數(shù)據(jù)轉(zhuǎn)換到一個(gè)共同的標(biāo)準(zhǔn)尺度上。答案:數(shù)據(jù)標(biāo)準(zhǔn)化解析:數(shù)據(jù)標(biāo)準(zhǔn)化是為了消除不同量綱對(duì)數(shù)據(jù)分析的影響,使得數(shù)據(jù)在相同的尺度下進(jìn)行比較。31.(填空題,2分)聚類算法的優(yōu)化目標(biāo)是__________。答案:最小化32.數(shù)據(jù)離散化分為等寬法、()和聚類。答案:等頻法簡(jiǎn)答題1.(程序題,10.0分)繪制柱形圖。根據(jù)某服裝店各類服裝銷量分布情況,繪制相應(yīng)的柱形圖。(數(shù)據(jù)見(jiàn)附件:某服裝店各類服裝銷量.xlsx)X某服裝店各類服裝銷量.xlsx答案:程序語(yǔ)言Python3.xImportpandasaspdImportmatplotlib.pyplotasplt#讀取數(shù)據(jù)Data=pd.read_excel('data/某服裝店各類服裝銷量,xlsx')#選擇需要繪制的列X=data['服裝類型']Y=data['銷量']#創(chuàng)建柱形圖Plt.bar(x,y)Plt.rcParams['font.sans-serif']='SimHei'#設(shè)置標(biāo)題和標(biāo)簽Plt.title(‘某服裝店各類服裝銷量分布')Plt.xlabel('服裝類型)Plt.ylabel('銷量’)#顯示圖形Plt.show(用例1:輸入0輸出02.(填空題,2.0分)給定數(shù)據(jù)集:{10,20,30,40,50},1.計(jì)算最小-最大標(biāo)準(zhǔn)化后的值。2.計(jì)算方差和標(biāo)準(zhǔn)差。3.計(jì)算零-均值標(biāo)準(zhǔn)化后的值。答案:{0,0.25,0.5,0.75,1}|200,14.14|{-1.414,-0.707,0,0.707,1.414}3.(程序填空題,4分)缺失值校驗(yàn)。填寫(xiě)完整以下程序。ImportpandasaspdData=pd.read_excel('test_data.xlsx')Print('data中元素是否為空值的布爾型DataFrame為:\n',)答案:data.isnull()4.(程序填空題,3.0分)所有三位數(shù)中十位數(shù)與個(gè)位數(shù)之和是奇數(shù)的數(shù)字有多少個(gè)?直接輸出結(jié)果,注意不要輸出多余信息!請(qǐng)補(bǔ)充下面程序來(lái)實(shí)現(xiàn)。N=0Foriinrange(100,1000):Gw=i%10SW=If:N=n+1Print(n)答案:i//10%10|(gw+sw)%2==15.(填空題,2.0分)給定以下分類結(jié)果:1.真實(shí)正例(TP):752.假正例(FP):253.真負(fù)例(TN):854.假負(fù)例(FN):15計(jì)算準(zhǔn)確率。答案:0.8解析:這個(gè)分類結(jié)果的準(zhǔn)確率是(TP+TN)/(TP+TN+FP+FN)=0.8,召回率是TP/TP+FN=0.83(保留兩位小數(shù)),精確率是TP/TP+FP=0.75,F1=2*0.75*0.83/(0.75+0.83)=0.79(保留兩位小數(shù))6.(填空題,2.0分)根據(jù)填空題1中的分類結(jié)果,計(jì)算召回率。答案:0.83解析:這個(gè)分類結(jié)果的準(zhǔn)確率是(TP+TN)/(TP+TN+FP+FN)=0.8,召回率是TP/TP+FN=0.83(保留兩位小數(shù)),精確率是TP/TP+FP=0.75,F1=2*0.75*0.83/(0.75+0.83)=0.79(保留兩位小數(shù))7.(程序填空題,4分)補(bǔ)全以下Python代碼,實(shí)現(xiàn)對(duì)字符串進(jìn)行大寫(xiě)轉(zhuǎn)換:Defconvert_to_uppercase(s):return#調(diào)用函數(shù)Input_str="helloworld"Uppercase_str=convert_to_uppercase(input_str)Print("Uppercasestring:",uppercase_str)答案:s.upper()8.(程序題,9分)畫(huà)箱形圖。檢測(cè)銷售部各月份數(shù)據(jù)(見(jiàn)附件各月份銷售部銷售額.xlsx),得到異常值檢測(cè)箱形圖,并標(biāo)注出異常值答案:程序語(yǔ)言Python3.xImportpandasaspdImportmatplotlib.pyplotasplt#讀取數(shù)據(jù)Data=pd.read_excel('data/各月份銷售部銷售額.xlsx')#創(chuàng)建箱形圖P=data.boxplot(return_type='dict')X=p['fliers'][0].get_xdata()Y=p['fliers'][0].get_ydata()Foriinrange(len(x)):ifi>0:plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.05,y[i]))else:plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.05,y[i]))#顯示圖形Plt.title('銷售部各月份銷售額箱形圖')Plt.xlabel('月份')Plt.ylabel('銷售額')Plt.show()用例1:輸入0輸出09.(填空題,1分)在K-Means聚類算法中,用于衡量聚類結(jié)果優(yōu)劣的內(nèi)部指標(biāo)之一誤差平方和(SSE),SSE值越,則聚類效果越好!!答案:小10.(填空題,2分)使用題目1中的交易數(shù)據(jù)庫(kù),計(jì)算規(guī)則{牛奶}=>{尿布}的置信度。答案:111.(程序題,12分)繪制折線圖。繪制某公司銷售部各年份各月份銷售額折線圖。(數(shù)據(jù)見(jiàn)附件銷售部在各年份各月份中的銷售額.xlsx)答案:程序語(yǔ)言Python3.xImportpandasaspd

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論