大數(shù)據(jù)挖掘技術(shù)練習(xí)練習(xí)題及答案4-2023-練習(xí)版

上傳人：奔*** IP屬地：河北上傳時間：2024-01-13 格式：PDF 頁數(shù)：108 大?。?0.33MB 積分：12 舉報 版權(quán)申訴

大數(shù)據(jù)挖掘技術(shù)練習(xí)練習(xí)題及答案4-2023-練習(xí)版_第2頁

大數(shù)據(jù)挖掘技術(shù)練習(xí)練習(xí)題及答案4-2023-練習(xí)版_第3頁

大數(shù)據(jù)挖掘技術(shù)練習(xí)練習(xí)題及答案4-2023-練習(xí)版_第4頁

大數(shù)據(jù)挖掘技術(shù)練習(xí)練習(xí)題及答案4-2023-練習(xí)版_第5頁

已閱讀5頁，還剩103頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

試題說明

本套試題共包括1套試卷

答案和解析在每套試卷后

大數(shù)據(jù)挖掘技術(shù)練習(xí)練習(xí)題及答案4（500題）

大數(shù)據(jù)挖掘技術(shù)練習(xí)練習(xí)題及答案4

L［單選題］（）,用于顯示樹狀結(jié)構(gòu)數(shù)據(jù)。

A）矩形式樹狀結(jié)構(gòu)圖；

B）平行結(jié)構(gòu)樹

C）垂直結(jié)構(gòu)樹

2.［單選題］非參數(shù)檢驗是針對（）分布情況做的假設(shè)。

A）總體

B）局部

C）個體

3.［單選題］GSM網(wǎng)絡(luò)中用于傳遞并且識別用戶的唯一標識是

A）MSISDN

B）IMEI

C）IMSI

4.［單選題］MGW與RNC的連接介質(zhì)采用

A）IP傳輸

B）PCM傳輸

C）ATM傳輸

5.［單選題］數(shù)據(jù)預(yù)處理的任務(wù)不包括（）。

A）數(shù)據(jù)清洗

B）數(shù)據(jù)規(guī)范化和離散化

C）數(shù)據(jù)分類

D）特征提取與特征選擇

6.［單選題］MME具備以下功能

A）只有控制面功能

B）只有用戶面管理功能

C）同時有控制面和用戶面管理功能

D）用戶面和控制面功能都不具備

7.［單選題］分類器效果檢驗中的準確率是指（）

A）預(yù)測正確的數(shù)據(jù)在總數(shù)據(jù)中的比例

B）預(yù)測為正的數(shù)據(jù)在總數(shù)據(jù)中的比例

C）預(yù)測為正的數(shù)據(jù)中實際為正的數(shù)據(jù)所占比例

D）實際為正的數(shù)據(jù)中被預(yù)測為正的數(shù)據(jù)所占比例

8.［單選題］SQL語句中進行空值運算時，需要用到的短語是____,,

A）NULL

B）ISNULL

C）=NULL

D）=ISNULL

9.［單選題］下面哪種不屬于數(shù)據(jù)預(yù)處理的方法？

A）變量代換

B）離散化

C）聚集

D）估計遺漏值

10.［單選題］下面哪個不是Python合法得標識浮。

A）int32

B）40XL

C）self

D）_name_

11.［單選題］設(shè)乂=e,1）,~是一個頻繁項集，則最多可由X產(chǎn)生（）個關(guān)聯(lián)規(guī)則。

A）4

B）5

D）7

12.［單選題］以下不是數(shù)據(jù)挖掘工具的是（）

A）WEKA

B）KNIME

C）Comnos

D）Matlab

13.［單選題］如果說人工智能是一座高大上的房子，那么（）就是它的基石

A）新技術(shù)

B）資金

C）大數(shù)據(jù)

D）需求

14.［單選題］如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋，則稱規(guī)則集R中的規(guī)則為

A）無序規(guī)則

B）窮舉規(guī)則

C）互斥規(guī)則

D）有序規(guī)則

15.［單選題］“大數(shù)據(jù)+云計算”將會帶來信息產(chǎn)業(yè)革命的第（）個高峰

A）一

B）二

C）三

D）四

16.［單選題］lr.fit（X_train,y_train）語句的目的為（）

A）建立LR模型

B）導(dǎo)入數(shù)據(jù)并觀察

C）查看數(shù)據(jù)框

D）用處理好的數(shù)據(jù)訓(xùn)練模型

17.［單選題］BeautifulSoup庫在進行標簽樹下行遍歷時，以列表形式返回兒子節(jié)點的代碼是哪個？

A）content

B）children

C）descendants

D）string

18.［單選題］矩估計的基本原理是0

A）用樣本矩估計總體矩

B）使得似然函數(shù)達到最大

C）使得似然函數(shù)達到最小

D）小概率事件在一次試驗中是不可能發(fā)生的

19.［單選題］多維空間中最適合的異常點檢測方法是

A）正態(tài)分布圖

B）等價圖

C）馬氏距離

D）散點圖

20.［單選題］在基于規(guī)則分類器的中，依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序，保證一個測試記錄都

是由覆蓋它的“最好的”規(guī)格來分類，這種方案稱為（）

A）基于類的排序方案

B）基于規(guī)則的排序方案

C）基于度量的排序方案

D）基于規(guī)格的排序方案。

21.［單選題］下面列出的條目中，下列不是數(shù)據(jù)倉庫基本特征的是：（）

A）數(shù)據(jù)倉庫是面向主題的

B）數(shù)據(jù)倉庫的數(shù)據(jù)是集成的

C）數(shù)據(jù)倉庫的數(shù)據(jù)是非時變的

D）數(shù)據(jù)倉庫的數(shù)據(jù)是非易失的

22.［單選題］以下哪個聚類算法不屬于基于網(wǎng)格的聚類算法（）。

A）STING

B）WaveCluster

C）MAFIA

D）BIRCH

23.［單選題］某小區(qū)60%居民訂晚報，45%訂青年報，30%兩報均訂，隨機抽一戶。則至少訂一種報的

概率為（）

A）0.82

B）0.85

00.80

D）0.75

24.［單選題］（）是一個觀測值，它與其他觀測值的差別如此之大，以至于懷疑它是由不同的機制產(chǎn)

生的。

A）邊界點

B）質(zhì)心

C）離群點

D）核心點

25.［單選題］下面哪個屬于映射數(shù)據(jù)到新的空間的方法？

A）傅立葉變換

B）特征加權(quán)

C）漸進抽樣

D）維歸約

26.［單選題］下列算法中，不屬于外推法的是（）。

A）移動平均法

B）回歸分析法

C）指數(shù)平滑法

D）季節(jié)指數(shù)法

27.［單選題］在TDLTE網(wǎng)絡(luò)中,EnodeB到MME的接口是

A）S1

B）X2

C）S6a

D)S8

28.［單選題］有關(guān)數(shù)據(jù)抽取工具的敘述中正確的是()

A)只能使用數(shù)據(jù)倉庫開發(fā)工具所提供的數(shù)據(jù)抽取工具

B)只能使用開發(fā)人員自己開發(fā)的數(shù)據(jù)抽取工具

C)根據(jù)實際需要確定是否自己開發(fā)數(shù)據(jù)抽取工具

D)以上都不對

29.［單選題］以下哪個指標不是用來評估分類模型()

A)準確率(Accuracy)

B)召回率(Recall)

C)輪廓系數(shù)(SilhouetteScore)

D)Fl-score

30.［單選題］LTE中的TA概念哪個是錯誤的()

A)TAI由MCC+MNC+TAC三部分組成

B)TAC的FQDN格式為：tac-hb〈xlx2>.tac-lb<x3x4>.tac.epc.mnc<MNC>.mcc<MCC>.3gppnetwork.org

C)TAC與LAC可重疊使用

D)一個TA可由一個或多個小區(qū)構(gòu)成

31.［單選題］Zookeeper是Hadoop和()的重要組件

A)Hive

B)HBASE

C)MapReduce

D)HDFS

32.［單選題］在集團公司四維十輪網(wǎng)絡(luò)質(zhì)量評估體系中，下列哪項不是評估移動業(yè)務(wù)感知的指標：

A)重點保障場景VoLTE接通率(%)

B)4G客戶網(wǎng)絡(luò)質(zhì)量滿意度

C)HTTP下載速率(Mbps)

D)家庭寬帶網(wǎng)絡(luò)質(zhì)量滿意度

33.［單選題］下面哪項是集中性能管理面向終端專題()

A)2/3G高流量小區(qū)遷移

B)終端在網(wǎng)質(zhì)量評估分析

C)客戶投訴溯源分析

D)網(wǎng)絡(luò)實時性能監(jiān)控

34.［單選題］關(guān)于混合模型聚類算法的優(yōu)缺點，下面說法正確的是()

A)當簇只包含少量數(shù)據(jù)點，或者數(shù)據(jù)點近似協(xié)線性時，混

合模型也能很好地處理。

B)混合模型比K均值或模糊C均值更一般，因為它可以使用各種類型的分布。

C)混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。

D)混合模型在有噪聲和離群點時不會存在問題。

35.［單選題］除輸入層外，每一層都有一個偏置值，其值在()之間

A)［0,1］

B)［-1,0］

C)-l,0,l

D)［-1,1］

36.［單選題］為了可以把多個評估器鏈接成一個復(fù)合評估器，sklearn中提供了Pipeline機制，下

面關(guān)于

Pipeline描述不正確的是()

A)管道中的最后一個評估器一定要是一個實現(xiàn)了predict方法的學(xué)習(xí)器

B)管道中的所有評估器，除了最后一個評估器，管道中的所有評估器必須都是轉(zhuǎn)換器。

C)管道中的評估器參數(shù)可以通過<estimator>_語義來訪問

D)管道中的評估器可以通過索引或名稱訪問

37.［單選題］下列關(guān)于等距離分箱的說法中錯誤的是()。

A)等距離分箱能使每個區(qū)間內(nèi)包含的取值個數(shù)大致相同

B)若區(qū)間個數(shù)為k,每個區(qū)間的間距為1=(max-min)/k

C)等距離分箱可能導(dǎo)致屬于某些的取值非常多，而某些又非常少

D)又稱為等寬度分箱

38.［單選題］個人信息保護影響評估報告和處理情況記錄應(yīng)當至少保存()年。

A)一

B)十

C)五

D)三

39.［單選題］以下有關(guān)貝葉斯信念網(wǎng)絡(luò)(BBN)的敘述中錯誤的是()

A)BBN是一個有向無環(huán)圖

B)BBN中每個結(jié)點代表一個隨機變量

C)BBN中每條有向邊表示變量之間的依賴關(guān)系

D)BBN中最多只有一個輸出結(jié)點

40.［單選題］關(guān)于OLAP的特性，下面正確的是：()(1)快速性(2)可分析性(3)多維性(4)信

息性(5)共享性

A)(l)

B)(2)

0(1)

D)(1)

41.［單選題］《視頻業(yè)務(wù)端到端業(yè)務(wù)質(zhì)量分析》應(yīng)用落地手冊中定義的視頻業(yè)務(wù)用戶感知KQI指標不

包括（）

A）視頻播放等待時長

B）視頻播放成功率

C）視頻播放清晰度

D）視頻停頓次數(shù)

42.［單選題］在數(shù)據(jù)預(yù)處理中，將數(shù)據(jù)轉(zhuǎn)換為易于進行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式，如數(shù)據(jù)規(guī)格化，這一

過程稱為（）

A）數(shù)據(jù)提取

B）數(shù)據(jù)變換

C）數(shù)據(jù)清理

D）數(shù)據(jù)加載

43.［單選題］關(guān)于回歸分析，下列說法中錯誤的是（）

A）作回歸分析的變量之間要有實際意義，不能把毫無關(guān)聯(lián)的兩種現(xiàn)象隨意進行回歸分析，要結(jié)合專業(yè)

知識對兩事物之間是否存在因果關(guān)系作出合理解釋和結(jié)論。

B）在進行線性回歸分析進行的數(shù)據(jù)準備的時候，要求因變量y和自變量x都是符合總體正態(tài)的隨機

變量。

C）回歸直線不要隨意外延

D）所有非線性回歸都可以轉(zhuǎn)化為線性回歸

44.［單選題］S6a接口基于以下哪個協(xié)議

A）GTP

B）SCTP

C）Diameter

D）S1-AP

45.［單選題］如下表所示，

交易號（D）商品（terns）

1beer,diaper,nuts

2beer,biscuit,diaper

3bread,butter,cheese

4beer,cheese,diaper,nuts

5beer,butter,cheese,nuts

3）如下表所示，使用FP-Growth計算其頻繁集，給定最小支持度為40%,頻繁模式樹（樹）有（

）個結(jié)點。（不包括根結(jié)點）。

A）10

B）9

D）5

46.［單選題］打開一個已有文件，然后在文件末尾添加信息，正確的打開方式為（）。

A）r

B）w

C）a

D）w+

47.［單選題］無監(jiān)督學(xué)習(xí)，應(yīng)用最廣的是（）算法

A）聚類算法；

B）降維算法；

C）關(guān)聯(lián)規(guī)則算法；

D）文本挖掘

48.［單選題］將兩個簇的鄰近度定義為不同簇中任意兩點的最短距離，它是一種（）連接方式。

A）單鏈接

B）全鏈接

C）組平均

D）質(zhì)心距離

49.［單選題］os的下列函數(shù)中，用來給文件重命名的是？

A）remove（）

B）rename（）

C）system（）

D）listdir（）

50.［單選題］假設(shè)檢驗中，拒絕域的邊界稱為（）

A）臨界值

B）臨界點

C）置信水平

D）邊際值

51.［單選題］對于人工智能認知錯誤的是。

A）人工智能應(yīng)該是人類用來改造世界的技術(shù)手段，是輔助性的工具，而不是對人類進行了替代

B）目前人工智能還處于初級階段，算是弱人工智能，AI技術(shù)還是離不開大數(shù)據(jù)

C）人工智能在計算方面，超過人類。在部分感識方面，可與人類相媲美。但在認知方面，人工智能

還處于幾乎空白階段，而這恰恰是我們?nèi)祟惖淖畲髢?yōu)勢

D）人工智能會毀滅人類

52.［單選題］用于將Python程序打包成可執(zhí)行文件的工具是。

A）Panda3D

B）cocos2d

C）pip

D）Pylnstaller

53.［單選題］DBSCAN最大時間復(fù)雜度的是

A)O(m)

B)0(m2)

C)0(logm)

D)0(m*logm)

54.［單選題］面對人工智能存在的諸多倫理道德問題，下列不應(yīng)當采取的行動為()

A)思考如何將人類的價值觀和規(guī)范嵌入人工智能系統(tǒng)，賦予AI以人性的光輝

B)開展人工智能倫理的研究和頂層設(shè)計，促進民生福祉改善，推進行業(yè)健康發(fā)展，掌握新一輪技術(shù)

革命的主動權(quán)

C)人工智能的倫理，實際上是人的問題。國家和機構(gòu)需要重視，共同做出更多的努力

D)發(fā)展人工智能時面對有問題的地方不去發(fā)展

55.［單選題］下列說法錯誤的是()

A)相關(guān)系數(shù)矩陣是一個對稱矩陣，其中對角線上的元素都是1,表示自相關(guān)系數(shù)

B)非對角線元素表示互相關(guān)系數(shù)，每個元素的絕對值都小于等于0,反應(yīng)變量變化趨勢的相似程度

C)相關(guān)系數(shù)的絕對值越大，表示兩個信號互相影響的程度越大

D)如果的相關(guān)系數(shù)矩陣中非對角線元素大于0,表示兩個信號正相關(guān)，其中一個信號變大時另一個信

號也變大，變化方向一致

56.［單選題］以下哪個指標屬于無線網(wǎng)絡(luò)結(jié)構(gòu)指標

A)即時通信響應(yīng)成功率

B)重疊覆蓋小區(qū)占比

C)4G占網(wǎng)時長占比

D)網(wǎng)絡(luò)質(zhì)量綜合滿意度

57.［單選題］關(guān)聯(lián)規(guī)則是反映事物之間的依賴關(guān)系，典型例子是購物籃分析，常見算法有Apriori關(guān)聯(lián)

算法和()算法。

A)貝葉斯算法

B)線性回歸

C)F.P-growth關(guān)聯(lián)算法

D)聚類算法

58.［單選題］當置信水平一定時，置信區(qū)間的寬度()

A)隨著樣本量的增大而減小

B)隨著樣本量的增大而增大

C)與樣本量的大小無關(guān)

D)先隨著樣本量的增大而減小，到一定程度后會隨著樣本

量的增大而增大。

59.［單選題］有一條關(guān)聯(lián)規(guī)則為A

B,此規(guī)則的信心水平（confidence）為60%，則代表（）

A）買B商品的顧客中，有60%的顧客會同時購買A

B）同時購買

A.B兩商品的顧客，占所有顧客的60%

C）買A商品的顧客中，有60%的顧客會同時購買B

D）兩商品

A.B在交易數(shù)據(jù)庫中同時被購買的機率為60%

60.［單選題］通過聚集多個分類器的預(yù)測來提高分類準確率的技術(shù)稱為

A）組合

B）聚集

C）合并

D）投票

61.［單選題］利用"linear_model.LinearRegression（）”訓(xùn)練模型時調(diào)用.fit。方法需要傳遞的

,第二個參數(shù)是Oo

A）是否考慮計算截距

B）樣本權(quán)重

C）樣本特征X

D）樣本標簽Y

62.［單選題］以下哪些算法是基于規(guī)則的分類器（）

A）C4.5

B）KNN

C）NaiveBayes

D）ANN

63.［單選題］LTE中，對于頻分雙工（FDD）的操作，定義了4中隨機接入的前導(dǎo)格式，其中格式3的

Tcp（）us

A）203.13

B）406.26

O101.3

D）684.38

64.［單選題］在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu)，這樣的任務(wù)稱為

A）頻繁子集挖掘

B）頻繁子圖挖掘

C）頻繁數(shù)據(jù)項挖掘

D）頻繁模式挖掘

65.［單選題］下面關(guān)于數(shù)據(jù)粒度的描述不正確的是：（）

A）粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別；

B）數(shù)據(jù)越詳細，粒度就越小，級別也就越高；

C）數(shù)據(jù)綜合度越高，粒度也就越大，級別也就越高；

D）粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.

66.［單選題］統(tǒng)計檔案表中學(xué)生來自多少個城市，下面SQL語句正確的是。

A）SELCETSUM（DISTINCT家庭住址）FROM檔案表;

B）SELCETDISTINCT家庭住址FROM檔案表;

OSELCETCOUNT（家庭住址）FROM檔案表；

D）SELCETCOUNT（DISTINCT家庭住址）FROM檔案表；

67.［單選題］利用"linear_model.LinearRegressionO”訓(xùn)練模型時調(diào)用.fit（）方法需要傳遞的第

一個參數(shù)是OO

A）是否考慮計算截距

B）樣本權(quán)重

C）樣本特征X

D）樣本標簽Y

68.［單選題］SELECT語句中的WHERE用于說明。

A）查詢數(shù)據(jù)

B）查詢條件

0查詢分組

D）查詢排序

69.［單選題］Hbase是哪種數(shù)據(jù)庫？

A）關(guān)系型數(shù)據(jù)庫

B）Nosql數(shù)據(jù)庫

C）網(wǎng)狀數(shù)據(jù)庫

D）層次數(shù)據(jù)庫

70.［單選題］下面選項中t不是s的子序列的是（）

A）S=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>

B）S=<{2,4},{3,5,6},{8}>t=<⑵,{8}>

C）S=<{1,2},{3,4}>t=<{l},{2}>

D）S=<{2,4},{2,4}>t=<{2},{4}>

71.［單選題］自然語言理解是人工智能重要應(yīng)用領(lǐng)域，下面（）不是人工智能要實現(xiàn)的目標

A）理解人講的話

B）對自然語言表示的信息分析概括

C）欣賞音樂

D）機器翻譯

72.［單選題］下列關(guān)于數(shù)據(jù)重組的說法中，錯誤的是0

A）數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集

B）數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒

C）數(shù)據(jù)重組實現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成

D）數(shù)據(jù)重組有利于實現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新

73.［單選題］以下哪個聚類算法不是屬于基于原型的聚類

A）CLIQUE

B）模糊C均值

OEM算法

D）S0M

74.［單選題］以下OLAP操作中（）的作用是改變維的層次，變換分析的粒度。

A）切塊

B）平移

C）鉆取

D）切片

75.［單選題］分析顧客消費行業(yè)，以便有針對性的向其推薦感興趣的服務(wù)，屬于（）問題

A）關(guān)聯(lián)規(guī)則挖掘

B）分類與回歸

C）聚類分析

D）時序預(yù)測

76.［單選題］以下哪個聚類算法不屬于基于網(wǎng)格的聚類算法

A）BIRCH

B）WaveCluster

C）STING

D）MAFIA

77.［單選題］P（22,1,42,10）,Q（20,0,36,8）為兩個向量對象，這兩個對象的歐幾里得距離是（）。

A）根號下45

B）ll

C）6

D）三次根號下233

78.［單選題］能夠完全匹配字符串“gogo”和“kittykitty”，但不能完全匹配"gokitty”的正

則表達

式（）

A）r"\b（\w+）\b\s+\l\b”

B）R"\w{2,5}\s*\l"

C）r"（\S+）\s+\l”

D）r"（\S{2,5}）\S{1,}\1"

79.［單選題］若數(shù)據(jù)量較大，下面哪種方式比較適合()

A)系統(tǒng)聚類

B)快速聚類(k-means)

C)A和B都可以

D)A和B都不可以

80.［單選題］()框架是大數(shù)據(jù)的核心框架

A)集中式計算

B)隔離式計算

C)分布式計算

D)混合式計算

81.［單選題］下列哪種調(diào)制方式抗干擾能力最強

A)BPSK

B)QPSK

C)16QAM

D)64QAM

82.［單選題］在SQL語句中，可使用的通配符“％(百分號)”表示—

A)一個字符

B)純數(shù)字

C)計算百分數(shù)

D)0到多個字符

83.［單選題］主成分分析方法PCA屬于屬于python中的哪個包()。

A)skiearn

B)numpy

C)scipy

D)pandas

84.［單選題］在Python中有

S=［,a','b,］

S.append(［1,2］)

S.insert(1,7)；

執(zhí)行以上代碼后，s值為()

A)'a',7,'b',1,2］

2］,7,'a','b'］

C)［l,2,'a',7','b'］

D)［'a',7,'b',［1,2］］

85.［單選題］下面哪個屬于映射數(shù)據(jù)到新的空間的方法？

A）傅立葉變換

B）特征加權(quán)

C）漸進抽樣

D）維歸約

86.［單選題］開始將N個樣品各自作為一類，將規(guī)定樣品之間的距離和類與類之間的距離，然后將距離

最近的兩類合并成一個新類，計算新類與其他類的距離，重復(fù)進行兩個最近類的合并，每次減少一

類，直至所有的樣品合并為一類，此種聚類方法是（）

A）K-means

B）SOM聚類

C）系統(tǒng)聚類

D）有序聚類

87.［單選題］下面哪個關(guān)鍵字用來定義函數(shù)？

A）def

B）define

C）function

D）class

88.［單選題］大數(shù)據(jù)技術(shù)由（）公司首先提出來的

A）騰訊

B）谷歌

C）阿里巴巴

D）微軟

89.［單選題］如下哪些不是最近鄰分類器的特點

A）它使用具體的訓(xùn)練實例進行預(yù)測，不必維護源自數(shù)據(jù)的模型

B）分類一個測試樣例開銷很大

C）最近鄰分類器基于全局信息進行預(yù)測

D）可以生產(chǎn)任意形狀的決策邊界

90.［單選題］決策樹算法有多個實現(xiàn)方式，下面哪個算法是基于基尼指數(shù)計算得到的（）

A）ID3

B）C4.5

C）C5.0

D）CART

91.［單選題］以下哪種方法不屬于特征選擇的標準方法：（）

A）嵌入

B）過濾

C）包裝

D）抽樣

92.［單選題］以下哪個APP主要使用的是HTTPS協(xié)議

A）優(yōu)酷

B）微信

C）百度搜索

D）王者榮耀

93.［單選題］2016年，集團公司提出了（）內(nèi)容質(zhì)量保障體系

A）四維三步法

B）三維三步法

C）四維四步法

D）四維五步法

94.［單選題］下列方法，用于向文件寫入內(nèi)容的是（）

A）write

B）read

C）open

D）close

95.［單選題］給定一個置信概率和置信區(qū)域，若誤差超過置信區(qū)域，則認為誤差不是隨機誤差引起，視

為異常值的判別方法（）。

A）聚類判別法；

B）回歸判別法

C）抽樣判別法

D）統(tǒng)計判別法

96.［單選題］考慮兩隊之間的足球比賽：隊。和隊1。假設(shè)65%的比賽隊0勝出，剩余的比賽隊1獲勝。

隊0獲勝的比賽中只有30%是在隊1的主場，而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊

1的主場進行隊1獲勝的概率為

A）0.75

B）0.35

C）0.4678

D）0.5738

97.［單選題］以下哪些不是業(yè)務(wù)質(zhì)量指標KQI

A）頁面響應(yīng)成功率

B）視頻下載速率

C）及時通信接入時延

D）Attach成功率

98.［單選題］（）打開了自動駕駛的天花板

A）駕駛員駕駛技術(shù)提升

B)汽車剎車性能增強

C)人工智能的理論和實踐的突破

D)汽車制造商轉(zhuǎn)型

99.［單選題］大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程中()大數(shù)據(jù)的規(guī)律及其與自然和社會活動

之間的關(guān)系。

A)大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程

B)規(guī)劃建設(shè)運營管理

C)規(guī)律和驗證

D)發(fā)現(xiàn)和驗證

100.［單選題］通過代碼"fromsklearn.clusterimportKMeansn引入Kmeans模塊，生成模型對象

“kmeans=KMeans(_clusters=2)”后,對于數(shù)據(jù)X訓(xùn)練時要調(diào)用的方法是()□

A)kmaens.fit()

B)kmeans.fit()

C)kmaens.trainO

D)kmeans.trainO

101.［單選題］假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法

將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為：

A)0.821

B)1.224

01.458

D)0.716

102.［單選題］sum(［i*iforiinrange(3)］)的計算結(jié)果是?

A)3

B)5

C)2

D)4

103.［單選題］示例程序如下importurllib.request

response=urllib.request,urlopen('http：//python.

Org')print(response.getcodeO)若上述示例程序正常運行成功，則程序輸出的結(jié)果為___。

A)200

B)304

0403

D)500

104.［單選題］在數(shù)據(jù)庫中已建立了tBook表，若查找圖書編號是“TP1134”和“TP1138”的記錄，則

SELECT查詢

的WHERE條件為o

A）圖書編號="TP1134"AND"TP1138"

B）圖書編號NOTIN（"TP1134","TP1138"）

C）圖書編號IN（"TP1134","TP1138"）

D）圖書編號N0T（"TP1134"AND"TP1138"）

105.［單選題］以下（）不是影響時間序列變化的要素。

A）長期趨勢

B）季節(jié)變動

C）循環(huán)波動

D）有規(guī)則變化

106.［單選題］語音識別的突破在（）

A）用人類思維去做，讓機器認識每個音節(jié)音素，然后通過音節(jié)音素去分辨字和單詞

B）研發(fā)過程中，計算機工程師與科學(xué)家圍繞著語言學(xué)家進行工作

C）開創(chuàng)了統(tǒng)計學(xué)的模式，拋棄了模仿人類思維方式，不再通過總結(jié)思維規(guī)則的老路，研發(fā)過程中極

少語言學(xué)家的參與，更多是計算機科學(xué)家與數(shù)學(xué)家的合作

D）圖靈測試

107.［單選題］一個對象的離群點得分是該對象周圍密度的逆。這是基于（）的離群點定義。

A）概率

B）鄰近度

C）密度

D）聚類

108.［單選題］個人信息的收集、處理和利用應(yīng)當遵循（）的原則，不得違反法律、法規(guī)的規(guī)定和雙方

的約定收集、處理和利用個人信息。（）

A）正規(guī)、合法、必要

B）合法、正當、必要

C）合法、合規(guī)、正當

D）合法、合理、合規(guī)

109.［單選題］Sl-basedhandover流程中建立臨時數(shù)據(jù)轉(zhuǎn)發(fā)通道時，數(shù)據(jù)傳輸方向是

A）SourceENB->SourcePGW->TargetPGW->TargetENB

B）TargetENB->TargetSGW->SourceSGW->SourceENB

C）SourceSGW->TargetSGW->TargetENB

D）SourceENB->SourceSGW->TargetSGW->TargetENB

110.［單選題］requests庫獲取HTTP請求獲得reponse對象，該對象對應(yīng)的（）屬性，用于判斷網(wǎng)頁

請求狀

態(tài)。

A）status_code

B）enconding

C)apprence_enconding

D)headers

111.［單選題］已知：

d={123：'Tom",'age'：18,'score'：［91,92,93］}

print(d［123］［1］,d［'age'］,d［'score'］［-1］)

輸出的結(jié)果是：

A)T,18,91

B)o,18,91

C)T,18,92

D)o,18,93

112.［單選題］eSRVCC方案相對于SRVCC方案的增強在于減少了切換時長，eSRVCC切換時長小于。

A)20ms

B)40ms

C)160ms

D)300ms

113.［單選題］Requests庫中，下面哪個屬性代表了從服務(wù)器返回HTTP協(xié)議頭所推薦的編碼方式？

A)headers

B)apparent_encoding

C)text

D)encoding

114.［單選題］數(shù)據(jù)正規(guī)化(DataNormalization)是在知識發(fā)掘處理

(KnowledgeDiscoveryProcess)中的哪一個階段進行？

A)數(shù)據(jù)清洗

B)數(shù)據(jù)選擇

C)數(shù)據(jù)編碼

D)數(shù)據(jù)擴充

115.［單選題］用信息增益方法作為屬性選擇度量建立決策樹時，已知某訓(xùn)練樣本集的4個條件屬性的

信息增益分別為：G(收人)=0.940位,G(職業(yè))=0.151位,G(年齡)0.780位,G(信譽)=0.048位，則應(yīng)該選

擇()屬性作為決策樹的測試屬性。

A)收入

B)職業(yè)

C)年齡

D)信譽

116.［單選題］數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)掘知識的過程，在這個過程中()可以作為挖掘工具，數(shù)據(jù)可

以被看作是土壤，云平臺可以看作是承載數(shù)據(jù)和挖掘算法的基礎(chǔ)設(shè)施。

A)鋤頭

B）數(shù)據(jù)庫服務(wù)器

C）聚類分析

D）人工智能和數(shù)據(jù)庫技術(shù)

117.［單選題］對原始數(shù)據(jù)進行聚集、抽樣、違歸約等是哪個步驟的任務(wù)

A）數(shù)據(jù)預(yù)處理

B）業(yè)務(wù)理解

C）數(shù)據(jù)理解

D）數(shù)據(jù)量挖掘

118.［單選題］人工智能的目的是讓機器能夠（）

A）具有完全的智能

B）完全和人腦一樣考慮問題

C）完全替代人

D）模擬、延伸和擴展人的智能

119.［單選題］VBA語言中，聲明變量的關(guān)鍵字是（）。

A）SET；

B）C.ONST

C）PRIVATE

D）D.IM

120.［單選題］考慮這么一種情況：一個對象碰巧與另一個對象相對接近，但屬于不同的類，因為這

兩個對象一般不會共享許多近鄰，所以應(yīng)該選擇（）的相似度計算方法。

A）平方歐幾里德距離

B）余弦距離

C）直接相似度

D）共享最近鄰

121.［單選題］在抽樣方法中，當合適的樣本容量很難確定時，可以使用的抽樣方法是：

A）有放回的簡單隨機抽樣

B）無放回的簡單隨機抽樣

C）分層抽樣

D）漸進抽樣

122.［單選題］以下有關(guān)回歸分析與時間序列分析的敘述中正確的是（）

A）時間序列分析方法明確強調(diào)變量值順序的重要性，而回歸分析方法不是

B）時間序列各觀測值之間存在一定的依存關(guān)系，而回歸分析一般要求每一變量各自

獨立

C）時間序列是一組隨機變量的一次樣本實現(xiàn)，而回歸分析的樣本值一般是對同一隨

機變量進行多次獨立重復(fù)實驗的結(jié)果

D）以上都是正確的

123.［單選題］下列選項中，屬于結(jié)構(gòu)化數(shù)據(jù)的是—o

A）圖像

B）文本

C）辦公文檔

D）JSON

124.［單選題］設(shè)有一個回歸方程為y=2-2.5x,則變量x增加一個單位時（）

A）y平均增加2.5個單位

B）y平均增加2個單位

C）y平均減少2.5個單位

D）y平均減少2個單位

125.［單選題］CRISP-DM模型中Evaluation表示對建立的模型進行評估，重點具體考慮得出的結(jié)

果是否符合（）的商業(yè)目的。

A）第二步

B）第三步

C）第一步

D）最后一步

126.［單選題］目前業(yè)務(wù)流量占比最高的業(yè)務(wù)大類是

A）即時通信

B）郵件

C）視頻

D）下載

127.［單選題］表示職稱為副教授、性別為男的表達式為（）

A）職稱='副教授'OR性別='男'

B）職稱='副教授'AND性別='男’

C）BETWEEN'副教授'AND'男'

D）IN（'副教授'，'男'）

128.［單選題］下列屬于維歸約常用的線性代數(shù)技術(shù)的有（）

A）主成分分析

B）特征提取

C）特征加權(quán)

D）離散化

129.［單選題］以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標準？

（a）警察抓小偷，描述警察抓的人中有多少個是小偷的標準。

（b）描述有多少比例的小偷給警察抓了的標準。

A）Precision,Recall

B)Recall,Precision

C)Precision,ROC

D)Recall,ROC

130.［單選題］假設(shè)某分類器在一個測試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示，該分類器的精確

率為（）。

Predicted

yesno

Actualyesl55

nol020

A）75%

B）80%

060%

D）70%

131.［單選題］字符串是一個連續(xù)的字符序列，哪個選項可以實現(xiàn)打印字符信息的換行？

A）使用\n

B）使用轉(zhuǎn)義符\\

C）使用空格

D）使用“\換行”

132.［單選題］以下敘述中（）是正確的。

A）分類和聚類都是有指導(dǎo)的學(xué)習(xí)

B）分類和聚類都是無指導(dǎo)的學(xué)習(xí)

C）分類是有指導(dǎo)的學(xué)習(xí)，聚類是無指導(dǎo)的學(xué)習(xí)

D）分類是無指導(dǎo)的學(xué)習(xí)，聚類是有指導(dǎo)的學(xué)習(xí)

133.［單選題］大數(shù)據(jù)是指（）

A）一個圖書館內(nèi)的書籍信息

B）無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才

能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)

C）城市管理信息

D）Facebook用戶信息

134.［單選題］以下哪個不是數(shù)據(jù)清理的方法（）

A）填充缺失值

B）光滑噪聲

C）識別離群點

D）數(shù)據(jù)變換

135.［單選題］東北人養(yǎng)了一只雞和一頭豬。一天雞問豬："主人呢？"豬說："出去買蘑菇了。"雞聽了

撒丫子就跑。豬說："你跑什么？"雞叫道："有本事主人買粉條的時候你小子別跑！"

以上對話體現(xiàn)了數(shù)據(jù)分析方法中的（）

A）關(guān)聯(lián)

B）聚類

C）分類

D）自然語言處理

136.［單選題］通過代碼"fromsklearnimportlinear_modelw引入線性模型模塊，并通過代碼

"reg=linearmodel.LinearRegression（）**構(gòu)造回歸器對象后，在訓(xùn)練時要調(diào)用的方法是

（B）,在訓(xùn)練后做預(yù)測時要調(diào)用的方法是（D）。

A）reg.train（）

B）reg.fit（）

C）reg.learn（）

D）reg.predict（）

137.［單選題］假設(shè)12個銷售價格記錄組已經(jīng)排序如下：5,10,11,13,15,35,50,55,72,

92,204,215使用如下每種方法將它們劃分成四個箱。等頻（等深）劃分時，15在第幾個箱子內(nèi)（

）

A）第一個

B）第二個

C）第三個

D）第四個

138.［單選題］如果一個分類模型經(jīng)訓(xùn)練后，能在訓(xùn)練集上達到99%的準確率，但在測試集上僅能達

到75%左

右，這說明（）

A）欠擬合

B）過擬合

C）正常現(xiàn)象

D）模型選擇不合適

139.［單選題］下列說法不正確的是（）

A）歸納是從特殊到一般的“泛化”，演繹是從一般到特殊的“特化”

B）對于西瓜來說，若色澤、根蒂、敲聲皆有3種取值，加上某種屬性什么都不取和沒有好瓜這個概念

,則好瓜的假設(shè)空間共有4X4X4+1=65種假設(shè)（規(guī)則）

C）與訓(xùn)練集一致的假設(shè)的集合稱為“版本空間”

D）對新樣本，不同假設(shè)可能輸出不同結(jié)果，在正確假設(shè)的選取上，模型（學(xué)習(xí)器）不一定需要偏好

,學(xué)習(xí)算法和歸納偏好也可有可無

140.［單選題］視頻業(yè)務(wù)流程可以分為播放準備階段和播放階段，其中屬于播放階段KQI指標有（）

A）停頓次數(shù)

B）視頻播放等待時長

C）初始緩沖成功率

D）初始緩沖時長

141.［單選題］以下哪些網(wǎng)元不是VOLTE特有網(wǎng)元

A）MGCF

B）S-CSCF

OMME

D）SBC

142.［單選題］設(shè)置hadoop啟動環(huán)境變量的文件是？

A）core-site,xml

B）hdfs-site.xml

C）mapred-site.xml

D）hadoop-env.sh

143.［單選題］維度規(guī)約是在以下哪個步驟的任務(wù)？（）

A）頻繁模式挖掘

B）降維

C）數(shù)據(jù)預(yù)處理

D）數(shù)據(jù)流挖掘

144.［單選題］某牙膏廠原來生產(chǎn)兩面針藥物牙膏，現(xiàn)在又增加牙刷生產(chǎn)，這屬于（）

A）同心多元化

B）水平多元化

C）集團多元化

D）相關(guān)多元化

145.［單選題］weka系統(tǒng)匯集了最前沿的機器學(xué)習(xí)算法和數(shù)據(jù)預(yù)處理工具，提供的主要應(yīng)用程序不包

括

A）Explorer

B）KnowledgeFlow

C）Experimenter

D）Conclusion

146.［單選題］為數(shù)據(jù)的總體分布建模；把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)？（）

A）探索性數(shù)據(jù)分析

B）建模描述

C）預(yù)測建模

D）尋找模式和規(guī)則

147.［單選題］在基于規(guī)則分類器的中，依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序，保證每一個測試記錄都

是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為

A）基于類的排序方案

B）基于規(guī)則的排序方案

C）基于度量的排序方案

D）基于規(guī)格的排序方案。

148.［單選題］下列不屬于瀏覽器開發(fā)者模式面板的為（）

A）Elements

B)Console

C)Sources

D)headers

149.［單選題］在OLAP的基本操作中，在給定的數(shù)據(jù)立方體的兩個或更多個維上進行選擇操作得到一個

子立方體,這個操作稱為（）

A）切塊

B）轉(zhuǎn)軸

C）上卷

D）下鉆

150.［單選題］eNodeB對哪種類型的數(shù)據(jù)進行完整性保護()

A)RRCsignalling

B)NASsignalling

C)Userplanedata

D)SystemInformation

151.［單選題］字符串是一個字符序列，給字符串s,以下表示s從右側(cè)向左第三個字符的是:

A）s［-3］

B）s［：-3］

Os［3］

D）s［0：-3］

152.［單選題］關(guān)于混合模型聚類算法的優(yōu)缺點，下面說法正確的是（）。

A）當簇只包含少量數(shù)據(jù)點，或者數(shù)據(jù)點近似協(xié)線性時，混合模型也能很好地處理。

B）混合模型比

C）混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。

D）混合模型在有噪聲和離群點時不會存在問題。

153.［單選題］以下敘述中正確的是（）

A）OLAP是針對特定事務(wù)聯(lián)機數(shù)據(jù)訪問

B）如果一個維是多層次的，那么該維的維成員就是相同維層次的取值的組合

O0LTP存儲的是歷史數(shù)據(jù)，不可更新，但可周期性地刷新

D）0LAP的特點是能夠?qū)Χ嗑S信息進行快速分析

154.［單選題］以下哪種方法不屬于特征選擇的標準方法:

A）嵌入

B）過濾

C）包裝

D）抽樣

155.［單選題］邏輯回歸適用于以下哪種問題（）

A）回歸問題

B）二分類問題

C）聚類問題

D）關(guān)聯(lián)規(guī)則

156.［單選題］某超市研究銷售記錄發(fā)現(xiàn)，購買奶的很概率會購買包，這種屬于數(shù)據(jù)挖掘的哪類問

題？（）

A）聚類分析

B）關(guān)聯(lián)規(guī)則

C）分類分析

D）自然語言處理

157.［單選題］（）是統(tǒng)計學(xué)的基礎(chǔ)，是統(tǒng)計學(xué)里面最重要的概率分布

A）正態(tài)分布；

B）靜態(tài)分布

C）動態(tài)分布

D）穩(wěn)態(tài)分布

158.［單選題］關(guān)于統(tǒng)計學(xué)和大數(shù)據(jù)之間的關(guān)系，一下說法錯誤的是（）。

A）面臨大數(shù)據(jù)，統(tǒng)計學(xué)的研究對象有所改變；

B）在大數(shù)據(jù)環(huán)境中，需要首先將未知的問題轉(zhuǎn)化為可用的統(tǒng)計方法；

C）在大數(shù)據(jù)分析過程中，傳統(tǒng)的統(tǒng)計分析過程“定量-定位-再定性”轉(zhuǎn)變?yōu)椤岸?定性”；

D）在大數(shù)據(jù)環(huán)境中，需要將統(tǒng)計研究的對象范圍擴展到一切數(shù)據(jù)。

159.［單選題］《中華人民共和國數(shù)據(jù)安全法》中的數(shù)據(jù)，是指任何以電子或者其他方式對（）的記錄

A）數(shù)據(jù)

B）信息

C）文件

D）知識

160.［單選題］選擇在3行4列的子圖中第2個的子圖

A）plt.subplot（3,4,1）

B）pit.subplot（3,4,2）

C）pit.subplot（4,3,1）

D）pit.subplot（4,3,2）

161.［單選題］人工智能不會（）

A）聽（語音識別、機器翻譯），看（圖像識別、文字識別）

B）說（語音合成、人機對話），思考（人機對弈、定理證明等）

C）學(xué)習(xí)（機器學(xué)習(xí)、知識表示等），行動（機器人、自動駕駛汽車等）

D）表達感情

162.［單選題］下面不屬于人工智能研究基本內(nèi)容是（）

A）機器感知

B）機器學(xué)習(xí)

0自動化

D）機器思維

163.［單選題］可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有（）。

A）決策樹、對數(shù)回歸、關(guān)聯(lián)模式

B）K均值法、SOM神經(jīng)網(wǎng)絡(luò)

C）Apriori算法、FP-Tree算法

D）RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹

164.［單選題］下面哪種不屬于數(shù)據(jù)預(yù)處理的方法？

A）變量代換

B）離散化

C）聚集

D）估計遺漏值

165.［單選題］LTE支持靈活的系統(tǒng)帶寬配置，以下哪種帶寬是LTE協(xié)議不支持的

A）5M

B）10M

C）20M

D）40M

166.［單選題］貝葉斯決策是根據(jù)（）進行決策的一種方法。

A）極大似然概率

B）先驗概率

C）邊際概率

D）后驗概率

167.［單選題］KNN的英文全寫為（）

A）k-NearerNeighbor

B）k-NearestNeighbor

C）k-NearNeighbors

D）k-NearestNeighbors

168.［單選題］一個對象的離群點得分是該對象周圍密度的逆。這是基于()的離群點定義。

A)概率

B)鄰近度

C)密度

D)聚類

169.［單選題］使用等距離分箱法進行數(shù)據(jù)離散化，數(shù)據(jù)范圍為20,40,50,58,65,80,80,82,

86,90,96,105,120,200,區(qū)間個數(shù)為4。下列屬于4個箱的區(qū)間是()。

A)［20,65］

B)(155,200］

C)［110,155)

D)(65,110)

170.［單選題］給定df是一個DataFrame對象，對df所有字段進行描述性統(tǒng)計，可以利用的方法為(

A)df.describe()

B)df.statistics()

C)df.mean()

D)df.summary()

171.［單選題］關(guān)于字符編碼的類型中，用于指明瀏覽器可接受簡體中文的是()

A)gb2312

B)iso-8859-l

C)utf-8

D)utf

172.［單選題］分布式存儲框架的配置信息在哪個文件中

A)core-site,xml

B)hdfs-site.xml

C)mapred-site.xml

D)hadoop-env.sh

173.［單選題］下面的代碼其功能為()?>x=［range(3*i,3*i+5)foriinrange(2)］>?x

list(map(list,x))?>x=list(map(list,zip(*x)))

A)首先生成一個隨機的列表，然后生成矩陣

B)首先生成一個包含列表的列表，然后生成矩陣

C)首先生成一個包含列表的列表，然后模擬矩陣轉(zhuǎn)置

D)首先排序列表，然后模擬矩陣轉(zhuǎn)置

174.［單選題］下列度量不具有反演性的是()

A)系數(shù)

B）幾率

C）Cohen

D）興趣因子

175.［單選題］某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn)，買啤酒的人很大概率也會購買尿布，這種屬于數(shù)據(jù)挖

掘的哪類問題？

A）關(guān)聯(lián)規(guī)則發(fā)現(xiàn)

B）聚類

C）分類

D）自然語言處理

176.［單選題］下列解析技術(shù)中，用于解析JS0N文檔的是—。

A）XPath

B）JSONPath

C）BeautifulSoup

D）正則表達式

177.［單選題］某終端換機用戶識別的需求中，需對使用體驗和用戶使用需求不匹配的用戶進行識別

,挖掘重度游戲迷等用戶畫像，使用哪類算法最合適

A）決策樹

B）最小二乘法

C）時間序列

D）貝葉斯判別

178.［單選題］物聯(lián)網(wǎng)端到端定界分析（）法，可實現(xiàn)物聯(lián)網(wǎng)端到端業(yè)務(wù)質(zhì)量全流程無死角的分析

A）四元四階

B）七元四階

C）五元五階

D）六元四階

179.［單選題］下面關(guān)于數(shù)據(jù)粒度的描述不正確的是：（）

A）粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別

B）數(shù)據(jù)越詳細，粒度就越小，級別也就越高

C）數(shù)據(jù)綜合度越高，粒度也就越大，級別也就越高

D）粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量

180.［單選題］以下哪個APP主要使用的是HTTP協(xié)議

A）淘寶

B）今日頭條

C）陰陽師

D）汽車之家

181.［單選題］（）將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量，它是一種凝聚層

次聚類技術(shù)。

A）MIN（單鏈）

B）MAX（全鏈）

C）組平均

D）Ward方法

182.［單選題］考慮下面的頻繁3-項集的集合：

{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項

，采用合并策略，由候選產(chǎn)生過程得到4-項集不包含（）

A）l,2,3,4

B）l,2,3,5

01,2,4,5

D）1,3,4,5

183.［單選題］在基于規(guī)則分類器的中，依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序，保證每一個測試記錄

都是由覆蓋它的“最好的”規(guī)格來分類，這種方案稱為（）

A）基于類的排序方案

B）基于規(guī)則的排序方案

C）基于度量的排序方案

D）基于規(guī)格的排序方案。

184.［單選題］在SQL中，創(chuàng)建數(shù)據(jù)庫用的命令是（）

A）CREATESCHEMA

B）CREATETABLE

C）CREATEVIEW

D）CREATEDATABASE

185.［單選題］為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)？

A）探索性數(shù)據(jù)分析

B）建模描述

C）預(yù)測建模

D）尋找模式和規(guī)則

186.［單選題］網(wǎng)絡(luò)建設(shè)大類的標簽中不包括

A）4G弱覆蓋

B）寬帶未覆蓋

C）寬帶需光改

D）4G發(fā)展不足

187.［單選題］Apriori算法是最基本的一種關(guān)聯(lián)規(guī)則算法，它采用布爾關(guān)聯(lián)規(guī)則的挖掘頻繁項集的算

法，利用（）搜索的方法挖掘頻繁項集。

A）逐層

B）逐級

0自底向上

D）自上而下

188.［單選題］在利用sklearn.cluster.AgglomerativeClustering進行凝聚聚類時，使用的默認距離

度量是（）。

A）曼哈頓距離

B）馬氏距離

C）余弦距離

D）歐氏距離

189.［單選題］下列關(guān)于聚類挖掘技術(shù)的說法中，錯誤的是（）

A）不預(yù)先設(shè)定數(shù)據(jù)歸類類目，完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別

B）要求同類數(shù)據(jù)的內(nèi)容相似度盡可能

C）要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能

D）與分類挖掘技術(shù)相似的是,都是要對數(shù)據(jù)進行分類處理

190.［單選題］DBSCAN在最壞情況下的時間復(fù)雜度是（）。

A）0（m）

B）0（m2）

C）0（logm）

D）0（m*logm）

191.［單選題］下列不是金融科技公司的是（）

A）諾亞財富

B）高盛公司

C）文藝復(fù)興公司

D）中國平安

192.［單選題］在基本K均值算法里，當鄰近度函數(shù)采用（）的時候，合適的質(zhì)心是簇中各點的中位

數(shù)

A）曼哈頓距離

B）平方歐幾里德距離

C）余弦距離

D）Bregman散度

193.［單選題］為什么BeautifulSoup庫叫這個名字?

A）原因不詳，第三方庫起名原因多種多樣，沒必要深究

B）之前有類似的庫叫類似的名字

C）PythonSoftwareFoundation要求開發(fā)者叫這個名字

D）開發(fā)者喜歡煲湯

194.［單選題］在某文章很多話中部分或全部提到了顧客的年齡，性別，收入和工作地點，想查找這四個

詞之間的聯(lián)系以及聯(lián)系的強弱，可以用（）

A）回歸方法

B）分類方法

C）聚類方法

D）關(guān)聯(lián)分析

195.［單選題］有關(guān)數(shù)據(jù)倉庫的開發(fā)特點，不正確的描述是：（）

A）數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)；

B）數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確；

C）數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程，是啟發(fā)式的開發(fā)

D）在數(shù)據(jù)倉庫環(huán)境中，并不存在操作型環(huán)境中所固定的和較確切的處理流，數(shù)據(jù)倉庫中數(shù)據(jù)分析和處

理更靈活，且沒有固定的模式

196.［單選題］根據(jù)中國移動統(tǒng)一DPI設(shè)備技術(shù)規(guī)范-LTE信令采集解析服務(wù)器接口規(guī)范，S1-MME接口信

息的XDR中,ProcedureType取值范圍為：

A）0-32

B）1-33

00-33

D）1-32

197.［單選題］從購物籃商品集中找出商品與商品之間的關(guān)系，有助于發(fā)現(xiàn)同商品之間的聯(lián)系（）

A）聚類

B）分類

C）預(yù)測

D）關(guān)聯(lián)

198.［單選題］以下哪個指標不是家客數(shù)據(jù)端到端指標

A）網(wǎng)頁首屏?xí)r延

B）網(wǎng)頁打開成功率

C）視頻平均播放卡頓次數(shù)

D）4G占網(wǎng)時長占比

199.［單選題］什么是KDD?（）

A）數(shù)據(jù)挖掘與知識發(fā)現(xiàn)

B）領(lǐng)域知識發(fā)現(xiàn)

C）文檔知識發(fā)現(xiàn)

D）動態(tài)知識發(fā)現(xiàn)

200.［單選題］Lasso回歸與傳統(tǒng)的線性回歸最主要的區(qū)別是（）

A）增加L1正則項

B)增加L2正則項

C)無區(qū)別

D)Lasso回歸是線性方程在sigmoid函數(shù)上的嵌套

201.［單選題］EXCEL中，求標準差的函數(shù)是0

A)AVERAGE

B)MEDIAN

OMODE

D)STDEV

202.［單選題］以下指標中，與終端性能無關(guān)的指標是

A)http響應(yīng)時延

B)TCP2、3次握手成功率

C)4G用戶附著成功率

D)視頻緩沖時長

203.［單選題］在基本DBSCAN的參數(shù)選擇方法中，點到它的K個最近鄰的距離中的K選作為哪一個參數(shù)

()

A)Eps

B)MinPts

C)質(zhì)心

D)邊界

204.［單選題］如果一個匹配中，任何一個節(jié)點都不同時是兩條或多條邊的端點，也稱作()

A)極大匹配

B)二分匹配

C)完美匹配

D)極小匹配

205.［單選題］Byte代表一個字節(jié)，及()的數(shù)值范圍。

A)0^100

B)0~155

C)0~200

D)0~255

206.［單選題］在事先不知道數(shù)據(jù)分類的情況下,根據(jù)數(shù)據(jù)之間的相似程度進行劃分，目的是使得同類

別的數(shù)據(jù)對象之間的差別盡可能的小，不同類別的數(shù)據(jù)對象之間的差別盡可能的大。屬于()

A)聚類

B)分類

C)預(yù)測

D)關(guān)聯(lián)

207.［單選題］在哪里能下載到hadoop軟件

A）apache網(wǎng)站或者捐獻給apache使用的公開服務(wù)器

B）oracle官網(wǎng)

C）hadoop公司官網(wǎng)

D）linux官網(wǎng)

208.［單選題］檢測一元正態(tài)分布中的離群點，屬于異常檢測中的基于

（）的離群點檢測

A）統(tǒng)計方法

B）鄰近度

C）密度

D）聚類技術(shù)

209.［單選題］MME附著用戶數(shù)的指標來源是

A）網(wǎng)管系統(tǒng)

B）網(wǎng)優(yōu)平臺

C）集中性能平臺

D）大數(shù)據(jù)平臺

210.［單選題］實現(xiàn)多項式回歸時，數(shù)據(jù)需要進行多項式轉(zhuǎn)換，其目的是（）

A）數(shù)據(jù)進行升維

B）數(shù)據(jù)進行降維

C）數(shù)據(jù)有噪音

D）數(shù)據(jù)不夠平滑

211.［單選題］給定歷史時間數(shù)據(jù)，通過擬合時序模型，分析研究時序數(shù)據(jù)的發(fā)展變化規(guī)律，得出觀測數(shù)

據(jù)的歷史統(tǒng)計特征，再據(jù)此進行外推預(yù)測目標的分析方法是（）。

A）聚類；

B）回歸

C）時間序列

D）匯總統(tǒng)計

212.［單選題］DPI規(guī)范中，流量流向統(tǒng)計字段AppType=0x03代表（）

A）所有流量

B）某個應(yīng)用大類

C）某個應(yīng)用小類

D）某個協(xié)議類別

213.［單選題］樸素貝葉斯分類中得到條件概率的方法錯誤的是（）。

A）對于定量屬性，將取值離散化變?yōu)閰^(qū)間，再當做定性屬性處理

B）對于定性屬性，將轉(zhuǎn)化為定量屬性，再計算相應(yīng)的概率

C）對于定量屬性，假設(shè)變量服從某種概率分布，通過訓(xùn)練數(shù)據(jù)集估計分布的參數(shù)

D）對于定性屬性，計算某一類別的樣本中某種屬性取該值的樣本所占比例來近似

214.［單選題］協(xié)同過濾算法解決的是數(shù)據(jù)挖掘中的哪類問題（）

A）分類問題

B）聚類問題

C）推薦問題

D）自然語言處理問題

215.［單選題］如果我使用數(shù)據(jù)集的全部特征并且能夠達到100%的準確率，但在測試集上僅能達到

70%左右,這

說明（）

A）欠擬合

B）模型很棒

C）過擬合

D）算法不好

216.［單選題］通過（），計算頻數(shù)、眾數(shù)、中位數(shù)等一個或多個數(shù)據(jù)指標，探索數(shù)據(jù)的分布結(jié)構(gòu)。

A）概率統(tǒng)計法

B）匯總統(tǒng)計法

C）可視化法

D）分類統(tǒng)計法

217.［單選題］數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)掘知識的過程，在這個過程中（）可以作為挖掘工具，數(shù)據(jù)可

以被看作是土壤，云平臺可以看作是承載數(shù)據(jù)和挖掘算法的基礎(chǔ)設(shè)施。

A）鋤頭

B）數(shù)據(jù)庫服務(wù)器

C）聚類分析

D）人工智能和數(shù)據(jù)庫技術(shù)

218.［單選題］下面哪個說法是不正確的？

A）一個HTML文檔與BeautifulSoup對象等價

B）標簽樹上除了標簽外，節(jié)點還可能是字符串（NavigableString）類型。

C）一個HTML文檔與一個標簽樹等價

D）一個HTML文檔可以包含多個標簽樹

219.［單選題］在TDLTE網(wǎng)絡(luò)中，負責(zé)用戶鑒權(quán)及密鑰管理的網(wǎng)元是？

A）MME

B）SAEGateway

C）PDNGateway

D）HSS

220.［單選題］可以對按城市匯總的銷售數(shù)據(jù)進行（），來觀察按國家總的數(shù)據(jù)。

A）上卷

B）下鉆

C）切片

D）切塊

221.［單選題］關(guān)聯(lián)規(guī)則的評價指標是：（）。

A）均方誤差、均方根誤差

B）Kappa統(tǒng)計、顯著性檢驗

C）支持度、置信度

D）平均絕對誤差、相對誤差

222.［單選題］以下（）不是影響聚類算法結(jié)果的主要因素。

A）已知類別的樣本的質(zhì)量

B）聚類結(jié)束條件

C）描述屬性的選取

D）對象的相似性度量

223.［單選題］以下哪些算法是基于規(guī)則的分類器（）

A）C4.5

B）KNN

C）Naive

D）ANN

224.［單選題］有關(guān)樸素貝葉斯分類算法的敘述中正確的是（）

A）樸素貝葉斯分類算法是一種精確的分類算法

B）采用樸素貝葉斯分類算法將一個樣本分到某個類別中，表示它100%屬于該類別

C）樸素貝葉斯分類算法是一種基于概率的分類算法

D）以上都不對

225.［單選題］協(xié)同過濾分析用戶興趣，在用戶群中找到指定用戶的相似（興趣）用戶，綜合這些

用戶對某一信息的評價，形成系統(tǒng)對該指定用戶對此信息的喜好程度（），并將這些用戶喜歡的項

推薦給有相似興趣的用戶。

A）相似

B）相同

C）推薦

D）預(yù)測

226.［單選題］使用離差平方和法聚類時，計算樣品間的距離必須采用（）

A）曼哈頓距離

B）歐氏距離

C）切比雪夫距離

D）絕對值距離

227.［單選題］要查詢所有課程中，各門課程的最低分，下面SQL語句正確的是___o

A）SELCET課程號，MIN（成績）FROM選課表GROUPBY課程號；

B）SELCET課程號,SUM（成績），F(xiàn)ROM選課表GROUPBY課程號;

C）SELCET課程號,MAX（成績），MIN（成績），AVERAGE（成績）FROM選課表GROUPBY課程號；

D）SELCET課程號，MAX（成績），F(xiàn)ROM選課表GROUPBY課程號；

228.［單選題］（）博士和洪小文一起構(gòu)建了世界上第一個大詞匯量、非特定人、連續(xù)語音

A）瑞迪

B）李開復(fù)

C）吳軍

D）弗雷德

229.［單選題］分析顧客消費行業(yè)，以便有針對性的向其推薦感興趣的服務(wù)，屬于（）問題

A）關(guān)聯(lián)規(guī)則挖掘

B）分類與回歸

C）聚類分析

D）時序預(yù)測

230.［單選題］Hadoop擅長支撐hive進行（）

A）數(shù)據(jù)采集

B）數(shù)據(jù)計算

0日志存儲

D）日志搜索

231.［單選題］有些數(shù)據(jù)挖掘算法，要求數(shù)據(jù)屬性是標稱類別，當數(shù)據(jù)中包含數(shù)值屬性時，為了使用

這些算法需要將數(shù)值屬性轉(zhuǎn)換成標稱屬性。通過采取各種方法將數(shù)值屬性的值域劃分成一些小的區(qū)

間，并將這連續(xù)的小區(qū)間與離散的值關(guān)聯(lián)起來，每個區(qū)間看作一個類別。例如，某個問題中的年齡

屬性一種可能的劃分成類別操作是：［0…11］一兒童，［12…17］-青少年，［18…44］-青年

,［45…69］-＞中年，［69…8］-＞老年。這種將連續(xù)變量劃分成不同類別的過程通常稱為（）。

A）特征化

B）優(yōu)化

C）標準化

D）離散化

232.［單選題］面對人工智能可能存在高度風(fēng)險，暗藏危機，我們應(yīng)（）

A）因人類的生物進化速度相當有限，終將被人工智能淘汰，所以要阻斷人工智能發(fā)展

B）人工智能對人類造成威脅論調(diào)沒有科研依據(jù)，人工智能可以隨意發(fā)展

C）以盡力發(fā)展為前提，擁抱AI技術(shù)的同時，多多考慮如何避免損害人類

D）不必去面對此類問題

233.［單選題］發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法通常要經(jīng)過以下三個步驟：連接數(shù)據(jù)，作數(shù)據(jù)準備；給定最小支

持度和（），利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則；可視化顯示、理解、評估關(guān)聯(lián)規(guī)則

A）最小興趣度

B）最小置信度

C）最大支持度

D）最小可信度

234.［單選題］第三次人工智能浪潮區(qū)別前兩次在于（）

A）理論的革新

B）思維的轉(zhuǎn)變

C）人工智能戰(zhàn)勝了人類國際象棋世界冠軍

D）人工智能的產(chǎn)品打破了人們的預(yù)期，真正做到了在識別方面比人類本身更智能更高效，是真正可

以用的東西

235.［單選題］在利用linearmodel.LinearRegression（）構(gòu)造的reg對象訓(xùn)練模型后，可以通過以下哪

行代碼查看回歸模型系數(shù)（）。

A）reg._coef

B）reg._coefficient

C）reg.coefficient_

D）reg.coef_

236.［單選題］以下哪種方法不屬于特征選擇的標準方法：（）

A）嵌入

B）過濾

C）包裝

D）抽樣

237.［單選題］考慮下面的頻繁3-項集的集合

：（1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5

}假定數(shù)據(jù)集中只有5個項，采用合并策略，由候選產(chǎn)生過程得到4-項集不包含（）

A）l,2,3,4

B）l,2,3,5

01,2,4,5

D）l,3,4,5

238.［單選題］大數(shù)據(jù)最明顯的特點是（）

A）數(shù)據(jù)類型多樣

B）數(shù)據(jù)規(guī)模大

C）數(shù)據(jù)價值密度高

D）數(shù)據(jù)處理速度快

239.［單選題］下列不屬于原始數(shù)據(jù)來源的是（）

A）行政記錄

B）統(tǒng)計調(diào)查

C）統(tǒng)計年鑒

D）實驗

240.［單選題］下面有關(guān)分類算法的準確率、召回率、F1值的描述，錯誤的是（）

A）準確率是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率，衡量的是檢索系統(tǒng)的查準率

B）召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率，衡量的是檢索系統(tǒng)的查全

率

C）正確率、召回率和F值取值都在0和1之間，數(shù)值越接近0,查準率或查全率就越高

D）為了解決準確率和召回率沖突問題，引入了F1分數(shù)

241.［單選題］下列不屬于數(shù)據(jù)質(zhì)量問題的是（）。

A）缺失值

B）不一致的值

C）重復(fù)數(shù)據(jù)

D）非結(jié)構(gòu)數(shù)據(jù)

242.［單選題］0LAP技術(shù)路線分類不包括

A）ROLAP

B）MOLAP

OH0LAP

D）VoLAP

243.［單選題］在LTE/EPC網(wǎng)絡(luò)里，我們?yōu)橛脩羯膳R時標識叫什么名稱（）

A）IMSI

B）GUMMEI

OGUTI

D）TLLI

244.［單選題］數(shù)據(jù)倉庫是隨著時間變化的，下面的描述不正確的是0

A）數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容

B）捕捉到的新數(shù)據(jù)會覆蓋原來的快照

C）數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容

D）數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù)，這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合

245.［單選題］檢查省公司統(tǒng)一DPI系統(tǒng)設(shè)備4A登錄使用率情況，4A登錄使用率應(yīng)不低于（）

A）80%

B）90%

095%

D）99%

246.［單選題］假設(shè)文件不存在，如果使用open方法打開文件會報錯，那么該文件的打開方式為下列

的哪種模

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)挖掘技術(shù)練習(xí)練習(xí)題及答案4-2023-練習(xí)版

文檔簡介

溫馨提示

最新文檔

評論