大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院

上傳人：題*** IP屬地：浙江上傳時間：2024-07-27 格式：DOCX 頁數(shù)：9 大?。?6.84KB 積分：6 舉報 版權(quán)申訴

大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院_第2頁

大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院_第3頁

大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院_第4頁

免費預(yù)覽已結(jié)束，剩余5頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案+章節(jié)答案2024年山東交通學院SELECT*FROMtable只查詢了表中的一個列。（）

答案:錯域名和IP地址是等價的，都是唯一的表示網(wǎng)絡(luò)中的一臺主機的。（）

答案:對列族數(shù)據(jù)庫，采用面向列的存儲模式，整個數(shù)據(jù)庫由多行組成，每行包含多個列族，不同的行列族不同。（）

答案:對缺失值表示的是“缺失的數(shù)據(jù)“，可能因為機械原因或者人為原因造成的數(shù)據(jù)缺失。()

答案:對MongoDB中，每個文檔都有一個類似關(guān)系型數(shù)據(jù)庫主鍵標識的_id字段來標識此條文檔，如果沒有設(shè)定文檔記錄的_id值，則通過ObjectId來生成_id。（）

答案:對MongoDB查詢時，只能返回全部字段，不能返回某些指定字段。（）

答案:錯設(shè)某網(wǎng)頁解析后的BeautifulSoup對象soup中有多個標簽＜li＞，則soup.findAll("li")返回的是該網(wǎng)頁中所有的標簽＜li＞組成的列表。（）

答案:對如果一個網(wǎng)站沒有發(fā)布自己的robots協(xié)議，或者robots協(xié)議的內(nèi)容為空，說明它允許所有的爬蟲來爬取數(shù)據(jù).。（）

答案:對https是超文本傳輸安全協(xié)議，它是在http協(xié)議的基礎(chǔ)上，增加了加密協(xié)議，能實現(xiàn)數(shù)據(jù)的加密傳輸，安全性更好。（）

答案:對物聯(lián)網(wǎng)數(shù)據(jù)的特點有數(shù)據(jù)量大、更新快、數(shù)據(jù)價值低。（）

答案:對WHERE條件中出現(xiàn)LIKE'_A%'，下面哪一個結(jié)果是可以被檢索出來的（）。

答案:BAI大數(shù)據(jù)采集的數(shù)據(jù)有（）

答案:非結(jié)構(gòu)化數(shù)據(jù);結(jié)構(gòu)化數(shù)據(jù);半結(jié)構(gòu)化數(shù)據(jù)爬蟲的一般思路為（）

答案:獲取網(wǎng)頁;保存數(shù)據(jù);解析網(wǎng)頁;提取數(shù)據(jù)MongoDB數(shù)據(jù)庫存儲的基本單元為（）

答案:文檔關(guān)系模型是用（）結(jié)構(gòu)來描述數(shù)據(jù)間的聯(lián)系。

答案:二維表網(wǎng)站反爬蟲的手段有（）

答案:通過User-Agent校驗反爬;通過驗證碼校驗反爬;通過訪問頻率反爬;通過賬號權(quán)限反爬下面不屬于MongoDB應(yīng)用場景的是（）

答案:支持嚴格事務(wù)的場景下面關(guān)于數(shù)據(jù)集成，說法錯誤的是（）

答案:在數(shù)據(jù)集成中，不需要考慮數(shù)據(jù)的度量單位不一致問題。在k12日志處理案例中，根據(jù)課程難度劃分等級，1-2為初級3-5為中級6-7為高級。下面關(guān)于Kettle中的數(shù)據(jù)轉(zhuǎn)換功能中，（）能實現(xiàn)課程難度到等級的轉(zhuǎn)換。

答案:范圍歸類一名學生的信息在關(guān)系型數(shù)據(jù)庫中就對應(yīng)著表中的一行，而MongoDB以文檔為單位存儲數(shù)據(jù)，一名學生的信息就是一個（）

答案:文檔在數(shù)據(jù)變換中，以下不能夠進行平滑處理的是（）

答案:分類法下列關(guān)于MongoDB數(shù)據(jù)庫，描述錯誤的是（）

答案:MongoDB字段值可以是數(shù)組及文檔數(shù)組，但是不能包含其他文檔用BeautifulSoup類的方法可以獲取該網(wǎng)頁內(nèi)容對應(yīng)的BeautifulSoup類型的標簽樹，從而根據(jù)標簽進一步獲取內(nèi)容。以下語句中，第一個參數(shù)htmlText是（）soup=BeautifulSoup(htmlText,'html.parser')（）

答案:從爬取的網(wǎng)頁對象中獲取的網(wǎng)頁源碼字符串將“選課”表中的1002號課（CHAR(4)類型）的所有成績（INTEGER類型）提高10分，正確的SQL語句是（）。

答案:UPDATE選課SET成績=成績+10WHERE課號=‘1002’；在SQL語句中，對輸出結(jié)果排序的語句是（）。

答案:ORDERBY智能路燈數(shù)據(jù)屬于（）

答案:物聯(lián)網(wǎng)數(shù)據(jù)如果一個字段的數(shù)據(jù)必須來源于另一個表的主鍵，那么需要在這個字段上建立（）。

答案:外鍵在MongoDB中，查詢已修學分大于20的文檔正確的指令為（）

答案:.find({xf:{$gt:20}})MongoDB中，使用（）方法對數(shù)據(jù)進行排序

答案:sort()在MongoDB中，返回info集合中的前三條信息正確的指令為（）

答案:.find().limit(3)Kettle提供的工作流（job）可以實現(xiàn)一系列的數(shù)據(jù)輸入、清洗、格式轉(zhuǎn)換等數(shù)據(jù)處理，但需要編寫相應(yīng)的程序來配合實現(xiàn)。（）

答案:錯在網(wǎng)絡(luò)爬取過程中，用requests.get()函數(shù)爬取網(wǎng)頁時，通過設(shè)置headers這個字段，可以模擬一個瀏覽器向url指定的服務(wù)器發(fā)起訪問從而避免被網(wǎng)站的“反爬”程序識別出來。（）

答案:對可以通過try-except處理爬取網(wǎng)頁過程中可能出現(xiàn)的異常。（）

答案:對內(nèi)連接查詢INNERJOIN可以獲得兩個表中連接字段值相等的所有記錄。（）。

答案:對設(shè)r=requests.get(url)，則r.apparent_encoding比r.encoding能更準確的表示網(wǎng)頁的編碼方式。當網(wǎng)頁出現(xiàn)亂碼時，執(zhí)行r.encoding=r.apparent_encoding，即可有效解決。（）

答案:對用kettle進行數(shù)據(jù)替換時，比如將0替換成男、1替換成女，可以設(shè)置不匹配時的默認值，從而在替換后確保沒有空值。（）

答案:對Spoon是構(gòu)建ETLJobs和Transformations的工具。（）

答案:對用BeautifulSoup庫可以解析網(wǎng)頁，將HTML文件的內(nèi)容轉(zhuǎn)換為BeautifulSoup對象，實際上是將HTML文件轉(zhuǎn)換為標簽樹。（）

答案:對可以使用MongoDB存儲游戲用戶信息，用戶的裝備、積分等直接以內(nèi)嵌文檔的形式存儲，方便查詢、更新。（）

答案:對搜索引擎和爬蟲的功能是完全相同的，前者是正式的名稱，后者是通俗的名稱。（）

答案:錯所有的網(wǎng)站都有robots協(xié)議。（）

答案:錯在數(shù)據(jù)清洗中，重復(fù)值都是采用刪除處理。（）

答案:錯在一個關(guān)系中，若某一個屬性（或?qū)傩约┑闹悼晌ㄒ坏乇硎久恳粋€元組，即其值對不同的元組是不同的，這樣的屬性集合稱為侯選建。（）

答案:對在關(guān)系數(shù)據(jù)庫中，一個關(guān)系對應(yīng)一張二維表。（）

答案:對主鍵不能成為另一個關(guān)系的外鍵。（）。

答案:錯可以使用下列那種方式填充缺失值（）

答案:利用平均值或者中位數(shù)填充缺失值。;利用臨近值填充缺失值。;人工填充缺失值。;利用缺省值填充缺失值。MongoDB索引類型包括（）

答案:哈希索引和地理空間索引;多鍵索引和文本索引;單鍵索引和復(fù)合索引MongoDB中的（）類似于關(guān)系型數(shù)據(jù)庫的行

答案:文檔下列屬性關(guān)系型數(shù)據(jù)庫的是（）

答案:MySQL;Oracle;達夢數(shù)據(jù)庫管理系統(tǒng)下面編寫爬蟲需要的相關(guān)知識為（）

答案:BeautifulSoup;Requests;HtmlHive能夠?qū)QL語句轉(zhuǎn)換為一系列（）任務(wù)來執(zhí)行。

答案:MapReduce鍵值數(shù)據(jù)庫包括（）

答案:Memcached;Redis;Riak1、用BeautifulSoup類的方法可以獲取該網(wǎng)頁內(nèi)容對應(yīng)的BeautifulSoup類型的標簽樹，從而根據(jù)標簽進一步獲取內(nèi)容。以下語句中，第二個參數(shù)html.parser是（

）soup=BeautifulSoup(htmlText,'html.parser')

答案:Html網(wǎng)頁的解析器假設(shè)學生關(guān)系S（S#,SNAME,SEX）,課程關(guān)系C（C#,CNAME），學生選課關(guān)系SC（S#,C#,GRADE）。要查詢選修“Computer”課程的男生姓名，將涉及到關(guān)系（）。

答案:S,C,SC關(guān)于關(guān)系模型完整性的說法，不正確的是（）。

答案:外鍵如果取空值，則違反了參照完整性已知如下關(guān)系：學生Student(S#,Sname)，課程Course(C#,Cname,T#)，選課SC(S#,C#,Score)，教師T(T#,Tname)。其中S#為學號，Sname為學生命名，C#為課號，Cname為課程名，T#為教師編號，Score為成績，Tname為教師名。閱讀SQL語句:SELECTSnameFROMStudent,SC,CourseWHEREStudent.S#=SC.S#ANDCourse.C#=SC.C#ANDT#=‘T01’ANDScore＜60；關(guān)于其查詢結(jié)果，下列說法正確的是（）。

答案:學習T01號教師講授課程不及格的所有學生的姓名在表或視圖上執(zhí)行除了（）以外的語句都可以激活觸發(fā)器。

答案:CREATE大數(shù)據(jù)中日志文件如何采集（）

答案:使用海量數(shù)據(jù)采集工具用于對系統(tǒng)日志的采集，比如Facebook公司的Scribe，Hadoop平臺的Chukwa，Cloudera公司的Flume。在數(shù)據(jù)預(yù)處理中，（）可以將數(shù)據(jù)屬性的連續(xù)值離散化為區(qū)間值或者概念值，也就是將連續(xù)值劃分為若干區(qū)間，再將每個小區(qū)間重新定義一個唯一的取值。

答案:數(shù)據(jù)離散化可以使用（）語言操作MongoDB

答案:其余選項都可以下面不屬于MongoDB中索引類型的是（）

答案:雙建索引某關(guān)系R的外鍵是指（）。

答案:其它關(guān)系的候選鍵，可以是R中的主屬性或非主屬性爬蟲可能突破簡單的密碼設(shè)置等訪問控制，訪問人類不容易瀏覽到的數(shù)據(jù)。這將會引發(fā)（）問題。

答案:個人隱私問題下面引用BeautifulSoup庫正確的寫法是（）

答案:frombs4importBeautifulSoupMongoDB中主鍵的默認格式是（）

答案:ObjectId數(shù)值在[0-100]之間,最小值為0，最大值為100。按照等頻劃分，則該區(qū)間被劃分為[0-45],[46-80],[81-100]，重新定義區(qū)間值為0，1，2，給定數(shù)值50，離散化的值是（）

答案:1在數(shù)據(jù)集成過程中，實體識別問題指的是（）

答案:來自不同數(shù)據(jù)源的等價實體是如何進行匹配的在MongoDB中，刪除所有姓名為mark的文檔正確的指令為（）

答案:.deleteMany({xm:"mark"})以下那項不屬于數(shù)據(jù)質(zhì)量的內(nèi)容（）

答案:數(shù)據(jù)可靠性SQL語言中，下列涉及空值的操作，不正確的是()。。

答案:AGE=NULL（

）發(fā)表論文提出了關(guān)系數(shù)據(jù)庫的理論。

答案:E.F.Codd用Kettle輸入文件時，可設(shè)置通配符表示某一類文件。下面文件中與通配符k12*.txt不匹配的是（）

答案:k13.txt關(guān)于傳統(tǒng)數(shù)據(jù)采集與大數(shù)據(jù)采集區(qū)別，說法錯誤的是（）

答案:大數(shù)據(jù)采集后的數(shù)據(jù)只能采用關(guān)系型數(shù)據(jù)庫存儲在MongoDB使用insertMany()方法插入多條文檔時，如果某條數(shù)據(jù)插入失?。ǎ?/p>

答案:終止插入，但已經(jīng)插入成功的數(shù)據(jù)不會回滾掉查找集合中的數(shù)據(jù)，使用（）方法。

答案:find方法開發(fā)者工具中Network標簽包括（）

答案:控制器;概覽;過濾器;請求列表;概要不同的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)，使用的SQL標準不一樣。（）

答案:錯在本案例中，數(shù)據(jù)采集是通過（）獲取。

答案:網(wǎng)絡(luò)爬蟲在數(shù)據(jù)采集后，python中使用（）庫把數(shù)據(jù)存儲到csv文件中。

答案:csv庫在數(shù)據(jù)清洗中，“輸入”功能主要是實現(xiàn)ETL的數(shù)據(jù)抽取、加載、格式轉(zhuǎn)換。（）

答案:錯kettle中的以下組件中，屬于基本數(shù)據(jù)清洗的是（）

答案:連接字段;刪除數(shù)據(jù);數(shù)據(jù)排序;數(shù)據(jù)替換Kettle讓我們在可視化的界面中，通過拖拽實現(xiàn)數(shù)據(jù)處理。無需掌握復(fù)雜的編程技術(shù)也可以幫助我們完成數(shù)據(jù)的ETL處理。（）

答案:對Kettle能夠支持多種格式的數(shù)據(jù)輸出，但不支持下面（）文件格式。

答案:wordKettle是一種常用的ETL工具，它支持圖形化的GUI設(shè)計界面。（）

答案:對Kettle中的job作業(yè)是指定時完成一系列指定的數(shù)據(jù)轉(zhuǎn)換，并將結(jié)果以郵件的方式告知給我們。（）

答案:對任何網(wǎng)站都有自己的Robots協(xié)議，用來保護網(wǎng)站的信息不會被惡意訪問。（）

答案:錯HTML語言使用“標簽對”來標記信息。其中，＜html＞……＜/html＞標記一個HTML文件中標題的開始和結(jié)束。（）

答案:錯以下程序段的運行結(jié)果是frombs4importBeautifulSouphtmlText='＜p＞解析頁面＜/p＞'soup=BeautifulSoup(htmlText,'html.parser')print(soup.p)（）

答案:＜p＞解析頁面＜/p＞爬蟲就是能夠?qū)崿F(xiàn)網(wǎng)頁數(shù)據(jù)爬取的程序。（）

答案:對如果有網(wǎng)絡(luò)爬蟲頻繁的訪問服務(wù)器，則容易引發(fā)（）問題。

答案:網(wǎng)站的性能下降Python中提供的requests庫的get()方法能夠?qū)崿F(xiàn)爬取網(wǎng)頁信息的功能。（）

答案:對在使用requests庫獲取網(wǎng)頁資源過程中，最重要的兩個對象就是Request和Response，（）負責將客戶端的請求發(fā)送給服務(wù)器。

答案:Request在數(shù)據(jù)離散化中，常見的離散化方法有（）

答案:基于熵的離散化;等頻劃分;基于卡方分箱的方法;聚類劃分;等寬劃分數(shù)據(jù)清洗時重復(fù)值數(shù)據(jù)不能夠刪除。（）

答案:錯大數(shù)據(jù)采集，又稱大數(shù)據(jù)獲取，是指從（）等獲取數(shù)據(jù)的過程。

答案:傳感器;其它智能設(shè)備;企業(yè)系統(tǒng);社交網(wǎng)絡(luò)數(shù)據(jù)完整性指的是數(shù)據(jù)具有一個實體描述的所有必需的部分。（）

答案:對在大數(shù)據(jù)預(yù)處理中，需要數(shù)據(jù)清洗的主要類型包括以下幾類（）

答案:缺失值數(shù)據(jù);重復(fù)值數(shù)據(jù);異常值數(shù)據(jù)網(wǎng)絡(luò)爬蟲的步驟是1）選取一部分種子URL；2）從待抓取URL隊列中取出待抓取的URL，解析DNS，得到主機的IP地址，并將URL對應(yīng)的網(wǎng)頁下載下來，存儲到已下載網(wǎng)頁庫中。此外，將這些URL放進已抓取URL隊列；3）將這些URL放到待抓取URL中；4）分析已抓取URL隊列中的URL，分析其中的其他URL，并且將這些URL放入待抓取URL隊列，從而進入下一個循環(huán)。（）

答案:1）3）2）4）查看當前正在使用的數(shù)據(jù)庫命令（）

答案:dbMongoDB是一個開源、高性能、無模式的文檔型數(shù)據(jù)庫。（）

答案:對關(guān)系型數(shù)據(jù)庫遵循BASE和CAP理論。（）

答案:錯MongoDB通過（）來描述和存放數(shù)據(jù)。

答案:BSONMongoDB中，用戶可以將_id字段上的索引刪除。（）

答案:錯查找kate同學的專業(yè)，使用指令（）完成。

答案:.find({'xm':'kate'},{zy:1})在下列關(guān)于視圖的敘述中，正確的是（）

答案:當修改某一視圖時，導(dǎo)出該視圖的基本表也隨之修改。有學生表Student(S#char(8),Snamechar(10),Ssexchar(2),Sageinteger,D#char(2),Sclasschar(6))。要檢索學生表中“所有年齡小于等于19歲的學生的年齡及姓名”，SQL語句正確的是（）

答案:SelectSage,SnameFromStudentWhereSage＜=19查詢時，若要輸出無重復(fù)的記錄，SELECT子句中使用的保留字是：（）

答案:DISTINCTSQL語言中，刪除一個表的命令是（）

答案

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔