版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第三章數(shù)據(jù)處理與應(yīng)用章節(jié)練習(xí)一、選擇題1.如圖所示的詞云圖中,反映出某川菜餐廳遭到差評的最大問題是(
)A.臟 B.不新鮮 C.服務(wù)差 D.難吃2.在分類過程中,能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類的數(shù)據(jù)分析方法是(
)A.聚類分析 B.建立模型 C.模型評價 D.關(guān)聯(lián)分析3.?dāng)?shù)據(jù)分析報告不僅是對整個數(shù)據(jù)處理過程的總結(jié)與展示,更能為決策提供參考,下列關(guān)于數(shù)據(jù)分析報告的基本結(jié)構(gòu)說法錯誤的是(
)A.?dāng)?shù)據(jù)分析報告的開篇內(nèi)容是分析研究背景、目的和思路等B.?dāng)?shù)據(jù)分析報告的正文部分主要是包括具體的分析過程和結(jié)果C.?dāng)?shù)據(jù)分析報告的結(jié)尾部分包括結(jié)論、建議及附錄D.?dāng)?shù)據(jù)分析報告通常包括開篇、正文、結(jié)尾和交流四個部分4.?dāng)?shù)據(jù)分析的過程不包括(
)A.根據(jù)分析直接得出相應(yīng)的結(jié)論B.根據(jù)分析的目標(biāo)提出假設(shè)C.選擇恰當(dāng)?shù)姆治龇椒ㄟM(jìn)行分析D.驗證假設(shè)是否正確5.?dāng)?shù)據(jù)處理的一般過程是(
)A.采集—整理—可視化表達(dá)-分析 B.采集—整理—分析-可視化表達(dá)C.采集—可視化表達(dá)—整理-分析 D.采集—分析—整理—可視化表達(dá)6.單元學(xué)習(xí)完成后,小明同學(xué)為了梳理其中的概念,最適合使用的可視化工具是(
)A.思維導(dǎo)圖 B.圖表 C.詞云 D.熱力圖7.在大數(shù)據(jù)時代,復(fù)雜繁多且不同類型的數(shù)據(jù)大量出現(xiàn),數(shù)據(jù)可視化的應(yīng)用價值越來越明顯,下列關(guān)于數(shù)據(jù)可視化的描述不正確的是(
)A.?dāng)?shù)據(jù)可視化便于人們對數(shù)據(jù)的理解B.?dāng)?shù)據(jù)可視化借助于圖形化手段,清晰地傳達(dá)與溝通信息C.Python語言不能實現(xiàn)數(shù)據(jù)可視化D.?dāng)?shù)據(jù)可視化呈現(xiàn)的方法有多種,不同的類數(shù)據(jù)類型要挑選合適的呈現(xiàn)方式8.下列選項中,不是數(shù)據(jù)分析作用的是()A.預(yù)測事物的未來走向B.了解事物的現(xiàn)狀C.方便數(shù)據(jù)的獲取D.剖析事物的發(fā)展歷程9.下列關(guān)于數(shù)據(jù)管理與安全的說法不正確的是(
)A.?dāng)?shù)據(jù)的完整性可采用MD5校驗方法來驗證B.借助云計算與大數(shù)據(jù)等技術(shù),能提高數(shù)據(jù)管理水平C.?dāng)?shù)據(jù)安全就是保障數(shù)據(jù)不被損壞D.為防止系統(tǒng)停止工作時造成數(shù)據(jù)丟失,可通過容災(zāi)系統(tǒng)來解決10.下列選項中,可用來采集互聯(lián)網(wǎng)數(shù)據(jù)的工具是(
)A.網(wǎng)絡(luò)爬蟲 B.電子表格軟件 C.WiFi監(jiān)控攝像頭 D.思維導(dǎo)圖工具11.采集的大數(shù)據(jù)中,常見的數(shù)據(jù)問題主要是(
)①數(shù)據(jù)缺失②數(shù)據(jù)重復(fù)③數(shù)據(jù)量大④數(shù)據(jù)異常A.②③④ B.①③④ C.①②④ D.①②③12.下列做法中,不能有效保障數(shù)據(jù)安全的是(
)A.定期備份數(shù)據(jù) B.泄漏他人隱私數(shù)據(jù)C.進(jìn)行數(shù)據(jù)加密 D.不隨意連接陌生WiFi13.下列關(guān)于圖表用途的敘述,正確的是(
)A.柱形圖適用于表現(xiàn)數(shù)據(jù)大小關(guān)系 B.條形圖適用于描述數(shù)據(jù)之間的變化趨勢C.折線圖適用于描述數(shù)據(jù)的比例關(guān)系 D.餅圖適用于描述數(shù)據(jù)之間的大小關(guān)系14.關(guān)于散點圖,下列說法正確的是(
)A.可呈現(xiàn)變量的頻數(shù)分布B.可表示兩種特征間的相關(guān)關(guān)系C.可描述變量的變化趨勢D.可直觀表述出各指標(biāo)的位置15.題圖所示是李琳上學(xué)期的成績,求平均分并做對比后,她選擇等級考的科目為物理化學(xué)和歷史三科,用到的數(shù)據(jù)分析法是(
)時間物理化學(xué)生物政治歷史地理月考1807663669256月考2827870699667月考3868567718860月考4898773659563平均分A.對比分析法、結(jié)構(gòu)分析法 B.結(jié)構(gòu)分析法、平均分析法C.平均分析法、對比分析法 D.圖表分析法、結(jié)構(gòu)分析法二、填空題16.K平均算法屬于()分析方法。17.如下圖所示,小申收集了20002018年某地的臺風(fēng)數(shù)據(jù)。臺風(fēng)等級分為5級:熱帶風(fēng)暴、強(qiáng)熱帶風(fēng)暴、臺風(fēng)、強(qiáng)臺風(fēng)、超強(qiáng)臺風(fēng),分別對應(yīng)表中的A級、B級、C級、D級、E級。yearA級B級C級D級E級2000629332001611252200254412120032556320047361122004736112200536293………………小申在撰寫數(shù)據(jù)分析報告時,繪制了“20002018年之間臺風(fēng)總數(shù)數(shù)量”的箱形圖,請幫助小申進(jìn)行分析。18.?dāng)?shù)據(jù)可視化表達(dá)的呈現(xiàn)方式有很多,小明把高中同學(xué)“大學(xué)所在城市”數(shù)據(jù),生成一個詞云圖,根據(jù)詞云圖可以知道,小明同學(xué)去城市上大學(xué)的最多。19.請列舉出五個數(shù)據(jù)可視化表達(dá)的常見圖表名稱。20.詞云是對文本數(shù)據(jù)進(jìn)行分析處理后的可視化形式。某同學(xué)采集微信好友簽名制作了如圖所示的詞云。觀察詞云圖,分析并寫出至少三個出現(xiàn)頻率較高的詞語。三、判斷題21.思維導(dǎo)圖、演示文稿、搜索引擎等工具,均屬于數(shù)字化可視化表達(dá)工具。()22.?dāng)?shù)據(jù)可視化表達(dá)的工具包含Seabom、Bokeh等。()23.做好數(shù)據(jù)備份和數(shù)據(jù)加密,就不用擔(dān)心數(shù)據(jù)安全問題,數(shù)據(jù)一定會萬無一失。()24.?dāng)?shù)據(jù)分析中采取調(diào)查問卷,問題設(shè)計越多,得到的信息越多。()25.WPS表格、數(shù)據(jù)庫、Python、Photoshop等都是常見的數(shù)據(jù)分析工具。()四、操作題26.為了完善某學(xué)校食堂管理、持續(xù)提高食堂服務(wù)質(zhì)量,讓全校師生更加精神飽滿地開展工作、學(xué)習(xí),對學(xué)校食堂進(jìn)行了一些調(diào)查,調(diào)查項目共5項(具體內(nèi)容略)。學(xué)校后勤管理謝老師收集了12個班級的調(diào)查結(jié)果,分別存儲在“dy01.csv”、“dy02.csv”、…、“dy12.csv”等12個文件中(如圖a所示),每個文件部分界面如圖b所示。圖a
圖b現(xiàn)需要分析12個班級學(xué)生對這5個問題的選“A”情況。謝老師用Python的pandas模塊編寫了以下代碼,實現(xiàn)相關(guān)問題的解決。請回答下列問題。(1)定義了fun_A()函數(shù)實現(xiàn)了統(tǒng)計某個班級5個問題的選“A”的人數(shù)情況。Python程序代碼如下,請在劃線處填入合適代碼。importpandasaspddeffun_A(file):df=pd.read_csv(file)A_list=[]foriindf.columns[1:]:j=0c=0whilej<len(df):if:c+=1j+=1A_list.append(c)returnA_list(2)調(diào)用上述函數(shù),處理12個班級每個問題的選“A”的總?cè)藬?shù),Python程序代碼如下,請在劃線處填入合適代碼。ans_list=[]foriinrange(0,len(s)1,2):filename="dy"+①+"~.csv"res=fun_A(filename)ans_list.append(res)x=["問題1","問題2",“問題3","問題4","問題5"]y=[0,0,0,0,0]foriinrange(5):s=0
#每個問題選A的人數(shù)forjinrange(12):
②y[i]=s(3)經(jīng)上述處理后,接著以圖的形式匯報結(jié)果(如圖c所示),Python程序代碼如下,請回答下列問題。importmatplotlib.pyplotaspltplt.rcParams['font.sansserif’]=[’SimHei’]
#圖表顯示中文字體plt.title("每個問題選A的總?cè)藬?shù)")plt.legend()plt.show()加框處代碼合適的是(單選,填字母)A.plt.bar(x,y)
B.plt.bar(x,y,label=’A選項’)C.plt.plot(x,y)
D.plt.plot(x,y,label=’A選項’)(4)調(diào)查數(shù)據(jù)的有效問卷共550份,從圖c中可以觀察出有(填數(shù)字)個問題的選“A”總?cè)藬?shù)低于60%。每個問題選A的總?cè)藬?shù)圖c27.某地高中的技術(shù)選考數(shù)據(jù),保存在“jsxk.xls”文件中,如圖a所示。圖a
圖b請回答下列問題:(1)統(tǒng)計各學(xué)校技術(shù)選考人數(shù)占本???cè)藬?shù)的比例,找出占比最高的前5所學(xué)校并繪制柱形圖,如圖b所示。部分Python程序如下,請在劃線處填寫合適的代碼。importpandasaspdimportmatplotlib.pyplotasplt#圖表支持中文字體顯示,代碼略df=("jsxk.xls",dtype={'學(xué)校代碼':'string'})
#學(xué)校代碼列為字符串df1=df.groupby("",as_index=False)()
#按學(xué)校統(tǒng)計人數(shù)df1=df1.rename(columns={'姓名':'學(xué)生總數(shù)'})
#重命名列df1['技術(shù)比例']=round(/df1['學(xué)生總數(shù)']*100,2)dfl=dfl.sort_values('技術(shù)比例',ascending=False).head(5)('技術(shù)選考比例前5的學(xué)校')()plt.show()(2)在本問題的解決中,為了探究函數(shù)groupby(),某同學(xué)編寫了自定義函數(shù)zdygroupby(),其功能為統(tǒng)計各校技術(shù)選考總?cè)藬?shù),并以字典的形式返回。函數(shù)代碼如下,請在劃線處填寫合適的代碼。(注:代碼中1st為二維列表,列表中每個元素包含3個數(shù)據(jù)項,格式如[['201901','顧筱揚(yáng)',NaN],['201901','俞凱睿',1.0],['201901',陳丹祺',1.0]……])def
zdygroupby(1st):dic={}forrowinlst:ifrow[2]==1:if:dic[row[0]]=1else:dic[row[0]]+=128.某校學(xué)生期末考試成績利用Excel處理,數(shù)據(jù)存儲在“cj.xlsx”文件中,部分?jǐn)?shù)據(jù)如圖a所示,張三老師利用該數(shù)據(jù)展開了數(shù)據(jù)的統(tǒng)計分析與可視化呈現(xiàn)。圖a請回到下列問題:(1)導(dǎo)入模塊,創(chuàng)建DataFrame對象,計算每個學(xué)生總分列,則①劃線處,填入的語句是(單選,填字母)A.df['總分']=(axis=0)
B.df['總分']=(axis=1)C.df['總分']=(axis=0)
D.df['總分']=(axis=1)importpandasaspdimportasplt['serif']=['SimHei']
#顯示中文字符,字體為黑體df=_excel("cj.xlsx")df=("考號",axis=1)
#刪除考號一列①________(2)在df對象中顯示出總分成績大于等于300的學(xué)生,正確的語句是(單選,填字母)A.print(df[df.總分>=300])
B.print(df.總分>=300)C.print(df[df>=300])
D.print(df[300:])(3)按照班級分組計算各班總分平均分,從大到小顯示總分平均分最高的前三個班級,在劃線處填入合適代碼。df1=("班級",as_index=False).mean()df2=df1.sort_values("總分",ascending=)
s=df2.head(3)print(s)(4)利用繪制柱狀圖,如圖b所示,在劃線處填入合適代碼。圖b()(())
("總分平均分最高的三個班級")(180,300)
#設(shè)置y坐標(biāo)軸的刻度()29.李老師收集了高三年級某次考試語數(shù)外成績,并保存在中,數(shù)據(jù)表如圖a所示:李老師用Python編寫了一個程序,對數(shù)據(jù)進(jìn)行分析處理,輸出總分大于等于260分的學(xué)生信息,并直觀顯示英語前三名的分?jǐn)?shù)情況,生成了如圖b所示的圖表。Python程序代碼如下,請在劃線處填上合適的代碼:importpandasaspdimportasplt['serif']=['SimHei']
#使圖形中的中文編碼正常顯示df=_excel("scores.xlsx")df["總分"]=
#計算總分列數(shù)據(jù)#下行代碼:輸出總分大于等于260分的學(xué)生信息print(df[])g=("班級",as_index=False)print(g.英語.mean())df1=("英語”,)("英語成績前三名分?jǐn)?shù)情況")x=df1[0:3].姓名y=df1[0:3].英語(x,y)()plt.30.項目:探究高一各學(xué)科相關(guān)性分析【項目情境】在信息化浪潮的推動下,互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,云計算、移動互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等新興技術(shù)嶄露頭角。使用數(shù)據(jù)挖掘相關(guān)技術(shù)對中學(xué)教學(xué)活動中產(chǎn)生的數(shù)據(jù)進(jìn)行收集與處理,獲取有利于教學(xué)的相關(guān)信息,也是推進(jìn)智慧教育的舉措之一。在教學(xué)過程中,學(xué)科考試成績能夠在一定程度反映學(xué)生的認(rèn)知發(fā)展水平,某校對高一年級學(xué)生的成績進(jìn)行數(shù)據(jù)處理,分析各學(xué)科之間的關(guān)聯(lián)度找出優(yōu)勢學(xué)科,對教學(xué)及學(xué)生選科有重要的參考價值?!卷椖烤C述】概述項目目的、方法和過程。根據(jù)要求,回答問題。(1)數(shù)據(jù)分析需要使用恰當(dāng)?shù)姆椒ê凸ぞ?,對?shù)據(jù)進(jìn)行各種分析。我們可以通過尋找數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,可以通過在分類標(biāo)準(zhǔn)未知的情況下進(jìn)行數(shù)據(jù)自動分類,可以根據(jù)分類準(zhǔn)則通過對未知數(shù)據(jù)進(jìn)行預(yù)測。(選填:數(shù)據(jù)分類、關(guān)聯(lián)分析、聚類分析)(2)本項目主要通過模擬大數(shù)據(jù)采集與分析方法,采用(選填:數(shù)據(jù)分析關(guān)聯(lián)分析、聚類分類)的方法進(jìn)行數(shù)據(jù)分析,試圖分析高一年級學(xué)生各學(xué)科之間的關(guān)聯(lián)度,找出兩到三門優(yōu)勢學(xué)科,作為指導(dǎo)教學(xué)及學(xué)生選科的重要參考依據(jù)。(3)確定需要收集的數(shù)據(jù)為歷年高年級期中期末的各學(xué)科成績,在數(shù)據(jù)收集、發(fā)布、傳播、共享時,為保護(hù)學(xué)生的隱私應(yīng)采用(選填:數(shù)據(jù)精度處理、人工干擾、匿名處理、訪問控制)等技術(shù)手段。(4)選用Python語言作為數(shù)據(jù)分析工具,需要通過調(diào)用諸如標(biāo)準(zhǔn)模塊、自定義模塊以及第三方擴(kuò)展庫的支持,從而高效的完成數(shù)據(jù)采集處理分析、可視化。數(shù)據(jù)分析步驟有①數(shù)據(jù)呈現(xiàn)②數(shù)據(jù)分類/關(guān)聯(lián)分析/聚類分析③數(shù)據(jù)采集④分析報告⑤數(shù)據(jù)預(yù)處理,正確的順序是。(寫出序號即可)【項目實施】(一)數(shù)據(jù)采集與預(yù)處理圖1為記錄歷年高中各科成績的部分文件,圖2為獲取所有高一成績并寫入指定文件“高一考試成績總.xlsx”的部分程序代碼。圖3為獲取的高一考試成績的部分?jǐn)?shù)據(jù)內(nèi)容。根據(jù)要求,回答問題。圖1圖2圖3(5)觀察圖2,該程序用結(jié)構(gòu)嵌套結(jié)構(gòu)(選填:順序、選擇、循環(huán))描述算法,實現(xiàn)從若干個xlsx文件中篩選出高一成績并保存為數(shù)據(jù)文件,其中在Python語言中表示判斷數(shù)據(jù)大小關(guān)系的運(yùn)算符“==”表示(選填:不等于、等于)。補(bǔ)充程序代碼中缺失的語句,應(yīng)在下劃線處填寫。(6)對采集的數(shù)據(jù)進(jìn)行有效存儲,以便對數(shù)據(jù)進(jìn)行分析和使用。海量的數(shù)據(jù)幾乎包含一切形式的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)。網(wǎng)絡(luò)中的音視頻圖片、地理位置、網(wǎng)絡(luò)日志等數(shù)據(jù)屬于數(shù)據(jù),如圖1333,“高一考試成績_總.xlsx”中的數(shù)據(jù)屬于數(shù)據(jù)。(選填:結(jié)構(gòu)化、非結(jié)構(gòu)化)(7)在數(shù)據(jù)分析之前,需要運(yùn)用方法(選填:特征探索關(guān)聯(lián)分析、聚類分析、數(shù)據(jù)分類)對數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和處理缺失值以保證數(shù)據(jù)的完整,還需要對異常數(shù)據(jù)進(jìn)行清理,分析是否有冗余數(shù)據(jù)等。觀察圖3,“201”屬于數(shù)據(jù),虛線部分屬于數(shù)據(jù)(選填:缺失值、異常值、冗余值),應(yīng)當(dāng)刪除數(shù)據(jù)所在(選填:行、列)。(8)觀察圖333表格的數(shù)據(jù),在收集數(shù)據(jù)的過程中,你認(rèn)為哪些數(shù)據(jù)可以不采集?為什么?(二)數(shù)據(jù)分析與可視化運(yùn)用Python語言編程進(jìn)行數(shù)據(jù)分析與可視化表達(dá),分析部分結(jié)果如圖4、5。根據(jù)要求,回答問題。圖4圖5(9)觀察圖4,該校學(xué)生地理、物理、生物同時優(yōu)秀的概率最,政治、物理、化學(xué)同時優(yōu)秀的概率較低。(10)為便于理解數(shù)據(jù)之間的關(guān)系,使用數(shù)據(jù)可視化工具可以圖表形式直觀呈現(xiàn)。如折線圖可以表示關(guān)于的分析、散點圖可以表示關(guān)于的分析、數(shù)據(jù)地圖可以表示關(guān)于的分析(選填;邏輯關(guān)系空間關(guān)系、趨勢)。如圖5所示選用圖將數(shù)據(jù)分析可視化呈現(xiàn)。(11)下列關(guān)于數(shù)據(jù)可視化的描述中,正確的是(多選)A.可視化也可以將數(shù)據(jù)以地圖動畫等形式表示B.可視化可以有效提升數(shù)據(jù)分析的效率C.可視化可以讓人們快速抓住要點信息D.可視化可以幫助人們發(fā)現(xiàn)數(shù)據(jù)背后的價值(三)分析報告在數(shù)據(jù)分析中,使用數(shù)據(jù)可視化工具可以直觀的呈現(xiàn)數(shù)據(jù)之間的關(guān)系,尋找數(shù)據(jù)之間的內(nèi)在規(guī)律,最終實現(xiàn)數(shù)據(jù)的應(yīng)用。(12)觀察圖5,說說你從圖中發(fā)現(xiàn)了什么?挖掘出哪些信息?(13)結(jié)合自己的學(xué)習(xí)和生活,談一談
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小班圖書區(qū)游戲課程設(shè)計
- 太陽能測量課程設(shè)計
- 擺攤項目課程設(shè)計報告
- 《植入式廣告法律規(guī)制研究》
- 《基于負(fù)荷頻率控制的時滯電力系統(tǒng)穩(wěn)定性研究》
- 《我國高新技術(shù)上市公司盈余質(zhì)量綜合評價研究》
- 《基于動力學(xué)的小型工業(yè)機(jī)器人軌跡優(yōu)化算法研究》
- 建工制圖課程設(shè)計
- 《基于儲備池計算的混沌同步保密通信研究》
- 《富氧條件下Cu-Al2O3催化劑上烴類選擇性還原氮氧化物的研究》
- T梁預(yù)制臺座占用時間及資源配置分析
- 名中醫(yī)工作室跟師醫(yī)案記錄 (15)
- 瀝青路面日常養(yǎng)護(hù)及維修施工要點(大量附圖共143頁)
- 《色彩基礎(chǔ)知識》PPT課件(詳解)
- 《保健按摩師》(二級)理論知識鑒定要素細(xì)目表
- 甘蔗制糖簡介
- 三秦出版社五年級上冊綜合實踐教案
- 屋頂分布式光伏項目安全文明施工控制措施
- 水泥保證供應(yīng)實施方案及服務(wù)承諾書
- 2022機(jī)要密碼工作總結(jié)機(jī)要室工作總結(jié).doc
- 安全工器具檢測報告(共22頁)
評論
0/150
提交評論