版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章數(shù)據(jù)分析概述填空題描述性分析Anaconda實(shí)時(shí)MarkdownNumPy判斷題×√√√×選擇題BBACB簡(jiǎn)答題數(shù)據(jù)分析是指使用適當(dāng)?shù)腬t"/item/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/_blank"統(tǒng)計(jì)分析方法對(duì)收集到的大量數(shù)據(jù)進(jìn)行分析,從這些數(shù)據(jù)中提取有用信息和形成結(jié)論,并加以詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)分析大致分為五個(gè)階段,分別是明確目的和思路、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)。第2章科學(xué)計(jì)算庫NumPy一、填空題ndarray。二數(shù)據(jù)類型廣播花式索引二、判斷題×√√√×三、選擇題BDACA四、簡(jiǎn)答題軸其實(shí)就代表維度。數(shù)組的維度不同,它對(duì)應(yīng)的軸的數(shù)量也不同。一維數(shù)組只有一個(gè)軸,軸的編號(hào)為0;二維數(shù)組有沿行方向和列方向的兩個(gè)軸,其中沿行方向的軸編號(hào)為0,沿列方向的軸編號(hào)為1;三維數(shù)組有沿著行、列方向,以及由行列組成的平面的三個(gè)軸,這三個(gè)軸的編號(hào)分別為0、1、2。數(shù)組的形狀是否兼容。以兩個(gè)數(shù)組為例,這兩個(gè)數(shù)組的形狀右對(duì)齊,之后沿著從右向左的順序逐個(gè)比較同一緯度是否滿足任意一種情況:(1)維度相等;有一方維度為1。如果數(shù)組形狀的每個(gè)維度都滿足上述任意一種情況,說明兩個(gè)數(shù)組的形狀兼容,可以直接進(jìn)行算術(shù)運(yùn)算。五、編程題答案:importnumpyasnparr=np.zeros(5)print(arr)答案:importnumpyasnparr=np.zeros((8,8),dtype=int)arr[1::2,::2]=1arr[::2,1::2]=1print(arr)數(shù)據(jù)分析庫pandas基礎(chǔ)填空題DataFrame索引,數(shù)據(jù)DataFrameread_csv()分層索引判斷題√√×××選擇題CDAAB簡(jiǎn)答題Series是類似于一維數(shù)組的數(shù)據(jù)結(jié)構(gòu),主要由一組數(shù)據(jù)和與之相關(guān)的索引兩部分組成,其中數(shù)據(jù)可以是任意類型的;DataFrame是一個(gè)類似于二維數(shù)組或表格的數(shù)據(jù)結(jié)構(gòu),它由索引和數(shù)據(jù)兩部分組成,既有行索引又有列索引,每列數(shù)據(jù)可以是不同的數(shù)據(jù)類型。分層索引可以理解為單層索引的延伸,即在一個(gè)軸方向上具有兩層或兩層以上的索引。編程題答案:(1)importnumpyasnpimportpandasaspddf_data=np.array([[1,5,8,8],[2,2,4,9],[7,4,2,3],[3,0,5,2]])col_data=np.array(['A','B','C','D'])df_obj=pd.DataFrame(columns=col_data,data=df_data)df_obj(2)sort_values_data=df_obj.sort_values(by=['B'],ascending=False)sort_values_data(3)sort_values_data.to_csv(r'write_data.csv')print('寫入完畢')數(shù)據(jù)預(yù)處理填空題NaN堆疊合并啞變量異常值pivot()判斷題√√×××選擇題BACDA簡(jiǎn)答題異常值是指數(shù)據(jù)集中的個(gè)別值明顯偏離它所屬數(shù)據(jù)集的其余值,這些數(shù)值是不合理的或錯(cuò)誤的。pandas中提供了幾種數(shù)據(jù)合并的方式,分別是堆疊合并、主鍵合并、根據(jù)索引合并、合并重疊數(shù)據(jù)。編程題答案:(1)importpandasaspdimportnumpyasnpgroup_a=pd.DataFrame({'A':[2,3,5,2,3],'B':['5',np.nan,'2','3','6'],'C':[8,7,50,8,2],'key':[3,4,5,2,5]})group_b=pd.DataFrame({'A':[3,3,3],'B':[4,4,4],'C':[5,5,5]})print(group_a)print(group_b)(2)group_a=group_bine_first(group_b)group_a(3)group_a.rename(columns={'key':'D'})數(shù)據(jù)聚合與分組運(yùn)算填空題拆分by可迭代groupsDataFrameBy判斷題×××√×選擇題AABDC簡(jiǎn)答題分組與聚合主要根據(jù)一定的拆分標(biāo)準(zhǔn)將原數(shù)據(jù)拆分成若干個(gè)分組,然后對(duì)每個(gè)分組應(yīng)用統(tǒng)計(jì)運(yùn)算,并把運(yùn)算后的結(jié)果合并到一起。按照列標(biāo)簽分組、按照Series類的對(duì)象分組、按照字典分組、按照函數(shù)分組。編程題答案:(1)importpandasaspdstudnets_data=pd.DataFrame({'年級(jí)':['大一','大二','大三','大四','大二','大三','大一','大三','大四'],'姓名':['李宏卓','李思真','張振海','趙鴻飛','白蓉','馬騰飛','張曉凡','金紫萱','金燁'],'年齡':[18,19,20,21,19,20,18,20,21],'身高':[175,165,178,175,160,180,167,170,185],'體重':[65,60,70,76,55,70,52,53,73]})studnets_data(2)group_data=studnets_data.groupby('年級(jí)')freshman=group_data.get_group('大一')freshman(3)new_data=group_data.apply(max)delnew_data['年級(jí)']new_data(4)junior=dict([xforxingroup_data])['大三']print(freshman['體重'].apply('mean'))print(junior['體重'].apply('mean'))數(shù)據(jù)可視化填空題直方圖中位數(shù)pyplot六邊形Pyecharts判斷題√××××選擇題DDCBB簡(jiǎn)答題答案:圖表常用的輔助元素包括坐標(biāo)軸、標(biāo)題、圖例、網(wǎng)格、參考線、參考區(qū)域、注釋文本,其中坐標(biāo)軸是用于界定圖表繪圖區(qū)的一組直線,用作度量的參照框架;標(biāo)題是圖表的說明性文本,用于描述圖表的大致內(nèi)容;圖例是集中在圖表一角或一側(cè)的方框,主要作用是標(biāo)識(shí)為圖表中的數(shù)據(jù)系列或分類指定的圖案或顏色;網(wǎng)格是從坐標(biāo)軸的刻度線開始、貫穿繪圖區(qū)域的若干條線,作為估算圖形所示值的標(biāo)準(zhǔn);參考線是標(biāo)記坐標(biāo)軸上特殊值的一條直線;參考區(qū)域是標(biāo)記坐標(biāo)軸上特殊范圍的一塊區(qū)域;注釋文本表示對(duì)圖形的一些注釋和說明。答案:(1)直方圖,由一系列高度不等的矩形條或線段組成,用于反映數(shù)據(jù)的分布和波動(dòng)情況。(2)折線圖是用直線段將各數(shù)據(jù)點(diǎn)連接起來而組成的圖形,以線條的方式顯示數(shù)據(jù)的變化趨勢(shì)。(3)柱形圖是由一系列寬度相等的縱向矩形條組成的圖表,它使用矩形條的高度表示數(shù)據(jù)的多少,以此反映不同分類數(shù)據(jù)之間的差異。(4)餅圖是一種用于了解數(shù)據(jù)中各分類占比情況的圖表,它使用圓表示數(shù)據(jù)的總量,組成圓的扇面表示數(shù)據(jù)各項(xiàng)占總量的比例大小。(5)散點(diǎn)圖是由若干組數(shù)據(jù)點(diǎn)組成的圖表,主要用于判斷兩變量之間是否存在某種關(guān)聯(lián),或者總結(jié)數(shù)據(jù)點(diǎn)的分布模式。(6)箱形圖是利用數(shù)據(jù)中的5個(gè)統(tǒng)計(jì)量——最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)和最大值——描述數(shù)據(jù)的一種圖表,主要用于反映一組或多組數(shù)據(jù)的對(duì)稱性、分布程度等信息。編程題答案:importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']#正常顯示中文標(biāo)簽x_axis=stock_data['汽車品牌']y_axis=stock_data['熱搜指數(shù)']rect_hot=plt.bar(x_axis,y_axis)plt.ylabel('熱搜指數(shù)')plt.title('不同品牌汽車的熱搜指數(shù)')#添加注釋文本defautolabel(rects):"""在每個(gè)柱形上方添加注釋文本"""forrectinrects:rect_height=rect.get_height()#獲取每個(gè)柱形的高度rect_x=rect.get_x()#獲取每個(gè)柱形的x值rect_width=rect.get_width()#獲取每個(gè)柱形的寬度plt.text(rect_x+rect_width/2,rect_height+30,s='{}'.format(rect_height),ha='center',va='bottom',fontsize=9)autolabel(rect_hot)plt.show()時(shí)間序列分析填空題時(shí)間序列時(shí)間戳基礎(chǔ)頻率重采樣Period判斷題√√×√×選擇題ADDBC簡(jiǎn)答題時(shí)間戳表示帶時(shí)區(qū)的特定的日期時(shí)間;時(shí)間差表示絕對(duì)的持續(xù)時(shí)間;時(shí)期是由時(shí)間點(diǎn)及其相關(guān)頻率定義的時(shí)間跨度。如果是將高頻率數(shù)據(jù)聚合到低頻率,比如將每日采集的頻率變成每月采集,則稱為降采樣;如果將低頻率數(shù)據(jù)轉(zhuǎn)換到高頻率數(shù)據(jù),比如將每月采集的頻率變成每日采集,則稱為升采樣。編程題答案:代碼一:運(yùn)行產(chǎn)生ValueError異常,主要是因?yàn)閐ate_range()函數(shù)中必須傳入start、end、periods、freq中至少三個(gè)參數(shù),而代碼中只傳入了start和freq參數(shù)。代碼二:運(yùn)行結(jié)果為5代碼三:運(yùn)行出現(xiàn)異常,因?yàn)槿掌谧址母袷讲荒軌虮徽_解析。文本數(shù)據(jù)分析填空題詞形還原詞性標(biāo)注停用詞NLTK精確判斷題×√×××選擇題DABCDDAB簡(jiǎn)答題文本預(yù)處理的基本流程包括分詞、詞形統(tǒng)一化、刪除停用詞。(1)對(duì)文本進(jìn)行分詞操作,從中找出正向情感詞、負(fù)向情感詞、否定詞以及程度副詞。(2)判斷每個(gè)情感詞之前是否有否定詞及程度副詞,將它之前的否定詞和程度副詞劃分為一組。如果存在否定詞,則將情感詞的情感權(quán)值乘以-1;如果有程度副詞,就乘以程度副詞的程度值。(3)將所有組的得分加起來,得分大于0的歸于正向,小于0的歸于負(fù)向。機(jī)器學(xué)習(xí)入門填空題機(jī)器學(xué)習(xí)樣本監(jiān)督學(xué)習(xí)最值歸一化網(wǎng)格搜索判斷題√××√×選擇題DAACA簡(jiǎn)答
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 職業(yè)學(xué)院復(fù)查成績(jī)申請(qǐng)單
- 福建省南平市衛(wèi)閩中學(xué)2022年高三英語模擬試題含解析
- 福建省南平市太平鎮(zhèn)中學(xué)2022年高二物理模擬試卷含解析
- 12 古詩三首-示兒說課稿-2024-2025學(xué)年五年級(jí)上冊(cè)語文統(tǒng)編版
- 精2024年度企業(yè)咨詢服務(wù)合同
- 2024年股權(quán)轉(zhuǎn)讓與資產(chǎn)購置合同3篇
- 11植物的花 說課稿-2024-2025學(xué)年科學(xué)三年級(jí)下冊(cè)青島版
- 6 讓資源再生 說課稿-2023-2024學(xué)年科學(xué)五年級(jí)下冊(cè)教科版
- 秋分營(yíng)銷策略解析
- 10《古詩三首》第三課時(shí) 說課稿-2024-2025學(xué)年語文六年級(jí)下冊(cè)統(tǒng)編版
- 邊緣計(jì)算應(yīng)用
- 江蘇省建筑節(jié)能分部工程施工方案范本
- 危險(xiǎn)化學(xué)品事故應(yīng)急預(yù)案
- 高考寫作指導(dǎo):《登泰山記》《我與地壇》材料
- 同意未成年出國聲明 - 中英
- 數(shù)字經(jīng)濟(jì)學(xué)導(dǎo)論-全套課件
- 2023版(五級(jí))脊柱按摩師技能認(rèn)定考試題庫大全-上(單選題部分)
- 教育系統(tǒng)自然災(zāi)害類突發(fā)公共事件應(yīng)急預(yù)案
- 2022電氣技術(shù)員考試題庫及答案
- 魯教版化學(xué)八年級(jí)上冊(cè)全冊(cè)教學(xué)課件(五四制)
- 竇占龍憋寶:九死十三災(zāi)
評(píng)論
0/150
提交評(píng)論