版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)分析概述填空題數(shù)據(jù)分析按照復(fù)雜度和深度可以分為、診斷性分析、預(yù)測性分析和規(guī)范性分析共4個(gè)層次。包含了Conda、Python在內(nèi)的超過180個(gè)科學(xué)計(jì)算包及其依賴項(xiàng)。JupyterNotebook是一個(gè)支持代碼、數(shù)學(xué)方程、可視化和Markdown的Web應(yīng)用程序。JupyterNotebook支持代碼和這兩種類型的單元格。是Python開源的科學(xué)計(jì)算庫,能夠?qū)崿F(xiàn)高維數(shù)組與矩陣運(yùn)算。判斷題數(shù)據(jù)分析是一個(gè)有目的地收集和整合數(shù)據(jù)的過程。()Python能夠“粘連”其它語言的組件,便于開發(fā)人員操作其它語言編寫的庫。()如果要卸載指定環(huán)境中的包,則可以直接使用condaremove命令移除。()數(shù)據(jù)處理在一定程度上保證了分析工作中數(shù)據(jù)的質(zhì)量。()Anaconda工具安裝了數(shù)據(jù)分析用到的全部庫,無需另行安裝。()選擇題下列選項(xiàng)中,屬于數(shù)據(jù)分析中用于搭接數(shù)據(jù)倉庫和保證數(shù)據(jù)質(zhì)量的是()。數(shù)據(jù)收集數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)關(guān)于Anaconda工具的說法中,下列描述錯(cuò)誤的是()。Anaconda是一個(gè)可以對包和環(huán)境進(jìn)行統(tǒng)一管理的工具。Anaconda是完全開源的、付費(fèi)的Anaconda支持Linux、Windows、macOS操作系統(tǒng)Anaconda避免了單獨(dú)安裝包時(shí)需要配置或兼容等各種問題下列選項(xiàng)中,關(guān)于JupyterNotebook的描述正確的是()。安裝Anaconda工具后會自動擁有JupyterNotebookJupyterNotebook只能通過命令行的方式啟動JupyterNotebook首頁的根目錄是不能修改的JupyterNotebook不能將腳本文件導(dǎo)出為HTML文件下列選項(xiàng)中,用于實(shí)現(xiàn)數(shù)據(jù)可視化功能的庫是()。NumPypandasMatplotlibNLTK下列選項(xiàng)中,用于查看當(dāng)前環(huán)境下所有包信息的命令是()。conda--versioncondalistcondainstalljiebacondaupdate--all簡答題什么是數(shù)據(jù)分析?請簡述數(shù)據(jù)分析的基本流程。第2章科學(xué)計(jì)算庫NumPy填空題在NumPy中,可以使用數(shù)組對象________執(zhí)行一些科學(xué)計(jì)算。如果ndarray.ndim執(zhí)行的結(jié)果為2,則表示創(chuàng)建的是_____維數(shù)組。NumPy中________是由一個(gè)類型名和元素位長的數(shù)字組成。如果兩個(gè)數(shù)組的形狀不同,則它們進(jìn)行算術(shù)運(yùn)算時(shí)可能會觸發(fā)________機(jī)制。NumPy中________是指用整數(shù)數(shù)組或整數(shù)列表作為數(shù)組的索引。判斷題通過empty()函數(shù)創(chuàng)建的數(shù)組,該數(shù)組中沒有任何的元素。()若使用ones()函數(shù)創(chuàng)建數(shù)組時(shí)沒有明確地指明元素的數(shù)據(jù)類型,則默認(rèn)數(shù)據(jù)類型為float64。()數(shù)組之間的任何算術(shù)運(yùn)算都會將運(yùn)算應(yīng)用到數(shù)組的每個(gè)元素上。()NumPy中,可以混合使用切片與整數(shù)索引來獲取二維數(shù)組的元素。()當(dāng)通過布爾索引操作數(shù)組時(shí),返回的數(shù)據(jù)是布爾數(shù)組中False對應(yīng)位置的值。()選擇題下列選項(xiàng)中,用來表示數(shù)組維度元組的屬性是()。ndimshapesizedtype下面選項(xiàng)中,創(chuàng)建的是3行3列數(shù)組的是()。arr=np.array([1,2,3])arr=np.array([[1,2,3],[4,5,6]])arr=np.array([[1,2],[3,4]])np.ones((3,3))請閱讀下面一段程序:arr_2d=np.array([[11,20,13],[14,25,16],[27,18,9]])print(arr_2d[1,:1])執(zhí)行上述程序后,最終輸出的結(jié)果為()。[14][25][14,25][20,25]請閱讀下面一段程序:arr=np.arange(6).reshape(1,2,3)print(arr.transpose(2,0,1))執(zhí)行上述程序后,最終輸出的結(jié)果為()。[[[25]][[03]][[14]]][[[14]][[03]][[25]]][[[03]][[14]][[25]]][[[0][3]][[1][4]][[2][5]]]下列選項(xiàng)中,用于表示矢量化三元表達(dá)式的是()。where()cumsum()sort()unique()簡答題簡述NumPy數(shù)組的軸。簡述廣播機(jī)制需要滿足哪些條件。編程題創(chuàng)建一個(gè)數(shù)組,數(shù)組的shape為(5,0),元素都是0。創(chuàng)建一個(gè)表示國際象棋棋盤的8*8數(shù)組,其中,棋盤白格用0填充,棋盤黑格用1填充。數(shù)據(jù)分析庫pandas基礎(chǔ)填空題pandas中主要有Series和兩種數(shù)據(jù)結(jié)構(gòu)。Series結(jié)構(gòu)由和組成。采用行列的形式組織數(shù)據(jù)。函數(shù)用于從CSV或TXT文件中讀取數(shù)據(jù)。是在一個(gè)軸方向上具有兩層或兩層以上的索引。判斷題DataFrame的每列數(shù)據(jù)可以看作一個(gè)Series類的對象。()使用describe()方法會輸出多個(gè)統(tǒng)計(jì)指標(biāo)。()from_arrays()方法是將元組列表轉(zhuǎn)換為MultiIndex類的對象。()read_csv()和read_table()函數(shù)沒有任何區(qū)別,可以隨意替換使用。()Series類的對象不能有分層索引。()選擇題下列關(guān)于Series和DataFrame的描述,錯(cuò)誤的是()。Series是一維的數(shù)據(jù)結(jié)構(gòu)DataFrame是二維的數(shù)據(jù)結(jié)構(gòu)Series既有行索引又有列索引Series和DataFrame都可以重置索引下列關(guān)于索引對象的描述錯(cuò)誤的是()。位置索引或標(biāo)簽索引都屬于Index類的對象索引對象一旦創(chuàng)建是不可以被修改的索引對象的值是可以重復(fù)的Series和DataFrame默認(rèn)的索引是位置索引下列方法中,用于根據(jù)元組創(chuàng)建MultiIndex類對象的是()。from_tuples()from_arrays()from_product()from_list()下列選項(xiàng)中,哪個(gè)方法可以一次性輸出DataFrame類對象的的多個(gè)統(tǒng)計(jì)指標(biāo)?()describe()mean()median()sum()請閱讀下面一段程序:importpandasaspdser_obj=pd.Series(range(1,6),index=[5,3,0,4,2])ser_obj.sort_index()執(zhí)行上述程序后,最終輸出的結(jié)果為()。5132034425032532445151443225032544033251簡答題簡述Series和DataFrame的特點(diǎn)。簡述分層索引。編程題現(xiàn)有如下圖所示的數(shù)據(jù),請根據(jù)這些數(shù)據(jù)進(jìn)行以下操作:根據(jù)上圖的結(jié)構(gòu)創(chuàng)建一個(gè)DataFrame類的對象。以B列為準(zhǔn),降序排列DataFrame類對象的數(shù)據(jù)。將排序后的數(shù)據(jù)寫入到write_data.csv文件。數(shù)據(jù)預(yù)處理填空題pandas中缺失值一般使用None或np.nan表示,統(tǒng)一標(biāo)記為________。________指的是沿著某個(gè)軸的方向?qū)蓚€(gè)或兩個(gè)以上的對象按照一定的邏輯關(guān)系進(jìn)行合并。________又稱虛擬變量,用來反映某個(gè)變量的不同類別。________是指數(shù)據(jù)集中的個(gè)別值明顯偏離它所屬數(shù)據(jù)集的其余值。________()方法用于將DataFrame的列索引旋轉(zhuǎn)為行索引。判斷題使用dropna()方法可以刪除缺失值。()3σ原則只適用于符合或近似正態(tài)分布的數(shù)據(jù)集。()使用to_numeric()函數(shù)轉(zhuǎn)換字符串時(shí)一定會導(dǎo)致程序報(bào)錯(cuò)。()當(dāng)使用stack()方法將有分層索引的DataFrame進(jìn)行重塑操作后,一定會返回一個(gè)Series類的對象。()當(dāng)使用merge()函數(shù)合并對象時(shí),不需要指定合并鍵。()選擇題下列選項(xiàng)中,描述錯(cuò)誤的是。()數(shù)據(jù)清洗的目的是提高數(shù)據(jù)的質(zhì)量異常值被檢測出來無需確認(rèn)可以直接刪除使用drop_duplicates()方法可以刪除重復(fù)值concat()函數(shù)可以沿著一條軸將多個(gè)對象進(jìn)行堆疊合并請閱讀下面一段程序:frompandasimportSeriesimportpandasaspdfromnumpyimportNaNseries_obj=Series([None,4,NaN])pd.isnull(series_obj)執(zhí)行上述程序后,最終輸出的結(jié)果為()。0True1False2True0True1True2False0False1True2True0True1True2True下列選項(xiàng)中,可以刪除缺失值的是()。isnull()notnull()dropna()fillna()下列選項(xiàng)中,描述錯(cuò)誤是()。concat()函數(shù)可以沿著一條軸將多個(gè)對象進(jìn)行堆疊merge()函數(shù)可以根據(jù)一個(gè)或多個(gè)鍵將不同DataFrame進(jìn)行合并使用rename()方法對索引進(jìn)行重命名操作unstack()方法可以將對象的列索引旋轉(zhuǎn)為行索引請閱讀下面一段程序:importnumpyasnpimportpandasaspdser_obj=pd.Series([4,np.nan,6,5,-3,2])ser_obj.sort_values()執(zhí)行上述程序后,最終輸出的結(jié)果為()。4-3.052.004.035.026.01NaN1NaN26.035.004.052.04-3.052.004.035.026.04-3.01NaN04.01NaN26.035.04-3.052.0簡答題簡述異常值。簡述數(shù)據(jù)合并的幾種方式。編程題現(xiàn)有如下面所示的兩組數(shù)據(jù)A和B,其中A組中B列數(shù)據(jù)存在缺失值,并且該列數(shù)據(jù)為int類型,B組中的數(shù)據(jù)均為str類型。請按照要求操作圖中的數(shù)據(jù),具體要求如下:根據(jù)A組和B組的結(jié)構(gòu)分布創(chuàng)建兩個(gè)DataFrame類的對象。使用B組的數(shù)據(jù)填充A組的缺失值,并保持?jǐn)?shù)據(jù)類型一致。將合并后的結(jié)果中A組的索引key重命名為D。數(shù)據(jù)聚合與分組運(yùn)算填空題分組與聚合的基本過程分別是、應(yīng)用和合并。在groupby()方法中,參數(shù)決定了按照什么樣的標(biāo)準(zhǔn)對數(shù)據(jù)進(jìn)行分組。GroupBy對象是一個(gè)對象。使用GroupBy對象的屬性可以查看分組的具體信息。當(dāng)對DataFrame對象進(jìn)行分組后會返回一個(gè)對象。判斷題分組應(yīng)用的函數(shù)只能是用戶自定義的函數(shù)。()使用print()函數(shù)可以直接查看GroupBy對象的具體信息。()使用agg()方法進(jìn)行聚合運(yùn)算會對產(chǎn)生的標(biāo)量值進(jìn)行廣播。()使用transform()方法聚合后產(chǎn)生的結(jié)果與原對象的形狀可以相同。()apply()方法不能實(shí)現(xiàn)聚合功能。()選擇題下列關(guān)于groupby()方法的說法,錯(cuò)誤的是()。分組鍵可以是列表或數(shù)組,但長度不需要與待分組軸的長度相同可以根據(jù)DataFrame類對象的列標(biāo)簽進(jìn)行分組可以根據(jù)函數(shù)進(jìn)行分組可以根據(jù)Series或字典進(jìn)行分組下列關(guān)于agg()方法的描述,錯(cuò)誤的是()。agg()方法中func參數(shù)只能傳入一個(gè)函數(shù)agg()方法中func參數(shù)可以傳入多個(gè)函數(shù)agg()方法中func參數(shù)可以傳入自定義函數(shù)agg()方法不能對聚合后產(chǎn)生的標(biāo)量值進(jìn)行廣播下列關(guān)于transform()方法的說法,正確的是()。不會與原對象保持相同形狀會對產(chǎn)生的標(biāo)量值進(jìn)行廣播操作func參數(shù)只能接收內(nèi)置函數(shù)func參數(shù)可以接收多個(gè)內(nèi)置函數(shù)下列關(guān)于apply()的說法,錯(cuò)誤的是()??梢越邮沼脩糇远x的函數(shù)可以接收多個(gè)函數(shù)可以實(shí)現(xiàn)聚合功能返回的結(jié)果一定與原對象的形狀相同請閱讀下面一段程序:importpandasaspdpd.DataFrame([[2,3],]*3,columns=['A','B']).apply(lambdax:x+1)執(zhí)行上述程序后,最終輸出的結(jié)果為()。AB032132232AB023123223AB034134234AB043143243簡答題簡述分組聚合的流程。簡述常用的分組方式。編程題現(xiàn)有如上圖所示的學(xué)生信息,請根據(jù)圖中的學(xué)生信息完成以下操作:根據(jù)學(xué)生信息表的結(jié)構(gòu)創(chuàng)建一個(gè)DataFrame類的對象。根據(jù)年級一列對DataFrame類對象的數(shù)據(jù)進(jìn)行分組,并輸出大一學(xué)生的分組信息。分別找出大一到大四這四個(gè)年級中身高最高的同學(xué)。計(jì)算大一學(xué)生與大三學(xué)生的平均體重。數(shù)據(jù)可視化填空題由一系列高度不等的矩形條或線段組成,用于反映數(shù)據(jù)的分布和波動情況。箱形圖利用最小值、第一四分位數(shù)、、第三四分位數(shù)和最大值這幾個(gè)統(tǒng)計(jì)量描述一組數(shù)據(jù)。Matplotlib的模塊封裝了快速繪制圖表的函數(shù)。二維直方圖主要用于顯示落在六邊形區(qū)域內(nèi)的觀察值的計(jì)數(shù)。是一個(gè)用于生成Echarts圖表的開源庫。判斷題Seaborn是基于Matplotlib的繪圖庫。()直方圖與柱形圖沒有任何區(qū)別。()餅圖在識別異常值方面有一定的優(yōu)越性。()Matplotlib默認(rèn)支持中文顯示。()Matplotlib不能繪制2D圖表。()選擇題在Matplotlib中,用于展示圖表的函數(shù)是()。plot()bar()hist()show()下列選項(xiàng)中,關(guān)于Pyecharts庫的描述正確的是()。Pyecharts庫生成圖表不能與用戶交互Pyecharts庫無需安裝便可以直接使用Pyecharts庫是基于Seaborn進(jìn)行封裝的Pyecharts庫可以繪制柱形圖下列選項(xiàng)中,說法錯(cuò)誤的是。()distplot()函數(shù)用于繪制直方圖和核密度估計(jì)曲線distplot()函數(shù)默認(rèn)不使用密度觀察條stripplot()函數(shù)用于繪制直方圖swarmplot()函數(shù)用于繪制數(shù)據(jù)點(diǎn)不重疊的散點(diǎn)圖在Matplotlib中,用于給圖表添加標(biāo)題的函數(shù)是()。xlabel()title()legend()text()下列選項(xiàng)中,關(guān)于圖表的描述錯(cuò)誤的是()。氣泡圖用于展示三個(gè)變量之間的關(guān)系核密度曲線圖通過線段的傾斜程度顯示數(shù)據(jù)的變化情況餅圖顯示一個(gè)數(shù)據(jù)序列中的各項(xiàng)的大小與各項(xiàng)總和的比例柱形圖使用矩形條的高度反映不同分類數(shù)據(jù)之間的差異情況簡答題簡述圖表有哪些輔助元素以及這些元素的作用。列舉6種圖表類型,并簡要描述這些圖表的特點(diǎn)。編程題現(xiàn)有如上圖所示的汽車搜索指數(shù)信息,請按要求完成以下操作:根據(jù)汽車搜索指數(shù)信息創(chuàng)建一個(gè)DataFrame類的對象。以汽車品牌為x軸,熱搜指數(shù)為y軸,使用Matplotlib庫繪制一張柱形圖。給y軸添加標(biāo)簽,標(biāo)簽名稱為“熱搜指數(shù)”。給圖表添加標(biāo)題,標(biāo)題名稱為“不同品牌汽車的熱搜指數(shù)”。在柱形上方添加注釋文本,文本的內(nèi)容是熱搜指數(shù)的值。時(shí)間序列分析填空題________是指將同一統(tǒng)計(jì)指標(biāo)的數(shù)值按其發(fā)生的時(shí)間先后順序排列而成的數(shù)列。________是指帶時(shí)區(qū)的特定的日期時(shí)間。pandas中的頻率是由________和倍數(shù)組成的。________是指將時(shí)間序列從一個(gè)頻率轉(zhuǎn)換到另一個(gè)頻率的處理過程。在pandas中,使用________類表示一個(gè)標(biāo)準(zhǔn)的時(shí)期。判斷題最基本的時(shí)間序列是以時(shí)間戳為索引的對象。()如果相同頻率的兩個(gè)Period對象進(jìn)行數(shù)學(xué)運(yùn)算,那么計(jì)算結(jié)果為它們的單位數(shù)量。()任何類型的pandas對象都可以進(jìn)行重采樣。()DatetimeIndex是由一組時(shí)間戳組成的索引。()降采樣時(shí)可能會導(dǎo)致一些時(shí)間戳沒有對應(yīng)的數(shù)據(jù)。()選擇題下列選項(xiàng)中,不能用作pandas對象索引的是()。PeriodDatetimeIndexPeriodIndexMultiIndex請閱讀下面一段程序:importpandasaspdperiod1=pd.Period('2015/6/1')print(period1+50)執(zhí)行上述程序,最終輸出的結(jié)果為()。2015-07-182015-07-192015-07-202015-07-21請閱讀下面一段程序:importpandasaspdimportnumpyasnpdate_index=pd.date_range(start="2018/08/10",periods=5)date_se=pd.Series(np.arange(5),index=date_index)sorted_se=date_se.sort_index()print(sorted_se.truncate(after='2018-8-11'))執(zhí)行上述程序,最終輸出的結(jié)果為()。2018-08-1222018-08-1332018-08-1222018-08-1332018-08-1442018-08-1002018-08-1112018-08-1222018-08-1002018-08-111下列函數(shù)中,創(chuàng)建DatetimeIndex對象有固定頻率的是()。shift()date_range()period_range()asfreq()關(guān)于重采樣的說法中,下列描述錯(cuò)誤的是()。重采樣是將時(shí)間序列從一個(gè)頻率轉(zhuǎn)到另一個(gè)頻率升采樣的時(shí)間顆粒是變小的時(shí)間序列數(shù)據(jù)在降采樣時(shí),總體的數(shù)據(jù)量是增加的時(shí)間序列數(shù)據(jù)在降采樣時(shí),總體的數(shù)據(jù)量是減少的簡答題簡述時(shí)間戳、時(shí)間差和時(shí)期。簡述降采樣和升采樣。程序分析題閱讀下面的程序,分析代碼是否能夠編譯通過。如果能編譯成功,請列出運(yùn)行的結(jié)果,否則請說明編譯失敗的原因。代碼一:importpandasaspddate_index=pd.date_range('2018/08/10')ser_obj=pd.Series(11,date_index)print(ser_obj)代碼二:importpandasaspdperiod1=pd.Period('2017/1')period2=pd.Period('2017/6')print(period2-period1)代碼三:date_index=pd.date_range('2018/09/10','2018/09/13')ser_obj=pd.Series(11,date_index)ser_obj['2018\09\12']文本數(shù)據(jù)分析填空題詞形歸一化包括詞干提取和________,它們會將派生詞轉(zhuǎn)化為基本形式。________是指為單詞標(biāo)注一個(gè)正確的詞性。________是在處理自然語言文本之前或之后會自動過濾掉的沒有具體意義的字或詞。________是一套基于Python的自然語言處理工具包。jieba庫支持________模式、全模式、搜索引擎模式共三種分詞模式。判斷題在對文本數(shù)據(jù)進(jìn)行分析之前不需要進(jìn)行任何處理。()文本分詞的目的在于使用單詞來表示文本特征。()停用詞表中可以隨意添加任何詞。()詞干提取和詞性還原的作用完全相同。()jieba庫只能用于中文分詞。()選擇題下列選項(xiàng)中,關(guān)于NLTK庫的描述錯(cuò)誤的是()。NLTK擅長處理英文文本NLTK包括分詞、詞性標(biāo)注、命名實(shí)體識別及句法分析等功能NLTK是一個(gè)免費(fèi)的、開源的庫NLTK庫安裝完成后會自動下載語料庫下列選項(xiàng)中,屬于英文文本預(yù)處理流程的是()。(多選)分詞詞性標(biāo)注詞性歸一化刪除停用詞下列選項(xiàng)中,不屬于jieba庫支持的分詞模式的是()。精確模式全模式搜索引擎模式繁體分詞模式請閱讀下面一段程序:fromnltk.corpusimportstopwordsimportnltksentence='Lifeisshort,youneedPython.'words=nltk.word_tokenize(sentence)stop_words=stopwords.words('english')remain_words=[]forwordinwords: ifwordnotinstop_words: remain_words.append(word)print(remain_words)執(zhí)行上述程序,最終輸出的結(jié)果為()。['Life','short',',','need','Python','.']['Life','short','need','Python',]['Life','is','short',',','need','Python','.']['Life','short',',','you','need','Python','.']閱讀下面一段程序:importjiebasentence='人生苦短,我用Pyhton'terms_list=jieba.cut(sentence,cut_all=True)print(''.join(terms_list))執(zhí)行上述程序,最終輸出的結(jié)果為()。人生苦短,我用Pyhton人生苦短,我用Pyhton人生苦短我用Pyhton人生苦短我用Pyhton簡答題簡述文本預(yù)處理的基本流程。簡述基于情感詞典進(jìn)行情感分析的基本思路。機(jī)器學(xué)習(xí)入門填空題________研究的是計(jì)算機(jī)怎么模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為。數(shù)據(jù)集的每一行數(shù)據(jù)稱為一個(gè)________。________是利用一組已知類別的樣本作為訓(xùn)練集,調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程。________用于將數(shù)據(jù)映射到0~1之間。________是一種窮舉搜索方法,它通過遍歷給定的參數(shù)組合來優(yōu)化模型。判斷題假設(shè)數(shù)據(jù)集有10行數(shù)據(jù),說明它里面有10個(gè)樣本。()特征是機(jī)器學(xué)習(xí)最終要預(yù)測的結(jié)果。()KNeighborsClassifier類封裝了線性回歸的相關(guān)功能。()為了消除評價(jià)指標(biāo)之間的量綱影響,需要對數(shù)據(jù)進(jìn)行歸一化處理。()超參數(shù)的值默認(rèn)是最好的,無需進(jìn)行調(diào)參處理。()選擇題下列選項(xiàng)中,不屬于機(jī)器學(xué)習(xí)分類的是()。監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)自主學(xué)習(xí)下列選項(xiàng)中,用于預(yù)測數(shù)據(jù)集的方法是()。predict()fit()score()best_score_()下列選項(xiàng)中,用于實(shí)現(xiàn)KNN算法的是()。KNeighborsClassifierStandardScalerGridSearchCVLinearRegression下列選項(xiàng)中,用于實(shí)現(xiàn)網(wǎng)格搜索的是()。KNeighborsClassifierStandardScalerGridSearchCVLinearRegression下列選項(xiàng)中,關(guān)于KNN算法描述錯(cuò)誤的是()。KNN算法主要是對數(shù)值進(jìn)行預(yù)測KNN算法屬于監(jiān)督學(xué)習(xí)的一種方法KNN算法通常被應(yīng)用于分類場景中。使用KNN算法分類時(shí),依據(jù)特征空間中最鄰近的樣本類別決定待分類樣本的所屬類別問答題簡述機(jī)器學(xué)習(xí)算法的分類簡述KNN算法的基本思想。第1章數(shù)據(jù)分析概述填空題描述性分析Anaconda實(shí)時(shí)MarkdownNumPy判斷題×√√√×選擇題BBACB簡答題數(shù)據(jù)分析是指使用適當(dāng)?shù)腬t"/item/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/_blank"統(tǒng)計(jì)分析方法對收集到的大量數(shù)據(jù)進(jìn)行分析,從這些數(shù)據(jù)中提取有用信息和形成結(jié)論,并加以詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)分析大致分為五個(gè)階段,分別是明確目的和思路、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)。第2章科學(xué)計(jì)算庫NumPy一、填空題ndarray。二數(shù)據(jù)類型廣播花式索引二、判斷題×√√√×三、選擇題BDACA四、簡答題軸其實(shí)就代表維度。數(shù)組的維度不同,它對應(yīng)的軸的數(shù)量也不同。一維數(shù)組只有一個(gè)軸,軸的編號為0;二維數(shù)組有沿行方向和列方向的兩個(gè)軸,其中沿行方向的軸編號為0,沿列方向的軸編號為1;三維數(shù)組有沿著行、列方向,以及由行列組成的平面的三個(gè)軸,這三個(gè)軸的編號分別為0、1、2。數(shù)組的形狀是否兼容。以兩個(gè)數(shù)組為例,這兩個(gè)數(shù)組的形狀右對齊,之后沿著從右向左的順序逐個(gè)比較同一緯度是否滿足任意一種情況:(1)維度相等;有一方維度為1。如果數(shù)組形狀的每個(gè)維度都滿足上述任意一種情況,說明兩個(gè)數(shù)組的形狀兼容,可以直接進(jìn)行算術(shù)運(yùn)算。五、編程題答案:importnumpyasnparr=np.zeros(5)print(arr)答案:importnumpyasnparr=np.zeros((8,8),dtype=int)arr[1::2,::2]=1arr[::2,1::2]=1print(arr)數(shù)據(jù)分析庫pandas基礎(chǔ)填空題DataFrame索引,數(shù)據(jù)DataFrameread_csv()分層索引判斷題√√×××選擇題CDAAB簡答題Series是類似于一維數(shù)組的數(shù)據(jù)結(jié)構(gòu),主要由一組數(shù)據(jù)和與之相關(guān)的索引兩部分組成,其中數(shù)據(jù)可以是任意類型的;DataFrame是一個(gè)類似于二維數(shù)組或表格的數(shù)據(jù)結(jié)構(gòu),它由索引和數(shù)據(jù)兩部分組成,既有行索引又有列索引,每列數(shù)據(jù)可以是不同的數(shù)據(jù)類型。分層索引可以理解為單層索引的延伸,即在一個(gè)軸方向上具有兩層或兩層以上的索引。編程題答案:(1)importnumpyasnpimportpandasaspddf_data=np.array([[1,5,8,8],[2,2,4,9],[7,4,2,3],[3,0,5,2]])col_data=np.array(['A','B','C','D'])df_obj=pd.DataFrame(columns=col_data,data=df_data)df_obj(2)sort_values_data=df_obj.sort_values(by=['B'],ascending=False)sort_values_data(3)sort_values_data.to_csv(r'write_data.csv')print('寫入完畢')數(shù)據(jù)預(yù)處理填空題NaN堆疊合并啞變量異常值pivot()判斷題√√×××選擇題BACDA簡答題異常值是指數(shù)據(jù)集中的個(gè)別值明顯偏離它所屬數(shù)據(jù)集的其余值,這些數(shù)值是不合理的或錯(cuò)誤的。pandas中提供了幾種數(shù)據(jù)合并的方式,分別是堆疊合并、主鍵合并、根據(jù)索引合并、合并重疊數(shù)據(jù)。編程題答案:(1)importpandasaspdimportnumpyasnpgroup_a=pd.DataFrame({'A':[2,3,5,2,3],'B':['5',np.nan,'2','3','6'],'C':[8,7,50,8,2],'key':[3,4,5,2,5]})group_b=pd.DataFrame({'A':[3,3,3],'B':[4,4,4],'C':[5,5,5]})print(group_a)print(group_b)(2)group_a=group_bine_first(group_b)group_a(3)group_a.rename(columns={'key':'D'})數(shù)據(jù)聚合與分組運(yùn)算填空題拆分by可迭代groupsDataFrameBy判斷題×××√×選擇題AABDC簡答題分組與聚合主要根據(jù)一定的拆分標(biāo)準(zhǔn)將原數(shù)據(jù)拆分成若干個(gè)分組,然后對每個(gè)分組應(yīng)用統(tǒng)計(jì)運(yùn)算,并把運(yùn)算后的結(jié)果合并到一起。按照列標(biāo)簽分組、按照Series類的對象分組、按照字典分組、按照函數(shù)分組。編程題答案:(1)importpandasaspdstudnets_data=pd.DataFrame({'年級':['大一','大二','大三','大四','大二','大三','大一','大三','大四'],'姓名':['李宏卓','李思真','張振海','趙鴻飛','白蓉','馬騰飛','張曉凡','金紫萱','金燁'],'年齡':[18,19,20,21,19,20,18,20,21],'身高':[175,165,178,175,160,180,167,170,185],'體重':[65,60,70,76,55,70,52,53,73]})studnets_data(2)group_data=studnets_data.groupby('年級')freshman=group_data.get_group('大一')freshman(3)new_data=group_data.apply(max)delnew_data['年級']new_data(4)junior=dict([xforxingroup_data])['大三']print(freshman['體重'].apply('mean'))print(junior['體重'].apply('mean'))數(shù)據(jù)可視化填空題直方圖中位數(shù)pyplot六邊形Pyecharts判斷題√××××選擇題DDCBB簡答題答案:圖表常用的輔助元素包括坐標(biāo)軸、標(biāo)題、圖例、網(wǎng)格、參考線、參考區(qū)域、注釋文本,其中坐標(biāo)軸是用于界定圖表繪圖區(qū)的一組直線,用作度量的參照框架;標(biāo)題是圖表的說明性文本,用于描述圖表的大致內(nèi)容;圖例是集中在圖表一角或一側(cè)的方框,主要作用是標(biāo)識為圖表中的數(shù)據(jù)系列或分類指定的圖案或顏色;網(wǎng)格是從坐標(biāo)軸的刻度線開始、貫穿繪圖區(qū)域的若干條線,作為估算圖形所示值的標(biāo)準(zhǔn);參考線是標(biāo)記坐標(biāo)軸上特殊值的一條直線;參考區(qū)域是標(biāo)記坐標(biāo)軸上特殊范圍的一塊區(qū)域;注釋文本表示對圖形的一些注釋和說明。答案:(1)直方圖,由一系列高度不等的矩形條或線段組成,用于反映數(shù)據(jù)的分布和波動情況。(2)折線圖是用直線段將各數(shù)據(jù)點(diǎn)連接起來而組成的圖形,以線條的方式顯示數(shù)據(jù)的變化趨勢。(3)柱形圖是由一系列寬度相等的縱向矩形條組成的圖表,它使用矩形條的高度表示數(shù)據(jù)的多少,以此反映不同分類數(shù)據(jù)之間的差異。(4)餅圖是一種用于了解數(shù)據(jù)中各分類占比情況的圖表,它使用圓表示數(shù)據(jù)的總量,組成圓的扇面表示數(shù)據(jù)各項(xiàng)占總量的比例大小。(5)散點(diǎn)圖是由若干組數(shù)據(jù)點(diǎn)組成的圖表,主要用于判斷兩變量之間是否存在某種關(guān)聯(lián),或者總結(jié)數(shù)據(jù)點(diǎn)的分布模式。(6)箱形圖是利用數(shù)據(jù)中的5個(gè)統(tǒng)計(jì)量——最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)和最大值——描述數(shù)據(jù)的一種圖表,主要用于反映一組或多組數(shù)據(jù)的對稱性、分布程度等信息。編程題答案:importm
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年版企業(yè)核心人員保密義務(wù)協(xié)議版B版
- 物流部工作計(jì)劃
- 2024年中小企業(yè)科技研發(fā)項(xiàng)目合作協(xié)議3篇
- 做好工作計(jì)劃7篇
- 小區(qū)垃圾分類調(diào)查報(bào)告
- 作文教學(xué)計(jì)劃
- 環(huán)保企業(yè)2022年終總結(jié)
- 擔(dān)保公司項(xiàng)目商業(yè)計(jì)劃書
- 職業(yè)道德與法律第十二課課件
- 第3課 古代印度 課件(共34張)
- 甘肅蘭州生物制品研究所筆試題庫
- 2021-2022學(xué)年第二學(xué)期《大學(xué)生職業(yè)發(fā)展與就業(yè)指導(dǎo)2》學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 國家開放大學(xué)電大本科《工程經(jīng)濟(jì)與管理》2023-2024期末試題及答案(試卷代號:1141)
- 注塑機(jī)冷卻水系統(tǒng)工程
- 工業(yè)管道材料選用規(guī)定
- PE管熱熔對接施工方案完整
- 中醫(yī)腫瘤臨床路徑
- DB37∕T 5001-2021 住宅工程外窗水密性現(xiàn)場檢測技術(shù)規(guī)程
- 土方碾壓試驗(yàn)施工方案1
- 主要原材料價(jià)格趨勢分析圖
- 10kV無功補(bǔ)償裝置安裝施工技術(shù)措施要點(diǎn)
評論
0/150
提交評論