4.2.2編程處理數(shù)據(jù)_第1頁
4.2.2編程處理數(shù)據(jù)_第2頁
4.2.2編程處理數(shù)據(jù)_第3頁
4.2.2編程處理數(shù)據(jù)_第4頁
4.2.2編程處理數(shù)據(jù)_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

編程處理數(shù)據(jù)02PARTPython擴(kuò)展模塊使用計(jì)算機(jī)語言編程可以更加靈活、深入地進(jìn)行數(shù)據(jù)分析和挖掘。Python中可以使用擴(kuò)展模塊numpy、scipy、pandas和matplotlibPython中做科學(xué)計(jì)算的基礎(chǔ)庫,主要提供科學(xué)計(jì)算中常用的隨機(jī)數(shù)、數(shù)組運(yùn)算等基礎(chǔ)函數(shù)。Numpy模塊增強(qiáng)了在高等數(shù)學(xué)、信號(hào)處理、圖像處理、統(tǒng)計(jì)等方面的處理能力。Scipy模塊主要用于數(shù)據(jù)的處理和分析。Pandas模塊編程處理數(shù)據(jù)利用pandas模塊處理數(shù)據(jù)(一):Series是一種一維的數(shù)據(jù)結(jié)構(gòu),包含一個(gè)數(shù)組的數(shù)據(jù)和一個(gè)與數(shù)據(jù)關(guān)聯(lián)的索引。(與字典的key類似,索引值是豎著的)Pandas提供了series和dataframe兩種數(shù)據(jù)結(jié)構(gòu)。使用這兩種數(shù)據(jù)結(jié)構(gòu)可完成數(shù)據(jù)的整理、計(jì)算、統(tǒng)計(jì)、分析及簡(jiǎn)單的可視化。屬性說明indexSeries的下標(biāo)索引,其默認(rèn)值是從0起遞增的整數(shù)values存放series值的一個(gè)數(shù)組Series對(duì)象常用屬性利用pandas模塊處理數(shù)據(jù)在Python中引入pandas和series的方法:Importpandasaspd(1)使用列表創(chuàng)建series數(shù)據(jù)結(jié)構(gòu):Frompandasimportseriesimportpandasaspds1=pd.Series([166,178,180])Print(s1)運(yùn)行結(jié)果:016611782180dtype:int64左列:index右列:valuesPandas中整型為int64,浮點(diǎn)型為float64,字符串、布爾型等其他數(shù)據(jù)類型為objectSeries([數(shù)據(jù)….],index=[索引…])利用pandas模塊處理數(shù)據(jù)運(yùn)行結(jié)果:(2)通過賦值語句修改series對(duì)象中的值:s1[0]=168s2[“c”]=小二利用pandas模塊處理數(shù)據(jù)(3)刪除數(shù)據(jù):(4)查詢對(duì)象的index、values:s1=s1.drop(0)print(s1)利用pandas模塊處理數(shù)據(jù)(二)DataFrame:是一種二維的數(shù)據(jù)結(jié)構(gòu),由1個(gè)索引和若干個(gè)數(shù)據(jù)列組成,每個(gè)數(shù)據(jù)列可以是不同的類型(每個(gè)series可以看做是dataframe的一個(gè)列)dataframe對(duì)象常用屬性屬性說明indexdataframe的行索引columns存放各列的列標(biāo)題values存放值的二維數(shù)據(jù)T行列轉(zhuǎn)置series和dataframe對(duì)比0166178180dtype:int64

姓名性別借閱次數(shù)0王靜怡女281張佳妮女562李臣武男37索引列數(shù)據(jù)列數(shù)據(jù)類型行索引列數(shù)據(jù)列名利用pandas模塊處理數(shù)據(jù)(1)用字典創(chuàng)建:importpandasaspddata={“姓名”:[”王靜怡”,”張佳妮”,”李臣武”],”性別”:[”女”,”女”,”男”],”借閱次數(shù)”:[“28”,”56”,”37”]}df1=pd.DataFrame(data,columns=[“姓名”,“性別”,“借閱次數(shù)”])Print(df1)運(yùn)行結(jié)果:

姓名性別借閱次數(shù)0王靜怡女281張佳妮女562李臣武男37利用pandas模塊處理數(shù)據(jù)(2)讀取數(shù)據(jù)文件:最好保存在同一文件夾下importxlrdimportpandasaspddf=pd.read_excel(“test.xlsx”)print(df)運(yùn)行結(jié)果:

姓名性別借閱次數(shù)0王靜怡女281張佳妮女56

2李臣武男37importcsvimportpandasaspddf=pd.read_csv(“test.csv”)print(df)運(yùn)行結(jié)果:

姓名性別借閱次數(shù)0王靜怡女281張佳妮女56

2李臣武男37csv是CSV即CommaSeparateValues,逗號(hào)分隔值,字符分隔值,其文件以純文本格式存儲(chǔ)表格數(shù)據(jù)(數(shù)字和文本),這種文件格式經(jīng)常用來作為不同程序之間的數(shù)據(jù)交互的格式。利用pandas模塊處理數(shù)據(jù)①通過index和columns屬性分別訪問行標(biāo)簽和列標(biāo)簽:print(df.index)print(df.colunms)利用pandas模塊處理數(shù)據(jù)②查看df1對(duì)象的索引、列標(biāo)題:利用pandas模塊處理數(shù)據(jù)(3)在任意位置插入一列:df.insert(2,”借閱天數(shù)”,[2,3,4])print(df)運(yùn)行結(jié)果:語法:insert(ioc,column,value)(4)刪除:

drop(labels,axis,inplace)注:axis:0表示刪除行,1表示刪除列inplace:True表示直接對(duì)原表進(jìn)行修改,默認(rèn)為false利用pandas模塊處理數(shù)據(jù)

deldf[“姓名”]永久刪除df對(duì)象中“姓名”列數(shù)據(jù)利用pandas模塊處理數(shù)據(jù)(5)修改標(biāo)簽:rename()函數(shù)完成行和列索引標(biāo)簽的修改,index參數(shù)指定要修改的行標(biāo)簽,columns參數(shù)指定要修改的列標(biāo)簽。利用pandas模塊處理數(shù)據(jù)(5)groupby:分組計(jì)算as_index:ture返回組標(biāo)簽為索引的對(duì)象,false則不返回組標(biāo)簽練習(xí)1.下列Python的模塊中,主要用于數(shù)據(jù)的處理和分析的是()A.ImageB.pandasC.scipyD.matplotlibB2.有Python程序段如下:importpandasaspdser=pd.Series([1,3,5,7])print(ser.index)

該程序段運(yùn)行后輸出結(jié)果為()A利用matplotlib模塊繪圖matplotlib是一個(gè)繪圖庫,使用其中的pyplot子庫所提供的函數(shù)可以快速繪圖和設(shè)置圖表的坐標(biāo)軸、坐標(biāo)刻度、圖例等。matplotlib中的快速繪圖的函數(shù)庫可以通過如下語句載入:接下來調(diào)用figure創(chuàng)建一個(gè)繪圖對(duì)象,并且使它成為當(dāng)前的繪圖對(duì)象。通過figsize參數(shù)可以指定繪圖對(duì)象的寬度和高度,單位為英寸;dpi參數(shù)指定繪圖對(duì)象的分辨率,即每英寸多少個(gè)像素,缺省值為80。因此本例中所創(chuàng)建的圖表窗口的寬度為8*80=640像素。importmatplotlib.pyplotaspltplt.figure(figsize=(8,4))利用matplotlib模塊繪圖figure()創(chuàng)建一個(gè)新的圖表對(duì)象,并設(shè)置為當(dāng)前繪圖對(duì)象plot()繪制線形圖bar()繪制垂直柱形圖bath()繪制水平柱形圖scatter()繪制散點(diǎn)圖title()設(shè)置圖表的標(biāo)題xlim()、ylim()設(shè)置x、y軸的取值范圍xlabel()、ylabel()設(shè)置x、y軸的標(biāo)簽legend()顯示圖例show()顯示創(chuàng)建的所有繪圖對(duì)象利用matplotlib模塊繪圖利用matplotlib模塊繪圖文本數(shù)據(jù)處理文本數(shù)據(jù)處理是大數(shù)據(jù)處理的重要分支之一,目的是大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、感興趣的和隱藏的信息。文本內(nèi)容是非結(jié)構(gòu)化的數(shù)據(jù),要從大量的文本中提取出有用的信息,需要將文本從無結(jié)構(gòu)的原始狀態(tài)轉(zhuǎn)換為結(jié)構(gòu)化的、便于計(jì)算機(jī)處理的數(shù)據(jù)。文本數(shù)據(jù)處理的一般過程:基于詞典分詞基于統(tǒng)計(jì)分詞基于規(guī)則分詞即在分析句子時(shí)與詞典中的詞語進(jìn)行對(duì)比,詞典中出現(xiàn)的就劃分為詞中文分詞依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計(jì),同時(shí)出現(xiàn)的次數(shù)越高就越可能組成一個(gè)詞通過讓計(jì)算機(jī)模擬人的理解方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進(jìn)行學(xué)習(xí),達(dá)到對(duì)文字進(jìn)行分詞的效果。(1)中文分詞分詞是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,也就是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。(1)中文分詞jieba庫是一款優(yōu)秀的Python第三方中文分詞庫,jieba支持三種分詞模式:精確模式、全模式和搜索引擎模式。精確模式:試圖將語句最精確的切分,不存在冗余數(shù)據(jù),適合做文本分析全模式:將語句中所有可能是詞的詞語都切分出來,速度很快,但是存在冗余數(shù)據(jù)搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長詞再次進(jìn)行切分(2)特征提取在中文文本分析中可以采用字、詞或者短語作為表示文本的特征性。采用詞作為特征項(xiàng),這種詞稱作特征詞。標(biāo)簽云(詞云)用詞頻表現(xiàn)文本特征,將關(guān)鍵詞按照一定的順序和規(guī)律排列,并以文字大小和顏色的形式代表詞語的重要性。文本數(shù)據(jù)分析與應(yīng)用文本情感分析通過計(jì)算機(jī)技術(shù)對(duì)文本的主觀性、觀點(diǎn)、情緒、極性進(jìn)行挖掘和分析,對(duì)文本的情感傾向做出分類判斷練習(xí)1.文本數(shù)據(jù)處理的主要步驟包括:①數(shù)據(jù)分析

②特征提取

③分詞

④結(jié)果呈現(xiàn)

⑤文本數(shù)據(jù)獲取下列文本數(shù)據(jù)處理順序正確的是(

)A.①⑤②③④

B.②⑤③①④C.⑤①③②④D.⑤③②①④2.下列關(guān)于中文分詞方法的描述中,屬于基于詞典的分詞方法的是(

)A.在分析句子時(shí)與詞典中的詞語進(jìn)行對(duì)比,詞典中出現(xiàn)的就劃分為詞B.依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計(jì),同時(shí)出現(xiàn)的次數(shù)越高就越可能組成一個(gè)詞C.讓計(jì)算機(jī)模擬人的理解方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進(jìn)行學(xué)習(xí),然后分詞D.依據(jù)詞語與詞語之間的空格進(jìn)行分詞3.在中文文本分析中,一般不用做文本的特征項(xiàng)的是(

)A.字B.詞C.短語D.段落DAD練習(xí)4.下列數(shù)據(jù)分析中可能涉及文本情感分析的是(

)A.博主地域分析B.微博評(píng)論內(nèi)容分析C.微博發(fā)布設(shè)備分析D.博主男女比例分析5.某文本數(shù)據(jù)集的標(biāo)簽云如圖所示,下列說法正確的是(

)A.對(duì)數(shù)據(jù)集中文本分詞后可直接創(chuàng)建標(biāo)簽云,無須特征提取B.標(biāo)簽云須顯示該數(shù)據(jù)集包含的全部詞語C.該數(shù)據(jù)集中,詞語“玩偶”比“注意力”的出現(xiàn)頻率高D.最能表現(xiàn)該數(shù)據(jù)集中文本特征的詞有“車頂”“玩偶”“路口”BC數(shù)據(jù)可視化是將數(shù)據(jù)以圖形圖像等形式表示,直接呈現(xiàn)數(shù)據(jù)中心蘊(yùn)含信息的處理過程可視化的作用快捷觀察與追蹤數(shù)據(jù)利用可視化技術(shù),可以實(shí)時(shí)將處于不斷變化中的數(shù)據(jù)生成實(shí)時(shí)變化的可視化圖表,幫助人們快捷地發(fā)現(xiàn)各種數(shù)據(jù)的動(dòng)態(tài)變化過程利用可視化技術(shù),可以將實(shí)時(shí)數(shù)據(jù)轉(zhuǎn)換為圖像呈現(xiàn)給用戶,幫助用戶分析數(shù)據(jù)的內(nèi)涵和特征利用數(shù)據(jù)圖表,直觀、動(dòng)態(tài)地呈現(xiàn)新聞、研究報(bào)告等內(nèi)容,可以幫助人們?cè)诙虝r(shí)間內(nèi)了解內(nèi)容、理解數(shù)據(jù)背后的含義,同時(shí)增強(qiáng)數(shù)據(jù)的吸引力,提高人們閱讀興趣實(shí)時(shí)分析數(shù)據(jù)增強(qiáng)數(shù)據(jù)的解釋力與吸引力數(shù)據(jù)可視化有關(guān)時(shí)間趨勢(shì)的可視化——柱形圖、折線圖有關(guān)比例的可視化——餅圖、環(huán)形圖可視化的基本方法有關(guān)關(guān)系的可視化——散點(diǎn)圖、氣泡圖有關(guān)差異的可視化——雷達(dá)圖可視化的基本方法有關(guān)空間關(guān)系的可視化可視化的基本方法tableau、D3.js、highcharts、googlecharts可視化的工具數(shù)據(jù)可視化可視化的典型案例大數(shù)據(jù)典型應(yīng)用03PART網(wǎng)絡(luò)購票,如火車票,飛機(jī)票等。打車軟件等。智能交通智能交通的三個(gè)子系統(tǒng)交通信息服務(wù)系統(tǒng):推薦行駛路線等。交通管理系統(tǒng):如優(yōu)化紅綠燈配時(shí)、發(fā)布誘導(dǎo)信息、道路管制,事故處理與救援等。電子收費(fèi)系統(tǒng):高速口的不停車收費(fèi)(ETC)電子商務(wù)精準(zhǔn)營銷供應(yīng)鏈管理智能網(wǎng)站精準(zhǔn)營銷基于用戶購買行為的大數(shù)據(jù),使用推薦算法深度挖掘出用戶的行為偏好,智能地向用戶展示符合其興趣偏好和購買意圖的商品,實(shí)現(xiàn)個(gè)性化推薦,幫助用戶快速地找到所需商品,提高網(wǎng)購效率。精準(zhǔn)營銷的主要方式是網(wǎng)站推薦、短信等。在倉儲(chǔ)管理中,根據(jù)商品的銷售情況和市場(chǎng)預(yù)期數(shù)據(jù),依靠預(yù)測(cè)模型,在庫存量達(dá)到某一個(gè)閾值時(shí)自動(dòng)生成訂單發(fā)給供貨商,實(shí)現(xiàn)了商品自動(dòng)補(bǔ)貨。在物流配送領(lǐng)域,供應(yīng)鏈管理通過分析物流人員、倉庫以及用戶之間的地理關(guān)系數(shù)據(jù),為物流人員提供最優(yōu)配送路徑,提高配送速度,提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論