




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
項(xiàng)目六數(shù)據(jù)分析工具Pandas入門回顧什么是數(shù)據(jù)分析數(shù)據(jù)分析是指根據(jù)事先確定的分析目標(biāo),選擇適當(dāng)?shù)慕y(tǒng)計(jì)分析方法或工具,對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行處理與分析,從中提取有價(jià)值的信息,形成分析結(jié)論。分析結(jié)果可以輔助企業(yè)進(jìn)行管理優(yōu)化、預(yù)測(cè)和決策。數(shù)據(jù)分析的流程企業(yè)利用大數(shù)據(jù)進(jìn)行經(jīng)營(yíng)管理和輔助預(yù)決策時(shí),大致需要以下四個(gè)步驟:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化等環(huán)節(jié)?;仡櫮繕?biāo)掌握Pandas的兩種數(shù)據(jù)結(jié)構(gòu)掌握Pandas索引的相關(guān)操作掌握Pandas的常見操作掌握讀寫數(shù)據(jù)的方法任務(wù)一使用Pandas操作中國(guó)軟件財(cái)報(bào)數(shù)據(jù)Pandas再論Anaconda集成了常用的數(shù)據(jù)分析工具:Pandas、matplotlib等。Pandas是當(dāng)前Python數(shù)據(jù)分析中最為重要的工具,其提供了功能強(qiáng)大且靈活多樣的高級(jí)函數(shù),極大地簡(jiǎn)化了數(shù)據(jù)處理的流程,可以滿足使用者在數(shù)據(jù)分析和處理中的多種選擇和實(shí)現(xiàn)方式。Pandas包Python之所以功能強(qiáng)大就是因?yàn)橛蟹浅XS富的第三方包(庫(kù)),將這些包引入到程序中,就可以很方便地使用包中提供的功能。(想想數(shù)學(xué)中的sin函數(shù))使用Pandas前需要先導(dǎo)入Pandas包。importpandasaspd此代碼用于在當(dāng)前程序中導(dǎo)入pandas包,并為該包起別名pd。后續(xù)在程序中若要使用Pandas,可直接用別名pd代替Pandas數(shù)據(jù)結(jié)構(gòu)Pandas中有兩個(gè)主要的數(shù)據(jù)結(jié)構(gòu):Series和DataFrame數(shù)據(jù)結(jié)構(gòu)是計(jì)算機(jī)存儲(chǔ)、組織數(shù)據(jù)的方式Series一維的數(shù)據(jù)結(jié)構(gòu)DataFrame二維的、表格型的數(shù)據(jù)結(jié)構(gòu)Pandas數(shù)據(jù)結(jié)構(gòu)SeriesSeries是一維數(shù)據(jù)結(jié)構(gòu),它能夠保存任何類型的數(shù)據(jù),如整數(shù)、字符串、浮點(diǎn)數(shù)。Series對(duì)象主要由一組數(shù)據(jù)和與之相關(guān)的標(biāo)簽(索引)構(gòu)成。DataFrameDataFrame是一種表格型的數(shù)據(jù)結(jié)構(gòu),既有行索引index,也有列索引columns。其實(shí)可以簡(jiǎn)單把DataFrame理解為一張數(shù)據(jù)表。了解Series數(shù)據(jù)結(jié)構(gòu)帶有標(biāo)簽的數(shù)據(jù)結(jié)構(gòu),由數(shù)據(jù)和索引組成使用默認(rèn)索引創(chuàng)建Series對(duì)象索引數(shù)據(jù)Series數(shù)據(jù)結(jié)構(gòu)使用自定義索引創(chuàng)建Series對(duì)象自定義索引數(shù)據(jù)Series數(shù)據(jù)結(jié)構(gòu)使用字典創(chuàng)建Series對(duì)象字典數(shù)據(jù),字典的鍵作為索引他們是鍵Series數(shù)據(jù)結(jié)構(gòu)輸出Series對(duì)象的索引和數(shù)據(jù)了解DataFrame數(shù)據(jù)結(jié)構(gòu)帶有標(biāo)簽的數(shù)據(jù)結(jié)構(gòu),由數(shù)據(jù)和行索引、列索引組成使用默認(rèn)索引創(chuàng)建DataFrame對(duì)象DataFrame數(shù)據(jù)結(jié)構(gòu)使用自定義索引創(chuàng)建DataFrame對(duì)象列標(biāo)題行標(biāo)題DataFrame數(shù)據(jù)結(jié)構(gòu)使用字典形式創(chuàng)建DataFrame對(duì)象說(shuō)明:字典的鍵自動(dòng)作為列索引。DataFrame數(shù)據(jù)結(jié)構(gòu)為行列索引添加名稱Pandas讀寫數(shù)據(jù)數(shù)據(jù)采集后一般都會(huì)存儲(chǔ)到本地硬盤中,不會(huì)將數(shù)據(jù)直接寫入到程序中,這樣不僅造成程序代碼臃腫,而且可用率很低。所以當(dāng)我們進(jìn)行數(shù)據(jù)分析時(shí)需要對(duì)存儲(chǔ)的文件進(jìn)行讀取。Pandas可以讀取文本文件、Excel文件、網(wǎng)頁(yè)文件和數(shù)據(jù)庫(kù)文件。我們以財(cái)務(wù)數(shù)據(jù)處理中常用的Excel文件為例講解文件的讀取。Pandas讀寫數(shù)據(jù)讀取Excel文件Pandas提供了read_excel()函數(shù)來(lái)讀取Excel文件,讀取到的數(shù)據(jù)自動(dòng)轉(zhuǎn)換成DataFrame類型的數(shù)據(jù)要讀取的文件左邊第3行代碼中將“data.xlsx”文件中的數(shù)據(jù)讀入程序賦值給變量UFSoftDF,UFSoftDF是什么類型呢?答案:是DataFrame類型Pandas讀寫數(shù)據(jù)保存Excel文件保存文件的函數(shù)保存到外部的文件名Pandas讀寫數(shù)據(jù)繼續(xù)探討UFSoftDF的數(shù)據(jù)類型怎樣查看UFSoftDF的數(shù)據(jù)類型呢?importpandasaspdUFSoftDF=pd.read_csv(‘data.xlsx’)print(type(UFSoftDF))#輸出UFSoftDF的類型培養(yǎng)讀者的程序思維任務(wù)二查詢中國(guó)軟件資產(chǎn)負(fù)債表數(shù)據(jù)數(shù)據(jù)查詢一個(gè)數(shù)據(jù)集中的數(shù)據(jù)量通常都是比較大的,學(xué)會(huì)如何從大量數(shù)據(jù)中查詢自己需要的數(shù)據(jù)是一個(gè)很重要的技能一、查詢Series數(shù)據(jù)查詢單個(gè)數(shù)據(jù)使用切片查詢數(shù)據(jù)(連續(xù)的多個(gè)數(shù)據(jù))查詢不連續(xù)的數(shù)據(jù)
對(duì)象名[
索引|標(biāo)簽名|切片|列表]一、查詢Series數(shù)據(jù)查詢單個(gè)數(shù)據(jù)一、查詢Series數(shù)據(jù)查詢切片數(shù)據(jù)一、查詢Series數(shù)據(jù)查詢不連續(xù)的數(shù)據(jù)說(shuō)明:不連續(xù)的標(biāo)簽索引,多個(gè)索引值要用列表表示。二、查詢DataFrame數(shù)據(jù)以下列DataFrame對(duì)象為例說(shuō)明:np.random.rand(8,4),返回一個(gè)8行4列的0~1之間的隨機(jī)數(shù)。二、查詢DataFrame數(shù)據(jù)使用“對(duì)象名[列索引]”的方式獲取DataFrame對(duì)象的一列數(shù)據(jù)使用“對(duì)象名[[列索引1,列索引2,…]]”的方式來(lái)獲取多列數(shù)據(jù)二、查詢DataFrame數(shù)據(jù)使用“對(duì)象名[行索引1:行索引2]”的方式來(lái)獲取DataFrame對(duì)象的一行或多行數(shù)據(jù)二、查詢DataFrame數(shù)據(jù)使用“對(duì)象名[列索引][行索引]”的方式獲取DataFrame對(duì)象的某一個(gè)值或某個(gè)矩形區(qū)域的值(即行列交叉部分的值)說(shuō)明:DataFrame直接索引只支持先列后行,不支持先行后列。原理如左圖所示。二、查詢DataFrame數(shù)據(jù)獲取整體信息三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)更加靈活的解決辦法:loc方法:按照標(biāo)簽索引(名稱)選取數(shù)據(jù)iloc方法:按照位置索引(整數(shù)索引)選取數(shù)據(jù)loc[行名,列名]iloc[行號(hào),列號(hào)]注意:loc和iloc后面是方括號(hào),其中行、列可以是單一值,也可以是切片,還可以是列表。如果要獲取a到d行的B、D兩列的數(shù)據(jù),代碼如何寫?df[['B','D']]['a':'d']使用loc方法注意:列省略表示取所有列。三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)使用iloc方法說(shuō)明:(1)位置編號(hào)均從0開始順序編號(hào)(2)位置索引也是類似a[x,y]形式,而x和y可以有多種不同的寫法三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)loc和iloc方法小結(jié)宏觀上看是a[x,y]形式,而x和y可以有多種不同的寫法df.loc[‘a(chǎn)’:’c’,[‘A’,’C’]]#a行到c行的A列和C列df.i
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025中式餐廳裝修設(shè)計(jì)合同
- 濮陽(yáng)醫(yī)學(xué)高等??茖W(xué)?!禞ava+Web開發(fā)》2023-2024學(xué)年第二學(xué)期期末試卷
- 貴陽(yáng)信息科技學(xué)院《數(shù)據(jù)庫(kù)原理及應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025屆湖北省荊州市荊州中學(xué)高三二模生物試題試卷(B版)含解析
- 河北勞動(dòng)關(guān)系職業(yè)學(xué)院《日本文化概況》2023-2024學(xué)年第一學(xué)期期末試卷
- 麗水學(xué)院《第一外國(guó)語(yǔ)(日)》2023-2024學(xué)年第一學(xué)期期末試卷
- 新疆現(xiàn)代職業(yè)技術(shù)學(xué)院《書法與板書設(shè)計(jì)實(shí)踐教學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海健康醫(yī)學(xué)院《企業(yè)運(yùn)營(yíng)管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 沈陽(yáng)體育學(xué)院《外國(guó)文學(xué)史二》2023-2024學(xué)年第二學(xué)期期末試卷
- 潞安職業(yè)技術(shù)學(xué)院《新媒體數(shù)據(jù)分析與應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 體外膈肌起搏器
- “數(shù)學(xué)悖論”-辛普森悖論
- 六宮格數(shù)獨(dú)100題
- 工程項(xiàng)目跟蹤審計(jì)送審資料清單
- 中文產(chǎn)品手冊(cè)機(jī)架效果器tcelectronic-triplec manual chinese
- 人衛(wèi)版內(nèi)科學(xué)第九章白血?。ǖ?節(jié))
- 食堂設(shè)備維修記錄
- DB65∕T 4357-2021 草原資源遙感調(diào)查技術(shù)規(guī)程
- 幼兒園繪本:《閃閃的紅星》 紅色故事
- 植物生理學(xué)_第七版_潘瑞熾_答案
- FZ∕T 60021-2021 織帶產(chǎn)品物理機(jī)械性能試驗(yàn)方法
評(píng)論
0/150
提交評(píng)論