財務(wù)大數(shù)據(jù)基礎(chǔ)(第二版)課件 項目六 數(shù)據(jù)分析工具Pandas入門_第1頁
財務(wù)大數(shù)據(jù)基礎(chǔ)(第二版)課件 項目六 數(shù)據(jù)分析工具Pandas入門_第2頁
財務(wù)大數(shù)據(jù)基礎(chǔ)(第二版)課件 項目六 數(shù)據(jù)分析工具Pandas入門_第3頁
財務(wù)大數(shù)據(jù)基礎(chǔ)(第二版)課件 項目六 數(shù)據(jù)分析工具Pandas入門_第4頁
財務(wù)大數(shù)據(jù)基礎(chǔ)(第二版)課件 項目六 數(shù)據(jù)分析工具Pandas入門_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

項目六數(shù)據(jù)分析工具Pandas入門回顧什么是數(shù)據(jù)分析數(shù)據(jù)分析是指根據(jù)事先確定的分析目標(biāo),選擇適當(dāng)?shù)慕y(tǒng)計分析方法或工具,對收集來的大量數(shù)據(jù)進(jìn)行處理與分析,從中提取有價值的信息,形成分析結(jié)論。分析結(jié)果可以輔助企業(yè)進(jìn)行管理優(yōu)化、預(yù)測和決策。數(shù)據(jù)分析的流程企業(yè)利用大數(shù)據(jù)進(jìn)行經(jīng)營管理和輔助預(yù)決策時,大致需要以下四個步驟:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化等環(huán)節(jié)?;仡櫮繕?biāo)掌握Pandas的兩種數(shù)據(jù)結(jié)構(gòu)掌握Pandas索引的相關(guān)操作掌握Pandas的常見操作掌握讀寫數(shù)據(jù)的方法任務(wù)一使用Pandas操作中國軟件財報數(shù)據(jù)Pandas再論Anaconda集成了常用的數(shù)據(jù)分析工具:Pandas、matplotlib等。Pandas是當(dāng)前Python數(shù)據(jù)分析中最為重要的工具,其提供了功能強大且靈活多樣的高級函數(shù),極大地簡化了數(shù)據(jù)處理的流程,可以滿足使用者在數(shù)據(jù)分析和處理中的多種選擇和實現(xiàn)方式。Pandas包Python之所以功能強大就是因為有非常豐富的第三方包(庫),將這些包引入到程序中,就可以很方便地使用包中提供的功能。(想想數(shù)學(xué)中的sin函數(shù))使用Pandas前需要先導(dǎo)入Pandas包。importpandasaspd此代碼用于在當(dāng)前程序中導(dǎo)入pandas包,并為該包起別名pd。后續(xù)在程序中若要使用Pandas,可直接用別名pd代替Pandas數(shù)據(jù)結(jié)構(gòu)Pandas中有兩個主要的數(shù)據(jù)結(jié)構(gòu):Series和DataFrame數(shù)據(jù)結(jié)構(gòu)是計算機存儲、組織數(shù)據(jù)的方式Series一維的數(shù)據(jù)結(jié)構(gòu)DataFrame二維的、表格型的數(shù)據(jù)結(jié)構(gòu)Pandas數(shù)據(jù)結(jié)構(gòu)SeriesSeries是一維數(shù)據(jù)結(jié)構(gòu),它能夠保存任何類型的數(shù)據(jù),如整數(shù)、字符串、浮點數(shù)。Series對象主要由一組數(shù)據(jù)和與之相關(guān)的標(biāo)簽(索引)構(gòu)成。DataFrameDataFrame是一種表格型的數(shù)據(jù)結(jié)構(gòu),既有行索引index,也有列索引columns。其實可以簡單把DataFrame理解為一張數(shù)據(jù)表。了解Series數(shù)據(jù)結(jié)構(gòu)帶有標(biāo)簽的數(shù)據(jù)結(jié)構(gòu),由數(shù)據(jù)和索引組成使用默認(rèn)索引創(chuàng)建Series對象索引數(shù)據(jù)Series數(shù)據(jù)結(jié)構(gòu)使用自定義索引創(chuàng)建Series對象自定義索引數(shù)據(jù)Series數(shù)據(jù)結(jié)構(gòu)使用字典創(chuàng)建Series對象字典數(shù)據(jù),字典的鍵作為索引他們是鍵Series數(shù)據(jù)結(jié)構(gòu)輸出Series對象的索引和數(shù)據(jù)了解DataFrame數(shù)據(jù)結(jié)構(gòu)帶有標(biāo)簽的數(shù)據(jù)結(jié)構(gòu),由數(shù)據(jù)和行索引、列索引組成使用默認(rèn)索引創(chuàng)建DataFrame對象DataFrame數(shù)據(jù)結(jié)構(gòu)使用自定義索引創(chuàng)建DataFrame對象列標(biāo)題行標(biāo)題DataFrame數(shù)據(jù)結(jié)構(gòu)使用字典形式創(chuàng)建DataFrame對象說明:字典的鍵自動作為列索引。DataFrame數(shù)據(jù)結(jié)構(gòu)為行列索引添加名稱Pandas讀寫數(shù)據(jù)數(shù)據(jù)采集后一般都會存儲到本地硬盤中,不會將數(shù)據(jù)直接寫入到程序中,這樣不僅造成程序代碼臃腫,而且可用率很低。所以當(dāng)我們進(jìn)行數(shù)據(jù)分析時需要對存儲的文件進(jìn)行讀取。Pandas可以讀取文本文件、Excel文件、網(wǎng)頁文件和數(shù)據(jù)庫文件。我們以財務(wù)數(shù)據(jù)處理中常用的Excel文件為例講解文件的讀取。Pandas讀寫數(shù)據(jù)讀取Excel文件Pandas提供了read_excel()函數(shù)來讀取Excel文件,讀取到的數(shù)據(jù)自動轉(zhuǎn)換成DataFrame類型的數(shù)據(jù)要讀取的文件左邊第3行代碼中將“data.xlsx”文件中的數(shù)據(jù)讀入程序賦值給變量UFSoftDF,UFSoftDF是什么類型呢?答案:是DataFrame類型Pandas讀寫數(shù)據(jù)保存Excel文件保存文件的函數(shù)保存到外部的文件名Pandas讀寫數(shù)據(jù)繼續(xù)探討UFSoftDF的數(shù)據(jù)類型怎樣查看UFSoftDF的數(shù)據(jù)類型呢?importpandasaspdUFSoftDF=pd.read_csv(‘data.xlsx’)print(type(UFSoftDF))#輸出UFSoftDF的類型培養(yǎng)讀者的程序思維任務(wù)二查詢中國軟件資產(chǎn)負(fù)債表數(shù)據(jù)數(shù)據(jù)查詢一個數(shù)據(jù)集中的數(shù)據(jù)量通常都是比較大的,學(xué)會如何從大量數(shù)據(jù)中查詢自己需要的數(shù)據(jù)是一個很重要的技能一、查詢Series數(shù)據(jù)查詢單個數(shù)據(jù)使用切片查詢數(shù)據(jù)(連續(xù)的多個數(shù)據(jù))查詢不連續(xù)的數(shù)據(jù)

對象名[

索引|標(biāo)簽名|切片|列表]一、查詢Series數(shù)據(jù)查詢單個數(shù)據(jù)一、查詢Series數(shù)據(jù)查詢切片數(shù)據(jù)一、查詢Series數(shù)據(jù)查詢不連續(xù)的數(shù)據(jù)說明:不連續(xù)的標(biāo)簽索引,多個索引值要用列表表示。二、查詢DataFrame數(shù)據(jù)以下列DataFrame對象為例說明:np.random.rand(8,4),返回一個8行4列的0~1之間的隨機數(shù)。二、查詢DataFrame數(shù)據(jù)使用“對象名[列索引]”的方式獲取DataFrame對象的一列數(shù)據(jù)使用“對象名[[列索引1,列索引2,…]]”的方式來獲取多列數(shù)據(jù)二、查詢DataFrame數(shù)據(jù)使用“對象名[行索引1:行索引2]”的方式來獲取DataFrame對象的一行或多行數(shù)據(jù)二、查詢DataFrame數(shù)據(jù)使用“對象名[列索引][行索引]”的方式獲取DataFrame對象的某一個值或某個矩形區(qū)域的值(即行列交叉部分的值)說明:DataFrame直接索引只支持先列后行,不支持先行后列。原理如左圖所示。二、查詢DataFrame數(shù)據(jù)獲取整體信息三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)更加靈活的解決辦法:loc方法:按照標(biāo)簽索引(名稱)選取數(shù)據(jù)iloc方法:按照位置索引(整數(shù)索引)選取數(shù)據(jù)loc[行名,列名]iloc[行號,列號]注意:loc和iloc后面是方括號,其中行、列可以是單一值,也可以是切片,還可以是列表。如果要獲取a到d行的B、D兩列的數(shù)據(jù),代碼如何寫?df[['B','D']]['a':'d']使用loc方法注意:列省略表示取所有列。三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)使用iloc方法說明:(1)位置編號均從0開始順序編號(2)位置索引也是類似a[x,y]形式,而x和y可以有多種不同的寫法三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)loc和iloc方法小結(jié)宏觀上看是a[x,y]形式,而x和y可以有多種不同的寫法df.loc[‘a(chǎn)’:’c’,[‘A’,’C’]]#a行到c行的A列和C列df.i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論