




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
項目六數(shù)據(jù)分析工具Pandas入門回顧什么是數(shù)據(jù)分析數(shù)據(jù)分析是指根據(jù)事先確定的分析目標(biāo),選擇適當(dāng)?shù)慕y(tǒng)計分析方法或工具,對收集來的大量數(shù)據(jù)進(jìn)行處理與分析,從中提取有價值的信息,形成分析結(jié)論。分析結(jié)果可以輔助企業(yè)進(jìn)行管理優(yōu)化、預(yù)測和決策。數(shù)據(jù)分析的流程企業(yè)利用大數(shù)據(jù)進(jìn)行經(jīng)營管理和輔助預(yù)決策時,大致需要以下四個步驟:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化等環(huán)節(jié)?;仡櫮繕?biāo)掌握Pandas的兩種數(shù)據(jù)結(jié)構(gòu)掌握Pandas索引的相關(guān)操作掌握Pandas的常見操作掌握讀寫數(shù)據(jù)的方法任務(wù)一使用Pandas操作中國軟件財報數(shù)據(jù)Pandas再論Anaconda集成了常用的數(shù)據(jù)分析工具:Pandas、matplotlib等。Pandas是當(dāng)前Python數(shù)據(jù)分析中最為重要的工具,其提供了功能強大且靈活多樣的高級函數(shù),極大地簡化了數(shù)據(jù)處理的流程,可以滿足使用者在數(shù)據(jù)分析和處理中的多種選擇和實現(xiàn)方式。Pandas包Python之所以功能強大就是因為有非常豐富的第三方包(庫),將這些包引入到程序中,就可以很方便地使用包中提供的功能。(想想數(shù)學(xué)中的sin函數(shù))使用Pandas前需要先導(dǎo)入Pandas包。importpandasaspd此代碼用于在當(dāng)前程序中導(dǎo)入pandas包,并為該包起別名pd。后續(xù)在程序中若要使用Pandas,可直接用別名pd代替Pandas數(shù)據(jù)結(jié)構(gòu)Pandas中有兩個主要的數(shù)據(jù)結(jié)構(gòu):Series和DataFrame數(shù)據(jù)結(jié)構(gòu)是計算機存儲、組織數(shù)據(jù)的方式Series一維的數(shù)據(jù)結(jié)構(gòu)DataFrame二維的、表格型的數(shù)據(jù)結(jié)構(gòu)Pandas數(shù)據(jù)結(jié)構(gòu)SeriesSeries是一維數(shù)據(jù)結(jié)構(gòu),它能夠保存任何類型的數(shù)據(jù),如整數(shù)、字符串、浮點數(shù)。Series對象主要由一組數(shù)據(jù)和與之相關(guān)的標(biāo)簽(索引)構(gòu)成。DataFrameDataFrame是一種表格型的數(shù)據(jù)結(jié)構(gòu),既有行索引index,也有列索引columns。其實可以簡單把DataFrame理解為一張數(shù)據(jù)表。了解Series數(shù)據(jù)結(jié)構(gòu)帶有標(biāo)簽的數(shù)據(jù)結(jié)構(gòu),由數(shù)據(jù)和索引組成使用默認(rèn)索引創(chuàng)建Series對象索引數(shù)據(jù)Series數(shù)據(jù)結(jié)構(gòu)使用自定義索引創(chuàng)建Series對象自定義索引數(shù)據(jù)Series數(shù)據(jù)結(jié)構(gòu)使用字典創(chuàng)建Series對象字典數(shù)據(jù),字典的鍵作為索引他們是鍵Series數(shù)據(jù)結(jié)構(gòu)輸出Series對象的索引和數(shù)據(jù)了解DataFrame數(shù)據(jù)結(jié)構(gòu)帶有標(biāo)簽的數(shù)據(jù)結(jié)構(gòu),由數(shù)據(jù)和行索引、列索引組成使用默認(rèn)索引創(chuàng)建DataFrame對象DataFrame數(shù)據(jù)結(jié)構(gòu)使用自定義索引創(chuàng)建DataFrame對象列標(biāo)題行標(biāo)題DataFrame數(shù)據(jù)結(jié)構(gòu)使用字典形式創(chuàng)建DataFrame對象說明:字典的鍵自動作為列索引。DataFrame數(shù)據(jù)結(jié)構(gòu)為行列索引添加名稱Pandas讀寫數(shù)據(jù)數(shù)據(jù)采集后一般都會存儲到本地硬盤中,不會將數(shù)據(jù)直接寫入到程序中,這樣不僅造成程序代碼臃腫,而且可用率很低。所以當(dāng)我們進(jìn)行數(shù)據(jù)分析時需要對存儲的文件進(jìn)行讀取。Pandas可以讀取文本文件、Excel文件、網(wǎng)頁文件和數(shù)據(jù)庫文件。我們以財務(wù)數(shù)據(jù)處理中常用的Excel文件為例講解文件的讀取。Pandas讀寫數(shù)據(jù)讀取Excel文件Pandas提供了read_excel()函數(shù)來讀取Excel文件,讀取到的數(shù)據(jù)自動轉(zhuǎn)換成DataFrame類型的數(shù)據(jù)要讀取的文件左邊第3行代碼中將“data.xlsx”文件中的數(shù)據(jù)讀入程序賦值給變量UFSoftDF,UFSoftDF是什么類型呢?答案:是DataFrame類型Pandas讀寫數(shù)據(jù)保存Excel文件保存文件的函數(shù)保存到外部的文件名Pandas讀寫數(shù)據(jù)繼續(xù)探討UFSoftDF的數(shù)據(jù)類型怎樣查看UFSoftDF的數(shù)據(jù)類型呢?importpandasaspdUFSoftDF=pd.read_csv(‘data.xlsx’)print(type(UFSoftDF))#輸出UFSoftDF的類型培養(yǎng)讀者的程序思維任務(wù)二查詢中國軟件資產(chǎn)負(fù)債表數(shù)據(jù)數(shù)據(jù)查詢一個數(shù)據(jù)集中的數(shù)據(jù)量通常都是比較大的,學(xué)會如何從大量數(shù)據(jù)中查詢自己需要的數(shù)據(jù)是一個很重要的技能一、查詢Series數(shù)據(jù)查詢單個數(shù)據(jù)使用切片查詢數(shù)據(jù)(連續(xù)的多個數(shù)據(jù))查詢不連續(xù)的數(shù)據(jù)
對象名[
索引|標(biāo)簽名|切片|列表]一、查詢Series數(shù)據(jù)查詢單個數(shù)據(jù)一、查詢Series數(shù)據(jù)查詢切片數(shù)據(jù)一、查詢Series數(shù)據(jù)查詢不連續(xù)的數(shù)據(jù)說明:不連續(xù)的標(biāo)簽索引,多個索引值要用列表表示。二、查詢DataFrame數(shù)據(jù)以下列DataFrame對象為例說明:np.random.rand(8,4),返回一個8行4列的0~1之間的隨機數(shù)。二、查詢DataFrame數(shù)據(jù)使用“對象名[列索引]”的方式獲取DataFrame對象的一列數(shù)據(jù)使用“對象名[[列索引1,列索引2,…]]”的方式來獲取多列數(shù)據(jù)二、查詢DataFrame數(shù)據(jù)使用“對象名[行索引1:行索引2]”的方式來獲取DataFrame對象的一行或多行數(shù)據(jù)二、查詢DataFrame數(shù)據(jù)使用“對象名[列索引][行索引]”的方式獲取DataFrame對象的某一個值或某個矩形區(qū)域的值(即行列交叉部分的值)說明:DataFrame直接索引只支持先列后行,不支持先行后列。原理如左圖所示。二、查詢DataFrame數(shù)據(jù)獲取整體信息三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)更加靈活的解決辦法:loc方法:按照標(biāo)簽索引(名稱)選取數(shù)據(jù)iloc方法:按照位置索引(整數(shù)索引)選取數(shù)據(jù)loc[行名,列名]iloc[行號,列號]注意:loc和iloc后面是方括號,其中行、列可以是單一值,也可以是切片,還可以是列表。如果要獲取a到d行的B、D兩列的數(shù)據(jù),代碼如何寫?df[['B','D']]['a':'d']使用loc方法注意:列省略表示取所有列。三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)使用iloc方法說明:(1)位置編號均從0開始順序編號(2)位置索引也是類似a[x,y]形式,而x和y可以有多種不同的寫法三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)loc和iloc方法小結(jié)宏觀上看是a[x,y]形式,而x和y可以有多種不同的寫法df.loc[‘a(chǎn)’:’c’,[‘A’,’C’]]#a行到c行的A列和C列df.i
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年高中地理第2單元資源利用與生態(tài)保護(hù)第1節(jié)資源問題及其表現(xiàn)學(xué)案魯教版選修6
- 2024-2025學(xué)年高中生物課時作業(yè)七酶的制備和應(yīng)用含解析蘇教版選修1
- 2024-2025學(xué)年高中物理第7章機械能守恒定律第7節(jié)動能和動能定理課時分層訓(xùn)練新人教版必修2
- 2025年色素素庫緞行業(yè)深度研究分析報告
- 2022-2027年中國汽車活塞行業(yè)市場發(fā)展現(xiàn)狀及投資前景展望報告
- 中國膠合板設(shè)備行業(yè)發(fā)展前景預(yù)測及投資戰(zhàn)略咨詢報告
- 采暖換熱站補水泵頻繁啟動檢查報告
- 2024-2030年中國北京酒店行業(yè)發(fā)展監(jiān)測及投資前景展望報告
- 烙花簾行業(yè)深度研究報告
- 電力科技產(chǎn)業(yè)園項目申請可行性研究報告
- 2024-2025學(xué)年山東省煙臺市高三上學(xué)期期末學(xué)業(yè)水平考試英語試題(解析版)
- 2025年益陽醫(yī)學(xué)高等??茖W(xué)校高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 配套課件-前廳客房服務(wù)與管理
- 2025年度藥店營業(yè)員服務(wù)規(guī)范及合同約束協(xié)議3篇
- 工業(yè)和信息化部裝備工業(yè)發(fā)展中心2025年上半年應(yīng)屆畢業(yè)生招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 重慶市2024-2025學(xué)年高一上學(xué)期期末聯(lián)考生物試卷(含答案)
- 緊急疏散逃生方法
- 羊水栓塞護(hù)理應(yīng)急預(yù)案
- 2024年醫(yī)師定期考核臨床類考試題庫及答案(共500題)
- 工程進(jìn)度款支付臺賬-1-
- 瀝青路面施工質(zhì)量控制要78課件講解
評論
0/150
提交評論