財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch01-數(shù)據(jù)創(chuàng)建_第1頁
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch01-數(shù)據(jù)創(chuàng)建_第2頁
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch01-數(shù)據(jù)創(chuàng)建_第3頁
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch01-數(shù)據(jù)創(chuàng)建_第4頁
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch01-數(shù)據(jù)創(chuàng)建_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Python與財(cái)經(jīng)大數(shù)據(jù)分析基礎(chǔ)第1章——數(shù)據(jù)創(chuàng)建

CONTENTS目錄1.1數(shù)據(jù)分析模塊介紹1.2DataFrame簡介1.3DataFrame數(shù)據(jù)創(chuàng)建1.4讀取本地存儲的數(shù)據(jù)1.5實(shí)操練習(xí)題1.1數(shù)據(jù)分析模塊介紹1.1數(shù)據(jù)分析模塊介紹數(shù)據(jù),是一切分析的基礎(chǔ),科學(xué)地創(chuàng)建、整理數(shù)據(jù),是得到可靠分析結(jié)果的重要前提。為了更好地進(jìn)行數(shù)據(jù)分析,我們首先需要構(gòu)建自己的數(shù)據(jù)集或數(shù)據(jù)庫。在數(shù)據(jù)創(chuàng)建時,我們可以構(gòu)建虛擬數(shù)據(jù),也可以讀取現(xiàn)有數(shù)據(jù)公司提供的數(shù)據(jù),也可以利用網(wǎng)絡(luò)爬蟲爬取網(wǎng)上一些特色數(shù)據(jù)。通過Python的數(shù)據(jù)創(chuàng)建功能,可以實(shí)現(xiàn)數(shù)據(jù)的存儲,方便后續(xù)的調(diào)用、清洗、運(yùn)行、計(jì)算和分析。1.1數(shù)據(jù)分析模塊介紹由于爬蟲技術(shù)在后續(xù)章節(jié)會有介紹,所以本章主要介紹通過DataFrame自行創(chuàng)建,或通過讀取結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建兩種方式。1.2DataFrame簡介1.2DataFrame簡介在Python中,DataFrame是一種表格型數(shù)據(jù)結(jié)構(gòu),類似Excel,是Pandas中非常重要的結(jié)構(gòu)化數(shù)據(jù)容器。通過DataFrame,數(shù)據(jù)分析過程中的繁瑣操作在很大程度上簡化了。DataFrame既有行索引,也有列索引,是二維數(shù)據(jù)結(jié)構(gòu),即數(shù)據(jù)以行和列的表格方式排列。DataFrame也被看做是一系列Series組成的字典。如圖所示,DataFrame由index、columns及data構(gòu)成。1.3DataFrame數(shù)據(jù)創(chuàng)建1.3DataFrame數(shù)據(jù)創(chuàng)建在進(jìn)行數(shù)據(jù)創(chuàng)建時,可以借助Pandas模塊中的DataFrame()函數(shù)。該函數(shù)的具體語法如下所示:1.3DataFrame數(shù)據(jù)創(chuàng)建(1)通過列表(list)創(chuàng)建當(dāng)數(shù)據(jù)為列表(list)類型時,為方便后期分析與運(yùn)算,通常會將列表(list)轉(zhuǎn)變?yōu)镈ataFrame進(jìn)行操作,同時可以定義index和columns的值。當(dāng)由多個列表中創(chuàng)建DataFrame時,需要使用zip()函數(shù)。zip()函數(shù)返回一個zip類型的對象,將多個列表的相同位置的元素配對在一起,每個列表形成DataFrame不同的列。1.3DataFrame數(shù)據(jù)創(chuàng)建(2)通過數(shù)組(array)創(chuàng)建我們可以通過Pandas.DataFrame()函數(shù)將生成的數(shù)組轉(zhuǎn)換成一個標(biāo)準(zhǔn)的DataFrame。為了更方便讀取數(shù)據(jù),我們可以分別定義index和columns的值。1.3DataFrame數(shù)據(jù)創(chuàng)建(3)通過字典(dict)創(chuàng)建作為一種可變?nèi)萜髂P?,字典(Dictionary)可存儲任意類型對象。當(dāng)錄入數(shù)據(jù)為字典(dict)類型時,通過Pandas.DataFrame()函數(shù),可以很方便的將字典轉(zhuǎn)變?yōu)镈ataFrame。其中,字典的Key對應(yīng)DataFrame中column值,字典中每一對數(shù)據(jù)會形成一個Series,這些Series匯總到一起就是DataFrame中的columns。此外,在使用Pandas.DataFrame()函數(shù)對字典數(shù)據(jù)進(jìn)行轉(zhuǎn)換時,可以單獨(dú)定義index參數(shù)。1.3DataFrame數(shù)據(jù)創(chuàng)建(4)通過序列Series創(chuàng)建 Series是Pandas庫中一種基本的數(shù)據(jù)結(jié)構(gòu),屬于一維數(shù)據(jù)形式,可以理解為n行2列的簡單數(shù)據(jù)表格,第一列是索引(index),第二列是值(values)。作為二維數(shù)據(jù)結(jié)構(gòu)的DataFrame可以拆分為一系列Series,同時一系列Series可以組合成DataFrame?;诖?,DataFrame可以通過Series來創(chuàng)建。其中,index為Series的標(biāo)簽,columns對應(yīng)各個Series。當(dāng)遇到Series長度不同的情況時,缺失數(shù)據(jù)會顯示為NaN。相比于用list創(chuàng)建DataFrame,用Series創(chuàng)建可以實(shí)現(xiàn)自動對齊。1.3DataFrame數(shù)據(jù)創(chuàng)建(5)時間序列數(shù)據(jù)創(chuàng)建有時候我們需要構(gòu)建一個時間序列,模擬一些數(shù)據(jù)。Pandas.date_range()函數(shù)為我們創(chuàng)建時間序列提供了便利,通過該函數(shù),我們很方便的可以生成一個固定頻率的時間序列。然后,再結(jié)合其他數(shù)據(jù),通過pandas.DataFrame()函數(shù)創(chuàng)建一個虛擬時間序列數(shù)據(jù)。1.3DataFrame數(shù)據(jù)創(chuàng)建Pandas.date_range()函數(shù)的具體語法如下所示:1.4讀取本地存儲的數(shù)據(jù)1.4讀取本地存儲的數(shù)據(jù)對于數(shù)據(jù)分析而言,獲取和利用第三方數(shù)據(jù)是比較有效的方式。目前,市場上有很多專注于數(shù)據(jù)生產(chǎn)的第三方公司,如國泰安(CSMAR)和萬得資訊(Wind)等。這些公司專注于數(shù)據(jù)源的工作,提供數(shù)據(jù)產(chǎn)品給使用者。這些數(shù)據(jù)大部分是結(jié)構(gòu)化數(shù)據(jù)。例如,上市公司年報(bào)信息、重要的公司治理數(shù)據(jù)、環(huán)境數(shù)據(jù)、宏微觀經(jīng)濟(jì)數(shù)據(jù)、重大事件數(shù)據(jù)和市場交易數(shù)據(jù)等等。通過對這些結(jié)構(gòu)化數(shù)據(jù)的讀取和處理,Python可以高效的輔助我們進(jìn)行數(shù)據(jù)分析、可視化或數(shù)據(jù)挖掘。本小節(jié)將從單個文件讀取與批量文件讀取兩個角度,分別介紹csv文件、txt文件與Excel文件的讀取方法。1.4讀取本地存儲的數(shù)據(jù)(1)單個文件讀取A.讀取文本文件在現(xiàn)有第三方數(shù)據(jù)庫中,很多數(shù)據(jù)被存儲在文本文件(csv文件、txt文件)中。這是因?yàn)槲谋疚募梢詢Υ孑^大樣本量的數(shù)據(jù),與其他存儲形式相比能夠節(jié)省大量的儲存空間。Pandas.read_csv()是專門讀取csv文件、txt文件的函數(shù)。該函數(shù)的具體語法如下所示:1.4讀取本地存儲的數(shù)據(jù)1.4讀取本地存儲的數(shù)據(jù)B.讀取表格文件現(xiàn)實(shí)中,很多財(cái)經(jīng)數(shù)據(jù)會以Excel的形式存儲。在Python中,可以通過Pandas.read_excel()函數(shù)導(dǎo)入已有Excel文件。該函數(shù)的具體語法如下所示:1.4讀取本地存儲的數(shù)據(jù)1.4讀取本地存儲的數(shù)據(jù)(2)批量文件讀取在對資本市場進(jìn)行分析的過程中,往往需要依靠較長時間跨度的數(shù)據(jù)資料作為支撐。由于單個csv和Excel文件儲存的數(shù)據(jù)有限,而資本市場交易數(shù)據(jù)量又很大,在數(shù)據(jù)分析過程中,我們經(jīng)常遇到的是,一個大的數(shù)據(jù)文件被分割成若干文件,在讀取的時候需要對這些文件進(jìn)行批處理,形成一個整體的文件。1.4讀取本地存儲的數(shù)據(jù)首先,利用for循環(huán),獲取所需讀取全部文件名稱的列表1.4讀取本地存儲的數(shù)據(jù)在獲得文件名稱的列表后,可以根據(jù)文件名稱和文件路徑構(gòu)建文件的絕對路徑,再按照文件絕對路徑對每個文件進(jìn)行數(shù)據(jù)讀取,具體操作中有以下兩種方法:1.4讀取本地存儲的數(shù)據(jù)方法一:生成一個空DataFrame,通過read_csv()(或read_excel)和append()函數(shù)對所有數(shù)據(jù)進(jìn)行讀取,存入DataFrame中。1.4讀取本地存儲的數(shù)據(jù)方法二:

生成一個空list,通過read_csv()(或read_excel)和append()函數(shù)對所有數(shù)據(jù)進(jìn)行讀取,存入list中,通過concat()函數(shù)整合數(shù)據(jù),存入DataFrame中。1.4讀取本地存儲的數(shù)據(jù)append()函數(shù)與concat()函數(shù)常用于數(shù)據(jù)合并,兩種方法進(jìn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論