版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)科學(xué)與機器學(xué)習(xí)Python語法分析Python基礎(chǔ)術(shù)語數(shù)據(jù)分析中常用的數(shù)據(jù)類型數(shù)據(jù)分析中常用的循環(huán)函數(shù)數(shù)據(jù)分析中常用的庫010203041.Python基礎(chǔ)術(shù)語
1.必須知道的兩組Python基礎(chǔ)術(shù)語在內(nèi)存中創(chuàng)建了一個值為4的整型數(shù)據(jù)在內(nèi)存中創(chuàng)建了一個名為a的變量,并把它指向4例如下圖代碼,“=”的作用就是賦值,同時Python會自動識別數(shù)據(jù)類型:2.數(shù)據(jù)分析中常用的循環(huán)函數(shù)
for函數(shù)是一個常見的循環(huán)函數(shù)for函數(shù)在Python數(shù)據(jù)分析中經(jīng)常被應(yīng)用,因為數(shù)據(jù)采集經(jīng)常需要遍歷每一個網(wǎng)頁,以獲取信息,所以構(gòu)建完整而正確的網(wǎng)頁鏈接十分關(guān)鍵。3.數(shù)據(jù)分析中常用的數(shù)據(jù)類型在初級的數(shù)據(jù)分析過程中,有三種數(shù)據(jù)類型是很常見的:列表list(Python內(nèi)置)字典dic(Python內(nèi)置)DataFrame(工具包pandas下的數(shù)據(jù)類型,需要import
pandas才能調(diào)用)列表(list):字典(dict):DataFrame:DataFrame可以簡單理解為Excel里的表格格式。導(dǎo)入pandas包后,字典和列表都可以轉(zhuǎn)化為DataFrame,以上面的字典為例,轉(zhuǎn)化為DataFrame是這樣的:4.數(shù)據(jù)分析中常用的庫Python是數(shù)據(jù)處理常用工具,可以處理數(shù)量級從幾K至幾T不等的數(shù)據(jù),具有較高的開發(fā)效率和可維護性,還具有較強的通用性和跨平臺性。Python可用于數(shù)據(jù)分析,但其單純依賴Python本身自帶的庫進行數(shù)據(jù)分析還是具有一定的局限性的,需要安裝第三方擴展庫來增強分析和挖掘能力。Python數(shù)據(jù)分析需要安裝的第三方擴展庫有:Numpy、Pandas、SciPy、Matplotlib、Scikit-Learn、Keras、Gensim、Scrapy等,以下是千鋒武漢Python培訓(xùn)老師對該第三方擴展庫的簡要介紹:4.1PandasPandas是Python強大、靈活的數(shù)據(jù)分析和探索工具,包含Series、DataFrame等高級數(shù)據(jù)結(jié)構(gòu)和工具,安裝Pandas可使Python中處理數(shù)據(jù)非常快速和簡單。Pandas是Python的一個數(shù)據(jù)分析包,Pandas最初被用作金融數(shù)據(jù)分析工具而開發(fā)出來,因此Pandas為時間序列分析提供了很好的支持。Pandas是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的,Pandas納入了大量的庫和一些標準的數(shù)據(jù)模型,提供了高效的操作大型數(shù)據(jù)集所需要的工具。Pandas提供了大量是我們快速便捷的處理數(shù)據(jù)的函數(shù)和方法。Pandas包含了高級數(shù)據(jù)結(jié)構(gòu),以及讓數(shù)據(jù)分析變得快速、簡單的工具。它建立在Numpy之上,使得Numpy應(yīng)用變得簡單。帶有坐標軸的數(shù)據(jù)結(jié)構(gòu),支持自動或明確的數(shù)據(jù)對齊。這能防止由于數(shù)據(jù)結(jié)構(gòu)沒有對齊,以及處理不同來源、采用不同索引的數(shù)據(jù)而產(chǎn)生的常見錯誤。使用Pandas更容易處理丟失數(shù)據(jù)。
合并流行數(shù)據(jù)庫(如:基于SQL的數(shù)據(jù)庫)
Pandas是進行數(shù)據(jù)清晰/整理的最好工具。4.2NumpyPython沒有提供數(shù)組功能,Numpy可以提供數(shù)組支持以及相應(yīng)的高效處理函數(shù),是Python數(shù)據(jù)分析的基礎(chǔ),也是SciPy、Pandas等數(shù)據(jù)處理和科學(xué)計算庫最基本的函數(shù)功能庫,且其數(shù)據(jù)類型對Python數(shù)據(jù)分析十分有用。Numpy提供了兩種基本的對象:ndarray和ufunc。ndarray是存儲單一數(shù)據(jù)類型的多維數(shù)組,而ufunc是能夠?qū)?shù)組進行處理的函數(shù)。Numpy的功能:N維數(shù)組,一種快速、高效使用內(nèi)存的多維數(shù)組,他提供矢量化數(shù)學(xué)運算。可以不需要使用循環(huán),就能對整個數(shù)組內(nèi)的數(shù)據(jù)進行標準數(shù)學(xué)運算。非常便于傳送數(shù)據(jù)到用低級語言編寫(C\C++)的外部庫,也便于外部庫以Numpy數(shù)組形式返回數(shù)據(jù)。Numpy不提供高級數(shù)據(jù)分析功能,但可以更加深刻的理解Numpy數(shù)組和面向數(shù)組的計算。4.3MatplotlibMatplotlib是強大的數(shù)據(jù)可視化工具和作圖庫,是主要用于繪制數(shù)據(jù)圖表的Python庫,提供了繪制各類可視化圖形的命令字庫、簡單的接口,可以方便用戶輕松掌握圖形的格式,繪制各類可視化圖形。Matplotlib是Python的一個可視化模塊,他能方便的只做線條圖、餅圖、柱狀圖以及其他專業(yè)圖形。
使用Matplotlib,可以定制所做圖表的任一方面。他支持所有操作系統(tǒng)下不同的GUI后端,并且可以將圖形輸出為常見的矢量圖和圖形測試,如PDFSVGJPGPNGBMPGIF.通過數(shù)據(jù)繪圖,我們可以將枯燥的數(shù)字轉(zhuǎn)化成人們?nèi)菀捉邮盏膱D表。
Matplotlib是基于Numpy的一套Python包,這個包提供了吩咐的數(shù)據(jù)繪圖工具,主要用于繪制一些統(tǒng)計圖形。
Matplotlib有一套允許定制各種屬性的默認設(shè)置,可以控制Matplotlib中的每一個默認屬性:圖像大小、每英寸點數(shù)、線寬、色彩和樣式、子圖、坐標軸、網(wǎng)個屬性、文字和文字屬性。4.4KerasKeras是深度學(xué)習(xí)庫,人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)模型,基于Theano之上,依賴于Numpy和Scipy,利用它可以搭建普通的神經(jīng)網(wǎng)絡(luò)和各種深度學(xué)習(xí)模型,如語言處理、圖像識別、自編碼器、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸審計網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。4.5Scikit-LearnScikit-Learn是Python常用的機器學(xué)習(xí)工具包,提供了完善的機器學(xué)習(xí)工具箱,支持數(shù)據(jù)預(yù)處理、分類、回歸、聚類、預(yù)測和模型分析等強大機器學(xué)習(xí)庫,其依賴于Numpy、Scipy和Matplotlib等。Scikit-Learn是基于Python機器學(xué)習(xí)的模塊,基于BSD開源許可證。
Scikit-Learn的安裝需要NumpyScopyMatplotlib等模塊,Scikit-Learn的主要功能分為六個部分,分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預(yù)處理。Scikit-Learn自帶一些經(jīng)典的數(shù)據(jù)集,比如用于分類的iris和digits數(shù)據(jù)集,還有用于回歸分析的bostonhouseprices數(shù)據(jù)集。該數(shù)據(jù)集是一種字典結(jié)構(gòu),數(shù)據(jù)存儲在.data成員中,輸出標簽存儲在.target成員中。Scikit-Learn建立在Scipy之上,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版原材料采購運輸合同范本
- 2025年湘教版四年級語文下冊階段測試試卷
- 二零二五年度酒吧整體轉(zhuǎn)讓合同范本集3篇
- 2025年人教版高二物理下冊月考試卷含答案
- 2025年冀教新版五年級英語上冊階段測試試卷
- 2025年蘇人新版二年級語文下冊月考試卷
- 二零二五年度駕校停車場及道路施工合同3篇
- 課程設(shè)計任務(wù)書字體
- 造價課程設(shè)計計算書
- 二零二五年度出租車承包經(jīng)營效益評估合同3篇
- 2025年競聘醫(yī)院內(nèi)科醫(yī)生崗位演講稿模版(3篇)
- 虛擬貨幣地址分析技術(shù)的研究-洞察分析
- 綠色供應(yīng)鏈管理制度內(nèi)容
- 心理學(xué)基礎(chǔ)知識考試參考題庫500題(含答案)
- 電力智慧檢修安全運行三維可視化管理平臺建設(shè)方案
- 一年級數(shù)學(xué)(上)計算題專項練習(xí)集錦
- 消防安全應(yīng)急預(yù)案下載
- 《北航空氣動力學(xué)》課件
- 附件:財政業(yè)務(wù)基礎(chǔ)數(shù)據(jù)規(guī)范(3.0版)
- 電商公司售后服務(wù)管理制度
- 火災(zāi)應(yīng)急處理課件
評論
0/150
提交評論