Python商務(wù)數(shù)據(jù)分析與實戰(zhàn)PPT完整全套教學(xué)課件_第1頁
Python商務(wù)數(shù)據(jù)分析與實戰(zhàn)PPT完整全套教學(xué)課件_第2頁
Python商務(wù)數(shù)據(jù)分析與實戰(zhàn)PPT完整全套教學(xué)課件_第3頁
Python商務(wù)數(shù)據(jù)分析與實戰(zhàn)PPT完整全套教學(xué)課件_第4頁
Python商務(wù)數(shù)據(jù)分析與實戰(zhàn)PPT完整全套教學(xué)課件_第5頁
已閱讀5頁,還剩624頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

商務(wù)數(shù)據(jù)分析概述第1章數(shù)據(jù)分析概述.pptx第2章Python數(shù)據(jù)分析簡介.pptx第3章數(shù)據(jù)獲取.pptx第4章探索性分析.pptx第5章數(shù)據(jù)預(yù)處理.pptx第6章構(gòu)建模型(1).pptx第6章構(gòu)建模型(2).pptx第7章O2O優(yōu)惠券個性化投放.pptx第8章商品零售購物籃分析.pptx第9章餐飲企業(yè)綜合分析.pptx第10章基于tipdm數(shù)據(jù)挖掘建模平臺實現(xiàn)餐飲企業(yè)綜合分析.pptx全套PPT課件1數(shù)據(jù)分析的流程目錄商務(wù)數(shù)據(jù)分析的基本概念2商務(wù)數(shù)據(jù)分析應(yīng)用場景3數(shù)據(jù)分析工具4小結(jié)5數(shù)據(jù)分析是指用適當?shù)姆治龇椒▽κ占瘉淼拇罅繑?shù)據(jù)進行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。隨著計算機技術(shù)的全面發(fā)展,企業(yè)生產(chǎn)、收集、存儲和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增。而在現(xiàn)實生活中,需要把這些繁多、嘈雜的數(shù)據(jù)運用統(tǒng)計分析進行萃取、提煉,以此研究出數(shù)據(jù)的發(fā)展規(guī)律,然后幫助企業(yè)管理層做出決策。基本概念廣義的數(shù)據(jù)分析包括狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘。狹義的數(shù)據(jù)分析是指根據(jù)分析目的,采用描述性統(tǒng)計和圖形可視化等分析方法,運用對比分析、分組分析、交叉分析和回歸分析等分析策略,對收集來的數(shù)據(jù)進行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用,得到一個針對不同統(tǒng)計量的統(tǒng)計結(jié)果的過程。數(shù)據(jù)挖掘則是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,通過應(yīng)用聚類、分類、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價值的過程。數(shù)據(jù)分析概念圖中展示了廣義數(shù)據(jù)分析的主要內(nèi)容、分析方法、輸出結(jié)果和總體目標。數(shù)據(jù)分析概念商務(wù)數(shù)據(jù)分析與一般的數(shù)據(jù)分析的不同之處在于,商務(wù)數(shù)據(jù)分析更為側(cè)重商業(yè)場景。商務(wù)數(shù)據(jù)分析需要結(jié)合內(nèi)外部數(shù)據(jù)深度剖析商業(yè)問題,基于具體的商業(yè)場景以及商業(yè)邏輯,使用數(shù)據(jù)作為原材料,對數(shù)據(jù)進行相應(yīng)的邏輯處理與結(jié)構(gòu)化處理。同時通過數(shù)據(jù)洞察商業(yè)問題,為企業(yè)戰(zhàn)略及商業(yè)決策提供數(shù)據(jù)支持。商務(wù)數(shù)據(jù)分析概念1數(shù)據(jù)分析的流程目錄數(shù)據(jù)分析的基本概念2商務(wù)數(shù)據(jù)分析應(yīng)用場景3數(shù)據(jù)分析工具4小結(jié)5數(shù)據(jù)分析已經(jīng)逐漸演化為一種解決問題的過程,甚至是一種方法論。雖然每個公司都會根據(jù)自身需求和目標創(chuàng)建最適合的數(shù)據(jù)分析流程,但數(shù)據(jù)分析的核心步驟是一致的。數(shù)據(jù)分析的流程需求分析一詞來源于產(chǎn)品設(shè)計,主要是指從用戶提出的需求出發(fā),探索用戶內(nèi)心的真實意圖,并轉(zhuǎn)化為產(chǎn)品需求的過程。產(chǎn)品設(shè)計的第一步就是需求分析,也是最關(guān)鍵的一步,因為需求分析決定了產(chǎn)品方向,錯誤需求分析,會導(dǎo)致在產(chǎn)品實現(xiàn)過程中走入錯誤方向,對企業(yè)造成損失。數(shù)據(jù)分析中的需求分析也是數(shù)據(jù)分析環(huán)節(jié)的第一步和最重要的步驟之一,決定了后續(xù)的分析的方向、方法。數(shù)據(jù)分析中的需求分析主的要內(nèi)容是根據(jù)業(yè)務(wù)的需要,結(jié)合業(yè)務(wù)背景和現(xiàn)有的數(shù)據(jù)情況,提出的數(shù)據(jù)分析需求的整體分析方向、分析內(nèi)容,制定項目的分析目標,最終和需求方達成一致意見。需求分析數(shù)據(jù)是數(shù)據(jù)分析工作的基礎(chǔ),是指根據(jù)需求分析的結(jié)果提取、收集數(shù)據(jù)。數(shù)據(jù)來源主要有兩種,即網(wǎng)絡(luò)數(shù)據(jù)和本地數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)是指存儲在互聯(lián)網(wǎng)中的各類視頻、圖片、語音、文字等信息。本地數(shù)據(jù)則是指存儲在本地數(shù)據(jù)庫中的生產(chǎn)營銷財務(wù)等系統(tǒng)的數(shù)據(jù)。本地數(shù)據(jù)按照數(shù)據(jù)時間又可以劃分為兩個類型:歷史數(shù)據(jù)與實時數(shù)據(jù)。歷史數(shù)據(jù)是指系統(tǒng)在運行過程中,歷史遺存下來的數(shù)據(jù),其數(shù)據(jù)量隨系統(tǒng)運行時間增加而增長。實時數(shù)據(jù)是指最近一個單位時間周期(月、周、日、小時等)產(chǎn)生的數(shù)據(jù)。數(shù)據(jù)獲取的常見方式有連接數(shù)據(jù)庫和讀取文件等,在數(shù)據(jù)分析過程中,具體使用哪種數(shù)據(jù)獲取方式,依據(jù)需求分析的結(jié)果而定。數(shù)據(jù)獲取探索性分析指的是指通過計算某些統(tǒng)計指標、繪制圖表等手段,對樣本數(shù)據(jù)集的結(jié)構(gòu)和規(guī)律進行分析的過程。對數(shù)據(jù)進行探索性分析能夠掌握數(shù)據(jù)的基本情況,揭示數(shù)據(jù)的分布特征和分布類型,把握數(shù)據(jù)的趨勢和周期性,理解數(shù)據(jù)中蘊含的相關(guān)性,同時也有助于選擇合適的數(shù)據(jù)預(yù)處理方法和建模方法。探索性分析數(shù)據(jù)預(yù)處理是指對數(shù)據(jù)進行數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)標準化,使得數(shù)據(jù)可以直接用于分析建模過程。數(shù)據(jù)合并可以將多張互相關(guān)聯(lián)的表格合并為一張表。數(shù)據(jù)清洗可以去掉數(shù)據(jù)中的重復(fù)、缺失、異常、不一致的數(shù)據(jù)。數(shù)據(jù)標準化可以去除屬性間的量綱差異。數(shù)據(jù)變換則可以通過離散化、啞變量處理等技術(shù)滿足后期分析與建模的數(shù)據(jù)要求。在數(shù)據(jù)分析的過程中,數(shù)據(jù)預(yù)處理的各個過程互相交叉,并沒有明確的先后順序。數(shù)據(jù)預(yù)處理構(gòu)建模型是指通過回歸、聚類、分類、關(guān)聯(lián)規(guī)則、智能推薦等模型與算法發(fā)現(xiàn)數(shù)據(jù)中的有價值信息,并得出結(jié)論的過程,構(gòu)建模型的方法按照目標不同可以分為幾大類。如果分析目標是描述客戶行為模式,可采用描述型數(shù)據(jù)分析方法,同時還可以考慮關(guān)聯(lián)規(guī)則、序列規(guī)則、聚類等模型。預(yù)測型數(shù)據(jù)分析就是量化未來一段時間內(nèi),某個事件的發(fā)生概率。預(yù)測分析模型分為兩類,即分類預(yù)測和回歸預(yù)測。在常見的分類預(yù)測模型中,目標屬性通常都是二元數(shù)據(jù),例如,欺詐與否、流失與否、信用好壞等。在回歸預(yù)測模型中,目標屬性通常都是連續(xù)型數(shù)據(jù),常見的有股票價格預(yù)測和違約損失率預(yù)測等。構(gòu)建模型模型評價是指對已經(jīng)建立的一個或多個模型,根據(jù)其模型的類別,使用不同的指標評價其性能優(yōu)劣的過程。常用的回歸模型的算法評價指標有平均絕對誤差、均方誤差、中值絕對誤差、可解釋方差值等。常用分類模型的評價指標有準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1Value)、ROC和AUC等。常用的聚類模型評價指標有ARI評價法(蘭德系數(shù))、AMI評價法(互信息)、V-Measure評分、FMI評價法和輪廓系數(shù)等。模型評價應(yīng)用是指將通過了正式應(yīng)用數(shù)據(jù)分析的結(jié)果與結(jié)論應(yīng)用至實際生產(chǎn)中的過程。根據(jù)需求的不同,應(yīng)用階段可以是一份包含了對現(xiàn)狀具體整改措施的數(shù)據(jù)分析報告,也可以是將模型部署在生產(chǎn)系統(tǒng)中。在多數(shù)項目中,數(shù)據(jù)分析師提供的是一份數(shù)據(jù)分析報告或者一套解決方案,實際執(zhí)行與部署的是需求方。應(yīng)用1數(shù)據(jù)分析的流程目錄數(shù)據(jù)分析的基本概念2商務(wù)數(shù)據(jù)分析應(yīng)用場景3數(shù)據(jù)分析工具4小結(jié)5客戶分析(CustomerAnalytics)主要是對客戶的基本數(shù)據(jù)信息進行商業(yè)行為分析。首先界定目標客戶,根據(jù)客戶的需求、目標客戶的性質(zhì)、所處行業(yè)的特征以及客戶的經(jīng)濟狀況等基本信息,使用統(tǒng)計分析方法和預(yù)測驗證法分析目標客戶,提高銷售效率。其次了解客戶的采購過程,對客戶采購類型和采購性質(zhì)進行分類分析,從而制定不同的營銷策略。最后還可以根據(jù)已有的客戶特征,進行客戶特征分析、客戶忠誠分析、客戶注意力分析、客戶營銷分析、客戶收益分析。通過有效的客戶分析能夠掌握客戶具體行為特征,將客戶細分,使得運營策略達到最優(yōu),提升企業(yè)整體效益等??蛻舴治鰻I銷分析(SalesandMarketingAnalytics)囊括了產(chǎn)品分析、價格分析、渠道分析、廣告與促銷分析這4類分析。產(chǎn)品分析主要是競爭產(chǎn)品分析,通過對競爭產(chǎn)品的分析制定自身產(chǎn)品策略。價格分析又可以分為成本分析和售價分析,成本分析的目的是降低不必要成本,售價分析的目的是制定符合市場的價格。渠道分析目的是指對產(chǎn)品的銷售渠道進行分析,確定最優(yōu)的渠道配比。廣告與促銷分析則能夠結(jié)合客戶分析,實現(xiàn)銷量的提升,利潤的增加。營銷分析社交媒體分析(SocialMediaAnalytics)是以不同社交媒體渠道生成的內(nèi)容為基礎(chǔ),實現(xiàn)不同社交媒體的用戶分析、訪問分析、互動分析等。用戶分析主要根據(jù)用戶注冊信息、登錄平臺的時間點和平時發(fā)表的內(nèi)容等用戶數(shù)據(jù),分析用戶個人畫像和行為特征。訪問分析是通過用戶平時訪問的內(nèi)容,分析用戶的興趣愛好,進而分析潛在的商業(yè)價值?;臃治鍪歉鶕?jù)互相關(guān)注對象的行為預(yù)測該對象未來的某些行為特征。同時,社交媒體分析還能為情感和輿情監(jiān)督提供豐富的資料。社交媒體分析對用戶行為進行監(jiān)測,并對監(jiān)測獲取的數(shù)據(jù)進行分析,可以幫助企業(yè)更為深入了解用戶的行為習(xí)慣,從而制定更為有效的策略。通過追蹤分析用戶的瀏覽路徑,分析用戶對于不同頁面和不同內(nèi)容的喜好程度,從而對網(wǎng)站結(jié)構(gòu)和內(nèi)容進行調(diào)整優(yōu)化。通過分析用戶的瀏覽歷史,了解用戶的習(xí)慣和偏好,從而制定針對不同用戶的個性化推薦等。用戶行為分析網(wǎng)站是否盈利成為網(wǎng)站是否能生存下去的主要問題,唯有盈利之后,才能真正的穩(wěn)定發(fā)展。盈利是網(wǎng)站最初的運營目標,也網(wǎng)站運營的核心目標。圍繞盈利這個目標對網(wǎng)站的運營進行市場化的調(diào)整,需要針對渠道、成本和收益3個方面進行分析。渠道分析主要根據(jù)渠道的引流數(shù)、發(fā)布的推廣數(shù)等渠道數(shù)據(jù)分析渠道所能帶來的運營效果。成本分析則是分析活動的預(yù)估成本、實際成本等數(shù)據(jù)評估運營的成本。收益分析則用參與人數(shù)、轉(zhuǎn)化率、評分等數(shù)據(jù),從用戶、營收或者口碑等多種角度的收益評估運營的效果。網(wǎng)站運營分析身份信息泄露導(dǎo)致身份被盜用的事件發(fā)生率逐年增長,隨之而來的是欺詐行為和交易的增多。公安機關(guān)、各大金融機構(gòu)、電信部門可利用用戶基本信息、用戶交易信息、用戶通話短信信息等數(shù)據(jù),識別可能發(fā)生的潛在欺詐交易,做到提前預(yù)防未雨綢繆。以大型金融機構(gòu)為例,通過分類預(yù)測對非法集資和洗錢的邏輯路徑分析,找到其行為特征。聚類分析方法可以分析相似價格的運動模式,例如,對股票進行聚類,可能發(fā)現(xiàn)關(guān)聯(lián)交易及內(nèi)幕交易的可疑信息,監(jiān)控多個用戶的關(guān)聯(lián)交易行為,為檢查跨賬號協(xié)同的金融詐騙行為提供依據(jù)。欺詐行為檢測1數(shù)據(jù)分析的流程目錄數(shù)據(jù)分析的基本概念2商務(wù)數(shù)據(jù)分析應(yīng)用場景3數(shù)據(jù)分析工具4小結(jié)5目前主流的數(shù)據(jù)分析語言有Python、R、MATLAB三種程序語言。Python具有豐富和強大的庫,它常被稱為膠水語言,能夠把用其他語言制作的各種模塊(尤其是C/C++)很輕松地連結(jié)在一起,是一門更易學(xué),更嚴謹?shù)某绦蛟O(shè)計語言。R語言則是用于統(tǒng)計分析,繪圖的語言和操作環(huán)境,它是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件。MATLAB可進行矩陣運算、繪制函數(shù)與數(shù)據(jù)、實現(xiàn)算法、創(chuàng)建用戶界面、連接其他編程語言的程序等,主要應(yīng)用于工程計算、控制設(shè)計、信號處理與通訊、圖像處理、信號檢測、金融建模設(shè)計與分析等領(lǐng)域。常用數(shù)據(jù)分析工具三種語言均可以進行數(shù)據(jù)分析,下表從語言學(xué)習(xí)難易程度,使用場景,第三方支持,流行領(lǐng)域和軟件成本5方面比較Python、R、MATLAB三種數(shù)據(jù)分析工具。常用數(shù)據(jù)分析工具

PythonRMATLAB語言學(xué)習(xí)難易程度接口統(tǒng)一,學(xué)習(xí)曲線平緩接口眾多,學(xué)習(xí)曲線陡峭自由度大,學(xué)習(xí)曲線較為平緩使用場景數(shù)據(jù)分析、機器學(xué)習(xí)、矩陣運算、科學(xué)數(shù)據(jù)可視化、數(shù)字圖像處理、Web應(yīng)用、網(wǎng)絡(luò)爬蟲、系統(tǒng)運維等統(tǒng)計分析、機器學(xué)習(xí)、科學(xué)數(shù)據(jù)可視化等矩陣計算、數(shù)值分析、科學(xué)數(shù)據(jù)可視化、機器學(xué)習(xí)、符號計算、數(shù)字圖像處理、數(shù)字信號處理、仿真模擬等第三方支持擁有大量的第三方庫,能夠簡便地調(diào)用C、C++、Fortran、Java等其他程序語言擁有大量的包,能夠調(diào)用C、C++、Fortran、Java等其他程序語言擁有大量專業(yè)的工具箱,在新版本中加入了對C、C++、Java的支持流行領(lǐng)域工業(yè)界>學(xué)術(shù)界工業(yè)界≈學(xué)術(shù)界工業(yè)界≤學(xué)術(shù)界軟件成本開源免費開源免費商業(yè)收費目前還出現(xiàn)了許多基于Python二次開發(fā)的開源平臺,如TipDM數(shù)據(jù)挖掘建模平臺。它是基于Python引擎、用于數(shù)據(jù)分析的開源平臺,采用B/S結(jié)構(gòu),用戶不需要下載客戶端,可通過瀏覽器進行訪問。平臺支持數(shù)據(jù)分析所需的主要過程:探索性分析(相關(guān)性分析、主成分分析、周期性分析等);數(shù)據(jù)預(yù)處理(特征構(gòu)造、記錄選擇、缺失值處理等);構(gòu)建模型(聚類模型、分類模型、回歸模型等);模型評價(R-Squared、混淆矩陣、ROC曲線等)。用戶可在沒有Python編程基礎(chǔ)的情況下,通過拖曳的方式進行操作,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評估等環(huán)節(jié)通過流程化的方式進行連接,以達到構(gòu)建數(shù)據(jù)分析全流程的目的。常用數(shù)據(jù)分析工具結(jié)合不同數(shù)據(jù)分析工具的對比,可以發(fā)現(xiàn)Python是一門應(yīng)用十分廣泛的計算機語言,在數(shù)據(jù)科學(xué)領(lǐng)域具有無可比擬的優(yōu)勢。Python正在逐漸成為數(shù)據(jù)科學(xué)領(lǐng)域的主流語言。Python數(shù)據(jù)分析主要包含以下5個方面優(yōu)勢。語法簡單精練,對于初學(xué)者來說,比起其他編程語言,Python更容易上手。有很強大的庫,結(jié)合在編程方面的強大實力,可以只使用Python這一種語言去構(gòu)建以數(shù)據(jù)為中心的應(yīng)用程序。功能強大。從特性觀點來看,Python是一個混合體。豐富的工具集使它介于傳統(tǒng)的腳本語言和系統(tǒng)語言之間。Python不僅具備所有腳本語言簡單和易用的特點,還提供了在編譯語言中的高級軟件工程工具。Python數(shù)據(jù)分析的優(yōu)勢不僅適用于研究和原型構(gòu)建,同時也適用于構(gòu)建生產(chǎn)系統(tǒng)。研究人員和工程技術(shù)人員使用同一種編程工具將會給企業(yè)帶來非常顯著的組織效益,并降低企業(yè)的運營成本。Python是一門膠水語言。Python程序能夠以多種方式輕易地與其他語言的組件“粘接”在一起。例如,Python的C語言API可以幫助Python程序靈活地調(diào)用C程序。這意味著用戶可以根據(jù)需要給Python程序添加功能,或者在其他環(huán)境系統(tǒng)中使用Python。Python數(shù)據(jù)分析的優(yōu)勢NumPy是NumericalPython的簡稱,是一個Python科學(xué)計算的基礎(chǔ)包。NumPy主要提供了以下功能??焖俑咝У亩嗑S數(shù)組對象ndarray。用于對數(shù)組執(zhí)行元素級的計算以及直接對數(shù)組執(zhí)行數(shù)學(xué)運算的函數(shù)。用于讀寫硬盤上基于數(shù)組的數(shù)據(jù)集的工具。線性代數(shù)運算、傅里葉變換以及隨機數(shù)生成。用于將C、C++、Fortran代碼集成到Python的工具。Python數(shù)據(jù)分析常用類庫1.NumPy除了為Python提供快速的數(shù)組處理能力,NumPy在數(shù)據(jù)分析方面還有另外一個主要作用,即作為在算法支架傳遞數(shù)據(jù)的容器。對于數(shù)值型數(shù)據(jù),NumPy數(shù)組在存儲和處理數(shù)據(jù)時要比內(nèi)置的Python數(shù)據(jù)結(jié)構(gòu)高效的多。此外,由低級語言(如C和Fortran)編寫的庫可以直接操作NumPy數(shù)組中數(shù)據(jù),使用者無須進行任何數(shù)據(jù)復(fù)制工作。Python數(shù)據(jù)分析常用類庫SciPy是一個基于Python的開源代碼,是一組專門解決科學(xué)計算中各種標準問題域的模塊的集合,特別是與NumPy、Matplotlib、IPython、pandas這些核心包一起使用。對于不同子模塊有不同應(yīng)用,如插值、積分、優(yōu)化、圖像處理和特殊函數(shù)等。Python數(shù)據(jù)分析常用類庫2.SciPySciPy主要包含了8個模塊,每個模塊的內(nèi)容如下表所示。Python數(shù)據(jù)分析常用類庫模塊名稱簡介egrate數(shù)值積分例程和微分方程求解器scipy.linalg擴展了由numpy.linalg提供的線性代數(shù)例程和矩陣分解功能scipy.optimize函數(shù)優(yōu)化器(最小化器)以及根查找算法scipy.signal信號處理工具scipy.sparse稀疏矩陣和稀疏線性系統(tǒng)求解器scipy.specialSPECFUN(這是一個實現(xiàn)了許多常用數(shù)學(xué)函數(shù)(如伽馬函數(shù))的Fortran庫)的包裝器scipy.stats檢驗連續(xù)和離散概率分布(如密度函數(shù)、采樣器、連續(xù)分布函數(shù)等),各種統(tǒng)計檢驗方法,以及更好的描述統(tǒng)計法scipy.weave利用內(nèi)聯(lián)C++代碼加速數(shù)組計算的工具pandas是Python的數(shù)據(jù)分析核心庫,最初被作為金融數(shù)據(jù)分析工具而開發(fā)出來,因此pandas為時間序列分析提供了很好的支持。它提供了一系列能夠快速便捷地處理結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和函數(shù)。Python之所以成為強大而高效的數(shù)據(jù)分析環(huán)境與它息息相關(guān)。pandas兼具NumPy高性能的數(shù)組計算功能以及電子表格和關(guān)系型數(shù)據(jù)庫(如MySQL)靈活的數(shù)據(jù)處理功能。它提供了復(fù)雜精細的索引功能,以便便捷地完成重塑、切片和切塊、聚合以及選取數(shù)據(jù)子集等操作。pandas將是本書中使用的主要工具。Python數(shù)據(jù)分析常用類庫3.pandasMatplotlib是最流行的用于繪制數(shù)據(jù)圖表的Python庫,是Python的2D繪圖庫。最初由約翰·D·亨特(JohnD.Hunter,JDH)創(chuàng)建,目前由一個龐大的開發(fā)人員團隊維護。它非常適合創(chuàng)建出版物上用的圖表。Matplotlib操作比較容易,用戶只需幾行代碼即可生成直方圖、功率譜圖、條形圖、錯誤圖和散點圖等圖形。Matplotlib提供了pylab的模塊,其中包括了許多NumPy和pyplot中常用的函數(shù),方便用戶快速進行計算和繪圖。Matplotlib跟IPython結(jié)合得很好,提供了一種非常好用的交互式數(shù)據(jù)繪圖環(huán)境。繪制的圖表也是交互式的,可以利用繪圖窗口中的工具欄放大圖表中的某個區(qū)域或?qū)φ麄€圖表進行平移瀏覽。Python數(shù)據(jù)分析常用類庫4.Matplotlibscikit-learn是一個簡單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,可以供用戶在各種環(huán)境下重復(fù)使用,而且scikit-learn是建立在NumPy、SciPy和Matplotlib基礎(chǔ)之上,對一些常用的算法方法進行了封裝。目前scikit-learn的基本模塊主要被分為數(shù)據(jù)預(yù)處理、模型選擇、分類、聚類、數(shù)據(jù)降維和回歸等6個模塊。在數(shù)據(jù)量不大的情況下,可以解決大部分問題。對于算法不精通的用戶在進行建模任務(wù)時,并不需要數(shù)據(jù)分析師來實現(xiàn)所有的算法,只需要簡單的調(diào)用scikit-learn庫里的模塊就可以實現(xiàn)大多數(shù)算法任務(wù)。Python數(shù)據(jù)分析常用類庫5.scikit-learn1數(shù)據(jù)分析的流程目錄數(shù)據(jù)分析的基本概念2商務(wù)數(shù)據(jù)分析應(yīng)用場景3數(shù)據(jù)分析工具4小結(jié)5本章對數(shù)據(jù)分析的概念進行了簡要介紹,包括廣義數(shù)據(jù)分析中的狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘,并對數(shù)據(jù)分析的流程中的7個步驟進行了說明,包括需求分析、數(shù)據(jù)獲取、探索性分析、數(shù)據(jù)預(yù)處理、構(gòu)建模型和應(yīng)用。然后對數(shù)據(jù)分析的6個常見應(yīng)用場景進行了說明。最后分析了常用數(shù)據(jù)分析工具之間的差異,介紹了Python在數(shù)據(jù)分析上的優(yōu)勢,并介紹了一部分Python中的常用于數(shù)據(jù)分析的類庫。小結(jié)

Python數(shù)據(jù)分析簡介1Python使用入門目錄Python數(shù)據(jù)分析環(huán)境2小結(jié)3Python擁有NumPy、SciPy、pandas、Matplotlib和scikit-learn等功能齊全、接口統(tǒng)一的庫,能為數(shù)據(jù)分析工作提供極大的便利。庫的管理以及版本問題,使得數(shù)據(jù)分析人員并不能夠?qū)W⒂跀?shù)據(jù)分析,而是將大量的時間花費在與環(huán)境配置相關(guān)的問題上?;谏鲜鲈?,Anaconda發(fā)行版應(yīng)運而生。Python數(shù)據(jù)分析環(huán)境主要了解Python的Anaconda發(fā)行版及在Windows和Linux系統(tǒng)中安裝Anaconda。Anaconda發(fā)行版產(chǎn)生原因Anaconda發(fā)行版Python預(yù)裝了150個以上的常用Packages,囊括了數(shù)據(jù)分析常用的NumPy、SciPy、Matplotlib、pandas、scikit-learn和IPython庫,使得數(shù)據(jù)分析人員能夠更加順暢、專注地使用Python解決數(shù)據(jù)分析相關(guān)問題。Python的Anaconda發(fā)行版Python的Anaconda發(fā)行版主要有以下幾個特點。包含了眾多流行的科學(xué)、數(shù)學(xué)、工程和數(shù)據(jù)分析的Python庫。完全開源和免費。額外的加速和優(yōu)化是收費的,但對于學(xué)術(shù)用途,可以申請免費的License。全平臺支持Linux、Windows、Mac;支持Python2.6、2.7、3.4、3.5、3.6和3.7,可自由切換。因此,推薦數(shù)據(jù)分析初學(xué)者(尤其是Windows系統(tǒng)用戶)安裝此Python發(fā)行版。讀者只需要到Anaconda官方網(wǎng)站(/download)下載適合自身的安裝包即可。Python的Anaconda發(fā)行版Anconda是Python科學(xué)計算的集成。在Windows和Linux上安裝Anaconda,可進入Anaconda官方網(wǎng)站(/download),下載適合自身電腦系統(tǒng)的Anaconda安裝包,進行安裝。Anaconda安裝進入Anaconda官方網(wǎng)站,下載Windows系統(tǒng)中的Anaconda安裝包,選擇Python3.0以上版本。安裝Anaconda的具體步驟如下。單擊右圖所示的“Next”按鈕進入下一步。Anaconda安裝1.在Windows系統(tǒng)上安裝AnacondaAnaconda安裝單擊右圖所示的“IAgree”按鈕,同意上述協(xié)議并進入下一步。選擇右圖所示的“AllUsers(requiresadminprivileges)”單選按鈕,進入下一步。Anaconda安裝單擊“Browse”按鈕,選擇在指定的路徑安裝Anaconda,如右圖所示,選擇完成后單擊“Next”按鈕,進入下一步。Anaconda安裝右圖中的兩個復(fù)選框分別代表了允許將Anaconda添加到系統(tǒng)路徑環(huán)境變量中、Anaconda使用的Python版本為3.6。勾選后,單擊“Install”按鈕,等待安裝結(jié)束。Anaconda安裝單擊右圖所示的“Finish”按鈕,完成Anaconda安裝。Anaconda安裝從Anaconda官方網(wǎng)站下載Linux系統(tǒng)中的Anaconda安裝包,選擇Python3.0以上版本。Linux系統(tǒng)中安裝Anaconda的具體步驟如下。打開一個用戶終端Terminal。使用cd命令將當前路徑切換至系統(tǒng)下Anaconda安裝包所在的文件路徑,如下圖所示。Anaconda安裝2.在Linux系統(tǒng)上安裝Anaconda輸入代碼“bashAnaconda3-4.4.0-Linux-x86_64.sh”,進行安裝,如下圖所示。Anaconda安裝按下鍵盤中的“Enter”鍵后,出現(xiàn)軟件協(xié)議相關(guān)內(nèi)容,在閱讀時連續(xù)按“Enter”鍵讀取全文,在協(xié)議末尾會讓讀者確認是否同意以上協(xié)議,輸入“yes”并按下鍵盤中的“Enter”鍵確認同意,如右圖所示。Anaconda安裝同意協(xié)議后,軟件就會開始安裝。在安裝過程快結(jié)束時,將提示讀者是否將Anaconda的安裝路徑加入到系統(tǒng)當前用戶的環(huán)境變量中,輸入“yes”并按下鍵盤中的“Enter”鍵確認同意,如右圖所示。Anaconda安裝等待安裝完成,完成后使用Linux系統(tǒng)的文本編輯器VIM或者gedit查看當前用戶的環(huán)境變量。輸入命令“vi/home/Python3/.bashrc”來查看文檔,出現(xiàn)下圖所示界面,表示環(huán)境變量配置完成,說明Anaconda已經(jīng)完成安裝。Anaconda安裝如果未配置完成,在下圖所示的界面末尾添加Anaconda安裝目錄的環(huán)境變量“exportPATH="/home/Python3/anaconda3/bin:$PATH"”即可。Anaconda安裝1Python使用入門目錄Python數(shù)據(jù)分析環(huán)境2小結(jié)3運行Python代碼有兩種方式。一種方式是啟動Python,然后在命令窗口下直接輸入相應(yīng)的命令。另一種是將完整的代碼寫成.py腳本,如hello.py,然后在對應(yīng)的路徑下通過Python執(zhí)行hello.py。運行方式在編寫腳本的時候,可以添加適當?shù)淖⑨?。在每一行中,可以用井號?”來添加注釋。如果注釋有多行,可以在兩個“'''”之間(三個英文的單引號)添加注釋內(nèi)容。如果腳本中帶有中文(中文注釋或者中文字符串),那么需要在文件頭注明編碼,并且還要將腳本保存為UTF-8編碼格式。運行方式認識Python的第一步,是可以把它當作一個方便的計算器來看待,在Python中進行基本的運算。此外,Python支持對字符串的靈活操作?;久?.基本運算Python的判斷語句格式如下表所示?;久?.判斷與循環(huán)if條件1:

語句2elif條件3:

語句4else:

語句5需要特別指出的是,Python是用縮進對齊作為語句的層次標記。同一層次的縮進量要一一對應(yīng),否則會報錯。不管是哪種語言,正確的縮進都是一個優(yōu)雅的編程習(xí)慣。不管是哪種語言,正確的縮進都是一個優(yōu)雅的編程習(xí)慣。此外,Python的循環(huán)相應(yīng)地有for循環(huán)和while循環(huán)?;久頟ython用def來自定義函數(shù)。Python的函數(shù)返回值可以是各種形式,如返回列表,甚至返回多個值。Python支持用lambda對簡單的功能定義“行內(nèi)函數(shù)”,這有點像MATLAB中的“匿名函數(shù)”?;久?.函數(shù)Python本身內(nèi)置了很多強大的庫,如與數(shù)學(xué)相關(guān)的math庫,可提供更加豐富復(fù)雜的數(shù)學(xué)運算。導(dǎo)入庫的方法,除了直接“import庫名”命令之外,還可為庫起一個別名。如果不需要導(dǎo)入庫中的所有函數(shù),那么可以特別指定導(dǎo)入函數(shù)的名字。help(‘modules’)命令可以用來獲得已經(jīng)安裝的所有模塊名。庫的導(dǎo)入與添加1.庫的導(dǎo)入Python雖然自帶了很多庫,但是不一定可以滿足需求。就數(shù)據(jù)分析而言,還需要添加一些第三方的庫來拓展它的功能。這里介紹一下常見的第三方庫的安裝方法,如下表所示。庫的導(dǎo)入與添加2.添加第三方庫思路特點下載源代碼自行安裝安裝靈活,但需要自行解決上級依賴問問題用pip命令安裝比較方便,自動解決上級依賴問題用easy_install命令安裝比較方便,自動解決上級依賴問題,比pip稍弱下載編譯好的文件包一般是Windows系統(tǒng)才提供現(xiàn)成的可執(zhí)行文件包系統(tǒng)自帶的安裝方式Linux或Mac系統(tǒng)的軟件管理器自帶了某些庫的安裝方式1Python使用入門目錄Python數(shù)據(jù)分析環(huán)境2小結(jié)3主要對Python進行簡單介紹,包括Python數(shù)據(jù)分析環(huán)境和Python使用入門。Python數(shù)據(jù)分析環(huán)境闡述了Anaconda的特點,實現(xiàn)了在Windows和Linux兩個系統(tǒng)中安裝Anaconda數(shù)據(jù)分析環(huán)境。Python使用入門主要介紹了Python的運行方式、基本命令、庫的導(dǎo)入與添加。小結(jié)

數(shù)據(jù)獲取1數(shù)據(jù)類型目錄常見數(shù)據(jù)來源2數(shù)據(jù)讀取方式3常用Python數(shù)據(jù)格式與讀寫函數(shù)4小結(jié)5直接來源是來源于本人或本公司直接記錄、調(diào)查或?qū)嶒灥慕Y(jié)果,又稱為第一手數(shù)據(jù)。最為常見的直接來源為存儲在公司業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù),這些數(shù)據(jù)由公司的日常運營生產(chǎn)活動產(chǎn)生,是最直接也是最容易獲取的數(shù)據(jù)來源。另一種常見的數(shù)據(jù)直接來源為問卷調(diào)查,主要采用將結(jié)構(gòu)式的調(diào)查問卷與抽查法相結(jié)合的形式,問卷調(diào)查越來越多地被用于定量研究,并成為社會科學(xué)研究的主要方式之一。直接來源間接來源是來源于別人調(diào)查或?qū)嶒灥臄?shù)據(jù),又稱為第二手數(shù)據(jù)。由于個人和商業(yè)公司的力量有限,一些宏觀數(shù)據(jù)需要由專門的大型調(diào)查公司或政府部門來提供,這些數(shù)據(jù)的來源渠道也比較多,如報紙、書籍、統(tǒng)計年鑒、相關(guān)網(wǎng)站及專業(yè)調(diào)查公司等。如果調(diào)查的領(lǐng)域?qū)I(yè)性較強,那么需要查閱相關(guān)的專業(yè)性網(wǎng)站提供的數(shù)據(jù),或使用搜索引擎的高級搜索功能完成。間接來源1數(shù)據(jù)類型目錄背景與挖掘目標2數(shù)據(jù)讀取方式3常用Python數(shù)據(jù)格式與讀寫函數(shù)4小結(jié)5結(jié)構(gòu)化數(shù)據(jù)的表現(xiàn)形式為二維的列表結(jié)構(gòu),嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進行存儲和管理。結(jié)構(gòu)化數(shù)據(jù)由行和列構(gòu)成,通常每一行對應(yīng)一條記錄,每一列對應(yīng)一個屬性,同一個表中的數(shù)據(jù)具有相同的屬性集,即同一張表中所有記錄的列的個數(shù)是一致的。結(jié)構(gòu)化數(shù)據(jù)一個結(jié)構(gòu)化數(shù)據(jù)的例子如下表所示。上表中展示了一條結(jié)構(gòu)化的客戶消費記錄。id列表示該客戶的id為4382,通常為數(shù)值型或者字符型。sex列表示該客戶的性別為男性,通常為字符型。con_amount列表示該客戶的消費金額為24.5(元),為數(shù)值型。con_time列表示該客戶的消費時間為2020年1月15日的15:30,通常為字符型或者時間型。結(jié)構(gòu)化數(shù)據(jù)idsexcon_amountcon_time4382M24.52020-1-1515:30結(jié)構(gòu)化數(shù)據(jù)主要應(yīng)用于各類業(yè)務(wù)系統(tǒng)的關(guān)系型數(shù)據(jù)庫中,其存儲需求包括高速存儲應(yīng)用需求、數(shù)據(jù)備份需求、數(shù)據(jù)共享需求以及數(shù)據(jù)容災(zāi)需求等。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種特殊形式,是以樹或者圖的數(shù)據(jù)結(jié)構(gòu)存儲的數(shù)據(jù),其結(jié)構(gòu)并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)包含相關(guān)標記,用來分隔語義元素以及對記錄和字段進行分層,這種結(jié)構(gòu)也被稱為自描述的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫是節(jié)點的集合,每個節(jié)點都是一個葉子節(jié)點或者一個內(nèi)部節(jié)點。葉子節(jié)點與數(shù)據(jù)相關(guān),數(shù)據(jù)的類型可以是任意原子類型,如數(shù)字和字符串。每個內(nèi)部節(jié)點至少有一條外向的弧。每條弧都有一個標簽,該標簽指明弧開始處的節(jié)點與弧末端的節(jié)點之間的關(guān)系。一個名為根的內(nèi)部節(jié)點沒有進入的弧,它代表整個數(shù)據(jù)庫。每個節(jié)點都從根可達,整個圖的結(jié)構(gòu)未必是一棵樹。半結(jié)構(gòu)化數(shù)據(jù)常見的半結(jié)構(gòu)化數(shù)據(jù)格式有XML和JSON,一個半結(jié)構(gòu)化數(shù)據(jù)的例子如下表所示。上表為一個XML文件中的記錄,可以看到兩條記錄的屬性個數(shù)是不一樣的,第一條記錄有name、age和gender三個屬性,而第二條記錄只有name和gender兩個屬性。半結(jié)構(gòu)化文件記錄的屬性個數(shù)是可以變動的,這點與結(jié)構(gòu)化數(shù)據(jù)要求數(shù)據(jù)必須具有相同的屬性集不同,使得半結(jié)構(gòu)化數(shù)據(jù)具有更好的靈活性。半結(jié)構(gòu)化數(shù)據(jù)<person><name>Anna</name><age>23</age><gender>female</gender></person><person><name>Tom</name><gender>male</gender></person>半結(jié)構(gòu)化數(shù)據(jù)包括郵件、HTML、報表、資源庫等,常見的應(yīng)用場景有郵件系統(tǒng)、WEB集群、教學(xué)資源庫和檔案系統(tǒng)等。這些應(yīng)用的存儲要求主要有數(shù)據(jù)存儲、數(shù)據(jù)備份、數(shù)據(jù)共享以及數(shù)據(jù)歸檔等。半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括辦公文檔、文本、圖像、音頻、視頻等。非結(jié)構(gòu)化數(shù)據(jù)的格式非常多樣,標準也具有多樣性,在技術(shù)上非結(jié)構(gòu)化信息比結(jié)構(gòu)化信息更難標準化和理解。其存儲、檢索、發(fā)布以及利用需要更加智能化的IT技術(shù),常見具體應(yīng)用有醫(yī)療影像系統(tǒng)、教育視頻點播、視頻監(jiān)控、國土GIS、設(shè)計院、文件服務(wù)器(PDM/FTP)、媒體資源管理等。非結(jié)構(gòu)化數(shù)據(jù)1數(shù)據(jù)類型目錄常見數(shù)據(jù)來源2數(shù)據(jù)讀取方式3常用Python數(shù)據(jù)格式與讀寫函數(shù)4小結(jié)5在生產(chǎn)環(huán)境中,絕大多數(shù)的數(shù)據(jù)都存儲在數(shù)據(jù)庫中。想要讀取數(shù)據(jù)庫中的數(shù)據(jù)需要先與數(shù)據(jù)庫建立連接。數(shù)據(jù)庫連接是分析工具與數(shù)據(jù)庫之間的通道,只有建立數(shù)據(jù)庫連接后,用戶才能對數(shù)據(jù)庫中的數(shù)據(jù)進行操作。連接數(shù)據(jù)庫Python也需要與數(shù)據(jù)庫建立連接后才能讀取數(shù)據(jù)庫中的數(shù)據(jù),一個常用建立連接的方法為通過SQLAlchemy庫并配合相應(yīng)數(shù)據(jù)庫的Python連接工具。不同的數(shù)據(jù)庫需要選擇對應(yīng)的連接工具,如MySQL數(shù)據(jù)庫需要安裝mysqlclient或者pymysql庫,Oracle數(shù)據(jù)庫需要安裝cx_oracle庫。連接數(shù)據(jù)庫SQLAlchemy庫支持與MySQL、postgresql、Oracle、SQLServer和SQLite等主流數(shù)據(jù)庫建立連接,建立連接時需要提供數(shù)據(jù)庫產(chǎn)品名、連接工具名、用戶名、密碼、數(shù)據(jù)庫IP地址、數(shù)據(jù)庫端口號、數(shù)據(jù)庫名稱,同時還需要注意數(shù)據(jù)庫中使用的數(shù)據(jù)編碼,使用錯誤的編碼會導(dǎo)致亂碼問題。與數(shù)據(jù)庫進行連接后,可以與數(shù)據(jù)庫進行交互,對數(shù)據(jù)庫中的數(shù)據(jù)進行操作。常見的操作包括讀取、存儲以及增、刪、改、查等,通過pandas庫對數(shù)據(jù)庫進行讀取和存儲操作。連接數(shù)據(jù)庫另一種常見的數(shù)據(jù)載體是文本文件。文本文件是一種由若干行字符構(gòu)成的計算機文件,它是一種典型的順序文件。常見的有TXT文件和CSV文件,這兩種文件的主要區(qū)別是TXT文件使用空格分隔,而CSV是一種逗號分隔的文件格式。因為其分隔符不一定是逗號,又被稱為字符分隔文件,文件以純文本形式存儲表格數(shù)據(jù)(數(shù)字和文本)。它是一種通用、相對簡單的文件格式,最廣泛的應(yīng)用是在程序之間轉(zhuǎn)移表格數(shù)據(jù),而這些程序本身是在不兼容的格式上進行操作的(往往是私有的和/或無規(guī)范的格式)。因為大量程序都支持CSV或者其變體,可以作為大多數(shù)程序的輸入和輸出格式。文件讀取CSV文件根據(jù)其定義也是一種文本文件,在數(shù)據(jù)讀取過程中可以使用文本文件的讀取函數(shù)對CSV文件進行讀取。使用read_table和read_csv函數(shù)讀取CSV文件。讀取文件時需要注意編碼問題,常用的編碼有utf-8、utf-16、gbk、gb2312、gb18030等。如果編碼指定錯誤數(shù)據(jù)將無法讀取,IPython解釋器會報解析錯誤。文件讀取除了TXT文件和CSV,Excel文件也是常見的需要讀取的數(shù)據(jù)文件種類。Excel可以進行各種數(shù)據(jù)的處理、統(tǒng)計分析和輔助決策操作,被廣泛地應(yīng)用于管理、統(tǒng)計財經(jīng)和金融等眾多領(lǐng)域。其文件格式依照程序版本的不同分為兩種。MicrosoftOfficeExcel2007之前的版本(不包括2007)默認保存的文件名后綴為.xls。MicrosoftOfficeExcel2007之后的版本默認保存的文件名后綴為.xlsx。文件讀取1數(shù)據(jù)類型目錄常見數(shù)據(jù)來源2數(shù)據(jù)讀取方式3常用Python數(shù)據(jù)格式與讀寫函數(shù)4小結(jié)5讀取進Python中的數(shù)據(jù)主要為格式化的數(shù)據(jù),Python、pandas和NumPy中常見的數(shù)據(jù)類型如下表所示。常用Python數(shù)據(jù)格式轉(zhuǎn)換函數(shù)Python類型pandas類型NumPy類型數(shù)據(jù)類型intint64int_,int8,int16,int32,int64,uint8,uint16,uint32,uint64整數(shù)strobjectstring_,unicode_字符串floatfloat64float_,float16,float32,float64浮點數(shù)boolboolbool_布爾值

datetime64

日期時間

timedelta[ns]

時間差值

category

有限長度的文本列表雖然Python會對讀入的數(shù)據(jù)進行軟轉(zhuǎn)換,即自動判定讀入的數(shù)據(jù)類型,但有時讀入Python的數(shù)據(jù)類型并不與預(yù)期相符,這時需要對數(shù)據(jù)類型進行檢測和轉(zhuǎn)換。Python中常見的數(shù)據(jù)類型檢測和轉(zhuǎn)換函數(shù)如下表所示。常用Python數(shù)據(jù)格式轉(zhuǎn)換函數(shù)函數(shù)名格式作用dtypesDataFrame.dtypes查看DataFrame中各列的數(shù)據(jù)類型dtypeseries.dtype查看series的數(shù)據(jù)類型select_dtypesDataFrame.select_dtypes(include=None,exclude=None)通過輸入的類型選取滿足條件的列astypeSeries.astype(dtype,copy=True,errors=’raise’,**kwargs)DataFrame.astype(dtype,copy=True,errors=’raise’,**kwargs)將指定的列強制轉(zhuǎn)換為指定的類型to_numericto_numeric()將指定對象轉(zhuǎn)換為整型常用的數(shù)據(jù)類型還包括了時間類型,通過讀取時間類型數(shù)據(jù)能夠獲取到對應(yīng)的年月日和星期等信息。但時間類型數(shù)據(jù)在讀入Python后常常以字符串形式出現(xiàn),無法方便實現(xiàn)大部分與時間相關(guān)的分析。常用Python數(shù)據(jù)格式轉(zhuǎn)換函數(shù)pandas庫中提供了6種時間相關(guān)的類,如下表所示。其中Timestamp是時間類中最基礎(chǔ)的,也是最為常用的。在多數(shù)情況下,時間相關(guān)的字符串都會轉(zhuǎn)換成為Timestamp。Timestamp類型時間是有限制的,通常該數(shù)值會被限制在1970年至2038年之間。常用Python數(shù)據(jù)格式轉(zhuǎn)換函數(shù)類名稱說明Timestamp最基礎(chǔ)的時間類。表示某個時間點。在絕大多數(shù)的場景中的時間數(shù)據(jù)都是Timestamp形式的時間Period表示單個時間跨度,或者某個時間段,例如某一天、某一小時等Timedelta表示不同單位的時間,如1天、1.5小時、3分鐘、4秒等,而非具體的某個時間段DatetimeIndex一組由Timestamp構(gòu)成的Index,可以作為Series或者DataFrame的索引PeriodtimeIndex一組由Period構(gòu)成的Index,可以作為Series或者DataFrame的索引TimedeltaIndex一組由Timedelta構(gòu)成的Index,可以作為Series或者DataFrame的索引Python中對數(shù)據(jù)庫進行讀寫主要通過pandas庫進行,pandas庫中常見的對數(shù)據(jù)庫進行讀取操作的函數(shù)為read_sql、read_sql_table和read_sql_query,使用格式如下。pandas.read_sql_table(table_name,con,schema=None,index_col=None,coerce_float=True,columns=None)pandas.read_sql_query(sql,con,index_col=None,coerce_float=True)pandas.read_sql(sql,con,index_col=None,coerce_float=True,columns=None)常用Python數(shù)據(jù)讀寫函數(shù)1.數(shù)據(jù)庫讀寫函數(shù)這3個函數(shù)的常用參數(shù)及其作用基本一致,如下表所示。常用Python數(shù)據(jù)讀寫函數(shù)參數(shù)說明table_name接收string。表示讀取的數(shù)據(jù)的表名。無默認值sql接收string。表示傳遞的sql語句。無默認值con接收數(shù)據(jù)庫連接。表示數(shù)據(jù)庫連接信息。無默認值index_col接收int,sequence或者False。表示設(shè)定的列作為行名,如果是一個數(shù)列則是多重索引。默認為Nonecoerce_float接收boolean。將數(shù)據(jù)庫中的decimal類型的數(shù)據(jù)轉(zhuǎn)換為pandas中的float64類型的數(shù)據(jù)。默認為Truecolumns接收list。表示讀取數(shù)據(jù)的列名。默認為None使用pandas將數(shù)據(jù)寫入數(shù)據(jù)庫時主要使用to_sql方法,其語法如下。DataFrame.to_sql(name,con,schema=None,if_exists=’fail’,index=True,index_label=None,dtype=None)常用Python數(shù)據(jù)讀寫函數(shù)to_sql方法的常用參數(shù)及其說明如下表所示。常用Python數(shù)據(jù)讀寫函數(shù)參數(shù)說明name接收string。代表數(shù)據(jù)庫表名。無默認值con接收數(shù)據(jù)庫連接。無默認值if_exists接收fail、replace、append。fail表示如果表名存在則不執(zhí)行寫入操作;replace表示如果存在,將原數(shù)據(jù)庫表刪除,再重新創(chuàng)建;append則表示在原數(shù)據(jù)庫表的基礎(chǔ)上追加數(shù)據(jù)。默認為failindex接收boolean。表示是否將行索引作為數(shù)據(jù)傳入數(shù)據(jù)庫。默認Trueindex_label接收string或者sequence。代表是否引用索引名稱,如果index參數(shù)為True,此參數(shù)為None,則使用默認名稱。如果為多重索引必須使用sequence形式。默認為Nonedtype接收dict。代表寫入的數(shù)據(jù)類型(列名為key,數(shù)據(jù)格式為values)。默認為Nonepandas庫提供了read_table來讀取文本文件,read_csv函數(shù)來讀取CSV文件,使用格式如下。pandas.read_table(filepath_or_buffer,sep=’\t’,header=’infer’,names=None,index_col=None,dtype=None,engine=None,nrows=None)pandas.read_csv(filepath_or_buffer,sep=’\t’,header=’infer’,names=None,index_col=None,dtype=None,engine=None,nrows=None)常用Python數(shù)據(jù)讀寫函數(shù)2.文件讀寫函數(shù)read_table和read_csv函數(shù)的參數(shù)基本相同,常用參數(shù)及其說明如下表所示。常用Python數(shù)據(jù)讀寫函數(shù)參數(shù)說明filepath接收string。代表文件路徑。無默認值sep接收string。代表分隔符。read_csv默認為“,”,read_table默認為制表符“[Tab]”header接收int或sequence。表示將某行數(shù)據(jù)作為列名。默認為infer,表示自動識別names接收array。表示列名。默認為Noneindex_col接收int、sequence或False。表示索引列的位置,取值為sequence則代表多重索引。默認為Nonedtype接收dict。代表寫入的數(shù)據(jù)類型(列名為key,數(shù)據(jù)格式為values)。默認為Noneengine接收c或者python。代表數(shù)據(jù)解析引擎。默認為None時使用c作為引擎nrows接收int。表示讀取前n行。默認為Nonepandas中的to_csv函數(shù)實現(xiàn)了以CSV文件格式存儲文件,使用格式如下。DataFrame.to_csv(path_or_buf=None,sep=’,’,na_rep=”,columns=None,header=True,index=True,index_label=None,mode=’w’,encoding=None)常用Python數(shù)據(jù)讀寫函數(shù)to_csv函數(shù)的常用參數(shù)及其說明如下表所示。常用Python數(shù)據(jù)讀寫函數(shù)參數(shù)說明path_or_buf接收string。代表文件路徑。默認為Nonesep接收string。代表分隔符。默認為“,”na_rep接收string。代表缺失值。默認為“”columns接收list。代表寫出的列名。默認為Noneheader接收boolean,代表是否將列名寫出。默認為Trueindex接收boolean,代表是否將行名(索引)寫出。默認為Trueindex_labels接收sequence。表示索引名。默認為Nonemode接收特定string。代表數(shù)據(jù)寫入模式。默認為wencoding接收特定string。代表存儲文件的編碼格式。默認為Nonepandas提供了read_excel函數(shù)來讀取“xls”和“xlsx”兩種Excel文件,其使用格式如下。pandas.read_excel(io,sheetname=0,header=0,index_col=None,names=None,dtype=None)常用Python數(shù)據(jù)讀寫函數(shù)read_excel函數(shù)的常用參數(shù)及其說明如下表所示。常用Python數(shù)據(jù)讀寫函數(shù)參數(shù)說明io接收string。表示文件路徑。無默認值sheetname接收string、int。代表excel表內(nèi)數(shù)據(jù)的分表位置。默認為0header接收int或sequence。表示將某行數(shù)據(jù)作為列名。默認為infer,表示自動識別names接收int、sequence或者False。表示索引列的位置,取值為sequence則代表多重索引。默認為Noneindex_col接收int、sequence或者False。表示索引列的位置,取值為sequence則代表多重索引。默認為Nonedtype接收dict。代表寫入的數(shù)據(jù)類型(列名為key,數(shù)據(jù)格式為values)。默認為None使用to_excel方法可以將數(shù)據(jù)存儲為Excel文件,其使用格式如下。DataFrame.to_excel(excel_writer=None,sheetname=None’,na_rep=”,header=True,index=True,index_label=None,mode=’w’,encoding=None)常用Python數(shù)據(jù)讀寫函數(shù)to_excel方法和to_csv方法的常用參數(shù)基本一致,區(qū)別之處在于指定存儲文件的文件路徑參數(shù)名稱為excel_writer,并且沒有sep參數(shù),增加了一個sheetnames參數(shù)用來指定存儲的Excelsheet的名稱,默認為sheet1。常用Python數(shù)據(jù)讀寫函數(shù)1數(shù)據(jù)類型目錄常見數(shù)據(jù)來源2數(shù)據(jù)讀取方式3常用Python數(shù)據(jù)格式與讀寫函數(shù)4小結(jié)5本章主要對常見的數(shù)據(jù)來源進行了簡要的介紹,常見的數(shù)據(jù)來源主要分為直接來源和間接來源兩種。還介紹了常見的數(shù)據(jù)類型包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。并對數(shù)據(jù)讀取的兩種常見方式做了介紹,包括連接數(shù)據(jù)庫和文件讀取。最后介紹了Python中的常用數(shù)據(jù)格式轉(zhuǎn)換函數(shù)和數(shù)據(jù)讀寫函數(shù)。小結(jié)

探索性分析1可視化分析目錄描述性統(tǒng)計分析2常用Python探索分析函數(shù)3小結(jié)4描述性統(tǒng)計是統(tǒng)計學(xué)中用來描繪或總結(jié)觀察量的基本情況的統(tǒng)計方法的總稱,是對調(diào)查樣本中的包含的大量數(shù)據(jù)資料進行整理、概況和計算的過程,也是通過揭示數(shù)據(jù)分布特性從而匯總并表達定量數(shù)據(jù)的方法。用統(tǒng)計指標對定量數(shù)據(jù)進行統(tǒng)計描述,常從集中趨勢和離散程度兩個方面進行分析。基本概念

集中趨勢統(tǒng)計指標1.均值

集中趨勢統(tǒng)計指標中位數(shù)是將一組觀察值從小到大按順序排列,位于中間的那個數(shù)據(jù)。即在全部數(shù)據(jù)中,小于和大于中位數(shù)的數(shù)據(jù)個數(shù)相等。將某一數(shù)據(jù)集從小到大按順序排序,當為奇數(shù)時,中位數(shù)的計算公式如下式所示。當為偶數(shù)時,中位數(shù)的計算公式如下式所示。集中趨勢統(tǒng)計指標2.中位數(shù)眾數(shù)是指數(shù)據(jù)集中出現(xiàn)最頻繁的值。眾數(shù)并不經(jīng)常用來度量定性變量的中心位置,更適用于定性變量。眾數(shù)不具有唯一性。當然,眾數(shù)一般用于離散型變量而非連續(xù)型變量。集中趨勢統(tǒng)計指標3.眾數(shù)極差是表示樣本離散程度最基本的測量值,是樣本中最大值與最小值的差額,計算公式如下式所示。極差對數(shù)據(jù)集的極端值非常敏感,并且忽略了位于最大值與最小值之間的數(shù)據(jù)的分布情況。離散程度統(tǒng)計指標1.極差標準差度量數(shù)據(jù)偏離均值的程度,計算公式如下式所示。離散程度統(tǒng)計指標2.標準差四分位數(shù)包括上四分位數(shù)和下四分位數(shù)。將所有數(shù)值由小到大排列并分成四等份,處于第一個分割點位置的數(shù)值是下四分位數(shù),處于第二個分割點位置(中間位置)的數(shù)值是中位數(shù),處于第三個分割點位置的數(shù)值是上四分位數(shù)。四分位數(shù)間距,是上四分位數(shù)與下四分位數(shù)之差,其間包含了全部觀察值的一半。四分位數(shù)間距值越大,說明數(shù)據(jù)的變異程度越大;反之,說明變異程度越小。離散程度統(tǒng)計指標3.四分位數(shù)間距1可視化分析目錄描述性統(tǒng)計分析2常用Python探索分析函數(shù)3小結(jié)4將數(shù)據(jù)可視化的目的是化抽象為具體,將隱藏于數(shù)據(jù)中的規(guī)律直觀地展現(xiàn)出來。通過點的位置、曲線的走勢、圖形的面積等形式,直觀地呈現(xiàn)研究對象間的數(shù)量關(guān)系。不同類型的圖表展示數(shù)據(jù)的側(cè)重點不同,選擇合適的圖表可以更好地進行數(shù)據(jù)的可視化分析。常見的可視化圖表有散點圖、折線圖、柱形圖、餅圖、箱線圖和熱力圖等。基本概念散點圖(ScatterDiagram)又稱為散點分布圖,是以一個特征為橫坐標,另一個特征為縱坐標,利用坐標點(散點)的分布形態(tài)反映特征間的統(tǒng)計關(guān)系的一種圖形。值是由點在圖表中的位置表示,類別是由圖表中的不同標記表示,通常用于比較跨類別的數(shù)據(jù)。散點圖可以提供2類關(guān)鍵信息。特征之間是否存在數(shù)值或者數(shù)量的關(guān)聯(lián)趨勢,關(guān)聯(lián)趨勢是線性的還是非線性的。如果有某一個點或者某幾個點偏離大多數(shù)點,這些點就是離群值,通過散點圖可以一目了然。從而可以進一步分析這些離群值是否可能在建模分析中產(chǎn)生很大的影響。散點圖散點圖通過散點的疏密程度和變化趨勢表示兩個特征的數(shù)量關(guān)系。不僅如此,如果有三個特征,若其中一個特征為類別型,散點圖改變不同特征的點的形狀或者顏色,即可了解兩個數(shù)值型特征和這個類別型之間的關(guān)系。散點圖折線圖(linechart)是一種將數(shù)據(jù)點按照順序連接起來的圖形。可以看作是將散點圖,按照x軸坐標順序連接起來的圖形。折線圖的主要功能是查看因變量y隨著自變量x改變的趨勢,最適合用于顯示隨時間(根據(jù)常用比例設(shè)置)而變化的連續(xù)數(shù)據(jù)。同時還可以看出數(shù)量的差異,增長趨勢的變化。除了分析數(shù)據(jù)的趨勢,折線圖還可以用來分析數(shù)據(jù)的周期性,周期性指某個變量隨著時間變化而呈現(xiàn)出某種周期變化趨勢,周期性按時間尺度分為年度、季節(jié)性、月度、周度、天和小時等周期性趨勢。折線圖柱形圖(barchart)又稱柱狀圖,是統(tǒng)計報告圖的一種,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況,一般用橫軸表示數(shù)據(jù)所屬類別,縱軸表示數(shù)量或者占比。用柱形圖可以比較直觀地看出產(chǎn)品質(zhì)量特性的分布狀態(tài),便于判斷其總體質(zhì)量分布情況。柱形圖可以發(fā)現(xiàn)分布表無法發(fā)現(xiàn)的數(shù)據(jù)模式、樣本的頻率分布和總體的分布。柱形圖餅圖(PieGraph)是將各項的大小與各項總和的比例顯示在一張“餅”中,以“餅”的大小來確定每一項的占比。餅圖的每一個扇形部分代表每一類型的百分比或頻數(shù),根據(jù)變量的類型數(shù)目將餅圖分成幾個部分,每一部分的大小與每一類型的頻數(shù)成正比。餅圖可以比較清楚地反映出部分與部分、部分與整體之間的比例關(guān)系,易于顯示每組數(shù)據(jù)相對于總數(shù)的大小,而且顯現(xiàn)方式直觀。餅圖箱線圖(Boxplot)也稱箱須圖,其繪制需使用常用的統(tǒng)計量,箱線圖能提供有關(guān)數(shù)據(jù)位置和分散情況的關(guān)鍵信息,尤其在比較不同特征時,更可表現(xiàn)其分散程度差異。箱線圖中每條線表示的含義如下圖所示。箱線圖箱線圖利用數(shù)據(jù)中的5個統(tǒng)計量(最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)和最大值)來描述數(shù)據(jù),沒有對數(shù)據(jù)作任何限制性要求如服從某種特定的分布形式,它只是真實地、直觀地表現(xiàn)數(shù)據(jù)分布的本來面貌。另一方面,箱線圖判斷異常值的標準以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的魯棒性:多達25%的數(shù)據(jù)可以變得任意遠而不會很大地擾動四分位數(shù),所以異常值不能對這個標準施加影響。由此可見,箱線圖識別異常值的結(jié)果比較客觀,在識別異常值方面有一定的優(yōu)越性。此外箱線圖也可以粗略地看出數(shù)據(jù)是否具有對稱性、分布的分散程度等信息,可以用于在幾個樣本之間進行比較。箱線圖熱力圖是一種通過對色塊著色來顯示數(shù)據(jù)分布的統(tǒng)計圖表。繪制熱力圖時,需指定顏色映射的規(guī)則。如較大的值使用較深的顏色表示,較小的值使用較淺的顏色表示,也可以較大的值使用偏暖的顏色表示,較小的值使用較冷的顏色表示等。熱力圖熱力圖按數(shù)據(jù)結(jié)構(gòu)一般可分為兩種,表格型和非表格型。表格型熱力圖也稱為色塊圖,它要求數(shù)據(jù)具有2個類別型屬性和1個數(shù)值型屬性,類別型屬性用于確定x、y軸,從而將圖表劃分為規(guī)整的矩形塊。數(shù)值型屬性決定了矩形塊的顏色。非表格型熱力圖也稱為平滑熱力圖,它要求數(shù)據(jù)具有3個數(shù)值型屬性,其中2個數(shù)值型屬性用于分別確定x、y軸,另一個1個數(shù)值型屬性用于確定點的著色,可以繪制在平行坐標系中。熱力圖能夠用于查看總體的情況、發(fā)現(xiàn)異常值、顯示多個變量之間的差異,還有一個常見用途為用于查看變量間是否存在任何相關(guān)性。如果要用熱力圖表示數(shù)據(jù)間的相關(guān)性,即繪制相關(guān)性熱力圖,還需要先計算相關(guān)系數(shù)。熱力圖為了準確地描述變量之間的線性相關(guān)程度,可以通過計算相關(guān)系數(shù)來實現(xiàn)。在二元變量的相關(guān)分析過程中比較常用的有Pearson相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)和判定系數(shù)。Pearson相關(guān)系數(shù):一般用于析兩個連續(xù)性變量之間的關(guān)系,其計算公式如下式所示。相關(guān)系數(shù)的取值范圍:。不同的的取值表示的相關(guān)性如下式所示。熱力圖1.相關(guān)系數(shù)

熱力圖變量秩次的計算過程,如下表所示。因為一個變量的相同的取值必須有相同的秩次,所以在計算中采用的秩次是排序后所在位置的平均值。只要兩個變量具有嚴格單調(diào)的函數(shù)關(guān)系,那么它們就是完全Spearman相關(guān)的,這與Pearson相關(guān)不同,Pearson相關(guān)只有在變量具有線性關(guān)系時才是完全相關(guān)的。熱力圖從小到大排序從小到大排序時的位置秩次

0.5110.8221.0331.24(4+5)/2=4.51.25(4+5)/2=4.52.3662.877上述兩種相關(guān)系數(shù)在實際應(yīng)用計算中都要對其進行假設(shè)檢驗,使用t檢驗方法檢驗其顯著性水平以確定其相關(guān)程度。研究表明,在正態(tài)分布假定下,Spearman秩相關(guān)系數(shù)與Pearson相關(guān)系數(shù)在效率上是等價的,而對于連續(xù)測量數(shù)據(jù),更適合用Pearson相關(guān)系數(shù)來進行分析。熱力圖判定系數(shù):判定系數(shù)是相關(guān)系數(shù)的平方,用表示;用來衡量回歸方程對的解釋程度。判定系數(shù)取值范圍:。越接近于1,表明與之間的相關(guān)性越強;越接近于0,表明兩個變量之間幾乎沒有直線相關(guān)關(guān)系。熱力圖為了更加直觀地分析屬性間的相關(guān)性,繪制1994年至2013年財政收入數(shù)據(jù)的相關(guān)性熱力圖。由圖中的顏色的深淺可看出,各屬性除了x11與y為負弱相關(guān)外,其他屬性都與y強相關(guān)。熱力圖2.相關(guān)性熱力圖1可視化分析目錄描述性統(tǒng)計分析2常用Python探索分析函數(shù)3小結(jié)4Python中的NumPy和pandas庫中都提供了函數(shù)或者方法用于描述性統(tǒng)計,這些函數(shù)或者方法主要用于計算數(shù)值型數(shù)據(jù)的最小值、均值、中位數(shù)、最大值、四分位數(shù)、極差、標準差、方差、協(xié)方差和變異系數(shù)等。NumPy中常見的描述性統(tǒng)計函數(shù)如下表所示。常用Python基本統(tǒng)計分析函數(shù)函數(shù)名稱說明函數(shù)名稱說明numpy.min最小值numpy.max最大值numpy.mean均值numpy.ptp極差numpy.median中位數(shù)numpy.std標準差numpy.var方差numpy.cov協(xié)方差pandas庫基于NumPy,自然也可以用這些函數(shù)對數(shù)據(jù)框進行描述性統(tǒng)計,同時pandas還提供了更加便利的describe方法來進行數(shù)值型數(shù)據(jù)的統(tǒng)計,能夠一次性得出數(shù)據(jù)框中所有數(shù)值型數(shù)據(jù)的非空值數(shù)目、均值、四分位數(shù)、標準差。pandas庫中的常用描述性統(tǒng)計方法,如下表所示。常用Python基本統(tǒng)計分析函數(shù)方法名稱說明方法名稱說明min最小值max最大值mean均值ptp極差median中位數(shù)std標準差var方差cov協(xié)方差sem標準誤差mode眾數(shù)skew樣本偏度kurt樣本峰度quantile四分位數(shù)count非空值數(shù)目describe描述統(tǒng)計mad平均絕對離差Matplotlib中繪制散點圖的函數(shù)為scatter,其語法格式如下。matplotlib.pyplot.scatter(x,y,s=None,c=None,marker=None,cmap=None,norm=None,vmin=None,vmax=None,alpha=None,linewidths=None,verts=None,edgecolors=None,hold=None,data=None,**kwargs)常用Python作圖函數(shù)1.散點圖scatter函數(shù)常用參數(shù)及其說明如下表所示。常用Python作圖函數(shù)參數(shù)名稱說明x,y接收array。表示x軸和y軸對應(yīng)的數(shù)據(jù)。無默認值s接收數(shù)值或者一維的array。指定點的大小,若傳入一維array,,則表示每個點的大小。默認為Nonec接收顏色或者一維的array。指定點的顏色,若傳入一維array則表示每個點的顏色。默認為Nonemarker接收特定string。表示繪制的點的類型。默認為Nonealpha接收0~1的小數(shù)。表示點的透明度。默認為NoneMatplotlib中繪制折線圖的函數(shù)為plot,其語法格式如下。matplotlib.pyplot.plot(*args,**kwargs)常用Python作圖函數(shù)2.折線圖plot函數(shù)在官方文檔的語法中只要求填入不定長參數(shù),實際可以填入的主要參數(shù)主要如下表所示。常用Python作圖函數(shù)參數(shù)名稱說明x,y接收array。表示x軸和y軸對應(yīng)的數(shù)據(jù)。無默認值color接收特定string。指定線條的顏色。默認為Nonelinestyle接收特定string。指定線條類型。默認為“-”marker接收特定string。表示繪制的點的類型。默認為Nonealpha接收0~1的小數(shù)。表示點的透明度。默認為None其中color參數(shù)的8種常用顏色的縮寫如下表所示。常用Python作圖函數(shù)顏色縮寫代表的顏色顏色縮寫代表的顏色b藍色m品紅g綠色y黃色r紅色k黑色c青色w白色linestyle參數(shù)的4種常用線條類型的取值及其意義,如下表所示。常用Python作圖函數(shù)linestyle取值意義linestyle取值意義-實線-.點線--長虛線:短虛線marker參數(shù)的20種常用線條標記的取值及其意義,如下表所示。常用Python作圖函數(shù)marker取值意義marker取值意義o圓圈.點D菱形s正方形h六邊形1*星號H六邊形2d小菱形-水平線v一角朝下的三角形8八邊形<

一角朝左的三角形p五邊形>

一角朝右的三角形,像素^一角朝上的三角形+加號\豎線None無xXMatplotlib中繪制柱形圖的函數(shù)為bar,其語法格式如下。matplotlib.pyplot.bar(left,height,width=0.8,bottom=None,hold=None,data=None,**kwargs)bar函數(shù)常用參數(shù)及其說明,如下表所示。常用Python作圖函數(shù)3.柱形圖參數(shù)名稱說明left接收array。表示x軸數(shù)據(jù)。無默認值height接收array。表示x軸所代表數(shù)據(jù)的數(shù)量。無默認值width接收0~1的float。指定柱形圖寬度。默認為0.8color接收特定string或者包含顏色字符串的array。表示柱形圖顏色。默認為NoneMatplotlib中繪制餅圖的函數(shù)為pie,其語法格式如下。matplotlib.pyplot.pie(x,explode=None,labels=None,colors=None,autopct=None,pctdistance=0.6,shadow=False,labeldistance=1.1,startangle=None,radius=None,counterclock=True,wedgeprops=None,textprops=None,center=(0,0),frame=False,hold=None,data=None)常用Python作圖函數(shù)4.餅圖pie函數(shù)常用參數(shù)及其說明,如下表所示。常用Python作圖函數(shù)參數(shù)名稱說明x接收array。表示用于繪制撇的數(shù)據(jù)。無默認值explode接收array。表示指定項離餅圖圓心為n個半徑。默認為Nonelabels接收array。指定每一項的名稱。默認為Nonecolor接收特定string或者包含顏色字符串的array。表示餅圖顏色。默認為Noneautopct接收特定string。指定數(shù)值的顯示方式。默認為Nonepctdistance接收float。指定每一項的比例和距離餅圖圓心n個半徑。默認為0.6labeldistance接收float。指定每一項的名稱和距離餅圖圓心多少個半徑。默認為1.1radius接收float。表示餅圖的半徑。默認為1Matplotlib中繪制箱線圖的函數(shù)為boxplot,其基本使用語法如下。matplotlib.pyplot.boxplot(x,notch=None,sym=None,vert=None,whis=None,positions=None,widths=None,patch_artist=None,bootstrap=None,usermedians=None,conf_intervals=None,me

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論