Python數(shù)據(jù)分析與應(yīng)用 課件 第7章 python與數(shù)據(jù)分析_第1頁
Python數(shù)據(jù)分析與應(yīng)用 課件 第7章 python與數(shù)據(jù)分析_第2頁
Python數(shù)據(jù)分析與應(yīng)用 課件 第7章 python與數(shù)據(jù)分析_第3頁
Python數(shù)據(jù)分析與應(yīng)用 課件 第7章 python與數(shù)據(jù)分析_第4頁
Python數(shù)據(jù)分析與應(yīng)用 課件 第7章 python與數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第7章Python與數(shù)據(jù)分析《Python數(shù)據(jù)分析與應(yīng)用》啤酒與尿布“啤酒與尿布”。該故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市,超市管理人員分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象——“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在年輕的父親的同一個購物籃。這是由于在美國有嬰兒的家庭中,母親留在家中照看嬰兒,父親去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒。至此,超市人員將屬于食品飲料的“啤酒”和屬于生活用品的“尿布”擺放在一處,從而致使兩種商品的銷售量直線上升。數(shù)據(jù)分析流程(1)明確目標(2)獲取數(shù)據(jù)(3)清洗數(shù)據(jù)(4)特征工程(5)構(gòu)建模型(6)模型評估。明確目標這是數(shù)據(jù)分析與挖掘的第一步,即明確數(shù)據(jù)分析的對象、目標、或任務(wù)。此環(huán)節(jié)應(yīng)該跟業(yè)務(wù)需求方多次溝通與合作,把握最終要解決的問題。規(guī)劃哪些數(shù)據(jù)可能會影響到這些問題的答案,這一步就稱為數(shù)據(jù)的獲取過程。數(shù)據(jù)獲取數(shù)據(jù)清洗為確保數(shù)據(jù)分析或挖掘結(jié)果的準確性,往往需要對數(shù)據(jù)做一些基本的清洗和整理,如數(shù)據(jù)的一致性檢驗、缺失值和異常值的處理等。特征工程通過Scipy、Pandas、Sklearn等分析庫對數(shù)據(jù)進行統(tǒng)一量綱等標準化處理,對數(shù)據(jù)進行離散化處理,采用啞變量、獨熱編碼進行數(shù)據(jù)重編碼,實施特征工程。模型評估通常情況下,在模型搭建好后,并不意味著分析或挖掘任務(wù)的結(jié)束,還需要對模型的擬合效果做評估,其目的就是不斷優(yōu)化模型,使最終的模型能夠更好地反映數(shù)據(jù)的真實性。構(gòu)建模型建模的目的主要是為了預(yù)測,例如使用線性回歸模型預(yù)測產(chǎn)品的銷售額;利用決策樹模型預(yù)測用戶是否具有欺詐行為;利用樸素貝葉斯模型預(yù)測郵件是否為垃圾郵件。Python數(shù)據(jù)分析庫庫名簡

介Numpy提供數(shù)組支持,以及相應(yīng)的高效處理函數(shù)Matplotlib強大的數(shù)據(jù)可視化工具、作圖庫Pandas強大的數(shù)據(jù)分析、數(shù)據(jù)處理和數(shù)據(jù)清洗工具seaborn數(shù)據(jù)可視化工具、作圖庫Scipy提供矩陣支持,以及矩陣相關(guān)的數(shù)值計算模塊sklearn經(jīng)典的機器學(xué)習(xí)庫NumpyNumPy是Python的數(shù)據(jù)分析的基本庫,是在Python的Numeric數(shù)據(jù)類型的基礎(chǔ)上,引入Scipy模塊中針對數(shù)據(jù)對象處理的功能,用于數(shù)值數(shù)組和矩陣類型的運算、矢量處理等。MatplotlibMatplotlib具有兩個重要的模塊——pylab和pyplot。Pylab實現(xiàn)了MATLAB的繪圖功能,就是MATLAB的Python版本。pyplot主要用于將NumPy統(tǒng)計結(jié)果可視化,可以繪制線圖、直方圖、餅圖、散點圖以及誤差線圖等各種圖形。Pandas

Pandas的名稱來源于面板數(shù)據(jù)(PanelData)和Python數(shù)據(jù)分析(DataAnalysis),作為Python進行數(shù)據(jù)分析和挖掘時的數(shù)據(jù)基礎(chǔ)平臺和事實上的工業(yè)標準,支持關(guān)系型數(shù)據(jù)的增、刪、改、查,具有豐富的數(shù)據(jù)處理函數(shù),支持時間序列分析功能,靈活處理缺失數(shù)據(jù)等。seabornSeaborn是圖形可視化python包,作為matplotlib的補充,在其基礎(chǔ)上進行了更高級的API封裝,高度兼容numpy與pandas數(shù)據(jù)結(jié)構(gòu)以及scipy等統(tǒng)計模式,能做出具有吸引力的圖。ScipyScipy是2001年發(fā)行的類似于Matlab和Mathematica等數(shù)學(xué)計算軟件的Python庫,用于統(tǒng)計、優(yōu)化、整合、線性代數(shù)模塊、傅里葉變換、信號和圖像處理等數(shù)值計算。scipy具有stats(統(tǒng)計學(xué)工具包)、erpolate(插值,線性的,三次方)、cluster(聚類)、signal(信號處理)等模塊。SklearnSklearn(又稱為scikit-learn)是簡單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,基于python語言的NumPy、SciPy和matplotlib庫之上,是當前較為流行的機器學(xué)習(xí)框架。數(shù)據(jù)分類定類數(shù)據(jù):表示個體在屬性上的特征和類別上的不同變量,只是一種標志,沒有次序關(guān)系,不可以直接測量的數(shù)據(jù)。如外貌,出生地等。定序數(shù)據(jù):表示個體在某個有序狀態(tài)中所處的位置,不能直接做四則運算。如學(xué)歷分為初中、高中、大學(xué)、碩士、博士等。定量數(shù)據(jù):定量數(shù)據(jù)又稱為定距數(shù)據(jù),具有間距特征的變量,可以直接測量的數(shù)據(jù),如身高、體重、氣溫等。數(shù)據(jù)統(tǒng)計量(1)極差極差又稱范圍誤差或全距,用來衡量指定變量間差異變化范圍,是最大值與最小值的差距,用于標志值變動的最大范圍。通常極差越大,樣本變化范圍越大。(2)平均數(shù)平均值用于測量數(shù)據(jù)集中趨勢,計算公式是所有數(shù)據(jù)之和除以數(shù)據(jù)的個數(shù)。數(shù)據(jù)統(tǒng)計量(3)中位數(shù)中位數(shù)是指將樣本數(shù)值集合劃分為數(shù)量相等或相差1的上下兩部分。對于有限的數(shù)集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數(shù)。如果觀察值有偶數(shù)個,通常取最中間的兩個數(shù)值的平均數(shù)作為中位數(shù)。(4)眾數(shù)眾數(shù)是樣本觀測值在頻數(shù)分布表中頻數(shù)最多的那組數(shù)。例如:1,2,2,2,3,3,4的眾數(shù)是2。如果所有數(shù)據(jù)出現(xiàn)的次數(shù)都一樣,那么這組數(shù)據(jù)沒有眾數(shù)。例如:1,2,3,4,5沒有眾數(shù)。數(shù)據(jù)統(tǒng)計量(5)方差方差是實際值與期望值之差平方的平均值,方差是在概率論和統(tǒng)計方差衡量隨機變量或一組數(shù)據(jù)是離散程度的度量。(6)協(xié)方差協(xié)方差用于衡量兩個變量的總體誤差,兩個變量是否相對它們各自平均值有一致行為。1)如果兩個變量同時處于平均值之上或之下,兩個變量就是正關(guān)聯(lián)性。2)如果兩個變量一個處于平均值之上,另一個處于平均值之下,就是負關(guān)聯(lián)性。當兩個變量相同時,協(xié)方差就是方差。數(shù)據(jù)統(tǒng)計量皮爾森相關(guān)系數(shù)度量兩個變量之間的相關(guān)程度其值介于-1與+1之間,表示兩變量存在一定程度的相關(guān),越接近1,兩變量間線性關(guān)系越密切;越接近于0,表示兩變量的線性相關(guān)越弱

數(shù)據(jù)可視化數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以統(tǒng)計圖表和圖形圖像形式呈現(xiàn),表現(xiàn)抽象或復(fù)雜的概念、技術(shù)和信息,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。數(shù)據(jù)可視化起源于1960年代計算機圖形學(xué),通過計算機創(chuàng)建圖形圖表,將數(shù)據(jù)的各種屬性和變量呈現(xiàn)出來,通過餅圖、直方圖、散點圖、柱狀圖等原始的統(tǒng)計圖表將數(shù)據(jù)可視化是最基礎(chǔ)和常見應(yīng)用。折線圖折線圖又名線形圖,或折線統(tǒng)計圖,是以折線的上升或下降表示數(shù)量變化的統(tǒng)計圖。折線圖不僅可以表示數(shù)量的多少,而且反映同一事物在不同時間里數(shù)據(jù)的變化趨勢。

餅圖餅圖屬于最傳統(tǒng)的統(tǒng)計圖形之一,通過各扇形面積的大小反映部分與部分,部分與總體的比例關(guān)系。但不擅長對比差異不大或水平值過多的離散型變量。散點圖散點圖又稱為散點分布圖,和折線圖需要的數(shù)組非常相似,區(qū)別是折線圖會將各數(shù)據(jù)點連接起來;而散點圖則只是描繪各數(shù)據(jù)點,并不會將這些數(shù)據(jù)點連接起來。直方圖直方圖又稱質(zhì)量分布圖,由一系列高度不等的縱向條紋和線段表示數(shù)據(jù)分布形態(tài),一般用橫軸表示數(shù)據(jù)所屬類別,縱軸表示數(shù)量或者占比。條形圖條形圖是統(tǒng)計圖資料分析中最常用的圖形,又名柱狀圖,可以清楚地表明各種數(shù)量的多少,用來描述各個類別之間的關(guān)系。箱線圖箱線圖又稱箱形圖或盒式圖,主要用于分析數(shù)據(jù)內(nèi)部的分布狀態(tài)或分散狀態(tài),不同于折線圖、柱狀圖或餅圖等傳統(tǒng)圖表只是數(shù)據(jù)大小、占比、趨勢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論