




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第一章概論西華大學數(shù)據(jù)分析基礎與實踐數(shù)據(jù)分析
目錄Contents描述性數(shù)據(jù)分析探索性數(shù)據(jù)分析預測性數(shù)據(jù)分析撰寫數(shù)據(jù)報告描述性數(shù)據(jù)分析一1描述性數(shù)據(jù)分析41描述性數(shù)據(jù)分析描述數(shù)據(jù)集中趨勢的指標有:眾數(shù)、中位數(shù)、平均數(shù)(包含算數(shù)平均數(shù)、加權平均數(shù)、集合平均數(shù))和分位數(shù)。描述數(shù)據(jù)的離散程度的指標有:方差、標準差、極差和平均差(數(shù)值型數(shù)據(jù));四分位差(順序數(shù)據(jù));異眾比率(分類數(shù)據(jù));離散系數(shù)(相對離散程度)描述數(shù)據(jù)分布形態(tài)的指標:偏態(tài)系數(shù)和峰態(tài)系數(shù)。51.1數(shù)據(jù)集中趨勢描述平均數(shù):算術平均數(shù)、加權平均數(shù)、幾何平均數(shù)61.1數(shù)據(jù)集中趨勢描述平均數(shù):算術平均數(shù)、加權平均數(shù)、幾何平均數(shù)71.1數(shù)據(jù)集中趨勢描述眾數(shù)、中位數(shù)和分位數(shù)上述代碼執(zhí)行之后即會輸出a中的眾數(shù)2。中位數(shù)是指,將集合中所有的數(shù)值按照數(shù)值從低到高(或從高到低)進行排序,處于最中間的一個數(shù)就是中位數(shù),如果中間有兩個數(shù),則中位數(shù)為這兩個數(shù)的算術平均值。和算數(shù)平均數(shù)相比,中位數(shù)不受極端值的影響。分位數(shù)和中位數(shù)類似,都是從數(shù)值所處的位置來說的,比如四分位數(shù)是指,把所有數(shù)值按由小到大排序分成四等份,處于三個分割點位置的數(shù)就是四分位數(shù)。中位數(shù)是一個特殊的四分位數(shù)。在Python中可以直接利用describe()方法來查看中位數(shù)和三個四分位數(shù)。如圖8-2所示,50%那一行即為中位數(shù),而25%、50%、75%對應的即為三個四分位數(shù)。81.2數(shù)據(jù)離散程度描述數(shù)值型數(shù)據(jù)針對數(shù)值型數(shù)據(jù),通常可以用極差、平均偏差、方差和標準差以及離散系數(shù)來描述其離散程度。極差是指數(shù)據(jù)集中最大值與最小值的差,也成為全距。極差容易受到極值的影響,對離散程度的描述不夠準確。平均偏差是指所有數(shù)值與平均值之間的差的算術平均值,它描述了所有數(shù)值與平均值之間的平均偏差距離,可以由以下公式計算:91.2數(shù)據(jù)離散程度描述數(shù)值型數(shù)據(jù)方差又包括了總體方差和樣本方差,其計算公式分別如下??傮w方差為:樣本方差為:
通常會用樣本方差來估計總體方差。標準差就是方差的平方根;方差/標準差越大,數(shù)據(jù)的離中趨勢越大。離散系數(shù),又稱為變異系數(shù),是一種對數(shù)據(jù)集相對離散程度的衡量,當兩個數(shù)據(jù)集合的算數(shù)平均值不同,但方差和標準差相等時,可以用離散系數(shù)來衡量數(shù)據(jù)集合的離散程度。樣本離散系數(shù)的計算公式如下:101.2數(shù)據(jù)離散程度描述順序數(shù)據(jù):對于已經排好序的有序數(shù)據(jù),可以用四分位差來描述其離散程度。對于按照數(shù)值從小到大排好序的有序數(shù)據(jù),排在四分之一位置的數(shù)值就是第一四分位數(shù),排在四分之二位置即第二四分位數(shù),排在四分之三位置就是第三四分位數(shù),很顯然,第二四分位數(shù)即為中位數(shù)。四分位差即為第三四分位數(shù)和第一四分位數(shù)之間的差值,這個差值區(qū)間包含了整個數(shù)據(jù)集合的50%的數(shù)據(jù)。分類數(shù)據(jù):對于分類數(shù)據(jù),可以使用異眾比率描述其離散程度。異眾比率是指總體中非眾數(shù)次數(shù)與總體全部次數(shù)的比值,也即非眾數(shù)組的頻數(shù)占總頻數(shù)的比例。111.3數(shù)據(jù)分布形態(tài)對于數(shù)據(jù)分布形態(tài),可以通過偏態(tài)系數(shù)和峰態(tài)系數(shù)進行描述。偏態(tài)系數(shù)用來判斷數(shù)據(jù)集合的分布形態(tài)是否對稱,當偏態(tài)系數(shù)等于0時,數(shù)據(jù)為對稱分布;偏態(tài)系數(shù)小于0時,左偏分布,長尾拖在左邊;偏態(tài)系數(shù)大于0時,右偏分布,長尾拖在右邊。峰態(tài)系數(shù)用于描述單峰分布曲線的峰度高低和陡峭程度,峰態(tài)系數(shù)和單峰分布形態(tài)之間的關系為:當峰態(tài)系數(shù)等于3時,代表分布曲線是偏平程度適中的常峰態(tài)(正態(tài)分布的峰形就是常峰態(tài));當峰態(tài)系數(shù)小于3時,分布曲線是低峰態(tài);當峰態(tài)系數(shù)大于3時,分布曲線是尖峰態(tài)。121.4案例13探索性數(shù)據(jù)分析二2.1探索性分析常用圖形及用法15圖形應用場景用法直方圖探索變量的分布規(guī)律sns.distplot(data)條形圖反映數(shù)值變量的集中趨勢以及置信區(qū)間sns.barplot(x,y,data)計數(shù)圖觀察每個類別的具體數(shù)量sns.countplot(x,data)散點圖觀察整體數(shù)據(jù)的分布規(guī)律sns.stripplot(x,y,data)/sns.swarmplot(x,y,data)箱線圖表示數(shù)據(jù)的分散情況,顯示極值、中位數(shù)等sns.boxplot(x,y,data)提琴圖展示分位數(shù)的位置及數(shù)據(jù)的密度分布sns.violinplot(x,y,data)回歸圖尋找數(shù)據(jù)之間的線性關系sns.reglot(x,y,data)/sns.lmplot(x,y,data)熱力圖通過顏色深淺表示數(shù)值的大小或者相關性的高低f=flights.pivot(’字段1’,’字段2’,’字段3’)sns.heatmap(f)2.2案例分析——泰坦尼克號數(shù)據(jù)集16詳見Jupyter中的代碼預測性數(shù)據(jù)分析三3預測性數(shù)據(jù)分析預測性的數(shù)據(jù)分析主要用于根據(jù)已有的數(shù)據(jù)對未來的數(shù)據(jù)或發(fā)展趨勢進行預測,比如根據(jù)歷史銷售數(shù)據(jù)預測未來某段時間的銷售情況,比如通過用戶數(shù)據(jù)預測未來用戶的行為等,預測性分析稍難,越深入會涉及更多數(shù)據(jù)挖掘、機器學習的知識。對于預測性數(shù)據(jù)分析,主要有回歸、分類以及聚類三種基本的算法模型。其中回歸模型又包括一元線性回歸、多元線性回歸和邏輯回歸等。分類常用模型有決策樹、樸素貝葉斯以及KNN等。聚類有基于劃分的聚類方法、基于密度的聚類方法以及基于層次的聚類方法等。在Python中實現(xiàn)以上模型常用到機器學習庫Scikit-learn,可以方便的進行模型的調用,參數(shù)設置,同時提供了一些公開的數(shù)據(jù)集。183預測性數(shù)據(jù)分析回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。和分類問題不同,分類問題需要得到離散的分類結果,而回歸問題則需要獲得連續(xù)的變化曲線。線性回歸是回歸分析方法中的一種,首先假定自變量和因變量之間的關系是線性的,然后想辦法求得自變量和因變量之間的線性關系描述曲線(實際上是直線,為了便于統(tǒng)一,這里統(tǒng)稱為曲線)。線性回歸又分為一元線性回歸和多遠線性回歸。一元回歸的主要任務是從兩個相關變量中的一個變量去估計另一個變量,被估計的目標變量,稱因變量,可設為Y;用于估計的變量,稱自變量,設為X。多元線性回歸方法與一元線性回歸類似,其主要特點是,自變量不再是一個變量,而是由多于一個以上的變量作為自變量。193預測性數(shù)據(jù)分析案例:波士頓房價預測參見講解視頻和Jupyter代碼20撰寫數(shù)據(jù)報告四4撰寫數(shù)據(jù)報告22在撰寫數(shù)據(jù)報告時有以下步驟:(1) 明確任務目標。1) 確定最終的業(yè)務目的。2) 對問題進行拆分。3) 確定必要輸出的數(shù)據(jù)結果及分析結論。(2) 確定報告的邏輯。1) 根據(jù)問題拆分結果進行結構化。2) 明確合理的講述邏輯。3) 根據(jù)邏輯進行細化及補充。(3) 選擇合適的呈現(xiàn)形式。1) 選擇合適的數(shù)據(jù)。2) 選擇合適的圖表。3) 整體報告的設計美化。4撰寫數(shù)據(jù)報告23在寫分析報告時,有一些一定要注意的地方:(1)一定要有框架,最簡單的就是以問題拆分的邏輯來進行搭建,在每個分支進行內容填充,分點說明;(2)數(shù)據(jù)的選擇不要過于片面,要多元化,進行對比分析,否則結論可能有失偏頗。數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國低蠕變高鋁格子磚數(shù)據(jù)監(jiān)測研究報告
- 2025━2030年智能卡門控演示裝置行業(yè)深度研究報告
- 2025━2030年健身閃光跳環(huán)行業(yè)深度研究報告
- 2025-2035年全球及中國磁系統(tǒng)行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025-2035年全球及中國SBC及其衍生品行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2024年中國罐頭制品市場調查研究報告
- 2025年瀝青試驗儀器項目發(fā)展計劃
- 2025年植物穩(wěn)態(tài)營養(yǎng)肥料項目發(fā)展計劃
- 拱橋:拱安裝工程現(xiàn)場質量檢驗報告單(三)
- 2025年飛機液壓檢查凈化設備項目合作計劃書
- 2025安徽省投資集團控股有限公司校園招聘34人筆試參考題庫附帶答案詳解
- 2025年新部編統(tǒng)編版中學七年級下冊歷史全冊分課知識點總結課件105張
- 2025年湖南科技職業(yè)學院單招職業(yè)技能測試題庫匯編
- 語文-浙江省寧波市慈溪市2024學年高二第一學期期末測試試題和答案
- 2025海南三亞政府雇員人才儲備庫招聘300人易考易錯模擬試題(共500題)試卷后附參考答案
- 植被重建施工方案
- 培養(yǎng)自律與自控能力主題班會
- 交替?zhèn)髯g課件外研社王丹
- 人教版(2024)八年級下冊物理第九章《壓強》第4節(jié) 跨學科實踐:制作簡易活塞式抽水機 教案
- 《餐飲業(yè)概述》課件 - 探索美食與服務之道
- 2024年黑龍江生態(tài)工程職業(yè)學院高職單招語文歷年參考題庫含答案解析
評論
0/150
提交評論