版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一章概論西華大學(xué)數(shù)據(jù)分析基礎(chǔ)與實(shí)踐數(shù)據(jù)分析
目錄Contents描述性數(shù)據(jù)分析探索性數(shù)據(jù)分析預(yù)測(cè)性數(shù)據(jù)分析撰寫(xiě)數(shù)據(jù)報(bào)告描述性數(shù)據(jù)分析一1描述性數(shù)據(jù)分析41描述性數(shù)據(jù)分析描述數(shù)據(jù)集中趨勢(shì)的指標(biāo)有:眾數(shù)、中位數(shù)、平均數(shù)(包含算數(shù)平均數(shù)、加權(quán)平均數(shù)、集合平均數(shù))和分位數(shù)。描述數(shù)據(jù)的離散程度的指標(biāo)有:方差、標(biāo)準(zhǔn)差、極差和平均差(數(shù)值型數(shù)據(jù));四分位差(順序數(shù)據(jù));異眾比率(分類數(shù)據(jù));離散系數(shù)(相對(duì)離散程度)描述數(shù)據(jù)分布形態(tài)的指標(biāo):偏態(tài)系數(shù)和峰態(tài)系數(shù)。51.1數(shù)據(jù)集中趨勢(shì)描述平均數(shù):算術(shù)平均數(shù)、加權(quán)平均數(shù)、幾何平均數(shù)61.1數(shù)據(jù)集中趨勢(shì)描述平均數(shù):算術(shù)平均數(shù)、加權(quán)平均數(shù)、幾何平均數(shù)71.1數(shù)據(jù)集中趨勢(shì)描述眾數(shù)、中位數(shù)和分位數(shù)上述代碼執(zhí)行之后即會(huì)輸出a中的眾數(shù)2。中位數(shù)是指,將集合中所有的數(shù)值按照數(shù)值從低到高(或從高到低)進(jìn)行排序,處于最中間的一個(gè)數(shù)就是中位數(shù),如果中間有兩個(gè)數(shù),則中位數(shù)為這兩個(gè)數(shù)的算術(shù)平均值。和算數(shù)平均數(shù)相比,中位數(shù)不受極端值的影響。分位數(shù)和中位數(shù)類似,都是從數(shù)值所處的位置來(lái)說(shuō)的,比如四分位數(shù)是指,把所有數(shù)值按由小到大排序分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)就是四分位數(shù)。中位數(shù)是一個(gè)特殊的四分位數(shù)。在Python中可以直接利用describe()方法來(lái)查看中位數(shù)和三個(gè)四分位數(shù)。如圖8-2所示,50%那一行即為中位數(shù),而25%、50%、75%對(duì)應(yīng)的即為三個(gè)四分位數(shù)。81.2數(shù)據(jù)離散程度描述數(shù)值型數(shù)據(jù)針對(duì)數(shù)值型數(shù)據(jù),通??梢杂脴O差、平均偏差、方差和標(biāo)準(zhǔn)差以及離散系數(shù)來(lái)描述其離散程度。極差是指數(shù)據(jù)集中最大值與最小值的差,也成為全距。極差容易受到極值的影響,對(duì)離散程度的描述不夠準(zhǔn)確。平均偏差是指所有數(shù)值與平均值之間的差的算術(shù)平均值,它描述了所有數(shù)值與平均值之間的平均偏差距離,可以由以下公式計(jì)算:91.2數(shù)據(jù)離散程度描述數(shù)值型數(shù)據(jù)方差又包括了總體方差和樣本方差,其計(jì)算公式分別如下??傮w方差為:樣本方差為:
通常會(huì)用樣本方差來(lái)估計(jì)總體方差。標(biāo)準(zhǔn)差就是方差的平方根;方差/標(biāo)準(zhǔn)差越大,數(shù)據(jù)的離中趨勢(shì)越大。離散系數(shù),又稱為變異系數(shù),是一種對(duì)數(shù)據(jù)集相對(duì)離散程度的衡量,當(dāng)兩個(gè)數(shù)據(jù)集合的算數(shù)平均值不同,但方差和標(biāo)準(zhǔn)差相等時(shí),可以用離散系數(shù)來(lái)衡量數(shù)據(jù)集合的離散程度。樣本離散系數(shù)的計(jì)算公式如下:101.2數(shù)據(jù)離散程度描述順序數(shù)據(jù):對(duì)于已經(jīng)排好序的有序數(shù)據(jù),可以用四分位差來(lái)描述其離散程度。對(duì)于按照數(shù)值從小到大排好序的有序數(shù)據(jù),排在四分之一位置的數(shù)值就是第一四分位數(shù),排在四分之二位置即第二四分位數(shù),排在四分之三位置就是第三四分位數(shù),很顯然,第二四分位數(shù)即為中位數(shù)。四分位差即為第三四分位數(shù)和第一四分位數(shù)之間的差值,這個(gè)差值區(qū)間包含了整個(gè)數(shù)據(jù)集合的50%的數(shù)據(jù)。分類數(shù)據(jù):對(duì)于分類數(shù)據(jù),可以使用異眾比率描述其離散程度。異眾比率是指總體中非眾數(shù)次數(shù)與總體全部次數(shù)的比值,也即非眾數(shù)組的頻數(shù)占總頻數(shù)的比例。111.3數(shù)據(jù)分布形態(tài)對(duì)于數(shù)據(jù)分布形態(tài),可以通過(guò)偏態(tài)系數(shù)和峰態(tài)系數(shù)進(jìn)行描述。偏態(tài)系數(shù)用來(lái)判斷數(shù)據(jù)集合的分布形態(tài)是否對(duì)稱,當(dāng)偏態(tài)系數(shù)等于0時(shí),數(shù)據(jù)為對(duì)稱分布;偏態(tài)系數(shù)小于0時(shí),左偏分布,長(zhǎng)尾拖在左邊;偏態(tài)系數(shù)大于0時(shí),右偏分布,長(zhǎng)尾拖在右邊。峰態(tài)系數(shù)用于描述單峰分布曲線的峰度高低和陡峭程度,峰態(tài)系數(shù)和單峰分布形態(tài)之間的關(guān)系為:當(dāng)峰態(tài)系數(shù)等于3時(shí),代表分布曲線是偏平程度適中的常峰態(tài)(正態(tài)分布的峰形就是常峰態(tài));當(dāng)峰態(tài)系數(shù)小于3時(shí),分布曲線是低峰態(tài);當(dāng)峰態(tài)系數(shù)大于3時(shí),分布曲線是尖峰態(tài)。121.4案例13探索性數(shù)據(jù)分析二2.1探索性分析常用圖形及用法15圖形應(yīng)用場(chǎng)景用法直方圖探索變量的分布規(guī)律sns.distplot(data)條形圖反映數(shù)值變量的集中趨勢(shì)以及置信區(qū)間sns.barplot(x,y,data)計(jì)數(shù)圖觀察每個(gè)類別的具體數(shù)量sns.countplot(x,data)散點(diǎn)圖觀察整體數(shù)據(jù)的分布規(guī)律sns.stripplot(x,y,data)/sns.swarmplot(x,y,data)箱線圖表示數(shù)據(jù)的分散情況,顯示極值、中位數(shù)等sns.boxplot(x,y,data)提琴圖展示分位數(shù)的位置及數(shù)據(jù)的密度分布sns.violinplot(x,y,data)回歸圖尋找數(shù)據(jù)之間的線性關(guān)系sns.reglot(x,y,data)/sns.lmplot(x,y,data)熱力圖通過(guò)顏色深淺表示數(shù)值的大小或者相關(guān)性的高低f=flights.pivot(’字段1’,’字段2’,’字段3’)sns.heatmap(f)2.2案例分析——泰坦尼克號(hào)數(shù)據(jù)集16詳見(jiàn)Jupyter中的代碼預(yù)測(cè)性數(shù)據(jù)分析三3預(yù)測(cè)性數(shù)據(jù)分析預(yù)測(cè)性的數(shù)據(jù)分析主要用于根據(jù)已有的數(shù)據(jù)對(duì)未來(lái)的數(shù)據(jù)或發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),比如根據(jù)歷史銷售數(shù)據(jù)預(yù)測(cè)未來(lái)某段時(shí)間的銷售情況,比如通過(guò)用戶數(shù)據(jù)預(yù)測(cè)未來(lái)用戶的行為等,預(yù)測(cè)性分析稍難,越深入會(huì)涉及更多數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的知識(shí)。對(duì)于預(yù)測(cè)性數(shù)據(jù)分析,主要有回歸、分類以及聚類三種基本的算法模型。其中回歸模型又包括一元線性回歸、多元線性回歸和邏輯回歸等。分類常用模型有決策樹(shù)、樸素貝葉斯以及KNN等。聚類有基于劃分的聚類方法、基于密度的聚類方法以及基于層次的聚類方法等。在Python中實(shí)現(xiàn)以上模型常用到機(jī)器學(xué)習(xí)庫(kù)Scikit-learn,可以方便的進(jìn)行模型的調(diào)用,參數(shù)設(shè)置,同時(shí)提供了一些公開(kāi)的數(shù)據(jù)集。183預(yù)測(cè)性數(shù)據(jù)分析回歸分析是一種預(yù)測(cè)性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測(cè)器)之間的關(guān)系。和分類問(wèn)題不同,分類問(wèn)題需要得到離散的分類結(jié)果,而回歸問(wèn)題則需要獲得連續(xù)的變化曲線。線性回歸是回歸分析方法中的一種,首先假定自變量和因變量之間的關(guān)系是線性的,然后想辦法求得自變量和因變量之間的線性關(guān)系描述曲線(實(shí)際上是直線,為了便于統(tǒng)一,這里統(tǒng)稱為曲線)。線性回歸又分為一元線性回歸和多遠(yuǎn)線性回歸。一元回歸的主要任務(wù)是從兩個(gè)相關(guān)變量中的一個(gè)變量去估計(jì)另一個(gè)變量,被估計(jì)的目標(biāo)變量,稱因變量,可設(shè)為Y;用于估計(jì)的變量,稱自變量,設(shè)為X。多元線性回歸方法與一元線性回歸類似,其主要特點(diǎn)是,自變量不再是一個(gè)變量,而是由多于一個(gè)以上的變量作為自變量。193預(yù)測(cè)性數(shù)據(jù)分析案例:波士頓房?jī)r(jià)預(yù)測(cè)參見(jiàn)講解視頻和Jupyter代碼20撰寫(xiě)數(shù)據(jù)報(bào)告四4撰寫(xiě)數(shù)據(jù)報(bào)告22在撰寫(xiě)數(shù)據(jù)報(bào)告時(shí)有以下步驟:(1) 明確任務(wù)目標(biāo)。1) 確定最終的業(yè)務(wù)目的。2) 對(duì)問(wèn)題進(jìn)行拆分。3) 確定必要輸出的數(shù)據(jù)結(jié)果及分析結(jié)論。(2) 確定報(bào)告的邏輯。1) 根據(jù)問(wèn)題拆分結(jié)果進(jìn)行結(jié)構(gòu)化。2) 明確合理的講述邏輯。3) 根據(jù)邏輯進(jìn)行細(xì)化及補(bǔ)充。(3) 選擇合適的呈現(xiàn)形式。1) 選擇合適的數(shù)據(jù)。2) 選擇合適的圖表。3) 整體報(bào)告的設(shè)計(jì)美化。4撰寫(xiě)數(shù)據(jù)報(bào)告23在寫(xiě)分析報(bào)告時(shí),有一些一定要注意的地方:(1)一定要有框架,最簡(jiǎn)單的就是以問(wèn)題拆分的邏輯來(lái)進(jìn)行搭建,在每個(gè)分支進(jìn)行內(nèi)容填充,分點(diǎn)說(shuō)明;(2)數(shù)據(jù)的選擇不要過(guò)于片面,要多元化,進(jìn)行對(duì)比分析,否則結(jié)論可能有失偏頗。數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 上半年教師資格考試《中學(xué)綜合素質(zhì)》真題及答案
- 2024-2030年中國(guó)婚慶策劃市場(chǎng)競(jìng)爭(zhēng)力分析發(fā)展策略研究報(bào)告
- 2024-2030年中國(guó)地板抹布融資商業(yè)計(jì)劃書(shū)
- 2024-2030年中國(guó)四連體無(wú)塵服商業(yè)計(jì)劃書(shū)
- 2024年版施工勞務(wù)非材料供應(yīng)承包合同版
- 2024年版零售商墊資協(xié)議樣式版B版
- 2024年三舊改造建設(shè)項(xiàng)目合作協(xié)議書(shū)范本-智慧城市配套3篇
- 2024年小學(xué)二年級(jí)數(shù)學(xué)(北京版)-萬(wàn)以內(nèi)數(shù)的加減法(二)-1教案
- 洛陽(yáng)職業(yè)技術(shù)學(xué)院《視頻編輯》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年德州貨運(yùn)從業(yè)資格模擬考試題
- 山東2023泰安銀行春季校園招聘25人上岸提分題庫(kù)3套【500題帶答案含詳解】
- GB/T 11446.9-2013電子級(jí)水中微粒的儀器測(cè)試方法
- GB 8537-2018食品安全國(guó)家標(biāo)準(zhǔn)飲用天然礦泉水
- GB 31247-2014電纜及光纜燃燒性能分級(jí)
- 斯倫貝謝智能完井工具介紹
- 百詞斬-定語(yǔ)從句課件-(;)
- 珍惜時(shí)間主題班會(huì)-做時(shí)間的主人課件
- 市政工程施工總體部署
- 護(hù)士準(zhǔn)入申請(qǐng)表
- 三年級(jí)上冊(cè)英語(yǔ)課件-Unit3 Look at me-人教(PEP) (6)(共30張PPT)
- 糖皮質(zhì)激素在呼吸科的應(yīng)用課件
評(píng)論
0/150
提交評(píng)論