0-數(shù)據(jù)分析概述-(1)資料_第1頁
0-數(shù)據(jù)分析概述-(1)資料_第2頁
0-數(shù)據(jù)分析概述-(1)資料_第3頁
0-數(shù)據(jù)分析概述-(1)資料_第4頁
0-數(shù)據(jù)分析概述-(1)資料_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 數(shù) 據(jù) 分 析 山東交通學(xué)院 李曉燕數(shù)據(jù)分析先導(dǎo)課 大數(shù)據(jù)處理技術(shù)數(shù)學(xué)分析概率論與數(shù)理統(tǒng)計高等代數(shù)并行課后續(xù)課數(shù)據(jù)挖掘技術(shù) Matlab 及應(yīng)用數(shù)學(xué)模型與實驗 課程地位專業(yè)任選課/第4學(xué)期/56學(xué)時/3.5學(xué)分2022/9/9 內(nèi)容及學(xué)時安排 數(shù)據(jù)描述性分析 1023456 報告 2+2 7聚類分析 8 判別分析 8 主成分與典型相關(guān)分析 8回歸分析 12MABLAB基礎(chǔ) 812022/9/9參考資料MATLAB數(shù)據(jù)分析與應(yīng)用:40個案例分析(第2版),謝中華著,北京航空航天大學(xué)出版社;數(shù)據(jù)分析方法,梅長林、范金城編,高等教育出版社;應(yīng)用多元統(tǒng)計分析,高惠璇編,北京大學(xué)出版社;使用統(tǒng)計方法與

2、SAS系統(tǒng),高惠璇編,北京大學(xué)出版社;多元統(tǒng)計分析(二版),何曉群編,中國人民大學(xué)出版社;應(yīng)用回歸分析(二版),何曉群編,中國人民大學(xué)出版社;統(tǒng)計建模與R軟件,薛毅編著,清華大學(xué)出版社;應(yīng)用多元統(tǒng)計分析(第二版),沃爾夫?qū)?哈德勒,利奧波德.西馬著,陳詩一譯.2022/9/9參考資料2022/9/9考核方式考核:期末成績(閉卷考試+上機(jī)考試): 50%。平時成績(作業(yè)40%+考勤20%+報告40%):50%。課程作業(yè)(1)作業(yè)題目在網(wǎng)絡(luò)教學(xué)平臺公布,按格式要求,以電子版方式通過平臺提交。(2)每位學(xué)生應(yīng)保留每次作業(yè)備份直到課程結(jié)束。(3)雷同的作業(yè)均按0分計算。2022/9/9大報告:要求:(

3、1)調(diào)研,收集數(shù)據(jù);(2)數(shù)據(jù)處理;(3)選合適的數(shù)學(xué)模型建模;(4)2-3人一組,寫一篇大論文上交。做PPT匯報,10-20分鐘,提問2-3個問題。論文和答辯各占60、40分。老師占70%,學(xué)生30%。 2022/9/9目的要求:掌握各種方法的原理和應(yīng)用范圍,會建立模型;用Matlab等軟件進(jìn)行統(tǒng)計分析,熟悉輸出結(jié)果,進(jìn)行解釋。建議:理論應(yīng)用并重:理論重點(diǎn)是思路,應(yīng)用重點(diǎn)是實踐 重視練習(xí):多做練習(xí)加深理解,實際操作熟悉軟件 不缺課:內(nèi)容前后呼應(yīng),缺課不利學(xué)習(xí) “師傅領(lǐng)進(jìn)門,修行在個人” 。2022/9/9數(shù)據(jù)分析概述2 課程體系及應(yīng)用1 數(shù)據(jù)分析的概念3 統(tǒng)計學(xué)產(chǎn)生及發(fā)展5 數(shù)據(jù)的分布4 常

4、用軟件及應(yīng)用2022/9/9你想過下面的問題嗎?如何根據(jù)抽樣數(shù)據(jù)研究該年級學(xué)生的學(xué)習(xí)成績?用各科成績總和作為綜合指標(biāo),比較成績差異;根據(jù)各科成績相近程度對學(xué)生進(jìn)行分類(文科成績好與理科好);研究各科成績間關(guān)系(物理與數(shù)學(xué)成績,文科與理科成績).某年級抽6名學(xué)生5 門課期末成績序號 政治 語文 外語 數(shù)學(xué) 物理 1 99 94 93 100 100 2 99 88 96 99 97 3 100 98 81 96 100 4 93 88 88 99 96 5 100 91 72 96 78 6 75 73 88 97 89數(shù)據(jù)分析是以各變量n次觀測組成的數(shù)據(jù)矩陣為依據(jù),依實際問題需要進(jìn)行分析數(shù)據(jù)矩

5、陣“數(shù)據(jù)!數(shù)據(jù)!數(shù)據(jù)!”、“我不能做無米之炊!”Sherlock福爾摩斯 概述2022/9/9 1 數(shù)據(jù)分析概述 1.1 數(shù)據(jù)分析的概念 數(shù)據(jù)分析:以數(shù)據(jù)為依據(jù),以統(tǒng)計方法為理論、計算機(jī)及統(tǒng)計軟件為工具,挖掘數(shù)據(jù)統(tǒng)計規(guī)律。 通過收集數(shù)據(jù)-整理數(shù)據(jù)-分析數(shù)據(jù),提取有用信息并形成結(jié)論,最大化發(fā)揮數(shù)據(jù)資料的功能和發(fā)揮作用。2022/9/9數(shù)據(jù)分析研究的過程確定目標(biāo) 1 概述2022/9/91.2 數(shù)據(jù)的來源與分類搜集渠道一手?jǐn)?shù)據(jù) 專門調(diào)查或試驗直接得到二手?jǐn)?shù)據(jù) 媒體、機(jī)構(gòu)發(fā)布間接得到收集方式觀測數(shù)據(jù) 不可控制條件下被動收集試驗數(shù)據(jù) 可控條件下主動收集數(shù)據(jù)維度時間序列數(shù)據(jù)按時間順序收集的數(shù)據(jù),時間維度

6、橫截面數(shù)據(jù)同一時間點(diǎn)不同對象的數(shù)據(jù),個體維度1 概述2022/9/9 2 課程體系及應(yīng)用 大部分學(xué)科都涉及數(shù)據(jù)分析工作,因此數(shù)據(jù)分析幾乎可與任一學(xué)科結(jié)合起來。 如生物統(tǒng)計(biostatistics)、經(jīng)濟(jì)計量學(xué)(econometrics)、生物信息(bioinformation)和數(shù)據(jù)挖掘(Data Mining)的方法主體都是統(tǒng)計。2022/9/9概率統(tǒng)計描述性分析參數(shù)估計假設(shè)檢驗方差分析回歸分析典型相關(guān)分析主成分分析典型相關(guān)分析聚類分析判別分析多元統(tǒng)計的理論基礎(chǔ)多元數(shù)據(jù)的統(tǒng)計推斷變量間的相互關(guān)系簡化數(shù)據(jù)結(jié)構(gòu)(降維問題)分類與判別(歸類問題)課 程 體 系2022/9/9 數(shù)據(jù)分析的應(yīng)用

7、1.教育學(xué)7.服裝工業(yè)2.醫(yī)學(xué)8.經(jīng)濟(jì)學(xué)3.氣象學(xué)9.農(nóng)業(yè)4.環(huán)境科學(xué)10.社會科學(xué)5.考古地質(zhì)11.文學(xué)6.生物學(xué)12.其他基因鑒定種群分類成績預(yù)測 分類排名診斷病例藥物研究天氣預(yù)報災(zāi)情預(yù)防環(huán)境監(jiān)測 污染治理礦產(chǎn)預(yù)測考古斷代服裝設(shè)計型號確定灌區(qū)分類品種篩選信用評價經(jīng)濟(jì)決策青少年犯罪研究 虛詞頻數(shù)鑒定作品交通體育軍事心理學(xué)3.氣象學(xué)-天氣預(yù)報雷達(dá)圖2022/9/94.環(huán)境科學(xué)-分析污染氣體濃度,布局監(jiān)測點(diǎn),污染治理.5.處理地質(zhì)觀測數(shù)據(jù),進(jìn)行礦產(chǎn)預(yù)測、構(gòu)造解釋、工程勘探等.2022/9/9 應(yīng)用案例及選題參考美國選舉例子:誰會在1936選舉中獲勝 ?Alf London還是 F.D.R.(羅斯

8、福)? Literary Digest (文摘)送出一千萬份問卷(返回二百四十萬份)后,預(yù)測London會贏. 而Gallop(蓋洛普)只問了5000人說 Roosevelt (羅斯福)會贏. 最后羅斯福和蓋洛普都贏了.文摘倒閉了.2022/9/9大學(xué)排名:非常敏感的問題。不同機(jī)構(gòu)得出不同結(jié)果;如何理解這些結(jié)果呢?如何對學(xué)生成績進(jìn)行綜合評價?-主成分公司信用評價:一些公司試圖得到貸款時無不良記錄。如何根據(jù)它們的財務(wù)和商業(yè)資料來判斷一個公司的信用等級呢?我國東部和西部概念比較籠統(tǒng)。如何選擇一些指標(biāo)來把各省,或各市縣甚至村進(jìn)行分類呢?DNA鑒定、蝴蝶的分類-聚類分析如何才能夠客觀得到電視節(jié)目收視率

9、,以確定廣告價格是否合理呢?確定紅樓夢前四十和后四十回是否曹雪芹一人寫?2 課程體系及應(yīng)用2022/9/9高中成績和大學(xué)成績是否密切相關(guān)?地震與油價上漲有關(guān)嗎?-相關(guān)分析水質(zhì)污染和那些因素有關(guān)?如何確定重金屬污染源?-回歸如何設(shè)計調(diào)查問卷,收集數(shù)據(jù),調(diào)查大學(xué)生喜歡的手機(jī)品牌?電影票房影響因素有哪些?客戶流失分析2 課程體系及應(yīng)用2022/9/9社會經(jīng)濟(jì)統(tǒng)計數(shù)理統(tǒng)計政治算術(shù)國勢學(xué)派最早流派之一。創(chuàng)始人德國康令(H.Conring 1606-81)和阿享瓦爾(G.Achenwall 171972).采用文字記述形式,把重要事項系統(tǒng)整理羅列(報表).創(chuàng)始人格朗特(J.Graunt 162074)和威

10、廉.配第(W.Petty 1623-87)。主張以數(shù)字、重量和尺度來說話,用圖表形式概括數(shù)字資料.創(chuàng)始人比利時凱特勒(L.A.J.Quetelet 1796-74),產(chǎn)生19世紀(jì)中,把概率論引進(jìn)統(tǒng)計學(xué),為統(tǒng)計數(shù)量分析奠定數(shù)理基礎(chǔ)(數(shù)學(xué)統(tǒng)計學(xué)院).代表人恩格爾(1821-96)和梅爾(1841-1925).19世紀(jì)后興起德國,融會國勢和政治算術(shù)學(xué)派觀點(diǎn),把政府統(tǒng)計和社會調(diào)查融合起來,形成社會經(jīng)濟(jì)統(tǒng)計學(xué),影響較大.(經(jīng)濟(jì)管理學(xué)院).3 統(tǒng)計學(xué)的發(fā)展與其他學(xué)科關(guān)系統(tǒng)計學(xué)的產(chǎn)生:17世紀(jì)中葉,英國威廉配第政治算術(shù)問世. 2022/9/9 3 統(tǒng)計學(xué)的發(fā)展歷史上著名的統(tǒng)計學(xué)家Jacob Bernoull

11、i (伯努利)(1654-1705) Edmond Halley (哈雷) (1656-1742) De Moivre (棣莫弗) (1667-1754) Thomas Bayes (貝葉斯) (1702-1761)Leonhard Euler (歐拉) (1707-1783)Pierre Simon Laplace (拉普拉斯) (1749-1827)Adrien Marie Legendre (勒讓德) (1752-1833) Thomas Robert Malthus (馬爾薩斯) (1766-1834)Friedrich Gauss (高斯) (1777-1855)Johann Gre

12、gor Mendel (孟德爾) (1822-1884)Karl Pearson (皮爾遜) (1857-1936)Ronald Aylmer Fisher (費(fèi)希爾) (1890-1962)Jerzy Neyman(奈曼) (1894-1981)Egon Sharpe Pearson (皮爾遜) (1895-1980)William Feller (費(fèi)勒)(1906-1970).C.R. 勞教授(1920-)Thomas Robert Malthus (馬爾薩斯)Pierre Simon Laplace (拉普拉斯)Leonhard Euler (歐拉)Friedrich Gauss (高斯

13、)Johann Gregor Mendel (孟德爾)2022/9/9統(tǒng)計學(xué)與數(shù)學(xué)的關(guān)系數(shù)學(xué)思維以演繹為主 每個人都要死的蘇格拉底是人所以蘇格拉底要死的 -數(shù)學(xué)的思維過程統(tǒng)計各領(lǐng)域利用幾乎所有數(shù)學(xué);但統(tǒng)計本身的數(shù)學(xué)為具體目標(biāo)服務(wù),一般不形成數(shù)學(xué)體系。統(tǒng)計以歸納為主,兼有演繹路口每過去20輛小轎車,有100輛自行車通過平均每10個轎車載12于是你認(rèn)為小轎車和自行車在路口運(yùn)載能力為24:100 -典型的統(tǒng)計思維過程2022/9/9統(tǒng)計學(xué)與計算機(jī)的關(guān)系最初計算機(jī)僅僅是為科學(xué)計算而設(shè)計和建造的。統(tǒng)計是大型計算機(jī)最早用戶,由于統(tǒng)計和數(shù)據(jù)打交道,沒有計算機(jī)的發(fā)展統(tǒng)計就沒有前途.計算機(jī)和統(tǒng)計的發(fā)展相輔相成2

14、022/9/9統(tǒng)計學(xué)與數(shù)據(jù)挖掘的關(guān)系統(tǒng)計學(xué)內(nèi)容上假設(shè)檢驗和參數(shù)估計時間上統(tǒng)計學(xué)是經(jīng)典學(xué)科。研究優(yōu)勢統(tǒng)計學(xué)科的數(shù)據(jù)挖掘側(cè)重于算法理論和技術(shù)應(yīng)用數(shù)據(jù)挖掘內(nèi)容上分析數(shù)據(jù)中的結(jié)構(gòu)、模式并產(chǎn)生特定形式的信息,是統(tǒng)計學(xué)的補(bǔ)充和擴(kuò)展。時間上計算機(jī)和大數(shù)據(jù)催生的新學(xué)科研究優(yōu)勢計算機(jī)學(xué)科的數(shù)據(jù)挖掘側(cè)重算法開發(fā)和軟件實現(xiàn)都是數(shù)據(jù)分析處理技術(shù)。依托學(xué)科背景,從各自優(yōu)勢角度做同一件事2022/9/9ExcelSPSSRMATLABSAS數(shù)據(jù)分析功能強(qiáng)大,統(tǒng)計分析領(lǐng)域巨無霸。全球100強(qiáng)91家用SAS。需一定編程技術(shù),價高科學(xué)計算以編程為主軟件,應(yīng)用廣泛,有統(tǒng)計包。免費(fèi)開源,編程方便,可從網(wǎng)上下載軟件包和程序。學(xué)統(tǒng)計用

15、的多,主要問題沒有“傻瓜化”易操作,功能全,價格低。非統(tǒng)計工作者的選擇數(shù)據(jù)表格軟件,畫圖和簡單統(tǒng)計分析功能(需裝數(shù)據(jù)分析功能) 4 常用統(tǒng)計軟件介紹python面向?qū)ο?、解釋型程序設(shè)計語言,開源軟件,語法簡潔,能把其他語言模塊(C+)結(jié)合。應(yīng)用于處理系統(tǒng)管理任務(wù)和Web編程。2022/9/9FORTRANGAUSSEviewsS-PLUSArcGis地理信息處理軟件,空間統(tǒng)計分析Minitab、Statistica:功能強(qiáng)大齊全,“傻瓜化”, 不普遍。處理回歸和時間序列的軟件應(yīng)用廣、歷史長、速度快、功能強(qiáng)、有統(tǒng)計包。需編程,操作不易。 4 常用統(tǒng)計軟件介紹搞經(jīng)濟(jì)的喜歡,編程強(qiáng)。中國用的不多28

16、2022/9/95 常見的參數(shù)分布及數(shù)字特征292022/9/9X為一維總體,分布函數(shù) 5.1 一維總體分布302022/9/9(1)正態(tài)分布(2)對數(shù)正態(tài)分布 .密度背景:如一變量可看成許多獨(dú)立因子之積,近似正態(tài)分布.如股票投資長益可看成每天收益率的乘積. 5.2 常用的參數(shù)分布類型312022/9/9(3)指數(shù)分布 背景:產(chǎn)品失效是偶然失效時,壽命服從指數(shù)分布,失效率與時間無關(guān).從任一時刻算壽命服從相同指數(shù)分布.(4)Gamma分布 背景:表示早期、偶發(fā)、耗損失效等不同壽命分布,比指數(shù)、正態(tài)分布更具普遍性。適用于各種形式的分布., , 322022/9/9(5)Weibull分布 (6)B

17、eta分布 背景:瑞典物理學(xué)家Wallodi Weibull于1939年引進(jìn),是可靠性分析及壽命檢驗的理論基礎(chǔ).背景:取值在一有限區(qū)間的分布,可當(dāng)作取值在區(qū)間總體的概率模式.332022/9/9其它分布舉例 , 分布: 分布: 分布: 樣本342022/9/9抽樣分布二項分布: 泊松分布: 均勻分布: , 分布: 分布: 分布: 352022/9/95.1 一維總體分布總體p分位數(shù) 數(shù)字特征 2022/9/9置信區(qū)間-置信區(qū)間2022/9/9復(fù)習(xí)概率論與數(shù)理統(tǒng)計知識1.分布函數(shù)、概率密度2.常見分布F、t、正態(tài)分布密度3.數(shù)字特征 期望、方差4.置信區(qū)間2022/9/91.1.2 多元統(tǒng)計分析

18、研究內(nèi)容和方法 1.多元統(tǒng)計的理論基礎(chǔ)多維隨機(jī)向量及多維正態(tài)隨機(jī)向量及由此定義的各種多元統(tǒng)計量,推導(dǎo)其分布并研究性質(zhì)、抽樣分布理論概率論與數(shù)理統(tǒng)計、數(shù)據(jù)描述性分析.2.多元數(shù)據(jù)的統(tǒng)計推斷參數(shù)估計和假設(shè)檢驗問題.特別是多元正態(tài)分布的均值向量及協(xié)方差陣的估計和假設(shè)檢驗等問題數(shù)據(jù)描述性分析等.3.變量間的相互關(guān)系1)相互依賴關(guān)系:分析一或多個變量是否依賴于另一些變量的變化,建立變量間定量關(guān)系式,用于預(yù)測或控制回歸分析,方差分析.2)兩組變量間關(guān)系:分析兩組變量間相互關(guān)系典型相關(guān)分析.4.簡化數(shù)據(jù)結(jié)構(gòu)(降維問題)通過變換將相關(guān)變量變?yōu)椴幌嚓P(guān)的;高維數(shù)據(jù)投影到低維空間,簡化問題又不損失太多信息主成分分析

19、、因子分析、典型相關(guān)分析.5.分類與判別(歸類問題)將考察變量或樣品按相似程度分類聚類分析、判別分析.2022/9/9 多元統(tǒng)計分析的應(yīng)用及選題參考1.教育學(xué)學(xué)生成績分析和預(yù)測.由高考成績和高中成績關(guān)系,預(yù)測高考成績;按成績進(jìn)行分類(按文理科,總成績),排名.2.醫(yī)學(xué)根據(jù)檢查數(shù)據(jù)或病例資料診斷病例.3.氣象學(xué)由氣象站資料(雨量,氣溫,氣壓,濕度,風(fēng)速等)做統(tǒng)計分析,進(jìn)行天氣預(yù)報.4.環(huán)境科學(xué)分析污染氣體濃度,布局監(jiān)測點(diǎn),污染治理.5.地質(zhì)、考古學(xué)處理地質(zhì)觀測數(shù)據(jù),進(jìn)行礦產(chǎn)預(yù)測、礦產(chǎn)構(gòu)造解釋、部署勘探工程??脊艛啻?6.休閑娛樂電影票房、購物網(wǎng)站.7.服裝工業(yè)抽樣調(diào)查人體幾十個部位尺寸數(shù)據(jù),進(jìn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論