版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)分析方法簡(jiǎn)介數(shù)據(jù)分析作圖法柱形圖和條形圖 折線圖和組合圖 餅圖和四象限散點(diǎn)圖 統(tǒng)計(jì)分析概率論描述性統(tǒng)計(jì)假設(shè)檢測(cè)方差分析回歸分析(一元)聚類分析K-mean支持向量機(jī)神經(jīng)網(wǎng)絡(luò)作圖法:柱形圖和條形圖
條形圖,兩個(gè)數(shù)據(jù)系列
疊加條形圖表2135408454
柱形圖
旋風(fēng)狀圖(水平堆疊圖)類別A類別B類別C類別D類別E類別F類別G類別H線性圖餅圖
四象限散點(diǎn)圖11.40511.50511.60511.70511.80511.90512.00512.10512.20512.30512.405頻數(shù)頻數(shù)直方圖統(tǒng)計(jì)分析:基礎(chǔ)概率學(xué)那么數(shù)據(jù)分布性質(zhì)平均數(shù)中位數(shù)眾數(shù)集中趨勢(shì)極差方差標(biāo)準(zhǔn)差離散趨勢(shì)偏態(tài)分布形態(tài)四分位差峰度描述統(tǒng)計(jì)分析平均數(shù)是將總體中所有個(gè)體的數(shù)量標(biāo)志差異抽象化,用以反映現(xiàn)象在一定時(shí)間、地點(diǎn)條件下的一般水平或代表性水平.對(duì)象:個(gè)體單位的數(shù)量差異;手段:將數(shù)量差異抽象化,即去差異;目的:反映各個(gè)個(gè)體現(xiàn)象數(shù)值的一般水平,代表性水平僅適用于定距變量。(單位數(shù)必須一樣)平均數(shù)將總體中的各個(gè)個(gè)體數(shù)值按照大小順序排列,居于中間位置的數(shù)值,便是中位數(shù)。中位數(shù)中位數(shù)它把觀察總數(shù)一分為二,其中一半具有比它小的變量值,另一半具有比它大的變量值。所以,中位值是數(shù)據(jù)序列之中央位置的值。是一種集中趨勢(shì)或平均指標(biāo)位于中間位置的數(shù)值如果數(shù)據(jù)為奇數(shù)項(xiàng),中位數(shù)是中間位置的數(shù)值如果數(shù)據(jù)為偶數(shù)項(xiàng),中位數(shù)是中間位置兩個(gè)數(shù)值的平均數(shù)是一種位置平均數(shù)不受總體中極值的影響中位數(shù)用具有頻數(shù)最多的值來表示變量的集中值。適用于任何層次的變量,只要知道頻次分布,就能找到眾值。因此,它最易求出,也特別適用于單峰對(duì)稱的情況。也是比較兩個(gè)分布是否相近首先要考慮的參數(shù)。對(duì)于多峰的圖形,由于眾值不唯一,用此法就不適當(dāng)了。眾數(shù)1.三值都是希望通過一個(gè)數(shù)值來描述整體特征,以便簡(jiǎn)化資料。都是反映了變量的集中趨勢(shì)。2.眾值僅使用于了資料中最大頻次數(shù),因此,資料使用是不完全的;中位值只考慮了變量的順序和居中位置,對(duì)不按序排序的數(shù),不在中位的數(shù)值的大或小反映不出來;均值既考慮到頻次,又考慮到變量值的大小,因此,反映最靈敏。3.雖然均值對(duì)資料信息利用最充分,但對(duì)嚴(yán)重偏態(tài)的分布,會(huì)失去它應(yīng)有的代表性。只對(duì)單峰和基本對(duì)稱的圖形,用均值作為集中趨勢(shì)才是合理的。對(duì)偏態(tài)的分布,應(yīng)使用中位值作為集中趨勢(shì)。眾數(shù)、中數(shù)和均數(shù)的比較對(duì)稱圖形偏態(tài)圖形偏態(tài)圖形眾值中位值均值眾值中位值均值眾值均值中位值偏態(tài)和三值的關(guān)系是測(cè)定總體中各個(gè)個(gè)體單位標(biāo)志值差異的變動(dòng)范圍或差異程度的指標(biāo)。離散趨勢(shì)測(cè)量的是數(shù)據(jù)的分散程度,就是樣本中最大值與最小值之差。反映標(biāo)志值的變動(dòng)范圍極差計(jì)算簡(jiǎn)便,易于理解,應(yīng)用普遍。極差=最大標(biāo)志值-最小標(biāo)志值極差一組數(shù)據(jù)中,各數(shù)據(jù)與它們的平均數(shù)的差的平方的平均數(shù)。方差一般步驟:求平均-再求差-然后平方-最后再平均計(jì)算公式:標(biāo)準(zhǔn)差是一組數(shù)值自平均值分散開來的程度的一種測(cè)量觀念。一個(gè)較大的標(biāo)準(zhǔn)差,代表大部分的數(shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。標(biāo)準(zhǔn)差理想的分布形態(tài)是對(duì)稱的,但在現(xiàn)實(shí)生活中,現(xiàn)象之分布并不完全對(duì)稱,而是或多或少地不同程度地存在著非對(duì)稱情況,在統(tǒng)計(jì)上將這個(gè)非對(duì)稱分布稱為偏態(tài)。表征概率分布密度曲線相對(duì)于平均值不對(duì)稱程度的特征數(shù)。偏度偏度如果偏度=0,則表明此分布為對(duì)稱分布;如果偏度<0,則表明此分布為左偏態(tài),此時(shí)數(shù)據(jù)位于均值左邊的比位于右邊的多;如果偏度>0,則表明此分布為右偏態(tài),此時(shí)數(shù)據(jù)位于均值右邊的比位于左邊的多;非對(duì)稱分布稱為偏態(tài)峰度峰度是表明一個(gè)次數(shù)分布陡峭或平緩的指標(biāo)。一個(gè)總體分布的峰度越大,分布形態(tài)便越陡峭,總體的數(shù)值便越集中一個(gè)總體分布峰度越小,分布形態(tài)便越平緩,總體的數(shù)值便越分散,差異便越用EXCEL進(jìn)行描述性統(tǒng)計(jì)工具——數(shù)據(jù)分析——描述統(tǒng)計(jì)檢驗(yàn)假設(shè)事先對(duì)總體參數(shù)或分布形式作出某種假設(shè)然后利用樣本信息來判斷原假設(shè)是否成立采用邏輯上的反證法,依據(jù)統(tǒng)計(jì)上的小概率原理假設(shè)檢驗(yàn)的基本思想提出原假設(shè)和備擇假設(shè)確認(rèn)適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)量規(guī)定顯著性水平計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值作出統(tǒng)計(jì)決策步驟顯著性水平與拒絕域未知總體方差—雙尾T檢驗(yàn)用EXCEL進(jìn)行假設(shè)檢驗(yàn)工具—數(shù)據(jù)分析-t檢驗(yàn)-雙樣本等方差假設(shè)P值小于0.05,有顯著差異方差分析目的:檢驗(yàn)多個(gè)總體均值是否相等通過分析數(shù)據(jù)的誤差判斷各總體均值是否相等一般提法H0
:m1=m2=…=
mk
自變量對(duì)因變量沒有顯著影響H1:m1
,m2
,…
,mk不全相等自變量對(duì)因變量有顯著影響注意:拒絕原假設(shè),只表明至少有兩個(gè)總體的均值不相等,并不意味著所有的均值都不相等假設(shè):?jiǎn)我蛩胤讲罘治?基本結(jié)構(gòu))單因素方差分析原理總結(jié)在觀測(cè)變量總離差平方和中,如果組間離差平方和所占比例較大,則說明觀測(cè)變量的變動(dòng)主要是由控制變量引起的,可以主要由控制變量來解釋,控制變量給觀測(cè)變量帶來了顯著影響;反之,如果組間離差平方和所占比例小,則說明觀測(cè)變量的變動(dòng)不是主要由控制變量引起的,不可以主要由控制變量來解釋,控制變量的不同水平?jīng)]有給觀測(cè)變量帶來顯著影響,觀測(cè)變量值的變動(dòng)是由隨機(jī)變量因素引起的。統(tǒng)計(jì)決策
將統(tǒng)計(jì)量的值F與給定的顯著性水平
的臨界值F
進(jìn)行比較,作出對(duì)原假設(shè)H0的決策根據(jù)給定的顯著性水平
,在F分布表中查找與第一自由度df1=k-1、第二自由度df2=n-k相應(yīng)的臨界值F
若F>F
,則拒絕原假設(shè)H0
,表明均值之間的差異是顯著的,所檢驗(yàn)的因素對(duì)觀察值有顯著影響若F<F
,則不能拒絕原假設(shè)H0
,無證據(jù)支持表明所檢驗(yàn)的因素對(duì)觀察值有顯著影響用EXCEL進(jìn)行單因素方差分析工具——數(shù)據(jù)分析——方差分析-單因素方差分析回歸分析:一元回歸回歸和相關(guān)都是研究?jī)蓚€(gè)變量相互關(guān)系的分析方法。但相關(guān)分析是研究?jī)蓚€(gè)變量之間相關(guān)的方向和相關(guān)的密切程度,它不能指出兩變量相互關(guān)系的具體形式,也無法從一個(gè)變量的變化來推測(cè)另一個(gè)變量的變化關(guān)系。而回歸分析則是通過一定的數(shù)學(xué)方程來反映變量之間相互關(guān)系的具體形式,以便從一個(gè)已知量來推測(cè)另一個(gè)未知量,為估算預(yù)測(cè)提供一個(gè)重要的方法。相關(guān)分析既可以研究因果關(guān)系的現(xiàn)象也可以研究共變的現(xiàn)象,不必確定兩變量中誰是自變量,誰是因變量。而回歸分析是研究?jī)勺兞烤哂幸蚬P(guān)系的數(shù)學(xué)形式,因此必須事先確定變量中自變量與因變量的地位。在相關(guān)分析中計(jì)算相關(guān)系數(shù)的兩變量是對(duì)等的,改變兩變量的地位并不影響相關(guān)系數(shù)的數(shù)值。在回歸分析中因變量是隨機(jī)的,自變量是可控制的解釋變量,不是隨機(jī)變量,二者地位不對(duì)等。因此回歸分析只能用自變量來估計(jì)因變量,而不允許由因變量來推測(cè)自變量。即:一元線性回歸分析或直線回歸分析是回歸分析中最簡(jiǎn)單最基本的一種。自變量只有一個(gè),所擬合的回歸方程實(shí)際上就是直線方程。在現(xiàn)象互為根據(jù)的情況下,可以有兩個(gè)回歸方程--y倚x的方程和x倚y的方程。根本任務(wù)是設(shè)法在分散的具有線性關(guān)系的相關(guān)點(diǎn)之間配合一條最優(yōu)的直線,以表明兩變量之間具體的變動(dòng)關(guān)系,并可以據(jù)以進(jìn)行預(yù)測(cè)等。表現(xiàn)形式:y=a+bx簡(jiǎn)單線性回歸分析首先:確定變量間是不是確實(shí)存在大致的線性相關(guān)關(guān)系——作相關(guān)圖、計(jì)算相關(guān)系數(shù)第二:就是擬合直線方程:確認(rèn)參數(shù)a、b第三:預(yù)測(cè)自變量簡(jiǎn)單線性回歸分析步驟假如有以下資料:某企業(yè)上半年產(chǎn)品產(chǎn)量與單位成本的資料月份產(chǎn)量(千件)單位成本(元)123456234345737271736968
※以產(chǎn)量為自變量,單位成本為因變量擬合直線回歸方程。
作相關(guān)圖:75706560x產(chǎn)量y單位成本132654
※從相關(guān)圖上可以看出產(chǎn)量與單位成本間存在相關(guān)關(guān)系
計(jì)算相關(guān)系數(shù)顯然說明產(chǎn)量和單位成本之間存在高度負(fù)相關(guān)。擬合直線方程:
已知產(chǎn)量和單位成本之間存在高度的相關(guān)關(guān)系,那么我們完全可以先把直線回歸方程的一般形式寫出來,即式中:a是直線的截距;
b是直線的斜率,即回歸系數(shù);
yc表示因變量y的估計(jì)值。最小二乘法(最小平方法)求參數(shù)a、b:
最小二乘法的原理:使擬合的直線上的點(diǎn)到實(shí)際值點(diǎn)的距離平方和最小,即所謂的yc到y(tǒng)的“離差平方和最小”,yc為擬合曲線上據(jù)以推算的估計(jì)值,y為實(shí)際值。75706560x產(chǎn)量y單位成本132654擬合直線實(shí)際值回歸方程為:y=77.37-1.82x用Excel進(jìn)行一元回歸分析使用INTERCEPT和SLOPE函數(shù)使用LINEST函數(shù)(還可以給出估計(jì)標(biāo)準(zhǔn)誤差、判定系數(shù)等數(shù)值)使用數(shù)據(jù)分析工具
用FORECAST函數(shù)預(yù)測(cè)用TREND函數(shù)預(yù)測(cè)聚類分析:K-meanK-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。k個(gè)初始類聚類中心點(diǎn)的選取對(duì)聚類結(jié)果具有較大的影響,因?yàn)樵谠撍惴ǖ谝徊街惺请S機(jī)的選取任意k個(gè)對(duì)象作為初始聚類的中心,初始地代表一個(gè)簇。該算法在每次迭代中對(duì)數(shù)據(jù)集中剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇中心的距離將每個(gè)對(duì)象重新賦給最近的簇。當(dāng)考察完所有數(shù)據(jù)對(duì)象后,一次迭代運(yùn)算完成,新的聚類中心被計(jì)算出來。如果在一次迭代前后,V的值沒有發(fā)生變化,說明算法已經(jīng)收斂。K-MEANS算法的工作原理及流程K-MEANS算法輸入:聚類個(gè)數(shù)k,以及包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫。輸出:滿足方差最小標(biāo)準(zhǔn)的k個(gè)聚類。處理流程(1)從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;(2)根據(jù)每個(gè)聚類對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根
據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;(3)重新計(jì)算每個(gè)(有變化)聚類的均值(中心對(duì)象)(4)循環(huán)(2)到(3)直到每個(gè)聚類不再發(fā)生變化為止+1-1
支持向量機(jī)+1-1
支持向量機(jī)+1-1
支持向量機(jī)+1-1
支持向量機(jī)+1-1線性分類器的間隔(margin):到超平面最近的樣本與此超平面之間的距離。
支持向量機(jī)+1-1具有最大間隔的線性分類器叫做最大間隔線性分類器。其就是一種最簡(jiǎn)單的支持向量機(jī)(SVM)(稱為線性支持向量機(jī),即LSVM)線性支持向量機(jī)
支持向量機(jī)+1-1支持向量(SupportVectors):是那些距離超平面最近的點(diǎn)。具有最大間隔的線性分類器叫做最大間隔線性分類器。其就是一種最簡(jiǎn)單的支持向量機(jī)(SVM)(稱為線性支持向量機(jī),即LSVM)線性支持向量機(jī)
支持向量機(jī)線性不可分?生物神經(jīng)元典型的神經(jīng)元,即神經(jīng)細(xì)胞結(jié)構(gòu):胞體、樹突、軸突、突觸胞體:神經(jīng)細(xì)胞的本體,完成普通細(xì)胞的生存功能。樹突:有大量的分枝,接受來自其他神經(jīng)元的信號(hào)。軸突:用以輸出信號(hào)。突觸:神經(jīng)元相聯(lián)系的部位,對(duì)樹突的突觸為興奮性的,使下一個(gè)神經(jīng)元興奮;對(duì)胞體的突觸為抑制性的,阻止下一個(gè)神經(jīng)元興奮。神經(jīng)網(wǎng)絡(luò)人工神經(jīng)元人工神經(jīng)元模型:xi:輸入,神經(jīng)元的輸入值ωi:權(quán)值,突觸的連接強(qiáng)度f:輸出函數(shù),非線性函數(shù)y:輸出神經(jīng)元?jiǎng)幼鳎撼S幂敵龊瘮?shù):閾值函數(shù):神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò):各神經(jīng)元接受前級(jí)輸入,并輸出到下一級(jí),無反饋,可用一有向無環(huán)圖表示。前饋網(wǎng)絡(luò)通常分為不同的層,第i層的輸入只與第i-1層的輸出聯(lián)接??梢妼樱狠斎雽雍洼敵鰧与[層:中間層輸出方式:ACON:allclassesonenet,多輸出型OCON:oneclassonenet,單輸出型ACONOCON多輸出型應(yīng)用典型方法ACON應(yīng)用最多,典型方法是:網(wǎng)絡(luò)的每個(gè)輸入節(jié)點(diǎn)對(duì)應(yīng)于樣本的一個(gè)特征輸出層單元
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國聚苯板材市場(chǎng)運(yùn)行狀況及前景趨勢(shì)分析報(bào)告新版
- 2025-2030年中國硼砂市場(chǎng)規(guī)模分析及投資策略研究報(bào)告
- 2025-2030年中國礦用隔爆變壓器行業(yè)市場(chǎng)前景趨勢(shì)及投資潛力分析報(bào)告
- 2025-2030年中國男士?jī)?nèi)衣行業(yè)發(fā)展規(guī)劃分析及投資建議研究報(bào)告
- 2025-2030年中國電磁線繞組線產(chǎn)業(yè)需求現(xiàn)狀及前景趨勢(shì)預(yù)測(cè)報(bào)告
- 2025-2030年中國生長(zhǎng)激素市場(chǎng)發(fā)展前景調(diào)研及投資戰(zhàn)略分析報(bào)告
- 2025-2030年中國物流機(jī)械行業(yè)發(fā)展現(xiàn)狀及前景趨勢(shì)分析報(bào)告
- 2025-2030年中國燈具配件行業(yè)發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國混凝土泵車市場(chǎng)發(fā)展趨勢(shì)展望與投資策略分析報(bào)告
- 二零二五版保安職業(yè)技能培訓(xùn)服務(wù)合同
- 銀行會(huì)計(jì)主管年度工作總結(jié)2024(30篇)
- 教師招聘(教育理論基礎(chǔ))考試題庫(含答案)
- 2024年秋季學(xué)期學(xué)校辦公室工作總結(jié)
- 上海市12校2025屆高三第一次模擬考試英語試卷含解析
- 三年級(jí)數(shù)學(xué)(上)計(jì)算題專項(xiàng)練習(xí)附答案集錦
- 長(zhǎng)亭送別完整版本
- 《鐵路軌道維護(hù)》課件-更換道岔尖軌作業(yè)
- 股份代持協(xié)議書簡(jiǎn)版wps
- 職業(yè)學(xué)校視頻監(jiān)控存儲(chǔ)系統(tǒng)解決方案
- 《銷售心理學(xué)培訓(xùn)》課件
- 2024年安徽省公務(wù)員錄用考試《行測(cè)》真題及解析
評(píng)論
0/150
提交評(píng)論