應用統(tǒng)計學(賈俊平版)綜合復習提綱_第1頁
應用統(tǒng)計學(賈俊平版)綜合復習提綱_第2頁
應用統(tǒng)計學(賈俊平版)綜合復習提綱_第3頁
應用統(tǒng)計學(賈俊平版)綜合復習提綱_第4頁
應用統(tǒng)計學(賈俊平版)綜合復習提綱_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

應用統(tǒng)計學復習提綱夢翔兒PAGEPAGE1PAGE1簡單樣本平均數總體均值的置信區(qū)間(正態(tài)總體,已知)總體均值的置信區(qū)間(未知,大樣本)t幾何平均數總體比例的置信區(qū)間異眾比率總體方差的置信區(qū)間簡單加權平均差估計總體均值時的樣本容量簡單樣本方差標準方差估計總體比例時的樣本容量加權樣本方差總體均值檢驗的統(tǒng)計量(正態(tài)總體,已知)加權樣本標準差總體比例檢驗的統(tǒng)計量判定系數總體方差檢驗的統(tǒng)計量相關系數檢驗的統(tǒng)計量拉氏q帕氏p標準分數離散系數加權平均指數銷售p1q1為權加權平均指數銷售p0q0為權指數平滑法預測估計標準誤差MSE移動平均法預測線性關系檢驗的統(tǒng)計量MSA=SSA/k-1MSE=SSE/n-k環(huán)比增長率定基回歸系數檢驗的統(tǒng)計的統(tǒng)計量相關系數平均增長率平均預測誤差平均絕對預測誤差年度化增長率均方預測誤差平均百分比預測誤差簡單平均法預測

統(tǒng)計學:收集處理分析解釋數據并從數據中得出結論的科學。描述統(tǒng)計:研究數據收集處理匯總圖表描述概括與分析等統(tǒng)計方法。推斷統(tǒng)計:研究如何利用樣本數據來推斷總體特征的統(tǒng)計方法。分類數據:只能歸于某一類別的非數字型數據。順序數據:只能歸于某一有序類別的非數字型數據。數值型數據:按數字尺度測量的觀察值。觀測數據:通過調查或觀測而收集到的數據。實驗數據:在實驗中控制實驗對象而收集到的數據。截面數據:在相同或近似相同的時間點上收集的數據。時間序列數據:在不同時間上收集到的數據,這類數據按時間順序收集到的。抽樣調查:從總體中隨機抽取一部分單位作為樣本進行調查,根據樣本調查結果來推斷總體特征的數據收集方法。普查:為特定目的而專門組織的全面調查??傮w:包含所研究的全部個體(數據)的集合。樣本:從總體中抽取的一部分元素的集合。樣本容量:也稱樣本量,是構成樣本的元素數目。參數:用來描述總體特征的概括性數字度量。統(tǒng)計量:用來描述樣本特征的概括性數字度量。變量:說明現象某種特征的概念。分類變量:說明事物類別的一個名稱。順序變量:說明事物有序類別的一個名稱。數值型變量:說明事物數字特征的一個名稱。離散型變量:只能取可數值的變量。連續(xù)型變量:可以在一個或多個區(qū)間中取任何值的變量。調查數據:通過調查方法獲得的數據實驗數據:通過實驗方法獲得的數據概率抽樣:隨機抽樣,遵循隨機原則進行的抽樣,總體中每個單位都有一定的機會被選入樣本。非概率抽樣:不隨機,根據研究目的對數據的要求,采用某種方式從總體中抽出部分單位對其實施調查。簡單隨機抽樣:從包括總體的N個單位的抽樣框中隨機,一個個抽取n個單位作為樣本,每單位等概論。抽樣框:用于抽選樣本的總體單位信息,是概率抽樣中所不可缺分層抽樣:將抽樣單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同層中獨立、隨機地抽取樣本。整群抽樣:總體中若干單位合并為組,群,抽樣時直接抽取群,然后對中選群中的所有單位全部實施調查。系統(tǒng)抽樣:總體中所有單位按順序排列,在規(guī)定范圍內隨機抽取一單位作為初始單位,然后按事先規(guī)則確定其它樣本單位。多階段抽樣:首先抽取群,再進一步抽樣,從選中的群中抽取出若干個單位進行計查,二階段抽樣。方便抽樣:依據方便原則,自行確定入抽樣本的單位。判段抽樣:研究人員根據經驗,判斷研究對象的了解,有目的選擇一些單位作為樣本。自愿樣本:被調查者自愿參加,成為樣本中一分子,向調查人員提供有關信息滾雪球抽樣:對稀少群體調查中,首選選擇一組調查單位,調查后,請他們提供另外屬于研究總體的調查對象,調查人員根據所提供的線索,進行此后調查。配額抽樣:將總體中所有單位按一定的標志分若干類,然后每類采用方便抽樣或判斷抽樣的方案選取樣本單位。自填式:沒有調查員協(xié)助,被調查者自已填寫,完成調查問卷。面訪式:面對面,調查員提問,被調查者回答。電話式:打電話方式調查。抽樣誤差:由于抽樣的隨機性引起的樣本結果與總體真值之的誤差。非抽樣誤差:相對抽樣誤差而言,除抽樣誤差之外的,由于其它原因引起的樣本觀察結果與總體真值之間的差異。抽樣框誤差:統(tǒng)計推論的錯誤是由于抽樣框不完善造成的頻數:落在某一特定類別或組中的數據個數。頻數分布:各個類別及其相應的頻數形成的分布。比例:一個樣本(或總體)中各個部分的數據占全部數據比值。比率:一個樣本(或總體)中各不同類別數據之間的比值。累積頻數:將各有序類別或組的頻數逐級累加起來得到的頻數。累積頻率或累積百分比:將有序類別或組百分比逐級累加起來。數據分組:根據統(tǒng)計研究需要,將原始數據按某種標準化分成不同的組別,。組距是一個組的上限與下限的差組距分組是將全部變量依次劃分為若干個區(qū)間,將這一區(qū)間的變量值作為一組。等距分組,在組距分組時,如果各組的組距相等。組中值=下限值+上限值/2上下限的中間值直方圖:用矩形的寬度和高度(即面積)來表示頻數分布的圖形。莖葉圖:由莖和葉兩部分組成的、反應原始數據分布的圖形。箱線圖:由一組數據的最大值、最小值、中位數和兩個四分位數5個特征值繪制而成的、反應原始數據分布圖形。集中趨勢:指一組數據向某一中心值靠攏的程度,反映一組數據中心點的位置所在。眾數:一組數據中出現頻數最多的數值中位數:一組數據排序后處于中間位置上的數值。四分位數:一組數據排序后處在25%和75%位置上的數值。平均數:又稱均值,是全部數據的算術平均值簡單平均數:未經分組數據計算的平均數稱為簡單平均數。根據分組。。。加權平均數。幾何平均數:是n個變量值乘積的n次方根。常用于比例數據的平均。異眾比率:指非眾數組的頻數占總頻數的比例.四分位差:75%位置上的四分位數與25%位置上的四分位數之差。順序數據。極差:也稱全距,一組數據的最大值與最小值之差。平均差:也稱平均絕對離差,它是各變量值與其平均數離差的絕對值的平均數。方差:各數據與其平均數離差平方的平均數。標準差:方差的平方根。標準分數:也稱標準化值或z分數,某個數據與其平均數的離差除以標準差后的值。離散系數:一組數據的標準差與其相應的平均數之比。偏態(tài):對數據分布對稱性的測度。測度偏態(tài)的統(tǒng)計量偏態(tài)系數。偏態(tài)系數:對數據分布不對稱性的度量值。峰態(tài):對數據分布平峰或尖峰程度的測度,測度峰態(tài)的統(tǒng)計量則是峰態(tài)系數。峰態(tài)系數:對數據分布峰態(tài)的度量值。隨機事件:在同一組條件下,每次試驗可能出現也可能不出現的事件,也叫偶然事件必然事件:在同一組條件下,每次試驗一定出現的事件。不可能事件:在同一組條件下,每次試驗一定不出現的事件?;臼录喝绻粋€事件不能分解成兩個或更多個事件,則這個事件稱為基本事件。概率:對事件發(fā)生的可能性大小的度量值。主觀概率:對一些無法重復的試驗,確定其結果的概率只能根據經驗,人為確定這個事件的概率。條件概率:當某事件B已發(fā)生,求事件A發(fā)生的概率,稱為事件B發(fā)生條件下事件A發(fā)生的條件概率。獨立事件:兩個事件中不論哪一個事件發(fā)生與否并不影響另一個事件發(fā)生的概率。隨機變量:事先不能確定其取值的變量。離散型隨機變量:只能取有限個值的隨機變量。連續(xù)型隨機變量:可以取一個或多個區(qū)間中任何值的隨機變量。期望值、數學期望:隨機變量的平均取值,各可能值與對應概率乘積之和。方差:隨機變量的每一取值與期望值的離差平方的期望值。泊松分布:用來描述在一指定時間范圍內或在指定的面積或體積之內某一事件出現的個數的分布。概率密度函數:對連續(xù)型隨機變量用函數f(x)來表示。大于等于0,全積分為1統(tǒng)計量:對樣本特征的某個概括性度量,是樣本的函數。充分統(tǒng)計量:統(tǒng)計量加工過程中一點信息都不損失的統(tǒng)計量通常稱為充分統(tǒng)計量。抽樣分布:樣本統(tǒng)計量的概率分布,是由樣本統(tǒng)計量的所有可能取值形成相對頻數分布。漸近分布:當n比較大時,用極限分布作為抽樣分布的一種近似,這種極限分布常稱為自由度:獨立變量的個數。估計量:用來估計總體參數的統(tǒng)計量的名稱估計值:估計總體參數時計算出來的估計量的具體數值點估計:用樣本估計量的取值直接作為總體參數θ的估計值區(qū)間估計:在點估計的基礎上,給出總體參數估計的一個估計區(qū)間,該區(qū)間通常由樣本統(tǒng)計量加減估計誤差組成置信區(qū)間:由樣本統(tǒng)計量構造出的總體參數在一定置信水平下的估計區(qū)間。置信水平:也稱為置信度或置信系數,在重復構造的總體參數的多個置信區(qū)間中包含總體參數真值的次數所占的比例。無偏性:估計量抽樣分布的期望值等于被估計的總體參數有效性:對同一總體參數的兩個無偏估計量,有更小標準差的估計量更有效。一致性:隨著樣本量的增大,估計量的值越來越接近總體參數。獨立樣本:一個樣本中的元素與另一個樣本中的元素相互獨立。匹配樣本:又稱配對數據,一個樣本中的數據與另一個樣本中的數據相對應。假設檢驗:先對總體參數提出某種假設,然后利用樣本信息判斷假設是否成立的過程。原假設:也稱零假設,是研究者想收集證據予以反對的假設,用表示。備擇假設:也稱研究假設,是研究者想收集證據予以支持的假設,用或表示。第Ⅰ類錯誤:原假設正確時拒絕原假設,犯第Ⅰ類錯誤概率記。第Ⅱ類錯誤:當原假設為錯誤時沒有拒絕原假設,犯第Ⅱ類錯誤的概率通常記為。顯著性水平:假設檢驗中發(fā)生第Ⅰ類錯誤的概率,記為。小概率原理:進行假設檢驗利用,指發(fā)生概率很小的隨機事件在一次試驗中是幾乎不可能發(fā)生的。檢驗統(tǒng)計量:根據樣本觀測結果計算得到的,并據以對原假設和備擇假設做出決策的某個樣本統(tǒng)計量拒絕域:能夠拒絕原假設的檢驗統(tǒng)計量的所有可能取值的集合。臨界值:根據給定的顯著性水平確定的拒絕域的邊界值。值:也稱觀察到的顯著性水平,如果原假設是正確的,那么所得的樣本結果出現實際觀測結果或更極端結果出現的概率。P值很小說明發(fā)生概率很小,拒絕原假設,P越小,拒絕原假設的理由就越充分。雙側P<0.025單側p<0.05拒絕原假設。單側檢驗:也稱單尾檢驗,是指備擇假設具有特定的方向性,并含有符號“>”或“<”的假設檢驗。雙側檢驗:也稱雙尾檢驗,是指備擇假設沒有特定的方向性,并含有符號“”的假設檢驗。列聯表:由兩個以上的變量進行交叉分類的頻數分布表。條件分布、頻數:列聯表中的觀察值分布稱為條件分布,每個具體觀察值就是條件頻數。擬合優(yōu)度檢驗:如果樣本是從總體的不同類別中分別抽取,研究目的是對不同類別的目標量之間是否存在顯著性差異進行檢驗,我們就把它稱為擬合優(yōu)度檢驗或一致性檢驗。獨立性檢驗:判斷兩個分類變量之間是否存在聯系的問題,兩組或多組的資料是否相互關聯,如果不關聯,就稱為獨立。這類問題的處理稱為獨立性檢驗。方差分析:通過檢驗各總體均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。因素:也稱因子,是方差分析中所要檢驗的對象。處理:因素的不同表現稱為水平或處理組內誤差:來自水平內部的數據誤差。組間誤差:來自不同水平之間的數據誤差??偲椒胶停悍从橙繑祿`差大小的平方和,記為SST。自變量效應加殘差效應。n-1組內平方和:反映組內誤差大小的平方和,記為SSE。殘差變量,殘差效應;n-k組間平方和:反映組間誤差大小的平方和,記為SSA。自變量效應或因子效應;k-1單因素方差分析:只涉及一個分類型自變量的方差分析。組內方差:組內平方和除以相應的自由度。組間方差:組間平方和除以相應的自由度。雙因素方差分析:方差分析中涉及兩個分類型自變量時,稱為~試驗:收集樣本數據的過程試驗設計:收集樣本數據的計劃完全隨機化設計:將k種處理隨機地指派給試驗單元的設計。處理指可控制的因素的各個水平試驗單元:接受處理的對象或實體稱為試驗單元或抽樣單元。隨機化區(qū)組設計:先按一定規(guī)則將試驗單元劃分為若干同質組,區(qū)組,然后再將各種處理隨機地指派給各個區(qū)組。因子設計:考慮兩個因素搭配的試驗設計稱為因子設計。函數關系:設兩變量x,y,變量y隨x一起變化,并完全依賴于x,當變量x取某數值時,y依確定關系取相應的值,則稱y是x的函數,記為y=f(x).相關關系:變量之間存在的不確定的數量關系。相關分析:分析變量之間是否存在相關關系,明確其相關關系的類型,計算其相關關系的密切程度的統(tǒng)計分析方法相關系數:是根據樣本數據計算的度量兩個變量之間線性關系強度的統(tǒng)計量?;貧w模型:描述因變量y如何依賴于自變量x和誤差項的方程。回歸方程:描述因變量y的期望值如何依賴于自變量x的方程。估計的回歸方程:用樣本統(tǒng)計量代替回歸方程中的未知參數,根據樣本數據求出的回歸方程的估計。因變量、自變量:被預測或被解釋的變量稱為因變量,用來預測或用來解釋因變量的一個或多個變量稱為自變量。最小二乘法:也稱最小平方法,使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法?;貧w平方和:y的總變差中由于x與y之間的線性關系引起的y的變化部分,它是可以由回歸直線來解釋的yi變差部分。殘差平方和:除了x對y的線性影響之外的其它因素對y變差的作用,是不能由回歸直線解釋的yi的變差部分。判定系數:回歸平方和占總平方和的比例,記為估計量的標準誤差:均方殘差(MSE)的平方根,用來表示。實際意義反映了用估計的回歸方程預測因變量y時的預測誤差的大小。越小,各觀測點的代表性就越好,預測越準確,從另一個角度說明了回歸直線的擬合優(yōu)度。平均值的點估計:利用估計的回歸方程,對于的一個特定值,求出的平均值的一個估計值。個別值的估計值:利用估計的回歸方程,對于的一個特定值,求出的一個個別值的估計值。平均值的置信區(qū)間估計:對的一個給定值,求出的平均值的區(qū)間估計。個別值的預測區(qū)間估計:對的一個給定值,求出的一個個別值的區(qū)間估計。殘差:因變量的觀測值yi與根據估計的回歸方程求出的預測值yi^之差,用e表示。標準化殘差:殘差除以它的標準差后得到的數值用Ze表示。異常值:在散點圖中,如果某一個點與其它點所呈現的趨勢不相吻合有影響的觀測值:如果某一個點或某一些觀測值對回歸的結果有強烈的影響,那么該觀測值或這些觀測值就是~多元線性回歸模型:描述因變量如何依賴于自變量和誤差項的方程。多元線性回歸方程:描述的期望值如何依賴于的方程。估計的多元線性回歸方程:根據樣本數據得到的多元線性回歸方程的估計。多重判定系數:在多元回歸中,回歸平方和占總平方和的比例。修正的多重判定系數:用模型中自變量的個數和樣本量進行調整的多重判定系數,記為。多重共線性:當回歸模型中兩個或兩個以上的變量彼此相關時,則稱回歸模型中存在~虛擬變量:變量的取值本身用文字來描述,要把它們放進回歸模型,必須先將其文字型數據用數字代碼來表示,這種代碼化的定性自變量稱為虛擬變量。時間序列:同一現象在不同時間上的相繼觀察值排列而成的序列。平穩(wěn)序列:基本上不存在趨勢的序列。非平穩(wěn)序列:包含趨勢性、季節(jié)性或周期性的序列。趨勢:也稱長期趨勢,指時間序列在長時期內呈現出某種持續(xù)向上或持續(xù)下降的變動。季節(jié)性:季節(jié)變動,是指時間序列在一年內重復出現的周期性波動。周期性:循環(huán)波動,是指時間序列中呈現出的圍繞長期趨勢的一種波浪形或振蕩式變動。隨機性:不規(guī)則波動,是指時間序列中除去趨勢、周期性和季節(jié)性之后的偶然性波動。增長率:也稱增長速度,是指時間序列中報告期觀察值與基期觀察值之比減1后的結果,用%表示。環(huán)比增長率:報告期觀察值與前一時期觀察值之比減1,說明現象逐期增長變化的程度。定基增長率:報告期觀察值與某一固定時期觀察值之比減1,說明現象在整個觀察期內總的增長變化程度。平均增長率:也稱平均發(fā)展速度,是指時間序列中各逐期環(huán)比值(也稱環(huán)比發(fā)展速度)的幾何平均數減1后結果。增長1%絕對值:增長率每增長一個百分點而增加的絕對數量。簡單平均法預測:根據過去已有的期觀察值通過簡單平均來預測下一期的數值。移動平均法預測:通過對時間序列逐期遞移求得平均數作為預測值的一種預測方法。指數平滑法預測:對過去的觀察值加權平均進行預測的一種方法,該方法使得第+1期的預測值等于期的實際觀察值與第期指數預測值的加權平均值。線性趨勢:指現象隨著時間的推移而呈現穩(wěn)定增長或下降的線性變化規(guī)律。指數曲線:描述以幾何級數遞增或遞減的現象即時間序列的觀察值按指數規(guī)律變化或說時間序列逐期觀察值按一定增長率增長衰減。在一般指數曲線的基礎上增加一個常數K,初期增長迅速,隨后增長率逐漸降低,最終以K為增長極限。指數:測定多個項目在不同場合下綜合變動的相對數。加權綜合指數:通過加權來測定一組商品價格的綜合變動狀況的指數。拉氏價格指數:計算綜合指數時,把作為權數的銷售量固定在基期。單純反映價格的變動水平,不能反映出消費結構的變化。帕氏價格指數:把作為權數的銷售量固定在報告期,不同時期的指數缺乏可比性,可以同時反映出價格和消費結構的變化。加權平均指數:以某一時期的價值總量為權數對個體指數加權平均計算的指數。零售價格指數:反映城鄉(xiāng)商品零售價格變動趨勢的一種經濟指數。消費價格指數:反映一定時期內城鄉(xiāng)居民所購買的生活消費品價格和服務項目價格的變動趨勢和程度一種相對數。股票價格指數:是反映某一股票市場上多種股票價格變動趨勢的一種相對數。間接來源:統(tǒng)計數據的間接來源:如果與研究內容有關的原信息已存在,我們只是對這些原信息重新加工整理,使之成為我們進行統(tǒng)計分析可以使用的數據,則我們把它們稱為間接來源的數據。二手數據的特點:搜集比較容易,采集數據成本低,能很快得到。局限性不是為特定研究問題產生有欠缺,需要評估。、二手數據的評估:誰收集,目的,怎么搜集,什么時侯收集?概率抽樣與非概率抽樣比較:性質不同,非概不依據隨機原則選樣本,樣本統(tǒng)計量分布不確切,無法使用樣本的結果對總體相應參數進行推斷。操作簡便,時效快,成本低,專業(yè)要求不很高。概率抽樣依據隨機原則抽選樣本,理論分布存在,對總體有關參數可進行估計,計算估計誤差,得到總體參數的置信區(qū)間。提出精度要求。數據收集方法的選擇:抽樣框中有關信息,目標總體特征,調查問題的內容,有形輔助物的使用,實施調查的資源,管理與控制,質量要求實驗中的若干問題:人的意愿,心理問題,道德問題回答誤差:理解誤差,記憶誤差,有意識誤差誤差的控制:抽樣誤差是抽樣隨機性帶來的,不可避免可以計算,改大樣本量。選擇合適改進的抽樣框,設計好的調查問卷,調查過程的質量控制。抽樣誤差因素:樣本量大小,總體變異性大大抽樣方式選組織形式數據審核的目的:檢查數據是否有錯誤,原始數據完整性準確性,二手適用性時效性。數據篩選的目的:根據需要找出符合特定條件的某類數據。數據排序是按一定的順序將數據排列,以便研究者通過瀏覽數據發(fā)現一些明顯的特征或趨勢,找到解決問題的線索。數據透視表作用:可以對數據表重要信息按使用者的習慣或分析要求進行匯總和作圖,形成一個符合需要的交叉表數據分布表的制作步驟:確定組數,確定組距,根據分組整理成頻數分布表,上組限不在內不重不漏直方圖與條形圖的差別:首先條形圖是用條形的長度表示各類別頻數的多少,寬度是固定的;直方圖用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距,高寬均有意義。其次由于分組數據具有連續(xù)性,直方圖的各矩形通常是連續(xù)排列,而條形圖則是分開排列。最后條形圖主要用于展示分類數據,直方圖主要用于展示數值型數據。莖葉圖與直方圖的區(qū)別:莖葉圖既能給出數據的分布情況,又能保留原始數據的信息。直方圖通常適用于批量數據,莖葉圖小批量數據。餅圖與環(huán)形圖差別:環(huán)形圖中空洞,樣本或總體中每一部分用環(huán)中的一段表示。餅圖只能顯示一個樣本或總體各部分所占的比例,環(huán)形圖可以同時繪制多個,有利比較研究。好圖形具備特征:顯示數據,讀者注意集中圖形內容,避免歪曲,強調數據之間比較,服務明確目的,對圖形統(tǒng)計描述與文字說明。圖形優(yōu)劣準則:好圖應當使復雜的觀點簡明、確切、高效闡述,最短時間內以最少的筆墨給讀者提大信息,多維,表述數據真實情況。制作統(tǒng)計表設計注意:合理安排表結構,包括表號總標題單位,上下兩橫線粗,中間細,必要注釋、來源。數據分布的特征三方面:數據分布的集中趨勢,離散程度,形狀眾數的特點:不受極端值影響,分布角度上看是具有明顯集中趨勢點的數值,眾數可能不存在也可能有多個。眾數、中位數和平均數的關系:從分布角度看,眾數M0是最高峰值,中位數Me是數據中間位置上值,平均數是全部數據的算術平均。左偏X<Me<Mo眾數、中位數和平均數的特點與應用場合:眾數是一組數據的峰值,不受極端值影響,缺點是不唯一,在數據量較多時才有意義,數據量少時不宜,主要作分類數據的集中趨勢測度值。中位數是一組數據中間位置上的代表值,不受極端影響,數據分布偏斜程度較大時,中位數好,主要適合作順序數據的集中趨勢測度值。平均數是對數值型數據計算的,利用了全部數據信息,應用廣泛,數據呈對稱或接近對稱分布時3個代表值接近相等,此時選擇平均數作為集中趨勢代表值,其主要缺點是易受數據極端值的影響。對于偏態(tài)分布的數據,平均數的代表性較差。偏態(tài)程度較大數據用中位數或眾數比平均好。異眾比率的應用場合:主要用于衡量眾數對一組數據的代表程度,大,代表性差。主要適合分類數據的離散程度。順序數據和數值型也可。標準分數的性質:平均數為0,標準差為1經驗法則:一組數據對稱分布時,約有68%的數據在平均數1個標準差范圍內。95%99%切比雪夫不等式:不對稱75%2個標準差89%3個944個1-1/k2離散程度的測量值應用場合:分類數據用異眾,順序數據四分位,數值數據方差標準差,不同樣本數據離散系數。偏態(tài)系數的用途:0對稱,>1<-1高偏0.5-1-1—0.5中偏,接近0,偏度低,正值右偏。概率的古典定義:如果某一隨機試驗的結果有限,而且各個結果出現可能性相等,則某一事件A發(fā)生概率為該事件所包含的基本事件數m與樣本空間中所包含的基本事件數n的比值。概率的統(tǒng)計定義:在相同條件下隨機試驗n次,某事件A出現m次(m<n),則比值m/n稱為事件A發(fā)生的頻率。隨著n的增大,該頻率圍繞某一常數p上下波動,且波動的幅度逐漸減小,趨于穩(wěn)定,這個頻率的穩(wěn)定值即為事件的概率。概率的性質:非負,規(guī)范,可加概率的加法法則:兩個互斥事件和概率,等于兩事件概率和。兩任意隨機事件和概率為兩事件分別概率減相交概率。貝努力試驗與二項分布:試驗有兩個結果,這種隨機變量所服從的概率分布為二項分布。試驗包含了n個相同的試驗;每試驗只有兩個可能結果成或敗;出現成或敗的概率對每一次試驗相同,且成敗和為1;試驗相互獨立;成敗可以計數,即試驗結果對應一個離散型隨機變量,具有上述特征的n次重復獨立試驗為n重貝努力試驗。正態(tài)分布曲線的性質:(1)f(x)>=0整個概率密度曲線都在x軸上方(2)曲線相對x=μ對稱,在x=μ處最大值f(μ)=1/σ(3)曲線陡緩程度由σ決定,越大,越緩;(4)x趨于無窮時,曲線以x軸為漸近線。3σ準則:P(|x-μ|<=σ)=0.6836,2σ=0.9545,3σ=0.9973獨立性和互斥性的關系:互斥事件一定是相互依賴(不獨立)的,但相互依賴的事件不一定是互斥的。不互斥事件可能是獨立的,也可能是不獨立的,然而獨立事件不可能是互斥的。統(tǒng)計推斷的三個中心內容:抽樣分布,參數估計和假設檢驗中心極限定理:設從均值為μ,方差為σ2(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值X的抽樣分布近似服從均為μ,方差為σ2/n的正態(tài)分布。置信區(qū)間的理解:1.某種方法構造所有區(qū)間中95%的區(qū)間包含總體參數的真值,5%不包括,用該方法構造的區(qū)間稱為置信水平為95%的置信區(qū)間2.總體參數真值固定未知,而樣本構造區(qū)間不固定,置信區(qū)間是隨機區(qū)間因樣本不同而不同不都包含總體參數真值。3.實際中只抽一個樣本,可包可不包,真正意義是如果做了100次抽樣,大概有95次找到的區(qū)間包含真值,有5次找到的區(qū)間不包真值。評價估計量的標準:無偏有效一致性在對兩總體均值之差小樣本估計對兩總體和樣本的假定:1.兩總體服從正態(tài)分布2兩隨機樣本獨立地分別抽自兩總體。假設檢驗的步驟:1提出原假設H0和備擇假設H12確定適當的檢驗統(tǒng)計量3確定顯著性水平α和臨界值及拒絕域4根據樣本數據計算檢驗統(tǒng)計量的值P5將檢驗統(tǒng)計量值與臨界值比較,作出拒絕或接受原假設的決策假設檢驗和參數估計有什么相同點和不同點?參數估計和假設檢驗是統(tǒng)學推斷的兩個組成部分,都是利用樣本對總體進行某種推斷,然而推斷的角度不同。參數估計討論的是樣本統(tǒng)計量估計總體參數的方法,總體參數μ在估計前是未知的。而在參數假設檢驗中,則是先對μ的值提出一個假設,然后利用樣本信息去檢驗這個假設是否成立。兩類錯誤控制:首先控制犯α錯誤原則,原因:統(tǒng)一原則,原假設常明確。兩類錯誤的關系:一定樣本量n,減小α錯誤,增大β錯誤,同時減少可以增大樣本量。單側檢驗中原、備擇假設方向如何確定?原有的傳統(tǒng)的放在原假設。χ2統(tǒng)計量的步驟:1.用觀察值f0減去期望值fe;2.將(f0-fe)之差平方;3.將平方(f0-fe)2結果除以fe;4將3的結果加總。一致性檢驗和獨立性檢驗的區(qū)別:首先,兩種檢驗抽取樣本的方法或對觀察值進行測定的方法有所不同,如果在各類別中分別進行,屬于擬合優(yōu)度檢驗,如果事先未分類,抽取樣本后根據研究內容分類形成列聯表就是獨立性檢驗。其次,兩者檢驗假設的內容有差異,似~通常假設各類別總體比例等于某個期望概率,而獨立性檢驗中,原假設則假設兩個變量之間相互獨立。最后,計算期望頻數時,在擬合優(yōu)度檢驗中利用原假設中的期望概率,用觀察頻數乘以期望概率,直接得到期望頻數,如果獨立性檢驗,則假設兩個變量的分類是獨立的,因而兩個水平的聯合概率是兩個單獨的概率的乘積。簡述φcV相關系數各自的特點:φ2X2列聯表,0-1范圍,0完全相關|φ|=1完全相關,絕對值越大,相關程度越高,φ無上限;c大于2X2列聯表,相互獨立時c=0,不可能大于1,最大值依賴于列聯表的行數列數,且隨著R、C的增大而增大。V0相關獨立,1完全相關,1誤差分解:總誤差(SST)=組內誤差(SSE)+組間誤差(SSA)方差分析中的三個基本假定:每個總體都應該服從正態(tài)分布,各個總體的方差σ2必須相同,觀測值是獨立的。方差分析中假設的提法:H0:u1=u2=…自變量對因變量沒有顯著影響H1:u1,u2…不全相等多重比較前提、作用:對總體均值之間的配對比較來進一步檢驗到底哪些均值之間存在差異。要檢驗多個總體均值是否相等時,為什么不兩兩比而用方差分析?兩兩比煩銷,增大犯I類錯誤的概率,降低置信水平。方差分析是同時考慮所有樣本,排除了錯誤累積的概率,從而避免拒絕一個真實的原假設。方差分析的基本思想:1.圖形描述,散點圖2.誤差分解3.誤差分析,顯著性方差分析的基本步驟:1.提出假設2.構造檢驗的統(tǒng)計量:1)計算各樣本均值2)計算全部觀測值的總均值3)計算各誤差平方和總平方和組間平方和組內平方和4)計算統(tǒng)計量3.統(tǒng)計決策4.方差分析表5.方差分析關系強度R2的含義和作用:組間平方和占總平方和的比例大小R2=SSA/SST反映兩個變量之間的關系強度相關關系的特點:一個變量的取值不能由另一個變量唯一確定,當變量x取某個值時,變量y的取值可能有幾個,這種關系不確定的變量顯然不能用函數關系進行描述,但變量之間存在一定的規(guī)律。相關與回歸分析正是描述探索這類變量關系及其統(tǒng)計規(guī)律的方法。相關分析的內容:變量之間是否存在關系,存在什么樣的關系,關系強度如何,樣本所反映的變量之間關系能否代表總體~?相關分析總體的兩個假定:兩變量之間線性關系,兩變量都是隨機變量。相關系數的性質:(1)取值范圍在-1~+10-1正線性相關,反負相關,1完全正線性相關|r|=1y取值完全依賴于x,兩者函數關系,r=0,y取值與x無關,兩者不存在線性相關關系(2)對稱性rxy=ryx(3)r大小與xy原點及尺度無關(4)僅是線性關系度量(5)xy線性關系的度量但非因果關系高0.8中0.5低0.3不相關相關系數檢驗的目的:能否根據樣本相關系數說明總體的相關程度,考察樣本相關系數的可靠性,就是顯著性檢驗。ρ較大正值r左偏,ρ接近0,樣本量n很大,才能認為r接近正態(tài)分布的隨機變量。相關系數檢驗的程序:1.提出假設H0:ρ=0;H1:ρ<>02計算檢驗統(tǒng)計量:3進行決策|t|>ta/2(n-2),拒絕回歸分析的內容:(1)從一組樣本數據出發(fā),確定出變量之間的數學關系式;(2)對這些關系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著不顯著。(3)利用所求的關系式,根據一個或幾個變量的取值來估計或預測另一個待定變量的取值,并給出這種估計或預測的可靠程度。理論回歸模型的假定:(1)因變量y與自變量x之間有線性關系。(2)重復抽樣中,x取值固定非隨機的。(3)誤差項是期望0的隨機變量E()=0,假定模型為直線。(4)對所有x值,的方差σ2都相同。(5)誤差項服從正態(tài)分布隨機變量且獨立,即~N(0,σ2)最小二乘法的原理:距離各觀測點最近的一條直線,用它來代表x與y之間的關系與實際數據的誤差比其他任何直線都小。最小二乘法擬合直線的性質:(1)使離差平方和達到最小(2)可以知β0,β1估計量的抽樣分布(3)在某些條件下β0,β1的最小二乘估計量同其它相比,抽樣分布具有較小的標準差??偲椒胶停⊿ST)=回歸平方和(SSR)+殘差平方和(SSE)判定系數R2=SSR/SST:計算A對B回歸的判定系數R2,在A的變差中,有R2%可以由A與B之間的線性差系來解釋。線性相關檢驗的目的:檢驗自變量x與因變量y之間的線性關系是否顯著,或說它們之間能否用一個線性模型y=β0+β1x+來表示。線性相關檢驗的程序:(1)提出假設H0:β1=0兩個變量之間的關系不顯著(2)計算統(tǒng)計量F=MSR/MSE(3)作出決策F>Fa拒絕。說明線性關系是顯著的?;貧w系數檢驗的目的:檢驗自變量對因變量的影響是否顯著。β1=0,表明y不依量x沒有線性關系?;貧w系數檢驗的程序:(1)提出檢驗H0:β1=0H1:β1<>0(2)計算檢驗統(tǒng)量量t(3)決策拒絕說明是顯著因素?;貧w分析結果的評價:(1)所估計的回歸系數的符號是否與理論或事先預期的相一致(2)如果理論上認為y與x之間關系不僅正,而且統(tǒng)計上顯著,所建立的回歸方程也應該如此。(3)回歸模型在多大程度上解釋了因變量y取值的差異?用判定系數來回答。(4)考察關于誤差項的正態(tài)性假定是否成立。殘差分析在回歸分析中的作用:檢測異常值,檢測有影響的觀測值。線性關系檢驗與回歸系數檢驗的區(qū)別:在一元中是等價的,在多元回歸中不等價,線性關系檢驗主要是檢驗因變量同多個自變量的線性關系是否顯著,k個自變量只要有一個線性關系顯著,F檢驗就能通過。但并不代表每個關系都顯著。回歸系數檢驗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論