




已閱讀5頁,還剩72頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
本課內(nèi)容包含 統(tǒng)計回顧主成分分析和因子分析聚類分析判別分析典型相關(guān)分析對應(yīng)分析列聯(lián)表Logistic回歸Poisson對數(shù)線性模型時間序列分析 統(tǒng)計基本概念回顧 隨機性和規(guī)律性 現(xiàn)實中的隨機性和規(guī)律性 從中學(xué)起 我們就知道自然科學(xué)的許多定律 例如物理中的牛頓三定律 物質(zhì)不滅定律以及化學(xué)中的各種定律等等 但是在許多領(lǐng)域 很難用如此確定的公式或論述來描述一些現(xiàn)象 比如 人的壽命是很難預(yù)先確定的 一個吸煙 喝酒 不鍛煉 而且一口長葷的人可能比一個很少得病 生活習(xí)慣良好的人活得長 因此 可以說 活得長短是有一定隨機性的 randomness 這種隨機性可能和人的經(jīng)歷 基因 習(xí)慣等無數(shù)說不清的因素都有關(guān)系 現(xiàn)實中的隨機性和規(guī)律性 但是從總體來說 我國公民的平均年齡卻是非常穩(wěn)定的 而且女性的平均年齡也穩(wěn)定地比男性高幾年 這就是規(guī)律性 一個人可能活過這個平均年齡 也可能活不到這個年齡 這是隨機的 但是總體來說 平均年齡的穩(wěn)定性 卻說明了隨機之中有規(guī)律性 這種規(guī)律就是統(tǒng)計規(guī)律 概率和機會 你可能經(jīng)常聽到概率 probability 這個名詞 例如在天氣預(yù)報中會提到降水概率 大家都明白 如果降水概率是百分之九十 那就很可能下雨 但如果是百分之十 就不大可能下雨 因此 從某種意義說來 概率描述了某件事情發(fā)生的機會 顯然 這種概率不可能超過百分之百 也不可能少于百分之零 換言之 概率是在0和1之間的一個數(shù) 說明某事件發(fā)生的機會有多大 有些概率是無法精確推斷的 比如你對別人說你下一個周末去公園的概率是百分之八十 但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八 其實你想說的是你很可能去 但又沒有完全肯定 實際上 到了周末 你或者去 或者不去 不可能有分身術(shù)把百分之八十的你放到公園 而其余的放在別處 有些概率是可以估計的 比如擲骰子 只要沒有人在骰子上做手腳 你得到6點的概率應(yīng)該是六分之一 得到其他點的概率也是一樣 得到6的概率或者機會是可以知道的 但擲骰子的結(jié)果還只可能是六個數(shù)目之一 這個已知的規(guī)律就反映了規(guī)律性 而得到哪個結(jié)果則反映了隨機性 如果你擲1000次骰子 那么 大約有六分之一的可能會得到6 這也是隨機性呈現(xiàn)有規(guī)律的一個體現(xiàn) 變量 做任何事情都要有對象 比如一個班上注冊的學(xué)生有200人 這是一個固定的數(shù)目 稱為常數(shù) constant 或者常量 但是 如果猜測今天這個班有多少人會來上課 那就沒準(zhǔn)了 這有隨機性 可能有請病假或事假的 也可能有逃課的 這樣 就要來上課的人數(shù)是個變量 variable 另外對于某項政策同意與否的回答 也有 同意 不同意 或者 不知道 三種可能值 這也是變量 只不過不是數(shù)量而已 變量 當(dāng)變量按照隨機規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)量變量 quantitativevariable 因為是隨機的 也稱為隨機變量 randomvariable 象性別 觀點之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞?qualitativevariable categoricalvariable 這些定性變量也可以由隨機變量來描述 比如男性和女性的數(shù)目 同意某政策人數(shù)的比例等等 只有當(dāng)變量用數(shù)量來描述時 才有可能建立數(shù)學(xué)模型 才可能使用計算機來分析 數(shù)據(jù) 有了變量的概念 什么是數(shù)據(jù)呢 拿擲骰子來說 擲骰子會得到什么值 是個隨機變量 而每次取得1至6點中任意點數(shù)的概率它在理論上都是六分之一 如果骰子公平 這依賴于在擲骰子背后的理論或假定 而在實際擲骰子過程中 如果擲100次 會得到100個由1至6點組成的數(shù)字串 再擲100次 又得到一個數(shù)字串 和前一次的結(jié)果多半不一樣 這些試驗結(jié)果就是數(shù)據(jù) 所以說 數(shù)據(jù)是關(guān)于變量的觀測值 通過數(shù)據(jù)可以驗證有關(guān)的理論或假定 比如每一次得到每個點的概率是不是1 6等等 對于顧客是否喜歡某種飲品的調(diào)查也類似 但這里不象擲骰子那樣事先可以大致猜測顧客喜歡與否的概率 在問了1000人之后 可能有364人說喜歡 而480人說不喜歡 其余的人可能不回答 或說不知道 或從來沒有喝過這種飲料 這些數(shù)目就是數(shù)據(jù) 當(dāng)然 它僅僅反映了1000個被問到的人的觀點 但這對于估計整個消費群體的觀點還是有用的 統(tǒng)計和計算機 現(xiàn)代生活越來越離不開計算機了 最早使用計算機的統(tǒng)計當(dāng)然更離不開計算機了 事實上 最初的計算機僅僅是為科學(xué)計算而建造的 大型計算機的最早一批用戶就包含統(tǒng)計 而現(xiàn)在統(tǒng)計仍然是進(jìn)行數(shù)字計算最多的用戶 計算機現(xiàn)在早已脫離了僅有計算功能的單一模式 而成為百姓生活的一部分 計算機的使用 也從過去必須學(xué)會計算機語言到只需要 傻瓜式 地點擊鼠標(biāo) 結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式 統(tǒng)計軟件 統(tǒng)計軟件的發(fā)展 也使得統(tǒng)計從統(tǒng)計學(xué)家的圈內(nèi)游戲變成了大眾的游戲 只要你輸入你的數(shù)據(jù) 點幾下鼠標(biāo) 做一些選項 馬上就得到令人驚嘆的漂亮結(jié)果了 你可能會問 是否傻瓜式的統(tǒng)計軟件使用可以代替統(tǒng)計課程了 當(dāng)然不是 數(shù)據(jù)的整理和識別 方法的選用 計算機輸出結(jié)果的理解都不象使用傻瓜相機那樣簡單可靠 統(tǒng)計軟件 有些諸如法律和醫(yī)學(xué)方面的軟件都有不少警告 不時提醒你去咨詢專家 但統(tǒng)計軟件則不那么負(fù)責(zé) 只要數(shù)據(jù)格式無誤 方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果 而且沒有任何警告 另外 統(tǒng)計軟件輸出的結(jié)果太多 即使是同樣的方法 不同軟件輸出的內(nèi)容還不一樣 有時同樣的內(nèi)容名稱也不一樣 這就使得使用者大傷腦筋 即使是統(tǒng)計學(xué)家也不一定能解釋所有的輸出 因此 就應(yīng)該特別留神 明白自己是在干什么 不要在得到一堆毫無意義的垃圾之后還沾沾自喜 統(tǒng)計軟件 統(tǒng)計軟件的種類很多 有些功能齊全 有些價格便宜 有些容易操作 有些需要更多的實踐才能掌握 還有些是專門的軟件 只處理某一類統(tǒng)計問題 面對太多的選擇往往給決策帶來困難 這里介紹最常見的幾種 統(tǒng)計軟件 SPSS 這是一個很受歡迎的統(tǒng)計軟件 它容易操作 輸出漂亮 功能齊全 價格合理 對于非統(tǒng)計工作者是很好的選擇 Excel 它嚴(yán)格說來并不是統(tǒng)計軟件 但作為數(shù)據(jù)表格軟件 必然有一定統(tǒng)計計算功能 而且凡是有MicrosoftOffice的計算機 基本上都裝有Excel 但要注意 有時在裝Office時沒有裝數(shù)據(jù)分析的功能 那就必須裝了才行 當(dāng)然 畫圖功能是都具備的 對于簡單分析 Excel還算方便 但隨著問題的深入 Excel就不那么 傻瓜 需要使用函數(shù) 甚至根本沒有相應(yīng)的方法了 多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理 SAS 這是功能非常齊全的軟件 盡管價格不菲 許多公司還是因為其功能眾多和某些美國政府機構(gòu)認(rèn)可而使用 盡管現(xiàn)在已經(jīng)盡量 傻瓜化 仍然需要一定的訓(xùn)練才可以進(jìn)入 對于基本統(tǒng)計課程則不那么方便 統(tǒng)計軟件 S plus 這是統(tǒng)計學(xué)家喜愛的軟件 不僅由于其功能齊全 而且由于其強大的編程功能 使得研究人員可以編制自己的程序來實現(xiàn)自己的理論和方法 它也在進(jìn)行 傻瓜化 以爭取顧客 但仍然以編程方便為顧客所青睞 R軟件 這是一個免費的 由志愿者管理的軟件 其編程語言與S plus所基于的S語言一樣 很方便 還有不斷加入的各個方向統(tǒng)計學(xué)家編寫的統(tǒng)計軟件包 同時從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序 這是發(fā)展最快的軟件 受到世界上統(tǒng)計師生的歡迎 是用戶量增加最快的統(tǒng)計軟件 對于一般非統(tǒng)計工作者來說 主要問題是它沒有 傻瓜化 統(tǒng)計軟件 Minitab 這個軟件是很方便的功能強大而又齊全的軟件 也已經(jīng) 傻瓜化 在我國用的不如SPSS與SAS那么普遍 Statistica 也是功能強大而齊全的 傻瓜化 的軟件 在我國用的也不如SAS與SPSS那么普遍 Eviews 這是一個主要處理回歸和時間序列的軟件 GAUSS 這是一個很好用的統(tǒng)計軟件 許多搞經(jīng)濟(jì)的喜歡它 主要也是編程功能強大 目前在我國使用的人不多 FORTRAN 這是應(yīng)用于各個領(lǐng)域的歷史很長的非常優(yōu)秀的編程軟件 功能強大 也有一定的統(tǒng)計軟件包 計算速度比這里介紹的都快得多 但需要編程和編譯 操作不那么容易 MATLAB 這也是應(yīng)用于各個領(lǐng)域的以編程為主的軟件 在工程上應(yīng)用廣泛 編程類似于S和R 但是統(tǒng)計方法不多 統(tǒng)計軟件 當(dāng)然 還有其他的軟件 沒有必要一一羅列 其實 聰明的讀者只要學(xué)會使用一種 傻瓜式 軟件 使用其他的僅僅是舉一反三之勞 最多看看幫助和說明即可 如果只有英文幫助 那還可以順便提高你的英文閱讀能力 想想看 舉出你所知道的統(tǒng)計應(yīng)用例子 舉出日常生活中隨機性和規(guī)律性的例子 你使用過統(tǒng)計軟件或者利用過其他軟件中的統(tǒng)計功能嗎 你有什么經(jīng)驗和體會 數(shù)據(jù)的收集 二手?jǐn)?shù)據(jù) 每天翻開報紙或打開電視 就可以看到各種數(shù)據(jù) 比如高速公路通車?yán)锍?物價指數(shù) 股票行情 外匯牌價 犯罪率 房價 流行病的有關(guān)數(shù)據(jù) 確診病例 疑似病例 死亡人數(shù)和出院人數(shù)等等 當(dāng)然還有國家統(tǒng)計局定期發(fā)布的各種國家經(jīng)濟(jì)數(shù)據(jù) 海關(guān)發(fā)布的進(jìn)出口貿(mào)易數(shù)據(jù)等等 從中可以選取對自己有用的信息 這些間接得到的數(shù)據(jù)都是二手?jǐn)?shù)據(jù) 第一手?jǐn)?shù)據(jù) 獲得第一手?jǐn)?shù)據(jù)并不象得到二手?jǐn)?shù)據(jù)那么輕松 某些在華的外資企業(yè)每年至少要花三四千萬元來收集和分析數(shù)據(jù) 他們調(diào)查其產(chǎn)品目前在市場中的狀況和地位并確定其競爭對手的態(tài)勢 他們調(diào)查不同地區(qū) 不同階層的民眾對其產(chǎn)品的認(rèn)知程度和購買意愿以改進(jìn)產(chǎn)品或推出新品種爭取新顧客 他們還收集各地方的經(jīng)濟(jì)交通等信息以決定如何保住現(xiàn)有市場和開發(fā)新市場 市場信息數(shù)據(jù)對企業(yè)是至關(guān)重要的 他們很舍得在這方面花錢 因為這是企業(yè)生存所必需的 絕不是可有可無的 觀測數(shù)據(jù)和試驗數(shù)據(jù) 上面所說的數(shù)據(jù)是在自然的未被控制的條件下觀測到的 稱為觀測數(shù)據(jù) observationaldata 而對于有些問題 比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同 不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒有區(qū)別 用什么成分可以提高某物質(zhì)變成超導(dǎo)體的溫度等等 這種在人工干預(yù)和操作情況下收集的數(shù)據(jù)就稱為試驗數(shù)據(jù) experimentaldata 總體和樣本 要想了解北京市民對建設(shè)北京交通設(shè)施是以包括軌道運輸在內(nèi)的公共交通工具為主還是以小汽車為主的觀點 需要進(jìn)行調(diào)查 調(diào)查對象是所有北京市民 調(diào)查目的是希望知道市民中對這個問題的不同看法各自占有的比例 顯然 不可能去問所有的北京市民 而只能夠問一部分 并且根據(jù)這一部分的觀點來理解整個北京市民的總體觀點 總體和樣本 這種情況下 稱所有 每個 北京市民對這個問題的觀點為一個總體 population 而調(diào)查時問到的那部分市民的觀點為該總體的一個樣本 sample 當(dāng)然 也有可能調(diào)查所有的人 比如人口普查 那叫做普查 census 總體是包含所有要研究的個體 element 的集合 而樣本是總體中選中的一部分 隨機樣本 在抽取樣本時 如果總體中的每一個體都有同等機會被選到樣本中 這種抽樣稱為簡單隨機抽樣 simplerandomsampling 而這樣得到的樣本則稱為隨機樣本 randomsample 隨機樣本 就北京交通問題的調(diào)查為例 在隨機抽樣的情況下 如果樣本量 samplesize 也就是樣本中個體的數(shù)目 在總體中的比例為1 5000 那么 無論在東城區(qū)或者在延慶縣 無論在白領(lǐng)階層還是藍(lán)領(lǐng)階層被問到的人的比例都應(yīng)該大體是1 5000 也就是說 這種比例在總體的任何部分是大體不變的 方便樣本 在實踐中 得到隨機樣本不容易 很多搞調(diào)查的人就采取簡單的辦法 還以北京的交通問題的調(diào)查為例 假定按照隨機選出的電話號碼進(jìn)行調(diào)查 這樣肯定節(jié)省時間和資源 但這樣得到的就不是一個隨機樣本了 如果按照隨機選擇的數(shù)字 無論號碼本上有沒有 打電話 那很多電話是空號或單位電話 顯然這種樣本也不是隨機樣本 它稱為方便樣本 conveniencesample 在調(diào)查中 即使選擇對象的確是隨機的 最理想的情況所得到的樣本也只代表那些愿意回答問題人的觀點所組成的總體 沒有回答問題的人的觀點永遠(yuǎn)不會被這種調(diào)查的樣本所代表 方便樣本 這種不回答的問題是抽樣調(diào)查特有的問題 在其他問題中 也有使用方便樣本的情況 比如在肺癌研究中 人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù) 這些數(shù)據(jù)并不是整個人群中采集的隨機樣本 它們可能只是醫(yī)院中的病人記錄中得到的 在雜志和報紙上也有問卷 但得到的只是擁有這份報刊 而且愿意回答的人的觀點 誤差 假定在某一職業(yè)人群中女性占的比例為60 如果在這個人群中抽取一些隨機樣本 這些隨機樣本中女性的比例并不一定是剛好60 可能稍微多些或稍微少些 這是很正常的 因為樣本的特征不一定和總體完全一樣 這種差異不是錯誤 而是必然會出現(xiàn)的抽樣誤差 samplingerror 剛才提到在抽樣調(diào)查中 一些人因為種種原因沒有對調(diào)查作出反映 或回答 這種誤差稱為未響應(yīng)誤差 nonresponseerror 而另有一些人因為各種原因回答時并沒有真實反映他們的觀點 這稱為響應(yīng)誤差 responseerror 和抽樣誤差不一樣 未響應(yīng)誤差和響應(yīng)誤差都會影響對真實世界的了解 應(yīng)該在設(shè)計調(diào)查方案時盡量避免 抽樣調(diào)查的一些常用方法 在抽樣調(diào)查時 最理想的樣本是前面提到的隨機樣本 但是由于實踐起來不方便 在大規(guī)模調(diào)查時一般不用這種全部隨機抽樣的方式 而只是在局部采用隨機抽樣的方法 下面介紹幾種抽樣方法 這里沒有深奧的理論 讀者完全可以根據(jù)常識判斷在什么情況下簡單的隨機樣本不方便以及下面的每個方法有什么好處和缺陷 對于它們具體的設(shè)計 實施與數(shù)據(jù)分析 有許多專門的書籍 就不在這里贅述了 一些抽樣方法 1 分層抽樣 stratifiedsampling 這是先把要研究的總體按照某些性質(zhì)分類 stratum 再在各類中分別抽取樣本 在每類中調(diào)查的人數(shù)通常是按照這該類人的比例 但出于各種考慮 也可能不按照比例 也可能需要加權(quán) 加權(quán)就是在求若干項的和時 對各項乘以不同的系數(shù) 這些系數(shù)的和通常為1 比如可以按照教育程度把要訪問的人群分成幾類 再在每一類中調(diào)查和該類成比例數(shù)目的人 這樣就確保了每一類都有成比例的代表 一些抽樣方法 2 整群抽樣 clustersampling 這是先把總體劃分成若干群 cluster 再 通常是隨機地 從這些群中抽取幾群 然后再在這些抽取的群中對個體進(jìn)行抽樣 比如 在某縣進(jìn)行調(diào)查 首先在所有村中選取若干村子 然后只對這些村子的人進(jìn)行調(diào)查 顯然 如果各村情況差異不大 這種抽樣還是方便的 否則就會增大誤差了 一些抽樣方法 3 多級抽樣 multistagesampling 在群體很大時 往往在抽取若干群之后 再在其中抽取若干子群 甚至再在子群中抽取子群 等等 最后只對最后選定的最下面一級進(jìn)行調(diào)查 比如在全國調(diào)查時 先抽取省 再抽取市地 再抽取縣區(qū) 再抽取鄉(xiāng) 村直到戶 在多級抽樣中的每一級都可能采取各種抽樣方法 因此 整個抽樣計劃可能比較復(fù)雜 也稱為多級混和型抽樣 一些抽樣方法 4 系統(tǒng)抽樣 systematicsampling 這是先把總體中的每個單元編號 然后隨機選取其中之一作為抽樣的開始點進(jìn)行抽樣 如果編號是隨機選取的 則這和簡單隨機抽樣是等價的 在選取開始點之后 通常從開始點開始按照編號進(jìn)行所謂等距抽樣 也就是說 如果開始點為5號 距離 為10 則下面的調(diào)查對象為15號 25號等等 抽樣方法的選擇不能一概而論 實際上每個抽樣通常都可能是各種抽樣方法的組合 既要考慮精確度 還要根據(jù)客觀情況考慮方便性 可行性和經(jīng)濟(jì)性 不能一概而論 計算機中常用的數(shù)據(jù)形式 數(shù)據(jù)是由一些變量和它們的觀測值所組成 下面就是調(diào)查人們對某個問題觀點的一個數(shù)據(jù)的方陣形式 其中有6個變量 觀點 觀測值為支持 反對和不知道三種 教育程度 有高中低三種取值 用H M L表示 月收入 取值為實際數(shù)字 性別 取值有男女兩個 用M和F表示 以及地區(qū)號 用數(shù)字1 2 3 4表示 等 該表一共有1364個觀測值 問卷回答 可以看出這些變量有定性 屬性 變量 也有定量 數(shù)值 變量 按照這個數(shù)據(jù)的格式 每一列為一個變量的不同觀測值 而每一行則稱為一個觀測值 它是個由數(shù)量值和屬性值組成的向量 每一個值相應(yīng)于一個變量 思考 1 舉出一些觀測數(shù)據(jù)和試驗數(shù)據(jù)的例子 2 舉出簡單隨機樣本的例子 3 根據(jù)你的經(jīng)驗 舉出總體和樣本的一些具體例子 4 舉出調(diào)查抽樣時可能發(fā)生的各種影響調(diào)查結(jié)果的問題 并且提出你認(rèn)為可以減少或避免這些問題的建議 5 根據(jù)你的直覺 本章提到的幾種抽樣方法的優(yōu)缺點是什么 原因何在 6 舉出一些書報上發(fā)表的數(shù)據(jù)例子 并指出那些是變量 哪些是觀測值 數(shù)據(jù)的描述 如同給人畫像一樣 直方圖 比如某個地區(qū) 地區(qū)1 學(xué)校高三男生的身高 有163個度量如何用圖形來表示這個數(shù)據(jù) 使人們能夠看出這個數(shù)據(jù)的大體分布或 形狀 呢 一個辦法就是畫一個直方圖 histogram 盒型圖 比直方圖簡單一些的是盒形圖 boxplot 又稱箱圖 箱線圖 盒子圖 后面圖的左邊一個是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖 其右邊的圖代表另一個地區(qū) 地區(qū)2 的高三學(xué)生的身高 莖葉圖 地區(qū)1高三男生身高數(shù)據(jù)的莖葉圖 HEIGHTStem and LeafPlotFrequencyStem Leaf9 0015 00122334417 0015 5566666777889999920 0016 0111222222333333344435 0016 5555566666666777778888888888899999925 0017 000000001111222223333334424 0017 55566667777777777788889913 0018 011111112233311 0018 556677888994 0019 23332 0019 563 00Extremes 198 Stemwidth 10 00Eachleaf 1case s 散點圖 往往人們得到的數(shù)據(jù)有兩個變量的 比如美國男士和女士初婚年限的數(shù)據(jù) 該數(shù)據(jù)描述了自1900年到1998年男女第一次結(jié)婚延續(xù)的時間的中位數(shù) 當(dāng)然 不可能將所有人的婚姻年限都給出來 所以 每年就取了一個中間的值 中位數(shù) 作為代表 自1900到1960年是每十年一個值 以后到1990是每五年取一個數(shù) 1995年以后是每年一個數(shù) 這里的一個變量為記錄年份 另一個是結(jié)婚時間長短 由于分男士和女士 因此有兩二維數(shù)據(jù) 這時可以以一個變量為橫坐標(biāo) 如年份 另一個為縱坐標(biāo) 這里是結(jié)婚年限 來點圖 這種圖稱為散點圖 scatterplot 還可以看出在二十世紀(jì)六十年代婚姻年限降低 而后來又升高 而男子的年限平均比女性長 這個圖是用SPSS畫的 定性變量的點圖 定性變量 或?qū)傩宰兞?分類變量 不能點出直方圖 散點圖或莖葉圖 但可以描繪出它們各類的比例 下面用SPSS繪的圖表示了說世界各種主要語言的人數(shù)的比例 餅圖 條形圖 匯總統(tǒng)計量或概括統(tǒng)計量 summarystatistic 匯總統(tǒng)計量 位置 均值 mean 中位數(shù) median 第一 第三 四分位數(shù) 點 firstquantile thirdquantile k 百分位數(shù) k percentile 眾數(shù) mode 匯總統(tǒng)計量 尺度 scalestatistic 極差 range 四分位間距 四分位極差 interquantilerange 標(biāo)準(zhǔn)差 standarddeviation 方差 variance 兩個尺度不同的數(shù)據(jù)的直方圖 左邊的標(biāo)準(zhǔn)差大約只有右邊的一半 數(shù)據(jù)的標(biāo)準(zhǔn)得分 standardscore 兩個水平類似的班級 一班和二班 上同一門課 但是由于兩個任課老師的評分標(biāo)準(zhǔn)不同 使得兩個班成績的均值和標(biāo)準(zhǔn)差都不一樣 數(shù)據(jù) grade sav 一班分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差分別為78 53和9 43 而二班的均值和標(biāo)準(zhǔn)差分別為70 19和7 00 那么得到90分的一班的張穎是不是比得到82分的二班的劉疏成績更好呢 怎么比較才能合理呢 雖然這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較 但是可以把它們進(jìn)行標(biāo)準(zhǔn)化 然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù) 一個標(biāo)準(zhǔn)化的方法是把原始觀測值 亦稱得分 score 和均值之差除以標(biāo)準(zhǔn)差 得到的度量稱為標(biāo)準(zhǔn)得分 standardscore 思考 1 根據(jù)你的經(jīng)驗 給出定性和定量變量的例子 2 對于問題1中你的例子 試圖畫出各種描述性圖形并計算匯總統(tǒng)計量 3 舉例說明眾數(shù) 中位數(shù)和均值的優(yōu)缺點 4 舉例說明尺度統(tǒng)計量說明了數(shù)據(jù)的什么特性 5 標(biāo)準(zhǔn)得分實際上是對原始數(shù)據(jù)的一種標(biāo)準(zhǔn)化 試舉出標(biāo)準(zhǔn)得分的用處 統(tǒng)計推斷 從數(shù)據(jù)得到對現(xiàn)實世界的結(jié)論的過程 估計 總體它代表我們所關(guān)心的那部分現(xiàn)實世界 而在利用樣本中的信息來對總體進(jìn)行推斷之前人們一般對代表總體的變量假定了分布族 比如假定人們的身高屬于正態(tài)分布族 對抽樣調(diào)查假定了二項分布族等等 這些模型基本上是根據(jù)經(jīng)驗來假定的 所以僅僅是對現(xiàn)實世界的一個近似 在假定了總體分布族之后 進(jìn)一步對總體的認(rèn)識就是要在這個分布族中選擇一個適合于我們問題的分布 由于分布族成員是由參數(shù)確定的 如果參數(shù)能夠估計 對總體的具體分布就知道得差不多了 估計 一種是點估計 pointestimation 也就是用估計量的實現(xiàn)值來近似相應(yīng)的總體參數(shù) 另一種是區(qū)間估計 intervalestimation 它是包括估計量在內(nèi) 有時是以估計量為中心 的一個區(qū)間 該區(qū)間被認(rèn)為很可能包含總體參數(shù) 點估計給出一個數(shù)字 用起來很方便 而區(qū)間估計給出一個區(qū)間 說起來留有余地 不象點估計那么絕對 無偏估計 大樣本性質(zhì) 區(qū)間估計的置信度 大樣本性質(zhì) 估計 注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成 有些新聞媒體報道一些調(diào)查結(jié)果只給出百分比和誤差 即置信區(qū)間 并不說明置信度 也不給出被調(diào)查的人數(shù) 這是不負(fù)責(zé)的表現(xiàn) 因為降低置信度可以使置信區(qū)間變窄 顯得 精確 有誤導(dǎo)讀者之嫌 如果給出被調(diào)查的人數(shù) 則內(nèi)行可以由推算出置信度 由后面給出的公式 反之亦然 一個描述性例子 一個有10000個人回答的調(diào)查顯示 同意某種觀點的人的比例為70 有7000人同意 可以算出總體中同意該觀點的比例的95 置信區(qū)間為 0 691 0 709 另一個調(diào)查聲稱有70 的比例反對該種觀點 還說總體中反對該觀點的置信區(qū)間也是 0 691 0 709 到底相信誰呢 實際上 第二個調(diào)查隱瞞了置信度 等價于隱瞞了樣本量 如果第二個調(diào)查僅僅調(diào)查了50個人 有35個人反對該觀點 根據(jù)后面的公式可以算出 第二個調(diào)查的置信區(qū)間的置信度僅有11 假設(shè)檢驗 在假設(shè)檢驗中 一般要設(shè)立一個原假設(shè) 而設(shè)立該假設(shè)的動機主要是企圖利用人們掌握的反映現(xiàn)實世界的數(shù)據(jù)來找出假設(shè)和現(xiàn)實的矛盾 從而否定這個假設(shè) 在多數(shù)統(tǒng)計教科書中 除了理論探討之外 的假設(shè)檢驗都是以否定原假設(shè)為目標(biāo) 如果否定不了 那就說明證據(jù)不足 無法否定原假設(shè) 但這不能說明原假設(shè)正確 很多教科書在這個問題上不適當(dāng)?shù)赜?接受原假設(shè) 的說法 犯了明顯的低級邏輯錯誤 假設(shè)檢驗的過程和邏輯 首先要提出一個原假設(shè) 比如某正態(tài)總體的均值等于5 m 5 這種原假設(shè)也稱為零假設(shè) nullhypothesis 記為H0 與此同時必須提出對立假設(shè) 比如總體均值大于5 m 5 對立假設(shè)又稱為備選假設(shè)或備擇假設(shè) alternativehypothesis 記為記為H1或Ha 假設(shè)檢驗的過程和邏輯 根據(jù)零假設(shè) 不是備選假設(shè) 我們可以得到該檢驗統(tǒng)計量的分布 然后再看這個統(tǒng)計量的數(shù)據(jù)實現(xiàn)值 realization 屬不屬于小概率事件 也就是說把數(shù)據(jù)代入檢驗統(tǒng)計量 看其值是否落入零假設(shè)下的小概率范疇 如果的確是小概率事件 那么我們就有可能拒絕零假設(shè) 否則我們說沒有足夠證據(jù)拒絕零假設(shè) 假設(shè)檢驗的過程和邏輯 注意 零假設(shè)和備選假設(shè)在假設(shè)檢驗中并不對稱 因檢驗統(tǒng)計量的分布是從零假設(shè)導(dǎo)出的 因此 如果發(fā)生矛盾 當(dāng)然就對零假設(shè)不利了 不發(fā)生矛盾也不說明備選假設(shè)有問題 因為和備選假設(shè)無關(guān) 假設(shè)檢驗的過程和邏輯 檢驗統(tǒng)計量在零假設(shè)下等于這個樣本的數(shù)據(jù)實現(xiàn)值或更加極端值的概率稱為p 值 p value 顯然得到很小p 值意味著小概率事件發(fā)生了 如果小概率事件發(fā)生 是相信零假設(shè) 還是相信數(shù)據(jù)呢 當(dāng)然是相信數(shù)據(jù) 于是就拒絕零假設(shè) 但小概率并不能說明不會發(fā)生 僅僅發(fā)生的概率很小罷了 拒絕正確零假設(shè)的錯誤常被稱為第一類錯誤 typeIerror 假設(shè)檢驗的過程和邏輯 有第一類錯誤 就有第二類錯誤 那是備選零假設(shè)正確時反而說零假設(shè)正確的錯誤 稱為第二類錯誤 typeIIerror 零假設(shè)和備選假設(shè)哪一個正確 這是確定性的 沒有概率可言 而可能犯錯誤的是人 涉及假設(shè)檢驗的犯錯誤的概率就是犯第一類錯誤的概率和犯第二類錯誤的概率 負(fù)責(zé)的態(tài)度是無論做出什么決策 都應(yīng)該給出犯錯誤的概率 假設(shè)檢驗的過程和邏輯 到底p 值是多小才能夠拒絕零假設(shè)呢 也就是說 需要有什么是小概率的標(biāo)準(zhǔn) 這要看具體應(yīng)用的需要 但在一般的統(tǒng)計書和軟件中 使用最多的標(biāo)準(zhǔn)是在零假設(shè)下 或零假設(shè)正確時 抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應(yīng)小于0 05 也可能是0 01 0 005 0 001等等 這種事先規(guī)定的概率稱為顯著性水平 significancelevel 用字母a來表示 當(dāng)p 值小于或等于a時 就拒絕零假設(shè) 所以 a是所允許
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 運動形態(tài)測試題及答案
- 銀行柜員基本技能培訓(xùn)
- 新生兒乳糜胸的個案護(hù)理
- 畫師助教面試題及答案
- 衡陽日報面試題及答案
- 交通設(shè)計考試題及答案
- java專員面試題及答案
- 軟水維修考試題及答案
- java隊列面試題及答案
- 武漢金山j(luò)ava面試題及答案
- 上海交通大學(xué)畢業(yè)生思想政治品德情況表
- 23秋國家開放大學(xué)《EXCEL在財務(wù)中的應(yīng)用》形考作業(yè)1-4參考答案
- 有限空間監(jiān)理實施細(xì)則
- 新產(chǎn)品制造可行性及風(fēng)險分析報告
- 采購預(yù)付款合同
- 2023年瀘州市文化和旅游系統(tǒng)事業(yè)單位招聘筆試模擬試題及答案
- 醫(yī)療器械行業(yè)市場部人員崗位職責(zé)
- (中醫(yī)內(nèi)科)高級、副高級職稱考試模擬試題及答案
- 跌倒墜床原因分析預(yù)防措施
- 弱電施工安全技術(shù)交底
- 安全生產(chǎn)知識應(yīng)知應(yīng)會
評論
0/150
提交評論