家具行業(yè)的相關(guān)統(tǒng)計知識.ppt

上傳人：千*** IP屬地：江蘇上傳時間：2020-03-07 格式：PPT 頁數(shù)：77 大?。?40.50KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩72頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

本課內(nèi)容包含統(tǒng)計回顧主成分分析和因子分析聚類分析判別分析典型相關(guān)分析對應(yīng)分析列聯(lián)表Logistic回歸Poisson對數(shù)線性模型時間序列分析統(tǒng)計基本概念回顧隨機性和規(guī)律性現(xiàn)實中的隨機性和規(guī)律性從中學(xué)起我們就知道自然科學(xué)的許多定律例如物理中的牛頓三定律物質(zhì)不滅定律以及化學(xué)中的各種定律等等但是在許多領(lǐng)域很難用如此確定的公式或論述來描述一些現(xiàn)象比如人的壽命是很難預(yù)先確定的一個吸煙喝酒不鍛煉而且一口長葷的人可能比一個很少得病生活習(xí)慣良好的人活得長因此可以說活得長短是有一定隨機性的 randomness 這種隨機性可能和人的經(jīng)歷基因習(xí)慣等無數(shù)說不清的因素都有關(guān)系現(xiàn)實中的隨機性和規(guī)律性但是從總體來說我國公民的平均年齡卻是非常穩(wěn)定的而且女性的平均年齡也穩(wěn)定地比男性高幾年這就是規(guī)律性一個人可能活過這個平均年齡也可能活不到這個年齡這是隨機的但是總體來說平均年齡的穩(wěn)定性卻說明了隨機之中有規(guī)律性這種規(guī)律就是統(tǒng)計規(guī)律概率和機會你可能經(jīng)常聽到概率 probability 這個名詞例如在天氣預(yù)報中會提到降水概率大家都明白如果降水概率是百分之九十那就很可能下雨但如果是百分之十就不大可能下雨因此從某種意義說來概率描述了某件事情發(fā)生的機會顯然這種概率不可能超過百分之百也不可能少于百分之零換言之概率是在0和1之間的一個數(shù) 說明某事件發(fā)生的機會有多大有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概率是百分之八十但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八其實你想說的是你很可能去但又沒有完全肯定實際上到了周末你或者去或者不去不可能有分身術(shù)把百分之八十的你放到公園而其余的放在別處有些概率是可以估計的比如擲骰子只要沒有人在骰子上做手腳你得到6點的概率應(yīng)該是六分之一得到其他點的概率也是一樣得到6的概率或者機會是可以知道的但擲骰子的結(jié)果還只可能是六個數(shù)目之一這個已知的規(guī)律就反映了規(guī)律性而得到哪個結(jié)果則反映了隨機性如果你擲1000次骰子那么大約有六分之一的可能會得到6 這也是隨機性呈現(xiàn)有規(guī)律的一個體現(xiàn) 變量做任何事情都要有對象比如一個班上注冊的學(xué)生有200人這是一個固定的數(shù)目稱為常數(shù) constant 或者常量但是如果猜測今天這個班有多少人會來上課那就沒準(zhǔn)了這有隨機性可能有請病假或事假的也可能有逃課的這樣就要來上課的人數(shù)是個變量 variable 另外對于某項政策同意與否的回答也有同意不同意或者不知道三種可能值這也是變量只不過不是數(shù)量而已變量當(dāng)變量按照隨機規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)量變量 quantitativevariable 因為是隨機的也稱為隨機變量 randomvariable 象性別觀點之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞?qualitativevariable categoricalvariable 這些定性變量也可以由隨機變量來描述比如男性和女性的數(shù)目同意某政策人數(shù)的比例等等只有當(dāng)變量用數(shù)量來描述時才有可能建立數(shù)學(xué)模型才可能使用計算機來分析數(shù)據(jù) 有了變量的概念什么是數(shù)據(jù)呢拿擲骰子來說擲骰子會得到什么值是個隨機變量而每次取得1至6點中任意點數(shù)的概率它在理論上都是六分之一如果骰子公平這依賴于在擲骰子背后的理論或假定而在實際擲骰子過程中如果擲100次會得到100個由1至6點組成的數(shù)字串再擲100次又得到一個數(shù)字串和前一次的結(jié)果多半不一樣這些試驗結(jié)果就是數(shù)據(jù) 所以說數(shù)據(jù)是關(guān)于變量的觀測值通過數(shù)據(jù)可以驗證有關(guān)的理論或假定比如每一次得到每個點的概率是不是1 6等等對于顧客是否喜歡某種飲品的調(diào)查也類似但這里不象擲骰子那樣事先可以大致猜測顧客喜歡與否的概率在問了1000人之后可能有364人說喜歡而480人說不喜歡其余的人可能不回答或說不知道或從來沒有喝過這種飲料這些數(shù)目就是數(shù)據(jù) 當(dāng)然它僅僅反映了1000個被問到的人的觀點但這對于估計整個消費群體的觀點還是有用的統(tǒng)計和計算機現(xiàn)代生活越來越離不開計算機了最早使用計算機的統(tǒng)計當(dāng)然更離不開計算機了事實上最初的計算機僅僅是為科學(xué)計算而建造的大型計算機的最早一批用戶就包含統(tǒng)計而現(xiàn)在統(tǒng)計仍然是進(jìn)行數(shù)字計算最多的用戶計算機現(xiàn)在早已脫離了僅有計算功能的單一模式而成為百姓生活的一部分計算機的使用也從過去必須學(xué)會計算機語言到只需要傻瓜式地點擊鼠標(biāo) 結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式統(tǒng)計軟件統(tǒng)計軟件的發(fā)展也使得統(tǒng)計從統(tǒng)計學(xué)家的圈內(nèi)游戲變成了大眾的游戲只要你輸入你的數(shù)據(jù) 點幾下鼠標(biāo) 做一些選項馬上就得到令人驚嘆的漂亮結(jié)果了你可能會問是否傻瓜式的統(tǒng)計軟件使用可以代替統(tǒng)計課程了當(dāng)然不是數(shù)據(jù)的整理和識別方法的選用計算機輸出結(jié)果的理解都不象使用傻瓜相機那樣簡單可靠統(tǒng)計軟件有些諸如法律和醫(yī)學(xué)方面的軟件都有不少警告不時提醒你去咨詢專家但統(tǒng)計軟件則不那么負(fù)責(zé) 只要數(shù)據(jù)格式無誤方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果而且沒有任何警告另外統(tǒng)計軟件輸出的結(jié)果太多即使是同樣的方法不同軟件輸出的內(nèi)容還不一樣有時同樣的內(nèi)容名稱也不一樣這就使得使用者大傷腦筋即使是統(tǒng)計學(xué)家也不一定能解釋所有的輸出因此就應(yīng)該特別留神明白自己是在干什么不要在得到一堆毫無意義的垃圾之后還沾沾自喜統(tǒng)計軟件統(tǒng)計軟件的種類很多有些功能齊全有些價格便宜有些容易操作有些需要更多的實踐才能掌握還有些是專門的軟件只處理某一類統(tǒng)計問題面對太多的選擇往往給決策帶來困難這里介紹最常見的幾種統(tǒng)計軟件 SPSS 這是一個很受歡迎的統(tǒng)計軟件它容易操作輸出漂亮功能齊全價格合理對于非統(tǒng)計工作者是很好的選擇 Excel 它嚴(yán)格說來并不是統(tǒng)計軟件但作為數(shù)據(jù)表格軟件必然有一定統(tǒng)計計算功能而且凡是有MicrosoftOffice的計算機基本上都裝有Excel 但要注意有時在裝Office時沒有裝數(shù)據(jù)分析的功能那就必須裝了才行當(dāng)然畫圖功能是都具備的對于簡單分析 Excel還算方便但隨著問題的深入 Excel就不那么傻瓜需要使用函數(shù) 甚至根本沒有相應(yīng)的方法了多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理 SAS 這是功能非常齊全的軟件盡管價格不菲許多公司還是因為其功能眾多和某些美國政府機構(gòu)認(rèn)可而使用盡管現(xiàn)在已經(jīng)盡量傻瓜化仍然需要一定的訓(xùn)練才可以進(jìn)入對于基本統(tǒng)計課程則不那么方便統(tǒng)計軟件 S plus 這是統(tǒng)計學(xué)家喜愛的軟件不僅由于其功能齊全而且由于其強大的編程功能使得研究人員可以編制自己的程序來實現(xiàn)自己的理論和方法它也在進(jìn)行傻瓜化以爭取顧客但仍然以編程方便為顧客所青睞 R軟件這是一個免費的由志愿者管理的軟件其編程語言與S plus所基于的S語言一樣很方便還有不斷加入的各個方向統(tǒng)計學(xué)家編寫的統(tǒng)計軟件包同時從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序這是發(fā)展最快的軟件受到世界上統(tǒng)計師生的歡迎是用戶量增加最快的統(tǒng)計軟件對于一般非統(tǒng)計工作者來說主要問題是它沒有傻瓜化統(tǒng)計軟件 Minitab 這個軟件是很方便的功能強大而又齊全的軟件也已經(jīng) 傻瓜化在我國用的不如SPSS與SAS那么普遍 Statistica 也是功能強大而齊全的傻瓜化的軟件在我國用的也不如SAS與SPSS那么普遍 Eviews 這是一個主要處理回歸和時間序列的軟件 GAUSS 這是一個很好用的統(tǒng)計軟件許多搞經(jīng)濟(jì)的喜歡它主要也是編程功能強大目前在我國使用的人不多 FORTRAN 這是應(yīng)用于各個領(lǐng)域的歷史很長的非常優(yōu)秀的編程軟件功能強大也有一定的統(tǒng)計軟件包計算速度比這里介紹的都快得多但需要編程和編譯操作不那么容易 MATLAB 這也是應(yīng)用于各個領(lǐng)域的以編程為主的軟件在工程上應(yīng)用廣泛編程類似于S和R 但是統(tǒng)計方法不多統(tǒng)計軟件當(dāng)然還有其他的軟件沒有必要一一羅列其實聰明的讀者只要學(xué)會使用一種傻瓜式軟件使用其他的僅僅是舉一反三之勞最多看看幫助和說明即可如果只有英文幫助那還可以順便提高你的英文閱讀能力想想看舉出你所知道的統(tǒng)計應(yīng)用例子舉出日常生活中隨機性和規(guī)律性的例子你使用過統(tǒng)計軟件或者利用過其他軟件中的統(tǒng)計功能嗎你有什么經(jīng)驗和體會數(shù)據(jù)的收集二手?jǐn)?shù)據(jù) 每天翻開報紙或打開電視就可以看到各種數(shù)據(jù) 比如高速公路通車?yán)锍?物價指數(shù) 股票行情外匯牌價犯罪率房價流行病的有關(guān)數(shù)據(jù) 確診病例疑似病例死亡人數(shù)和出院人數(shù)等等當(dāng)然還有國家統(tǒng)計局定期發(fā)布的各種國家經(jīng)濟(jì)數(shù)據(jù) 海關(guān)發(fā)布的進(jìn)出口貿(mào)易數(shù)據(jù)等等從中可以選取對自己有用的信息這些間接得到的數(shù)據(jù)都是二手?jǐn)?shù)據(jù) 第一手?jǐn)?shù)據(jù) 獲得第一手?jǐn)?shù)據(jù)并不象得到二手?jǐn)?shù)據(jù)那么輕松某些在華的外資企業(yè)每年至少要花三四千萬元來收集和分析數(shù)據(jù) 他們調(diào)查其產(chǎn)品目前在市場中的狀況和地位并確定其競爭對手的態(tài)勢他們調(diào)查不同地區(qū) 不同階層的民眾對其產(chǎn)品的認(rèn)知程度和購買意愿以改進(jìn)產(chǎn)品或推出新品種爭取新顧客他們還收集各地方的經(jīng)濟(jì)交通等信息以決定如何保住現(xiàn)有市場和開發(fā)新市場市場信息數(shù)據(jù)對企業(yè)是至關(guān)重要的他們很舍得在這方面花錢因為這是企業(yè)生存所必需的絕不是可有可無的觀測數(shù)據(jù)和試驗數(shù)據(jù) 上面所說的數(shù)據(jù)是在自然的未被控制的條件下觀測到的稱為觀測數(shù)據(jù) observationaldata 而對于有些問題比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒有區(qū)別用什么成分可以提高某物質(zhì)變成超導(dǎo)體的溫度等等這種在人工干預(yù)和操作情況下收集的數(shù)據(jù)就稱為試驗數(shù)據(jù) experimentaldata 總體和樣本要想了解北京市民對建設(shè)北京交通設(shè)施是以包括軌道運輸在內(nèi)的公共交通工具為主還是以小汽車為主的觀點需要進(jìn)行調(diào)查調(diào)查對象是所有北京市民調(diào)查目的是希望知道市民中對這個問題的不同看法各自占有的比例顯然不可能去問所有的北京市民而只能夠問一部分并且根據(jù)這一部分的觀點來理解整個北京市民的總體觀點總體和樣本這種情況下稱所有每個北京市民對這個問題的觀點為一個總體 population 而調(diào)查時問到的那部分市民的觀點為該總體的一個樣本 sample 當(dāng)然也有可能調(diào)查所有的人比如人口普查那叫做普查 census 總體是包含所有要研究的個體 element 的集合而樣本是總體中選中的一部分隨機樣本在抽取樣本時如果總體中的每一個體都有同等機會被選到樣本中這種抽樣稱為簡單隨機抽樣 simplerandomsampling 而這樣得到的樣本則稱為隨機樣本 randomsample 隨機樣本就北京交通問題的調(diào)查為例在隨機抽樣的情況下如果樣本量 samplesize 也就是樣本中個體的數(shù)目在總體中的比例為1 5000 那么無論在東城區(qū)或者在延慶縣無論在白領(lǐng)階層還是藍(lán)領(lǐng)階層被問到的人的比例都應(yīng)該大體是1 5000 也就是說這種比例在總體的任何部分是大體不變的方便樣本在實踐中得到隨機樣本不容易很多搞調(diào)查的人就采取簡單的辦法還以北京的交通問題的調(diào)查為例假定按照隨機選出的電話號碼進(jìn)行調(diào)查這樣肯定節(jié)省時間和資源但這樣得到的就不是一個隨機樣本了如果按照隨機選擇的數(shù)字無論號碼本上有沒有打電話那很多電話是空號或單位電話顯然這種樣本也不是隨機樣本它稱為方便樣本 conveniencesample 在調(diào)查中即使選擇對象的確是隨機的最理想的情況所得到的樣本也只代表那些愿意回答問題人的觀點所組成的總體沒有回答問題的人的觀點永遠(yuǎn)不會被這種調(diào)查的樣本所代表方便樣本這種不回答的問題是抽樣調(diào)查特有的問題在其他問題中也有使用方便樣本的情況比如在肺癌研究中人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù) 這些數(shù)據(jù)并不是整個人群中采集的隨機樣本它們可能只是醫(yī)院中的病人記錄中得到的在雜志和報紙上也有問卷但得到的只是擁有這份報刊而且愿意回答的人的觀點誤差假定在某一職業(yè)人群中女性占的比例為60 如果在這個人群中抽取一些隨機樣本這些隨機樣本中女性的比例并不一定是剛好60 可能稍微多些或稍微少些這是很正常的因為樣本的特征不一定和總體完全一樣這種差異不是錯誤而是必然會出現(xiàn)的抽樣誤差 samplingerror 剛才提到在抽樣調(diào)查中一些人因為種種原因沒有對調(diào)查作出反映或回答這種誤差稱為未響應(yīng)誤差 nonresponseerror 而另有一些人因為各種原因回答時并沒有真實反映他們的觀點這稱為響應(yīng)誤差 responseerror 和抽樣誤差不一樣未響應(yīng)誤差和響應(yīng)誤差都會影響對真實世界的了解應(yīng)該在設(shè)計調(diào)查方案時盡量避免抽樣調(diào)查的一些常用方法在抽樣調(diào)查時最理想的樣本是前面提到的隨機樣本但是由于實踐起來不方便在大規(guī)模調(diào)查時一般不用這種全部隨機抽樣的方式而只是在局部采用隨機抽樣的方法下面介紹幾種抽樣方法這里沒有深奧的理論讀者完全可以根據(jù)常識判斷在什么情況下簡單的隨機樣本不方便以及下面的每個方法有什么好處和缺陷對于它們具體的設(shè)計實施與數(shù)據(jù)分析有許多專門的書籍就不在這里贅述了一些抽樣方法 1 分層抽樣 stratifiedsampling 這是先把要研究的總體按照某些性質(zhì)分類 stratum 再在各類中分別抽取樣本在每類中調(diào)查的人數(shù)通常是按照這該類人的比例但出于各種考慮也可能不按照比例也可能需要加權(quán) 加權(quán)就是在求若干項的和時對各項乘以不同的系數(shù) 這些系數(shù)的和通常為1 比如可以按照教育程度把要訪問的人群分成幾類再在每一類中調(diào)查和該類成比例數(shù)目的人這樣就確保了每一類都有成比例的代表一些抽樣方法 2 整群抽樣 clustersampling 這是先把總體劃分成若干群 cluster 再通常是隨機地從這些群中抽取幾群然后再在這些抽取的群中對個體進(jìn)行抽樣比如在某縣進(jìn)行調(diào)查首先在所有村中選取若干村子然后只對這些村子的人進(jìn)行調(diào)查顯然如果各村情況差異不大這種抽樣還是方便的否則就會增大誤差了一些抽樣方法 3 多級抽樣 multistagesampling 在群體很大時往往在抽取若干群之后再在其中抽取若干子群甚至再在子群中抽取子群等等最后只對最后選定的最下面一級進(jìn)行調(diào)查比如在全國調(diào)查時先抽取省再抽取市地再抽取縣區(qū) 再抽取鄉(xiāng) 村直到戶在多級抽樣中的每一級都可能采取各種抽樣方法因此整個抽樣計劃可能比較復(fù)雜也稱為多級混和型抽樣一些抽樣方法 4 系統(tǒng)抽樣 systematicsampling 這是先把總體中的每個單元編號然后隨機選取其中之一作為抽樣的開始點進(jìn)行抽樣如果編號是隨機選取的則這和簡單隨機抽樣是等價的在選取開始點之后通常從開始點開始按照編號進(jìn)行所謂等距抽樣也就是說如果開始點為5號距離為10 則下面的調(diào)查對象為15號 25號等等抽樣方法的選擇不能一概而論實際上每個抽樣通常都可能是各種抽樣方法的組合既要考慮精確度還要根據(jù)客觀情況考慮方便性可行性和經(jīng)濟(jì)性不能一概而論計算機中常用的數(shù)據(jù)形式數(shù)據(jù)是由一些變量和它們的觀測值所組成下面就是調(diào)查人們對某個問題觀點的一個數(shù)據(jù)的方陣形式其中有6個變量觀點觀測值為支持反對和不知道三種教育程度有高中低三種取值用H M L表示月收入取值為實際數(shù)字性別取值有男女兩個用M和F表示以及地區(qū)號用數(shù)字1 2 3 4表示等該表一共有1364個觀測值問卷回答可以看出這些變量有定性屬性變量也有定量數(shù)值變量按照這個數(shù)據(jù)的格式每一列為一個變量的不同觀測值而每一行則稱為一個觀測值它是個由數(shù)量值和屬性值組成的向量每一個值相應(yīng)于一個變量思考 1 舉出一些觀測數(shù)據(jù)和試驗數(shù)據(jù)的例子 2 舉出簡單隨機樣本的例子 3 根據(jù)你的經(jīng)驗舉出總體和樣本的一些具體例子 4 舉出調(diào)查抽樣時可能發(fā)生的各種影響調(diào)查結(jié)果的問題并且提出你認(rèn)為可以減少或避免這些問題的建議 5 根據(jù)你的直覺本章提到的幾種抽樣方法的優(yōu)缺點是什么原因何在 6 舉出一些書報上發(fā)表的數(shù)據(jù)例子并指出那些是變量哪些是觀測值數(shù)據(jù)的描述如同給人畫像一樣直方圖比如某個地區(qū) 地區(qū)1 學(xué)校高三男生的身高有163個度量如何用圖形來表示這個數(shù)據(jù) 使人們能夠看出這個數(shù)據(jù)的大體分布或形狀呢一個辦法就是畫一個直方圖 histogram 盒型圖比直方圖簡單一些的是盒形圖 boxplot 又稱箱圖箱線圖盒子圖后面圖的左邊一個是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖其右邊的圖代表另一個地區(qū) 地區(qū)2 的高三學(xué)生的身高莖葉圖地區(qū)1高三男生身高數(shù)據(jù)的莖葉圖 HEIGHTStem and LeafPlotFrequencyStem Leaf9 0015 00122334417 0015 5566666777889999920 0016 0111222222333333344435 0016 5555566666666777778888888888899999925 0017 000000001111222223333334424 0017 55566667777777777788889913 0018 011111112233311 0018 556677888994 0019 23332 0019 563 00Extremes 198 Stemwidth 10 00Eachleaf 1case s 散點圖往往人們得到的數(shù)據(jù)有兩個變量的比如美國男士和女士初婚年限的數(shù)據(jù) 該數(shù)據(jù)描述了自1900年到1998年男女第一次結(jié)婚延續(xù)的時間的中位數(shù) 當(dāng)然不可能將所有人的婚姻年限都給出來所以每年就取了一個中間的值中位數(shù) 作為代表自1900到1960年是每十年一個值以后到1990是每五年取一個數(shù) 1995年以后是每年一個數(shù) 這里的一個變量為記錄年份另一個是結(jié)婚時間長短由于分男士和女士因此有兩二維數(shù)據(jù) 這時可以以一個變量為橫坐標(biāo) 如年份另一個為縱坐標(biāo) 這里是結(jié)婚年限來點圖這種圖稱為散點圖 scatterplot 還可以看出在二十世紀(jì)六十年代婚姻年限降低而后來又升高而男子的年限平均比女性長這個圖是用SPSS畫的定性變量的點圖定性變量或?qū)傩宰兞?分類變量不能點出直方圖散點圖或莖葉圖但可以描繪出它們各類的比例下面用SPSS繪的圖表示了說世界各種主要語言的人數(shù)的比例餅圖條形圖匯總統(tǒng)計量或概括統(tǒng)計量 summarystatistic 匯總統(tǒng)計量位置均值 mean 中位數(shù) median 第一第三四分位數(shù) 點 firstquantile thirdquantile k 百分位數(shù) k percentile 眾數(shù) mode 匯總統(tǒng)計量尺度 scalestatistic 極差 range 四分位間距四分位極差 interquantilerange 標(biāo)準(zhǔn)差 standarddeviation 方差 variance 兩個尺度不同的數(shù)據(jù)的直方圖左邊的標(biāo)準(zhǔn)差大約只有右邊的一半數(shù)據(jù)的標(biāo)準(zhǔn)得分 standardscore 兩個水平類似的班級一班和二班上同一門課但是由于兩個任課老師的評分標(biāo)準(zhǔn)不同使得兩個班成績的均值和標(biāo)準(zhǔn)差都不一樣數(shù)據(jù) grade sav 一班分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差分別為78 53和9 43 而二班的均值和標(biāo)準(zhǔn)差分別為70 19和7 00 那么得到90分的一班的張穎是不是比得到82分的二班的劉疏成績更好呢怎么比較才能合理呢雖然這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較但是可以把它們進(jìn)行標(biāo)準(zhǔn)化然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù) 一個標(biāo)準(zhǔn)化的方法是把原始觀測值亦稱得分 score 和均值之差除以標(biāo)準(zhǔn)差得到的度量稱為標(biāo)準(zhǔn)得分 standardscore 思考 1 根據(jù)你的經(jīng)驗給出定性和定量變量的例子 2 對于問題1中你的例子試圖畫出各種描述性圖形并計算匯總統(tǒng)計量 3 舉例說明眾數(shù) 中位數(shù)和均值的優(yōu)缺點 4 舉例說明尺度統(tǒng)計量說明了數(shù)據(jù)的什么特性 5 標(biāo)準(zhǔn)得分實際上是對原始數(shù)據(jù)的一種標(biāo)準(zhǔn)化試舉出標(biāo)準(zhǔn)得分的用處統(tǒng)計推斷從數(shù)據(jù)得到對現(xiàn)實世界的結(jié)論的過程估計總體它代表我們所關(guān)心的那部分現(xiàn)實世界而在利用樣本中的信息來對總體進(jìn)行推斷之前人們一般對代表總體的變量假定了分布族比如假定人們的身高屬于正態(tài)分布族對抽樣調(diào)查假定了二項分布族等等這些模型基本上是根據(jù)經(jīng)驗來假定的所以僅僅是對現(xiàn)實世界的一個近似在假定了總體分布族之后進(jìn)一步對總體的認(rèn)識就是要在這個分布族中選擇一個適合于我們問題的分布由于分布族成員是由參數(shù)確定的如果參數(shù)能夠估計對總體的具體分布就知道得差不多了估計一種是點估計 pointestimation 也就是用估計量的實現(xiàn)值來近似相應(yīng)的總體參數(shù) 另一種是區(qū)間估計 intervalestimation 它是包括估計量在內(nèi) 有時是以估計量為中心的一個區(qū)間該區(qū)間被認(rèn)為很可能包含總體參數(shù) 點估計給出一個數(shù)字用起來很方便而區(qū)間估計給出一個區(qū)間說起來留有余地不象點估計那么絕對無偏估計大樣本性質(zhì) 區(qū)間估計的置信度大樣本性質(zhì) 估計注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成有些新聞媒體報道一些調(diào)查結(jié)果只給出百分比和誤差即置信區(qū)間并不說明置信度也不給出被調(diào)查的人數(shù) 這是不負(fù)責(zé)的表現(xiàn) 因為降低置信度可以使置信區(qū)間變窄顯得精確有誤導(dǎo)讀者之嫌如果給出被調(diào)查的人數(shù) 則內(nèi)行可以由推算出置信度由后面給出的公式反之亦然一個描述性例子一個有10000個人回答的調(diào)查顯示同意某種觀點的人的比例為70 有7000人同意可以算出總體中同意該觀點的比例的95 置信區(qū)間為 0 691 0 709 另一個調(diào)查聲稱有70 的比例反對該種觀點還說總體中反對該觀點的置信區(qū)間也是 0 691 0 709 到底相信誰呢實際上第二個調(diào)查隱瞞了置信度等價于隱瞞了樣本量如果第二個調(diào)查僅僅調(diào)查了50個人有35個人反對該觀點根據(jù)后面的公式可以算出第二個調(diào)查的置信區(qū)間的置信度僅有11 假設(shè)檢驗在假設(shè)檢驗中一般要設(shè)立一個原假設(shè) 而設(shè)立該假設(shè)的動機主要是企圖利用人們掌握的反映現(xiàn)實世界的數(shù)據(jù)來找出假設(shè)和現(xiàn)實的矛盾從而否定這個假設(shè) 在多數(shù)統(tǒng)計教科書中除了理論探討之外的假設(shè)檢驗都是以否定原假設(shè)為目標(biāo) 如果否定不了那就說明證據(jù)不足無法否定原假設(shè) 但這不能說明原假設(shè)正確很多教科書在這個問題上不適當(dāng)?shù)赜?接受原假設(shè) 的說法犯了明顯的低級邏輯錯誤假設(shè)檢驗的過程和邏輯首先要提出一個原假設(shè) 比如某正態(tài)總體的均值等于5 m 5 這種原假設(shè)也稱為零假設(shè) nullhypothesis 記為H0 與此同時必須提出對立假設(shè) 比如總體均值大于5 m 5 對立假設(shè)又稱為備選假設(shè)或備擇假設(shè) alternativehypothesis 記為記為H1或Ha 假設(shè)檢驗的過程和邏輯根據(jù)零假設(shè) 不是備選假設(shè) 我們可以得到該檢驗統(tǒng)計量的分布然后再看這個統(tǒng)計量的數(shù)據(jù)實現(xiàn)值 realization 屬不屬于小概率事件也就是說把數(shù)據(jù)代入檢驗統(tǒng)計量看其值是否落入零假設(shè)下的小概率范疇如果的確是小概率事件那么我們就有可能拒絕零假設(shè) 否則我們說沒有足夠證據(jù)拒絕零假設(shè) 假設(shè)檢驗的過程和邏輯注意零假設(shè)和備選假設(shè)在假設(shè)檢驗中并不對稱因檢驗統(tǒng)計量的分布是從零假設(shè)導(dǎo)出的因此如果發(fā)生矛盾當(dāng)然就對零假設(shè)不利了不發(fā)生矛盾也不說明備選假設(shè)有問題因為和備選假設(shè)無關(guān) 假設(shè)檢驗的過程和邏輯檢驗統(tǒng)計量在零假設(shè)下等于這個樣本的數(shù)據(jù)實現(xiàn)值或更加極端值的概率稱為p 值 p value 顯然得到很小p 值意味著小概率事件發(fā)生了如果小概率事件發(fā)生是相信零假設(shè) 還是相信數(shù)據(jù)呢當(dāng)然是相信數(shù)據(jù) 于是就拒絕零假設(shè) 但小概率并不能說明不會發(fā)生僅僅發(fā)生的概率很小罷了拒絕正確零假設(shè)的錯誤常被稱為第一類錯誤 typeIerror 假設(shè)檢驗的過程和邏輯有第一類錯誤就有第二類錯誤那是備選零假設(shè)正確時反而說零假設(shè)正確的錯誤稱為第二類錯誤 typeIIerror 零假設(shè)和備選假設(shè)哪一個正確這是確定性的沒有概率可言而可能犯錯誤的是人涉及假設(shè)檢驗的犯錯誤的概率就是犯第一類錯誤的概率和犯第二類錯誤的概率負(fù)責(zé)的態(tài)度是無論做出什么決策都應(yīng)該給出犯錯誤的概率假設(shè)檢驗的過程和邏輯到底p 值是多小才能夠拒絕零假設(shè)呢也就是說需要有什么是小概率的標(biāo)準(zhǔn) 這要看具體應(yīng)用的需要但在一般的統(tǒng)計書和軟件中使用最多的標(biāo)準(zhǔn)是在零假設(shè)下或零假設(shè)正確時抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應(yīng)小于0 05 也可能是0 01 0 005 0 001等等這種事先規(guī)定的概率稱為顯著性水平 significancelevel 用字母a來表示當(dāng)p 值小于或等于a時就拒絕零假設(shè) 所以 a是所允許

人人文庫> 全部分類> 行業(yè)資料 > 商業(yè)貿(mào)易

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

家具行業(yè)的相關(guān)統(tǒng)計知識.ppt

文檔簡介

溫馨提示

最新文檔

評論

家具行業(yè)的相關(guān)統(tǒng)計知識.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔