




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)統(tǒng)計(jì)分析
SPSS實(shí)戰(zhàn)入門第一天課程
數(shù)據(jù)統(tǒng)計(jì)分析
SPSS實(shí)戰(zhàn)入門第一天課程1課程目標(biāo)了解基本的統(tǒng)計(jì)思想和分析方法了解SPSS軟件的特點(diǎn)掌握SPSS的基本操作能夠應(yīng)用SPSS進(jìn)行基本的統(tǒng)計(jì)分析可以有效的對(duì)SPSS進(jìn)行進(jìn)一步的自學(xué)SPSS數(shù)據(jù)分析的流程課程目標(biāo)了解基本的統(tǒng)計(jì)思想和分析方法2課程安排第一講數(shù)據(jù)分析概述統(tǒng)計(jì)學(xué)的思想與概念第二講SPSS概述SPSS操作實(shí)踐第三講應(yīng)用案例簡(jiǎn)介第四講SPSS數(shù)據(jù)分析可視化第五講實(shí)踐中的SPSS數(shù)據(jù)分析方法方差分析課程安排第一講3第六講SPSS回歸模型SPSS多元線性回歸SPSSLogistic回歸第七講SPSS因子分析SPSS主成分分析第八講SPSS聚類分析SPSS決策樹(shù)第九講SPSS時(shí)間序列第六講4第一講數(shù)據(jù)分析概述
在當(dāng)今世界,企業(yè)怎樣搜集、管理、利用數(shù)據(jù)和信息,并迅速作出決策和反應(yīng)將是能否在激烈競(jìng)爭(zhēng)的全球一體化市場(chǎng)經(jīng)濟(jì)中能否生存和成敗的關(guān)鍵之舉。企業(yè)需要可靠的決策,可靠的決策來(lái)自于系統(tǒng)地定義問(wèn)題,收集數(shù)據(jù),比較和分析數(shù)據(jù),結(jié)合研究設(shè)計(jì),并從數(shù)據(jù)中得到結(jié)論。企業(yè)研究是一個(gè)系統(tǒng)性的研究過(guò)程,提供解決管理問(wèn)題的信息,作為決策基礎(chǔ)。用系統(tǒng)化的方法采集數(shù)據(jù)并基于這些數(shù)據(jù)做出決定的過(guò)程,對(duì)于建立可靠的決策,從而幫助管理者了解企業(yè)的各項(xiàng)問(wèn)題,提供知識(shí)與技術(shù)來(lái)面對(duì)變化快速的環(huán)境第一講數(shù)據(jù)分析概述在當(dāng)今世界,企業(yè)怎樣搜5
大量數(shù)據(jù)和信息匱乏的矛盾從數(shù)據(jù)中提取信息不是數(shù)據(jù)庫(kù)自動(dòng)能夠解決的數(shù)據(jù)分析統(tǒng)計(jì)學(xué)數(shù)據(jù)的科學(xué)統(tǒng)計(jì)學(xué):隨機(jī)性與規(guī)律性統(tǒng)計(jì)工具利用統(tǒng)計(jì)學(xué)原理服務(wù)于數(shù)據(jù)分析第一講數(shù)據(jù)分析概述大量數(shù)據(jù)和信息匱乏的矛盾數(shù)據(jù)分析統(tǒng)計(jì)學(xué)數(shù)據(jù)的科學(xué)統(tǒng)計(jì)工具6統(tǒng)計(jì)學(xué)的本質(zhì)
當(dāng)我們不能預(yù)測(cè)一件事情的結(jié)果時(shí),隨機(jī)性就和這件事情聯(lián)系起來(lái)了.(危險(xiǎn)來(lái)臨,喜從天降)
通過(guò)看上去隨機(jī)的現(xiàn)象進(jìn)行統(tǒng)計(jì)分析,我們開(kāi)始了解這個(gè)世界.統(tǒng)計(jì)學(xué)的本質(zhì)當(dāng)我們不能預(yù)測(cè)一件事情的結(jié)果時(shí)7什么時(shí)候需要數(shù)據(jù)分析?商業(yè)問(wèn)題數(shù)據(jù)問(wèn)題!商業(yè)問(wèn)題解決方案把商業(yè)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)問(wèn)題數(shù)據(jù)分析及分析結(jié)果把數(shù)據(jù)結(jié)果轉(zhuǎn)化為商業(yè)解決方案什么時(shí)候需要數(shù)據(jù)分析?商業(yè)問(wèn)題數(shù)據(jù)問(wèn)題!商業(yè)問(wèn)題解決方案把商8實(shí)際中的問(wèn)題(企業(yè))當(dāng)你買了一只手表時(shí),被告知一年內(nèi)可以免費(fèi)保修。你想過(guò)廠家為什么說(shuō)一年而不說(shuō)三個(gè)月或兩年呢?顯然:說(shuō)多了,廠家會(huì)損失;說(shuō)少了,會(huì)失去競(jìng)爭(zhēng),也是損失。到底這個(gè)保修期是怎樣決定的呢?在同一年級(jí)中,同樣一門課程可能由一些不同教師講授。教師講課方式當(dāng)然不一樣,考試題目也不一定相同。那么如何比較不同班級(jí)的成績(jī)呢?CEO的收入是一個(gè)非常敏感的問(wèn)題,到底和一個(gè)企業(yè)的資產(chǎn)價(jià)值有怎樣的關(guān)系,如何制訂才會(huì)比較公平?不同的機(jī)構(gòu)得出不同的結(jié)果;各自都說(shuō)自己是客觀、公正和有道理的。到底如何理解這些不同的結(jié)果呢?實(shí)際中的問(wèn)題(企業(yè))當(dāng)你買了一只手表時(shí),被告知一年內(nèi)可以免費(fèi)9實(shí)際中的問(wèn)題(政府)信用評(píng)價(jià)體系影響到低體重早產(chǎn)兒的社會(huì)和制度因素是什么?收入支出比平衡問(wèn)題?社會(huì)安全保障與房地產(chǎn)定價(jià)策略問(wèn)題?……實(shí)際中的問(wèn)題(政府)信用評(píng)價(jià)體系10數(shù)據(jù)的價(jià)值和利用數(shù)據(jù)無(wú)處不在數(shù)據(jù)包含的信息很多,但是數(shù)據(jù)中的信息往往是分散的,單個(gè)數(shù)據(jù)很難直接被應(yīng)用起來(lái)統(tǒng)計(jì)學(xué)就是把數(shù)據(jù)轉(zhuǎn)化為信息的科學(xué)數(shù)據(jù)的價(jià)值和利用數(shù)據(jù)無(wú)處不在數(shù)據(jù)包含的信息很多,但是數(shù)據(jù)中的11統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)(Statistics)是一個(gè)系統(tǒng)搜集數(shù)據(jù)并基于數(shù)據(jù)做出決定的過(guò)程.它是指導(dǎo)人們正確地認(rèn)識(shí)客觀世界的研究方法,是研究受到隨機(jī)影響的數(shù)據(jù)的一門學(xué)科。
基本特點(diǎn):
1)是一個(gè)在隨機(jī)現(xiàn)象中尋找規(guī)律性的科學(xué);2)由描述和推斷兩部分方法構(gòu)成;3)是科學(xué)地度量問(wèn)題,收集問(wèn)題,表示問(wèn)題和分析問(wèn)題的研究方法.統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)(Statistics)是一個(gè)12運(yùn)用統(tǒng)計(jì)的領(lǐng)域包括…精算農(nóng)業(yè)動(dòng)物學(xué)人類學(xué)考古學(xué)審計(jì)學(xué)晶體學(xué)人口統(tǒng)計(jì)學(xué)牙醫(yī)學(xué)生態(tài)學(xué)經(jīng)濟(jì)計(jì)量學(xué)教育學(xué)選舉預(yù)測(cè)和策劃工程流行病學(xué)金融水產(chǎn)漁業(yè)研究遺傳學(xué)地理學(xué)地質(zhì)學(xué)歷史研究人類遺傳學(xué)水文學(xué)工業(yè)法律語(yǔ)言學(xué)文學(xué)勞動(dòng)力計(jì)劃管理科學(xué)市場(chǎng)營(yíng)銷學(xué)醫(yī)學(xué)診斷氣象學(xué)軍事科學(xué)核材料安全管理眼科學(xué)制藥學(xué)物理學(xué)政治學(xué)心理學(xué)心理物理學(xué)質(zhì)量控制宗教研究社會(huì)學(xué)調(diào)查抽樣分類學(xué)氣象改善搏采,等等...運(yùn)用統(tǒng)計(jì)的領(lǐng)域包括…精算金融氣象學(xué)13數(shù)據(jù)分析過(guò)程原始數(shù)據(jù)、二手?jǐn)?shù)據(jù)確定研究目標(biāo)、范圍選擇研究方案選擇數(shù)據(jù)收集方式和分析技術(shù)分析評(píng)估所需樣本量建立項(xiàng)目預(yù)算描述性統(tǒng)計(jì)分析推斷性統(tǒng)計(jì)分析人工智能等數(shù)據(jù)挖掘特有的算法計(jì)分析清理數(shù)據(jù)使之適合于分析應(yīng)用對(duì)數(shù)據(jù)進(jìn)行變換評(píng)估數(shù)據(jù)質(zhì)量,填充缺失數(shù)據(jù)對(duì)表格、圖形進(jìn)行編輯用word、excel、text、html展示數(shù)據(jù)數(shù)據(jù)分析數(shù)據(jù)管理數(shù)據(jù)收集計(jì)劃結(jié)果發(fā)布數(shù)據(jù)理解數(shù)據(jù)分析過(guò)程原始數(shù)據(jù)、確定研究目標(biāo)、范圍描述性統(tǒng)計(jì)分析清理數(shù)14描述統(tǒng)計(jì)為什么不夠?描述統(tǒng)計(jì)為什么不夠?15數(shù)據(jù)的層次性:
律師的困惑辛普森悖論(Simpson‘sParadox)亦有人譯為辛普森詭論,為英國(guó)統(tǒng)計(jì)學(xué)家E.H.辛普森E.H.Simpson于1951年提出的悖論,即在某個(gè)條件下的兩組數(shù)據(jù),分別討論時(shí)都會(huì)滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。例題:一所美國(guó)高校的兩個(gè)學(xué)院,分別是法學(xué)院和商學(xué)院,新學(xué)期招生。人們懷疑這兩個(gè)學(xué)院有性別歧視。法學(xué)院商學(xué)院
申請(qǐng)性別法學(xué)院商學(xué)院女男錄取率數(shù)據(jù)的層次性:
律師的困惑辛普森悖論(Simpson‘sP16總體和樣本總體(population)研究對(duì)象的全體,其中的每一個(gè)元素稱為個(gè)體分為有限總體和無(wú)限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的無(wú)限總體所包括的元素是無(wú)限的,不可數(shù)的樣本(sample)從總體中抽取的一部分元素的集合構(gòu)成樣本的元素的數(shù)目稱為樣本量(size)總體和樣本總體(population)17參數(shù)和統(tǒng)計(jì)量參數(shù)(parameter)研究者想要了解的總體的某種特征值所關(guān)心的參數(shù)主要有總體均值()、標(biāo)準(zhǔn)差()、總體比例()、總體的協(xié)差陣(Σ)等總體參數(shù)通常用希臘字母表示統(tǒng)計(jì)量(statistic)根據(jù)樣本數(shù)據(jù)計(jì)算出來(lái)的一個(gè)量所關(guān)心的樣本統(tǒng)計(jì)量有樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)、樣本的協(xié)差陣等樣本統(tǒng)計(jì)量通常用小寫英文字母來(lái)表示參數(shù)和統(tǒng)計(jì)量參數(shù)(parameter)18變量(Variable)
說(shuō)明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級(jí)等變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù);變量可以分為分類變量(categoricalvariable)
:說(shuō)明事物類別的一個(gè)名稱順序變量(rankvariable)
:說(shuō)明事物有序類別的一個(gè)名稱數(shù)值型變量(metricvariable)
:說(shuō)明事物數(shù)字特征的一個(gè)名稱離散變量:取有限個(gè)值連續(xù)變量:可以取無(wú)窮多個(gè)值變量(Variable)說(shuō)明現(xiàn)象某種特征的概念19統(tǒng)計(jì)中的幾個(gè)基本概念平均數(shù)標(biāo)準(zhǔn)差比例參數(shù)p統(tǒng)計(jì)量xs總體樣本統(tǒng)計(jì)中的幾個(gè)基本概念參數(shù)統(tǒng)計(jì)量總體樣本20點(diǎn)估計(jì)(PointEstimator)點(diǎn)估計(jì)(PointEstimator)21置信區(qū)間(IntervalConfidence)置信區(qū)間(IntervalConfidence)22假設(shè)檢驗(yàn)(HypothesisTest)假設(shè)檢驗(yàn)(HypothesisTest)23理念統(tǒng)計(jì)模型的嚴(yán)格數(shù)學(xué)表達(dá)很復(fù)雜、繁瑣,但是其背后的思想往往很簡(jiǎn)單做為信息時(shí)代的管理者,要理解管理的科學(xué)性,科學(xué)的基礎(chǔ)是測(cè)量,沒(méi)有測(cè)量談不到深入的和恰當(dāng)?shù)墓芾碇贫鹊慕?統(tǒng)計(jì)學(xué)只是一個(gè)工具,SPSS更是工具的工具,不要指望它能夠“自動(dòng)”解決你面臨的商業(yè)問(wèn)題.要注意統(tǒng)計(jì)學(xué)方法的適用條件,濫用統(tǒng)計(jì)學(xué)會(huì)造成“嚴(yán)重”的負(fù)效果.理念統(tǒng)計(jì)模型的嚴(yán)格數(shù)學(xué)表達(dá)很復(fù)雜、繁瑣,但是其背后的思想24第二講SPSS概述SPSS:StatisticalPackageforSocialScienceStatisticalProductandServiceSolutionsSPSS的發(fā)展:60年代:美國(guó)斯坦福大學(xué)三位研究生研制70年代:SPSS總部成立于芝加哥,推出SPSSX中小型機(jī)版80年代:SPSS公司(SPSS/PC+微機(jī)版1~3)90年代:SPSS公司(SPSSWINDOWS版5~11)第二講SPSS概述SPSS:25SPSS軟件的特點(diǎn)
功能強(qiáng)大;兼容性好;容易使用;企業(yè)級(jí)統(tǒng)計(jì)分析解決方案;結(jié)果的權(quán)威性.SPSS軟件的特點(diǎn)
功能強(qiáng)大;26統(tǒng)計(jì)軟件SPSS:這是一個(gè)很受歡迎的統(tǒng)計(jì)軟件;它容易操作,輸出漂亮,功能齊全,價(jià)格合理。它也有自己的程序語(yǔ)言,但基本上已經(jīng)“傻瓜化”。它對(duì)于非專業(yè)統(tǒng)計(jì)工作者是很好的選擇。
Excel:它嚴(yán)格說(shuō)來(lái)并不是專業(yè)統(tǒng)計(jì)軟件,但作為數(shù)據(jù)表格軟件,必然有一定統(tǒng)計(jì)計(jì)算功能。而且凡是有MicrosoftOffice的計(jì)算機(jī),基本上都裝有Excel。但要注意,有時(shí)在裝Office時(shí)沒(méi)有裝數(shù)據(jù)分析的功能,那就必須裝了才行。當(dāng)然,畫圖功能是都具備的。對(duì)于簡(jiǎn)單分析,Excel還算方便,但隨著問(wèn)題的深入,Excel就不那么“傻瓜”,需要使用函數(shù),甚至根本沒(méi)有相應(yīng)的方法了。多數(shù)專門一些的統(tǒng)計(jì)推斷問(wèn)題還需要其他專門的統(tǒng)計(jì)軟件來(lái)處理。統(tǒng)計(jì)軟件SPSS:這是一個(gè)很受歡迎的統(tǒng)計(jì)軟件;它容易操作,輸27SPSS軟件基本介紹1、SPSS的基本構(gòu)成:11個(gè)模塊2、SPSS五個(gè)窗口的基本功能3、應(yīng)用SPSS執(zhí)行統(tǒng)計(jì)分析的幾種方法4、SPSS的四種結(jié)果5、SPSS無(wú)處不在的Help6、SPSS五種結(jié)果保存方式SPSS軟件基本介紹1、SPSS的基本構(gòu)成:11個(gè)模塊28SPSSClient/ServerSPSSBase----基礎(chǔ)模塊SPSSAdvanced----多元方差分析、生存分析SPSSRegression----回歸SPSSTrends----時(shí)間序列SPSSCategories----分類數(shù)據(jù)分析SPSSConjoint----正交設(shè)計(jì)和分析SPSSTables----表格展示數(shù)據(jù)SPSSMaps----地圖展示數(shù)據(jù)SPSSMissingValueAnalysis----缺失值分析SPSSExactTestAnalysis----精確檢驗(yàn)SPSSComplexSamples----復(fù)雜抽樣SPSSClient/ServerSPSSBase---29SPSS模塊與過(guò)程讀/錄入數(shù)據(jù)數(shù)據(jù)整理描述統(tǒng)計(jì)數(shù)據(jù)分析圖表展示結(jié)果編輯結(jié)果報(bào)告AdvancedCategoriesConjointRegressionTrendsExactTestComplexSampleMissingValueBaseTableMapSPSS模塊與過(guò)程讀/錄入數(shù)據(jù)數(shù)據(jù)整理描述統(tǒng)計(jì)數(shù)據(jù)分析圖表展30SPSS操作界面----五個(gè)窗口DataEditor----數(shù)據(jù)編輯窗口DataViewVariableViewSyntaxEditor----程序編輯窗口Viewer----結(jié)果管理窗口DraftViewer----草稿結(jié)果窗口Script----腳本編輯窗口SPSS操作界面----五個(gè)窗口DataEditor--31完全窗口菜單方式:所有分析操作過(guò)程都是通過(guò)菜單和按鈕及對(duì)話框方式進(jìn)行的.是經(jīng)常使用的一種運(yùn)行方式,適用于一般分析和SPSS的初學(xué)者.完全窗口菜單方式:32SPSS的結(jié)果SPSS的四種結(jié)果文本格式的結(jié)果表格結(jié)果標(biāo)準(zhǔn)圖結(jié)果交互圖結(jié)果SPSS的結(jié)果SPSS的四種結(jié)果33SPSS的結(jié)果保存方式SPSS結(jié)果文件格式Html格式Word格式Text格式Excel格式圖形:jpg、pct…練習(xí):將savetype.spo打開(kāi),將其中的對(duì)象以不同的格式保存。SPSS的結(jié)果保存方式SPSS結(jié)果文件格式練習(xí):將savet34SPSS的幫助系統(tǒng)幫助菜單TopicsTutorialCaseStudiesStatisticsCoachCommandSyntaxGuide對(duì)話框幫助無(wú)處不在的What’sthis?SPSS的幫助系統(tǒng)幫助菜單35第三講SPSS操作實(shí)踐1.SPSS數(shù)據(jù)文件的創(chuàng)建與保存2.利用SPSS整理數(shù)據(jù)3.數(shù)據(jù)抽樣方法4.利用SPSS展現(xiàn)數(shù)據(jù):專業(yè)的報(bào)表和圖形5.利用SPSS分析數(shù)據(jù)第三講SPSS操作實(shí)踐1.SPSS數(shù)據(jù)文件的創(chuàng)建與保存363.1SPSS數(shù)據(jù)文件SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文件。年級(jí)性別 問(wèn)題1…… 問(wèn)題n1 1 ………. 42 2 ……… 2 …………………...3 1 ………… 1文件結(jié)構(gòu)數(shù)據(jù)個(gè)案case變量名變量SPSS數(shù)據(jù)文件一般只能通過(guò)SPSS軟件打開(kāi)3.1SPSS數(shù)據(jù)文件SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文37SPSS數(shù)據(jù)文件的特點(diǎn)原始數(shù)據(jù)文件格式:數(shù)據(jù)文件中的一列為一個(gè)變量,每個(gè)變量有一個(gè)唯一的存取標(biāo)志:變量名數(shù)據(jù)文件中的一行為一個(gè)個(gè)案(case)匯總數(shù)據(jù)文件格式:男女高價(jià)值客戶1023低價(jià)值客戶1220SPSS數(shù)據(jù)文件的特點(diǎn)原始數(shù)據(jù)文件格式:男女高價(jià)值客戶10238SPSS數(shù)據(jù)文件的結(jié)構(gòu)(一)變量名(Variablename):
變量名是變量存取的唯一標(biāo)志。
起名規(guī)則:不多于64個(gè)字符組成不區(qū)分大小寫允許漢字作為變量名默認(rèn)變量名為VARn,如:var00001SPSS數(shù)據(jù)文件的結(jié)構(gòu)(一)變量名(Variablenam39SPSS數(shù)據(jù)訪問(wèn)(一)打開(kāi)數(shù)據(jù)文件
菜單選項(xiàng):File->Open->.sav(二)數(shù)據(jù)定位按個(gè)案號(hào)碼定位菜單:Data->Gotocase->輸入樣本號(hào)按值定位光標(biāo)定位到某列變量上
->Edit->Find...SPSS數(shù)據(jù)訪問(wèn)(一)打開(kāi)數(shù)據(jù)文件40SPSS數(shù)據(jù)的編輯(三)插入和刪除一個(gè)個(gè)案插入:data->insertcase刪除:選定待刪行,鼠標(biāo)右鍵找到Cut(四)插入和刪除一個(gè)變量插入:光標(biāo)定位到某列變量上
->Data->InsertVariable(插到某列前)或鼠標(biāo)右鍵刪除:選定列,鼠標(biāo)右鍵Cut項(xiàng)SPSS數(shù)據(jù)的編輯(三)插入和刪除一個(gè)個(gè)案41SPSS數(shù)據(jù)編輯(五)數(shù)據(jù)移動(dòng)、復(fù)制和刪除定義源數(shù)據(jù)塊鼠標(biāo)右鍵:cutcopyclear確定目標(biāo)單元鼠標(biāo)右鍵:pasteSPSS數(shù)據(jù)編輯(五)數(shù)據(jù)移動(dòng)、復(fù)制和刪除42SPSS數(shù)據(jù)的錄入錄入時(shí)應(yīng)注意:黑框確定當(dāng)前數(shù)據(jù)單元。錄入帶有變量值標(biāo)簽的數(shù)據(jù):手工輸入代碼,屏幕顯示變量值標(biāo)簽。SPSS數(shù)據(jù)的錄入錄入時(shí)應(yīng)注意:43SPSS數(shù)據(jù)的保存數(shù)據(jù)保存:操作保存格式:
(1)*.sav:SPSS數(shù)據(jù)文件(默認(rèn))。(2)*.dbf:dbase數(shù)據(jù)文件。(3)*.xls:Excel工作表文件。注意:有些信息會(huì)丟失SPSS數(shù)據(jù)的保存數(shù)據(jù)保存:44練習(xí)2:1.將文件telenew.sav導(dǎo)出到mydocuments\myspsscredit\tele1.xls2.將文件telen.txt導(dǎo)入到spss窗口,另存為mydocuments\myspsscredit\tele2.sav練習(xí)2:45SPSS變量定義變量的類型(type)和顯示寬度(width)變量名標(biāo)簽(Variablelabel)變量值標(biāo)簽(Valuelabel)變量列格式(ColumnFormat)缺失值(MissingValues)變量計(jì)量尺度(Measurement)利用變量視圖查看變量定義的情況SPSS變量定義變量的類型(type)和顯示寬度(width46一個(gè)基本的分析例題例:xuelin.sav
要求
(1)數(shù)據(jù)的基本描述過(guò)程descriptive(2)數(shù)據(jù)的分布histogram(3)基本的比較推論t檢驗(yàn)
(4)保存結(jié)果為*.spo文件,*.html文件
(5)使用拆分文件進(jìn)行分類比較
(6)使用篩選變量進(jìn)行數(shù)據(jù)的初步探索一個(gè)基本的分析例題例:xuelin.sav47兩個(gè)總體均值之差的檢驗(yàn)
(12、22
未知且相等,小樣本)H0:1-2=0H1:1-2
0=0.05n1=12,n2
=14臨界值(s):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:
在
=0.05的水平上拒絕H0有證據(jù)表明兩種方法生產(chǎn)的產(chǎn)品其抗拉強(qiáng)度有顯著差異Z01.96-1.96.025拒絕H0拒絕H0.025兩個(gè)總體均值之差的檢驗(yàn)
(12、22未知且相等,小482.用SPSS加工和整理數(shù)據(jù)數(shù)據(jù)文件的整理
個(gè)案排序、個(gè)案選取、文件合并、文件轉(zhuǎn)置數(shù)據(jù)加工變量計(jì)算、產(chǎn)生計(jì)數(shù)變量數(shù)據(jù)分組自動(dòng)分組、手工分組數(shù)據(jù)文件的其他處理功能指定加權(quán)變量、SPSS變量集的定義和使用2.用SPSS加工和整理數(shù)據(jù)數(shù)據(jù)文件的整理492.用SPSS加工和整理數(shù)據(jù)數(shù)據(jù)清理:檢查錄入錯(cuò)誤、清除不合理數(shù)據(jù)、定義或彌補(bǔ)缺失值變量重新編碼(Recode)生成新變量(Compute)按關(guān)鍵變量對(duì)記錄排序(Sort)按關(guān)鍵變量對(duì)記錄分組(Aggregate)變量和記錄之間轉(zhuǎn)置(Transpose)數(shù)據(jù)合并與拆分(Merge/Split)對(duì)記錄加權(quán)(Weight)2.用SPSS加工和整理數(shù)據(jù)數(shù)據(jù)清理:檢查錄入錯(cuò)誤、清除不502.1變量重新編碼Recode過(guò)程(xuelin.sav)xuelinlevel=0,xuelin<120,xuelin>=210,1<xuelin<2問(wèn)題:如果僅對(duì)有些組進(jìn)行如何?2.1變量重新編碼Recode過(guò)程(xuelin.sav)512.2生成新變量Compute過(guò)程目的:產(chǎn)生新變量或?qū)υ兞窟M(jìn)行必要的轉(zhuǎn)換處理理論需要:
預(yù)測(cè)問(wèn)題產(chǎn)生比率數(shù)據(jù)偏態(tài)數(shù)據(jù)的正態(tài)處理時(shí)間序列的平穩(wěn)處理等應(yīng)用例:身高2/體重肥胖指數(shù)負(fù)債/收益資產(chǎn)負(fù)債信貸額度-貸款余額信用評(píng)級(jí)總通話時(shí)間/總呼叫次數(shù)通話質(zhì)量2.2生成新變量Compute過(guò)程目的:產(chǎn)生新變量或?qū)υ?22.2生成新變量Compute過(guò)程目的:產(chǎn)生新變量或?qū)υ兞窟M(jìn)行必要的轉(zhuǎn)換處理(如:預(yù)測(cè)問(wèn)題/產(chǎn)生比率數(shù)據(jù)/偏態(tài)數(shù)據(jù)的正態(tài)處理/時(shí)間序列的平穩(wěn)處理等)(1)含義:
根據(jù)用戶給出的SPSS算術(shù)表達(dá)式,對(duì)所有或部分樣本數(shù)據(jù)進(jìn)行加工。(2)SPSS算術(shù)表達(dá)式(NumericExpression):
由算術(shù)運(yùn)算符(+、-、*、/、**)、SPSS函數(shù)以及SPSS變量名組成的式子。2.2生成新變量Compute過(guò)程目的:產(chǎn)生新變量或?qū)υ?3temp=1,xuelin>12,xuelin<=1temp=1,xuelin>12,xuelin<=154算術(shù)函數(shù)統(tǒng)計(jì)函數(shù)分布函數(shù)邏輯函數(shù)字符串函數(shù)日期時(shí)間函數(shù)缺失值函數(shù)其他函數(shù)Abs()sqrt()exp()lg10()rnd()trunc()mod()mean()sd()sum()cfvar()max()min()normal()uniform()rv.()cdf.()idf.()range()any()index()length()lower()lpad()ltrim()substr()missing()sysmis()lag()(3)SPSS函數(shù)算術(shù)函數(shù)Abs()sqrt()exp()lg10552.3按關(guān)鍵變量對(duì)記錄排序(Sort)
目的:將所有個(gè)案按照用戶指定的某一個(gè)或多個(gè)變量的變量值的升序或降序重新排列。菜單選項(xiàng): data->sortcases注意: (1)Ascending:升序、Descending:降序。 (2)多重排序,選擇變量名的次序很關(guān)鍵。2.3按關(guān)鍵變量對(duì)記錄排序(Sort)
目的:56練習(xí):對(duì)xuelin.sav分別按照血磷濃度和年齡進(jìn)行排序。練習(xí):對(duì)xuelin.sav分別按照血磷濃度和年齡進(jìn)行排序。572.4按關(guān)鍵變量對(duì)記錄分組(Aggregate)(1)含義:按指定的分類變量的變量值對(duì)個(gè)案分組;計(jì)算每組個(gè)案的匯總變量的基本統(tǒng)計(jì)量;將計(jì)算結(jié)果生成到一新文件中,即:在新文件中對(duì)應(yīng)分類變量的每一個(gè)分類值產(chǎn)生一個(gè)個(gè)案。原始數(shù)據(jù)按性別變量匯總數(shù)據(jù)2.4按關(guān)鍵變量對(duì)記錄分組(Aggregate)(1)含義58(2)菜單選項(xiàng):
data->aggregate(3)說(shuō)明:多重分組時(shí),變量名的選擇順序。生成的新文件名默認(rèn)為:aggr.sav??尚薷?。生成的新變量名默認(rèn)為原變量名后加_1。可修改??梢栽谛挛募写尜A個(gè)分組個(gè)案數(shù).(2)菜單選項(xiàng): 592.5變量和記錄之間轉(zhuǎn)置(Transpose)
目的:將數(shù)據(jù)文件行列互換,即:將個(gè)案轉(zhuǎn)為變量,變量轉(zhuǎn)為個(gè)案.轉(zhuǎn)置前轉(zhuǎn)置后2.5變量和記錄之間轉(zhuǎn)置(Transpose)
目的:轉(zhuǎn)置602.5變量和記錄之間轉(zhuǎn)置Restructure過(guò)程2.5變量和記錄之間轉(zhuǎn)置Restructure過(guò)程612.6數(shù)據(jù)合并與拆分(Merge/Split)
目的:
將兩個(gè)SPSS數(shù)據(jù)文件合并到一個(gè)數(shù)據(jù)文件中。文件合并的方式:縱向合并橫向合并2.6數(shù)據(jù)合并與拆分(Merge/Split)
目的:62(一)縱向數(shù)據(jù)合并(1)含義:
將磁盤上的一個(gè)SPSS數(shù)據(jù)文件追加到當(dāng)前dataeditor窗口中的數(shù)據(jù)文件中。(2)前提:
兩個(gè)SPSS數(shù)據(jù)文件應(yīng)可以合并的內(nèi)容,且最好有相同的變量名和變量類型。(3)菜單選項(xiàng):
data->mergefile->addcases(一)縱向數(shù)據(jù)合并63(二)橫向數(shù)據(jù)合并(1)含義:
將磁盤上的一個(gè)SPSS數(shù)據(jù)文件中的若干個(gè)變量增加到當(dāng)前dataeditor窗口的數(shù)據(jù)文件中。(2)前提:
a.兩個(gè)數(shù)據(jù)文件必須有一個(gè)共同的變量名為關(guān)鍵字段---合并的依據(jù);
b..兩個(gè)數(shù)據(jù)文件應(yīng)事先按關(guān)鍵字段升序排序。
(二)橫向數(shù)據(jù)合并64(二)橫向數(shù)據(jù)合并(3)菜單選項(xiàng):
data->mergefile->addvariable(4)選項(xiàng)說(shuō)明:mathcasesonkeyvariablesinsortedfiles:以關(guān)鍵字作為合并標(biāo)志。
Bothfilesprovidecases:合并后的文件的數(shù)據(jù)由兩個(gè)文件共同提供。Externalfileiskeyedtable:以dataeditor的數(shù)據(jù)為基礎(chǔ)。Workingdatafileiskeyedtable:以磁盤文件的數(shù)據(jù)為基礎(chǔ)。(二)橫向數(shù)據(jù)合并652.7對(duì)記錄加權(quán)(Weight)
(1)含義:
指定某一變量為加權(quán)變量。如:商品平均價(jià)格(2)菜單選項(xiàng): data->weightcase(3)說(shuō)明如果取消加權(quán)變量應(yīng)重新定義:data->weightcasedonotweightcases(4)舉例:打開(kāi)文件average.sav2.7對(duì)記錄加權(quán)(Weight)
(1)含義:66課堂練習(xí):針對(duì)Employeedata.sav進(jìn)行以下思考與練習(xí):(1)生成變量表示員工的年齡;(2)按照性別分類計(jì)算平均工資;(3)將薪水分成不同的級(jí)別:“高4”“中高3”“中下2”“下1”;課堂練習(xí):針對(duì)Employeedata.sav進(jìn)行以下思67第一問(wèn)第一問(wèn)68第二問(wèn)第二問(wèn)69SPSS數(shù)據(jù)分析基礎(chǔ)課件703.抽樣數(shù)據(jù)隨機(jī)數(shù)抽樣等距抽樣(*)分層抽樣(*)整群抽樣(*)3.抽樣數(shù)據(jù)隨機(jī)數(shù)抽樣71在抽樣方案設(shè)計(jì)部分提供了詳細(xì)的向?qū)?,便于用戶使用模塊功能抽樣方案設(shè)計(jì):在原始數(shù)據(jù)集中生成抽樣子集抽樣數(shù)據(jù)描述:基于抽樣設(shè)計(jì)文件進(jìn)行相應(yīng)數(shù)據(jù)的統(tǒng)計(jì)描述在抽樣方案設(shè)計(jì)部分提供了詳細(xì)的向?qū)?,便于用戶使?2例題:在文件newcar.sav中的數(shù)據(jù)隨機(jī)選擇70%數(shù)據(jù)定義篩選變量,使用frequency過(guò)程進(jìn)行篩選前后結(jié)果觀察。例題:73練習(xí):對(duì)employee.sav中的數(shù)據(jù)進(jìn)行抽樣,利用70%抽樣數(shù)據(jù)按如下薪水公式預(yù)測(cè),目前薪水=-12824+1.9*底薪+177*工作時(shí)間將得到的模型用于未知結(jié)果的預(yù)測(cè),比較結(jié)果預(yù)測(cè)模型的差異。練習(xí):對(duì)employee.sav中的數(shù)據(jù)進(jìn)行抽樣,利用70%74練習(xí):xuelin.sav
要求
(1)定義新變量將xuelin>2和xuelin<1都視為異常數(shù)據(jù)。
(2)使用篩選變量剔除異常數(shù)據(jù)進(jìn)行分析。練習(xí):xuelin.sav75SPSS數(shù)據(jù)分析基礎(chǔ)課件76第三講應(yīng)用案例簡(jiǎn)介第三講應(yīng)用案例簡(jiǎn)介77一個(gè)例子——羅斯文商貿(mào)公司背景介紹:羅斯文商貿(mào)公司是Microsoft數(shù)據(jù)庫(kù)產(chǎn)品(Access,SQLServer等)中的一個(gè)示例數(shù)據(jù)庫(kù);它虛擬了一家經(jīng)銷日用品的商貿(mào)公司的情況;目前該公司保存的歷史數(shù)據(jù)資料,見(jiàn)下頁(yè);如何對(duì)客戶價(jià)值進(jìn)行評(píng)估。商業(yè)問(wèn)題:微軟公司提供的案例數(shù)據(jù)庫(kù)——羅斯文商貿(mào)公司,我們需要對(duì)客戶的價(jià)值進(jìn)行評(píng)估,以便采取有效的市場(chǎng)銷售策略。一個(gè)例子——羅斯文商貿(mào)公司背景介紹:78羅斯文商貿(mào)公司數(shù)據(jù)羅斯文商貿(mào)公司數(shù)據(jù)79羅斯文商貿(mào)公司統(tǒng)計(jì)問(wèn)題統(tǒng)計(jì)問(wèn)題:(1)如何描述客戶價(jià)值?——購(gòu)買總金額?購(gòu)買頻次?平均每次購(gòu)買金額?最近購(gòu)買金額?它們的線性組合?——使用最簡(jiǎn)單的購(gòu)買總金額(2)需要什么樣的數(shù)據(jù)挖掘方法?——描述匯總?分類?預(yù)測(cè)?概念描述?細(xì)分?相關(guān)分析?——使用最簡(jiǎn)單的描述匯總(3)需要的數(shù)據(jù)從哪里來(lái)?——從以下幾個(gè)來(lái)源:客戶訂單訂單明細(xì)羅斯文商貿(mào)公司統(tǒng)計(jì)問(wèn)題統(tǒng)計(jì)問(wèn)題:80羅斯文商貿(mào)公司商業(yè)問(wèn)題解決方案
商業(yè)問(wèn)題解決方案從所有客戶中找出最有價(jià)值的10個(gè)客戶,將名單發(fā)給市場(chǎng)部門,讓其對(duì)這些客戶進(jìn)行更多的關(guān)注羅斯文商貿(mào)公司商業(yè)問(wèn)題解決方案商業(yè)問(wèn)題解決方案81結(jié)束語(yǔ)當(dāng)你盡了自己的最大努力時(shí),失敗也是偉大的,所以不要放棄,堅(jiān)持就是正確的。WhenYouDoYourBest,FailureIsGreat,SoDon'TGiveUp,StickToTheEnd結(jié)束語(yǔ)82謝謝大家榮幸這一路,與你同行It'SAnHonorToWalkWithYouAllTheWay演講人:XXXXXX時(shí)間:XX年XX月XX日
謝謝大家演講人:XXXXXX83
數(shù)據(jù)統(tǒng)計(jì)分析
SPSS實(shí)戰(zhàn)入門第一天課程
數(shù)據(jù)統(tǒng)計(jì)分析
SPSS實(shí)戰(zhàn)入門第一天課程84課程目標(biāo)了解基本的統(tǒng)計(jì)思想和分析方法了解SPSS軟件的特點(diǎn)掌握SPSS的基本操作能夠應(yīng)用SPSS進(jìn)行基本的統(tǒng)計(jì)分析可以有效的對(duì)SPSS進(jìn)行進(jìn)一步的自學(xué)SPSS數(shù)據(jù)分析的流程課程目標(biāo)了解基本的統(tǒng)計(jì)思想和分析方法85課程安排第一講數(shù)據(jù)分析概述統(tǒng)計(jì)學(xué)的思想與概念第二講SPSS概述SPSS操作實(shí)踐第三講應(yīng)用案例簡(jiǎn)介第四講SPSS數(shù)據(jù)分析可視化第五講實(shí)踐中的SPSS數(shù)據(jù)分析方法方差分析課程安排第一講86第六講SPSS回歸模型SPSS多元線性回歸SPSSLogistic回歸第七講SPSS因子分析SPSS主成分分析第八講SPSS聚類分析SPSS決策樹(shù)第九講SPSS時(shí)間序列第六講87第一講數(shù)據(jù)分析概述
在當(dāng)今世界,企業(yè)怎樣搜集、管理、利用數(shù)據(jù)和信息,并迅速作出決策和反應(yīng)將是能否在激烈競(jìng)爭(zhēng)的全球一體化市場(chǎng)經(jīng)濟(jì)中能否生存和成敗的關(guān)鍵之舉。企業(yè)需要可靠的決策,可靠的決策來(lái)自于系統(tǒng)地定義問(wèn)題,收集數(shù)據(jù),比較和分析數(shù)據(jù),結(jié)合研究設(shè)計(jì),并從數(shù)據(jù)中得到結(jié)論。企業(yè)研究是一個(gè)系統(tǒng)性的研究過(guò)程,提供解決管理問(wèn)題的信息,作為決策基礎(chǔ)。用系統(tǒng)化的方法采集數(shù)據(jù)并基于這些數(shù)據(jù)做出決定的過(guò)程,對(duì)于建立可靠的決策,從而幫助管理者了解企業(yè)的各項(xiàng)問(wèn)題,提供知識(shí)與技術(shù)來(lái)面對(duì)變化快速的環(huán)境第一講數(shù)據(jù)分析概述在當(dāng)今世界,企業(yè)怎樣搜88
大量數(shù)據(jù)和信息匱乏的矛盾從數(shù)據(jù)中提取信息不是數(shù)據(jù)庫(kù)自動(dòng)能夠解決的數(shù)據(jù)分析統(tǒng)計(jì)學(xué)數(shù)據(jù)的科學(xué)統(tǒng)計(jì)學(xué):隨機(jī)性與規(guī)律性統(tǒng)計(jì)工具利用統(tǒng)計(jì)學(xué)原理服務(wù)于數(shù)據(jù)分析第一講數(shù)據(jù)分析概述大量數(shù)據(jù)和信息匱乏的矛盾數(shù)據(jù)分析統(tǒng)計(jì)學(xué)數(shù)據(jù)的科學(xué)統(tǒng)計(jì)工具89統(tǒng)計(jì)學(xué)的本質(zhì)
當(dāng)我們不能預(yù)測(cè)一件事情的結(jié)果時(shí),隨機(jī)性就和這件事情聯(lián)系起來(lái)了.(危險(xiǎn)來(lái)臨,喜從天降)
通過(guò)看上去隨機(jī)的現(xiàn)象進(jìn)行統(tǒng)計(jì)分析,我們開(kāi)始了解這個(gè)世界.統(tǒng)計(jì)學(xué)的本質(zhì)當(dāng)我們不能預(yù)測(cè)一件事情的結(jié)果時(shí)90什么時(shí)候需要數(shù)據(jù)分析?商業(yè)問(wèn)題數(shù)據(jù)問(wèn)題!商業(yè)問(wèn)題解決方案把商業(yè)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)問(wèn)題數(shù)據(jù)分析及分析結(jié)果把數(shù)據(jù)結(jié)果轉(zhuǎn)化為商業(yè)解決方案什么時(shí)候需要數(shù)據(jù)分析?商業(yè)問(wèn)題數(shù)據(jù)問(wèn)題!商業(yè)問(wèn)題解決方案把商91實(shí)際中的問(wèn)題(企業(yè))當(dāng)你買了一只手表時(shí),被告知一年內(nèi)可以免費(fèi)保修。你想過(guò)廠家為什么說(shuō)一年而不說(shuō)三個(gè)月或兩年呢?顯然:說(shuō)多了,廠家會(huì)損失;說(shuō)少了,會(huì)失去競(jìng)爭(zhēng),也是損失。到底這個(gè)保修期是怎樣決定的呢?在同一年級(jí)中,同樣一門課程可能由一些不同教師講授。教師講課方式當(dāng)然不一樣,考試題目也不一定相同。那么如何比較不同班級(jí)的成績(jī)呢?CEO的收入是一個(gè)非常敏感的問(wèn)題,到底和一個(gè)企業(yè)的資產(chǎn)價(jià)值有怎樣的關(guān)系,如何制訂才會(huì)比較公平?不同的機(jī)構(gòu)得出不同的結(jié)果;各自都說(shuō)自己是客觀、公正和有道理的。到底如何理解這些不同的結(jié)果呢?實(shí)際中的問(wèn)題(企業(yè))當(dāng)你買了一只手表時(shí),被告知一年內(nèi)可以免費(fèi)92實(shí)際中的問(wèn)題(政府)信用評(píng)價(jià)體系影響到低體重早產(chǎn)兒的社會(huì)和制度因素是什么?收入支出比平衡問(wèn)題?社會(huì)安全保障與房地產(chǎn)定價(jià)策略問(wèn)題?……實(shí)際中的問(wèn)題(政府)信用評(píng)價(jià)體系93數(shù)據(jù)的價(jià)值和利用數(shù)據(jù)無(wú)處不在數(shù)據(jù)包含的信息很多,但是數(shù)據(jù)中的信息往往是分散的,單個(gè)數(shù)據(jù)很難直接被應(yīng)用起來(lái)統(tǒng)計(jì)學(xué)就是把數(shù)據(jù)轉(zhuǎn)化為信息的科學(xué)數(shù)據(jù)的價(jià)值和利用數(shù)據(jù)無(wú)處不在數(shù)據(jù)包含的信息很多,但是數(shù)據(jù)中的94統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)(Statistics)是一個(gè)系統(tǒng)搜集數(shù)據(jù)并基于數(shù)據(jù)做出決定的過(guò)程.它是指導(dǎo)人們正確地認(rèn)識(shí)客觀世界的研究方法,是研究受到隨機(jī)影響的數(shù)據(jù)的一門學(xué)科。
基本特點(diǎn):
1)是一個(gè)在隨機(jī)現(xiàn)象中尋找規(guī)律性的科學(xué);2)由描述和推斷兩部分方法構(gòu)成;3)是科學(xué)地度量問(wèn)題,收集問(wèn)題,表示問(wèn)題和分析問(wèn)題的研究方法.統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)(Statistics)是一個(gè)95運(yùn)用統(tǒng)計(jì)的領(lǐng)域包括…精算農(nóng)業(yè)動(dòng)物學(xué)人類學(xué)考古學(xué)審計(jì)學(xué)晶體學(xué)人口統(tǒng)計(jì)學(xué)牙醫(yī)學(xué)生態(tài)學(xué)經(jīng)濟(jì)計(jì)量學(xué)教育學(xué)選舉預(yù)測(cè)和策劃工程流行病學(xué)金融水產(chǎn)漁業(yè)研究遺傳學(xué)地理學(xué)地質(zhì)學(xué)歷史研究人類遺傳學(xué)水文學(xué)工業(yè)法律語(yǔ)言學(xué)文學(xué)勞動(dòng)力計(jì)劃管理科學(xué)市場(chǎng)營(yíng)銷學(xué)醫(yī)學(xué)診斷氣象學(xué)軍事科學(xué)核材料安全管理眼科學(xué)制藥學(xué)物理學(xué)政治學(xué)心理學(xué)心理物理學(xué)質(zhì)量控制宗教研究社會(huì)學(xué)調(diào)查抽樣分類學(xué)氣象改善搏采,等等...運(yùn)用統(tǒng)計(jì)的領(lǐng)域包括…精算金融氣象學(xué)96數(shù)據(jù)分析過(guò)程原始數(shù)據(jù)、二手?jǐn)?shù)據(jù)確定研究目標(biāo)、范圍選擇研究方案選擇數(shù)據(jù)收集方式和分析技術(shù)分析評(píng)估所需樣本量建立項(xiàng)目預(yù)算描述性統(tǒng)計(jì)分析推斷性統(tǒng)計(jì)分析人工智能等數(shù)據(jù)挖掘特有的算法計(jì)分析清理數(shù)據(jù)使之適合于分析應(yīng)用對(duì)數(shù)據(jù)進(jìn)行變換評(píng)估數(shù)據(jù)質(zhì)量,填充缺失數(shù)據(jù)對(duì)表格、圖形進(jìn)行編輯用word、excel、text、html展示數(shù)據(jù)數(shù)據(jù)分析數(shù)據(jù)管理數(shù)據(jù)收集計(jì)劃結(jié)果發(fā)布數(shù)據(jù)理解數(shù)據(jù)分析過(guò)程原始數(shù)據(jù)、確定研究目標(biāo)、范圍描述性統(tǒng)計(jì)分析清理數(shù)97描述統(tǒng)計(jì)為什么不夠?描述統(tǒng)計(jì)為什么不夠?98數(shù)據(jù)的層次性:
律師的困惑辛普森悖論(Simpson‘sParadox)亦有人譯為辛普森詭論,為英國(guó)統(tǒng)計(jì)學(xué)家E.H.辛普森E.H.Simpson于1951年提出的悖論,即在某個(gè)條件下的兩組數(shù)據(jù),分別討論時(shí)都會(huì)滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。例題:一所美國(guó)高校的兩個(gè)學(xué)院,分別是法學(xué)院和商學(xué)院,新學(xué)期招生。人們懷疑這兩個(gè)學(xué)院有性別歧視。法學(xué)院商學(xué)院
申請(qǐng)性別法學(xué)院商學(xué)院女男錄取率數(shù)據(jù)的層次性:
律師的困惑辛普森悖論(Simpson‘sP99總體和樣本總體(population)研究對(duì)象的全體,其中的每一個(gè)元素稱為個(gè)體分為有限總體和無(wú)限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的無(wú)限總體所包括的元素是無(wú)限的,不可數(shù)的樣本(sample)從總體中抽取的一部分元素的集合構(gòu)成樣本的元素的數(shù)目稱為樣本量(size)總體和樣本總體(population)100參數(shù)和統(tǒng)計(jì)量參數(shù)(parameter)研究者想要了解的總體的某種特征值所關(guān)心的參數(shù)主要有總體均值()、標(biāo)準(zhǔn)差()、總體比例()、總體的協(xié)差陣(Σ)等總體參數(shù)通常用希臘字母表示統(tǒng)計(jì)量(statistic)根據(jù)樣本數(shù)據(jù)計(jì)算出來(lái)的一個(gè)量所關(guān)心的樣本統(tǒng)計(jì)量有樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)、樣本的協(xié)差陣等樣本統(tǒng)計(jì)量通常用小寫英文字母來(lái)表示參數(shù)和統(tǒng)計(jì)量參數(shù)(parameter)101變量(Variable)
說(shuō)明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級(jí)等變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù);變量可以分為分類變量(categoricalvariable)
:說(shuō)明事物類別的一個(gè)名稱順序變量(rankvariable)
:說(shuō)明事物有序類別的一個(gè)名稱數(shù)值型變量(metricvariable)
:說(shuō)明事物數(shù)字特征的一個(gè)名稱離散變量:取有限個(gè)值連續(xù)變量:可以取無(wú)窮多個(gè)值變量(Variable)說(shuō)明現(xiàn)象某種特征的概念102統(tǒng)計(jì)中的幾個(gè)基本概念平均數(shù)標(biāo)準(zhǔn)差比例參數(shù)p統(tǒng)計(jì)量xs總體樣本統(tǒng)計(jì)中的幾個(gè)基本概念參數(shù)統(tǒng)計(jì)量總體樣本103點(diǎn)估計(jì)(PointEstimator)點(diǎn)估計(jì)(PointEstimator)104置信區(qū)間(IntervalConfidence)置信區(qū)間(IntervalConfidence)105假設(shè)檢驗(yàn)(HypothesisTest)假設(shè)檢驗(yàn)(HypothesisTest)106理念統(tǒng)計(jì)模型的嚴(yán)格數(shù)學(xué)表達(dá)很復(fù)雜、繁瑣,但是其背后的思想往往很簡(jiǎn)單做為信息時(shí)代的管理者,要理解管理的科學(xué)性,科學(xué)的基礎(chǔ)是測(cè)量,沒(méi)有測(cè)量談不到深入的和恰當(dāng)?shù)墓芾碇贫鹊慕?統(tǒng)計(jì)學(xué)只是一個(gè)工具,SPSS更是工具的工具,不要指望它能夠“自動(dòng)”解決你面臨的商業(yè)問(wèn)題.要注意統(tǒng)計(jì)學(xué)方法的適用條件,濫用統(tǒng)計(jì)學(xué)會(huì)造成“嚴(yán)重”的負(fù)效果.理念統(tǒng)計(jì)模型的嚴(yán)格數(shù)學(xué)表達(dá)很復(fù)雜、繁瑣,但是其背后的思想107第二講SPSS概述SPSS:StatisticalPackageforSocialScienceStatisticalProductandServiceSolutionsSPSS的發(fā)展:60年代:美國(guó)斯坦福大學(xué)三位研究生研制70年代:SPSS總部成立于芝加哥,推出SPSSX中小型機(jī)版80年代:SPSS公司(SPSS/PC+微機(jī)版1~3)90年代:SPSS公司(SPSSWINDOWS版5~11)第二講SPSS概述SPSS:108SPSS軟件的特點(diǎn)
功能強(qiáng)大;兼容性好;容易使用;企業(yè)級(jí)統(tǒng)計(jì)分析解決方案;結(jié)果的權(quán)威性.SPSS軟件的特點(diǎn)
功能強(qiáng)大;109統(tǒng)計(jì)軟件SPSS:這是一個(gè)很受歡迎的統(tǒng)計(jì)軟件;它容易操作,輸出漂亮,功能齊全,價(jià)格合理。它也有自己的程序語(yǔ)言,但基本上已經(jīng)“傻瓜化”。它對(duì)于非專業(yè)統(tǒng)計(jì)工作者是很好的選擇。
Excel:它嚴(yán)格說(shuō)來(lái)并不是專業(yè)統(tǒng)計(jì)軟件,但作為數(shù)據(jù)表格軟件,必然有一定統(tǒng)計(jì)計(jì)算功能。而且凡是有MicrosoftOffice的計(jì)算機(jī),基本上都裝有Excel。但要注意,有時(shí)在裝Office時(shí)沒(méi)有裝數(shù)據(jù)分析的功能,那就必須裝了才行。當(dāng)然,畫圖功能是都具備的。對(duì)于簡(jiǎn)單分析,Excel還算方便,但隨著問(wèn)題的深入,Excel就不那么“傻瓜”,需要使用函數(shù),甚至根本沒(méi)有相應(yīng)的方法了。多數(shù)專門一些的統(tǒng)計(jì)推斷問(wèn)題還需要其他專門的統(tǒng)計(jì)軟件來(lái)處理。統(tǒng)計(jì)軟件SPSS:這是一個(gè)很受歡迎的統(tǒng)計(jì)軟件;它容易操作,輸110SPSS軟件基本介紹1、SPSS的基本構(gòu)成:11個(gè)模塊2、SPSS五個(gè)窗口的基本功能3、應(yīng)用SPSS執(zhí)行統(tǒng)計(jì)分析的幾種方法4、SPSS的四種結(jié)果5、SPSS無(wú)處不在的Help6、SPSS五種結(jié)果保存方式SPSS軟件基本介紹1、SPSS的基本構(gòu)成:11個(gè)模塊111SPSSClient/ServerSPSSBase----基礎(chǔ)模塊SPSSAdvanced----多元方差分析、生存分析SPSSRegression----回歸SPSSTrends----時(shí)間序列SPSSCategories----分類數(shù)據(jù)分析SPSSConjoint----正交設(shè)計(jì)和分析SPSSTables----表格展示數(shù)據(jù)SPSSMaps----地圖展示數(shù)據(jù)SPSSMissingValueAnalysis----缺失值分析SPSSExactTestAnalysis----精確檢驗(yàn)SPSSComplexSamples----復(fù)雜抽樣SPSSClient/ServerSPSSBase---112SPSS模塊與過(guò)程讀/錄入數(shù)據(jù)數(shù)據(jù)整理描述統(tǒng)計(jì)數(shù)據(jù)分析圖表展示結(jié)果編輯結(jié)果報(bào)告AdvancedCategoriesConjointRegressionTrendsExactTestComplexSampleMissingValueBaseTableMapSPSS模塊與過(guò)程讀/錄入數(shù)據(jù)數(shù)據(jù)整理描述統(tǒng)計(jì)數(shù)據(jù)分析圖表展113SPSS操作界面----五個(gè)窗口DataEditor----數(shù)據(jù)編輯窗口DataViewVariableViewSyntaxEditor----程序編輯窗口Viewer----結(jié)果管理窗口DraftViewer----草稿結(jié)果窗口Script----腳本編輯窗口SPSS操作界面----五個(gè)窗口DataEditor--114完全窗口菜單方式:所有分析操作過(guò)程都是通過(guò)菜單和按鈕及對(duì)話框方式進(jìn)行的.是經(jīng)常使用的一種運(yùn)行方式,適用于一般分析和SPSS的初學(xué)者.完全窗口菜單方式:115SPSS的結(jié)果SPSS的四種結(jié)果文本格式的結(jié)果表格結(jié)果標(biāo)準(zhǔn)圖結(jié)果交互圖結(jié)果SPSS的結(jié)果SPSS的四種結(jié)果116SPSS的結(jié)果保存方式SPSS結(jié)果文件格式Html格式Word格式Text格式Excel格式圖形:jpg、pct…練習(xí):將savetype.spo打開(kāi),將其中的對(duì)象以不同的格式保存。SPSS的結(jié)果保存方式SPSS結(jié)果文件格式練習(xí):將savet117SPSS的幫助系統(tǒng)幫助菜單TopicsTutorialCaseStudiesStatisticsCoachCommandSyntaxGuide對(duì)話框幫助無(wú)處不在的What’sthis?SPSS的幫助系統(tǒng)幫助菜單118第三講SPSS操作實(shí)踐1.SPSS數(shù)據(jù)文件的創(chuàng)建與保存2.利用SPSS整理數(shù)據(jù)3.數(shù)據(jù)抽樣方法4.利用SPSS展現(xiàn)數(shù)據(jù):專業(yè)的報(bào)表和圖形5.利用SPSS分析數(shù)據(jù)第三講SPSS操作實(shí)踐1.SPSS數(shù)據(jù)文件的創(chuàng)建與保存1193.1SPSS數(shù)據(jù)文件SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文件。年級(jí)性別 問(wèn)題1…… 問(wèn)題n1 1 ………. 42 2 ……… 2 …………………...3 1 ………… 1文件結(jié)構(gòu)數(shù)據(jù)個(gè)案case變量名變量SPSS數(shù)據(jù)文件一般只能通過(guò)SPSS軟件打開(kāi)3.1SPSS數(shù)據(jù)文件SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文120SPSS數(shù)據(jù)文件的特點(diǎn)原始數(shù)據(jù)文件格式:數(shù)據(jù)文件中的一列為一個(gè)變量,每個(gè)變量有一個(gè)唯一的存取標(biāo)志:變量名數(shù)據(jù)文件中的一行為一個(gè)個(gè)案(case)匯總數(shù)據(jù)文件格式:男女高價(jià)值客戶1023低價(jià)值客戶1220SPSS數(shù)據(jù)文件的特點(diǎn)原始數(shù)據(jù)文件格式:男女高價(jià)值客戶102121SPSS數(shù)據(jù)文件的結(jié)構(gòu)(一)變量名(Variablename):
變量名是變量存取的唯一標(biāo)志。
起名規(guī)則:不多于64個(gè)字符組成不區(qū)分大小寫允許漢字作為變量名默認(rèn)變量名為VARn,如:var00001SPSS數(shù)據(jù)文件的結(jié)構(gòu)(一)變量名(Variablenam122SPSS數(shù)據(jù)訪問(wèn)(一)打開(kāi)數(shù)據(jù)文件
菜單選項(xiàng):File->Open->.sav(二)數(shù)據(jù)定位按個(gè)案號(hào)碼定位菜單:Data->Gotocase->輸入樣本號(hào)按值定位光標(biāo)定位到某列變量上
->Edit->Find...SPSS數(shù)據(jù)訪問(wèn)(一)打開(kāi)數(shù)據(jù)文件123SPSS數(shù)據(jù)的編輯(三)插入和刪除一個(gè)個(gè)案插入:data->insertcase刪除:選定待刪行,鼠標(biāo)右鍵找到Cut(四)插入和刪除一個(gè)變量插入:光標(biāo)定位到某列變量上
->Data->InsertVariable(插到某列前)或鼠標(biāo)右鍵刪除:選定列,鼠標(biāo)右鍵Cut項(xiàng)SPSS數(shù)據(jù)的編輯(三)插入和刪除一個(gè)個(gè)案124SPSS數(shù)據(jù)編輯(五)數(shù)據(jù)移動(dòng)、復(fù)制和刪除定義源數(shù)據(jù)塊鼠標(biāo)右鍵:cutcopyclear確定目標(biāo)單元鼠標(biāo)右鍵:pasteSPSS數(shù)據(jù)編輯(五)數(shù)據(jù)移動(dòng)、復(fù)制和刪除125SPSS數(shù)據(jù)的錄入錄入時(shí)應(yīng)注意:黑框確定當(dāng)前數(shù)據(jù)單元。錄入帶有變量值標(biāo)簽的數(shù)據(jù):手工輸入代碼,屏幕顯示變量值標(biāo)簽。SPSS數(shù)據(jù)的錄入錄入時(shí)應(yīng)注意:126SPSS數(shù)據(jù)的保存數(shù)據(jù)保存:操作保存格式:
(1)*.sav:SPSS數(shù)據(jù)文件(默認(rèn))。(2)*.dbf:dbase數(shù)據(jù)文件。(3)*.xls:Excel工作表文件。注意:有些信息會(huì)丟失SPSS數(shù)據(jù)的保存數(shù)據(jù)保存:127練習(xí)2:1.將文件telenew.sav導(dǎo)出到mydocuments\myspsscredit\tele1.xls2.將文件telen.txt導(dǎo)入到spss窗口,另存為mydocuments\myspsscredit\tele2.sav練習(xí)2:128SPSS變量定義變量的類型(type)和顯示寬度(width)變量名標(biāo)簽(Variablelabel)變量值標(biāo)簽(Valuelabel)變量列格式(ColumnFormat)缺失值(MissingValues)變量計(jì)量尺度(Measurement)利用變量視圖查看變量定義的情況SPSS變量定義變量的類型(type)和顯示寬度(width129一個(gè)基本的分析例題例:xuelin.sav
要求
(1)數(shù)據(jù)的基本描述過(guò)程descriptive(2)數(shù)據(jù)的分布histogram(3)基本的比較推論t檢驗(yàn)
(4)保存結(jié)果為*.spo文件,*.html文件
(5)使用拆分文件進(jìn)行分類比較
(6)使用篩選變量進(jìn)行數(shù)據(jù)的初步探索一個(gè)基本的分析例題例:xuelin.sav130兩個(gè)總體均值之差的檢驗(yàn)
(12、22
未知且相等,小樣本)H0:1-2=0H1:1-2
0=0.05n1=12,n2
=14臨界值(s):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:
在
=0.05的水平上拒絕H0有證據(jù)表明兩種方法生產(chǎn)的產(chǎn)品其抗拉強(qiáng)度有顯著差異Z01.96-1.96.025拒絕H0拒絕H0.025兩個(gè)總體均值之差的檢驗(yàn)
(12、22未知且相等,小1312.用SPSS加工和整理數(shù)據(jù)數(shù)據(jù)文件的整理
個(gè)案排序、個(gè)案選取、文件合并、文件轉(zhuǎn)置數(shù)據(jù)加工變量計(jì)算、產(chǎn)生計(jì)數(shù)變量數(shù)據(jù)分組自動(dòng)分組、手工分組數(shù)據(jù)文件的其他處理功能指定加權(quán)變量、SPSS變量集的定義和使用2.用SPSS加工和整理數(shù)據(jù)數(shù)據(jù)文件的整理1322.用SPSS加工和整理數(shù)據(jù)數(shù)據(jù)清理:檢查錄入錯(cuò)誤、清除不合理數(shù)據(jù)、定義或彌補(bǔ)缺失值變量重新編碼(Recode)生成新變量(Compute)按關(guān)鍵變量對(duì)記錄排序(Sort)按關(guān)鍵變量對(duì)記錄分組(Aggregate)變量和記錄之間轉(zhuǎn)置(Transpose)數(shù)據(jù)合并與拆分(Merge/Split)對(duì)記錄加權(quán)(Weight)2.用SPSS加工和整理數(shù)據(jù)數(shù)據(jù)清理:檢查錄入錯(cuò)誤、清除不1332.1變量重新編碼Recode過(guò)程(xuelin.sav)xuelinlevel=0,xuelin<120,xuelin>=210,1<xuelin<2問(wèn)題:如果僅對(duì)有些組進(jìn)行如何?2.1變量重新編碼Recode過(guò)程(xuelin.sav)1342.2生成新變量Compute過(guò)程目的:產(chǎn)生新變量或?qū)υ兞窟M(jìn)行必要的轉(zhuǎn)換處理理論需要:
預(yù)測(cè)問(wèn)題產(chǎn)生比率數(shù)據(jù)偏態(tài)數(shù)據(jù)的正態(tài)處理時(shí)間序列的平穩(wěn)處理等應(yīng)用例:身高2/體重肥胖指數(shù)負(fù)債/收益資產(chǎn)負(fù)債信貸額度-貸款余額信用評(píng)級(jí)總通話時(shí)間/總呼叫次數(shù)通話質(zhì)量2.2生成新變量Compute過(guò)程目的:產(chǎn)生新變量或?qū)υ?352.2生成新變量Compute過(guò)程目的:產(chǎn)生新變量或?qū)υ兞窟M(jìn)行必要的轉(zhuǎn)換處理(如:預(yù)測(cè)問(wèn)題/產(chǎn)生比率數(shù)據(jù)/偏態(tài)數(shù)據(jù)的正態(tài)處理/時(shí)間序列的平穩(wěn)處理等)(1)含義:
根據(jù)用戶給出的SPSS算術(shù)表達(dá)式,對(duì)所有或部分樣本數(shù)據(jù)進(jìn)行加工。(2)SPSS算術(shù)表達(dá)式(NumericExpression):
由算術(shù)運(yùn)算符(+、-、*、/、**)、SPSS函數(shù)以及SPSS變量名組成的式子。2.2生成新變量Compute過(guò)程目的:產(chǎn)生新變量或?qū)υ?36temp=1,xuelin>12,xuelin<=1temp=1,xuelin>12,xuelin<=1137算術(shù)函數(shù)統(tǒng)計(jì)函數(shù)分布函數(shù)邏輯函數(shù)字符串函數(shù)日期時(shí)間函數(shù)缺失值函數(shù)其他函數(shù)Abs()sqrt()exp()lg10()rnd()trunc()mod()mean()sd()sum()cfvar()max()min()normal()uniform()rv.()cdf.()idf.()range()any()index()length()lower()lpad()ltrim()substr()missing()sysmis()lag()(3)SPSS函數(shù)算術(shù)函數(shù)Abs()sqrt()exp()lg101382.3按關(guān)鍵變量對(duì)記錄排序(Sort)
目的:將所有個(gè)案按照用戶指定的某一個(gè)或多個(gè)變量的變量值的升序或降序重新排列。菜單選項(xiàng): data->sortcases注意: (1)Ascending:升序、Descending:降序。 (2)多重排序,選擇變量名的次序很關(guān)鍵。2.3按關(guān)鍵變量對(duì)記錄排序(Sort)
目的:139練習(xí):對(duì)xuelin.sav分別按照血磷濃度和年齡進(jìn)行排序。練習(xí):對(duì)xuelin.sav分別按照血磷濃度和年齡進(jìn)行排序。1402.4按關(guān)鍵變量對(duì)記錄分組(Aggregate)(1)含義:按指定的分類變量的變量值對(duì)個(gè)案分組;計(jì)算每組個(gè)案的匯總變量的基本統(tǒng)計(jì)量;將計(jì)算結(jié)果生成到一新文件中,即:在新文件中對(duì)應(yīng)分類變量的每一個(gè)分類值產(chǎn)生一個(gè)個(gè)案。原始數(shù)據(jù)按性別變量匯總數(shù)據(jù)2.4按關(guān)鍵變量對(duì)記錄分組(Aggregate)(1)含義141(2)菜單選項(xiàng):
data->aggregate(3)說(shuō)明:多重分組時(shí),變量名的選擇順序。生成的新文件名默認(rèn)為:aggr.sav??尚薷摹I傻男伦兞棵J(rèn)為原變量名后加_1??尚薷???梢栽谛挛募写尜A個(gè)分組個(gè)案數(shù).(2)菜單選項(xiàng): 1422.5變量和記錄之間轉(zhuǎn)置(Transpose)
目的:將數(shù)據(jù)文件行列互換,即:將個(gè)案轉(zhuǎn)為變量,變量轉(zhuǎn)為個(gè)案.轉(zhuǎn)置前轉(zhuǎn)置后2.5變量和記錄之間轉(zhuǎn)置(Transpose)
目的:轉(zhuǎn)置1432.5變量和記錄之間轉(zhuǎn)置Restructure過(guò)程2.5變量和記錄之間轉(zhuǎn)置Restruct
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東省汕頭市潮南實(shí)驗(yàn)學(xué)校2025屆高考化學(xué)一模試卷含解析
- 2025屆陜西省西安市西北工業(yè)大學(xué)高考適應(yīng)性考試化學(xué)試卷含解析
- 急危重癥病人管理
- 廣東省肇慶第四中學(xué)2025屆高三下學(xué)期聯(lián)考化學(xué)試題含解析
- 2025年飛機(jī)空調(diào)車ACM項(xiàng)目合作計(jì)劃書
- 2025屆甘肅省天水市清水縣第四中學(xué)高三第二次模擬考試化學(xué)試卷含解析
- 做自己和他人的“安全衛(wèi)士”倡議書
- 心理信息融合課件
- 天津市五校2025屆高考沖刺化學(xué)模擬試題含解析
- 中考數(shù)學(xué)高頻考點(diǎn)專項(xiàng)練習(xí):專題14 考點(diǎn)29 多邊形和平行四邊形及答案
- 樓梯踏步抹灰標(biāo)準(zhǔn)合同7篇
- 【廈門大學(xué)】DeepSeek大模型賦能高校教學(xué)和科研
- 巧手包出小混沌(課件)三年級(jí)下冊(cè)勞動(dòng)人民版
- 2025-2030中國(guó)IC卡讀寫器行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告
- 2024-2025學(xué)年人教版初中地理七年級(jí)下冊(cè)課件 第8章 第4節(jié) 俄羅斯
- 2025年南京秦淮區(qū)一中七年級(jí)下3月份月考英語(yǔ)試卷
- 2025屆高三化學(xué)二輪復(fù)習(xí) 化學(xué)工藝流程 課件
- 2024廣東深圳市龍崗區(qū)產(chǎn)服集團(tuán)“春雨”第二批招聘筆試筆試參考題庫(kù)附帶答案詳解
- 2025年河南經(jīng)貿(mào)職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)帶答案
- 蘇教版六年級(jí)數(shù)學(xué)下冊(cè)第4單元第9課《練習(xí)八》課件
- 2025風(fēng)電機(jī)組大型葉片全過(guò)程質(zhì)量認(rèn)證
評(píng)論
0/150
提交評(píng)論