版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據分析與R語言賈俊平2024/3/91.1數據分析概述1.2數據及其來源1.3R語言的初步使用
數據分析與R語言學習目標理解變量和數據的概念,掌握數據分類了解數據來源和概率抽樣方法掌握R語言的初步使用方法思政目標數據分析是一門應用性學科。思政建設應強調數據分析方法在反映我國社會主義建設成就中的作用結合實際問題學習數據分析中的基本概念。結合數據來源和渠道,學習獲取數據過程中可能存在的虛假行為,強調數據來源渠道的正當性以避免虛假數據避免收集危害社會安全的非正當來源數據學習目標和思政目標學習目標和思政目標
1.1
數據分析概述數據分析(dataanalysis)是運用統(tǒng)計方法對收集來的數據進行分析,從中提取有用信息并得出結論的過程數據分析的目的是把隱藏在數據中的信息有效地提煉出來,從而找出所研究對象的內在規(guī)律和特征在實際應用中,數據分析可幫助人們做出判斷和決策,以便采取適當行動數據分析方法——什么是數據分析從分析目的看
可以將數據分析分為描述性分析(descriptiveanalysis)、探索性分析(exploratoryanalysis)和驗證性分析(confirmatoryanalysis)三大類描述性分析和是對數據進行初步的整理、展視和概括性度量,以找出數據的基本特征;探索性分析側重于在數據之中發(fā)現(xiàn)新的特征,為形成某種理論或假設而對數據進行的分析;驗證性分析則側重于對已有理論或假設的證實或證偽數據分析方法——數據分析的分類
1.1
數據分析概述從所使用的統(tǒng)計分析方法看可大致可分為描述統(tǒng)計(descriptivestatistics)和推斷統(tǒng)計(inferentialstatistics)兩大類描述統(tǒng)計主要是利用圖表形式對數據進行匯總和展示,計算一些簡單的統(tǒng)計量(諸如比例、比率、平均數、標準差等)進行分析推斷統(tǒng)計主要是根據樣本信息來推斷總體的特征,內容包括參數估計和假設檢驗等。參數估計是利用樣本信息推斷所關心的總體特征,假設檢驗則是利用樣本信息判斷對總體的某個假設是否成立數據分析方法從分析目的看描述性分析探索性分析驗證性分析從統(tǒng)計方法看描述統(tǒng)計推斷統(tǒng)計數據分析方法——數據分析的分類
1.1
數據分析概述商業(yè)軟件——不推薦使用
商業(yè)類軟件種類繁多,較有代表性的軟件有SAS、SPSS、Minitab、Stata等。多數人較熟悉的Excel雖然不是統(tǒng)計軟件,但提供了一些常用的統(tǒng)計函數以及數據分析工具這類軟件雖有不同的側重點,但功能大同小異,基本上能滿足大多數人做數據分析的需要。商業(yè)類軟件使用相對簡單,容易上手主要問題是價格不菲,多數人難以接近,此外,更新速度慢,難以提供最新方法的解決方案數據分析工具——軟件分類——商業(yè)軟件和非商業(yè)軟件
1.1
數據分析概述非商業(yè)軟件——推薦使用
非商業(yè)類軟件則不存在價格問題。目前較為流行的軟件有R語言和Python語言,二者都是免費的開源平臺R語言的一種優(yōu)秀的統(tǒng)計軟件,它是一種統(tǒng)計計算語言。R語言不僅支持各個主要計算機系統(tǒng),還有諸多優(yōu)點,比如,更新速度快,可以包含最新方法的解決方案;提供豐富的數據分析和可視化技術,功能十分強大。此外,R軟件中的包(package)和函數均由統(tǒng)計專家編寫,函數中參數的設置也更符合統(tǒng)計和數據分析人員的思維方式和邏輯,并有強大的幫助功能和多種范例,初學者也很容易上手Python則是一種面向對象的解釋型高級編程語言,并擁有豐富而強大的開源第三方庫,也具有強大的數據分析可視化功能。Python于R的側重點略有不同,R的主要功能是數據分析和可視化,且功能強大,多數分析都可以由R提供的函數實現(xiàn),不需要太多的編程,代碼簡單,容易上手。Python的側重點則是編程,具有很好的普適性,但數據分析并不是其側重點,雖然從理論上說都可以實現(xiàn),但往往需要編寫很長的代碼,幫助功能也不夠強大,這對數據分析的初學者來說可能顯得麻煩,但仍然不失為一種有效的數據分析工具數據分析工具——軟件分類——商業(yè)軟件和非商業(yè)軟件
1.1
數據分析概述數據(data)數據是個廣義的概念,任何可觀測并有記錄的信息都可以稱為數據,它不僅僅包括數字,也包括文本、圖像等。比如,一篇文章也可以看作數據,一幅照片也可以視為數據,等等本書使用的數據概念則是狹義的,僅僅是指統(tǒng)計變量的觀測結果。因此,要理解數據的概念,需要先清楚變量的概念變量的觀測結果數據和變量變量(variable)觀察某家電商的銷售額的銷售額,這個月和上個月不同;觀察股票市場上漲股票的家數,今天與昨天數量不一樣;觀察一個班學生的生活費支出,一個人和另一個人不一樣;投擲一枚骰子觀察其出現(xiàn)的點數,這次投擲的結果和下一次也不一樣“企業(yè)銷售額”、“上漲股票的家數”、“生活費支出”、“投擲一枚骰子出現(xiàn)的點數”等就是變量
1.2
數據及其來源數據是變量的觀測結果,因此,數據的分類與變量的分類是相同的本書混合使用變量和數據這兩個概念在講述分析方法時多使用變量的概念,在例題分析中多使用數據的概念了解變量或數據的分類十分必要,因為不同的變量或數據適用的分析方法是不同的變量分類類別變量(定性)無序類別變量(名義值)有序類別變量(順序值)布爾變量(二值)數值變量(定量)離散變量(離散值)連續(xù)變量(連續(xù)值)時間變量(定性或定量)定性:離散值定量:連續(xù)值數據(變量)的分類
1.2
數據及其來源間接來源和直接來源間接來源——二手數據直接來源——抽取樣本總體(population):包含所研究的全部個體(或數據)的集合樣本(sample):從總體中抽取的一部分元素的集合樣本量(samplesize):構成樣本的元素的數目概率抽樣方法根據已知的概率抽取樣本元素,也稱隨機抽樣簡單隨機抽樣從總體N個單位(元素)中隨機地抽取n個單位作為樣本,使得總體中每一個元素都有相同的機會(概率)被抽中抽取元素的具體方法有放回抽樣和無放回抽樣分層抽樣將總體單位按某種特征或規(guī)則劃分為不同層,再從不同的層中隨機地抽取樣本系統(tǒng)抽樣將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內隨機地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本元素整群抽樣將總體中若干個單位合并為組(群),抽樣時直接抽取群,再對中選群中的所有單位全部實施調查
1.2
數據及其來源
R的下載與安裝
1.3
R語言的初步使用
Rstudio的下載與安裝Rstudio軟件下載與安裝在安裝完R后,可以進入RStudio的官方網/products/rstudio/download/,點擊Free下的Download,根據自己的計算機系統(tǒng)選擇適合的版本用戶可以根據自己的平臺選擇相應的版本下載并安裝
1.3
R語言的初步使用對象賦值與運行在提示符“>”后寫命令R軟件的所有分析和繪圖均由R命令實現(xiàn)。使用者需要在提示符“>”后輸入命令代碼,每次可以輸入一條命令,也可以連續(xù)輸入多條命令,命令之間用分號“;”隔開。命令輸入完成后,按“Enter”鍵,R軟件就會運行該命令并輸出相應的結果。比如,在提示符“>”后輸入2+3,按“Enter”鍵后顯示結果為5。如果要輸入的數據較多,超過一行,可以在適當的地方按“Enter”鍵,在下一行繼續(xù)輸入,R軟件會在斷行的地方用“+”表示連接
1.3
R語言的初步使用R對象(object)R對象可以是一個數據集、模型、圖形等任何東西是使用者所賦予的名稱R語言的標準賦值符號是“<-”,也允許使用“=”進行賦值使用者可以給對象賦一個值、一個向量、一個矩陣或一個數據框等編寫代碼腳本使用腳本文件編寫代碼在R控制臺中單擊“文件”
新建程序腳本命令,會彈出R編輯器,在其中編寫代碼即可編寫完成后,選中輸入的代碼,并單擊鼠標右鍵,選擇“運行當前行或所選代碼”,即可在R中運行該代碼并得到相應結果
1.3
R語言的初步使用查看幫助文件查看幫助文件R軟件的所有計算和繪圖均可由R函數完成,這些函數通常來自不同的R包,每個R包和函數都有相應的幫助說明使用中遇到疑問時,可以隨時查看幫助文件。比如,要想了解sum函數和stats包的功能及使用方法,可使用help(函數名)或“?函數名”查詢直接輸入函數名,可以看到該函數的源代碼
1.3
R語言的初步使用查看幫助文件查看幫助文件R軟件的所有計算和繪圖均可由R函數完成,這些函數通常來自不同的R包,每個R包和函數都有相應的幫助說明使用中遇到疑問時,可以隨時查看幫助文件。比如,要想了解sum函數和stats包的功能及使用方法,可使用help(函數名)或“?函數名”查詢直接輸入函數名,可以看到該函數的源代碼
1.3
R語言的初步使用包的安裝與加載R軟件中的包(package)指包含數據集、R函數等信息的集合。一個R包中可能包含多個函數,能做多種分析和繪圖,對于同一問題的分析或繪圖,也可以使用不同包中的函數來實現(xiàn),用戶可以根據個人需要和偏好選擇所用的包在最初安裝R軟件時,自帶了一系列默認包,如base,datasets,utils,grDevices,graphics,stats,methods等,它們提供了種類繁多的默認函數和數據集,分析時可直接使用這些包中的函數而不必加載這些包。其他包則需要事先安裝并加載后才能使用使用library()或.packages(all.available=TRUE)函數,可以顯示R軟件中已經安裝了哪些包,并列出這些包的名稱。在使用R軟件時,可根據需要隨時在線安裝所需的包。對于放置在CRAN平臺上的包,輸入install.packages("包名稱")命令,選擇相應的鏡像站點即可自動完成包的下載和安裝完成安裝后,要使用該包時,需要使用library函數或require函數將其加載到R界面中
1.3
R語言的初步使用數據讀取和保存讀取外部數據R軟件可以讀取不同形式的外部數據,這里主要介紹如何讀取csv格式的數據。本書使用的數據形式均為csv格式,其他很多類型的數據也可以轉換為csv格式,比如,Excel數據、SPSS數據等,均可以轉換成csv格式使用read.csv函數可以將csv格式數據讀入到R界面中。函數默認參數header=FALSE,即讀取的csv數據中包含標題(即變量名)。如果數據中沒有標題,設置參數header=FALSE即可
1.3
R語言的初步使用保存數據保存成csv格式,則數據文件的后綴必須是csv,可以使用write.csv函數要將數據保存成R格式,則數據文件的后綴必須是RData描述
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 瑜伽產業(yè)生態(tài)圈構建-洞察分析
- 水電安裝工程安全管理-洞察分析
- 醫(yī)療健康大數據標準體系-洞察分析
- 溫室氣體排放與氣候變化關系-洞察分析
- ICU護士職責總結
- 《對坐標曲面積分》課件
- 辦公室工作安全與健康教育研討會
- 辦公環(huán)境下的創(chuàng)新設計理念
- 從小抓起家庭教育對孩子未來競爭力的影響
- 創(chuàng)新型家紡產品設計實踐與市場分析
- 《自動化儀表安裝、調試施工監(jiān)理實施細則》
- 街舞簡介課件教學課件
- 小紅書食用農產品承諾書示例
- GB/T 15934-2024電器附件電線組件和互連電線組件
- 2023上半年四川公務員考試申論試題(省市卷)
- 施工臨時占人行道施工方案
- 文學與倫理學習通超星期末考試答案章節(jié)答案2024年
- 動詞不定式(專項練習)(解析版)
- DB34T 4912-2024二手新能源汽車鑒定評估規(guī)范
- 2024-2030年中國工控機行業(yè)需求狀況及發(fā)展趨勢分析研究報告
- 中醫(yī)醫(yī)案學習方法:醫(yī)案的分類
評論
0/150
提交評論