電工與電子技術(shù)電子商務(wù)電子課件第3章 數(shù)據(jù)思維ppt_第1頁
電工與電子技術(shù)電子商務(wù)電子課件第3章 數(shù)據(jù)思維ppt_第2頁
電工與電子技術(shù)電子商務(wù)電子課件第3章 數(shù)據(jù)思維ppt_第3頁
電工與電子技術(shù)電子商務(wù)電子課件第3章 數(shù)據(jù)思維ppt_第4頁
電工與電子技術(shù)電子商務(wù)電子課件第3章 數(shù)據(jù)思維ppt_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、電子課件第3章 數(shù)據(jù)思維第3章 數(shù)據(jù)思維3.1 數(shù)據(jù)思維的產(chǎn)生大數(shù)據(jù)是指無法在有限時間內(nèi)用常規(guī)軟件工具對其進行獲取、存儲、管理和處理的數(shù)據(jù)集合?!?V”特征:Volume(數(shù)據(jù)量大,一般PB級以上)Variety(類型繁多,兼有結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù))Velocity(速度快,產(chǎn)生速度和分析、處理速度要求)Value(價值價值密度低但挖掘潛力大)狹義上,大數(shù)據(jù)指那些具有4V特征的數(shù)據(jù)本身廣義上,還包括了能處理這類數(shù)據(jù)的人員、技術(shù)和組織3.1.1 科學(xué)研究上的四種范式2007年圖靈獎獲得者、著名數(shù)據(jù)庫專家吉姆格雷博士提出,人類自古以來在科學(xué)研究上先后經(jīng)歷了經(jīng)驗、理論、計算和數(shù)據(jù)四種范式。實驗科學(xué)

2、:科學(xué)研究主要依靠實驗和驗證來進行理念科學(xué):采用各種數(shù)學(xué)、幾何、物理理論構(gòu)建問題模型和解決方案計算科學(xué):計算機仿真和計算成為科學(xué)研究的利器,它允許根據(jù)第二種范式中總結(jié)的理論來模擬復(fù)雜的現(xiàn)實世界問題數(shù)據(jù)趨動科學(xué)或數(shù)據(jù)密集型科學(xué):以數(shù)據(jù)來趨動的科學(xué)3.1.2 信息時代與計算思維計算機科學(xué)家周以真計算思維是運用計算機科學(xué)的基礎(chǔ)概念進行問題求解、系統(tǒng)設(shè)計、以及人類行為理解等涵蓋計算機科學(xué)之廣度的一系列思維活動。信息時代是一個以計算機技術(shù)為主導(dǎo)的時代。抽象(Abstraction)自動化(Automation)3.1.3 大數(shù)據(jù)時代與數(shù)據(jù)思維科學(xué)家和研究人員不斷地研究和提升技術(shù)把精力放在“I”上,也就是

3、信息本身數(shù)據(jù)上“IT”(信息技術(shù))信息時代大數(shù)據(jù)時代一方面為的是能夠把更多問題轉(zhuǎn)化為可計算問題,另一方面還要不斷改進算法、優(yōu)化算法,讓計算機的計算能力、存儲能力能夠和問題所需的運算力相匹配。一是每天有大量數(shù)據(jù)產(chǎn)生,二是這些數(shù)據(jù)現(xiàn)在通過大數(shù)據(jù)技術(shù)可以被存儲、處理和利用了。3.1.3 大數(shù)據(jù)時代與數(shù)據(jù)思維“IT”(信息技術(shù))思維轉(zhuǎn)變:全樣抽樣效率精確相關(guān)因果1. 以全體數(shù)據(jù)取代隨機樣本(全數(shù)據(jù)思維模式)小數(shù)據(jù)時代,由于技術(shù)條件的限制,總體的獲得非常困難,于是人們不得不依靠統(tǒng)計學(xué)上的采樣方法來對部分數(shù)據(jù)進行獲取,再依靠相應(yīng)的規(guī)則對總體進行估計。大數(shù)據(jù)在傳感器網(wǎng)絡(luò)和云技術(shù)的支撐下,擁有了簡單廉價的數(shù)據(jù)

4、收集方法,足夠的數(shù)據(jù)存儲、處理和分析能力,實現(xiàn)了“樣本=總體”的夢想。2. 以混雜性取代精確性(容錯性思維模式)傳統(tǒng)的思維模式要求我們一再求精(precision):數(shù)據(jù)要精確小數(shù)據(jù)時代是以有限的樣本來估計總體,如果樣本數(shù)據(jù)不精確,則會“失之毫厘、謬以千里”;算法要精小數(shù)據(jù)時代受限于單個CPU計算能力、內(nèi)存的大小,算法太復(fù)雜程序根本無法運行。大數(shù)據(jù)時代我們則不必為了追求這兩方面的精確性再付出高昂的代價。大數(shù)據(jù)的雜體現(xiàn)在:第一,來源很雜:可能是來自各種關(guān)系型數(shù)據(jù)庫(實時數(shù)據(jù))、可能來自數(shù)據(jù)倉庫(歷史數(shù)據(jù))、可能來自互聯(lián)網(wǎng)(爬蟲數(shù)據(jù));第二,數(shù)據(jù)的形式也很雜:結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)、準結(jié)構(gòu)型數(shù)據(jù)

5、、無結(jié)構(gòu)型數(shù)據(jù)。3. 以相關(guān)性取代因果關(guān)系(相關(guān)性思維模式)相關(guān)性思維模式指導(dǎo)我們,知道“是什么”就夠了,而不一定必須知道“為什么”。以相關(guān)關(guān)系替代因果關(guān)系為出發(fā)點作為問題解決的方向,可以大大提高人類探索世界的效率。關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)也可以作為因果關(guān)系研究的起點3.1.4數(shù)據(jù)思維的培養(yǎng)像“數(shù)據(jù)科學(xué)家”一樣思考重視數(shù)據(jù)理解數(shù)據(jù)化善于發(fā)現(xiàn)數(shù)據(jù)的價值學(xué)做數(shù)據(jù)分析、提升編程素養(yǎng)1. 重視數(shù)據(jù)數(shù)據(jù)(data)對現(xiàn)實世界的抽象,從數(shù)據(jù)的角度出發(fā)看待世界,一切皆數(shù)據(jù)。數(shù)據(jù)思維要求人們,除了利用數(shù)據(jù)完成傳統(tǒng)的事務(wù)處理,還要重視數(shù)據(jù)的分析,通過數(shù)據(jù)分析把數(shù)據(jù)轉(zhuǎn)變位商業(yè)資本,形成新的經(jīng)濟利益增長點。數(shù)據(jù)科學(xué)(Data

6、 Science)是為自然科學(xué)和社會科學(xué)研究提供一種新的方法,稱為科學(xué)研究的數(shù)據(jù)方法,其目的在于揭示自然界和人類行為現(xiàn)象和規(guī)律(知識發(fā)現(xiàn)、數(shù)據(jù)挖掘)。2. 理解數(shù)據(jù)化大數(shù)據(jù)的核心動力是“數(shù)據(jù)化”,它是一種把現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^程。它的出現(xiàn)遠早于計算機的出現(xiàn),但計算機無疑提高了它的效率?!皵?shù)據(jù)化”和“數(shù)字化”是完全不同的概念。數(shù)字化是指把模擬數(shù)據(jù)“0、1化”成計算機可以處理的數(shù)據(jù)“0、1化”的數(shù)據(jù)可能還需要“數(shù)據(jù)化”后才能對它進行無窮無盡的分析與挖掘3. 善于發(fā)現(xiàn)數(shù)據(jù)的價值在沒有數(shù)據(jù)意識的人眼中,數(shù)據(jù)是靜止和陳舊的。有數(shù)據(jù)意識的從業(yè)者,不僅能看到數(shù)據(jù)的基本用途,還會考慮數(shù)據(jù)的潛在用

7、途,在現(xiàn)在或?qū)聿粩喟l(fā)掘它們的商業(yè)價值、科學(xué)價值和社會價值。4. 學(xué)做數(shù)據(jù)分析、提升編程素養(yǎng)廣義的數(shù)據(jù)分析,它包含了狹義的數(shù)據(jù)分析與數(shù)據(jù)挖掘狹義的數(shù)據(jù)分析側(cè)重于統(tǒng)計學(xué)上的分析,一般可借助成熟的分析工具(如Excel、SPSS、SAS等),分析結(jié)果往往是準確的統(tǒng)計量,再經(jīng)過人的推理演繹來獲得結(jié)論數(shù)據(jù)挖掘則可以看作數(shù)據(jù)分析的高級階段,它主要是從大量的數(shù)據(jù)中挖掘出未知的、且有價值的信息和知識,重點是從數(shù)據(jù)中發(fā)現(xiàn)“知識規(guī)則”,它更側(cè)重機器能通過自學(xué)習(xí)來對未來進行預(yù)測,一般需要有一定的編程基礎(chǔ)“數(shù)據(jù)的奧妙只為謙遜、愿意聆聽且掌握了聆聽手段的人所知”3.2 數(shù)據(jù)分析流程及相關(guān)技術(shù)從數(shù)據(jù)思維的角度出發(fā),任何

8、一項任務(wù)都可以抽象為一組IPO過程,即輸入一組數(shù)據(jù)、進行數(shù)據(jù)處理和輸出結(jié)果數(shù)據(jù)的過程。順著這個思路,我們需要考慮以下幾個問題:需要收集哪些數(shù)據(jù)、數(shù)據(jù)從哪里來?獲得的數(shù)據(jù)怎樣滿足分析算法輸入需求?數(shù)據(jù)需要怎樣的分析處理?是統(tǒng)計分析還是挖掘分析。輸出數(shù)據(jù)以什么樣的方式呈現(xiàn)?文本、表格還是圖形。3.2.1 數(shù)據(jù)收集數(shù)據(jù)從其被獲取的途徑而言,可分為兩類,即:企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)Web爬蟲是一種程序,它可以自動化地“瀏覽”Web中的信息,然后根據(jù)制定的規(guī)則高效下載和提取數(shù)據(jù)。理論上,互聯(lián)網(wǎng)上的數(shù)據(jù)都可以通過爬蟲技術(shù)來獲取,但在實際操作時是需要考慮很多問題的,如:是否遵守了行業(yè)的Robots協(xié)議,是否涉

9、及侵犯個人數(shù)據(jù)隱私,爬蟲爬取的速度是否過快、量過大,導(dǎo)致對方服務(wù)器壓力過大,影響了對方的正常業(yè)務(wù)等等。當(dāng)然,對抓取下來的數(shù)據(jù)的用途也是考慮的因素,如是作為個人學(xué)習(xí)、研究之用,那么要求會寬松一些,但如是作為商業(yè)用途的,那還需要充分考慮相關(guān)的法律法規(guī)。Python爬蟲研究內(nèi)容及相關(guān)技術(shù):網(wǎng)頁數(shù)據(jù)抓?。ňW(wǎng)絡(luò)庫的使用,如:Urllib庫,Requests庫等)頁面分析(靜、動態(tài)網(wǎng)頁知識,開發(fā)者工具的運行等)信息提?。╔path,Beautiful Soup庫,正則表達式等)數(shù)據(jù)存儲(Pandas文件存儲和SQLite數(shù)據(jù)庫存儲等)異步數(shù)據(jù)處理(Ajax異步數(shù)據(jù)抓取,Selenium庫等)爬蟲框架(Sc

10、rapy庫等)3.2.2 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理可能包括以下幾個方面:數(shù)據(jù)選擇:根據(jù)分析與挖掘目標選擇合適的數(shù)據(jù),包括表的選擇、記錄(行)的選擇和屬性(列)選擇;數(shù)據(jù)清洗:提高選擇好的數(shù)據(jù)的質(zhì)量,一般包括對缺失值、重復(fù)數(shù)據(jù)、異常數(shù)據(jù)的處理,數(shù)據(jù)類型的轉(zhuǎn)換等;數(shù)據(jù)創(chuàng)建:根據(jù)分析和挖掘算法的需要,在原有數(shù)據(jù)的基礎(chǔ)上生成新的屬性或記錄;數(shù)據(jù)合并:利用表連接等方式將幾個數(shù)據(jù)集合并在一起;數(shù)據(jù)格式化:把數(shù)據(jù)轉(zhuǎn)換成適合分析和挖掘的格式,包括數(shù)據(jù)類型、編碼格式、文件存儲格式等。3.2.3數(shù)據(jù)分析衡量數(shù)據(jù)集中趨勢的常用指標主要有:均值、中位數(shù)和眾數(shù)。均值:即一組數(shù)據(jù)的算術(shù)平均值,它的特點是容易受極值點的影響,當(dāng)

11、數(shù)據(jù)集中存在極值點時,均值對數(shù)據(jù)集中趨勢的判斷就會不準確。這時可以改用中位數(shù)或眾數(shù)來對數(shù)據(jù)的中心趨勢進行評判。中位數(shù):數(shù)據(jù)按照從小到大的順序排列時位于最中間的那個數(shù)即為中位數(shù)。當(dāng)數(shù)據(jù)的個數(shù)為奇數(shù)時,中位數(shù)即為位于正中間的那個數(shù);當(dāng)數(shù)據(jù)個數(shù)為偶數(shù)時,中位數(shù)為中間兩個數(shù)的平均值。中位數(shù)不受極值影響,具有極值不敏感性。眾數(shù):數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)字,即頻數(shù)最大的數(shù)值即為眾數(shù)。眾數(shù)可能不止一個,也具有極值不敏感性,且眾數(shù)不僅能用于數(shù)值型數(shù)據(jù),還可用于非數(shù)值型數(shù)據(jù)。衡量數(shù)據(jù)分散程度的常用指標有:極差:極差是數(shù)據(jù)中最大值與最小值之差,它描述了數(shù)據(jù)的范圍,但無法反映其分布。極差對對異常值敏感,異常值的存在導(dǎo)

12、致極差產(chǎn)生很強的誤導(dǎo)性。方差:統(tǒng)計中的方差(即樣本方差)是各個樣本數(shù)據(jù)和平均數(shù)之差的平方和 的平均數(shù)。反映了隨機變量(統(tǒng)計數(shù)據(jù))與均值的偏離程度。但方差與被處理數(shù)據(jù)的量綱并不一致的(經(jīng)過了平方計算),處理結(jié)果不能讓人直觀體會這種偏離程度的大小,于是引入標準差。標準差:標準差是方差的平方根,由于標準差和均值的量綱是一致的,在描述一個波動范圍時標準差比方差更為方便、直觀。3.2.4 數(shù)據(jù)可視化即使建模的目的是增加對數(shù)據(jù)的了解,所獲得的了解也需要進行組織,并以一種客戶容易理解的、更直觀的、更方便溝通的方式呈現(xiàn)出來,可視化起到的正是這樣的作用。所謂“一圖勝千言”,數(shù)據(jù)可視化旨在借助于圖形化手段,將數(shù)據(jù)

13、以視覺形式來呈現(xiàn),清晰有效地傳達與溝通信息,幫助人們理解數(shù)據(jù)中蘊藏的規(guī)律和現(xiàn)象。從最終的效果上看,數(shù)據(jù)可視化可分為是靜態(tài)可視化與交互可視化。靜態(tài)數(shù)據(jù)可視化,如圖表和地圖是幾個世紀以來人們一直在使用工具;而交互式的數(shù)據(jù)可視化則與電腦和移動設(shè)備的出現(xiàn)分不開,通過這些電子設(shè)備,人們可以通過程序或儀表盤隨時調(diào)整各類參數(shù),并馬上看到不同的可視化結(jié)果。交互式的數(shù)據(jù)可視化其實不神秘,Excel中的數(shù)據(jù)透視圖實現(xiàn)的就是這樣一種效果;其它功能更為強大、交互性更強、效果更為酷炫的可視化工具包括:Python的各種可視化第三方庫(Matplotlib庫、Seaborn庫等),以及各種商業(yè)智能與分析平臺,如:Tableau等。數(shù)據(jù)可視化將大量的高維度繁瑣數(shù)據(jù)以一種直觀的圖表的形式展現(xiàn)出來,使得數(shù)據(jù)在閱讀方面變得極為便捷,使數(shù)據(jù)更加客觀、更具說服力。數(shù)據(jù)可視化不僅用于數(shù)據(jù)分析流程的最后階段結(jié)果呈現(xiàn),它也是數(shù)據(jù)挖掘數(shù)據(jù)理解階段的關(guān)鍵輔助工具,幫助我們從多側(cè)面更好地理解數(shù)據(jù),找到規(guī)律,從而調(diào)整使用的分析方法和更合理地設(shè)定模型參數(shù)。以下哪項并不屬于大數(shù)據(jù)的“4V”特征VlueAVrietyBVlocityCVltageD提交單選題1分大數(shù)據(jù)時代的容錯性思維模式體現(xiàn)在以下哪點?( )樣本=總體 A以混雜性取代精確性 B提交以相關(guān)關(guān)系取代因果關(guān)系 C以全體數(shù)據(jù)取代樣本D單選

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論