第五章 數(shù)據(jù)處理與可視化表達(dá) 復(fù)習(xí)課件 2021-2022學(xué)年粵教版(2019)高中信息技術(shù)必修一_第1頁
第五章 數(shù)據(jù)處理與可視化表達(dá) 復(fù)習(xí)課件 2021-2022學(xué)年粵教版(2019)高中信息技術(shù)必修一_第2頁
第五章 數(shù)據(jù)處理與可視化表達(dá) 復(fù)習(xí)課件 2021-2022學(xué)年粵教版(2019)高中信息技術(shù)必修一_第3頁
第五章 數(shù)據(jù)處理與可視化表達(dá) 復(fù)習(xí)課件 2021-2022學(xué)年粵教版(2019)高中信息技術(shù)必修一_第4頁
第五章 數(shù)據(jù)處理與可視化表達(dá) 復(fù)習(xí)課件 2021-2022學(xué)年粵教版(2019)高中信息技術(shù)必修一_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

5.數(shù)據(jù)處理和可視化表達(dá)粵教版信息技術(shù)必修一《數(shù)據(jù)與計(jì)算》【知識體系】數(shù)據(jù)處理與可視化表達(dá)認(rèn)識大數(shù)據(jù)概念特征大量、多樣、低值密度、高速樣本漸趨于總體,精確讓位于模糊,相關(guān)性重于因果分布式存儲,分布式并行計(jì)算影響:雙面性數(shù)據(jù)的采集采集方法系統(tǒng)日志采集法、網(wǎng)絡(luò)數(shù)據(jù)采集法:網(wǎng)絡(luò)爬蟲存儲方法本地存儲,云存儲保護(hù)措施數(shù)據(jù)安全保護(hù)技術(shù)、數(shù)據(jù)的隱私保護(hù)方法數(shù)據(jù)的分析特征探索數(shù)據(jù)預(yù)處理:發(fā)現(xiàn)并處理缺失值、異常數(shù)據(jù)...關(guān)聯(lián)分析分析相關(guān)性,事物同時(shí)出現(xiàn)的規(guī)律和模式聚類分析K-means算法,物以類聚、人以群分?jǐn)?shù)據(jù)分類分類器、貝葉斯分類技術(shù)數(shù)據(jù)的可視化表達(dá)1.趨勢分析:柱形圖、折線圖2.比例分析:圓環(huán)圖、餅圖、圈圖3.邏輯關(guān)系:散點(diǎn)圖、詞云圖4.空間關(guān)系:數(shù)據(jù)地圖、動(dòng)態(tài)熱力圖Seaborn:關(guān)注統(tǒng)計(jì)模型的可視化,高度依賴MatplotlibBokeh:實(shí)現(xiàn)交互式可視化,可通過瀏覽器呈現(xiàn)【知識梳理】一、認(rèn)識大數(shù)據(jù)(一)大數(shù)據(jù)的概念大數(shù)據(jù):無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行高效捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。(二)大數(shù)據(jù)的特征1.從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來看(具有“4V”特征):2.從互聯(lián)網(wǎng)思維的角度來看:3.從大數(shù)據(jù)存儲與計(jì)算的角度來看:大量(Volume)多樣(Variety)低價(jià)值密度(Value)高速(Velocity)樣本漸趨于總體精確讓位于模糊相關(guān)性重于因果分布式存儲分布式并行計(jì)算?!局R梳理】一、認(rèn)識大數(shù)據(jù)(二)大數(shù)據(jù)的影響1.大數(shù)據(jù)使人們?nèi)粘I罡鼮楸憬?2.大數(shù)據(jù)對人們?nèi)粘I町a(chǎn)生的負(fù)面影響:方便支付方便出行方便購物與產(chǎn)品推薦方便看病與診病。個(gè)人信息泄露信息傷害與詐騙【知識梳理】二、數(shù)據(jù)的采集(一)數(shù)據(jù)采集的方法與工具1.系統(tǒng)日志采集法:2.網(wǎng)絡(luò)數(shù)據(jù)采集法:Python網(wǎng)絡(luò)數(shù)據(jù)采集程序使用擴(kuò)展庫時(shí)導(dǎo)入模塊的方法:3.其他數(shù)據(jù)采集法。監(jiān)視系統(tǒng)中發(fā)生的事情檢查錯(cuò)誤發(fā)生的原因?qū)ふ夜魰r(shí)攻擊者留下的痕跡網(wǎng)絡(luò)爬蟲:從初始網(wǎng)頁的URL(統(tǒng)一資源定位器)獲取對應(yīng)的數(shù)據(jù)網(wǎng)絡(luò)公開APIimportmodulefrommoduleimportname【知識梳理】二、數(shù)據(jù)的采集(二)數(shù)據(jù)的存儲1.本地存儲:把數(shù)據(jù)存在本地內(nèi)部。(硬盤、磁帶、服務(wù)器…)2.云存儲:把數(shù)據(jù)放在第三方公共或者私有的“云端”存儲。(百度網(wǎng)盤、騰訊微盤)(三)數(shù)據(jù)的保護(hù)1.數(shù)據(jù)安全保護(hù)技術(shù):拷貝、備份、復(fù)制、鏡像、持續(xù)備份,加密…2.數(shù)據(jù)的隱私保護(hù)(1)技術(shù)手段:(2)提高自身意識(3)進(jìn)行道德和法律約束數(shù)據(jù)收集時(shí):精度處理數(shù)據(jù)共享時(shí):訪問控制數(shù)據(jù)發(fā)布時(shí):人工干擾數(shù)據(jù)分析時(shí):匿名處理【知識梳理】三、數(shù)據(jù)的分析常見數(shù)據(jù)分析方法:特征探索,關(guān)聯(lián)分析,聚類與分類,建立模型,模型評價(jià)(一)特征探索:對數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和處理缺失值、異常數(shù)據(jù),繪制直方圖,觀察分析數(shù)據(jù)的分布特征,求最大值、最小值、極差等描述性統(tǒng)計(jì)量。(二)關(guān)聯(lián)分析:分析并發(fā)現(xiàn)存在于大數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描述一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。(三)聚類分析:一種探索性分析,不必事先給出分類標(biāo)準(zhǔn),從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類,進(jìn)而達(dá)到“物以類聚,人以群分”的效果。(四)數(shù)據(jù)分類:基于樣本數(shù)據(jù)先訓(xùn)練構(gòu)建分類函數(shù)或分類模型(分類器)分類器將待分類數(shù)據(jù)映射到某一特點(diǎn)類別。常見應(yīng)用案例:超市某些商品捆綁促銷,新高考選修學(xué)科的選擇。常見的算法:k-means算法,自下而上的聚類分析方法常見的分類技術(shù):貝葉斯分類技術(shù)【知識梳理】四、數(shù)據(jù)的可視化表達(dá)(一)數(shù)據(jù)可視化表達(dá)的方法1.數(shù)據(jù)可視化的呈現(xiàn)類型(1)探索類:幫助人們發(fā)現(xiàn)數(shù)據(jù)背后的價(jià)值(2)解釋類:簡單明了地呈現(xiàn)數(shù)據(jù)(二)數(shù)據(jù)可視化表達(dá)的工具1.Seaborn:2.Bokeh:2.數(shù)據(jù)分析類型及對應(yīng)的可視化呈現(xiàn)主要關(guān)注統(tǒng)計(jì)模型的可視化基于且高度依賴于Matplotlib能實(shí)現(xiàn)交互式可視化獨(dú)立于Matplotlib能通過瀏覽器呈現(xiàn)文檔的風(fēng)格【典型例題】1.從互聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)角度看,其最顯著特征是()A.數(shù)據(jù)價(jià)值密度低 B.數(shù)據(jù)類型繁多C.數(shù)據(jù)規(guī)模大 D.數(shù)據(jù)處理速度快2某超市曾經(jīng)研究銷售數(shù)據(jù),發(fā)現(xiàn)購買方便面的顧客購買火腿腸、鹵蛋等商品的概率很大,進(jìn)而調(diào)整商品擺放位置。這種數(shù)據(jù)分析方法是( )A.聚類分析 B.分類分析 C.關(guān)聯(lián)分析 D.回歸分析CC【典型例題】3.小智通過網(wǎng)絡(luò)問卷收集同學(xué)們課外閱讀時(shí)間的百分比分布情況,下列可以用于分析調(diào)查數(shù)據(jù)的是()A.餅圖 B.折線圖 C.動(dòng)態(tài)熱力圖 D.詞云圖4.下列關(guān)于大數(shù)據(jù)的特征,說法正確的是()。A.?dāng)?shù)據(jù)價(jià)值密度高 B.?dāng)?shù)據(jù)類型少C.?dāng)?shù)據(jù)基本無變化 D.?dāng)?shù)據(jù)體量巨大5.網(wǎng)絡(luò)數(shù)據(jù)采集法,主要通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API的方式獲取,網(wǎng)絡(luò)爬蟲從網(wǎng)頁的()開始獲取。A.URL B.WWWC.HTMLD.XMLADA【典型例題】6.利用Python采集網(wǎng)絡(luò)數(shù)據(jù)時(shí),導(dǎo)入擴(kuò)展庫的關(guān)鍵字是import。( )7.從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來看,大數(shù)據(jù)具有的特征是“4V”特征:大量、多樣、高價(jià)值密度、低速。()8.網(wǎng)絡(luò)數(shù)據(jù)采集法主要通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API的方式獲取網(wǎng)絡(luò)爬蟲,從網(wǎng)頁的URL開始獲取。()9.數(shù)據(jù)采集的基本方法包括系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集等方法。()ABAA【典型例題】10.數(shù)據(jù)特征探索的主要任務(wù)是對數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和處理缺失值、異常數(shù)據(jù),繪制直方圖,觀察分析數(shù)據(jù)的分布特征。()11.K-平均算法屬于聚類分析方法。(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論