專題二:數(shù)據(jù)處理與人工智能 復(fù)習(xí)課件 高中信息技術(shù)浙教版(2019)必修1_第1頁
專題二:數(shù)據(jù)處理與人工智能 復(fù)習(xí)課件 高中信息技術(shù)浙教版(2019)必修1_第2頁
專題二:數(shù)據(jù)處理與人工智能 復(fù)習(xí)課件 高中信息技術(shù)浙教版(2019)必修1_第3頁
專題二:數(shù)據(jù)處理與人工智能 復(fù)習(xí)課件 高中信息技術(shù)浙教版(2019)必修1_第4頁
專題二:數(shù)據(jù)處理與人工智能 復(fù)習(xí)課件 高中信息技術(shù)浙教版(2019)必修1_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)處理必修一:數(shù)據(jù)與計算(一輪復(fù)習(xí))表格數(shù)據(jù)處理常見數(shù)據(jù)問題及解決方法數(shù)據(jù)缺失:忽略或采用平均值、中間值或概率統(tǒng)計值填充數(shù)據(jù)重復(fù):進一步審核的基礎(chǔ)上進行合并或刪除數(shù)據(jù)異?!獢?shù)據(jù)不符合一般規(guī)律:這些有可能是要去掉的噪聲,也有可能是含有重要信息的數(shù)據(jù)對象邏輯錯誤——與實際不符,違背邏輯或規(guī)則:對應(yīng)的字段需要設(shè)置取值范圍判斷格式不一致:將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式后再進行處理數(shù)據(jù)計算數(shù)據(jù)計算

(1)如圖1所示,區(qū)域G4:G14的數(shù)據(jù)是通過排名函數(shù)RANK計算得到,在G4中輸入公式___________________________,再利用自動填充完成G5:G14的計算。(2)對圖1中浙江省各地市數(shù)據(jù)按“十年增幅”為關(guān)鍵字進行降序排序,則排序的數(shù)據(jù)區(qū)域是_____________。=RANK(F4,F$4:F$14)A4:G14數(shù)據(jù)計算數(shù)據(jù)計算

(3)對A4:G15中的數(shù)據(jù)進行兩次篩選操作,首先對“十年增量”列進行篩選,篩選條件如圖2所示;再對“城市”列篩選,篩選條件如圖3所示,則篩選出的行數(shù)為_____1數(shù)據(jù)計算(4)根據(jù)圖1中數(shù)據(jù)制作了反應(yīng)各地區(qū)人口情況的圖表,如圖2所示,創(chuàng)建圖表的數(shù)據(jù)區(qū)域是_______。B4:D14圖表呈現(xiàn)圖表類型適合展現(xiàn)數(shù)據(jù)關(guān)系柱形圖大小關(guān)系折線圖變化趨勢餅圖數(shù)據(jù)構(gòu)成百分比雷達圖多項指標比較散點圖變量之間的聯(lián)系氣泡圖變量之間的關(guān)系大數(shù)據(jù)處理大數(shù)據(jù)特點與大數(shù)據(jù)思維大數(shù)據(jù)特點(4V):數(shù)據(jù)體量大(Volume)類型多(Variety)速度快(Velocity):①產(chǎn)生速度快②處理速度快價值密度低(Value)大數(shù)據(jù)思維:①分析全體數(shù)據(jù),而不是抽樣數(shù)據(jù)②不追求數(shù)據(jù)的精確性,而能夠接受數(shù)據(jù)的混雜型③不強調(diào)對因果關(guān)系的探求,而更加注重相關(guān)性大數(shù)據(jù)大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)批處理Hadoop、Spark圖數(shù)據(jù)圖計算Pregel、GraphX流數(shù)據(jù)流計算Storm、Heron大數(shù)據(jù)處理思想大數(shù)據(jù)處理思想——“分治思想”。即將一個復(fù)雜的問題拆分成兩個或多個相同或相似的子問題,找到求這幾個問題的解法之后,把它們組合成求整個問題的解法。分解、解決、合并大數(shù)據(jù)處理框架靜態(tài)數(shù)據(jù)——批處理在處理時已經(jīng)收集完成、在計算時不會發(fā)生改變的數(shù)據(jù)。

Hbase(數(shù)據(jù)存儲與管理)數(shù)據(jù)以文件的形式、用多副本保存在不同的存儲節(jié)點中,并進行分布式管理。HDFS用于云盤、網(wǎng)盤的底層。采用基于列的存儲方式,用于存儲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具有良好的橫向擴展能力。靜態(tài)數(shù)據(jù)——批處理在處理時已經(jīng)收集完成、在計算時不會發(fā)生改變的數(shù)據(jù)。

Hbase(數(shù)據(jù)存儲與管理)靜態(tài)數(shù)據(jù)批處理軟件:Hadoop、Spark流數(shù)據(jù)——流計算不間斷地、持續(xù)地到達的實時數(shù)據(jù)。流數(shù)據(jù)的價值會隨著時間

的流逝而降低。

對采集的數(shù)據(jù)實時分析和計算并反饋實時結(jié)果。經(jīng)處理系統(tǒng)處理完成的數(shù)據(jù)流直接丟棄或存儲用戶可以實時查詢最新數(shù)據(jù)分析結(jié)果,數(shù)據(jù)不斷更新,實時推薦給用戶流計算應(yīng)用:廣告推送、個性化推薦、實時交通流計算軟件:Storm、Streams、S4、Puma流數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)區(qū)別

流處理系統(tǒng)和傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)的區(qū)別:1、流處理系統(tǒng)處理的是實時的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預(yù)先存儲好的靜態(tài)數(shù)據(jù)。2、用戶通過流處理系統(tǒng)獲取的一般是實時結(jié)果,而傳統(tǒng)的數(shù)據(jù)處理方式獲取的都是過去某一個歷史時刻的快照。3、流處理系統(tǒng)會實時地把生成的結(jié)果不斷的推動給用戶,傳統(tǒng)數(shù)據(jù)需要用戶主動查詢才能獲取數(shù)據(jù)。圖數(shù)據(jù)——圖計算現(xiàn)實世界中以圖形式展現(xiàn)的數(shù)據(jù)。如社交網(wǎng)絡(luò)、道路交通等。圖處理軟件:Pregel、GraphX

文本數(shù)據(jù)處理文本數(shù)據(jù)處理應(yīng)用

020103050604搜索引擎自動摘要機器翻譯論文查重文本分類垃圾郵件過濾文本數(shù)據(jù)處理過程

分詞數(shù)據(jù)分析特征提取結(jié)果呈現(xiàn)分詞分詞:將連續(xù)的子序列按照一定的規(guī)范重新組合成詞序列的過程

基于字典在分析句子時與詞典中的詞語進行對比,詞典中出現(xiàn)的就劃分為詞基于統(tǒng)計依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計,同時出現(xiàn)的次數(shù)越高就越有可能組成一個詞,一般與基于字典的分詞方法結(jié)合使用基于規(guī)則計算機模擬人的計算方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進行學(xué)習(xí),進而分詞jieba分詞函數(shù)對應(yīng)模式cuts精準分詞模式:將句子最精確地切分開cut(s,cut_all=Ture)全模式分詞:將句子中所有成詞的詞語都掃描出來cut_for_search(s)搜索引擎模式分詞:在精確模式的基礎(chǔ)上對長詞再進行切分,將更短的詞語切分出來jieba分詞s="我來到了西北皇家理工學(xué)院,發(fā)現(xiàn)這兒真不錯"seg_list=jieba.cut(s,cut_all=True)我/來到/了/西北/皇家/理工/理工學(xué)/理工學(xué)院/工學(xué)/工學(xué)院/學(xué)院/,/發(fā)現(xiàn)/這兒/真不/真不錯/不錯s="我來到了西北皇家理工學(xué)院,發(fā)現(xiàn)這兒真不錯"seg_list=jieba.cut(s,cut_all=False)我/來到/了/西北/皇家/理工學(xué)院/,/發(fā)現(xiàn)/這兒/真不錯s="我來到了西北皇家理工學(xué)院,發(fā)現(xiàn)這兒真不錯"seg_list=jieba.cut_for_search(s)我/來到/了/西北/皇家/理工/工學(xué)/學(xué)院/理工學(xué)/工學(xué)院/理工學(xué)院/,/發(fā)現(xiàn)/這兒/真不錯特征提取在中文文本分析中采用字、詞、短語作為表示文本的特征項。特征提取方式:①根據(jù)專家知識挑選有價值的特征。②用數(shù)學(xué)建模的方法構(gòu)造評估函數(shù)自動選取特征。

結(jié)果呈現(xiàn)——標簽云

關(guān)鍵詞的視覺化描述。用文字大小等形式來表現(xiàn)詞語的重要性應(yīng)用于報紙、雜志等傳統(tǒng)媒體和互聯(lián)網(wǎng)結(jié)果呈現(xiàn)——文本情感分析

計算機通過技術(shù)對文本的主觀性、觀點、情緒進行挖掘和分析,對文本的情感情緒做出分類的判斷。

主要應(yīng)用于輿情監(jiān)控、信息預(yù)測,或用于判斷產(chǎn)品的口碑,進而幫助生產(chǎn)者改進產(chǎn)品人工智能AI緊密相關(guān)的領(lǐng)域

人工智能人工智能的概念人工智能:1、以機器(計算機)為載體2、模仿、延伸和擴展人類智能3、與生物智能有著重要區(qū)別。人工智能符號主義我感覺到頭暈、乏力、畏寒,體溫37.5℃這是發(fā)燒了,需要服用退燒藥,注意飲食清淡符號主義=知識庫+推理引擎典型案例:專家系統(tǒng)符號主義從海量數(shù)據(jù)出發(fā),尋找數(shù)據(jù)中蘊含的模式——聯(lián)結(jié)主義聯(lián)結(jié)主義典型案例:深度學(xué)習(xí)、模式識別聯(lián)結(jié)主義行為主義結(jié)果反饋調(diào)整學(xué)習(xí)方式無效學(xué)習(xí)有效學(xué)習(xí)行為主義:從“交互——反饋”角度刻畫智能行為,是一種問題引導(dǎo)下的試錯學(xué)習(xí)。典型案例:強化學(xué)習(xí)、掃地機器人行為主義人工智能領(lǐng)域人工智能依賴于領(lǐng)域知識和數(shù)據(jù)的人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論