第4章數(shù)據(jù)處理與應用知識點梳理高考信息技術(shù)二輪復習知識點梳理_第1頁
第4章數(shù)據(jù)處理與應用知識點梳理高考信息技術(shù)二輪復習知識點梳理_第2頁
第4章數(shù)據(jù)處理與應用知識點梳理高考信息技術(shù)二輪復習知識點梳理_第3頁
第4章數(shù)據(jù)處理與應用知識點梳理高考信息技術(shù)二輪復習知識點梳理_第4頁
第4章數(shù)據(jù)處理與應用知識點梳理高考信息技術(shù)二輪復習知識點梳理_第5頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第四章數(shù)據(jù)處理與應用數(shù)據(jù)處理的核心是數(shù)據(jù),數(shù)據(jù)的質(zhì)量直接影響數(shù)據(jù)分析的結(jié)果。在數(shù)據(jù)分析和數(shù)據(jù)挖掘前,通常先對數(shù)據(jù)進行整理。數(shù)據(jù)整理的目的是檢測和修正錯漏的數(shù)據(jù)、整合數(shù)據(jù)資源、規(guī)整數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)缺失問題是數(shù)據(jù)集中普遍存在的問題,通常采用平均值、中間值或概率統(tǒng)計值來填充缺失值數(shù)據(jù)重復問題在多數(shù)據(jù)源進行合并集成時經(jīng)常出現(xiàn),通常在進一步審核的基礎(chǔ)上進行合并或刪除等處理異常數(shù)據(jù)指數(shù)據(jù)集中不符合一般規(guī)律的數(shù)據(jù)對象,它可能是要去掉的噪聲,也可能是含有重要信息的數(shù)據(jù)對象。邏輯錯誤問題指數(shù)據(jù)集中的屬性值與實際值不符,一般通過檢測字段中各屬性有效數(shù)據(jù)值的范圍可以判斷該值錯誤。數(shù)據(jù)計算是數(shù)據(jù)處理的常用方法之一日常簡單的數(shù)據(jù)處理可以使用Excel軟件完成,專業(yè)的數(shù)據(jù)處理和統(tǒng)計分析工具有SPSS、SAS、MATLAB等,也可以通過R、Python、Java等計算機語言編程進行數(shù)據(jù)處理。在Excel軟件中,可以應用公式進行數(shù)據(jù)的計算。公式是以“=”開頭,由常數(shù)、函數(shù)、單元格引用和運算符組成的式子。單元格引用是指對工作表中的單元格或單元格區(qū)域的引用。默認情況下,單元格引用是相對的,如Al;單元格絕對引用,如$A$1;連續(xù)的單元格區(qū)域引用,如A2:D5;不連續(xù)的單元格區(qū)域引用,如A2:A5,D2:D5。算術(shù)運算符有^、%、*、/、十、-,用于進行基本的數(shù)學運算。比較運算符有=、>、<、>=、<=、<>,用于比較兩個值,結(jié)果為邏輯值TRUE或FALSE。文本連接運算符"&",可以連接一個或多個文本字符串,生成一段文本。Excel內(nèi)置函數(shù)函數(shù)名使用說明SUMSUM(A1:A10)求和AVERAGEAVERAGE(A1:A10)求平均值MAXMAX(A1:A10)求最大值MINMIN(A1:A10)求最小值COUNTCOUNT(A1:A10)求數(shù)量RANKRANK(A1:A10,A1)求排名表1.1相對引用與絕對引用:Excel中對單元格的引用可以是相對的,也可以是絕對的,相對的例如A1:A10,絕對引用一般用$符號標識,例如$A1就是鎖定列,在填充的時候A不會隨著,單元格位置的變換的變換而變換,同理A$1就是鎖定行,$A$1就是鎖定行列。圖表是用視覺形式向人們展示數(shù)據(jù)的一種方法。常見的圖表類型有柱形圖、折線圖、餅圖、雷達圖、散點圖、氣泡圖大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)來源與類型多樣、處理速度快等特點處理大數(shù)據(jù)時,一般采用分治思想處理大數(shù)據(jù)的基本方法有批處理計算、流計算、圖計算三種分布式計算(DistributedComputing)是把一個需要非常巨大的計算能力才能解決的問題分成許多小部分,然后把這些部分分配給許多計算機進行處理,最后把這些計算結(jié)果綜合起來得到最終的結(jié)果并行處理(ParallelProcessing)是計算機系統(tǒng)中能同時執(zhí)行兩個或更多處理的一種計算方法大數(shù)據(jù)處理按照類型可劃分為對靜態(tài)數(shù)據(jù)的批處理、對流數(shù)據(jù)的實時計算和對圖結(jié)構(gòu)數(shù)據(jù)的圖計算【如下圖】Hadoop計算平臺主要包括Common公共庫、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、分布式數(shù)據(jù)庫HBase、分布式并行計算模型MapReduce等多個模塊Windows的文件系統(tǒng)采用FAT32或NTFS,Linux的文件系統(tǒng)為Ext2/Ext3/Ext4、云盤、網(wǎng)盤的底層一般采用HDFS實現(xiàn)HBase是一個高可靠、高性能、可伸縮、分布式的列式數(shù)據(jù)庫MapReduce是一種分布式并行編程模型,能夠處理大規(guī)模數(shù)據(jù)集的并行運算,主要由Map(映射)和Reduce(歸納)2個函數(shù)構(gòu)成使用計算機語言編程,可以更加靈活、深入地進行數(shù)據(jù)分析和挖掘numpy模塊是Python中做科學計算的基礎(chǔ)庫,主要提供科學計算中常用的隨機數(shù)、數(shù)組運算等基礎(chǔ)函數(shù)。scipy模塊是基于numpy構(gòu)建的一個模塊,增強了在高等數(shù)學、信號處理、圖像處理、統(tǒng)計等方面的處理能力。pandas模塊基于numpy實現(xiàn),主要用于數(shù)據(jù)的處理和分析。它提供了大量處理數(shù)據(jù)的函數(shù)和方法,能方便地操作大型數(shù)據(jù)集。pandas提供了Series和DataFrame兩種數(shù)據(jù)結(jié)構(gòu)。使用這兩種數(shù)據(jù)結(jié)構(gòu),可完成數(shù)據(jù)的整理、計算、統(tǒng)計、分析及簡單可視化。在Python中引入pandas模塊的方法:importpandasaspdSeries是一種一維的數(shù)據(jù)結(jié)構(gòu),包含一個數(shù)組的數(shù)據(jù)和一個與數(shù)據(jù)關(guān)聯(lián)的索引(index),索引值默認是從0起遞增的整數(shù)。列表、字典等可以用來創(chuàng)建Series數(shù)據(jù)結(jié)構(gòu),與列表不同的是,Series的索引可以指定,類型可以為字符串型。Series樣例使用如下圖通過索引可以選取Series對象中的值,通過賦值語句可以修改Series對象中的值。如:s1[0]=168、s2["s01"]=168,可將sl、s2對象中的“166"改為“168”。DataFrame是一種二維的數(shù)據(jù)結(jié)構(gòu)由1個索引列(index)和若干個數(shù)據(jù)列組成,每個數(shù)據(jù)列可以是不同的類型。DataFrame可以看作是共享同一個index的Series的集合。創(chuàng)建DataFrame對象的方法很多,通常用一個相等長度的列表或字典來創(chuàng)建。如下圖Pandas也可以讀取Excel,代碼如下圖DataFrame常見函數(shù)表【本表詳見附表1】matplotlib是一個繪圖庫,使用其中的pyplot子庫所提供的函數(shù)可以快速繪圖和設(shè)置圖表的坐標軸、坐標軸刻度、圖例等。常用繪圖函數(shù)如下表樣例代碼:繪制正弦函數(shù)圖左1代碼圖,左2結(jié)果圖文本數(shù)據(jù)處理是大數(shù)據(jù)處理的重要分支之一,目的是從大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、感興趣的和隱藏的信息。目前,文本數(shù)據(jù)處理主要應用在搜索引擎、情報分析、自動摘要、自動校對、論文查重、文本分類、垃圾郵件過濾、機器翻譯、自動應答等方面。文本處理的一般步驟:文本內(nèi)容是非結(jié)構(gòu)化的數(shù)據(jù),要從大量的文本中提取出有用的信息,需要將文本從無結(jié)構(gòu)的原始狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化的、便于計算機處理的數(shù)據(jù)。典型的文本處理過程主要包括:分詞、特征提取、數(shù)據(jù)分析、結(jié)果呈現(xiàn)中文分詞是中文文本信息處理的基礎(chǔ),機器翻譯、全文檢索等涉及中文的相關(guān)應用中都離不開中文分詞。分詞是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程分詞的三種方法基于詞典的分詞方法、基于統(tǒng)計的分詞方法、基于規(guī)則的分詞方法標簽云用詞頻表現(xiàn)文本特征,將關(guān)鍵詞按照一定的順序和規(guī)律排列,如頻度遞減、字母順序等,并以文字大小的形式代表詞語的重要性文本情感分析是指通過計算機技術(shù)對文本的主觀性、觀點、情緒、極性進行挖掘和分析,對文本的情感傾向做出分類判斷數(shù)據(jù)可視化的作用:快捷觀察與追蹤數(shù)據(jù)、實時分析數(shù)據(jù)、增強數(shù)據(jù)的解釋力與吸引力數(shù)據(jù)可視化的基本方法:有關(guān)時間趨勢的可視化、有關(guān)比例的可視化、有關(guān)關(guān)系的可視化、有關(guān)差異的可視化、有關(guān)空間關(guān)系的可視化數(shù)據(jù)可視化的工具:用于數(shù)據(jù)可視化的工具有大數(shù)據(jù)魔

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論