數據分析及可視化技術應用_第1頁
數據分析及可視化技術應用_第2頁
數據分析及可視化技術應用_第3頁
數據分析及可視化技術應用_第4頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據分析及可視化技術應用摘要:第三次信息化浪潮涌動,大數據時代已來,大數據對社會各行各業(yè)均 產生深遠的影響,大數據決策成為一種新的決策方式。以Python開發(fā)為基礎, 簡述數據分析及可視化常見方法和基本流程。關鍵詞:大數據;數據分析;數據可視化;Python0引言大數據時代已經到來,當前社會數據增長到達PEZ級別,呈現一個指數型的 增長趨勢,大數據對整個社會都具有深遠影響,特別是對思維方式的影響。利 用數據解決問題的思維模式-數據思維,開啟人類社會利用數據價值的嶄新時代31基本介紹大數據(big data),是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、 管理和處理的海量數據的整合。大數據4

2、V特征,即數據量大(Volume) 數據 類型多(Variety) 處理速度快(Velocity)以及價值密度低(Value)。大 數據的5V特點,補充Veracity(真實性)。維克托邁爾舍恩伯格在大數據時代:生活、工作與思維的大變革一 書中指出“全樣而非抽樣”、“效率而非精確”、“相關而非因果”大數據時代 的新思維方式叫大數據技術促進企業(yè)或個人,通過分析數據獲得的信息做出決 策。對實際應用場景深入了解,明確決策需求,保證數據分析結果高價值性。在數據分析時,數據預處理環(huán)節(jié)是分析結果可靠性的重要保障。目前主流的 大數據處理架構Hadoop. Spark,采用分布式存儲系統(tǒng),結合機器學習和數據挖

3、 掘算法,可對海量數據進行并行分析與處理。數據可視化是將抽象的“數據”轉換成圖形、圖像,以可見的形式表現出來, 以幫助人們更為直觀地理解和利用數據2實現過程很多編程語言都可以完成數據分析及可視化工作,綜合考慮Python語法簡 練、豐富的庫、功能強大、通用性強等特點,選擇Python開發(fā)環(huán)境完成數據處 理工作。3. 1環(huán)境搭建Python開發(fā)者普遍選擇集成開發(fā)環(huán)境PyCharm IDE,具有代碼調試、高亮標 注以及工程管理等功能,但是在數據分析場景下,可能面臨不停安裝計算包的繁 瑣工作;Anaconda是主要用于科學計算的Python發(fā)行版,包含大量常用的科學 包,給數據分析人員帶來極大便捷。

4、在創(chuàng)立包含了 numpy、malplotlib、pyecharts等包的虛擬環(huán)境之后,通過 jupyter notebook命令啟用Jupyter Notebook界面,便可在Web頁面完成代碼 編輯、運行、結果呈現。注意命令窗口假設關閉,WEB頁面將會與本地服務器斷開 而導致無法操作。3. 2數據準備目前各領域數據生成量巨大,除了直接獲得數據之外,通常利用網絡爬蟲技 術,按照需求內容自行爬取網站中公開的數據,保存到本地.CSV文件中。利用 pd. read_csv ()函數加載數據文件,為后續(xù)做好準備。3. 3數據預處理高質量的數據得到的數據分析結果才有意義,不規(guī)范的數據,如空值、不一 致值

5、、重復值、不合法的值等等對后期分析結果很有可能造成偏差。常見處理如 下:單位統(tǒng)一。利用replace。方法將不同的單位描述進行統(tǒng)一。例如戶型單位 可能會有“房間”、“室”等,統(tǒng)一規(guī)范為“室”。去除重復數據。數據信息中不可防止會存在重復信息,利用 drop_duplicates ()方法快速實現刪除重復數據。填充缺失值。NumPy中缺失值NaN, NAN, nan均表示毫無意義的數據,假設直 接刪除可能會損失信息,多采用填充方式。對于非時間序列,采用常量、統(tǒng)計量值 替換;對于時間序列,采用就近插補、線性插補、K最近距離鄰法插補以及更加 科學的機器學習算法進行填充。3. 4數據分析統(tǒng)計分析是數據分

6、析基本的操作,特別是分組和聚合。常見方法是利用 groupbyO分組,用agg()做均值、標準差、方差等聚合。該方法靈活,不僅可以 進行單列分組、單列單統(tǒng)計值,也可以進行多列分組、多列多統(tǒng)計值;另外一種 方法是采用數據透視表pivotable()函數,類似Excel中的透視表,同樣可以 實現分組聚類的功能。大數據分析,離不開機器學習技術。主要涉及如K近鄰算法、貝葉斯分類、 決策樹與隨機森林以及邏輯回歸等算法。3. 5數據可視化數據展示圖形類別豐富,滿足不同的場景。折線圖展示開展趨勢,散點圖展 示數據的分布情況,柱狀圖和直方圖展示數據間比照情況,面積圖、餅圖、堆積 柱狀圖展示局部與整體之間關系,

7、目前流行的氣泡圖、詞云圖展示數據頻率。 Python常用以下繪圖庫可以完成上述圖形的繪制。Matplotlib通過設置較多的參數,展示圖形更為精細。Pandas展示圖形十分多樣,例如條形圖、折線圖、直方圖、餅圖等常見圖形, 以及蜂巢圖、堆疊圖等。Seaborn在Matplotlib基礎上進行了更高級的API封裝,可以通過設置顏色、 形狀、大小等一張圖中繪制多變量。對葛尾花Tris數據集可視化,選擇品種作 為類別變量,通過pairplolO函數將所有成對數值關系一次性進行繪制。代碼及 運行結果如下:fig=sns. pairplot(tips, hue=,species*)圖1 Iris數據集可

8、視化Pyecharts可以繪制非常酷炫的詞云圖、氣泡圖、圓環(huán)圖等。例如用詞云圖 直觀展示熱門租房小區(qū)分布情況。圖2熱門租房詞云圖數據可視化技術實現多樣的圖表類型展示,便于直觀發(fā)現數據中隱含的信息。3結束語經過分析處理后得到的大數據結果幫助企業(yè)管理者或個人更好地做出決策, 大數據己經成為支撐經濟監(jiān)測預測的重要手段8大數據引起的新的思維方式將 影響金融、教育、醫(yī)療等諸多領域。參考文獻1杜小勇.數據科學與大數據技術導論M.人民郵電出版社,2021.2林子雨.大數據技術M.人民郵電出版社,2021.3維克托邁爾舍恩伯格.大數據時代:生活、工作與思維的大變革M. 浙江人民出版社,2013.4吳振宇,李春忠,李建鋒.Python數據處理與挖掘M.人民郵電出版 社,2020.5牛長春,王福超.大數據技術的演進與開展歷程J.電腦知識與技 術,2021, 5:35-37.6沈恩亞.大數據可視化技術及應用J.科技導報,2020,3:68-83.7李俊華.基于Py

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論