Python 數(shù)據(jù)分析概述_第1頁
Python 數(shù)據(jù)分析概述_第2頁
Python 數(shù)據(jù)分析概述_第3頁
Python 數(shù)據(jù)分析概述_第4頁
Python 數(shù)據(jù)分析概述_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Python數(shù)據(jù)分析概述/1/81/371熟悉Python數(shù)據(jù)分析工具安裝 Python Anaconda 發(fā)行版掌握 Jupyter Notebook 慣用功效目錄認識數(shù)據(jù)分析2342/37 廣義數(shù)據(jù)分析包含狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘。 狹義數(shù)據(jù)分析是指依據(jù)分析目標,采取對比分析、分組分析、交叉分析和回歸分析等分析方法,對搜集來數(shù)據(jù)進行處理與分析,提取有價值信息,發(fā)揮數(shù)據(jù)作用,得到一個特征統(tǒng)計量結(jié)果過程。 數(shù)據(jù)挖掘則是從大量、不完全、有噪聲、含糊、隨機實際應(yīng)用數(shù)據(jù)中,經(jīng)過應(yīng)用聚類、分類、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價值過程。數(shù)據(jù)分析概念3/37數(shù)據(jù)分析流程經(jīng)典數(shù)據(jù)分析流程4/37需求分析:數(shù)據(jù)

2、分析中需求分析也是數(shù)據(jù)分析步驟第一步和最主要步驟之一,決定了后續(xù)分析方向、方法。數(shù)據(jù)獲?。簲?shù)據(jù)是數(shù)據(jù)分析工作基礎(chǔ),是指依據(jù)需求分析結(jié)果提取,搜集數(shù)據(jù)。數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理是指對數(shù)據(jù)進行數(shù)據(jù)合并,數(shù)據(jù)清洗,數(shù)據(jù)變換和數(shù)據(jù)標準化,數(shù)據(jù)變換后使得整體數(shù)據(jù)變?yōu)闈崈粽R,能夠直接用于分析建模這一過程總稱。分析與建模:分析與建模是指經(jīng)過對比分析、分組分析、交叉分析、回歸分析等分析方法和聚類、分類、關(guān)聯(lián)規(guī)則、智能推薦等模型與算法發(fā)覺數(shù)據(jù)中有價值信息,并得出結(jié)論過程。模型評價與優(yōu)化:模型評價是指對已經(jīng)建立一個或多個模型,依據(jù)其模型類別,使用不一樣指標評價其性能優(yōu)劣過程。布署:布署是指將經(jīng)過了正式應(yīng)用數(shù)據(jù)分析

3、結(jié)果與結(jié)論應(yīng)用至實際生產(chǎn)系統(tǒng)過程。數(shù)據(jù)分析流程經(jīng)典數(shù)據(jù)分析流程5/37主要是客戶基本數(shù)據(jù)信息進行商業(yè)行為分析,首先界定目標客戶,依據(jù)客戶需求,目標客戶性質(zhì),所處行業(yè)特征以及客戶經(jīng)濟情況等基本信息使用統(tǒng)計分析方法和預(yù)測驗證法,分析目標客戶,提升銷售效率。其次了解客戶采購過程,依據(jù)客戶采購類型、采購性質(zhì)進行分類分析制訂不一樣營銷策略。最終還能夠依據(jù)已經(jīng)有客戶特征,進行客戶特征分析、客戶忠誠分析、客戶注意力分析、客戶營銷分析和客戶收益分析。了解數(shù)據(jù)分析應(yīng)用場景1. 客戶分析6/37產(chǎn)品分析主要是競爭產(chǎn)品分析,經(jīng)過對競爭產(chǎn)品分析制訂本身產(chǎn)品策略。價格分析又能夠分為成本分析和售價分析,成本分析目標是降低

4、無須要成本,售價分析目標是制訂符合市場價格。渠道分析目標是指對產(chǎn)品銷售渠道進行分析,確定最優(yōu)渠道配比。廣告與促銷分析則能夠結(jié)合客戶分析,實現(xiàn)銷量提升,利潤增加。了解數(shù)據(jù)分析應(yīng)用場景2. 營銷分析: 囊括了產(chǎn)品分析,價格分析,渠道分析,廣告與促銷分析這四類分析。7/37 以不一樣社交媒體渠道生成內(nèi)容為基礎(chǔ),實現(xiàn)不一樣社交媒體用戶分析,訪問分析,互動分析等。同時,還能為情感和輿情監(jiān)督提供豐富資料。用戶分析主要依據(jù)用戶注冊信息,登錄平臺時間點和平時發(fā)表內(nèi)容等用戶數(shù)據(jù),分析用戶個人畫像和行為特征。訪問分析則是經(jīng)過用戶平時訪問內(nèi)容,分析用戶興趣興趣,進而分析潛在商業(yè)價值?;臃治鲆罁?jù)相互關(guān)注對象行為預(yù)測

5、該對象未來一些行為特征。了解數(shù)據(jù)分析應(yīng)用場景3. 社交媒體分析8/37 新型病毒防御系統(tǒng)可使用數(shù)據(jù)分析技術(shù),建立潛在攻擊識別分析模型,監(jiān)測大量網(wǎng)絡(luò)活動數(shù)據(jù)和對應(yīng)訪問行為,識別可能進行入侵可疑模式,做到未雨綢繆。了解數(shù)據(jù)分析應(yīng)用場景4. 網(wǎng)絡(luò)安全9/37 經(jīng)過物聯(lián)網(wǎng)技術(shù)能夠搜集和分析設(shè)備上數(shù)據(jù)流,包含連續(xù)用電、零部件溫度、環(huán)境濕度和污染物顆粒等無數(shù)潛在特征,建立設(shè)備管理模型,從而預(yù)測設(shè)備故障,合理安排預(yù)防性維護,以確保設(shè)備正常作業(yè),降低因設(shè)備故障帶來安全風(fēng)險。了解數(shù)據(jù)分析應(yīng)用場景5. 設(shè)備管理10/37RPythonMATLAB語言學(xué)習(xí)難易程度入門難度低入門難度普通入門難度普通使用場景數(shù)據(jù)分析,

6、數(shù)據(jù)挖掘,機器學(xué)習(xí),數(shù)據(jù)可視化等。數(shù)據(jù)分析,機器學(xué)習(xí),矩陣運算,科學(xué)數(shù)據(jù)可視化,數(shù)字圖像處理,web應(yīng)用,網(wǎng)絡(luò)爬蟲,系統(tǒng)運維等。矩陣計算,數(shù)值分析,科學(xué)數(shù)據(jù)可視化,機器學(xué)習(xí),符號計算,數(shù)字圖像處理,數(shù)字信號處理,仿真模擬等。第三方支持擁有大量Packages,能夠調(diào)用C,C+,F(xiàn)ortran,Java等其它程序語言。擁有大量第三方庫,能夠簡便地調(diào)用C,C+,F(xiàn)ortran,Java等其它程序語言。擁有大量專業(yè)工具箱,在新版本中加入了對C,C+,Java支持。流行領(lǐng)域工業(yè)界學(xué)術(shù)界工業(yè)界學(xué)術(shù)界工業(yè)界學(xué)術(shù)界軟件成本開源無償開源無償商業(yè)收費了解數(shù)據(jù)分析慣用工具當(dāng)前主流數(shù)據(jù)分析語言有R,Python,M

7、ATLAB三種程序語言。11/37 物流是物品從供給地向接收地實體流動。經(jīng)過業(yè)務(wù)系統(tǒng)和GPS定位系統(tǒng)取得數(shù)據(jù),對于客戶使用數(shù)據(jù)構(gòu)建交通情況預(yù)測分析模型,有效預(yù)測實時路況、物流情況、車流量、客流量和貨物吞吐量,進而提前補貨,制訂庫存管理策略。了解數(shù)據(jù)分析應(yīng)用場景6. 交通物流分析12/37 身份信息泄露盜用事件逐年增加,隨之而來是欺詐行為和交易增多。公安機關(guān),各大金融機構(gòu),電信部門可利用用戶基本信息,用戶交易信息,用戶通話短信信息等數(shù)據(jù),識別可能發(fā)生潛在欺詐交易,做到提前預(yù)防未雨綢繆。了解數(shù)據(jù)分析應(yīng)用場景7. 欺詐行為檢測13/37安裝 Python Anaconda 發(fā)行版掌握 Jupyter

8、 Notebook 慣用功效目錄341熟悉Python數(shù)據(jù)分析工具認識數(shù)據(jù)分析214/37語法簡單精練。對于初學(xué)者來說,比起其它編程語言,Python更輕易上手。有很強大庫。能夠只使用Python這一個語言去構(gòu)建以數(shù)據(jù)為中心應(yīng)用程序。功效強大。Python是一個混合體,豐富工具集使它介于傳統(tǒng)腳本語言和系統(tǒng)語言之間。Python不但具備全部腳本語言簡單和易用特點,還提供了編譯語言所含有高級軟件工程工具。不但適合用于研究和原型構(gòu)建,同時也適合用于構(gòu)建生產(chǎn)系統(tǒng)。研究人員和工程技術(shù)人員使用同一個編程工具,會給企業(yè)帶來非常顯著組織效益,并降低企業(yè)運行成本。Python是一門膠水語言。Python程序能夠

9、以各種方式輕易地與其它語言組件“粘接”在一起。了解Python數(shù)據(jù)分析優(yōu)勢Python 數(shù)據(jù)分析主要包含以下 5 個方面優(yōu)勢15/37是一個增強Python shell,目標是提升編寫、測試、調(diào)試Python代碼速度。主要用于交互式數(shù)據(jù)并行處理,是分布式計算基礎(chǔ)架構(gòu)。提供了一個類似于MathematicaHTML筆記本,一個基于Qt框架GUI控制臺,含有繪圖、多行編輯以及語法高亮顯示等功效。了解Python數(shù)據(jù)分析慣用類庫1IPython科學(xué)計算標準工具集組成部分16/37快速高效多維數(shù)組對象 ndarray。對數(shù)組執(zhí)行元素級計算以及直接對數(shù)組執(zhí)行數(shù)學(xué)運算函數(shù)。讀寫硬盤上基于數(shù)組數(shù)據(jù)集工具。線

10、性代數(shù)運算、傅里葉變換,以及隨機數(shù)生成功效。將 C、C+、Fortran 代碼集成到 Python 工具。了解Python數(shù)據(jù)分析慣用類庫2NumPy(Numerical Python) Python 科學(xué)計算基礎(chǔ)包17/37SciPy 主要包含了 8 個模塊,不一樣子模塊有不一樣應(yīng)用,如插值、積分、優(yōu)化、圖像處理和特殊函數(shù)等。egrate 數(shù)值積分例程和微分方程求解器scipy.linalg 擴展了由 numpy.linalg 提供線性代數(shù)例程和矩陣分解功效scipy.optimize 函數(shù)優(yōu)化器(最小化器)以及根查找算法scipy.signal 信號處理工具scipy.sparse 稀疏矩

11、陣和稀疏線性系統(tǒng)求解器scipy.special SPECFUN(這是一個實現(xiàn)了許多慣用數(shù)學(xué)函數(shù) Fortran 庫)包裝器scipy.stats 檢驗連續(xù)和離散概率分布、各種統(tǒng)計檢驗方法,以及更加好描述統(tǒng)計法scipy.weave 利用內(nèi)聯(lián) C+代碼加速數(shù)組計算工具了解Python數(shù)據(jù)分析慣用類庫3SciPy專門處理科學(xué)計算中各種標準問題域模塊集合18/37提供了一系列能夠快速、便捷地處理結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)和函數(shù)。高性能數(shù)組計算功效以及電子表格和關(guān)系型數(shù)據(jù)庫(如 SQL)靈活數(shù)據(jù)處理功效。復(fù)雜精細索引功效,方便便捷地完成重塑、切片和切塊、聚合及選取數(shù)據(jù)子集等操作。了解Python數(shù)據(jù)分析慣用

12、類庫4Pandas數(shù)據(jù)分析關(guān)鍵庫19/37Python2D繪圖庫,非常適合創(chuàng)建出版物上用圖表。操作比較輕易,只需幾行代碼即可生成直方圖、功率譜圖、條形圖、錯誤圖和散點圖等圖形。提供了pylab模塊,其中包含了NumPy和pyplot中許多慣用函數(shù),方便用戶快速進行計算和繪圖。交互式數(shù)據(jù)繪圖環(huán)境,繪制圖表也是交互式。了解Python數(shù)據(jù)分析慣用類庫5Matplotlib繪制數(shù)據(jù)圖表 Python 庫20/37簡單有效,能夠供用戶在各種環(huán)境下重復(fù)使用。封裝了一些慣用算法方法。基本模塊主要有數(shù)據(jù)預(yù)處理、模型選擇、分類、聚類、數(shù)據(jù)降維和回歸 6 個,在數(shù)據(jù)量不大情況下,scikit-learn能夠處理

13、大部分問題。了解Python數(shù)據(jù)分析慣用類庫6scikit-learn數(shù)據(jù)挖掘和數(shù)據(jù)分析工具21/37提供高級代碼編輯、交互測試和調(diào)試等特征。包含數(shù)值計算環(huán)境??捎糜趯⒄{(diào)試控制臺直接集成到圖形用戶界面布局中。模仿MATLAB“工作空間”,能夠很方便地觀察和修改數(shù)組值。了解Python數(shù)據(jù)分析慣用類庫7Spyder交互式 Python 語言開發(fā)環(huán)境22/37掌握 Jupyter Notebook 慣用功效目錄41認識數(shù)據(jù)分析安裝 Python Anaconda 發(fā)行版3熟悉Python數(shù)據(jù)分析工具223/37預(yù)裝了大量慣用 Packages。完全開源和無償。額外加速和優(yōu)化是收費,但對于學(xué)術(shù)用途,

14、能夠申請無償 License。對全平臺和幾乎全部Python版本支持。了解 Python Anaconda 發(fā)行版Anaconda24/37安裝包“next”“I agree”“All Users(requires admin privileges)”選擇安裝路徑“Install”“finish”。在 Windows 系統(tǒng)上安裝 Anaconda安裝流程25/37目錄1認識數(shù)據(jù)分析熟悉Python數(shù)據(jù)分析工具2安裝 Python Anaconda 發(fā)行版3掌握 Jupyter Notebook 慣用功效426/37掌握 Jupyter Notebook 基本功效打開并新建一個Notebook打

15、開 Jupyter Notebook“Text File”為純文本型“Folder” 為文件夾“Python 3” 表示 Python 運行腳本27/37選擇”Python 3”選項,進入 Python 腳本編輯界面,Notebook 文檔由一系列單元(Cell)組成,主要有兩種形式單元。掌握 Jupyter Notebook 基本功效Jupyter Notebook 界面及其組成代碼單元。這里是讀者編寫代碼地方。Markdown 單元。在這里對文本進行編輯。28/37編輯模式:用于編輯文本和代碼。掌握 Jupyter Notebook 基本功效編輯界面命令模式:用于執(zhí)行鍵盤輸入快捷命令。29

16、/37“Esc”鍵:進入命令模式“Y” 鍵:切換到代碼單元“M”鍵:切換到 Markdown 單元“B”鍵:在本單元下方增加一單元“H”鍵:查看全部快捷命令“ShiftEnter”組合鍵:運行代碼掌握 Jupyter Notebook 基本功效快捷鍵30/37Markdown 是一個能夠使用普通文本編輯器編寫標識語言,經(jīng)過簡單標識語法,它能夠使普通文本內(nèi)容含有一定格式。標題:標題是標明文章和作品等內(nèi)容簡短語句。一個“#”字符代表一級標題,以這類推。掌握 Jupyter Notebook 高級功效1Markdown31/37列表:列表是一個由數(shù)據(jù)項組成有限序列,即按照一定線性次序排列而成數(shù)據(jù)項集

17、合。對于無序列表,使用星號、加號或者減號作為列表標識對于有序列表,則是使用數(shù)字“,”“(一個空格)”。掌握 Jupyter Notebook 高級功效1Markdown32/37加粗斜體:前后有兩個星號或下劃線表示加粗,前后有 3 個星號或下劃線表示斜體。掌握 Jupyter Notebook 高級功效1Markdown33/37表格:代碼第一行表示表頭,第二行分隔表頭和主體部分,從第三行開始,每一行代表一個表格行;列與列之間用符號“”隔開,表格每一行兩邊也要有符號“”。掌握 Jupyter Notebook 高級功效1Markdown34/37數(shù)學(xué)公式編輯:LaTeX 是寫科研論文必備工具, Markdown 單元中也能夠使用 LaTeX 來插入數(shù)學(xué)公式。在文本行中插入數(shù)學(xué)公

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論