Python數(shù)據(jù)可視化(微課版) 課件全套 呂云翔 第1-11章 數(shù)據(jù)可視化概述 -新生數(shù)據(jù)分析與可視化案例_第1頁(yè)
Python數(shù)據(jù)可視化(微課版) 課件全套 呂云翔 第1-11章 數(shù)據(jù)可視化概述 -新生數(shù)據(jù)分析與可視化案例_第2頁(yè)
Python數(shù)據(jù)可視化(微課版) 課件全套 呂云翔 第1-11章 數(shù)據(jù)可視化概述 -新生數(shù)據(jù)分析與可視化案例_第3頁(yè)
Python數(shù)據(jù)可視化(微課版) 課件全套 呂云翔 第1-11章 數(shù)據(jù)可視化概述 -新生數(shù)據(jù)分析與可視化案例_第4頁(yè)
Python數(shù)據(jù)可視化(微課版) 課件全套 呂云翔 第1-11章 數(shù)據(jù)可視化概述 -新生數(shù)據(jù)分析與可視化案例_第5頁(yè)
已閱讀5頁(yè),還剩221頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PowerPointDesign匯報(bào)人:AiPPT時(shí)間:202X數(shù)據(jù)可視化概述20XX-20XX01數(shù)據(jù)可視化簡(jiǎn)介CONTENTS02數(shù)據(jù)可視化發(fā)展歷史數(shù)據(jù)可視化流程0304數(shù)據(jù)可視化設(shè)計(jì)工具和原則PART數(shù)據(jù)可視化簡(jiǎn)介PowerPointDesign01數(shù)據(jù)是可識(shí)別的、抽象的符號(hào),涵蓋數(shù)字、文字、圖形等,是客觀事物屬性、數(shù)量、位置及其相互關(guān)系的抽象表示。例如,“0、1、2...”、“陰、雨、下降、氣溫”等都是數(shù)據(jù)。在計(jì)算機(jī)科學(xué)中,數(shù)據(jù)是能輸入計(jì)算機(jī)并被程序處理的符號(hào)介質(zhì)的總稱,隨著計(jì)算機(jī)存儲(chǔ)和處理對(duì)象的廣泛與復(fù)雜,數(shù)據(jù)形式也日益多樣。數(shù)據(jù)的定義與范疇數(shù)據(jù)是信息的表現(xiàn)形式和載體,信息則是數(shù)據(jù)的內(nèi)涵,是對(duì)數(shù)據(jù)的加工處理后得到的并對(duì)決策產(chǎn)生影響的結(jié)果。數(shù)據(jù)是物理性的符號(hào),信息是邏輯性和觀念性的,兩者相互依存,不可分離。信息與數(shù)據(jù)的區(qū)別與聯(lián)系數(shù)據(jù)可視化是數(shù)據(jù)中信息的可視化,借助圖形化手段有效傳達(dá)與溝通信息。它是一門(mén)科學(xué),與多個(gè)領(lǐng)域密切相關(guān),在商業(yè)中發(fā)揮巨大價(jià)值,是商務(wù)智能的重要組成部分;同時(shí),它也是一門(mén)藝術(shù),需在功能與美學(xué)形式間達(dá)到平衡。數(shù)據(jù)可視化的意義數(shù)據(jù)與信息的關(guān)系數(shù)據(jù)可視化的價(jià)值體現(xiàn)在大數(shù)據(jù)時(shí)代,數(shù)據(jù)可視化成為傳遞信息不可缺少的手段,是快速理解數(shù)據(jù)的必然要求。它主要從數(shù)據(jù)中尋找模式、關(guān)系和異常,為各領(lǐng)域提供決策支持,如城市交通流量模式分析可為交通管理和調(diào)控提供依據(jù)。數(shù)據(jù)可視化在不同領(lǐng)域的應(yīng)用數(shù)據(jù)可視化在研究、教學(xué)和開(kāi)發(fā)領(lǐng)域極為活躍且關(guān)鍵。在商業(yè)領(lǐng)域,通過(guò)報(bào)表、圖表等形式呈現(xiàn)數(shù)據(jù),幫助企業(yè)和個(gè)人更好地理解數(shù)據(jù),提升決策效率;在科學(xué)研究中,可視化技術(shù)助力科學(xué)家探索復(fù)雜數(shù)據(jù)中的規(guī)律和關(guān)系。數(shù)據(jù)可視化的價(jià)值與作用PART數(shù)據(jù)可視化發(fā)展歷史PowerPointDesign02早期可視化的萌芽數(shù)據(jù)可視化的起源可追溯到公元2世紀(jì),但之后發(fā)展緩慢。17世紀(jì),地質(zhì)探索、數(shù)學(xué)和歷史的普及促進(jìn)了早期地圖、圖表和時(shí)間線的出現(xiàn),為現(xiàn)代數(shù)據(jù)可視化奠定了基礎(chǔ)。威廉?普萊費(fèi)爾的貢獻(xiàn)現(xiàn)代圖表的發(fā)明者威廉?普萊費(fèi)爾在1786年出版的《商業(yè)和政治地圖集》中發(fā)明了折線圖和柱狀圖,在1801年出版的《統(tǒng)計(jì)摘要》中發(fā)明了餅狀圖,這些圖表形式至今仍廣泛使用。19世紀(jì)的黃金時(shí)期19世紀(jì)上半葉,人們已掌握整套統(tǒng)計(jì)數(shù)據(jù)可視化工具,如柱狀圖、餅圖、直方圖等。查爾斯?約瑟夫?密納德將可視化應(yīng)用于工程和統(tǒng)計(jì),其作品如拿破侖軍隊(duì)損失圖,以藝術(shù)方式詳盡表達(dá)多個(gè)數(shù)據(jù)維度,被愛(ài)德華?塔夫特譽(yù)為“迄今為止最好的統(tǒng)計(jì)圖”。早期發(fā)展與重要人物20世紀(jì)上半葉,政府、商業(yè)機(jī)構(gòu)和科研部門(mén)大量使用可視化統(tǒng)計(jì)圖形,同時(shí)在航空、物理、天文和生物等科學(xué)與工程領(lǐng)域的應(yīng)用取得突破性進(jìn)展。多維數(shù)據(jù)可視化和心理學(xué)的引入,使可視化更加嚴(yán)謹(jǐn)和實(shí)用。0120世紀(jì)上半葉的進(jìn)展21世紀(jì),互聯(lián)網(wǎng)催生了許多新的可視化技術(shù)和功能,屏幕媒體融入交互、動(dòng)畫(huà)和圖像渲染技術(shù),加入實(shí)時(shí)數(shù)據(jù)反饋,創(chuàng)建沉浸式數(shù)據(jù)交流和實(shí)用環(huán)境。數(shù)據(jù)可視化傳播受眾擴(kuò)大,可視化工具和平臺(tái)不斷涌現(xiàn),促進(jìn)了可視化技術(shù)的快速發(fā)展和廣泛應(yīng)用。0221世紀(jì)互聯(lián)網(wǎng)的影響20世紀(jì)至今的發(fā)展PART數(shù)據(jù)可視化流程PowerPointDesign03內(nèi)部數(shù)據(jù)采集內(nèi)部數(shù)據(jù)采集主要針對(duì)企業(yè)內(nèi)部經(jīng)營(yíng)活動(dòng)的數(shù)據(jù),通常來(lái)源于業(yè)務(wù)數(shù)據(jù)庫(kù),如訂單交易情況。分析用戶行為數(shù)據(jù)、APP使用情況時(shí),還需通過(guò)“埋點(diǎn)”方法采集APP或Web的數(shù)據(jù)。外部數(shù)據(jù)采集外部數(shù)據(jù)采集旨在獲取企業(yè)外部數(shù)據(jù),如競(jìng)品數(shù)據(jù)、官方機(jī)構(gòu)公布的行業(yè)數(shù)據(jù)等。常用“網(wǎng)絡(luò)爬蟲(chóng)”方法進(jìn)行采集。內(nèi)部和外部采集的數(shù)據(jù)均為二手?jǐn)?shù)據(jù),而調(diào)查和實(shí)驗(yàn)采集的數(shù)據(jù)屬于一手?jǐn)?shù)據(jù),不在此次探討范圍內(nèi)。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集得到的數(shù)據(jù)常含有噪聲和誤差,質(zhì)量較低。常見(jiàn)的數(shù)據(jù)質(zhì)量問(wèn)題包括數(shù)據(jù)收集錯(cuò)誤、離群點(diǎn)、遺漏值、數(shù)據(jù)不一致和重復(fù)值等。因此,數(shù)據(jù)清洗和規(guī)范化是數(shù)據(jù)可視化流程中不可或缺的環(huán)節(jié)。數(shù)據(jù)挖掘數(shù)據(jù)的特征和模式往往隱藏在海量數(shù)據(jù)中,需通過(guò)數(shù)據(jù)挖掘提取。常用的數(shù)據(jù)處理方法有降維、數(shù)據(jù)聚類和切分、抽樣等統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的方法,以從高維、海量、多樣化的數(shù)據(jù)中挖掘有價(jià)值的信息支持決策。數(shù)據(jù)處理和變換可視化映射是數(shù)據(jù)可視化流程的核心,將處理后的數(shù)據(jù)信息映射成可視化元素??梢暬赜煽梢暬臻g、標(biāo)記和視覺(jué)通道三部分組成。標(biāo)記是數(shù)據(jù)屬性到可視化幾何圖形元素的映射,視覺(jué)通道是數(shù)據(jù)屬性值到標(biāo)記視覺(jué)呈現(xiàn)參數(shù)的映射,兩者結(jié)合完整表達(dá)數(shù)據(jù)信息??梢暬成淙藱C(jī)交互的重要性在于避免可視化圖形信息過(guò)于臃腫混亂,模糊重點(diǎn),分散用戶注意力。常見(jiàn)的交互方式包括滾動(dòng)和縮放、顏色映射的控制、數(shù)據(jù)映射方式的控制和數(shù)據(jù)細(xì)節(jié)層次控制等,這些交互功能在可視化輔助分析決策方面發(fā)揮重要作用。人機(jī)交互可視化映射與人機(jī)交互可視化映射后的結(jié)果需通過(guò)用戶感知才能轉(zhuǎn)化為知識(shí)和靈感。用戶從可視化結(jié)果中進(jìn)行信息融合、提煉、總結(jié)知識(shí)和獲得靈感,還可利用可視化結(jié)果向他人展示數(shù)據(jù)信息。用戶感知涉及心理學(xué)、統(tǒng)計(jì)學(xué)、人機(jī)交互等多個(gè)學(xué)科知識(shí),影響因素眾多。用戶感知PART數(shù)據(jù)可視化設(shè)計(jì)工具和原則PowerPointDesign04大數(shù)據(jù)存儲(chǔ)技術(shù)大數(shù)據(jù)存儲(chǔ)利用分布式存儲(chǔ)與訪問(wèn)技術(shù),具有高效、容錯(cuò)性強(qiáng)等特點(diǎn)。主要數(shù)據(jù)存儲(chǔ)介質(zhì)類型包括機(jī)械硬盤(pán)、固態(tài)硬盤(pán)等,數(shù)據(jù)組織形式有按行組織、按列組織等,組織管理層次涵蓋塊級(jí)、文件級(jí)及數(shù)據(jù)庫(kù)級(jí)等。0102分布式文件系統(tǒng)如HDFS、GFS等,文檔存儲(chǔ)模型支持嵌套結(jié)構(gòu)和數(shù)組,列式存儲(chǔ)查詢速度快但插入更新慢,鍵值存儲(chǔ)讀寫(xiě)性能好,圖形數(shù)據(jù)庫(kù)適用于存儲(chǔ)復(fù)雜網(wǎng)絡(luò)關(guān)系數(shù)據(jù),關(guān)系數(shù)據(jù)庫(kù)是最傳統(tǒng)的數(shù)據(jù)存儲(chǔ)模型,內(nèi)存數(shù)據(jù)庫(kù)處理實(shí)時(shí)性強(qiáng)的業(yè)務(wù)邏輯。常見(jiàn)的數(shù)據(jù)存儲(chǔ)模型可視化數(shù)據(jù)組織與管理工具數(shù)據(jù)篩選原則可視化展示信息要適度,保證用戶獲取數(shù)據(jù)信息的效率??赏ㄟ^(guò)提供數(shù)據(jù)篩選操作或使用多視圖、多顯示器等方式,讓用戶選擇顯示數(shù)據(jù)的部分,避免信息過(guò)少或過(guò)多導(dǎo)致理解困難或思維混亂。數(shù)據(jù)到可視化的直觀映射原則設(shè)計(jì)者需明確數(shù)據(jù)語(yǔ)義,了解用戶個(gè)性特征,預(yù)測(cè)用戶行為和期望,提高可視化設(shè)計(jì)的可用性和功能性。同時(shí),要使用正確的視覺(jué)通道編碼數(shù)據(jù)信息,如類別型數(shù)據(jù)用分類型視覺(jué)通道,有序型數(shù)據(jù)用定序的視覺(jué)通道。美學(xué)原則美學(xué)設(shè)計(jì)可提高可視化吸引力,促用戶深入探索。簡(jiǎn)單原則避免過(guò)多元素造成復(fù)雜效果,平衡原則使元素平衡分布,聚焦原則突出重要元素,通過(guò)這些原則實(shí)現(xiàn)功能與形式的完美結(jié)合。適當(dāng)運(yùn)用隱喻原則隱喻是將一種事物用于理解和表達(dá)另一種事物的方法。設(shè)計(jì)師通過(guò)圖形、圖像、動(dòng)畫(huà)等方式重新編碼信息內(nèi)容,用戶進(jìn)行隱喻認(rèn)知解碼了解信息內(nèi)涵。選取合適的源域和喻體,創(chuàng)造更佳的可視和交互效果。顏色與透明度選擇原則顏色用于編碼數(shù)據(jù)分類或定序?qū)傩裕黾硬煌该鞫确至客ǖ揽蓪?shí)現(xiàn)顏色混合效果,提供上下文內(nèi)容信息,便于用戶把握數(shù)據(jù)全局。但色調(diào)視覺(jué)通道在編碼分類數(shù)據(jù)上有時(shí)會(huì)失效,需慎用顏色混合。視圖選擇與交互設(shè)計(jì)原則優(yōu)秀的可視化展示應(yīng)使用人們熟悉的視圖設(shè)計(jì)方式,簡(jiǎn)單數(shù)據(jù)用基本視圖,復(fù)雜數(shù)據(jù)用或開(kāi)發(fā)新視圖。此外,應(yīng)提供視圖滾動(dòng)與縮放、顏色映射控制、數(shù)據(jù)映射方式控制、數(shù)據(jù)選擇工具和細(xì)節(jié)控制等交互手段,讓用戶按需修改視圖展示結(jié)果??梢暬O(shè)計(jì)原則Python作為腳本語(yǔ)言,因其易用性、簡(jiǎn)單學(xué)習(xí)曲線、豐富數(shù)據(jù)處理和可視化庫(kù),在數(shù)據(jù)可視化領(lǐng)域脫穎而出。其簡(jiǎn)潔易用性適合初學(xué)者和資深數(shù)據(jù)工程師,豐富的第三方庫(kù)資源如Matplotlib、Seaborn等可應(yīng)對(duì)各種數(shù)據(jù)可視化任務(wù),高靈活性允許用戶完全控制圖表外觀和內(nèi)容,良好的社區(qū)支持預(yù)示未來(lái)將有更多高級(jí)可視化庫(kù)和工具出現(xiàn),使Python成為數(shù)據(jù)可視化的首選工具之一。Python與數(shù)據(jù)可視化PowerPointDesign匯報(bào)人:AiPPT時(shí)間:202X謝謝大家匯報(bào)人:AiPPT時(shí)間:20XX.XX20XXPOWERPOINTDESIGNPython數(shù)據(jù)可視化庫(kù)概覽目錄ContentsMatplotlib:基礎(chǔ)與應(yīng)用01Pyecharts:交互式數(shù)據(jù)可視化06Seaborn:高級(jí)統(tǒng)計(jì)可視化02HoloViews:簡(jiǎn)化數(shù)據(jù)可視化創(chuàng)建07Scikit-plot:機(jī)器學(xué)習(xí)可視化03Plotly:交互式圖表庫(kù)08Python-igraph:網(wǎng)絡(luò)分析與可視化04Wordcloud:詞云展示庫(kù)09Networkx:圖論與復(fù)雜網(wǎng)絡(luò)建模05習(xí)題與實(shí)訓(xùn)10PARTMatplotlib:基礎(chǔ)與應(yīng)用01POWERPOINTDESIGNMatplotlib概述Matplotlib是Python著名的繪圖庫(kù),由JohnHunter在2003年創(chuàng)建。廣泛用于繪制2D和3D圖形,如條形圖、散點(diǎn)圖等。其代碼簡(jiǎn)單易懂,易于擴(kuò)展,可繪制高質(zhì)量圖形,包括出版物級(jí)別的圖形。它是免費(fèi)和開(kāi)源的,幾行代碼即可生成多種圖形。盡管Matplotlib有默認(rèn)圖形樣式和美觀度不如現(xiàn)代庫(kù)(如Seaborn、Plotly)的缺點(diǎn),且在動(dòng)態(tài)更新圖形或?qū)崟r(shí)顯示數(shù)據(jù)的應(yīng)用中可能不是最佳選擇,渲染性能在大規(guī)模數(shù)據(jù)集或復(fù)雜視圖時(shí)可能成瓶頸,但它仍是數(shù)據(jù)科學(xué)和可視化的基石庫(kù),適用于各種圖表和展示,社區(qū)支持強(qiáng)大。Matplotlib安裝與使用安裝Python環(huán)境后,可通過(guò)更換清華源(pipconfigsetglobal.index-url/simple)來(lái)優(yōu)化pip安裝。安裝Matplotlib時(shí),也會(huì)安裝Numpy庫(kù),常用于數(shù)組和矩陣運(yùn)算。使用時(shí),通過(guò)importmatplotlib.pyplotasplt引入庫(kù)。例如,繪制y=x直線的簡(jiǎn)單代碼展示了其易用性。Matplotlib簡(jiǎn)介與特點(diǎn)以繪制y=x直線為例,展示了Matplotlib生成圖形的基本流程。代碼簡(jiǎn)潔,輸出圖形直觀,體現(xiàn)了Matplotlib在基礎(chǔ)繪圖方面的高效性和實(shí)用性。通過(guò)簡(jiǎn)單的代碼,即可生成清晰的圖形,如圖2-1所示,直觀展示了y=x的關(guān)系。繪制基礎(chǔ)圖形Matplotlib的實(shí)踐示例PARTSeaborn:高級(jí)統(tǒng)計(jì)可視化02POWERPOINTDESIGNSeaborn概述Seaborn利用Matplotlib的強(qiáng)大功能,以簡(jiǎn)潔的代碼創(chuàng)建美觀圖表。其默認(rèn)款式和調(diào)色板設(shè)計(jì)現(xiàn)代,基于Matplotlib構(gòu)建,需了解Matplotlib以調(diào)整默認(rèn)值。Seaborn是Python數(shù)據(jù)可視化分析的重要包,專用于統(tǒng)計(jì)可視化,與Pandas無(wú)縫連接,語(yǔ)法簡(jiǎn)潔,是Matplotlib的補(bǔ)充而非替代。它以數(shù)據(jù)可視化為中心,提供面向數(shù)據(jù)集制圖函數(shù),操作行列索引和數(shù)組,進(jìn)行內(nèi)部語(yǔ)義映射與統(tǒng)計(jì)整合,生成信息豐富的圖表。Seaborn安裝與使用安裝Seaborn庫(kù)簡(jiǎn)單,通過(guò)pipinstallseaborn命令即可。使用時(shí),通過(guò)importseabornassns引入庫(kù)。繪制y=x直線的例程展示了Seaborn的使用方法,通過(guò)sns.lineplot(x=x,y=y)繪制直線,并設(shè)置圖表標(biāo)題和軸標(biāo)簽,輸出圖形如圖2-2所示,體現(xiàn)了Seaborn在生成美觀圖表方面的優(yōu)勢(shì)。Seaborn簡(jiǎn)介與優(yōu)勢(shì)繪制統(tǒng)計(jì)圖表通過(guò)繪制y=x直線的例程,展示了Seaborn在繪制統(tǒng)計(jì)圖表方面的應(yīng)用。與Matplotlib相比,Seaborn生成的圖形更加美觀,代碼更加簡(jiǎn)潔。通過(guò)簡(jiǎn)單的設(shè)置,即可生成具有標(biāo)題和軸標(biāo)簽的圖表,如圖2-2所示,體現(xiàn)了Seaborn在統(tǒng)計(jì)可視化方面的高效性和易用性。Seaborn的實(shí)踐應(yīng)用PARTScikit-plot:機(jī)器學(xué)習(xí)可視化03POWERPOINTDESIGNScikit-plot概述Scikit-plot是建立在matplotlib之上的Python庫(kù),為機(jī)器學(xué)習(xí)可視化提供高級(jí)接口。它旨在簡(jiǎn)化機(jī)器學(xué)習(xí)模型的可視化過(guò)程,幫助數(shù)據(jù)科學(xué)家和分析師理解數(shù)據(jù)和模型性能。適合熟悉scikit-learn的用戶,通過(guò)簡(jiǎn)單函數(shù)調(diào)用生成多種圖表,如混淆矩陣、ROC曲線等,用于模型評(píng)估、選擇和調(diào)優(yōu)以及特征重要性分析。Scikit-plot安裝與使用安裝Scikit-plot庫(kù)通過(guò)pipinstallscikit-plot命令。使用時(shí),通過(guò)importscikitplotasskplt引入庫(kù)。通過(guò)一個(gè)簡(jiǎn)單的例程,展示了Scikit-plot生成ROC曲線的過(guò)程。在這個(gè)例程中,使用了scikit-learn的digits數(shù)據(jù)集和GaussianNB模型,通過(guò)skplt.metrics.plot_roc(y_test,predicted_probas)生成ROC曲線,如圖2-3所示,體現(xiàn)了Scikit-plot在機(jī)器學(xué)習(xí)可視化方面的應(yīng)用。Scikit-plot簡(jiǎn)介與功能”通過(guò)一個(gè)具體的例程,展示了Scikit-plot在生成機(jī)器學(xué)習(xí)模型性能圖表方面的應(yīng)用。在這個(gè)例程中,通過(guò)加載digits數(shù)據(jù)集,訓(xùn)練GaussianNB模型,并使用Scikit-plot生成ROC曲線,直觀地展示了模型的性能。如圖2-3所示,ROC曲線清晰地展示了模型的真正例率和假正例率,幫助分析師評(píng)估模型的性能。生成機(jī)器學(xué)習(xí)模型性能圖表Scikit-plot的實(shí)踐案例PARTPython-igraph:網(wǎng)絡(luò)分析與可視化04POWERPOINTDESIGNigraph是開(kāi)源免費(fèi)的網(wǎng)絡(luò)分析工具集合,python-igraph是其Python接口,高效且功能豐富?;贑/C++圖形庫(kù)igraph,繼承高性能特性,適用于處理大型和復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)。廣泛應(yīng)用于社會(huì)網(wǎng)絡(luò)分析、生物信息學(xué)等領(lǐng)域。提供創(chuàng)建圖對(duì)象、添加和刪除節(jié)點(diǎn)和邊等功能,支持有向圖、無(wú)向圖和混合圖。內(nèi)置大量算法,如中心性計(jì)算、社區(qū)檢測(cè)等,可視化功能雖不及專業(yè)軟件包,但足以生成高質(zhì)量圖形,API設(shè)計(jì)簡(jiǎn)化編程復(fù)雜度。Python-igraph概述安裝Python-igraph庫(kù)通過(guò)pipinstallpython-igraphpycairo命令。使用時(shí),通過(guò)importigraphasig引入庫(kù)。通過(guò)一個(gè)簡(jiǎn)單的例程,展示了Python-igraph生成皮特森圖的過(guò)程。在這個(gè)例程中,通過(guò)igraph內(nèi)置的函數(shù)直接展示了著名的皮特森圖,如圖2-4所示,體現(xiàn)了Python-igraph在網(wǎng)絡(luò)分析和可視化方面的應(yīng)用。Python-igraph安裝與使用Python-igraph簡(jiǎn)介與特點(diǎn)通過(guò)一個(gè)具體的例程,展示了Python-igraph在網(wǎng)絡(luò)分析和可視化方面的應(yīng)用。在這個(gè)例程中,通過(guò)使用igraph內(nèi)置的函數(shù),直接生成了著名的皮特森圖,如圖2-4所示。這個(gè)圖展示了Python-igraph在構(gòu)建和分析網(wǎng)絡(luò)圖方面的強(qiáng)大功能,通過(guò)簡(jiǎn)單的代碼即可生成復(fù)雜的網(wǎng)絡(luò)圖,體現(xiàn)了其高效性和易用性。構(gòu)建與分析網(wǎng)絡(luò)圖Python-igraph的實(shí)踐操作PARTNetworkx:圖論與復(fù)雜網(wǎng)絡(luò)建模05POWERPOINTDESIGN01Networkx是2002年5月產(chǎn)生的Python圖論與復(fù)雜網(wǎng)絡(luò)建模工具,內(nèi)置常用圖與復(fù)雜網(wǎng)絡(luò)分析算法。支持創(chuàng)建簡(jiǎn)單無(wú)向圖、有向圖和多重圖,節(jié)點(diǎn)可為任意數(shù)據(jù),支持任意邊值維度。功能豐富,簡(jiǎn)單易用,適用于處理千萬(wàn)級(jí)別以下的網(wǎng)絡(luò),廣泛應(yīng)用于學(xué)術(shù)研究、數(shù)據(jù)分析等領(lǐng)域。與python-igraph相比,NetworkX注重提供簡(jiǎn)單易用的工具和算法,以便研究復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)和動(dòng)態(tài)行為。Networkx概述02安裝Networkx庫(kù)通過(guò)pipinstallnetworkx命令。使用時(shí),通過(guò)importnetworkxasnx引入庫(kù)。通過(guò)一個(gè)簡(jiǎn)單的例程,展示了Networkx生成無(wú)向圖的過(guò)程。在這個(gè)例程中,通過(guò)創(chuàng)建無(wú)向圖并添加邊,使用Networkx繪制了一個(gè)包含兩個(gè)節(jié)點(diǎn)和一條邊的無(wú)向圖,如圖2-5所示,體現(xiàn)了Networkx在圖論與復(fù)雜網(wǎng)絡(luò)建模方面的應(yīng)用。Networkx安裝與使用Networkx簡(jiǎn)介與功能通過(guò)一個(gè)具體的例程,展示了Networkx在創(chuàng)建和分析復(fù)雜網(wǎng)絡(luò)方面的應(yīng)用。在這個(gè)例程中,通過(guò)創(chuàng)建無(wú)向圖并添加邊,使用Networkx繪制了一個(gè)簡(jiǎn)單的無(wú)向圖,如圖2-5所示。這個(gè)圖展示了Networkx在創(chuàng)建和分析復(fù)雜網(wǎng)絡(luò)方面的強(qiáng)大功能,通過(guò)簡(jiǎn)單的代碼即可生成復(fù)雜的網(wǎng)絡(luò)圖,體現(xiàn)了其高效性和易用性。創(chuàng)建與分析復(fù)雜網(wǎng)絡(luò)Networkx的實(shí)踐應(yīng)用PARTPyecharts:交互式數(shù)據(jù)可視化06POWERPOINTDESIGNPyecharts概述Pyecharts是用于生成Echarts圖表的Python庫(kù),Echarts是由百度開(kāi)發(fā)的開(kāi)源可視化庫(kù)。Pyecharts利用Echarts的強(qiáng)大功能,使得在Python環(huán)境中創(chuàng)建交互式、動(dòng)態(tài)的圖表變得簡(jiǎn)單易行。特別適合于web報(bào)告和演示文稿,生成的圖表可以easily嵌入到網(wǎng)頁(yè)中,并支持用戶交互操作。提供簡(jiǎn)單而強(qiáng)大的方式創(chuàng)建多種動(dòng)態(tài)圖表,使數(shù)據(jù)可視化變得容易有趣。Pyecharts安裝與使用安裝Pyecharts庫(kù)通過(guò)pipinstallpyecharts命令。使用時(shí),按需引入所需的組件,如引入柱狀圖。通過(guò)一個(gè)簡(jiǎn)單的例程,展示了Pyecharts生成柱狀圖的過(guò)程。在這個(gè)例程中,通過(guò)使用Pyecharts的Bar組件,生成了一個(gè)某商場(chǎng)銷售情況的柱狀圖,如圖2-6所示,體現(xiàn)了Pyecharts在交互式數(shù)據(jù)可視化方面的應(yīng)用。Pyecharts簡(jiǎn)介與特點(diǎn)創(chuàng)建交互式圖表通過(guò)一個(gè)具體的例程,展示了Pyecharts在創(chuàng)建交互式圖表方面的應(yīng)用。在這個(gè)例程中,通過(guò)使用Pyecharts的Bar組件,生成了一個(gè)某商場(chǎng)銷售情況的柱狀圖,如圖2-6所示。這個(gè)圖展示了Pyecharts在創(chuàng)建交互式圖表方面的強(qiáng)大功能,通過(guò)簡(jiǎn)單的代碼即可生成復(fù)雜的交互式圖表,體現(xiàn)了其高效性和易用性。Pyecharts的實(shí)踐案例PARTHoloViews:簡(jiǎn)化數(shù)據(jù)可視化創(chuàng)建07POWERPOINTDESIGNHoloViews是基于Python的開(kāi)源庫(kù),旨在簡(jiǎn)化數(shù)據(jù)可視化的創(chuàng)建過(guò)程。建立在Bokeh、Matplotlib等庫(kù)基礎(chǔ)上,提供高級(jí)抽象,使用戶使用更少代碼創(chuàng)建交互性可視化。核心思想是將數(shù)據(jù)、可視化元素和交互性組合,使可視化更直觀容易??膳cPandas、Dask等數(shù)據(jù)處理庫(kù)無(wú)縫集成,支持多種圖表類型,輕松添加交互性,支持面板儀表板創(chuàng)建,適用于科學(xué)研究、數(shù)據(jù)分析等領(lǐng)域。HoloViews概述安裝HoloViews庫(kù)通過(guò)pipinstallholoviews命令。使用時(shí),通過(guò)importholoviewsashv引入庫(kù)。通過(guò)一個(gè)簡(jiǎn)單的例程,展示了HoloViews生成可交互散點(diǎn)圖的過(guò)程。在這個(gè)例程中,通過(guò)使用HoloViews的Points元素,生成了一個(gè)簡(jiǎn)單的可交互散點(diǎn)圖,如圖2-7所示,體現(xiàn)了HoloViews在簡(jiǎn)化數(shù)據(jù)可視化創(chuàng)建方面的應(yīng)用。HoloViews安裝與使用HoloViews簡(jiǎn)介與功能通過(guò)一個(gè)具體的例程,展示了HoloViews在創(chuàng)建交互性可視化方面的應(yīng)用。在這個(gè)例程中,通過(guò)使用HoloViews的Points元素,生成了一個(gè)簡(jiǎn)單的可交互散點(diǎn)圖,如圖2-7所示。這個(gè)圖展示了HoloViews在創(chuàng)建交互性可視化方面的強(qiáng)大功能,通過(guò)簡(jiǎn)單的代碼即可生成復(fù)雜的交互性可視化,體現(xiàn)了其高效性和易用性。01創(chuàng)建交互性可視化HoloViews的實(shí)踐操作PARTPlotly:交互式圖表庫(kù)08POWERPOINTDESIGNPlotly是強(qiáng)大的交互式圖表庫(kù),支持多種編程語(yǔ)言,包括Python。在Python中,通過(guò)plotly包實(shí)現(xiàn),提供豐富的圖表類型和細(xì)致的圖表控制選項(xiàng),使創(chuàng)建高質(zhì)量交互式圖表和數(shù)據(jù)可視化簡(jiǎn)單直觀。生成的圖表基于web,可輕松嵌入網(wǎng)頁(yè),支持用戶交互操作,如縮放、平移、懸停提示等。廣泛應(yīng)用于數(shù)據(jù)分析、科學(xué)研究等領(lǐng)域,特別適合高度交互性的數(shù)據(jù)探索任務(wù)和創(chuàng)建動(dòng)態(tài)、響應(yīng)式可視化。安裝Plotly庫(kù)通過(guò)pipinstallplotlyplotly_express命令。使用時(shí),通過(guò)importplotly_expressaspx或importplotly.graph_objectsasgo引入庫(kù)。通過(guò)一個(gè)簡(jiǎn)單的例程,展示了Plotly生成加拿大人口柱狀圖的過(guò)程。在這個(gè)例程中,通過(guò)使用Plotly的px.bar函數(shù),生成了一個(gè)加拿大歷年來(lái)的人口數(shù)據(jù)信息柱狀圖,如圖2-8所示,體現(xiàn)了Plotly在交互式圖表方面的應(yīng)用。Plotly概述Plotly安裝與使用Plotly簡(jiǎn)介與特點(diǎn)創(chuàng)建動(dòng)態(tài)交互式圖表通過(guò)一個(gè)具體的例程,展示了Plotly在創(chuàng)建動(dòng)態(tài)交互式圖表方面的應(yīng)用。在這個(gè)例程中,通過(guò)使用Plotly的px.bar函數(shù),生成了一個(gè)加拿大歷年來(lái)的人口數(shù)據(jù)信息柱狀圖,如圖2-8所示。這個(gè)圖展示了Plotly在創(chuàng)建動(dòng)態(tài)交互式圖表方面的強(qiáng)大功能,通過(guò)簡(jiǎn)單的代碼即可生成復(fù)雜的動(dòng)態(tài)交互式圖表,體現(xiàn)了其高效性和易用性。01Plotly的實(shí)踐應(yīng)用PARTWordcloud:詞云展示庫(kù)09POWERPOINTDESIGNWordcloud是優(yōu)秀的詞云展示第三方庫(kù),以詞語(yǔ)為基本單位,通過(guò)圖形可視化方式,直觀藝術(shù)展示文本。通過(guò)文本分詞將關(guān)鍵詞以視覺(jué)吸引形式展示,詞大小通常表示頻率或重要性。適合展示文本數(shù)據(jù)中最顯著的詞,如演講、文章或社交媒體內(nèi)容的關(guān)鍵詞提取。Wordcloud概述安裝Wordcloud庫(kù)通過(guò)pipinstallwordcloud命令。使用時(shí),通過(guò)importwordcloudasnx引入庫(kù)。通過(guò)一個(gè)簡(jiǎn)單的例程,展示了Wordcloud生成詞云圖的過(guò)程。在這個(gè)例程中,通過(guò)使用Wordcloud庫(kù)對(duì)一句話進(jìn)行解析,并針對(duì)里面的關(guān)鍵詞生成對(duì)應(yīng)的詞云,如圖2-9所示,體現(xiàn)了Wordcloud在詞云展示方面的應(yīng)用。Wordcloud安裝與使用Wordcloud簡(jiǎn)介與特點(diǎn)通過(guò)一個(gè)具體的例程,展示了Wordcloud在生成詞云圖方面的應(yīng)用。在這個(gè)例程中,通過(guò)使用Wordcloud庫(kù)對(duì)一句話進(jìn)行解析,并針對(duì)里面的關(guān)鍵詞生成對(duì)應(yīng)的詞云,如圖2-9所示。這個(gè)圖展示了Wordcloud在生成詞云圖方面的強(qiáng)大功能,通過(guò)簡(jiǎn)單的代碼即可生成復(fù)雜的詞云圖,體現(xiàn)了其高效性和易用性。生成詞云圖Wordcloud的實(shí)踐操作PART習(xí)題與實(shí)訓(xùn)010POWERPOINTDESIGN選擇題Python中最常用的繪圖庫(kù)是什么?A.SeabornB.PlotlyC.MatplotlibD.Scikit-plotSeaborn庫(kù)是基于哪個(gè)庫(kù)進(jìn)行更高級(jí)的API封裝?A.MatplotlibB.PlotlyC.PyechartsD.HoloViewsScikit-plot主要用于哪個(gè)領(lǐng)域的可視化?A.網(wǎng)絡(luò)分析B.機(jī)器學(xué)習(xí)C.經(jīng)濟(jì)數(shù)據(jù)分析D.地理信息系統(tǒng)Python-igraph庫(kù)適用于哪類數(shù)據(jù)的可視化?A.時(shí)間序列B.地理空間數(shù)據(jù)C.網(wǎng)絡(luò)和復(fù)雜圖結(jié)構(gòu)D.統(tǒng)計(jì)數(shù)據(jù)分析HoloViews庫(kù)旨在簡(jiǎn)化哪個(gè)過(guò)程?A.數(shù)據(jù)清洗B.數(shù)據(jù)建模C.數(shù)據(jù)可視化創(chuàng)建D.數(shù)據(jù)存儲(chǔ)01判斷題Matplotlib無(wú)法繪制3D圖形。(對(duì)/錯(cuò))Seaborn不能與Pandas無(wú)縫連接。(對(duì)/錯(cuò))Scikit-plot是基于Seaborn庫(kù)開(kāi)發(fā)的。(對(duì)/錯(cuò))Python-igraph支持創(chuàng)建有向圖和無(wú)向圖。(對(duì)/錯(cuò))Pyecharts主要用于命令行數(shù)據(jù)可視化。(對(duì)/錯(cuò))02填空題Matplotlib由在______年創(chuàng)建。Seaborn在Matplotlib的基礎(chǔ)上進(jìn)行了______級(jí)的API封裝。Scikit-plot非常適合快速生成______來(lái)分析機(jī)器學(xué)習(xí)模型結(jié)果。Python-igraph是一個(gè)專為Python編程語(yǔ)言開(kāi)發(fā)的______庫(kù)。HoloViews建立在Bokeh、Matplotlib等庫(kù)的基礎(chǔ)上,并提供了______。03問(wèn)答題Matplotlib的主要用途是什么?Seaborn與Matplotlib相比,有哪些主要的改進(jìn)?Scikit-plot提供哪些圖表來(lái)展示模型性能?如何描述Python-igraph在網(wǎng)絡(luò)分析中的應(yīng)用?HoloViews在數(shù)據(jù)可視化中提供了哪種創(chuàng)新?04應(yīng)用題使用Matplotlib繪制一個(gè)包含X和Y軸標(biāo)簽、標(biāo)題的簡(jiǎn)單折線圖。利用Seaborn庫(kù)創(chuàng)建一個(gè)展示不同類別數(shù)據(jù)分布的箱形圖。05習(xí)題配置Python環(huán)境和安裝使用主要的數(shù)據(jù)可視化庫(kù),如Matplotlib、Seaborn、Plotly等。了解各個(gè)庫(kù)的安裝方法、特點(diǎn)及基本使用方式,為進(jìn)一步的數(shù)據(jù)分析和可視化工作打下基礎(chǔ)。(1)環(huán)境準(zhǔn)備:安裝Python3.7及之后的環(huán)境,并在安裝過(guò)程中選擇添加到PATH。熟悉使用命令行或Python包管理工具(如pip)。(2)庫(kù)安裝:通過(guò)pip安裝數(shù)據(jù)可視化所需的庫(kù),包括但不限于Matplotlib、Seaborn、Plotly和pyecharts。(3)庫(kù)特點(diǎn)了解:通過(guò)閱讀官方文檔或其他教程,了解每個(gè)庫(kù)的主要特點(diǎn)和適用場(chǎng)景。(4)基本繪圖實(shí)踐:選擇一個(gè)或多個(gè)庫(kù),進(jìn)行基本的繪圖操作練習(xí),如繪制折線圖、柱狀圖、散點(diǎn)圖等,熟悉圖表創(chuàng)建的基本流程。需求說(shuō)明實(shí)現(xiàn)思路及步驟實(shí)訓(xùn):Python可視化環(huán)境配置匯報(bào)人:AiPPT時(shí)間:20XX.XX20XXPOWERPOINTDESIGN謝謝大家主講人:AiPPT時(shí)間:20XX.XXPOWERPOINTDESIGN202XPowerPointDesign------------------Python的數(shù)據(jù)讀取與處理Python數(shù)據(jù)讀取與查看01Python數(shù)據(jù)清洗02Pandas讀取與處理表格數(shù)據(jù)03NumPy處理數(shù)據(jù)04scikit-learn處理數(shù)據(jù)05目錄--------------PowerPointDesignPython數(shù)據(jù)讀取與查看01PARTPOWERPOINTDESIGNPython中使用open函數(shù)進(jìn)行文件讀寫(xiě)。例如,使用open('filename.txt','r')讀取文件,open('filename.txt','w')寫(xiě)入文件。使用with語(yǔ)句可自動(dòng)關(guān)閉文件,如withopen('filename.txt','r')asf:。文件讀寫(xiě)操作默認(rèn)使用系統(tǒng)編碼,一般為utf8??墒褂胑ncoding參數(shù)設(shè)置編碼方式,如open('filename.txt','wt',encoding='ascii')。遇到編碼錯(cuò)誤可使用errors='ignore'或errors='replace'參數(shù)處理。讀寫(xiě)字節(jié)數(shù)據(jù)讀寫(xiě)字節(jié)數(shù)據(jù)如圖片、音頻時(shí),使用'rb'和'wb'模式。例如,withopen('filename.bin','rb')asf:讀取字節(jié)數(shù)據(jù),withopen('filename.bin','wb')asf:寫(xiě)入字節(jié)數(shù)據(jù)。從字節(jié)數(shù)據(jù)中讀寫(xiě)文本需編碼和解碼。如withopen('filename.bin','rb')asf:后使用.decode('utf-8')讀取文本,寫(xiě)入時(shí)使用.encode('utf-8')。02文件讀寫(xiě)操作01Python的文件讀寫(xiě)Python中使用pickle模塊實(shí)現(xiàn)對(duì)象序列化和反序列化。例如,pickle.dump(l1,f1)序列化對(duì)象l1到文件f1,pickle.load(f2)從文件f2反序列化對(duì)象。pickle模塊中的dump和dumps方法區(qū)別在于dumps將對(duì)象存儲(chǔ)為字符串,對(duì)應(yīng)的loads()用于反序列化。大部分Python對(duì)象可通過(guò)這種方式存儲(chǔ)和加載,但一些特殊對(duì)象如進(jìn)程對(duì)象、網(wǎng)絡(luò)連接對(duì)象等無(wú)法序列化。使用pickle模塊對(duì)象序列化CSV文件以純文本形式存儲(chǔ)表格數(shù)據(jù),由記錄組成,記錄之間以換行符分隔,每條記錄中是字段。Python的csv模塊用于操作本地CSV文件。讀取網(wǎng)絡(luò)資源中的CSV文件時(shí),可先下載到本地或轉(zhuǎn)換為StringIO對(duì)象操作。使用csv.DictReader可將CSV的每一行作為字典返回,csv.reader則把每一行作為列表返回。寫(xiě)入CSV文件時(shí),使用csv.writer的writerow()方法寫(xiě)入一行,writerows()方法寫(xiě)入多行。CSV文件操作CSV的讀寫(xiě)在Python中使用數(shù)據(jù)庫(kù)需通過(guò)特定程序模塊(API)實(shí)現(xiàn)。以MySQL為例,使用PyMySQL模塊連接數(shù)據(jù)庫(kù)。首先安裝模塊,創(chuàng)建數(shù)據(jù)庫(kù)和用戶,然后使用pymysql.connect()連接數(shù)據(jù)庫(kù),執(zhí)行SQL語(yǔ)句進(jìn)行操作,最后關(guān)閉連接。SQLite3是一種輕量型關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),Python內(nèi)置sqlite3模塊用于交互。使用sqlite3.connect()連接數(shù)據(jù)庫(kù),執(zhí)行SQL語(yǔ)句創(chuàng)建表和插入數(shù)據(jù),使用commit()提交操作,最后關(guān)閉連接。不同數(shù)據(jù)庫(kù)類型使用的通配符可能不同,操作完畢后需關(guān)閉數(shù)據(jù)庫(kù)連接。使用PyMySQL和SQLite3數(shù)據(jù)庫(kù)的使用--------------PowerPointDesignPython數(shù)據(jù)清洗02PARTPOWERPOINTDESIGN處理方法對(duì)于缺失值,可忽略有缺失值的數(shù)據(jù),刪除存在缺失項(xiàng)的記錄或缺失值過(guò)多的屬性列,但可能損失大量數(shù)據(jù)。也可進(jìn)行缺失值填補(bǔ),填補(bǔ)某一固定值、平均值或根據(jù)記錄填充最有可能值,最有可能值的確定可利用決策樹(shù)、回歸分析等方法。缺失值處理處理技術(shù)分箱技術(shù)通過(guò)考察相鄰數(shù)據(jù)確定最終值,實(shí)現(xiàn)異?;蛟肼晹?shù)據(jù)的平滑處理。基本思想是按屬性值劃分子區(qū)間,將數(shù)據(jù)放入對(duì)應(yīng)“箱子”內(nèi),然后按箱平均值、中值、邊界值等方法對(duì)數(shù)據(jù)進(jìn)行平滑處理。聚類技術(shù)將數(shù)據(jù)集合分組為多個(gè)簇,找出并清除落在簇之外的孤立點(diǎn),這些孤立點(diǎn)被視為噪聲?;貧w技術(shù)通過(guò)發(fā)現(xiàn)兩個(gè)相關(guān)變量之間的關(guān)系,建立數(shù)學(xué)模型預(yù)測(cè)下一個(gè)數(shù)值,包括線性回歸和非線性回歸,用于平滑數(shù)據(jù)。噪聲數(shù)據(jù)處理處理方案對(duì)于數(shù)據(jù)不一致性問(wèn)題,需根據(jù)實(shí)際情況給出處理方案??墒褂孟嚓P(guān)材料人工修復(fù),用知識(shí)工程的工具修改違反給定規(guī)則的數(shù)據(jù)。在多個(gè)數(shù)據(jù)源集成處理時(shí),對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)化,解決編碼規(guī)則差異問(wèn)題。不一致數(shù)據(jù)的處理處理方法異常數(shù)據(jù)如字符編碼問(wèn)題引起的亂碼、字符被截?cái)唷惓5臄?shù)值等,大部分情況難以修正,只能過(guò)濾。但有些異常數(shù)據(jù)可還原,如原字符中摻雜無(wú)用字符可用取子串方法處理,字符被截?cái)嗟那闆r若能推導(dǎo)出原字符串也可還原。數(shù)值記錄中異常大或小的值可分析是否數(shù)值單位差異引起,通過(guò)轉(zhuǎn)化處理,數(shù)值單位差異也可視為數(shù)據(jù)的不一致性。異常數(shù)據(jù)的處理--------------PowerPointDesignPandas讀取與處理表格數(shù)據(jù)03PARTPOWERPOINTDESIGN支持的數(shù)據(jù)格式Pandas支持多種格式數(shù)據(jù)讀取,包括CSV、Excel、SQL數(shù)據(jù)庫(kù)和JSON。讀取CSV文件使用pd.read_csv('example.csv'),讀取Excel文件第一個(gè)工作表使用pd.read_excel('example.xlsx',sheet_name=0),讀取JSON文件使用pd.read_json('example.json')。還可只讀取特定列,如pd.read_csv('example.csv',usecols=['Column1','Column2']),跳過(guò)文件開(kāi)頭的行,如pd.read_csv('example.csv',skiprows=2),將特定字符串視為缺失值,如pd.read_csv('example.csv',na_values=['NA'])。讀取表格數(shù)據(jù)在數(shù)據(jù)可視化項(xiàng)目中,常需將不同來(lái)源的數(shù)據(jù)集合并為統(tǒng)一數(shù)據(jù)結(jié)構(gòu)。Pandas提供pd.concat()、pd.merge()和df.join()等函數(shù)實(shí)現(xiàn)數(shù)據(jù)合并和連接。pd.concat()用于沿軸堆疊多個(gè)對(duì)象,如pd.concat([df1,df2],ignore_index=True)。pd.merge()適用于數(shù)據(jù)庫(kù)連接操作,如pd.merge(left,right,on='key',how='left')。df.join()用于按索引合并不同索引的DataFrame,如left.join(right,how='outer')。數(shù)據(jù)合并與連接處理表格數(shù)據(jù)--------------PowerPointDesignNumPy處理數(shù)據(jù)04PARTPOWERPOINTDESIGNndarray對(duì)象NumPy是開(kāi)源Python庫(kù),支持大量維度數(shù)組與矩陣運(yùn)算,提供數(shù)學(xué)函數(shù)庫(kù)。NumPy核心是ndarray對(duì)象,由Python的n維數(shù)組封裝而來(lái),通過(guò)C語(yǔ)言預(yù)編譯數(shù)組操作,比原生Python執(zhí)行效率高,但使用Python語(yǔ)言編碼。ndarray與數(shù)組區(qū)別在于元素類型相同且創(chuàng)建時(shí)大小固定。創(chuàng)建數(shù)組最簡(jiǎn)單方式是使用array函數(shù),如np.array([1,2,3])創(chuàng)建一維數(shù)組,np.array([[1,2,3],[4,5,6]])創(chuàng)建二維數(shù)組。數(shù)組屬性包括ndarray.ndim(數(shù)組維數(shù))、ndarray.shape(數(shù)組形狀)、ndarray.size(數(shù)組中元素總數(shù))和ndarray.dtype(數(shù)組元素類型)。NumPy庫(kù)介紹常見(jiàn)操作NumPy數(shù)組可進(jìn)行索引、切片和迭代操作。還可使用一系列數(shù)學(xué)函數(shù)直接在數(shù)組上操作,如加減乘除、平方根、指數(shù)、對(duì)數(shù)等。例如,數(shù)組加法c+d,數(shù)組乘法c*d。對(duì)于數(shù)組合并,使用np.concatenate()方法,如np.concatenate((a1,a2))合并數(shù)組,np.concatenate((a1,a2),axis=1)指定合并的軸。數(shù)組操作--------------PowerPointDesignscikit-learn處理數(shù)據(jù)05PARTPOWERPOINTDESIGN數(shù)據(jù)處理功能Scikit-learn是廣泛使用的Python機(jī)器學(xué)習(xí)庫(kù),建立在NumPy、SciPy和matplotlib之上,提供數(shù)據(jù)挖掘和分析工具。自帶多個(gè)數(shù)據(jù)集,如鳶尾花數(shù)據(jù)集load_iris()、手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集load_digitals()等。不直接從文件讀取數(shù)據(jù),通常與Pandas結(jié)合使用處理任務(wù)。提供預(yù)處理庫(kù)preprocessing,包括標(biāo)準(zhǔn)化、編碼分類特征、處理缺失值、特征選擇等功能。標(biāo)準(zhǔn)化將特征數(shù)據(jù)縮放至均值為0、方差為1,如StandardScaler().fit_transform(X)。編碼分類特征將分類特征轉(zhuǎn)換為數(shù)值數(shù)據(jù),如OneHotEncoder().fit_transform(X).toarray()。處理缺失值使用SimpleImputer填充缺失值,如SimpleImputer(missing_values=np.nan,strategy='mean').fit_transform(X)。特征選擇提高模型準(zhǔn)確率或減少特征數(shù)量提高訓(xùn)練速度,如SelectKBest(chi2,k=2).fit_transform(X,y)。scikit-learn庫(kù)介紹主講人:AiPPT時(shí)間:20XX.XXPOWERPOINTDESIGN202XPowerPointDesign------------------謝謝大家Python數(shù)據(jù)可視化:時(shí)間數(shù)據(jù)的呈現(xiàn)匯報(bào)人:AiPPT匯報(bào)時(shí)間:20XX.X時(shí)間數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用連續(xù)型時(shí)間數(shù)據(jù)可視化離散型時(shí)間數(shù)據(jù)可視化010203目錄習(xí)題實(shí)訓(xùn):Matplotlib繪圖與主題更改0405202X202X202X202X01時(shí)間數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用時(shí)間數(shù)據(jù)是大數(shù)據(jù)的“體量”基礎(chǔ),如金融、商業(yè)、社會(huì)經(jīng)濟(jì)指標(biāo)等數(shù)據(jù)都隨時(shí)間積累,為政策制定、戰(zhàn)略調(diào)整提供依據(jù)。時(shí)間數(shù)據(jù)分為連續(xù)型和離散型,連續(xù)型如氣溫、股票價(jià)格,離散型如交易時(shí)間、社交媒體帖子發(fā)布時(shí)間,可視化目的是揭示隨時(shí)間變化趨勢(shì)。01可視化是理解時(shí)間數(shù)據(jù)的關(guān)鍵工具,能將復(fù)雜時(shí)間序列轉(zhuǎn)換為直觀圖形。Python的Matplotlib和Seaborn等庫(kù)可創(chuàng)建多種時(shí)間數(shù)據(jù)圖表,從基礎(chǔ)折線圖到復(fù)雜熱圖和脊線圖。02時(shí)間數(shù)據(jù)的關(guān)鍵作用可視化工具與方法時(shí)間數(shù)據(jù)的重要性與分類探討關(guān)鍵問(wèn)題通過(guò)可視化探討時(shí)間數(shù)據(jù)中的穩(wěn)定因素、變化方向、背后原因、不同數(shù)據(jù)變化一致性、相關(guān)性及周期性規(guī)律等。這些變化模式蘊(yùn)含深刻信息,需通過(guò)時(shí)間維度深入觀察分析才能完全揭示。可視化策略與技巧本章后續(xù)將深入研究時(shí)間數(shù)據(jù)可視化方式,介紹有效策略和技巧,幫助更好地理解和利用時(shí)間數(shù)據(jù)。0102時(shí)間數(shù)據(jù)可視化的目的與價(jià)值202X202X202X202X02連續(xù)型時(shí)間數(shù)據(jù)可視化階梯圖基本框架如圖4-1所示,使用matplotlib生成的階梯圖結(jié)果如圖4-2所示,可清晰展示數(shù)據(jù)隨時(shí)間的離散變化。02階梯圖是X-Y圖的一種,用于Y值離散改變且在特定X值位置突變的場(chǎng)景,如銀行利率調(diào)整。使用matplotlib生成階梯圖,代碼示例展示了設(shè)置中文字體、正常顯示負(fù)號(hào)、數(shù)據(jù)點(diǎn)及生成階梯圖的方法。01階梯圖的定義與用途階梯圖的應(yīng)用示例階梯圖折線圖用直線段連接數(shù)據(jù)點(diǎn)顯示變化趨勢(shì),適用于展現(xiàn)人口增長(zhǎng)、書(shū)籍銷售量等時(shí)間數(shù)據(jù)。折線圖基本框架如圖4-3所示,橫軸長(zhǎng)度影響曲線趨勢(shì)展現(xiàn),合理設(shè)置橫軸長(zhǎng)度很重要。折線圖的特點(diǎn)與適用場(chǎng)景使用matplotlib生成折線圖,代碼示例包括設(shè)置圖表標(biāo)題、坐標(biāo)軸標(biāo)簽、數(shù)據(jù)點(diǎn)及創(chuàng)建折線圖的方法。使用Matplotlib生成的折線圖結(jié)果如圖4-4所示,能直觀呈現(xiàn)數(shù)據(jù)變化的整體趨勢(shì)。折線圖的生成與展示折線圖南丁格爾玫瑰圖由弗羅倫斯·南丁格爾發(fā)明,又名極坐標(biāo)面積圖,適用于繪制比較、隨時(shí)間變化的循環(huán)現(xiàn)象。與傳統(tǒng)餅圖相比,南丁格爾玫瑰圖更絢麗直觀,應(yīng)用廣泛,基本框架如圖4-5所示?!笔褂胮yecharts生成南丁格爾玫瑰圖,代碼示例展示了準(zhǔn)備數(shù)據(jù)、設(shè)置顏色、添加數(shù)據(jù)、設(shè)置全局和系列配置項(xiàng)及生成html文檔的方法。使用Pyecharts生成的南丁格爾玫瑰圖結(jié)果如圖4-6所示,能有效展示數(shù)據(jù)的分布和變化?!蹦隙「駹柮倒鍒D的起源與優(yōu)勢(shì)南丁格爾玫瑰圖的生成與示例南丁格爾玫瑰圖熱圖的原理與適用范圍熱圖通過(guò)色彩變化顯示數(shù)據(jù),適用于交叉檢查多變量數(shù)據(jù)、顯示變量間差異、相似性及相關(guān)性。熱圖示例如圖4-7所示,依賴顏色表達(dá)數(shù)值,難以提取特定數(shù)據(jù)點(diǎn)或準(zhǔn)確指出色塊間差異。熱圖的生成與展示使用matplotlib生成熱圖,代碼示例包括導(dǎo)入庫(kù)、設(shè)置中文字體、正常顯示負(fù)號(hào)、生成示例數(shù)據(jù)、創(chuàng)建熱圖、添加顏色條及設(shè)置標(biāo)題和坐標(biāo)軸標(biāo)簽的方法。使用Matplotlib生成的熱圖結(jié)果如圖4-8所示,可直觀呈現(xiàn)數(shù)據(jù)的分布和差異。熱圖脊線圖的生成與示例生成脊線圖需配合seaborn使用,代碼示例展示了設(shè)置樣式、中文字體、正常顯示負(fù)號(hào)、生成數(shù)據(jù)、初始化圖和軸、繪制分布、調(diào)整布局及顯示圖表的方法。使用seaborn生成的脊線圖結(jié)果如圖4-10所示,能清晰展示數(shù)據(jù)的集中趨勢(shì)、離散程度及峰值。脊線圖的特點(diǎn)與優(yōu)勢(shì)脊線圖通過(guò)連續(xù)線條和填充顏色表示數(shù)據(jù)分布,便于比較不同組或類別的數(shù)據(jù)分布特征和整體趨勢(shì)。與普通密度圖相比,脊線圖可并排展示多個(gè)密度圖,但處理大量組別或展示具體數(shù)據(jù)點(diǎn)細(xì)節(jié)有限。脊線圖202X202X202X202X03離散型時(shí)間數(shù)據(jù)可視化離散型時(shí)間數(shù)據(jù)的定義離散型時(shí)間數(shù)據(jù)又稱不連續(xù)性時(shí)間數(shù)據(jù),在任何兩個(gè)時(shí)間點(diǎn)之間個(gè)數(shù)有限,數(shù)據(jù)來(lái)自具體時(shí)間點(diǎn)或時(shí)段,可能數(shù)值也有限。例如每屆奧運(yùn)會(huì)獎(jiǎng)牌總數(shù)、各國(guó)金牌數(shù)、各資格考試每年通過(guò)率等都是離散數(shù)據(jù)。離散型時(shí)間數(shù)據(jù)的可視化處理下文將介紹如何對(duì)離散型時(shí)間數(shù)據(jù)進(jìn)行可視化處理,包括散點(diǎn)圖、柱形圖、堆疊柱形圖和點(diǎn)線圖等方法。離散型時(shí)間數(shù)據(jù)的特點(diǎn)與實(shí)例散點(diǎn)圖的定義與用途散點(diǎn)圖是數(shù)理統(tǒng)計(jì)回歸分析中數(shù)據(jù)點(diǎn)在直角坐標(biāo)系平面上的分布圖,表示因變量隨自變量變化趨勢(shì),可擬合函數(shù)關(guān)系。對(duì)于離散時(shí)間數(shù)據(jù),水平軸表示時(shí)間,垂直軸表示數(shù)值,基本框架如圖4-11所示。散點(diǎn)圖的生成與展示使用matplotlib生成散點(diǎn)圖,代碼示例包括設(shè)置中文字體、正常顯示負(fù)號(hào)、示例數(shù)據(jù)、創(chuàng)建散點(diǎn)圖及設(shè)置圖表標(biāo)題和坐標(biāo)軸標(biāo)簽的方法。使用Matplotlib生成的散點(diǎn)圖結(jié)果如圖4-12所示,能直觀呈現(xiàn)數(shù)據(jù)隨時(shí)間的變化趨勢(shì)。散點(diǎn)圖14%25%柱形圖的特點(diǎn)與適用場(chǎng)景柱形圖又稱條形圖、直方圖,以高度或長(zhǎng)度差異顯示統(tǒng)計(jì)指標(biāo)數(shù)值,簡(jiǎn)明醒目,常用于顯示一段時(shí)間內(nèi)數(shù)據(jù)變化或各項(xiàng)間比較情況。柱形圖基本框架如圖4-13所示,柱形高度體現(xiàn)數(shù)值大小,合理選擇柱形寬度很重要。柱形圖的生成與展示使用matplotlib生成柱形圖,代碼示例包括設(shè)置中文字體、正常顯示負(fù)號(hào)、示例數(shù)據(jù)、創(chuàng)建柱形圖及設(shè)置圖表標(biāo)題和坐標(biāo)軸標(biāo)簽的方法。使用Matplotlib生成的柱形圖結(jié)果如圖4-14所示,能清晰展示數(shù)據(jù)的分布和比較。柱形圖堆疊柱形圖是普通柱形圖的變體,在一個(gè)柱形上疊加一個(gè)或多個(gè)其他柱形,適用于數(shù)據(jù)存在子分類且相加有意義的情況。堆疊柱形圖基本框架如圖4-15所示,可展示多個(gè)數(shù)據(jù)類別在特定時(shí)間點(diǎn)的累積值。堆疊柱形圖的特點(diǎn)與用途使用matplotlib生成堆疊柱狀圖,代碼示例包括設(shè)置中文字體、正常顯示負(fù)號(hào)、示例數(shù)據(jù)、繪制第一部分和第二部分柱子、設(shè)置圖表標(biāo)題和坐標(biāo)軸標(biāo)簽及添加圖例的方法。使用Matplotlib生成的堆疊柱狀圖結(jié)果如圖4-16所示,能直觀呈現(xiàn)數(shù)據(jù)的累積和比較。堆疊柱形圖的生成與展示堆疊柱形圖點(diǎn)線圖的生成與展示使用matplotlib生成點(diǎn)線圖,代碼示例包括設(shè)置中文字體、正常顯示負(fù)號(hào)、生成示例數(shù)據(jù)、創(chuàng)建點(diǎn)線圖及添加標(biāo)題和坐標(biāo)軸標(biāo)簽的方法。使用Matplotlib生成的點(diǎn)線圖結(jié)果如圖4-18所示,能清晰呈現(xiàn)數(shù)據(jù)的分布和變化。點(diǎn)線圖的特點(diǎn)與用途點(diǎn)線圖是離散型數(shù)據(jù)可視化的一種形式,是柱形圖的變形,更聚焦端點(diǎn),一般示例如圖4-17所示。股市中有一種特殊點(diǎn)線圖,一條線表示交易時(shí)段,一個(gè)點(diǎn)表示收市價(jià),線高低點(diǎn)表示最高價(jià)及最低價(jià),如圖4-19所示,可讓投資者了解市價(jià)與交易時(shí)段高低價(jià)關(guān)系及市場(chǎng)氣氛傾向。點(diǎn)線圖202X202X202X202X04習(xí)題時(shí)間數(shù)據(jù)應(yīng)用領(lǐng)域在大數(shù)據(jù)中,時(shí)間數(shù)據(jù)的主要應(yīng)用包括股票交易、商品銷售、社交媒體分析等,答案為D.上述所有。連續(xù)型時(shí)間數(shù)據(jù)定義連續(xù)型時(shí)間數(shù)據(jù)指的是連續(xù)記錄的數(shù)據(jù),答案為B.連續(xù)記錄的數(shù)據(jù)。不適合表示連續(xù)型時(shí)間數(shù)據(jù)的圖形柱形圖不適合表示連續(xù)型時(shí)間數(shù)據(jù),答案為C.柱形圖。離散時(shí)間數(shù)據(jù)記錄類型離散時(shí)間數(shù)據(jù)更傾向于記錄特定時(shí)間點(diǎn)的事件,答案為B.特定時(shí)間點(diǎn)的事件。堆疊柱形圖通常用于展示多個(gè)數(shù)據(jù)類別在特定時(shí)間點(diǎn)的累積值,答案為C.多個(gè)數(shù)據(jù)類別在特定時(shí)間點(diǎn)的累積值。堆疊柱形圖用途選擇題所有數(shù)據(jù)都是帶有時(shí)間標(biāo)簽的,答案為正確。所有數(shù)據(jù)帶時(shí)間標(biāo)簽時(shí)間序列數(shù)據(jù)不僅在金融領(lǐng)域有應(yīng)用,還在其他領(lǐng)域廣泛應(yīng)用,答案為錯(cuò)誤。時(shí)間序列數(shù)據(jù)應(yīng)用范圍折線圖能有效表示時(shí)間數(shù)據(jù)的變化趨勢(shì),答案為錯(cuò)誤。折線圖表示時(shí)間數(shù)據(jù)變化趨勢(shì)離散型時(shí)間數(shù)據(jù)可以用散點(diǎn)圖表示,答案為錯(cuò)誤。離散型時(shí)間數(shù)據(jù)表示方法可視化是理解時(shí)間數(shù)據(jù)的關(guān)鍵工具,答案為正確。可視化與時(shí)間數(shù)據(jù)理解判斷題0102030405時(shí)間數(shù)據(jù)應(yīng)用維度連續(xù)型時(shí)間數(shù)據(jù)常用圖形離散型時(shí)間數(shù)據(jù)典型例子Python數(shù)據(jù)可視化庫(kù)階梯圖適用場(chǎng)景時(shí)間數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用主要依賴于其作為一個(gè)關(guān)鍵的時(shí)間維度。折線圖是表示連續(xù)型時(shí)間數(shù)據(jù)常用的圖形之一。離散型時(shí)間數(shù)據(jù)的一個(gè)典型例子是交易發(fā)生的時(shí)間。使用Python的數(shù)據(jù)可視化庫(kù),如Matplotlib和Seaborn,可以創(chuàng)建各種表現(xiàn)時(shí)間數(shù)據(jù)的圖表。階梯圖通常用于表示Y值發(fā)生離散改變的場(chǎng)景。填空題01連續(xù)型和離散型時(shí)間數(shù)據(jù)區(qū)別連續(xù)型時(shí)間數(shù)據(jù)是連續(xù)記錄的數(shù)據(jù),如氣溫、股票價(jià)格;離散型時(shí)間數(shù)據(jù)是特定時(shí)間點(diǎn)的事件記錄,如交易時(shí)間、社交媒體帖子發(fā)布時(shí)間。02階梯圖應(yīng)用場(chǎng)景階梯圖適用于Y值發(fā)生離散改變的場(chǎng)景,如銀行利率調(diào)整,可清晰展示數(shù)據(jù)在特定時(shí)間點(diǎn)的突變。03柱形圖表示時(shí)間數(shù)據(jù)方法使用柱形圖表示時(shí)間數(shù)據(jù)時(shí),水平軸表示時(shí)間,垂直軸表示數(shù)值,柱形高度體現(xiàn)數(shù)值大小,可直觀展示數(shù)據(jù)在不同時(shí)間點(diǎn)的分布和比較。04可視化與時(shí)間數(shù)據(jù)理解可視化能將復(fù)雜的時(shí)間序列轉(zhuǎn)換為直觀圖形,使我們能快速捕捉數(shù)據(jù)中的模式和趨勢(shì),從而更好地理解和利用時(shí)間數(shù)據(jù)。05選擇可視化圖形方法根據(jù)時(shí)間數(shù)據(jù)的類型(連續(xù)型或離散型)和要展示的信息(如趨勢(shì)、分布、比較等)選擇合適的可視化圖形,如連續(xù)型時(shí)間數(shù)據(jù)可選擇折線圖、階梯圖等,離散型時(shí)間數(shù)據(jù)可選擇散點(diǎn)圖、柱形圖等。問(wèn)答題對(duì)于股票價(jià)格的連續(xù)時(shí)間數(shù)據(jù),可使用折線圖展示價(jià)格隨時(shí)間的連續(xù)變化趨勢(shì),也可使用階梯圖表示價(jià)格在特定時(shí)間點(diǎn)的調(diào)整變化。折線圖能清晰呈現(xiàn)價(jià)格的波動(dòng),階梯圖則突出價(jià)格的離散變化。股票價(jià)格數(shù)據(jù)可視化展示某商品每月銷量(離散時(shí)間數(shù)據(jù))可選擇柱形圖,柱形圖能直觀展示每月銷量的高低,便于比較不同月份的銷售情況。也可選擇折線圖,折線圖能呈現(xiàn)銷量隨時(shí)間的變化趨勢(shì),幫助分析銷售的增減情況。商品每月銷量可視化方案應(yīng)用題202X202X202X202X05實(shí)訓(xùn):Matplotlib繪圖與主題更改在Python環(huán)境中使用Matplotlib庫(kù)創(chuàng)建多種類型的圖表,如折線圖、柱狀圖、散點(diǎn)圖、餅圖等,并嘗試應(yīng)用不同的主題和樣式改變圖表外觀,熟悉Matplotlib的基本繪圖功能和主題更改選項(xiàng),提高數(shù)據(jù)可視化的表達(dá)力和美觀度。實(shí)訓(xùn)目標(biāo)需求說(shuō)明確保Python環(huán)境已正確安裝,并通過(guò)pip安裝Matplotlib庫(kù)。導(dǎo)入必要的Python模塊,如numpy用于數(shù)據(jù)處理,matplotlib.pyplot用于繪圖。環(huán)境準(zhǔn)備使用Matplotlib創(chuàng)建基本圖表類型,掌握設(shè)置圖表標(biāo)題、軸標(biāo)簽、圖例和顏色等方法。繪制折線圖、柱狀圖、散點(diǎn)圖和餅圖,理解數(shù)據(jù)的不同視覺(jué)表示方法?;纠L圖探索Matplotlib的樣式表,學(xué)習(xí)使用預(yù)設(shè)樣式改變圖表整體外觀。自定義圖表樣式,包括調(diào)整顏色、字體、線型和背景等,滿足特定視覺(jué)需求。主題應(yīng)用與樣式更改嘗試Matplotlib的高級(jí)功能,如子圖布局、動(dòng)畫(huà)制作和交互式圖表等,創(chuàng)建更復(fù)雜和動(dòng)態(tài)的視覺(jué)表示。學(xué)習(xí)保存圖表為不同格式文件,便于報(bào)告和演示使用。學(xué)習(xí)將圖表嵌入Web頁(yè)面或?qū)С鰹閳D片、PDF格式的方法。高級(jí)功能探索實(shí)現(xiàn)思路及步驟謝謝大家匯報(bào)人:AiPPT匯報(bào)時(shí)間:20XX.X主講人:AiPPT時(shí)間:20XX.XXPOWERPOINTDESIGN202XPowerPointDesign------------------Python關(guān)系數(shù)據(jù)可視化目錄CONTENTS01關(guān)系數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用02數(shù)據(jù)分布性的可視化03習(xí)題04實(shí)訓(xùn):Seaborn繪圖與主題更改--------------PowerPointDesign關(guān)系數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用01PARTPOWERPOINTDESIGN關(guān)系數(shù)據(jù)價(jià)值關(guān)系數(shù)據(jù)在大數(shù)據(jù)中用于找到變量間聯(lián)系,發(fā)掘事物背后因果關(guān)系。通過(guò)探索變量相關(guān)性,進(jìn)而探索隱藏的因果關(guān)系。分析數(shù)據(jù)時(shí),可從整體觀察,也可關(guān)注數(shù)據(jù)分布,如數(shù)據(jù)間是否存在重疊或毫不相干,以及各分布數(shù)據(jù)的相關(guān)關(guān)系。數(shù)據(jù)可視化后,圖表所表達(dá)的意義至關(guān)重要。關(guān)系數(shù)據(jù)具有關(guān)聯(lián)性和分布性。關(guān)聯(lián)性指數(shù)據(jù)間相互聯(lián)系和影響,如股市中不同股票之間的相關(guān)性;分布性指數(shù)據(jù)在一個(gè)或多個(gè)維度上的分布情況,如通過(guò)直方圖展示單個(gè)變量的分布情況。關(guān)系數(shù)據(jù)特性大數(shù)據(jù)挖掘與變量關(guān)聯(lián)散點(diǎn)圖散點(diǎn)圖用于展示兩個(gè)變量之間的關(guān)系,通過(guò)點(diǎn)的分布判斷相關(guān)性。一般有三種關(guān)系:正相關(guān)、負(fù)相關(guān)和不相關(guān)。正相關(guān)時(shí),橫軸數(shù)據(jù)和縱軸數(shù)據(jù)變化趨勢(shì)相同;負(fù)相關(guān)時(shí),變化趨勢(shì)相反;不相關(guān)時(shí)散點(diǎn)排列雜亂無(wú)章。使用散點(diǎn)圖時(shí)要注意:當(dāng)要在不考慮時(shí)間的情況下比較大量數(shù)據(jù)點(diǎn)時(shí),常使用散點(diǎn)圖;即便自變量為連續(xù)性變量,仍然可以使用散點(diǎn)圖;如果在散點(diǎn)圖中有多個(gè)序列,考慮將每個(gè)點(diǎn)的標(biāo)記形狀更改為方形、三角形、菱形或其他形狀;散點(diǎn)圖中包含的數(shù)據(jù)越多,比較的效果就越好。散點(diǎn)圖矩陣散點(diǎn)圖矩陣借助兩變量散點(diǎn)圖的作圖方法,是一個(gè)大的圖形方陣,其每一個(gè)非主對(duì)角元素的位置上是對(duì)應(yīng)行的變量與對(duì)應(yīng)列的變量的散點(diǎn)圖,而主對(duì)角元素位置上是各變量名。借助散點(diǎn)圖矩陣可以清晰地看到所研究多個(gè)變量?jī)蓛芍g的相關(guān)關(guān)系。氣泡圖氣泡圖和散點(diǎn)圖相比,多了一個(gè)維度的數(shù)據(jù)。氣泡圖就是將散點(diǎn)圖中沒(méi)有大小的“點(diǎn)“變成有大小的“圓”,圓的大小就可以用來(lái)表示多出的那一維數(shù)據(jù)的大小。氣泡圖讓我們可以同時(shí)比較三個(gè)變量。一個(gè)具體的例子是二手車的價(jià)格由車齡和里程來(lái)決定,可以看出,兩個(gè)指標(biāo)越小,氣泡越大,代表價(jià)格越高,反之則反。如果使用Python繪制氣泡圖,只需要在散點(diǎn)圖的代碼上進(jìn)行一些簡(jiǎn)單的修改。數(shù)據(jù)關(guān)聯(lián)性的可視化--------------PowerPointDesign數(shù)據(jù)分布性的可視化02PARTPOWERPOINTDESIGN莖葉圖定義與優(yōu)點(diǎn)莖葉圖又稱“枝葉圖”,是由20世紀(jì)早期的英國(guó)統(tǒng)計(jì)學(xué)家阿瑟·鮑利(ArthurBowley)設(shè)計(jì)。莖葉圖的思路是將數(shù)組中的數(shù)按位數(shù)進(jìn)行比較,將數(shù)的大小基本不變或變化不大的位作為一主干(莖),將變化大的位的數(shù)作為分枝(葉),列在主干的后面。莖葉圖的優(yōu)點(diǎn)是統(tǒng)計(jì)圖上沒(méi)有原始數(shù)據(jù)信息的損失,所有數(shù)據(jù)信息都可以從莖葉圖中得到。莖葉圖中的數(shù)據(jù)還可以隨時(shí)記錄,隨時(shí)添加,方便記錄與表示。莖葉圖缺點(diǎn)與繪制莖葉圖的缺點(diǎn)是只便于表示個(gè)位之前相差不大的數(shù)據(jù),而且莖葉圖只方便記錄兩組的數(shù)據(jù)。莖葉圖十分直觀且簡(jiǎn)單,可以使用Excel方便的進(jìn)行繪制。莖葉圖直方圖又稱質(zhì)量分布圖,是數(shù)值數(shù)據(jù)分布的精確圖形表示。直方圖中的柱形高度表示的是數(shù)值頻率,柱形的寬度是取值區(qū)間。水平軸和垂直軸與一般的柱形圖不同,它是連續(xù)的;一般的柱形圖的水平軸是分離的。我們可以使用seaborn庫(kù)來(lái)進(jìn)行直方圖的繪制,相關(guān)代碼如下。繪制得到的圖表如圖5-8所示。直方圖定義與繪制直方圖密度圖可用它對(duì)分布的細(xì)節(jié)變化進(jìn)行可視化處理。當(dāng)直方圖分段變多時(shí),分段之間的組距就會(huì)縮短,此時(shí)依著直方圖畫(huà)出的折線就會(huì)逐漸變成一條光滑的曲線,這條曲線就稱為總體的密度分布曲線。這條曲線可以反映數(shù)據(jù)分布的密度情況。01我們可以使用seaborn庫(kù)來(lái)進(jìn)行密度圖的繪制,相關(guān)代碼如下。繪制得到的圖表如圖5-10所示。02密度圖定義與繪制密度圖--------------PowerPointDesign習(xí)題03PARTPOWERPOINTDESIGNB.關(guān)聯(lián)性大數(shù)據(jù)分析中,探索變量的哪種關(guān)系是挖掘背后可能隱藏因果關(guān)系的重要一步?D.維度關(guān)系選擇題內(nèi)容C.分布性A.時(shí)間序列關(guān)系在數(shù)據(jù)關(guān)聯(lián)性可視化中,使用哪種圖可以展示兩個(gè)變量之間的關(guān)系?選擇題氣泡圖是在散點(diǎn)圖基礎(chǔ)上增加了一個(gè)維度的數(shù)據(jù)表示。()散點(diǎn)圖不能用于表示兩個(gè)以上的變量之間的關(guān)系。()莖葉圖在顯示數(shù)據(jù)分布時(shí),會(huì)丟失原始數(shù)據(jù)信息。()判斷題內(nèi)容關(guān)系數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用主要不包括數(shù)據(jù)的時(shí)間序列分析。()直方圖的柱形高度表示的是數(shù)值的頻率。()判斷題大數(shù)據(jù)的一個(gè)重要價(jià)值是可以幫助我們找到變量之間的________。散點(diǎn)圖可以用于發(fā)現(xiàn)數(shù)據(jù)和________之間的關(guān)聯(lián)關(guān)系。莖葉圖最初是由________設(shè)計(jì)的。在使用Python繪制氣泡圖時(shí),可以通過(guò)設(shè)置s參數(shù)來(lái)調(diào)整________的大小。密度圖可以反映數(shù)據(jù)分布的________情況。填空題內(nèi)容填空題描述數(shù)據(jù)關(guān)聯(lián)性可視化的目的是什么?問(wèn)答題內(nèi)容散點(diǎn)圖矩陣的基本框架是怎樣的?如何使用Python繪制氣泡圖?直方圖在數(shù)據(jù)分布性可視化中起到什么作用?密度圖與直方圖有什么不同,它們分別適用于什么場(chǎng)景?問(wèn)答題請(qǐng)?jiān)O(shè)計(jì)一個(gè)實(shí)驗(yàn),使用莖葉圖和直方圖分別展示同一數(shù)據(jù)集,比較它們?cè)诒硎緮?shù)據(jù)分布特性時(shí)的優(yōu)勢(shì)和不足。給定一組數(shù)據(jù),如何使用散點(diǎn)圖判斷兩個(gè)變量之間是否存在相關(guān)性?應(yīng)用題內(nèi)容應(yīng)用題--------------PowerPointDesign實(shí)訓(xùn):Seaborn繪圖與主題更改04PARTPOWERPOINTDESIGN01在Python環(huán)境中使用Seaborn庫(kù)創(chuàng)建多種類型的圖表,并嘗試應(yīng)用不同的主題和樣式來(lái)改變圖表的外觀。目標(biāo)是熟悉Seaborn的基本繪圖功能和主題更改選項(xiàng),從而提高數(shù)據(jù)可視化的表達(dá)力。需求說(shuō)明內(nèi)容需求說(shuō)明(3)主題應(yīng)用:探索并應(yīng)用Seaborn的不同主題(如dark,whitegrid等),觀察和比較這些主題對(duì)圖表外觀的影響。(4)樣式自定義:嘗試調(diào)整圖表的更多樣式選項(xiàng),如顏色、字體大小和圖表元素的布局。(1)環(huán)境準(zhǔn)備:確保Python環(huán)境已正確安裝,并通過(guò)pip安裝Seaborn庫(kù)。(2)基本繪圖:按照Seaborn的文檔,創(chuàng)建基本的圖表類型,如散點(diǎn)圖、直方圖、密度圖等。實(shí)現(xiàn)思路及步驟內(nèi)容實(shí)現(xiàn)思路及步驟主講人:AiPPT時(shí)間:20XX.XXPOWERPOINTDESIGN202XPowerPointDesign------------------謝謝大家主講人:AiPPT時(shí)間:20XX.XXPOWERPOINTDESIGN202XPowerPointDesign------------------Python比例數(shù)據(jù)可視化Catalogue目錄1.比例數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用PartOne部分與整體PartTwo2.時(shí)空比例數(shù)據(jù)可視化PartThree習(xí)題PartFour3.4.實(shí)訓(xùn):使用Pyecharts構(gòu)建數(shù)據(jù)大屏PartFive5.--------------PowerPointDesign比例數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用01PARTPOWERPOINTDESIGN比例數(shù)據(jù)可視化中,通過(guò)數(shù)據(jù)排序可輕易找到最大值與最小值。例如,市場(chǎng)份額占比中,最小值和最大值分別代表市場(chǎng)份額最少和最多的公司。在一頓早餐中食物卡路里含量占比圖中,最小、最大值對(duì)應(yīng)卡路里含量最少和最多的食物。尋找最大值與最小值研究者更關(guān)注整體的分布構(gòu)成以及各部分之間的相對(duì)關(guān)系。如早餐中雞蛋、面包、牛奶的卡路里含量是否均衡,是否存在某一種成分的卡路里含量占絕大多數(shù)。本章涉及的圖表類型將幫助讀者解答類似問(wèn)題,理解各部分在整體中的占比和相互關(guān)系。研究整體分布與相對(duì)關(guān)系比例數(shù)據(jù)可視化目的--------------PowerPointDesign部分與整體02PARTPOWERPOINTDESIGN餅圖基本框架與特點(diǎn)餅圖是常見(jiàn)的統(tǒng)計(jì)學(xué)模型,用來(lái)直觀形象地表示比例關(guān)系。雖然可以在對(duì)應(yīng)的部分標(biāo)上精確數(shù)據(jù),但有時(shí)楔形角度過(guò)小,數(shù)據(jù)標(biāo)注會(huì)存在一定困難,無(wú)法兼顧美觀。餅圖不太適合表示精確的數(shù)據(jù),但可以直觀呈現(xiàn)各部分占比差別,以及部分與整體之間的比例關(guān)系。如圖6-2所示的入學(xué)時(shí)間餅圖,清晰地展示了不同入學(xué)時(shí)間學(xué)生所占的比例。餅圖繪制代碼示例使用Matplotlib繪制餅圖的代碼示例:pythonimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']='SimHei'#設(shè)置中文顯示plt.figure(figsize=(6,6))#將畫(huà)布設(shè)定為正方形,則繪制的餅圖是正圓label=['正常入學(xué)','錯(cuò)后入學(xué)','提前入學(xué)']#定義餅圖的標(biāo)簽explode=[0.01,0.01,0.01]#設(shè)定各項(xiàng)距離圓心n個(gè)半徑values=[719,84,196]plt.pie(values,explode=explode,labels=label,autopct='%1.1f%%')plt.title('入學(xué)時(shí)間餅圖')#繪制標(biāo)題plt.savefig('./入學(xué)時(shí)間餅圖')#保存圖片plt.show()該代碼生成的圖形如圖6-4所示,通過(guò)設(shè)置標(biāo)簽、顏色和寬度屬性,繪制出了具有視覺(jué)效果的環(huán)形圖,用于展示不同入學(xué)時(shí)間的學(xué)生比例。餅圖堆疊柱形圖的基本框架如圖6-5所示。在實(shí)際應(yīng)用中,數(shù)值軸一般表示比例,堆疊柱狀圖在進(jìn)行不同比例之間的變化的比較時(shí)以及時(shí)間序列比較時(shí)具有優(yōu)勢(shì)。例如,對(duì)五個(gè)公司三年的營(yíng)業(yè)額進(jìn)行可視化時(shí),使用餅圖很難確切看到發(fā)生了什么,而切換到堆積條形圖時(shí),可以清楚地看到A公司的市場(chǎng)份額增長(zhǎng)和E公司的市場(chǎng)份額萎縮的趨勢(shì),如圖6-7所示。堆疊柱形圖基本框架與優(yōu)勢(shì)具體代碼可以參考第四章中4.3.3堆疊柱形圖部分,在此不再敘述。堆疊柱形圖代碼參考比例中的堆疊矩形樹(shù)圖繪制代碼示例使用Python的squarify庫(kù)生成矩形樹(shù)圖的代碼示例:生成的圖形如圖6-9所示,通過(guò)設(shè)置大小、標(biāo)簽和透明度,繪制出了矩形樹(shù)圖,用于展示不同類別的比例關(guān)系。矩形樹(shù)圖基本框架與特點(diǎn)矩形樹(shù)圖是一種基于面積的可視化方式。外部矩形代表父類別,內(nèi)部矩形代表子類別。矩形樹(shù)圖可以呈現(xiàn)樹(shù)狀結(jié)構(gòu)的數(shù)據(jù)比例關(guān)系。其基本框架如圖6-8所示。當(dāng)類目數(shù)據(jù)較多且有多個(gè)層次的時(shí)候,餅圖的展示效果往往會(huì)打折扣,矩形樹(shù)圖能更清晰、層次化地展示數(shù)據(jù)的占比關(guān)系。如電子商務(wù)、產(chǎn)品銷售等涉及大量品類的分析,都可以用矩形樹(shù)圖。矩形樹(shù)圖和弦圖基本框架與特點(diǎn)和弦圖繪制代碼示例和弦圖是一種用于展示多個(gè)項(xiàng)目之間關(guān)系的可視化方法。在和弦圖中,數(shù)據(jù)通常以一個(gè)圓環(huán)來(lái)表示,節(jié)點(diǎn)圍繞著圓周分布,點(diǎn)與點(diǎn)之間以弧線彼此連接以顯示當(dāng)中關(guān)系,通過(guò)每個(gè)圓弧的大小比例給每個(gè)連接分配數(shù)值。此外,還可以通過(guò)顏色將數(shù)據(jù)分類,直觀地進(jìn)行比較和區(qū)分。這些數(shù)據(jù)段之間的關(guān)系通過(guò)圓環(huán)內(nèi)部的弦(線條)來(lái)表示,弦的大小通常表示關(guān)系的強(qiáng)度或數(shù)據(jù)的量。和弦圖常用于展示如社交網(wǎng)絡(luò)、交通流量、商品交換等多個(gè)項(xiàng)目之間的相互聯(lián)系和交互模式。其基本框架如圖6-9所示。使用基于matplotlib的第三方庫(kù)mpl_chord_diagram繪制和弦圖的代碼示例:生成的圖形如圖6-12所示,通過(guò)設(shè)置節(jié)點(diǎn)名稱和流量矩陣,繪制出了和弦圖,用于展示不同城市之間的交通流量關(guān)系。0102和弦圖旭日?qǐng)D基本框架與特點(diǎn)旭日?qǐng)D是一種用于可視化層次數(shù)據(jù)結(jié)構(gòu)的圖表,通過(guò)多層的圓環(huán)展示數(shù)據(jù)的層次關(guān)系和比例大小。旭日?qǐng)D的中心是數(shù)據(jù)結(jié)構(gòu)的根節(jié)點(diǎn),每一層的圓環(huán)代表了數(shù)據(jù)結(jié)構(gòu)中的一個(gè)層級(jí),向外層擴(kuò)展顯示更深層次的數(shù)據(jù)。旭日?qǐng)D非常適合于展示樹(shù)形數(shù)據(jù)的分布情況,比如文件系統(tǒng)的目錄結(jié)構(gòu)、公司的組織架構(gòu)、網(wǎng)站的導(dǎo)航結(jié)構(gòu)等。其基本框架如圖6-13所示。0102使用pyecharts庫(kù)創(chuàng)建旭日?qǐng)D的代碼示例:生成的圖形如圖6-14所示,通過(guò)設(shè)置數(shù)據(jù)結(jié)構(gòu)和配置項(xiàng),創(chuàng)建了旭日?qǐng)D,用于展示層次數(shù)據(jù)的分布情況。旭日?qǐng)D繪制代碼示例旭日?qǐng)D--------------PowerPointDesign時(shí)空比例數(shù)據(jù)可視化03PARTPOWERPOINTDESIGN堆疊面積圖的基本框架如圖6-15所示?,F(xiàn)在的數(shù)據(jù)往往都帶有時(shí)間維度的信息,時(shí)間屬性的比例數(shù)據(jù)也是經(jīng)常出現(xiàn)的。例如,每年都會(huì)對(duì)各項(xiàng)消費(fèi)占居民總消費(fèi)的比例進(jìn)行統(tǒng)計(jì),每一的調(diào)查結(jié)果都會(huì)積累下來(lái)。01各種消費(fèi)占比隨著時(shí)間的變化情況是國(guó)家很關(guān)心的信息,這可以反映國(guó)民的生活是越來(lái)越好了還是越來(lái)越差了。假設(shè)存在多個(gè)時(shí)間序列圖表,現(xiàn)在將它們從下往上堆疊,填滿空白的區(qū)域,最終得到一個(gè)堆疊面積圖,水平軸代表時(shí)間,垂直軸的數(shù)值范圍為0到100%。02堆疊面積圖基本框架與特點(diǎn)0201使用matplotlib生成堆疊面積圖的代碼示例:生成的圖形如圖6-16所示,通過(guò)設(shè)置數(shù)據(jù)和標(biāo)簽,繪制出了堆疊面積圖,用于展示不同系列隨時(shí)間的變化趨勢(shì)。堆疊面積圖繪制代碼示例--------------PowerPointDesign習(xí)題04PARTPOWERPOINTDESIGN01餅圖主要用于展示哪種類型的數(shù)據(jù)?B.比例數(shù)據(jù)04矩形樹(shù)圖主要用來(lái)表示什么類型的數(shù)據(jù)?B.層次數(shù)據(jù)02環(huán)形圖與餅圖不同之處在于什么?C.中間有一個(gè)“空洞”05和弦圖用于展示什么?C.項(xiàng)與項(xiàng)之間的流量或關(guān)系堆疊柱狀圖在數(shù)據(jù)可視化中主要用來(lái)展示什么?C.各部分之間的比例關(guān)系03選擇題1餅圖適合用于展示精確的數(shù)據(jù)比例。(×)2環(huán)形圖不能表示多個(gè)樣本之間的比例關(guān)系。(×)3堆疊柱狀圖不能用于展示時(shí)間序列數(shù)據(jù)的比例變化。(×)4矩形樹(shù)圖可以清晰地展示大量品類的分析數(shù)據(jù)。(√)5旭日?qǐng)D適合用于展示復(fù)雜的層次數(shù)據(jù)結(jié)構(gòu)。(√)判斷題環(huán)形圖是餅圖的一種變體,特點(diǎn)是中間有空洞。矩形樹(shù)圖通過(guò)矩形的大小來(lái)表示數(shù)據(jù)的層次結(jié)構(gòu)和比例大小。堆疊柱狀圖主要優(yōu)勢(shì)在于能夠展示各部分之間的比例關(guān)系的變化。和弦圖常用于展示項(xiàng)與項(xiàng)之間的相互關(guān)系和交互模式。在比例數(shù)據(jù)可視化中,用于表示整體中各部分比例的圖表是餅圖。填空題描述餅圖在數(shù)據(jù)可視化中的用途和限制。用途:餅圖用于直觀地展示各部分在整體中所占的比例關(guān)系,適用于展示簡(jiǎn)單的分類數(shù)據(jù)占比情況。限制:餅圖不適合展示精確的數(shù)據(jù)比例,當(dāng)類別較多或部分占比差異較小時(shí),難以準(zhǔn)確區(qū)分各部分的具體數(shù)值,且不適合展示層次結(jié)構(gòu)或多個(gè)樣本之間的比例關(guān)系。環(huán)形圖與餅圖在視覺(jué)表現(xiàn)上有什么不同,環(huán)形圖的優(yōu)勢(shì)是什么?01020304不同:環(huán)形圖中間有一個(gè)“空洞”,而餅圖是一個(gè)完整的圓形。優(yōu)勢(shì):環(huán)形圖可以同時(shí)展示多個(gè)樣本各部分所占的相應(yīng)比例,有利于構(gòu)成的比較研究,通過(guò)各個(gè)弧形的長(zhǎng)度衡量比例大小,更適合展示多個(gè)樣本之間的比例關(guān)系。如何解釋堆疊柱狀圖在比例數(shù)據(jù)可視化中的作用?堆疊柱狀圖在比例數(shù)據(jù)可視化中主要用于展示不同分類之間的比例關(guān)系以及隨時(shí)間或其他變量的變化趨勢(shì)。它能夠清晰地展示各部分在整體中的占比,并且可以直觀地比較不同分類之間的差異和變化,適用于展示時(shí)間序列數(shù)據(jù)的比例變化或不同組之間的比較。05060708問(wèn)答題01設(shè)計(jì)一個(gè)場(chǎng)景,說(shuō)明如何使用餅圖和環(huán)形圖來(lái)分析市場(chǎng)份額數(shù)據(jù)。0302假設(shè)有一個(gè)數(shù)據(jù)集包含多個(gè)年份的公司收入數(shù)據(jù),如何使用堆疊柱狀圖和旭日?qǐng)D來(lái)展示每年收入中不同產(chǎn)品的收入比例變化?場(chǎng)景:假設(shè)有一家公司在分析其在不同地區(qū)的市場(chǎng)份額。首先,使用餅圖展示該公司在各個(gè)地區(qū)的市場(chǎng)份額占比,通過(guò)不同顏色的扇形區(qū)域直觀地表示各地區(qū)在公司總市場(chǎng)份額中的比例。然后,使用環(huán)形圖展示多個(gè)競(jìng)爭(zhēng)對(duì)手在同一地區(qū)的市場(chǎng)份額,通過(guò)環(huán)形圖的多個(gè)環(huán)來(lái)比較不同公司在同一地區(qū)的市場(chǎng)份額構(gòu)成,從而了解公司在各地區(qū)的競(jìng)爭(zhēng)地位和市場(chǎng)分布情況。首先,使用堆疊柱狀圖展示每年公司收入中不同產(chǎn)品的收入比例。將年份作為X軸,收入作為Y軸,不同產(chǎn)品的收入用不同顏色的柱子堆疊在一起,從而直觀地展示每年各產(chǎn)品收入在公司總收入中的占比以及隨時(shí)間的變化趨勢(shì)。然后,使用旭日?qǐng)D展示層次化的收入數(shù)據(jù),將年份作為最外層的圓環(huán),產(chǎn)品類別作為內(nèi)層的圓環(huán),通過(guò)不同顏色和大小的扇形區(qū)域表示各產(chǎn)品在不同年份的收入比例,從而清晰地展示收入數(shù)據(jù)的層次結(jié)構(gòu)和隨時(shí)間的變化情況,便于分析公司收入的動(dòng)態(tài)變化和產(chǎn)品收入的貢獻(xiàn)度。04應(yīng)用題--------------PowerPointDesign實(shí)訓(xùn):使用Pyecharts

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論