當(dāng)當(dāng)網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第1頁
當(dāng)當(dāng)網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第2頁
當(dāng)當(dāng)網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第3頁
當(dāng)當(dāng)網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第4頁
當(dāng)當(dāng)網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言............................................................................................................................1

1.1項(xiàng)目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡介..........................................................................................2

1.2.2MySQL.....................................................................................................2

1.2.3JupyterNotebook簡介......................................................................3

1.2.4PyCharm和Python第三方庫簡介...................................................3

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目標(biāo)功能分析......................................................................................4

2.3關(guān)鍵技術(shù)分析..............................................................................................5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5

2.3.2文件存取技術(shù).......................................................................................5

2.3.3可視化技術(shù)...........................................................................................6

3數(shù)據(jù)采集....................................................................................................................6

3.1采集頁面分析..............................................................................................6

3.2字段分析......................................................................................................8

3.3編程實(shí)現(xiàn)......................................................................................................9

4數(shù)據(jù)清洗與處理......................................................................................................11

4.1數(shù)據(jù)清洗....................................................................................................11

4.2數(shù)據(jù)儲(chǔ)存....................................................................................................13

4.3編程實(shí)現(xiàn)....................................................................................................13

5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................14

5.1數(shù)據(jù)準(zhǔn)備....................................................................................................14

5.2數(shù)據(jù)展示....................................................................................................16

5.2.12022年暢銷書圖書的原價(jià)價(jià)格分布區(qū)間........................................16

5.2.22022年暢銷書圖書的售價(jià)價(jià)格分布區(qū)間........................................16

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.3各個(gè)出版社銷售書籍?dāng)?shù)量分析.........................................................17

5.2.4電子書占比進(jìn)行統(tǒng)計(jì).........................................................................18

5.2.5依據(jù)書籍評論數(shù)排名進(jìn)行統(tǒng)計(jì).........................................................18

6小結(jié)..........................................................................................................................19

參考資料.........................................................................................................................21

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

當(dāng)當(dāng)網(wǎng)圖書銷量數(shù)據(jù)采集與分析

1引言

隨著大數(shù)據(jù)信息技術(shù)的興起,讓信息技術(shù)的發(fā)展發(fā)生了巨大的變化,目前

大數(shù)據(jù)已經(jīng)在很多領(lǐng)域得到了實(shí)際應(yīng)用,如醫(yī)療,教育,金融,娛樂產(chǎn)業(yè),房

地產(chǎn),體育等等,致使各式各樣的數(shù)據(jù)接踵而來,每個(gè)國家都高度重視大數(shù)據(jù)

技術(shù)與應(yīng)用的研究和發(fā)展。大數(shù)據(jù)不僅僅是數(shù)據(jù)量大,還有數(shù)據(jù)類型繁多,處

理速度快,價(jià)值密度低的特點(diǎn),通過大數(shù)據(jù)技術(shù),人們可以從海量數(shù)據(jù)中提取

有用的數(shù)據(jù)進(jìn)行整合分析,大大提升人們的工作效率。

通過大數(shù)據(jù)技術(shù),我們可以對海量數(shù)據(jù)經(jīng)行快速的收集和挖掘,現(xiàn)在大數(shù)

據(jù)技術(shù)已經(jīng)成為支持社會(huì)治理科學(xué)決策和準(zhǔn)確預(yù)判的有力手段,為社會(huì)轉(zhuǎn)型期

的社會(huì)治理創(chuàng)新帶來巨大機(jī)遇[1]。

1.1項(xiàng)目背景

現(xiàn)在這個(gè)時(shí)代中,大數(shù)據(jù)在實(shí)際應(yīng)用中發(fā)揮著很大的作用。大數(shù)據(jù)技術(shù)、

Hadoop、數(shù)據(jù)清洗,數(shù)據(jù)可視化,網(wǎng)絡(luò)爬蟲,MySQL數(shù)據(jù)庫技術(shù)的不斷發(fā)展完善,

為我們進(jìn)行大數(shù)據(jù)爬取分析和數(shù)據(jù)挖掘提供了強(qiáng)大支撐。

互聯(lián)網(wǎng)發(fā)展勢頭正猛,帶動(dòng)了信息技術(shù)與網(wǎng)絡(luò)技術(shù)的發(fā)展,讓人們真正走

到物聯(lián)網(wǎng)和云計(jì)算時(shí)代,讓信息能夠?qū)崿F(xiàn)共享,并快速的流轉(zhuǎn),這就是新時(shí)代

向著網(wǎng)絡(luò)時(shí)代前進(jìn)的必然趨勢。就在圖書網(wǎng)也相繼應(yīng)用了大數(shù)據(jù)技術(shù),進(jìn)而將

信息管理水平給提高上來了,但是在這個(gè)過程中,圖書館還是有很多功課要做,

實(shí)時(shí)推廣大數(shù)據(jù)技術(shù),讓圖書網(wǎng)的受歡迎的圖書更暢銷。在各種網(wǎng)站中,比如

圖書網(wǎng)站里面的當(dāng)當(dāng)圖書銷量網(wǎng),使用大數(shù)據(jù)技術(shù)分析里面每年的價(jià)格,銷量,

讓企業(yè)了解到人們需要是哪一種類型的圖書,從而提高網(wǎng)上銷售量增加企業(yè)開

發(fā)網(wǎng)站銷售圖書所獲得的收益。

如果我們要分析數(shù)據(jù),那首先是要拿到數(shù)據(jù),爬蟲是獲取數(shù)據(jù)的非常便利

的方式,得到數(shù)據(jù)之后,我們要對我們的需求進(jìn)行足夠的了解,能夠?qū)⑵錅?zhǔn)確

的定位,我們可以對數(shù)據(jù)進(jìn)行清洗、去重、分析、統(tǒng)計(jì),制定出最受人們歡迎,

更高銷量的圖書。

我的畢業(yè)設(shè)計(jì)所做的項(xiàng)目就是針對當(dāng)當(dāng)圖書網(wǎng)圖書銷量網(wǎng)站進(jìn)行大數(shù)據(jù)統(tǒng)

計(jì)原價(jià)格,現(xiàn)價(jià)格,電子書價(jià)格與銷售量分析,可以很好的了解哪種圖書更受

歡迎和多編寫哪種圖書更有銷售潛能。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python是荷蘭人吉多·范羅蘇姆,中國程序員稱其為“龜叔”在1990年初

開發(fā)的一種解釋型編程語言。

在我們編程時(shí),Python提供的數(shù)據(jù)結(jié)構(gòu)往往時(shí)最高效的,以及它具有簡單

有效的面向?qū)ο缶幊坦δ?。Python擁有的語法和動(dòng)態(tài)類型,和解釋語言的性質(zhì),

使其成為在大多數(shù)平臺上編寫腳本和快速開發(fā)應(yīng)用程序的編程語言,Python中

不僅添加了許多ABC語言沒有的功能,同時(shí),還為其設(shè)計(jì)了各種豐富而強(qiáng)大的

庫,利用這些Python庫,程序員可以把使用其它語言制作的各類模塊尤其是C

語言和C++很輕松地“黏連”在一起,因此Python又常常被稱為“膠水”語言。

在這個(gè)大數(shù)據(jù)時(shí)代,大數(shù)據(jù)分析是關(guān)鍵技術(shù)。Python就是一款優(yōu)秀的大數(shù)

據(jù)分析軟件,Python長期以來一直被用來編寫網(wǎng)絡(luò)爬蟲。谷歌和其他搜索引擎

公司使用Python語言編寫網(wǎng)絡(luò)爬蟲[2]。

如今Python已經(jīng)發(fā)展成一門廣泛使用的高級編程語言。Python這種編程語

言一直以來都算的上是一種極簡主義的代表,在閱讀一段排版優(yōu)美的Python代

碼時(shí),就好像在閱讀一個(gè)英文段落,由于非常貼近人類語言,所以人們經(jīng)常說

Python是一種具有偽代碼特征的編程語言。它可應(yīng)用于人工智能、軟件開發(fā)、

大數(shù)據(jù)分析和數(shù)據(jù)可視化等多種領(lǐng)域。它的特點(diǎn)是開源即免費(fèi)、擁有豐富的庫、

語法簡單、支持跨平臺而且可移植性強(qiáng)。

1.2.2MySQL

MySQL是一個(gè)關(guān)系型數(shù)據(jù)庫管理系統(tǒng),由瑞典MySQLAB公司開發(fā),屬于

Oracle旗下產(chǎn)品。MySQL數(shù)據(jù)庫是最流行且最受歡迎的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)

之一,就于WEB應(yīng)用程序而言,MySQL是最好的RDBMS(RelationalDatabase

ManagementSystem,關(guān)系數(shù)據(jù)庫管理系統(tǒng))應(yīng)用軟件之一。

MySQL因其快速的開源數(shù)據(jù)庫速度、易用性以及對SQL和網(wǎng)絡(luò)的支持而被稱

為“最受歡迎的開源數(shù)據(jù)庫”,可移植,費(fèi)用低等特點(diǎn),越來越成為中小企業(yè)

應(yīng)用數(shù)據(jù)庫的首選。現(xiàn)在大家的生活幾乎都離不開數(shù)據(jù)庫,如果沒有數(shù)據(jù)庫,

很多事情都會(huì)變得非常棘手,也許根本無法做得到。

1.2.3JupyterNotebook簡介

Jupyter筆記本(以前稱為IPythonNotebook是一款交互式筆記本,支持

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

運(yùn)行40多種不同的編輯器語言

JupyterNotebook的本質(zhì)是一個(gè)網(wǎng)絡(luò)應(yīng)用程序,它有助于創(chuàng)建和共享程序

文檔,也支持?jǐn)?shù)學(xué)方程,實(shí)時(shí)代碼,可視化和轉(zhuǎn)型和降價(jià)。它的主要用途包括:

機(jī)器學(xué)習(xí)和轉(zhuǎn)換,數(shù)值模擬,統(tǒng)計(jì)建模,數(shù)據(jù)清理等Error!Referencesourcenotfound.。

用戶可以通過電子郵件,Dropbox,GitHub和JupyterNotebookViewer,將

JupyterNotebook分享給其他人。

在JupyterNotebook中,代碼可以實(shí)時(shí)地生成圖像,視頻,LaTeX和

JavaScript。Jupyternotebook特別適合做數(shù)據(jù)處理,其用途可以包括數(shù)據(jù)

清理和探索、可視化、機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析。

我們會(huì)用到JupyterNotebook進(jìn)行數(shù)據(jù)可視化分析,包括Jupyter

Notebook的基礎(chǔ)操作、使用pandas進(jìn)行數(shù)據(jù)分析、使用Matplotlib繪圖等。

1.2.4PyCharm和Python第三方庫簡介

PyCharm是一種PythonIDE(集成開發(fā)環(huán)境),具有一套完整的開發(fā)工具,

可以幫助用戶在使用Python語言開發(fā)時(shí)提高其工作的效率,例如調(diào)試、項(xiàng)目管

理、代碼跳轉(zhuǎn)、單元的測試、版本的控制等等。此外,這種類型的IDE還提供

了一些高級功能,以支持Django框架下的專業(yè)web開發(fā)。

requests:requests是一個(gè)很實(shí)用的PythonHTTP客戶端庫,爬蟲和測試

服務(wù)器響應(yīng)數(shù)據(jù)時(shí)經(jīng)常會(huì)用到,requests是Python語言的第三方的庫,專門用

于發(fā)送HTTP請求的,requests.get()的作用是請求目標(biāo)網(wǎng)站,它的類型是

HTTPresponse。

parsel:是一個(gè)Python的第三方庫,相當(dāng)于CSS選擇器+XPath+re,

parsel由scrapy團(tuán)隊(duì)開發(fā),是將scrapy中的parsel獨(dú)立抽取出來的,可以輕

松解析html,xml內(nèi)容,獲取需要的數(shù)據(jù)。

NumPy:NumPy是Python的一種開源的數(shù)值計(jì)算擴(kuò)展,NumPy(Numeric

Python)提供了許多高級的數(shù)值編程工具,例如,精確的算術(shù)庫、向量處理和

矩陣數(shù)據(jù)類型,它是專門為進(jìn)行嚴(yán)格的數(shù)字處理而創(chuàng)建的[3]。

pandas:是Python的一個(gè)數(shù)據(jù)分析包,數(shù)據(jù)分析并保存為CSV文件,Pandas

提供了大量的功能和方法,使我們能夠快速方便地處理數(shù)據(jù)。Pandas是字典形

式,基于NumPy創(chuàng)建。

Matplotlib:繪圖庫,通過Matplotlib,開發(fā)者可以僅需要幾行代碼,便

可以生成繪圖,直方圖,功率譜,條形圖,錯(cuò)誤圖,散點(diǎn)圖等。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

2需求分析

2.1可行性需求分析

1.技術(shù)可行性

使用Python網(wǎng)絡(luò)爬蟲可以爬取當(dāng)當(dāng)網(wǎng)有關(guān)的圖書的數(shù)據(jù)requests,parsel

等在爬取數(shù)據(jù)這方面對于爬蟲領(lǐng)域有著巨大的優(yōu)勢。使用NumPy,pandas把爬

取的數(shù)據(jù)進(jìn)行存儲(chǔ)為CSV文件、清洗、整理通過Python第三方庫進(jìn)行數(shù)據(jù)分析、

與數(shù)據(jù)可視化的展示。Matplotlib是一種簡單易使用的數(shù)據(jù)可視化第三方庫,

可以可視化為條形圖,折線圖,扇形圖,給客戶一目了然的效果。

2.項(xiàng)目可行性

得益于現(xiàn)代網(wǎng)絡(luò)及越來越智能越來越便攜的移動(dòng)終端像手機(jī),電子書等等,

網(wǎng)上售賣與網(wǎng)上閱讀越來越受歡迎。這個(gè)項(xiàng)目通過深入分析目前當(dāng)當(dāng)圖書銷售

網(wǎng)的銷售狀況,價(jià)格分析,來查找哪種圖書銷售更多,發(fā)掘出顧客喜愛的圖書

類型,通過合理的促銷方式提升銷售額,另一方面可以讓作者創(chuàng)造出更多大眾

喜歡的,受大家歡迎的圖書作品。

2.2采集目標(biāo)功能分析

使用Python對當(dāng)當(dāng)圖書網(wǎng)銷售數(shù)據(jù)分析可以對當(dāng)當(dāng)圖書銷售情況進(jìn)行分

析預(yù)測,可以用來幫助當(dāng)當(dāng)網(wǎng)更好的分析圖書銷售情況,改進(jìn)圖書的內(nèi)容,促

進(jìn)當(dāng)當(dāng)網(wǎng)圖書的閱讀量,和銷售量。

本次從當(dāng)當(dāng)圖書銷量網(wǎng)爬出了500條數(shù)據(jù),主要內(nèi)容是標(biāo)題,推薦,評論

數(shù),作者,出版時(shí)間,出版社,原價(jià),售價(jià),折扣價(jià),電子書價(jià)格,詳情頁。

把這些數(shù)據(jù)進(jìn)行清洗,整理之后,可以按價(jià)格數(shù)據(jù)特征進(jìn)行分類,可以統(tǒng)計(jì)出,

位于哪個(gè)價(jià)格的圖書更能讓大眾接受,售價(jià)和原價(jià)之間差距越大,銷售情況如

何,電子書是否更受大眾的歡迎。圖書種類眾多,通過推薦,創(chuàng)建詞云圖可以

在一堆圖書中選取到好書,熱賣書等等。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲(也稱為網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)機(jī)器人,更常被稱為網(wǎng)頁追逐器),是

一種根據(jù)某些規(guī)則自動(dòng)從萬維網(wǎng)獲取信息的程序或腳本。網(wǎng)絡(luò)爬蟲也根據(jù)其工

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

作原理和系統(tǒng)結(jié)構(gòu)進(jìn)行劃分,大致可以分為這四種類型:深層網(wǎng)絡(luò)爬蟲、聚焦

網(wǎng)絡(luò)爬蟲、增量網(wǎng)絡(luò)爬蟲、通用網(wǎng)絡(luò)爬蟲。

網(wǎng)頁的抓取策略可以分為三種,最佳優(yōu)先、深度優(yōu)先和廣度優(yōu)先。要是說

哪兩種最常用,那常用的方法是廣度優(yōu)先和最佳優(yōu)先,因?yàn)樯疃葍?yōu)先在許多情

況下會(huì)導(dǎo)致爬行問題。

爬蟲好似一種爬行器,主要針對網(wǎng)絡(luò)網(wǎng)頁,也被稱為網(wǎng)絡(luò)蜘蛛,它可以自

動(dòng)瀏覽網(wǎng)絡(luò)中的信息,因此也可以說成是一種網(wǎng)絡(luò)機(jī)器人。它們從前幾年來就

一直被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站之中,以獲取或更新這些網(wǎng)站

的內(nèi)容和檢索方式。它們可以自動(dòng)收集他們可以訪問到的所有頁面內(nèi)容[4],這樣

做只是為了方便程序做下一步的處理。一個(gè)網(wǎng)絡(luò)蜘蛛就是一種機(jī)器人,或者軟

件代理。大體上,它開始時(shí)需要訪問URL鏈接的,這些鏈接可以稱為種子。爬

蟲程序在訪問這些鏈接時(shí),它可以識別出這些頁面的所有超鏈接,并將它們添

加到此URL列表中,該列表可以稱為搜索邊界。根據(jù)特定策略重復(fù)訪問這些URL

[5],網(wǎng)絡(luò)爬蟲領(lǐng)域現(xiàn)在還處于早期的拓荒階段,雖然已經(jīng)由互聯(lián)網(wǎng)行業(yè)自身協(xié)議

建立起一定的道德規(guī)范,但法律部分還在建立與完善中。

目前,多數(shù)網(wǎng)站允許爬蟲爬取的數(shù)據(jù)用于個(gè)人使用或者科學(xué)研究,但如果將

爬取的數(shù)據(jù)用于其他用途,尤其是轉(zhuǎn)載或者商業(yè)用途,則依據(jù)各網(wǎng)站的具體情

況有不同的后果,嚴(yán)重的將會(huì)觸犯法律或者引起民事糾紛。

2.3.2文件存取技術(shù)

Python數(shù)據(jù)存儲(chǔ)技術(shù),如圖2-1所示。

圖2-1Python內(nèi)置方法

Python中CSV模塊技術(shù),如圖2-2所示。

圖2-2CSV模塊方法

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

2.3.3可視化技術(shù)

可視化主要包括科學(xué)計(jì)算可視化、數(shù)據(jù)可視化和信息可視化。數(shù)據(jù)可視化

是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),關(guān)于數(shù)據(jù)表現(xiàn)形式的科學(xué)技術(shù)研究,如

何將海量的數(shù)據(jù)轉(zhuǎn)換成可視化圖形是數(shù)據(jù)分析的必修課。Matplotlib和

Pyecharts是Python中常用的兩個(gè)數(shù)據(jù)可視化庫,它們功能強(qiáng)大,可以輕松繪

制折扣圖、條形圖、柱狀圖、散點(diǎn)圖等基本圖形,以及日歷圖、樹狀圖、聚類

圖等復(fù)雜圖形[6]。

傳統(tǒng)的數(shù)據(jù)可視化工具只是將數(shù)據(jù)組合起來,通過不同的呈現(xiàn)方式提供給

用戶,以發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)信息。近幾年來,隨著云計(jì)算和大數(shù)據(jù)時(shí)代的到

來,數(shù)據(jù)可視化產(chǎn)品不再滿足于使用傳統(tǒng)的數(shù)據(jù)可視化工具在數(shù)據(jù)倉庫中提取、

匯總和簡單呈現(xiàn)數(shù)據(jù)。新的數(shù)據(jù)可視化產(chǎn)品必須滿足互聯(lián)網(wǎng)爆炸的大數(shù)據(jù)需求,

必須快速收集、過濾、分析、總結(jié)、呈現(xiàn)決策者所需的信息,并根據(jù)新數(shù)據(jù)實(shí)

時(shí)更新,這就是大數(shù)據(jù)可視化技術(shù)[7]難點(diǎn)。

數(shù)據(jù)可視化是在項(xiàng)目中對數(shù)據(jù)進(jìn)行展示是非常有必要的,很多問題討論所

涉及的主題都是包括多個(gè)元素,其中一個(gè)元素會(huì)影響到多個(gè)其他元素,如果不

采取可視化,則無法看到全貌、也無法進(jìn)行真正的討論,特別是對于大規(guī)模的

數(shù)據(jù)集建立數(shù)據(jù)可視化之后會(huì)簡化復(fù)雜性,增強(qiáng)審視,還可以使分析的數(shù)據(jù)任

務(wù)更清晰,更美觀讓人理解起來感覺到很輕松。

3數(shù)據(jù)采集

3.1采集頁面分析

在電腦上打開谷歌瀏覽器,在搜索欄中輸入:圖書暢銷榜-近24小時(shí)暢

銷書排行榜-當(dāng)當(dāng)暢銷圖書排行榜,然后點(diǎn)擊搜索,觀察圖3-1,其中URL為:

/books/bestsellers/01.00.00.00.00.00-24hours

-0-0-1-1;然后點(diǎn)擊頁面下方的分頁按鈕,同時(shí)觀察URL,發(fā)現(xiàn)URL最后一個(gè)數(shù)

字隨著頁數(shù)變化而變化如圖3-2所示。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-1數(shù)據(jù)網(wǎng)址頁面

圖3-2數(shù)據(jù)網(wǎng)址頁面

單機(jī)右鍵點(diǎn)檢查調(diào)出開發(fā)者工具,刷新頁面,利用全局搜索工具定位所需

數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字段,分析這是個(gè)什么請求,發(fā)現(xiàn)

這個(gè)是一個(gè)get請求,如圖3-3所示。

圖3-3數(shù)據(jù)網(wǎng)址頁面

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

我需要把圈紅的數(shù)據(jù)爬取下來,并保存到CSV文件中,如圖3-4所示。

圖3-4數(shù)據(jù)內(nèi)容

3.2字段分析

用鼠標(biāo)定位到我們所需要的數(shù)據(jù)所在的位置,調(diào)出全局搜索框搜索,點(diǎn)擊

數(shù)據(jù)headers,找到ResponseHeaders,看到Context-Type如圖3-5所示,可以

看到這是一個(gè)text/html。點(diǎn)擊preview,顯示亂碼,但這并不影響我們把需要

的數(shù)據(jù)存儲(chǔ)為CSV文件。

圖3-5分析數(shù)據(jù)類型頁面

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

3.3編程實(shí)現(xiàn)

首先需要導(dǎo)入所需庫,如圖3-6所示。

圖3-6導(dǎo)入所需庫頁面

設(shè)置請求頭,偽裝成瀏覽器訪問服務(wù)器,用循環(huán)存儲(chǔ)所有網(wǎng)頁保存到url,

取前26頁數(shù)據(jù),如圖3-7所示。

圖3-7爬取url,偽裝為瀏覽器頁面

調(diào)出開發(fā)者工具,點(diǎn)擊代碼的左上角的箭頭選中需要爬取的字段,然后右

擊自動(dòng)跳轉(zhuǎn)的區(qū)域,選擇copy,然后選擇copyselector,如圖3-8所示。

圖3-8使用selector獲取字段解析頁面

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

使用Pycharm工具編寫代碼獲取數(shù)據(jù),如圖3-9所示。

圖3-9使用selector獲取數(shù)據(jù)代碼實(shí)現(xiàn)頁面

把爬取的數(shù)據(jù)存儲(chǔ)為CSV文件,共500條數(shù)據(jù),如圖3-10所示。

圖3-10數(shù)據(jù)存儲(chǔ)內(nèi)容頁面

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4數(shù)據(jù)清洗與處理

數(shù)據(jù)的不斷劇增是大數(shù)據(jù)時(shí)代的顯著特征,大數(shù)據(jù)必須經(jīng)過清洗,分析,

可視化才能體現(xiàn)其潛在的價(jià)值。由于在眾多數(shù)據(jù)中總是存在許多臟數(shù)據(jù),即不

完整,不規(guī)范,不準(zhǔn)確的數(shù)據(jù),因此就需要進(jìn)行數(shù)據(jù)清洗,徹底清除臟數(shù)據(jù),

包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等,從而提高數(shù)據(jù)質(zhì)量。

前期采集到的數(shù)據(jù),或多或少存在一些瑕疵和不足,比如數(shù)據(jù)缺失,極端

值,數(shù)據(jù)格式不統(tǒng)一等問題。因此,在分析數(shù)據(jù)之前需要對數(shù)據(jù)進(jìn)行預(yù)處理,

包括數(shù)據(jù)的清洗,合并,重塑與轉(zhuǎn)換。Pandas專門為數(shù)據(jù)預(yù)處理提供了許多功

能和方法,例如清理、合并和重塑異常數(shù)據(jù)來替換它。

數(shù)據(jù)清理是一項(xiàng)復(fù)雜而乏味的任務(wù),但確實(shí)是數(shù)據(jù)分析過程中最重要的環(huán)

節(jié),我們可萬萬不能小覷[8]。數(shù)據(jù)清洗的目的在于提高數(shù)據(jù)質(zhì)量,將臟數(shù)據(jù)清

洗干凈,使原數(shù)據(jù)具有完整性,唯一性,權(quán)威性,合法性,一致性等。

4.1數(shù)據(jù)清洗

打開爬取下來的原數(shù)據(jù)如圖4-1所示。

圖4-1原數(shù)據(jù)頁面

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

進(jìn)行數(shù)據(jù)清洗與處理如圖4-2所示。

圖4-2數(shù)據(jù)清洗與處理頁面

缺失值處理如圖4-3所示。

4-3缺失值處理頁面

看是否還有缺失值如圖4-4所示,顯示無缺失值。

圖4-4判斷缺失值頁面

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4.2數(shù)據(jù)儲(chǔ)存

數(shù)據(jù)存儲(chǔ)的方式很多,其中CSV是一種通用且相對簡單的文件格式,被用

戶、企業(yè)和科學(xué)界廣泛使用。最廣泛的應(yīng)用是在程序之間傳輸表數(shù)據(jù),這個(gè)應(yīng)

用是我們計(jì)算機(jī)學(xué)習(xí)者,必須要了解的,這些程序本身以不兼容的格式運(yùn)行,

如果需要存儲(chǔ)較大的數(shù)據(jù)信息,數(shù)據(jù)庫是最好的存儲(chǔ)數(shù)據(jù)方式之一[9]這次項(xiàng)目

是先把爬取的數(shù)據(jù)存為CSV文件,再保存到MySQL數(shù)據(jù)庫中如圖4-5所示。

圖4-5數(shù)據(jù)存儲(chǔ)頁面

4.3編程實(shí)現(xiàn)

創(chuàng)建數(shù)據(jù)庫,修改字符集為utf8,如圖4-6所示。

圖4-6創(chuàng)建數(shù)據(jù)庫頁面

創(chuàng)建名為dlz的表,如圖4-7所示。

圖4-7創(chuàng)建表

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

導(dǎo)入本地CSV數(shù)據(jù)到,MySQL表里面,如圖4-8所示。

圖4-8導(dǎo)入數(shù)據(jù)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入相關(guān)庫,如圖5-1所示。

圖5-1數(shù)據(jù)準(zhǔn)備頁面

使用pandas加載源數(shù)據(jù),如圖5-2所示。

圖5-2數(shù)據(jù)加載頁面

使用函數(shù)對書籍原價(jià)進(jìn)行排序,如圖5-3所示。

圖5-3原價(jià)排序

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

使用函數(shù)統(tǒng)計(jì)書籍原價(jià)價(jià)格區(qū)間,如圖5-4所示。

圖5-4原價(jià)價(jià)格區(qū)間

使用函數(shù)統(tǒng)計(jì)書籍售價(jià)價(jià)格區(qū)間,如圖5-5所示。

圖5-5售價(jià)

使用函數(shù)統(tǒng)計(jì)出版社分類,如圖5-6所示。

圖5-6出版社分類

統(tǒng)計(jì)電子書占比,如圖5-7所示。

圖5-7電子書占比

統(tǒng)計(jì)書籍評論數(shù)最高的前20條數(shù)據(jù),如圖5-8所示。

圖5-8評論數(shù)

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2數(shù)據(jù)展示

5.2.12022年暢銷書圖書的原價(jià)價(jià)格分布區(qū)間

對2022年各個(gè)月暢銷榜圖書的原價(jià)價(jià)格數(shù)據(jù)進(jìn)行可視化后,繪制成玫瑰圖,

如圖5-9所示。

圖5-9原價(jià)數(shù)據(jù)展示

使用排序函數(shù),把清洗處理后數(shù)據(jù)按原價(jià)字段進(jìn)行排序,然后使用range

函數(shù)按一定的區(qū)間進(jìn)行劃分,再統(tǒng)計(jì)每個(gè)區(qū)間的數(shù)量,使用Pyecharts模塊繪

制成玫瑰圖,效果如圖5-9所示,從上圖可以清楚的看出2022年銷售前500的

圖書銷售最多的價(jià)格區(qū)間主要分布在0-50元,其中前500中有310本書的價(jià)格

在0-50之間,說明在書籍的購買中,價(jià)格是很大的影響因素,一般便宜且有價(jià)

值的書,是比較受歡迎的,大家在書籍上的水平不會(huì)太高。其次是51-100的價(jià)

格銷售量比較高,500本中有135本,圖書價(jià)格在400以上的圖書銷售量最低,

500本中只銷售6本。一般只要有好的影響,能讓人感觸良多,不需要華麗的包

裝,這樣的書籍,往往是大眾所最需的。

5.2.22022年暢銷書圖書的售價(jià)價(jià)格分布區(qū)間

對售價(jià)進(jìn)行分區(qū)處理后進(jìn)行可視化,得到環(huán)形圖,如圖5-10所示。

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-10售價(jià)數(shù)據(jù)展示

隨著社會(huì)經(jīng)濟(jì)發(fā)展水平越來越高,人們從原先的一味追求物質(zhì)生活,到開

始慢慢地重視精神生活。人們對書的需求也越來越大,讀書也成為人們?nèi)粘I?/p>

活中的一部分,圖書的銷量也越來越多。我使用和得到原價(jià)數(shù)據(jù)一樣的方式得

到售價(jià)數(shù)據(jù)后,繪制成了環(huán)形圖,如圖5-10所示,上圖淺綠色部分是售價(jià)價(jià)格

在0-50元的區(qū)間的銷售圖書占比,占比71.4%,售價(jià)在400以上的圖書在銷售

前500的圖書中只占了1%,在環(huán)形圖中顯示的是藍(lán)色區(qū)域,說明我們圖書的銷

售量和價(jià)格有很大的聯(lián)系,價(jià)格便宜且內(nèi)容豐富的書,銷售的量可能會(huì)越多。

5.2.3各個(gè)出版社銷售書籍?dāng)?shù)量分析

通過對各個(gè)出版社書籍?dāng)?shù)量的統(tǒng)計(jì)分析,得到柱狀圖,如圖5-11所示。

圖5-11出版社書籍?dāng)?shù)量數(shù)據(jù)展示

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

經(jīng)常買書的人應(yīng)該會(huì)看到,一本書的背脊上通常印有兩個(gè)信息;出版社和

出版公司。出版公司一般印在書脊的上方,出版社一般印在下方,從圖5-11出

版地排名可以得知,當(dāng)當(dāng)圖書網(wǎng)銷量前500本中,有26本是北京聯(lián)合出版有限

公司出版的,是銷售圖書最多的出版社,超過平均出版社的兩倍多,而其他出

版社的出書數(shù)量相差不是很大。說明北京聯(lián)合出版有限公司是有很名且主要的

出版社。

5.2.4電子書占比進(jìn)行統(tǒng)計(jì)

有無電子書占比,如圖5-12所示。

圖5-12電子書版本占比

隨著電子設(shè)備的不斷發(fā)展,電子書也占去了一部分紙質(zhì)圖書的銷量。如圖

5-12所示,從2022年銷售量排名前500本圖書中,有43%的圖書是有電子書的,

還有一大部分是沒有電子書占比57%,由于網(wǎng)上閱讀越來越受歡迎,電子書也有

發(fā)展的趨勢,可以把網(wǎng)上售賣的圖書,都加上電子書,并收取比購買紙質(zhì)書便

宜一些的費(fèi)用,這樣人們就可以隨時(shí)可以看自己想看的書籍,不用帶著書走了。

5.2.5依據(jù)書籍評論數(shù)排名進(jìn)行統(tǒng)計(jì)

排名最高的前20條評論書籍,繪制成柱狀圖,如圖5-13所示。

18

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論