紅袖添香文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第1頁
紅袖添香文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第2頁
紅袖添香文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第3頁
紅袖添香文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第4頁
紅袖添香文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言...............................................................1

1.1項(xiàng)目背景......................................................1

1.2開發(fā)環(huán)境與工具................................................2

1.2.1Python簡介..............................................2

1.2.2JupyterNotebook簡介....................................3

1.2.3Matplotlib簡介..........................................3

1.2.4Pyecharts簡介...........................................3

1.2.5WordCloud簡介...........................................4

1.2.6XPath簡介...............................................4

2需求分析...........................................................4

2.1可行性需求分析................................................4

2.2采集目標(biāo)功能分析..............................................4

2.3關(guān)鍵技術(shù)分析..................................................5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)............................................5

2.3.2文件存取技術(shù)............................................6

2.3.3可視化技術(shù)..............................................6

3數(shù)據(jù)采集...........................................................7

3.1采集頁面分析..................................................7

3.2字段分析......................................................9

3.3編程實(shí)現(xiàn).....................................................10

4數(shù)據(jù)清洗與處理....................................................11

4.1數(shù)據(jù)清洗.....................................................12

4.2數(shù)據(jù)儲存.....................................................13

5數(shù)據(jù)統(tǒng)計(jì)與分析....................................................13

5.1數(shù)據(jù)準(zhǔn)備.....................................................13

5.2數(shù)據(jù)展示.....................................................14

5.2.1作者統(tǒng)計(jì)和分析.........................................14

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.2小說連載狀態(tài)統(tǒng)計(jì)和分析.................................15

5.2.3小說各階段字?jǐn)?shù)的人數(shù)進(jìn)行統(tǒng)計(jì)和分析.....................15

5.2.4小說書名詞云圖進(jìn)行統(tǒng)計(jì)和分析...........................16

5.2.5小說中的一品紅文統(tǒng)計(jì)和分析.............................18

5.3統(tǒng)計(jì)分析小結(jié).................................................18

6小結(jié)..............................................................19

參考資料............................................................20

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

紅袖添香文學(xué)網(wǎng)數(shù)據(jù)采集與分析

1引言

隨著數(shù)據(jù)量的快速增加,大數(shù)據(jù)的到來是時(shí)代發(fā)展的必定趨向。大數(shù)據(jù)是

指沒有辦法在規(guī)定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕獲、管理和解決的數(shù)據(jù)集

合,是需要新處理模式才能具備更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的

海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)也是如今社會(huì)的必備工具,大數(shù)

據(jù)在我們的生活中無處不在,就好比我們在微博上看到的熱搜榜,就是一種數(shù)

據(jù)的體現(xiàn),它有閱讀次數(shù)、討論次數(shù)、原創(chuàng)人數(shù)等數(shù)據(jù)。其實(shí)之前每天的疫情

數(shù)據(jù)會(huì)讓我們有更加直觀的體驗(yàn),每天我們都能在網(wǎng)上看到新增感染人數(shù)、治

愈人數(shù)、死亡人數(shù)。數(shù)據(jù)的使用有好也有壞,我們在網(wǎng)購時(shí)可能會(huì)被大數(shù)據(jù)殺

熟,有些不法分子會(huì)利用大數(shù)據(jù)來收集個(gè)人信息做一些違法犯罪的事情。

世界上每天的數(shù)據(jù)都是呈幾何增長,這么多的無形數(shù)據(jù)撲面而來,我們看

到的其實(shí)只是冰山一角,更多更深層次的數(shù)據(jù)都在我們無法輕易接觸到的地方,

如果想要接觸到更加深層的數(shù)據(jù),我們就需要使用特定的爬蟲工具,還需要反

爬蟲技術(shù)。

全世界的網(wǎng)民總數(shù)已經(jīng)超過了40億,平均每天上網(wǎng)6小時(shí),那么每天會(huì)產(chǎn)

生多少數(shù)據(jù)呢?據(jù)美國統(tǒng)計(jì)機(jī)構(gòu)顯示,全球每天產(chǎn)生約12.5億字節(jié)的數(shù)據(jù)量,

如果這些數(shù)據(jù)都被云計(jì)算平臺分析計(jì)算得到有用的信息,那將是一筆巨大的信

息財(cái)富。大數(shù)據(jù)技術(shù)是數(shù)字建設(shè)中的核心關(guān)鍵技術(shù),中國在面對信息社會(huì)的激

烈競爭中,制定了適時(shí)又成功的大數(shù)據(jù)戰(zhàn)略,加快了數(shù)字中國的建設(shè),同時(shí)也

提供了更優(yōu)質(zhì)、更快速的發(fā)展戰(zhàn)略決策。

1.1項(xiàng)目背景

對于新手作家來說,如何分析大眾的需求,明確哪種題材的文學(xué)作品更受

歡迎,如何根據(jù)市場要求挑選題材,如何根據(jù)市場的變化調(diào)整自己的文章。為

了避免時(shí)間和精力的付之東流,這是很重要的前提條件。那么,就需要獲得好

看的小說排行榜的具體數(shù)據(jù),然后進(jìn)一步分析。所以我們需要登錄紅袖添香文

學(xué)網(wǎng)站查詢相關(guān)數(shù)據(jù)。

對于文學(xué)網(wǎng)站來說,什么樣的作品是更受讀者喜歡的,是能抓住眼球的,

是能獲得流量的,這也需要通過對數(shù)據(jù)的分析來來獲得更精準(zhǔn)的結(jié)論。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

涉及到小說信息有很多,我們需要對網(wǎng)頁進(jìn)行分析,然后通過Python爬蟲

的手段批量獲取我們想要的資料。

我的畢業(yè)設(shè)計(jì)就是針對新手寫作的選題需要,而后爬取紅袖添香文學(xué)網(wǎng)站

小說數(shù)據(jù),對其進(jìn)行處理、分析,而后可視化。繁雜的數(shù)據(jù)經(jīng)過清洗加分析后,

一目了然的將結(jié)果呈現(xiàn)在作者眼前,作者就能選擇合適的寫作類型,最后做相

對正確的決策。所以我的畢業(yè)設(shè)計(jì)部分包含數(shù)據(jù)爬取、清洗處理、儲存、可視

化。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

盡管Python出現(xiàn)的比較早,但是剛開始并沒有引起大家的關(guān)注。直到后來

計(jì)算機(jī)技術(shù)的成熟,Python才再次爆紅。Python是面向?qū)ο蟮膭?dòng)態(tài)語言,它的

發(fā)展非常迅速,是現(xiàn)在很熱門的編程語言,因其語言簡潔,易上手,所以使用

人數(shù)特別多。

Python的使用范圍也非常廣,可以用來做web開發(fā),可以進(jìn)行網(wǎng)絡(luò)爬蟲、

自動(dòng)化采集數(shù)據(jù)以及處理,可以用于機(jī)器學(xué)習(xí)、數(shù)據(jù)分析和數(shù)據(jù)可視化,還可

以自動(dòng)化運(yùn)維,數(shù)據(jù)庫編程,網(wǎng)絡(luò)編程等。最后,根據(jù)在HelloGitHub網(wǎng)站的2023

年4月的最新排名,Python編程語言處于第一位。

常用的第三方開發(fā)工具:

1.PyCharm

一種PythonIDE(集成開發(fā)環(huán)境),帶有一整套可以幫助用戶在使用Python

語言開發(fā)時(shí)提高其效率的工具。分為專業(yè)版(professional)和社區(qū)版

(community),本次項(xiàng)目只需要使用Python的基礎(chǔ)語法,因此使用社區(qū)版就足夠

了。

2.MicrsoftVisualStudio

VisualStudio也可以作為Python的開發(fā)工具,只需要在安裝時(shí)選擇安裝

PTVS插件即可。安裝PTVS插件后的VisualStudio即可創(chuàng)建Python項(xiàng)目,從

而進(jìn)行Python應(yīng)用開發(fā)。

3.Eclipse+PyDev

PyDev是一個(gè)在Eclipse上運(yùn)行的開源插件,在Eclipse中安裝PyDev插件

后,就可以在Eclipse上寫Python了。

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

1.2.2JupyterNotebook簡介

JupyterNotebook是一個(gè)極其常見的PythonIDE,同時(shí)具有文本編輯和代碼

編寫的功能,非常適合初學(xué)者使用。一個(gè)支持實(shí)時(shí)代碼、數(shù)學(xué)公式、可視化和

Markdown的Web應(yīng)用程序,支持40多種編程語言。

它是以代碼塊和單元格的方式運(yùn)行的,它可以插入Markdown的說明性文字、

圖片,使得代碼的可讀性非常強(qiáng),它的這些優(yōu)點(diǎn)使得它非常適合用來做教學(xué)、

數(shù)據(jù)分析和人工智能機(jī)器學(xué)習(xí)的說明性文檔。

JupyterNotebook不僅可以用來寫Python,還可以運(yùn)行R語言,C語言等

語言,它是集編程和寫作于一身的強(qiáng)大編輯工具。

JupyterNotebook可以對數(shù)據(jù)進(jìn)行處理,清洗數(shù)據(jù)、存儲數(shù)據(jù)等等。它的

功能非常強(qiáng)大。

1.2.3Matplotlib簡介

Matplotlib最早是為了對癲癇病人的腦皮層電圖信號進(jìn)行可視化而研發(fā)的,

但是隨著技術(shù)的進(jìn)步,它現(xiàn)在是Python中的一個(gè)功能非常強(qiáng)大的畫圖包,是

Python中最基礎(chǔ)的可視化工具,我們可以用它來實(shí)現(xiàn)數(shù)據(jù)的可視化,以便我們

能更好的分析數(shù)據(jù)。

Matplotlib中最基礎(chǔ)的模塊是pyplot,它相當(dāng)于一個(gè)Python的接口,進(jìn)

行畫圖時(shí)要先導(dǎo)入這個(gè)包。

Matplotlib可以用來繪制二維圖表和三維圖表,它的主要特點(diǎn)如下:

1.使用簡單的語句繪制復(fù)雜的圖形。

2.已交互式操作實(shí)現(xiàn)很多對圖形的精細(xì)操作。

3.使用嵌入式的LaTeX輸出印刷級別的圖表、科學(xué)表達(dá)式和符號文本。

4.對圖表的組成元素進(jìn)行非常精細(xì)的控制。

1.2.4Pyecharts簡介

Echarts是用JS來寫的,而我們使用Pyecharts則可以使用Python來調(diào)用

里面的API,可以說Pyecharts是Python與Echarts結(jié)合之后的產(chǎn)物。

Pyecharts是Python中一個(gè)非常重要的可視化包。圖形的參數(shù)配置是數(shù)據(jù)

可視化的基礎(chǔ),Pyecharts中的參數(shù)配置比較簡單,可以分為全局配置項(xiàng)和系列

配置項(xiàng)。

Pyecharts的應(yīng)用領(lǐng)域非常廣泛,只要用到可視化的地方就都可以使用

Pyecharts,包括:人工智能行業(yè)、數(shù)據(jù)分析行業(yè)、數(shù)據(jù)可視化、數(shù)據(jù)挖掘行業(yè)。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

使用它可以方便地繪制一些基礎(chǔ)視圖,包括折線圖、條形圖、箱型圖、漣

漪散點(diǎn)圖、K線圖以及雙坐標(biāo)軸圖等;同時(shí)也可以繪制一些復(fù)雜的圖形,比如:

3D圖和動(dòng)態(tài)圖。

Pyecharts提供了大量的可視化方法,配置項(xiàng)非常豐富,圖形定制化很高,

并且支持支持3D圖和動(dòng)態(tài)圖。

1.2.5WordCloud簡介

WordCloud是一款Python環(huán)境下的詞云圖工具包,同時(shí)支持Python2和

Python3,能通過代碼的形式把關(guān)鍵詞數(shù)據(jù)轉(zhuǎn)換成直觀且有趣的圖文模式。可以

根據(jù)文本中詞云出現(xiàn)的頻率等參數(shù)繪制詞云,詞云的形狀、大小、顏色都可以

設(shè)定。

1.2.6XPath簡介

XPath是一種查詢語言,它能在XML和HTML的樹狀結(jié)構(gòu)中尋找結(jié)點(diǎn),它的

核心思想是:寫XPath就是寫地址。

2需求分析

2.1可行性需求分析

1.技術(shù)可行性

Python是面向?qū)ο笳Z言中的一門通俗易懂的計(jì)算機(jī)編程語言,本次項(xiàng)目中

使用Python編寫程序來實(shí)現(xiàn)數(shù)據(jù)獲取,將爬取出來的原始數(shù)據(jù)暫時(shí)以xlsx格

式儲存起來,通過JupyterNotebook來進(jìn)行數(shù)據(jù)清洗預(yù)處理,最后通過

Matplotlib和Pycharts來進(jìn)行數(shù)據(jù)可視化。

以上為此次項(xiàng)目的技術(shù)可行性,我也將在后續(xù)的工作中將所有的步驟實(shí)現(xiàn)

到位,保證數(shù)據(jù)的準(zhǔn)確性和安全性。

2.項(xiàng)目可行性

本次項(xiàng)目通過采集紅袖添香文學(xué)網(wǎng)站內(nèi)的數(shù)據(jù),來分析好看的小說排行榜

信息。我們也將從作者、是否完結(jié)、是否簽約、小說類型等方面對其進(jìn)行深度

剖析,分析出有價(jià)值的信息,將其可視化最后根據(jù)結(jié)果得出結(jié)論。

2.2采集目標(biāo)功能分析

本次項(xiàng)目的數(shù)據(jù)集的來源是紅袖添香文學(xué)網(wǎng)站,是通過python爬取好看的

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

小說排行榜的信息。數(shù)據(jù)清洗后共888條記錄,爬取完成后盡可能的檢查數(shù)據(jù)

的準(zhǔn)確性,確定爬取出來的數(shù)據(jù)無誤并且是屬于紅袖添香文學(xué)網(wǎng)實(shí)時(shí)存在的作

品信息。

分析紅袖添香網(wǎng)站網(wǎng)頁信息,明確我們需要爬取的小說參數(shù)有書名、作者、

是否完結(jié)、是否簽約、類型、字?jǐn)?shù)、收藏人數(shù)、章節(jié)總數(shù)等數(shù)據(jù),在對原始數(shù)

據(jù)進(jìn)行預(yù)處理后我們會(huì)對其數(shù)據(jù)進(jìn)行多個(gè)維度的分析。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

在日常生活中我們需要對網(wǎng)頁進(jìn)行瀏覽時(shí),可能需要下載網(wǎng)頁中的內(nèi)容到

本地,在下載內(nèi)容較少的時(shí)候,我們可以采取手動(dòng)的方式進(jìn)行下載。但是當(dāng)內(nèi)

容比較多,且都是重復(fù)的動(dòng)作時(shí),我們就可以采用網(wǎng)絡(luò)爬蟲技術(shù),對數(shù)據(jù)進(jìn)行

統(tǒng)一爬取,再對數(shù)據(jù)進(jìn)行分析。

網(wǎng)絡(luò)爬蟲技術(shù)就是通過自動(dòng)化程序,自動(dòng)化獲取網(wǎng)頁中的內(nèi)容??梢园丫W(wǎng)

絡(luò)爬蟲看成一個(gè)程序,這個(gè)程序的作用就是模擬客戶端發(fā)送請求獲取響應(yīng)數(shù)據(jù),

然后我們可以把數(shù)據(jù)進(jìn)行存儲。

網(wǎng)絡(luò)爬蟲可以用來抓取圖片;可以去除噪音,也就是去除網(wǎng)頁中的廣告,

對網(wǎng)頁的界面進(jìn)行凈化;收集個(gè)人信息數(shù)據(jù),給個(gè)人畫像,進(jìn)行精準(zhǔn)營銷,以

達(dá)到企業(yè)的目的;收集金融信息,做投資決策,可以用來炒股或者投資;收集

旅游景點(diǎn)以及景點(diǎn)周邊的酒店,交通數(shù)據(jù),從而制定旅游方案,提供給游客是

非常方便的;搜素引擎里的數(shù)據(jù)都是通過網(wǎng)絡(luò)爬蟲技術(shù)得到的。

網(wǎng)絡(luò)爬蟲的分類:按使用場景分類,可以分為通用爬蟲和聚焦爬蟲;按爬

取方式分類,可以分為累積式爬蟲和增量式爬蟲;按爬取頁面存在的方式,可

以分為表層網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲。

網(wǎng)絡(luò)爬蟲最早應(yīng)用于搜素引擎領(lǐng)域,是搜素引擎獲取數(shù)據(jù)來源的支撐性技

術(shù)之一。但是有些企業(yè)和個(gè)人為了達(dá)到某些非法獲益的目的,利用網(wǎng)絡(luò)爬蟲非

法爬取公民的個(gè)人信息,用于電信詐騙和賭博等違法犯罪的行為,這不僅僅是

自身觸犯了法律的紅線,更是侵犯了公民的權(quán)益,使得公民的個(gè)人信息遭到非

法使用。因此我們在使用網(wǎng)絡(luò)爬蟲技術(shù)在獲取網(wǎng)站數(shù)據(jù),一定要時(shí)刻注意自己

的行為是否已經(jīng)觸犯了法律,作為一個(gè)合法的中國公民,我們需要遵守中國的

每一條法律,千萬不要以身試法。

網(wǎng)絡(luò)爬蟲技術(shù)的初衷是通過計(jì)算機(jī)技術(shù),自動(dòng)為網(wǎng)站編纂索引,更新信息,

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

為用戶提供高效的數(shù)據(jù)檢索服務(wù)。我們在日常生活中也可以使用網(wǎng)絡(luò)爬蟲來幫

助自己,比如說,在某視頻網(wǎng)站,爬取自己發(fā)布的視頻的點(diǎn)擊量、評論數(shù)、收

藏?cái)?shù)、打賞數(shù)等等,然后對這些數(shù)據(jù)進(jìn)行分析,再對內(nèi)容進(jìn)行分析,就可以得

出哪方面的內(nèi)容是更能抓住流量的?,F(xiàn)在許多歌手的演唱會(huì)門票也是一開票就

搶空了,這時(shí)我們就能用網(wǎng)絡(luò)爬蟲技術(shù)為自己搶票了。把網(wǎng)絡(luò)爬蟲利用好也是

非常好的一件事情,它是雙刃劍,這個(gè)技術(shù)本身好的,主要是看使用這項(xiàng)技術(shù)

的人把它用做什么事情。

本次項(xiàng)目中,在進(jìn)行每本書的鏈接爬取時(shí),采用了BeautifulSoup來解析

網(wǎng)頁(如圖2-1),BeautifulSoup是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)

的Python庫。

圖2-1python內(nèi)置csv模塊

在對每本書的信息進(jìn)行采集時(shí),我采用的是XPath對網(wǎng)頁進(jìn)行解析,XPath

是使用路徑表達(dá)式在文檔中進(jìn)行導(dǎo)航,是一門在XML文檔中查找信息的語言。

2.3.2文件存取技術(shù)

最原始的數(shù)據(jù)存儲我用的是Python第三方模塊openpyxl,如圖2-2。

圖2-2python第三方模塊openpyxl

經(jīng)過清洗后的數(shù)據(jù)我用的是Python的內(nèi)置csv模塊,如圖2-3。

圖2-3python內(nèi)置csv模塊

2.3.3可視化技術(shù)

經(jīng)過上面的操作,數(shù)據(jù)已經(jīng)從網(wǎng)站上爬取下來了,并且存儲到了本地。那

么我們能否從該數(shù)據(jù)中一眼看出我們想要的數(shù)據(jù)呢?答案是不可能的。因?yàn)榕?/p>

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

取下來的數(shù)據(jù)體量比較大,需要我們通過可視化技術(shù)對數(shù)據(jù)進(jìn)行進(jìn)一步的分析,

把數(shù)據(jù)通過圖表的形式,展示在我們眼前,這樣我們就能通過數(shù)據(jù)看到事務(wù)的

本質(zhì),這也就是可視化技術(shù)的作用。

爬取取下來的數(shù)據(jù)通過預(yù)處理、保存為csv文件。然后通過Matplotlib庫

進(jìn)行可視化,Matplotlib是一個(gè)Python2D繪圖庫,作圖風(fēng)格接近Matlab,它

已經(jīng)稱為Python中公認(rèn)的數(shù)據(jù)可視化工具,適用于各種平臺上,能夠以各種硬

件拷貝格式和交互式環(huán)境生成出版品質(zhì)圖形。Matplotlib具有以下特點(diǎn):使用

極其簡單,以漸進(jìn)、交互的方式實(shí)現(xiàn)數(shù)據(jù)可視化,對圖形元素控制能力更強(qiáng),

可輸出PNG、PDF等多種格式。

3數(shù)據(jù)采集

3.1采集頁面分析

我首先通過MicrosoftEdge瀏覽器搜索紅袖添香文學(xué)網(wǎng)的官方網(wǎng)頁,然后

點(diǎn)擊導(dǎo)航欄的全部分類,然后進(jìn)入到好看的小說排行榜頁面觀察(如圖3-1),

其中URL為:/category,然后點(diǎn)擊頁面下方的分頁

按鈕,同時(shí)觀察URL,發(fā)現(xiàn)URL變成了

/category/f1_f1_f1_f1_f1_f1_0_2。

圖3-1數(shù)據(jù)網(wǎng)址頁面

按F12調(diào)出開發(fā)者工具,如圖3-2。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-2開發(fā)者工具

定位到需要爬取的數(shù)據(jù),這里需要爬取每本書的鏈接,從紅色的框內(nèi)我們

可以看出,每一個(gè)頁面都有“right-book-list”的div元素,每個(gè)頁面中的20

本書的基礎(chǔ)屬性都是存放在div中的ul標(biāo)簽中,如圖3-3。

圖3-3每本書的鏈接

之后需要點(diǎn)擊每一本書,我們能看到書名、作者、類型等基本信息,我們

需要對這些數(shù)據(jù)進(jìn)行爬取,如圖3-4。

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-4需要爬取的每本書的字段

3.2字段分析

每一頁小說的數(shù)據(jù)都是由ul標(biāo)簽組成,ul里面又由20個(gè)li標(biāo)簽組成,每

一個(gè)li標(biāo)簽里記錄的是每一本小說的基本信息(比如小說名、作者名、小說類

型、字?jǐn)?shù)等信息)。如圖3-5。

圖3-5分析數(shù)據(jù)類型頁面

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

3.3編程實(shí)現(xiàn)

首先,導(dǎo)入所需庫,如圖3-6。

圖3-6導(dǎo)入所需庫頁面

其次,對網(wǎng)址進(jìn)行構(gòu)建。需要爬取的數(shù)據(jù)分布在50個(gè)頁面,我們需要得出

50個(gè)頁面的鏈接,如圖3-7。

圖3-7每個(gè)頁面的鏈接

得到每個(gè)頁面的鏈接之后,需要從每個(gè)頁面中得出二十本的鏈接,如圖

3-8。

圖3-8每本書的鏈接

然后,對每本書的鏈接進(jìn)行爬取數(shù)據(jù),先存到一個(gè)data數(shù)組中。如圖3-9。

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-9爬取每本書的數(shù)據(jù)

最后,把data數(shù)組存儲到本地,存儲為xlsx文件。如圖3-10。

圖3-10存儲數(shù)據(jù)

4數(shù)據(jù)清洗與處理

數(shù)據(jù)清洗通常是通過清洗臟數(shù)據(jù)、填寫缺失的值、光滑噪聲數(shù)據(jù)、清洗重

復(fù)數(shù)據(jù)、識別或刪除離群點(diǎn)并解決不一致性來“清理”數(shù)據(jù)。經(jīng)過數(shù)據(jù)清洗我

就能得到我們想要的數(shù)據(jù)了,通過對數(shù)據(jù)的分析,就能得到最終的結(jié)果了。

本次項(xiàng)目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并且檢查是

否出現(xiàn)空值、錯(cuò)值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對數(shù)據(jù)

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

進(jìn)行不同的處理。

4.1數(shù)據(jù)清洗

具體的數(shù)據(jù)如圖4-1。

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面

經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)存在錯(cuò)位的情況,那么我們根據(jù)需求將錯(cuò)位數(shù)

據(jù)的所在行刪除,防止數(shù)據(jù)冗余。因此我們只需保留需要的數(shù)據(jù),然后整理為

原網(wǎng)頁格式存入data.xlsx文件中,留存后續(xù)作為統(tǒng)計(jì)分析、可視化使用。

刪除“是否完結(jié)”列是一品紅文的行,刪除“vip”列是短篇的行,避免數(shù)

據(jù)錯(cuò)位,圖4-2為數(shù)據(jù)清洗完成界面。

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-2數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

數(shù)據(jù)儲存主要有兩種方式,一是存儲在本地內(nèi)部,即存到個(gè)人硬盤、存儲

卡或是專用數(shù)據(jù)存儲服務(wù)器的設(shè)備中;二是把數(shù)據(jù)存儲在第三方公共或私有的

云端存儲,云存儲已經(jīng)成為了很普遍的存儲方式了,云存儲服務(wù)器由服務(wù)商管

理,用戶只有寫入、讀取和刪除的權(quán)限。存儲的格式也有很多種,可以存儲為

csv、excel等文件。

本次項(xiàng)目把清洗完成的數(shù)據(jù)存儲為csv文件,如圖4-3。

圖4-3數(shù)據(jù)存儲為csv頁面

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入相關(guān)庫,使用pandas加載源數(shù)據(jù),如圖5-1。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-1數(shù)據(jù)準(zhǔn)備頁面

具體的數(shù)據(jù)如圖5-2。

圖5-2數(shù)據(jù)加載頁面

5.2數(shù)據(jù)展示

5.2.1作者統(tǒng)計(jì)和分析

我們需要從數(shù)據(jù)中選取“作者”一列,并計(jì)算出每個(gè)作者出現(xiàn)的頻次,最

后根據(jù)作者名字和頻次進(jìn)行畫圖,如圖5-3。

圖5-3作者關(guān)鍵詞詞云圖

通過作者關(guān)鍵詞詞云圖,可以看出作者顧北念楠的作品是最多的,其次是

是墨家小石、夢思煙雨愁。一個(gè)作者的作品多說明該作者的文化素養(yǎng)較高,應(yīng)

該是個(gè)比較有文化底蘊(yùn)、有思想的人。從詞云圖看作者們的筆名也是五花八門,

可想作者的想法都是非常有趣的。

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.2小說連載狀態(tài)統(tǒng)計(jì)和分析

我們需要從數(shù)據(jù)中選取“是否完結(jié)”一列,并對已完結(jié)和連載中的書本數(shù)

量進(jìn)行統(tǒng)計(jì),最后根據(jù)已完結(jié)和連載中的書本數(shù)量進(jìn)行繪圖,如圖5-4。

圖5-4小說連載狀態(tài)圖

從上圖可以看出,已完結(jié)的小說占絕大多數(shù),連載中的小說占比極小。由

此可見大家還是對完結(jié)的書比較有興趣,不愿意耗費(fèi)更多的時(shí)間追連載小說。

未完結(jié)的小說不確定因素是比較多的,可能看到一半作者跑路了,看到一半

發(fā)現(xiàn)小說的走向偏離了自己預(yù)想的“完美結(jié)局”,這都會(huì)影響到讀者的心情,

本來看小說的初心就是放松自己,如果遇到以上的事情,反倒是會(huì)讓自己不開

心。

而完結(jié)的小說,你可以看到小說的字?jǐn)?shù)、收藏?cái)?shù)量、類型、評價(jià)等等,你

從這些因素中可以大概看出這本小說到底值不值得看,這是最不浪費(fèi)時(shí)間的挑

選小說的方式,對打工人以及時(shí)間不充裕的人來說是很重要的。

5.2.3小說各階段字?jǐn)?shù)的人數(shù)進(jìn)行統(tǒng)計(jì)和分析

我們需要從數(shù)據(jù)中選取“字?jǐn)?shù)”一列,把每10萬字?jǐn)?shù)分成一組,將字?jǐn)?shù)分

階段進(jìn)行統(tǒng)計(jì),并且統(tǒng)計(jì)每個(gè)階段的書本數(shù)量,最后對分組和書本數(shù)量進(jìn)行繪

圖,如圖5-5。

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-5小說各階段字?jǐn)?shù)的人數(shù)

從圖5-6中可以得知小說字?jǐn)?shù)在0-10萬字的作者數(shù)量占比最多,幾乎達(dá)到

了小說總數(shù)的一半;10-20萬字的人數(shù)次之,70-80萬字的人數(shù)為零。但從總體

來看,寫50萬字內(nèi)小說的人數(shù)是偏多的,50萬字之后就只有極少數(shù)的人寫了。

從這也能看出,作者們大都喜歡寫篇幅較短的小說。從而反應(yīng)出讀者也是

比較能接受篇幅較短的小說,可能是休息時(shí)間較少,無法抽出精力時(shí)間去看篇

幅較長的小說,就如同看電視劇一樣,“戰(zhàn)線”拉的太長,如果無法保證內(nèi)容

的精彩程度,可能會(huì)有很多讀者會(huì)棄文??葱≌f確實(shí)也是一個(gè)深受大家喜愛的

打發(fā)時(shí)間的好方法。

5.2.4小說書名詞云圖進(jìn)行統(tǒng)計(jì)和分析

我們需要從數(shù)據(jù)中選取“書名”一列,將書名全部匯總成一個(gè)字符串,然

后對字符串進(jìn)行切割,最后進(jìn)行繪圖,如圖5-6。

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-6書名關(guān)鍵詞詞云圖

從上圖可以看出,言情方面的書是比較能吸引人的,也能側(cè)面反映出紅袖

添香文學(xué)網(wǎng)是以女性讀者為主、言情小說為特色的氛圍,深受女性喜愛。其次,

可以看到“穿”和“重生”兩個(gè)詞語出現(xiàn)的次數(shù)也是比較多的,可以看出大家

喜歡看快穿之類的爽文,可以看出大家可能現(xiàn)實(shí)生活太壓抑,需要借助一些外

界事物抒發(fā)一下內(nèi)心壓抑的悲痛,在休息時(shí)間看一看重生爽文,給明天的自己

加油鼓勁。

小說的種類繁多,各式各樣的風(fēng)格供讀者挑選,但是不能確保所有的小說

傳播的都是正確的價(jià)值觀,我們需要分辨清楚,因此,當(dāng)我們沉浸在小說世界

中時(shí),也要時(shí)刻保留自己的理智,不要過度沉迷在小說中的世界,分清小說世

界和現(xiàn)實(shí)世界的區(qū)別。過度沉迷小說是要不得的,閱讀小說只能作為一個(gè)興趣

愛好,學(xué)生沉迷小說可能會(huì)影響學(xué)業(yè)的,職場人沉迷小說可能會(huì)影響工作,總

之,做事情要分清主次,萬萬不能因?yàn)橥鏄范绊懙秸嬲龖?yīng)該做的事情,要保

持理智。

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.5小說中的一品紅文統(tǒng)計(jì)和分析

圖5-7小說中的一品紅文

從上圖可以看出,《寫給鼴鼠先生的情書》收藏總數(shù)在一品紅文中是高居

榜首,收藏總數(shù)達(dá)到了68.67萬,但是字?jǐn)?shù)只在一品紅文收藏的中等偏上水平,

這說明一個(gè)作品能否受到大眾的喜愛,還得靠作品內(nèi)容。從圖中還可得知,一

品紅文的平均字?jǐn)?shù)為25.46萬,收藏的平均值為8.27萬。

《寫給鼴鼠先生的情書》這本書的收藏總數(shù)比其他所有紅文的收藏總數(shù)加

起來的數(shù)量還要多,可以說是紅文中的大佬級別。從書名來看,應(yīng)該寫的是兩

個(gè)戀人之間比較純潔的愛情故事,這個(gè)名字很是吸引人,就像是一顆有魔法的

糖果吸引著你的目光,由于好奇去了解了一下書中的內(nèi)容,這本書以女警

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論