基于Python的現(xiàn)代文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第1頁
基于Python的現(xiàn)代文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第2頁
基于Python的現(xiàn)代文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第3頁
基于Python的現(xiàn)代文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第4頁
基于Python的現(xiàn)代文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

目錄

1引言............................................................................................................................1

1.1項目背景..........................................................................................................1

1.2開發(fā)環(huán)境與工具..............................................................................................1

1.2.1Python簡介..........................................................................................1

1.2.2MySQL簡介............................................................................................2

1.2.3JupyterNotebook簡介......................................................................2

2需求分析....................................................................................................................3

2.1可行性需求分析..............................................................................................3

2.2采集目標(biāo)功能分析..........................................................................................4

2.3關(guān)鍵技術(shù)分析..................................................................................................4

2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................4

2.3.2文件存取技術(shù).......................................................................................5

2.3.3可視化技術(shù)...........................................................................................5

3數(shù)據(jù)采集....................................................................................................................6

3.1采集頁面分析..................................................................................................6

3.2數(shù)據(jù)保存..........................................................................................................7

3.3程序運(yùn)行結(jié)果..................................................................................................8

4數(shù)據(jù)清洗與處理........................................................................................................8

4.1數(shù)據(jù)清洗..........................................................................................................8

4.2數(shù)據(jù)儲存........................................................................................................10

5數(shù)據(jù)統(tǒng)計與分析......................................................................................................10

5.1文件展示...........................................................................................................10

5.1.1打開文件.............................................................................................10

5.1.2文件展示.............................................................................................10

5.2數(shù)據(jù)可視化.......................................................................................................11

5.2.1不同類型小說占比分析.....................................................................11

5.2.2作者占比分析.....................................................................................12

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.3小說分類分析.....................................................................................13

5.3統(tǒng)計分析小結(jié)...................................................................................................15

6總結(jié)..........................................................................................................................16

參考資料.........................................................................................................................17

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

基于Python的現(xiàn)代文學(xué)網(wǎng)數(shù)據(jù)采集與分析

1引言

在互聯(lián)網(wǎng)高速發(fā)展的今天,現(xiàn)代文學(xué)網(wǎng)作為我國文學(xué)網(wǎng)中不可缺少的一環(huán),

它在互聯(lián)網(wǎng)上的表現(xiàn)也吸引了很多人的注意,而現(xiàn)代文學(xué)因為是傳統(tǒng)文學(xué)中的

載體,我們通過分析網(wǎng)站類目和傳統(tǒng)文學(xué)類別的喜歡的書籍和內(nèi)容,通過大數(shù)

據(jù)更好更直觀的認(rèn)識讀者喜歡的東西和作家的一些暢銷書籍。

一個國家真正的強(qiáng)大肯定是精神文化的強(qiáng)大,而現(xiàn)代文學(xué)中我國涌現(xiàn)了一

大批優(yōu)秀的作家,他們在文學(xué)上的成就是不可估量的,我們可以通過互聯(lián)網(wǎng)的

方式,借助互聯(lián)網(wǎng)的便利,讓更多的人認(rèn)識到我國現(xiàn)代文學(xué)的魅力,所以我們

通過大數(shù)據(jù)分析了解大家的口味,讓大家更好的更直觀的去感受現(xiàn)代文學(xué)的魅

力!

1.1項目背景

對于一個優(yōu)秀的現(xiàn)代文學(xué)網(wǎng)站來說,書籍的種類和書籍的數(shù)量肯定是屬于

這個網(wǎng)站,不可缺少的一環(huán),然而,要想讓它更加出眾,我們還需要了解它的

數(shù)據(jù),我們需要用大數(shù)據(jù)分析它的一些種類和中外讀者,還有他的受眾群體,

涉及的信息很多,我們需要對網(wǎng)頁進(jìn)行分析,然后用爬蟲批量獲取我們需要的

資料。

我的畢業(yè)設(shè)計就是針對普通的文學(xué)網(wǎng),查取書籍,數(shù)據(jù)進(jìn)行處理分析,然

后可視化、繁瑣的數(shù)據(jù)經(jīng)過清洗加分析以后,一目了然的呈現(xiàn)在網(wǎng)站的管理者

手中,管理者就可以通知點(diǎn)擊靠前的哪些書籍是受讀者喜歡的,哪些書籍是現(xiàn)

在還沒有的?現(xiàn)階段最需要哪方面的書籍?作者的地區(qū)分布,然后做出正確的

決策,所以我的畢業(yè)設(shè)計部分包含數(shù)據(jù)爬取,清理處理,儲存可視化。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python是一種面向?qū)ο蟮摹⒖蓴U(kuò)展的、開源的編程語言,它具有豐富而易

用的庫,可以使得開發(fā)者快速構(gòu)建功能豐富、高效運(yùn)行并易于部署的應(yīng)用。

Python無處不在,您可以使用它來構(gòu)建Web應(yīng)用程序、自然語言處理,可以

使用它來創(chuàng)建機(jī)器學(xué)習(xí)模型,還可以將其與數(shù)據(jù)庫集成。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

Python是一種開放的通用性語言,無論是新手還是老手都能夠快速上手。

Python的靈活性、可擴(kuò)展性以及對于跨平臺支持使得它成為多樣化開發(fā)領(lǐng)域中

的一個重要工具。

此外Python還有大量的第三方庫,用來幫助開發(fā)者快速實現(xiàn)其目標(biāo)。

Python也是一門易于學(xué)習(xí)的語言,它使用簡潔的代碼來表達(dá)復(fù)雜的想法。在

Python中,每一行代碼都可以像會話一樣進(jìn)行交流,而不是僵化、無關(guān)緊要的

內(nèi)容。這使得Python可以更容易理解,也更快地開發(fā)出有效的應(yīng)用程序。

1.2.2MySQL簡介

MySQL是一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng),由OracleCorporation開發(fā)。它通

常被用作Web服務(wù)器上的數(shù)據(jù)庫,并且也可以在多個平臺上運(yùn)行(包括Linux、

Unix、MacOSX和MicrosoftWindows)。

MySQL使用標(biāo)準(zhǔn)的SQL語法來執(zhí)行各種查詢和管理數(shù)據(jù)庫。MySQL也有一個

強(qiáng)大的多用戶實現(xiàn),可以讓不同的用戶在同一時間對數(shù)據(jù)庫進(jìn)行存取、修改和

刪除。

此外,MySQL還允許使用者執(zhí)行特定的函數(shù)來生成動態(tài)數(shù)據(jù),以及使用存儲

過程和觸發(fā)器來實現(xiàn)數(shù)據(jù)庫的自動化。MySQL也有一個強(qiáng)大的企業(yè)版,該版本具

備高性能、集成分布式處理和快速事務(wù)處理等特性。

1.2.3JupyterNotebook簡介

JupyterNotebook是一款交互式的編程工具,它可以讓你在瀏覽器中創(chuàng)建

并共享文本、代碼和數(shù)據(jù)可視化。它既可以用作一個獨(dú)立的應(yīng)用,也可以集成

到IPythonkernel中進(jìn)行多語言交互式編程。

JupyterNotebook支持超過40種編程語言,并可以將它們的代碼和數(shù)據(jù)可

視化分享為功能強(qiáng)大的文本形式或HTML格式的Web文檔。JupyterNotebook使

用一個特定格式的文本文件來存儲用戶寫的程序和數(shù)據(jù)可視化,這個文件的后

綴是.ipynb。使用JupyterNotebook時,可以在一個交互式界面中對代碼、數(shù)

據(jù)和圖形進(jìn)行實時查看、修改和執(zhí)行。

JupyterNotebook有幾個重要的功能,可以幫助用戶編寫更有效的代碼:

動態(tài)文檔創(chuàng)建:JupyterNotebook是使用Markdown語法來根據(jù)你輸入的文

字、圖片和代碼生成非常強(qiáng)大的Web文檔。

交互式代碼執(zhí)行:JupyterNotebook是可以在頁面上實時執(zhí)行用戶的代碼,

并顯示運(yùn)行后的輸出。

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

可視化數(shù)據(jù):JupyterNotebook可以使用Matplotlib、Seaborn和Pandas

庫來創(chuàng)建功能強(qiáng)大的圖形,從而幫助用戶可視化數(shù)據(jù)。

改進(jìn)已有代碼:JupyterNotebook可以讓用戶快速改進(jìn)現(xiàn)有的代碼,而不

用重新寫全部的代碼。

分享和協(xié)作:JupyterNotebook可以將用戶的文檔分享為HTML格式或PDF

格式,并且它還能夠方便地協(xié)作。

2需求分析

2.1可行性需求分析

1.技術(shù)可行性

Python是一門強(qiáng)大的腳本語言,它具備了所有必要的工具來進(jìn)行Web數(shù)據(jù)

采集、處理以及整合。此外,Python還包含了豐富的第三方庫,可以用來實現(xiàn)

更高效地采集和處理數(shù)據(jù)。

Python中有很多強(qiáng)大的庫,可以輕松地爬取并采集現(xiàn)代文學(xué)網(wǎng)上的信息。

例如,scrapy是一個強(qiáng)大的Python爬蟲工具包,可以快速地抓取網(wǎng)頁內(nèi)容,

并將其解析為有用的數(shù)據(jù)。此外,BeautifulSoup是一個Python解釋器,可以

解析HTML和XML的文本,從而幫助我們快速地獲取所需要的信息。

Python也可以用來處理和整合現(xiàn)代文學(xué)網(wǎng)上的信息。例如,Pandas和NumPy

是Python中常用的庫,可以輕松地讀取、處理和分析數(shù)據(jù)。此外,Python還

有一些強(qiáng)大的可視化工具,例如matplotlib和seaborn,可以用來創(chuàng)建美觀的

圖表,幫助我們更好地理解數(shù)據(jù)。

2.項目可行性

隨著計算機(jī)網(wǎng)絡(luò)的發(fā)展,在網(wǎng)上看文學(xué)網(wǎng)站已經(jīng)吸引到越來越多的用戶。

在此背景下,如何運(yùn)營現(xiàn)代文學(xué)網(wǎng)站以獲取更大的收益至關(guān)重要。本文通過對

參考閱讀網(wǎng)相關(guān)數(shù)據(jù)進(jìn)行分析,找到提高收益的可能途徑,從而為該網(wǎng)站的運(yùn)

營工作提供建議。

本次項目通過采集比參考閱讀網(wǎng)()網(wǎng)站內(nèi)的數(shù)據(jù),來分析現(xiàn)代

文學(xué)網(wǎng)的在網(wǎng)上的受眾人群信息。我們也將從書籍種類、閱讀愛好、作家等方

面對其進(jìn)行深度剖析,分析出有價值的信息,將其可視化最后根據(jù)結(jié)果得出結(jié)論。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

2.2采集目標(biāo)功能分析

編寫Python腳本,用來下載網(wǎng)站上的所有頁面??梢允褂?/p>

urllib模塊來實現(xiàn)這一目標(biāo),該模塊提供了urlopen()函數(shù),可以用它來向

特定URL發(fā)送HTTPGET請求并且獲得HTML文件。

使用BeautifulSoup解析HTML文件,提取網(wǎng)站的內(nèi)容信息。

BeautifulSoup是一個Python庫,可以幫助我們快速地瀏覽和搜索HTML文

件中的數(shù)據(jù)。這里需要注意的是:BeautifulSoup函數(shù)有很多高級API來實

現(xiàn)更復(fù)雜的任務(wù),但是本文只使用其基礎(chǔ)API。

將解析出來的信息存儲在數(shù)據(jù)庫中??梢允褂肕ySQL或者M(jìn)ongoDB這樣

高性能的關(guān)系型數(shù)據(jù)庫或者NoSQL數(shù)據(jù)庫來實現(xiàn)這一目標(biāo),也可以使用

Python自帶的sqlite3模塊來實現(xiàn)。

分析數(shù)據(jù),從中發(fā)現(xiàn)有價值的信息。這一步需要對采集到的數(shù)據(jù)進(jìn)行多

方面的分析,例如詞頻分析、關(guān)鍵字分析等,來發(fā)現(xiàn)網(wǎng)站上有價值的信息。

可視化展示數(shù)據(jù)分析結(jié)果,使用戶能夠快速地理解數(shù)據(jù)。可以使用

matplotlib庫來實現(xiàn)這一目標(biāo),該庫可以幫助我們將采集到的數(shù)據(jù)變?yōu)閳D

表。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲技術(shù)是一種在互聯(lián)網(wǎng)上搜集信息的方法,它通過Web瀏覽器或

其他工具,可以對特定的站點(diǎn)、新聞列表、帖子或者其他數(shù)據(jù)資源進(jìn)行掃描。

當(dāng)用戶請求時,網(wǎng)絡(luò)爬蟲可以搜集到相關(guān)的數(shù)據(jù),并將它們存儲在本地

或者返回用戶。

通常,網(wǎng)絡(luò)爬蟲技術(shù)是一項自動化的、可重復(fù)執(zhí)行的工作,可以不斷地

對互聯(lián)網(wǎng)上特定的站點(diǎn)進(jìn)行掃描,以獲取新的信息或者更新已有的內(nèi)容。

網(wǎng)絡(luò)爬蟲技術(shù)通常用于數(shù)據(jù)分析、監(jiān)測和個性化服務(wù),也可用于處理不

同領(lǐng)域的大量數(shù)據(jù),并將其存儲到本地數(shù)據(jù)庫中。此外,網(wǎng)絡(luò)爬蟲還可以用

于實時監(jiān)測站點(diǎn)的內(nèi)容,并將其更新到特定的位置上。

2.3.2文件存取技術(shù)

Python內(nèi)置CSV模塊如圖2-1所示。

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖2-1內(nèi)置CSV模塊

Pprint模塊方法如圖如圖2-2所示。

圖2-2模塊方法

2.3.3可視化技術(shù)

爬取下來的數(shù)據(jù)是很不好分辨的,遠(yuǎn)遠(yuǎn)達(dá)不到一眼就看出結(jié)果的程度,

我們需要一種技術(shù),根據(jù)我們獲取到的龐大數(shù)據(jù)將其通過統(tǒng)計學(xué)圖形的方式展

現(xiàn)在我們眼前,讓我們對其結(jié)果一目了然。這個就是數(shù)據(jù)可視化技術(shù)。

使用圖表、流程圖和其他形式的圖形來幫助人們理解數(shù)據(jù)和信息的方法。

它可以幫助人們快速識別出數(shù)據(jù)中隱含的特征,并更好地了解復(fù)雜問題??梢?/p>

化技術(shù)可以用來創(chuàng)建動態(tài)的圖表,具有交互式界面的數(shù)據(jù)應(yīng)用程序,并且可以

幫助人們在復(fù)雜的大量數(shù)據(jù)中找到正確的信息。畢后,我們就要導(dǎo)入需要的第三

方庫將數(shù)據(jù)合理的進(jìn)行判斷,決定使用什么樣的幾何圖形才能最好、并且直觀的

表達(dá)出數(shù)據(jù)集的信息。

可視化技術(shù)的具體內(nèi)容包括:圖表、流程圖、地理信息系統(tǒng)(GIS)數(shù)據(jù)、

時間序列和多維數(shù)據(jù)。這些工具可以幫助人們快速識別出隱含于大量數(shù)據(jù)中的

特征并更好地理解復(fù)雜的問題。此外,可視化技術(shù)還可以用于創(chuàng)建動態(tài)圖表、

具有交互式界面的數(shù)據(jù)應(yīng)用程序,以便在大量數(shù)據(jù)中快速找到正確的信息。最

后,可視化技術(shù)還可以用于創(chuàng)建3D圖形、動態(tài)數(shù)據(jù)可視化等。

本次項目中僅僅只是將得到的數(shù)據(jù)用很簡單的可視化手段實現(xiàn)數(shù)據(jù)可視化,

具體的就是用Python第三方庫Matpoltlib去進(jìn)行可視化,Matplotlib中包含

了許多庫,分別對應(yīng)餅圖、條形圖、直方圖、折線圖等圖形,可以很好的將數(shù)據(jù)

高效率的表現(xiàn)出來,可視化圖形呈現(xiàn)出來后對于結(jié)果自然一目了然,然后得出結(jié)

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

論。

3數(shù)據(jù)采集

3.1采集頁面分析

使用瀏覽器打開網(wǎng)站現(xiàn)代文學(xué)網(wǎng)站/xdwx/,如圖

3-1所示。

圖3-1現(xiàn)代文學(xué)網(wǎng)主頁

使用requests第三方庫請求數(shù)據(jù),如圖3-2所示。

圖3-2第三方庫請求數(shù)據(jù)

解析頁面數(shù)據(jù)的代碼如圖3-3所示。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-3解析頁面數(shù)據(jù)

翻頁爬取數(shù)據(jù)的代碼如圖3-4所示。

圖3-4爬取數(shù)據(jù)

3.2數(shù)據(jù)保存

我們首先來到網(wǎng)頁面打開網(wǎng)頁的選擇欄,然后將選擇欄目定位到現(xiàn)代文學(xué)

的位置也就是定位到我們所需要的數(shù)據(jù)所在的位置,然后跳出開發(fā)者工具頁面

刷新一下頁面再進(jìn)入,點(diǎn)擊開發(fā)者工具界面上方的數(shù)據(jù)預(yù)覽Preview按鈕,如圖

3-5所示可以看到我們需要的所有的數(shù)據(jù)信息都是呈現(xiàn)json格式傳遞在這個網(wǎng)

頁面,我們還得知他是post方法響應(yīng)的網(wǎng)站,所以我們可以根據(jù)以上特點(diǎn)通過

Requests方法中的post方法來獲得響應(yīng)的數(shù)據(jù),最原始的數(shù)據(jù)格式是呈現(xiàn)

json格式的所以我們需要重復(fù)獲取響應(yīng)數(shù)據(jù)然后依次寫入到csv格式的文件當(dāng)

中。

圖3-5數(shù)據(jù)預(yù)覽

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

3.3程序運(yùn)行結(jié)果

結(jié)果如圖3-6,顯示的1000條數(shù)據(jù)。

圖3-6爬取數(shù)據(jù)

4數(shù)據(jù)清洗與處理

獲得龐大的數(shù)據(jù)集之后我們需要對數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的清洗和

檢查,確定爬取過來的數(shù)據(jù)是否存在無效值和確實值,要保證數(shù)據(jù)的一致性,這

個對于信息質(zhì)量的評估是一項很重要的任務(wù)。不僅如此,我們需要將數(shù)據(jù)進(jìn)行有

理化和有序化,這樣子能夠在數(shù)據(jù)調(diào)用共享過程中方便很多開發(fā)人員對數(shù)據(jù)信

息的使用。

本次項目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并且檢查是

否出現(xiàn)空值、錯值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對數(shù)據(jù)進(jìn)

行不同的處理。

4.1數(shù)據(jù)清洗

打開所爬取的數(shù)據(jù)如圖4-1所示。

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面

經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失,錯位還有空值,那么我們根據(jù)需求

將有效數(shù)據(jù)統(tǒng)一規(guī)劃去掉不要的行列數(shù)據(jù),防止數(shù)據(jù)冗余。因此我們只需保留需

要的數(shù)據(jù),然后整理為原網(wǎng)頁格式存入data.csv文件中,留存后續(xù)作為統(tǒng)計分

析、可視化使用。

圖4-2數(shù)據(jù)清洗完成界面

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

4.2數(shù)據(jù)儲存

數(shù)據(jù)儲存得方法有很多種,常見得可以直接用記事本格式儲存“txt”,或者

直接用其他文件的形式儲存CSV、Excel、json等,但是以上方法保存的數(shù)據(jù)體

量普遍都比較小。如果需要儲存較大的數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫,數(shù)據(jù)

庫也分為關(guān)系型和非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫比較典型的有MySQL和

Oracle等,非關(guān)系型數(shù)據(jù)庫等以鍵值對形式儲存數(shù)據(jù)的代表有Mongodb、Redis

等。本次項目我們用到的是CSV、MySQL,如圖4-3所示。

圖4-3數(shù)據(jù)庫界面

5數(shù)據(jù)統(tǒng)計與分析

5.1文件展示

5.1.1打開文件

打開文件hx.csv,如圖5-1所示。

圖5-1打開文件

5.1.2文件展示

文件展示如圖5-2所示。

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-2文件展示

5.2數(shù)據(jù)可視化

5.2.1不同類型小說占比分析

根據(jù)我們的數(shù)據(jù)信息可以做如圖5-3所示的可視化展示。

圖5-3占比數(shù)據(jù)

餅圖繪制代碼如圖5-4所示

圖5-4餅圖繪制代碼

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

結(jié)果如圖5-5所示。

圖5-5餅圖可視化

由圖5-5可知,世界名著占據(jù)所有現(xiàn)代文學(xué)網(wǎng)半壁江山,其中大家比較喜

歡的是現(xiàn)代的文學(xué),古代和歷史類的文學(xué)可能不太受重于現(xiàn)在的年輕人,因為

在網(wǎng)上上網(wǎng)的年輕人,他們可能更喜歡新潮的一點(diǎn)的,在這些分類里面有一個

非常冷門的分類,就是偵探推理它是起源于國外,但是最近些年在我們國內(nèi)也

是很火,他能夠給大眾帶來新奇的現(xiàn)實的破案體驗,所以他由這些年在我國的

讀者文學(xué)體驗中,占據(jù)的比例越來越大。

而至于傳統(tǒng)的現(xiàn)代文學(xué),相對于年輕人來說,可能會有一些古板和客觀的

因素,所以雖然他占據(jù)了主流,但是閱讀的受眾大部分都是年紀(jì)比較大一點(diǎn)的

老人和女孩子多一些,可是我們可以分析得出,如果作為線上閱讀平臺,想要

您和年輕人的想法的話,可以往這一方面的傾向去考慮一下。

5.2.2作者占比分析

作者分布如圖5-6所示。

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-6作者分布圖

根據(jù)作者分布圖來看,其實在我國的讀者受眾人群中,大部分的人還是喜

歡讀國內(nèi)的一些作家的名著,因為地理因素和傳統(tǒng)文化的不同,國外的名著雖

然也很優(yōu)秀,但是翻譯過來再加上他們的傳統(tǒng)觀念和性格,還有一些生活習(xí)慣,

可能和我國的讀者會產(chǎn)生不了那么大的共鳴,所以在網(wǎng)上的受眾人群中,有3/4

的人還是比較喜歡讀國內(nèi)的一些作者的著作。

當(dāng)然也有一部分原因是因為一些國外的做著作在這上面并沒有發(fā)表,沒有

取得相應(yīng)的權(quán)限,這也是一個很大的問題,如果以后想拓寬大家的視野的話,

網(wǎng)站可以盡可能多的找一些國外的名著來讀一下,更加了解國外一些的思想和

想法。

5.2.3小說分類分析

生成.txt文件如圖5-7所示。

圖5-7生成文件

初始化設(shè)置如圖5-8所示。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-8初始化設(shè)置

詞云展示如圖5-9所示。

圖5-9詞云展示

根據(jù)表格中的小說分類進(jìn)行數(shù)字匯總和處理,然后將其統(tǒng)計出現(xiàn)的頻率最

后生成特定序列,通過特定序列里面的數(shù)據(jù),再按照詞頻生成詞云圖,如圖5-10

所示。

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-10詞云可視化

5.3統(tǒng)計分析小結(jié)

綜上,現(xiàn)代文學(xué)網(wǎng)是一個集文學(xué)、文藝、新聞、文化藝術(shù)、評論等豐富內(nèi)

容的文學(xué)網(wǎng)站,其知識儲備涵蓋了每一個歷史時期以及許多不同的文化流派,

成為當(dāng)今讀者探索文學(xué)世界的重要窗口。

本次爬取分析現(xiàn)代文學(xué)網(wǎng),共收集了119篇文章,其中,世界名著文章占

比最高,共計57篇,占總體比例達(dá)45.6%;偵探推理文章共計22篇,占比為

17.5%;現(xiàn)代文學(xué)文章有23篇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論