版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
目錄
1引言............................................................................................................................1
1.1項目背景..........................................................................................................1
1.2開發(fā)環(huán)境與工具..............................................................................................1
1.2.1Python簡介..........................................................................................1
1.2.2MySQL簡介............................................................................................2
1.2.3JupyterNotebook簡介......................................................................2
2需求分析....................................................................................................................3
2.1可行性需求分析..............................................................................................3
2.2采集目標(biāo)功能分析..........................................................................................4
2.3關(guān)鍵技術(shù)分析..................................................................................................4
2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................4
2.3.2文件存取技術(shù).......................................................................................5
2.3.3可視化技術(shù)...........................................................................................5
3數(shù)據(jù)采集....................................................................................................................6
3.1采集頁面分析..................................................................................................6
3.2數(shù)據(jù)保存..........................................................................................................7
3.3程序運(yùn)行結(jié)果..................................................................................................8
4數(shù)據(jù)清洗與處理........................................................................................................8
4.1數(shù)據(jù)清洗..........................................................................................................8
4.2數(shù)據(jù)儲存........................................................................................................10
5數(shù)據(jù)統(tǒng)計與分析......................................................................................................10
5.1文件展示...........................................................................................................10
5.1.1打開文件.............................................................................................10
5.1.2文件展示.............................................................................................10
5.2數(shù)據(jù)可視化.......................................................................................................11
5.2.1不同類型小說占比分析.....................................................................11
5.2.2作者占比分析.....................................................................................12
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.2.3小說分類分析.....................................................................................13
5.3統(tǒng)計分析小結(jié)...................................................................................................15
6總結(jié)..........................................................................................................................16
參考資料.........................................................................................................................17
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
基于Python的現(xiàn)代文學(xué)網(wǎng)數(shù)據(jù)采集與分析
1引言
在互聯(lián)網(wǎng)高速發(fā)展的今天,現(xiàn)代文學(xué)網(wǎng)作為我國文學(xué)網(wǎng)中不可缺少的一環(huán),
它在互聯(lián)網(wǎng)上的表現(xiàn)也吸引了很多人的注意,而現(xiàn)代文學(xué)因為是傳統(tǒng)文學(xué)中的
載體,我們通過分析網(wǎng)站類目和傳統(tǒng)文學(xué)類別的喜歡的書籍和內(nèi)容,通過大數(shù)
據(jù)更好更直觀的認(rèn)識讀者喜歡的東西和作家的一些暢銷書籍。
一個國家真正的強(qiáng)大肯定是精神文化的強(qiáng)大,而現(xiàn)代文學(xué)中我國涌現(xiàn)了一
大批優(yōu)秀的作家,他們在文學(xué)上的成就是不可估量的,我們可以通過互聯(lián)網(wǎng)的
方式,借助互聯(lián)網(wǎng)的便利,讓更多的人認(rèn)識到我國現(xiàn)代文學(xué)的魅力,所以我們
通過大數(shù)據(jù)分析了解大家的口味,讓大家更好的更直觀的去感受現(xiàn)代文學(xué)的魅
力!
1.1項目背景
對于一個優(yōu)秀的現(xiàn)代文學(xué)網(wǎng)站來說,書籍的種類和書籍的數(shù)量肯定是屬于
這個網(wǎng)站,不可缺少的一環(huán),然而,要想讓它更加出眾,我們還需要了解它的
數(shù)據(jù),我們需要用大數(shù)據(jù)分析它的一些種類和中外讀者,還有他的受眾群體,
涉及的信息很多,我們需要對網(wǎng)頁進(jìn)行分析,然后用爬蟲批量獲取我們需要的
資料。
我的畢業(yè)設(shè)計就是針對普通的文學(xué)網(wǎng),查取書籍,數(shù)據(jù)進(jìn)行處理分析,然
后可視化、繁瑣的數(shù)據(jù)經(jīng)過清洗加分析以后,一目了然的呈現(xiàn)在網(wǎng)站的管理者
手中,管理者就可以通知點(diǎn)擊靠前的哪些書籍是受讀者喜歡的,哪些書籍是現(xiàn)
在還沒有的?現(xiàn)階段最需要哪方面的書籍?作者的地區(qū)分布,然后做出正確的
決策,所以我的畢業(yè)設(shè)計部分包含數(shù)據(jù)爬取,清理處理,儲存可視化。
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
Python是一種面向?qū)ο蟮摹⒖蓴U(kuò)展的、開源的編程語言,它具有豐富而易
用的庫,可以使得開發(fā)者快速構(gòu)建功能豐富、高效運(yùn)行并易于部署的應(yīng)用。
Python無處不在,您可以使用它來構(gòu)建Web應(yīng)用程序、自然語言處理,可以
使用它來創(chuàng)建機(jī)器學(xué)習(xí)模型,還可以將其與數(shù)據(jù)庫集成。
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
Python是一種開放的通用性語言,無論是新手還是老手都能夠快速上手。
Python的靈活性、可擴(kuò)展性以及對于跨平臺支持使得它成為多樣化開發(fā)領(lǐng)域中
的一個重要工具。
此外Python還有大量的第三方庫,用來幫助開發(fā)者快速實現(xiàn)其目標(biāo)。
Python也是一門易于學(xué)習(xí)的語言,它使用簡潔的代碼來表達(dá)復(fù)雜的想法。在
Python中,每一行代碼都可以像會話一樣進(jìn)行交流,而不是僵化、無關(guān)緊要的
內(nèi)容。這使得Python可以更容易理解,也更快地開發(fā)出有效的應(yīng)用程序。
1.2.2MySQL簡介
MySQL是一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng),由OracleCorporation開發(fā)。它通
常被用作Web服務(wù)器上的數(shù)據(jù)庫,并且也可以在多個平臺上運(yùn)行(包括Linux、
Unix、MacOSX和MicrosoftWindows)。
MySQL使用標(biāo)準(zhǔn)的SQL語法來執(zhí)行各種查詢和管理數(shù)據(jù)庫。MySQL也有一個
強(qiáng)大的多用戶實現(xiàn),可以讓不同的用戶在同一時間對數(shù)據(jù)庫進(jìn)行存取、修改和
刪除。
此外,MySQL還允許使用者執(zhí)行特定的函數(shù)來生成動態(tài)數(shù)據(jù),以及使用存儲
過程和觸發(fā)器來實現(xiàn)數(shù)據(jù)庫的自動化。MySQL也有一個強(qiáng)大的企業(yè)版,該版本具
備高性能、集成分布式處理和快速事務(wù)處理等特性。
1.2.3JupyterNotebook簡介
JupyterNotebook是一款交互式的編程工具,它可以讓你在瀏覽器中創(chuàng)建
并共享文本、代碼和數(shù)據(jù)可視化。它既可以用作一個獨(dú)立的應(yīng)用,也可以集成
到IPythonkernel中進(jìn)行多語言交互式編程。
JupyterNotebook支持超過40種編程語言,并可以將它們的代碼和數(shù)據(jù)可
視化分享為功能強(qiáng)大的文本形式或HTML格式的Web文檔。JupyterNotebook使
用一個特定格式的文本文件來存儲用戶寫的程序和數(shù)據(jù)可視化,這個文件的后
綴是.ipynb。使用JupyterNotebook時,可以在一個交互式界面中對代碼、數(shù)
據(jù)和圖形進(jìn)行實時查看、修改和執(zhí)行。
JupyterNotebook有幾個重要的功能,可以幫助用戶編寫更有效的代碼:
動態(tài)文檔創(chuàng)建:JupyterNotebook是使用Markdown語法來根據(jù)你輸入的文
字、圖片和代碼生成非常強(qiáng)大的Web文檔。
交互式代碼執(zhí)行:JupyterNotebook是可以在頁面上實時執(zhí)行用戶的代碼,
并顯示運(yùn)行后的輸出。
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
可視化數(shù)據(jù):JupyterNotebook可以使用Matplotlib、Seaborn和Pandas
庫來創(chuàng)建功能強(qiáng)大的圖形,從而幫助用戶可視化數(shù)據(jù)。
改進(jìn)已有代碼:JupyterNotebook可以讓用戶快速改進(jìn)現(xiàn)有的代碼,而不
用重新寫全部的代碼。
分享和協(xié)作:JupyterNotebook可以將用戶的文檔分享為HTML格式或PDF
格式,并且它還能夠方便地協(xié)作。
2需求分析
2.1可行性需求分析
1.技術(shù)可行性
Python是一門強(qiáng)大的腳本語言,它具備了所有必要的工具來進(jìn)行Web數(shù)據(jù)
采集、處理以及整合。此外,Python還包含了豐富的第三方庫,可以用來實現(xiàn)
更高效地采集和處理數(shù)據(jù)。
Python中有很多強(qiáng)大的庫,可以輕松地爬取并采集現(xiàn)代文學(xué)網(wǎng)上的信息。
例如,scrapy是一個強(qiáng)大的Python爬蟲工具包,可以快速地抓取網(wǎng)頁內(nèi)容,
并將其解析為有用的數(shù)據(jù)。此外,BeautifulSoup是一個Python解釋器,可以
解析HTML和XML的文本,從而幫助我們快速地獲取所需要的信息。
Python也可以用來處理和整合現(xiàn)代文學(xué)網(wǎng)上的信息。例如,Pandas和NumPy
是Python中常用的庫,可以輕松地讀取、處理和分析數(shù)據(jù)。此外,Python還
有一些強(qiáng)大的可視化工具,例如matplotlib和seaborn,可以用來創(chuàng)建美觀的
圖表,幫助我們更好地理解數(shù)據(jù)。
2.項目可行性
隨著計算機(jī)網(wǎng)絡(luò)的發(fā)展,在網(wǎng)上看文學(xué)網(wǎng)站已經(jīng)吸引到越來越多的用戶。
在此背景下,如何運(yùn)營現(xiàn)代文學(xué)網(wǎng)站以獲取更大的收益至關(guān)重要。本文通過對
參考閱讀網(wǎng)相關(guān)數(shù)據(jù)進(jìn)行分析,找到提高收益的可能途徑,從而為該網(wǎng)站的運(yùn)
營工作提供建議。
本次項目通過采集比參考閱讀網(wǎng)()網(wǎng)站內(nèi)的數(shù)據(jù),來分析現(xiàn)代
文學(xué)網(wǎng)的在網(wǎng)上的受眾人群信息。我們也將從書籍種類、閱讀愛好、作家等方
面對其進(jìn)行深度剖析,分析出有價值的信息,將其可視化最后根據(jù)結(jié)果得出結(jié)論。
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
2.2采集目標(biāo)功能分析
編寫Python腳本,用來下載網(wǎng)站上的所有頁面??梢允褂?/p>
urllib模塊來實現(xiàn)這一目標(biāo),該模塊提供了urlopen()函數(shù),可以用它來向
特定URL發(fā)送HTTPGET請求并且獲得HTML文件。
使用BeautifulSoup解析HTML文件,提取網(wǎng)站的內(nèi)容信息。
BeautifulSoup是一個Python庫,可以幫助我們快速地瀏覽和搜索HTML文
件中的數(shù)據(jù)。這里需要注意的是:BeautifulSoup函數(shù)有很多高級API來實
現(xiàn)更復(fù)雜的任務(wù),但是本文只使用其基礎(chǔ)API。
將解析出來的信息存儲在數(shù)據(jù)庫中??梢允褂肕ySQL或者M(jìn)ongoDB這樣
高性能的關(guān)系型數(shù)據(jù)庫或者NoSQL數(shù)據(jù)庫來實現(xiàn)這一目標(biāo),也可以使用
Python自帶的sqlite3模塊來實現(xiàn)。
分析數(shù)據(jù),從中發(fā)現(xiàn)有價值的信息。這一步需要對采集到的數(shù)據(jù)進(jìn)行多
方面的分析,例如詞頻分析、關(guān)鍵字分析等,來發(fā)現(xiàn)網(wǎng)站上有價值的信息。
可視化展示數(shù)據(jù)分析結(jié)果,使用戶能夠快速地理解數(shù)據(jù)。可以使用
matplotlib庫來實現(xiàn)這一目標(biāo),該庫可以幫助我們將采集到的數(shù)據(jù)變?yōu)閳D
表。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
網(wǎng)絡(luò)爬蟲技術(shù)是一種在互聯(lián)網(wǎng)上搜集信息的方法,它通過Web瀏覽器或
其他工具,可以對特定的站點(diǎn)、新聞列表、帖子或者其他數(shù)據(jù)資源進(jìn)行掃描。
當(dāng)用戶請求時,網(wǎng)絡(luò)爬蟲可以搜集到相關(guān)的數(shù)據(jù),并將它們存儲在本地
或者返回用戶。
通常,網(wǎng)絡(luò)爬蟲技術(shù)是一項自動化的、可重復(fù)執(zhí)行的工作,可以不斷地
對互聯(lián)網(wǎng)上特定的站點(diǎn)進(jìn)行掃描,以獲取新的信息或者更新已有的內(nèi)容。
網(wǎng)絡(luò)爬蟲技術(shù)通常用于數(shù)據(jù)分析、監(jiān)測和個性化服務(wù),也可用于處理不
同領(lǐng)域的大量數(shù)據(jù),并將其存儲到本地數(shù)據(jù)庫中。此外,網(wǎng)絡(luò)爬蟲還可以用
于實時監(jiān)測站點(diǎn)的內(nèi)容,并將其更新到特定的位置上。
2.3.2文件存取技術(shù)
Python內(nèi)置CSV模塊如圖2-1所示。
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖2-1內(nèi)置CSV模塊
Pprint模塊方法如圖如圖2-2所示。
圖2-2模塊方法
2.3.3可視化技術(shù)
爬取下來的數(shù)據(jù)是很不好分辨的,遠(yuǎn)遠(yuǎn)達(dá)不到一眼就看出結(jié)果的程度,
我們需要一種技術(shù),根據(jù)我們獲取到的龐大數(shù)據(jù)將其通過統(tǒng)計學(xué)圖形的方式展
現(xiàn)在我們眼前,讓我們對其結(jié)果一目了然。這個就是數(shù)據(jù)可視化技術(shù)。
使用圖表、流程圖和其他形式的圖形來幫助人們理解數(shù)據(jù)和信息的方法。
它可以幫助人們快速識別出數(shù)據(jù)中隱含的特征,并更好地了解復(fù)雜問題??梢?/p>
化技術(shù)可以用來創(chuàng)建動態(tài)的圖表,具有交互式界面的數(shù)據(jù)應(yīng)用程序,并且可以
幫助人們在復(fù)雜的大量數(shù)據(jù)中找到正確的信息。畢后,我們就要導(dǎo)入需要的第三
方庫將數(shù)據(jù)合理的進(jìn)行判斷,決定使用什么樣的幾何圖形才能最好、并且直觀的
表達(dá)出數(shù)據(jù)集的信息。
可視化技術(shù)的具體內(nèi)容包括:圖表、流程圖、地理信息系統(tǒng)(GIS)數(shù)據(jù)、
時間序列和多維數(shù)據(jù)。這些工具可以幫助人們快速識別出隱含于大量數(shù)據(jù)中的
特征并更好地理解復(fù)雜的問題。此外,可視化技術(shù)還可以用于創(chuàng)建動態(tài)圖表、
具有交互式界面的數(shù)據(jù)應(yīng)用程序,以便在大量數(shù)據(jù)中快速找到正確的信息。最
后,可視化技術(shù)還可以用于創(chuàng)建3D圖形、動態(tài)數(shù)據(jù)可視化等。
本次項目中僅僅只是將得到的數(shù)據(jù)用很簡單的可視化手段實現(xiàn)數(shù)據(jù)可視化,
具體的就是用Python第三方庫Matpoltlib去進(jìn)行可視化,Matplotlib中包含
了許多庫,分別對應(yīng)餅圖、條形圖、直方圖、折線圖等圖形,可以很好的將數(shù)據(jù)
高效率的表現(xiàn)出來,可視化圖形呈現(xiàn)出來后對于結(jié)果自然一目了然,然后得出結(jié)
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
論。
3數(shù)據(jù)采集
3.1采集頁面分析
使用瀏覽器打開網(wǎng)站現(xiàn)代文學(xué)網(wǎng)站/xdwx/,如圖
3-1所示。
圖3-1現(xiàn)代文學(xué)網(wǎng)主頁
使用requests第三方庫請求數(shù)據(jù),如圖3-2所示。
圖3-2第三方庫請求數(shù)據(jù)
解析頁面數(shù)據(jù)的代碼如圖3-3所示。
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-3解析頁面數(shù)據(jù)
翻頁爬取數(shù)據(jù)的代碼如圖3-4所示。
圖3-4爬取數(shù)據(jù)
3.2數(shù)據(jù)保存
我們首先來到網(wǎng)頁面打開網(wǎng)頁的選擇欄,然后將選擇欄目定位到現(xiàn)代文學(xué)
的位置也就是定位到我們所需要的數(shù)據(jù)所在的位置,然后跳出開發(fā)者工具頁面
刷新一下頁面再進(jìn)入,點(diǎn)擊開發(fā)者工具界面上方的數(shù)據(jù)預(yù)覽Preview按鈕,如圖
3-5所示可以看到我們需要的所有的數(shù)據(jù)信息都是呈現(xiàn)json格式傳遞在這個網(wǎng)
頁面,我們還得知他是post方法響應(yīng)的網(wǎng)站,所以我們可以根據(jù)以上特點(diǎn)通過
Requests方法中的post方法來獲得響應(yīng)的數(shù)據(jù),最原始的數(shù)據(jù)格式是呈現(xiàn)
json格式的所以我們需要重復(fù)獲取響應(yīng)數(shù)據(jù)然后依次寫入到csv格式的文件當(dāng)
中。
圖3-5數(shù)據(jù)預(yù)覽
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
3.3程序運(yùn)行結(jié)果
結(jié)果如圖3-6,顯示的1000條數(shù)據(jù)。
圖3-6爬取數(shù)據(jù)
4數(shù)據(jù)清洗與處理
獲得龐大的數(shù)據(jù)集之后我們需要對數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的清洗和
檢查,確定爬取過來的數(shù)據(jù)是否存在無效值和確實值,要保證數(shù)據(jù)的一致性,這
個對于信息質(zhì)量的評估是一項很重要的任務(wù)。不僅如此,我們需要將數(shù)據(jù)進(jìn)行有
理化和有序化,這樣子能夠在數(shù)據(jù)調(diào)用共享過程中方便很多開發(fā)人員對數(shù)據(jù)信
息的使用。
本次項目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并且檢查是
否出現(xiàn)空值、錯值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對數(shù)據(jù)進(jìn)
行不同的處理。
4.1數(shù)據(jù)清洗
打開所爬取的數(shù)據(jù)如圖4-1所示。
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面
經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失,錯位還有空值,那么我們根據(jù)需求
將有效數(shù)據(jù)統(tǒng)一規(guī)劃去掉不要的行列數(shù)據(jù),防止數(shù)據(jù)冗余。因此我們只需保留需
要的數(shù)據(jù),然后整理為原網(wǎng)頁格式存入data.csv文件中,留存后續(xù)作為統(tǒng)計分
析、可視化使用。
圖4-2數(shù)據(jù)清洗完成界面
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
4.2數(shù)據(jù)儲存
數(shù)據(jù)儲存得方法有很多種,常見得可以直接用記事本格式儲存“txt”,或者
直接用其他文件的形式儲存CSV、Excel、json等,但是以上方法保存的數(shù)據(jù)體
量普遍都比較小。如果需要儲存較大的數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫,數(shù)據(jù)
庫也分為關(guān)系型和非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫比較典型的有MySQL和
Oracle等,非關(guān)系型數(shù)據(jù)庫等以鍵值對形式儲存數(shù)據(jù)的代表有Mongodb、Redis
等。本次項目我們用到的是CSV、MySQL,如圖4-3所示。
圖4-3數(shù)據(jù)庫界面
5數(shù)據(jù)統(tǒng)計與分析
5.1文件展示
5.1.1打開文件
打開文件hx.csv,如圖5-1所示。
圖5-1打開文件
5.1.2文件展示
文件展示如圖5-2所示。
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-2文件展示
5.2數(shù)據(jù)可視化
5.2.1不同類型小說占比分析
根據(jù)我們的數(shù)據(jù)信息可以做如圖5-3所示的可視化展示。
圖5-3占比數(shù)據(jù)
餅圖繪制代碼如圖5-4所示
圖5-4餅圖繪制代碼
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
結(jié)果如圖5-5所示。
圖5-5餅圖可視化
由圖5-5可知,世界名著占據(jù)所有現(xiàn)代文學(xué)網(wǎng)半壁江山,其中大家比較喜
歡的是現(xiàn)代的文學(xué),古代和歷史類的文學(xué)可能不太受重于現(xiàn)在的年輕人,因為
在網(wǎng)上上網(wǎng)的年輕人,他們可能更喜歡新潮的一點(diǎn)的,在這些分類里面有一個
非常冷門的分類,就是偵探推理它是起源于國外,但是最近些年在我們國內(nèi)也
是很火,他能夠給大眾帶來新奇的現(xiàn)實的破案體驗,所以他由這些年在我國的
讀者文學(xué)體驗中,占據(jù)的比例越來越大。
而至于傳統(tǒng)的現(xiàn)代文學(xué),相對于年輕人來說,可能會有一些古板和客觀的
因素,所以雖然他占據(jù)了主流,但是閱讀的受眾大部分都是年紀(jì)比較大一點(diǎn)的
老人和女孩子多一些,可是我們可以分析得出,如果作為線上閱讀平臺,想要
您和年輕人的想法的話,可以往這一方面的傾向去考慮一下。
5.2.2作者占比分析
作者分布如圖5-6所示。
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-6作者分布圖
根據(jù)作者分布圖來看,其實在我國的讀者受眾人群中,大部分的人還是喜
歡讀國內(nèi)的一些作家的名著,因為地理因素和傳統(tǒng)文化的不同,國外的名著雖
然也很優(yōu)秀,但是翻譯過來再加上他們的傳統(tǒng)觀念和性格,還有一些生活習(xí)慣,
可能和我國的讀者會產(chǎn)生不了那么大的共鳴,所以在網(wǎng)上的受眾人群中,有3/4
的人還是比較喜歡讀國內(nèi)的一些作者的著作。
當(dāng)然也有一部分原因是因為一些國外的做著作在這上面并沒有發(fā)表,沒有
取得相應(yīng)的權(quán)限,這也是一個很大的問題,如果以后想拓寬大家的視野的話,
網(wǎng)站可以盡可能多的找一些國外的名著來讀一下,更加了解國外一些的思想和
想法。
5.2.3小說分類分析
生成.txt文件如圖5-7所示。
圖5-7生成文件
初始化設(shè)置如圖5-8所示。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-8初始化設(shè)置
詞云展示如圖5-9所示。
圖5-9詞云展示
根據(jù)表格中的小說分類進(jìn)行數(shù)字匯總和處理,然后將其統(tǒng)計出現(xiàn)的頻率最
后生成特定序列,通過特定序列里面的數(shù)據(jù),再按照詞頻生成詞云圖,如圖5-10
所示。
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-10詞云可視化
5.3統(tǒng)計分析小結(jié)
綜上,現(xiàn)代文學(xué)網(wǎng)是一個集文學(xué)、文藝、新聞、文化藝術(shù)、評論等豐富內(nèi)
容的文學(xué)網(wǎng)站,其知識儲備涵蓋了每一個歷史時期以及許多不同的文化流派,
成為當(dāng)今讀者探索文學(xué)世界的重要窗口。
本次爬取分析現(xiàn)代文學(xué)網(wǎng),共收集了119篇文章,其中,世界名著文章占
比最高,共計57篇,占總體比例達(dá)45.6%;偵探推理文章共計22篇,占比為
17.5%;現(xiàn)代文學(xué)文章有23篇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人貸款合同范本及詳解
- 個體勞動合同標(biāo)準(zhǔn)文本
- LED顯示屏銷售代理合同范本
- 專項助學(xué)貸款抵押權(quán)合同
- 2025年3月房地產(chǎn)代理銷售合同范文
- 2025版施工項目安全責(zé)任保障合同
- 二手汽車轉(zhuǎn)讓合同
- 個人汽車購置合同范文
- 個人與公司借款合同范本
- 個人業(yè)務(wù)合作合同書
- 工程建設(shè)行業(yè)標(biāo)準(zhǔn)內(nèi)置保溫現(xiàn)澆混凝土復(fù)合剪力墻技術(shù)規(guī)程
- 液壓動力元件-柱塞泵課件講解
- 人教版五年級上冊數(shù)學(xué)脫式計算100題及答案
- 屋面細(xì)石混凝土保護(hù)層施工方案及方法
- 2024年1月山西省高三年級適應(yīng)性調(diào)研測試(一模)理科綜合試卷(含答案)
- 110kv各類型變壓器的計算單
- 雙減政策之下老師如何打造高效課堂
- 5A+Chapter+1+Changes+at+home+課件(新思維小學(xué)英語)
- 安徽省2023年中考數(shù)學(xué)試卷(附答案)
- 護(hù)工(陪護(hù))培訓(xùn)教材(完整版)資料
- 機(jī)械加工生產(chǎn)計劃排程表
評論
0/150
提交評論