古文學網(wǎng)數(shù)據(jù)采集與分析_第1頁
古文學網(wǎng)數(shù)據(jù)采集與分析_第2頁
古文學網(wǎng)數(shù)據(jù)采集與分析_第3頁
古文學網(wǎng)數(shù)據(jù)采集與分析_第4頁
古文學網(wǎng)數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

目錄

1.引言.............................................................................................................................1

1.1項目背景............................................................................................................1

1.2開發(fā)環(huán)境與工具................................................................................................2

1.2.1.Python簡介..........................................................................................2

1.2.2.JupyterNotebook簡介......................................................................2

2.需求分析.....................................................................................................................3

2.1可行性需求分析................................................................................................3

2.2采集目標功能分析............................................................................................4

2.3關(guān)鍵技術(shù)分析....................................................................................................4

2.3.1.網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................4

2.3.2.數(shù)據(jù)采集技術(shù).......................................................................................5

2.3.3.可視化技術(shù)...........................................................................................6

3.數(shù)據(jù)采集......................................................................................................................7

3.1采集頁面分析....................................................................................................7

3.2網(wǎng)站數(shù)據(jù)結(jié)構(gòu)分析............................................................................................8

3.3編程實現(xiàn)............................................................................................................8

4.數(shù)據(jù)清洗與處理.......................................................................................................10

4.1數(shù)據(jù)清洗..........................................................................................................11

4.2數(shù)據(jù)儲存..........................................................................................................11

5.數(shù)據(jù)統(tǒng)計與分析.......................................................................................................11

5.1數(shù)據(jù)準備..........................................................................................................12

5.2數(shù)據(jù)可視化展示..............................................................................................13

5.2.1.古詩詩詞統(tǒng)計與分析.........................................................................13

5.2.2.詩人朝代統(tǒng)計與分析.........................................................................14

5.2.3.詩人創(chuàng)作的詩詞數(shù)量統(tǒng)計與分析.....................................................16

5.3數(shù)據(jù)統(tǒng)計小結(jié)..................................................................................................16

6.總結(jié)...........................................................................................................................17

I

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

參考資料.........................................................................................................................19

II

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

古文學網(wǎng)數(shù)據(jù)采集與分析

1.引言

在這個信息發(fā)展飛速的時代,我們的祖國已經(jīng)向前邁進了一個大階段。在

這個大環(huán)境下,古時候的文學經(jīng)典本身的進步與傳承遭遇窘境,在宏觀經(jīng)濟合

理布局上,應(yīng)該深入推進文化自信發(fā)展戰(zhàn)略也必須推進古時候文學的經(jīng)典。在

互聯(lián)網(wǎng)技術(shù)不斷發(fā)展的基礎(chǔ)下,文化領(lǐng)域方面的傳承和發(fā)展也需要借助互聯(lián)網(wǎng)

平臺。但是,對于古文學知識的系統(tǒng)性采集與分析,目前缺乏全面性的分析。

本畢設(shè)旨在通過對古文學網(wǎng)的數(shù)據(jù)采集、分析與可視化來探討如何有效整理和

應(yīng)用古文學知識。對古文學方面的研究不僅可以促進古文學知識的傳承與發(fā)展,

還可以為互聯(lián)網(wǎng)智能化服務(wù)提供重要的數(shù)據(jù)支撐。

在數(shù)據(jù)采集方面,使用Python爬蟲技術(shù)對古文學網(wǎng)進行數(shù)據(jù)抓取,獲取了

包括古文標題、作者、朝代、正文等在內(nèi)的豐富信息。在數(shù)據(jù)分析和可視化方

面,使用了可視化技術(shù),深入挖掘了古文學網(wǎng)的數(shù)據(jù)價值,高效展示了數(shù)據(jù)分

析的結(jié)果。

接觸過大數(shù)據(jù)的技術(shù)者都明白,海量數(shù)據(jù)中隱藏的寶藏等待有緣人也可以

說是有心人去發(fā)掘,數(shù)據(jù)科學及大數(shù)據(jù)技術(shù)也成為目前信息技術(shù)領(lǐng)域的一個比

較熱門的分支,相信在未來的日子,大數(shù)據(jù)會發(fā)展得越來越好。

1.1項目背景

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)文學已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?/p>

古文學作為網(wǎng)絡(luò)文學的重要組成部分,其發(fā)展也日益受到關(guān)注。目前,國內(nèi)外

也有許多學者對古文學進行了深入的研究。其中,一些學者從文學史的角度出

發(fā),探討了不同歷史時期的古文學發(fā)展特點;另一些學者則從文本分析的角度

出發(fā),研究了不同古文學作品的文體、結(jié)構(gòu)等方面的特點。但是,這些研究往

往受到數(shù)據(jù)來源、數(shù)據(jù)量、數(shù)據(jù)質(zhì)量等問題的限制,導致研究結(jié)果不夠準確、

全面。

因此,本文旨在通過對古文學網(wǎng)的數(shù)據(jù)采集與分析,探究古文學的發(fā)展趨

勢和特點,進一步豐富古文學研究的內(nèi)容和方法。具體而言,就是利用python

爬蟲技術(shù)對古文學網(wǎng)的數(shù)據(jù)進行采集,并通過數(shù)據(jù)挖掘和文本分析等方法,對

古文學網(wǎng)上的古文學作品、作者、以及作品的背景等方面的數(shù)據(jù)進行分析,得

1

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

到更加準確全面的結(jié)論。

然而,在這個過程中也遇到了一些問題。首先,古文學網(wǎng)上的數(shù)據(jù)質(zhì)量和

數(shù)據(jù)量都可能有一定問題,這可能會影響探究的結(jié)果。其次,本文僅從古文學

網(wǎng)這一平臺進行數(shù)據(jù)采集和分析,可能存在一定的局限性。最后,本文所得出

的結(jié)論可能僅適用于古文學網(wǎng)這一平臺,對于其他古文學平臺還需要進一步探

究。

盡管如此,這個研究仍然具有重要的研究意義。首先,本文能夠為古文學

研究提供一種新的研究思路和方法,進一步推動古文學研究的發(fā)展。其次,本

文所得出的結(jié)論能夠為古文學網(wǎng)等古文學平臺的運營提供參考,有助于平臺優(yōu)

化和改進。最后,本文最后的結(jié)果也能夠為文化產(chǎn)業(yè)的發(fā)展提供參考和借鑒,

有助于促進古文學文化產(chǎn)業(yè)的繁榮和發(fā)展。

1.2開發(fā)環(huán)境與工具

1.2.1.Python簡介

Python是一款非常易學,強大的編程語言。Python包括高效高級的數(shù)據(jù)結(jié)

構(gòu),提供簡單高效的面向?qū)ο缶幊?。Python語法和動態(tài)類型,以及解釋型語言

的本質(zhì),使它成為多數(shù)平臺上寫腳本和快速開發(fā)應(yīng)用的編程語言,后來,隨著

版本的不斷更新和語言新功能的添加,逐漸被用于獨立的、大型項目的開發(fā)。

隨著計算機科學與技術(shù)的日新月異,2010年后移動互聯(lián)網(wǎng)的大肆普及。云計

算、大數(shù)據(jù)等信息技術(shù)興起,其中的大數(shù)據(jù)技術(shù)涉及到的數(shù)據(jù)獲取、清洗處理、

可視化都有Python的身影存在。后來人工智能技術(shù)的崛起,在AI領(lǐng)域使用了更

多的Python技術(shù),用它作為機器學習、關(guān)鍵算法的開發(fā)工具。并且Python入門

難度相較于JAVA、C++等面向?qū)ο蟮恼Z言而言更加簡單容易入門,所以它很快的

便走進了大眾的視野中。

現(xiàn)如今,人們用它開發(fā)簡單的小程序用來或者開發(fā)一些小網(wǎng)站來鍛煉。這也

突出Python的特點就是易學、第三方庫足夠豐富、并且免費開源、支持跨多平

臺且可移植性比較強。

1.2.2.JupyterNotebook簡介

JupyterNotebook從本質(zhì)上來說是一種應(yīng)用程序,是一種基于瀏覽器的數(shù)據(jù)

分析工具。它將一些解釋性文本、數(shù)學、計算、統(tǒng)計等結(jié)合起來,放在一個交互

式的創(chuàng)作型文檔中。并且在這個創(chuàng)作型文檔里所有的內(nèi)容都是可分享并可見的。

2

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

在一些教學或者項目的講解中,JupyterNotebook可能是一枝獨秀。因為它支持

Markdown標記語言,在瀏覽器界面編輯代碼的同時可以很方便的為代碼提供注

釋。在JupyterNotebook執(zhí)行代碼的同時對于注釋性的文本并不會執(zhí)行,這個極

大的方便了教學人員,或者開發(fā)人員講解項目,也讓我們學習起來更加容易。

JupyterNotebook在大數(shù)據(jù)方面應(yīng)用比較廣泛,特別適合用來做數(shù)據(jù)的清洗

和處理,在數(shù)據(jù)挖掘和可視化上的應(yīng)用也是十分方便的。對于比較高層次的開發(fā)

人員來說,這個工具也可以用來做深度的機器學習。

對于初學者來說安裝JupyterNotebook的方法就是安裝Anaconda,因為

Anaconda的版本中就是自帶JupyterNotebook。如果覺得不需要Anaconda,可

以自主選擇進入官網(wǎng)下載安裝包。

Python第三方庫簡介

requests:最友好的網(wǎng)絡(luò)爬蟲功能庫,是Python實現(xiàn)的簡單易用的HTTP庫,

使用起來比urllib更簡潔很多,Python第三方庫在使用前要先進行安裝。

re:正則表達式解析和處理功能庫,里面包含了多種字符串匹配的方法。

CSV:CSV屬于python中的內(nèi)置模塊,它能夠讀取CSV格式的文件或者將數(shù)

據(jù)存入到CSV表格中。并且CSV文件是表格和數(shù)據(jù)庫中常見的文件操作格式。

NumPy庫是Python數(shù)據(jù)分析的基礎(chǔ),是處理數(shù)組的Python庫,NumPy庫的

數(shù)據(jù)結(jié)構(gòu)比Python自帶的更加高效。

pandas:數(shù)據(jù)分析并保存為CSV文件,Python數(shù)據(jù)分析高層次應(yīng)用庫,還可

以進行數(shù)據(jù)清洗。

Matplotlib:繪圖庫,主要是偏向于二維繪圖包括折線圖、條形圖、扇形圖、

散點圖、條形圖等等。

2.需求分析

2.1可行性需求分析

Python是面向?qū)ο笳Z言中的一門通俗易懂的計算機編程語言,本次項目中

會使用Python編程語言來實現(xiàn)數(shù)據(jù)獲取,數(shù)據(jù)清洗預(yù)處理,數(shù)據(jù)可視化。其次,

在數(shù)據(jù)分析方面,本文主要從古詩文作者、朝代和詩句三個方面進行深入分析,

探索用戶需求和對古代文化的理解,同時通過文本特征和評論情感進行文本處

理和情感分析,得出結(jié)論。最后,本文在數(shù)據(jù)可視化方面,采用Python語言中

的數(shù)據(jù)可視化工具Matplotlib,對數(shù)據(jù)進行可視化處理,實現(xiàn)數(shù)據(jù)可視化的方

便操作。

3

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

隨后將爬取出來的原始數(shù)據(jù)暫時以CSV格式儲存起來,在后續(xù)的數(shù)據(jù)預(yù)處

理和可視化中再進行調(diào)用。以上為此次項目的技術(shù)可行性,我也將在后續(xù)的工作

中將所有的步驟實現(xiàn)到位,保證數(shù)據(jù)的準確性和安全性。

2.2采集目標功能分析

本次項目的數(shù)據(jù)集的來源是古文學網(wǎng)站,是運用Python爬蟲技術(shù)爬取關(guān)于

古文學網(wǎng)的相關(guān)信息。數(shù)據(jù)清洗后共895條記錄,爬取完成后盡可能的檢查數(shù)據(jù)

的準確性、可讀性,保證我們從網(wǎng)站獲取的數(shù)據(jù)無誤。

通過分析古文學網(wǎng)站網(wǎng)頁信息,明確我們需要爬取的古文標題、作者、朝代、

正文等數(shù)據(jù),在對原始數(shù)據(jù)進行預(yù)處理后我們會對其數(shù)據(jù)進行多個維度的分析。

2.3關(guān)鍵技術(shù)分析

2.3.1.網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲也被人們叫做網(wǎng)絡(luò)機器人,顧名思義就是讓人們不用自己動手操

作,只需要編寫程序或者一些小腳本用來自動的瀏覽龐大的互聯(lián)網(wǎng),就能對想要

的目標網(wǎng)頁去進行精準的數(shù)據(jù)采集。目前常見的一些網(wǎng)絡(luò)爬蟲按照實現(xiàn)的原理

和技術(shù)結(jié)構(gòu)一般可以分為:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、

深層網(wǎng)絡(luò)爬蟲等一些類型。

網(wǎng)絡(luò)爬蟲技術(shù)是古文學網(wǎng)數(shù)據(jù)采集中至關(guān)重要的一環(huán)。在進行數(shù)據(jù)采集前,

首先需要確定采集的目標網(wǎng)站,并且對目標網(wǎng)站的數(shù)據(jù)結(jié)構(gòu)進行分析,以確保

能夠正確獲取所需數(shù)據(jù)。在得到目標網(wǎng)站的數(shù)據(jù)結(jié)構(gòu)后,需要選擇正確的網(wǎng)絡(luò)

爬蟲技術(shù)進行數(shù)據(jù)獲取。

網(wǎng)絡(luò)爬蟲技術(shù)的主要作用是自動化地瀏覽和采集網(wǎng)站上的信息。常見的網(wǎng)

絡(luò)爬蟲技術(shù)包括基于網(wǎng)頁解析的爬蟲和基于API接口的爬蟲。其中,基于網(wǎng)頁

解析的爬蟲可以從網(wǎng)站上獲取HTML文檔,并且解析其中的數(shù)據(jù)進行采集,因此

是古文學網(wǎng)數(shù)據(jù)采集過程中最為常見的一種技術(shù)。

在進行基于網(wǎng)頁解析的爬蟲時,需要選擇合適的爬蟲框架,并且編寫相應(yīng)

的爬蟲代碼。在編寫爬蟲代碼時,需要注意如何模擬用戶的訪問行為,以便在

網(wǎng)站上獲取到更多的數(shù)據(jù)。此外,還需要通過設(shè)置適當?shù)拈g隔時間,以避免對

目標網(wǎng)站的服務(wù)器造成過大的負擔。

在數(shù)據(jù)獲取的過程中,經(jīng)常會出現(xiàn)一些數(shù)據(jù)缺失、重復和噪聲等問題,這

就需要進行數(shù)據(jù)清洗。數(shù)據(jù)清洗的主要目的是去除無用的數(shù)據(jù)、修正錯誤的數(shù)

4

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

據(jù)以及保證數(shù)據(jù)的一致性和完整性。綜上所述,網(wǎng)絡(luò)爬蟲技術(shù)在古文學網(wǎng)數(shù)據(jù)

采集中占據(jù)著非常重要的地位,在選擇網(wǎng)絡(luò)爬蟲技術(shù)時需要根據(jù)目標網(wǎng)站的數(shù)

據(jù)結(jié)構(gòu)進行分析,并且在數(shù)據(jù)采集、清洗和存儲過程中進行相應(yīng)的技術(shù)處理,

以確保所采集到的數(shù)據(jù)真實可靠、格式化完整。

2.3.2.數(shù)據(jù)采集技術(shù)

Python采集數(shù)據(jù)代碼,如圖2-1所示。

圖2-1python獲取數(shù)據(jù)模塊

獲取到的數(shù)據(jù)保存到本地,如圖2-2所示。

5

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖2-2數(shù)據(jù)集詳情

2.3.3.可視化技術(shù)

爬取下來的數(shù)據(jù)通過預(yù)處理、保存為CSV文件格式。該數(shù)據(jù)集我們不能一

眼就得到我們想要的結(jié)論,我們需要用到數(shù)據(jù)可視化技術(shù),根據(jù)我們獲取到的數(shù)

據(jù)將其通過統(tǒng)計學圖形的方式展現(xiàn)在我們眼前,讓我們對其結(jié)果一目了然。顯然

我們獲取到的數(shù)據(jù)是一串串冗長的字符串,上面寫的信息或許我們可以讀懂,但

是當數(shù)據(jù)多的時候我們短時間內(nèi)很難得出什么結(jié)論,我們需要進行深入的了解

和分析。對這些的數(shù)據(jù)集進行處理完畢后,我們就要導入需要的第三方庫將數(shù)據(jù)

合理的進行判斷,再決定使用什么樣的幾何圖形才能最好、并且直觀的表達出數(shù)

據(jù)集的信息。

本次項目中僅僅只是將得到的數(shù)據(jù)用很簡單的可視化手段實現(xiàn)數(shù)據(jù)可視化,

具體的就是用Python第三方庫Matpoltlib去進行可視化,Matplotlib中包含

了許多庫,分別對應(yīng)餅圖、條形圖、直方圖、折線圖等圖形,可以很好的將數(shù)據(jù)

高效率的表現(xiàn)出來,可視化圖形呈現(xiàn)出來后對于結(jié)果自然一目了然,然后得出結(jié)

論。

6

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

3.數(shù)據(jù)采集

3.1采集頁面分析

我們首先通過谷歌瀏覽器搜索古文學網(wǎng)的官方網(wǎng)頁,然后找到詩文這個頁

面觀察圖3-1所示,其中URL為:/shiwen.html。

圖3-1數(shù)據(jù)網(wǎng)址頁面

按F12調(diào)出開發(fā)者工具,刷新頁面,如圖3-1所示。

圖3-2開發(fā)者工具

定位到要需要獲取的數(shù)據(jù)頁面,找到對應(yīng)的正則表達式,如圖3-3所示。

7

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖3-3定位數(shù)據(jù)

3.2網(wǎng)站數(shù)據(jù)結(jié)構(gòu)分析

在進行古文學網(wǎng)數(shù)據(jù)采集之前,首先需要對網(wǎng)站的數(shù)據(jù)結(jié)構(gòu)進行深入的分

析。該網(wǎng)站由多個頁面構(gòu)成,每個頁面都包含著大量的信息,包括作者、文集、

作品名稱、內(nèi)容摘要等,這些數(shù)據(jù)對于古文學研究具有重要意義。

在古文學網(wǎng)的數(shù)據(jù)結(jié)構(gòu)中,可以發(fā)現(xiàn)作者、朝代、作品名稱、內(nèi)容摘要等

信息是該網(wǎng)站的關(guān)鍵數(shù)據(jù)。這些數(shù)據(jù)之間存在著較為復雜的關(guān)系,需要通過深

入的分析才能夠清晰地了解它們之間的具體關(guān)系。

通過對網(wǎng)站的數(shù)據(jù)結(jié)構(gòu)分析,可以為數(shù)據(jù)采集與分析提供重要的依據(jù)。在

接下來的數(shù)據(jù)采集與清洗中,可以針對不同的數(shù)據(jù)類型進行不同的處理,從而

最大程度地提高數(shù)據(jù)的質(zhì)量和效率。

綜上所述,網(wǎng)站數(shù)據(jù)結(jié)構(gòu)分析是進行數(shù)據(jù)采集與分析的重要工作之一,只

有深入地了解網(wǎng)站的數(shù)據(jù)結(jié)構(gòu),才能夠為后續(xù)的數(shù)據(jù)采集與處理提供有力的支

持和保障。

3.3編程實現(xiàn)

導入所需庫,如圖3-5所示。

圖3-5導入所需庫頁面

8

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

設(shè)置請求頭,如圖3-6所示,偽裝成瀏覽器訪問服務(wù)器。

圖3-6請求頭內(nèi)容頁面

使用正則表達式獲取數(shù)據(jù)集,如圖3-7所示。

圖3-7獲取數(shù)據(jù)

定義函數(shù)存儲數(shù)據(jù),如圖3-8所示。

圖3-8定義列表存儲數(shù)據(jù)

指定數(shù)據(jù)輸出路徑為本地文件夾,如圖3-9所示。

9

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖3-9輸出數(shù)據(jù)到指定文件夾

4.數(shù)據(jù)清洗與處理

獲取到的數(shù)據(jù)集之后我們需要對數(shù)據(jù)進行預(yù)處理,也就是所謂的清洗和檢

查,確定爬取過來的數(shù)據(jù)是否存在無效值和確實值,要保證數(shù)據(jù)的一致性,這個

對于信息質(zhì)量的評估是一項很重要的任務(wù)。不僅如此,我們需要將數(shù)據(jù)進行有理

化和有序化,這樣子能夠在數(shù)據(jù)調(diào)用共享過程中方便很多開發(fā)人員對數(shù)據(jù)信息

的使用。

10

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

4.1數(shù)據(jù)清洗

圖4-1數(shù)據(jù)清洗準備頁面

經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失、錯位和空值,那么我們根據(jù)需求將

有效數(shù)據(jù)統(tǒng)一規(guī)劃去掉不要的行列數(shù)據(jù),防止數(shù)據(jù)冗余。因此我們只需保留需要

的數(shù)據(jù),然后整理為原網(wǎng)頁格式存入data.csv文件中,留存后續(xù)作為統(tǒng)計分析、

可視化使用。

圖4-2數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

數(shù)據(jù)儲存的方法有很多種,常見得可以直接用記事本格式儲存.txt文件,或

者直接用其他文件的形式儲存CSV、excel、json等,但是以上方法保存的數(shù)據(jù)

體量普遍都比較小。如果需要儲存較大的數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫,數(shù)

11

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

據(jù)庫也分為關(guān)系型和非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫比較典型的有MySQL和

Oracle等,非關(guān)系型數(shù)據(jù)庫等以鍵值對形式儲存數(shù)據(jù)的代表有Mongodb、Redis

等。本次項目我們用到的是CSV文件,如圖4-3所示。

圖4-3存儲為CSV文件

5.數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準備

導入相關(guān)庫,使用pandas加載源數(shù)據(jù),如圖5-1所示。

圖5-1數(shù)據(jù)準備頁面

獲取文件前10行數(shù)據(jù),如圖5-2所示。

12

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖5-2數(shù)據(jù)加載頁面

5.2數(shù)據(jù)可視化展示

數(shù)據(jù)可視化是現(xiàn)代信息技術(shù)的重要應(yīng)用領(lǐng)域之一,隨著人們對數(shù)據(jù)分析的

需求越來越高,數(shù)據(jù)可視化也逐漸成為了當前熱門的研究方向之一。在古文學

網(wǎng)數(shù)據(jù)采集與分析的研究中,數(shù)據(jù)可視化同樣具有非常重要的作用。

在古文學網(wǎng)的數(shù)據(jù)可視化展示中,我們主要采用了詞云圖、餅圖和柱形圖

等可視化方式。通過這些方式,我們將大量收集到的數(shù)據(jù)進行了圖表化展示,

使得用戶可以直觀地了解各類數(shù)據(jù)的分布情況、變化趨勢等信息。

例如,在收集到的古詩詞數(shù)據(jù)中,通過制作柱形圖,我們可以清晰地看到

各個朝代、作者的詩詞數(shù)量以及排名情況。此外,我們還使用了折線圖的方式,

可以對比不同朝代、不同體裁的詩詞數(shù)量之間的關(guān)系。

5.2.1.古詩詩詞統(tǒng)計與分析

將古詩詩句中的字段作圖,如圖5-3所示。

13

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖5-3詩文中出現(xiàn)字數(shù)占比圖

將數(shù)據(jù)集data中古詩詩句中的字段進行匯總和處理然后將其統(tǒng)計出現(xiàn)的

頻率,最后生成特定序列,通過特定序列里面的數(shù)據(jù)再按照詞頻生成詞云圖,如

圖5-3所示,可以看出在我所獲取的古詩詞中出現(xiàn)頻率最高的字是“一”,其次

是“不”,再其次是“人”這個字。古代詩人在作詩時,用到的一些字、詞,

都可以表達出他們的所見所感。例如,唐代詩人杜甫在《曲江二首》云:‘一

片花飛減卻春,風飄萬點正愁人’,他的感傷只取由“一片花飛”引起,他意

識到美麗的春天行將遠去,不禁悲從中來;南唐詩人李煜在《虞美人》中寫道:

問君能有幾多愁,恰似一江春水向東流,“一”字只用,充分體現(xiàn)了作者悲憤

之情如沖出峽谷、奔向大海的滔滔江水,一發(fā)而不可收。

有些古詩文的歷史,當我們?nèi)ヌ骄繒r就會發(fā)現(xiàn),作者當時作詩的處境與他

的內(nèi)心,他們把自己的所見所感所想都融入詩詞,經(jīng)而流傳至今,供我們閱讀,

分析,學習。所以,在這個互聯(lián)網(wǎng)飛速發(fā)展的時代,我們要促進古文學知識的

傳承與發(fā)展,讓更多人接觸到我們的傳統(tǒng)文化知識。

5.2.2.詩人朝代統(tǒng)計與分析

將處理好的詩人朝代統(tǒng)計數(shù)據(jù)進行作圖,如圖5-4所示。

14

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖5-4詩人朝代占比圖

圖中可以看出,在我獲取的古代詩歌中,宋代的古詩作品的最多的,在這

里分析一下宋代詩歌的發(fā)展歷程,宋代詩歌的發(fā)展經(jīng)歷了萌芽、繁榮,再從中

興、衰弱的過程,跌宕起伏,有明顯的上升和衰敗的趨勢。在整個發(fā)展歷程中,

宋代的詩歌具備了鮮明特征,其一雅俗兼?zhèn)?。宋代詩歌卻不再拘泥與上層階級

或是文人雅士的單獨性文學創(chuàng)作,而是開始在整個社會流行開來,其漸漸變成

一種大眾化的文學形式。其二宋代詩歌受到了宋代理學的影響,使得詩歌創(chuàng)作

和詩歌主題的表達。其三,宋代詩歌的文體進一步豐富。除了繼承唐詩的一貫

文體之外,就以王安石的“半山體”最為著名。從上圖中也能看出清代、明代、

南北朝的詩歌作品也可觀,在教育領(lǐng)域中,古文學網(wǎng)的數(shù)據(jù)可以作為教學和教

育提供重要參考。首先,古文學網(wǎng)的大量古代文學作品可以為語文教學提供豐

富的教材。其次,古文學網(wǎng)的數(shù)據(jù)也可以為語言教學提供指導和幫助。在語言

學習過程中,閱讀是重要的技能之一,而古代文學作品常常具有許多的文言語

法和語匯,對于學生的語言學習是非常有益的。同時,通過學生閱讀古代文學

作品的過程中,可以幫助學生建立對于古代社會背景和文化習俗的認識,從而

有助于拓展學生的文化視野,并提高文化素養(yǎng)。

15

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

5.2.3.詩人創(chuàng)作的詩詞數(shù)量統(tǒng)計與分析

將獲取的詩人詩詞數(shù)據(jù)作圖,如圖5-5所示。

圖5-5詩人創(chuàng)作詩詞數(shù)量占比圖

從圖5-5中可以清晰看出詩人創(chuàng)作的排行,在古文學網(wǎng)的數(shù)據(jù)中,詩人杜

甫的創(chuàng)作作品做多,其次是李白和佚名。杜甫的作品中,五律和七律共有23首,

說明杜甫五七言律詩的地位是最高的,在杜甫的詩詞中,不論技巧,氣韻,意

象,和詩中之志均臻完美。李白擅長的是古體詩,一共19首,李白的詩詞也很

無敵,詩仙少時好劍術(shù),一身不羈才,其狂放成其詩也。他們的這些作品應(yīng)該

被大家熟知,我國文化源遠流長、博大精深,每位詩人都有他們獨到的精神,

詩歌作品數(shù)不勝數(shù),大多經(jīng)典名作,意境壯觀或深邃,韻味辭彩精美典雅。古

詩文是中國古典文化的精華,學生的教育離不開古詩文的學習,這對他們的成

長具有重要作用。所以,我們應(yīng)當傳承詩詞文化,堅定文化自信。

5.3數(shù)據(jù)統(tǒng)計小結(jié)

綜上,我們通過對古文學網(wǎng)進行數(shù)據(jù)采集和分析,得出了以下重要研究結(jié)

論。首先,我們成功地構(gòu)建了一個可持續(xù)更新和維護的古文學網(wǎng)數(shù)據(jù)抓取系統(tǒng)。

該系統(tǒng)能夠從網(wǎng)站中自動獲取有關(guān)古文學內(nèi)容的信息,包括作者、題目、朝代

以及全文內(nèi)容等,為后續(xù)的分析研究提供了基礎(chǔ)數(shù)據(jù)支持。其次,通過對數(shù)據(jù)

16

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

的分析,我們發(fā)現(xiàn)古文學網(wǎng)上的文章內(nèi)容呈現(xiàn)出區(qū)分明顯的朝代分布特征,同

時不同朝代間的內(nèi)容偏好也呈現(xiàn)出了明顯的差異。最后,本研究成功地構(gòu)建了

一個可持續(xù)更新和維護的古文學網(wǎng)數(shù)據(jù)抓取系統(tǒng),并通過對數(shù)據(jù)的分析和應(yīng)用,

深入挖掘了古代文學的文化內(nèi)涵和審美價值。未來我們將繼續(xù)探索更深入的數(shù)

據(jù)分析方法,為古代文學研究提供更加深入的數(shù)據(jù)支持。

6.總結(jié)

時代在發(fā)展,人類的腳步也逐漸向未來邁進。信息時代如洪水猛獸一般快速

奔來。在普羅大眾的愜意生活之中的所有消費行為、衣食住行等動作都會隨之

產(chǎn)生巨量的數(shù)據(jù),而現(xiàn)在大數(shù)據(jù)技術(shù)的發(fā)展,我們也迎來一個數(shù)據(jù)信息時代,數(shù)

據(jù)信息時代的來臨已經(jīng)是不斷的變幻出了更快更強的功能特征和高可用率。對

此,我在本次項目中對古文學網(wǎng)進行分析得出以下結(jié)論,在語言教學領(lǐng)域,古

文學網(wǎng)的數(shù)據(jù)應(yīng)用主要體現(xiàn)在三個方面:學生學習資源的支持、語言教學內(nèi)容

的拓展和課堂教學的輔助。這些數(shù)據(jù)可以有效促進學生的學習,支持教師在古

文學方面的教學,也可以豐富學生的知識面,提高教學效率和質(zhì)量;在文學研

究領(lǐng)域,采集到的數(shù)據(jù),可以幫助學者們更加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論