騰訊新聞網(wǎng)站數(shù)據(jù)分析與展示_第1頁
騰訊新聞網(wǎng)站數(shù)據(jù)分析與展示_第2頁
騰訊新聞網(wǎng)站數(shù)據(jù)分析與展示_第3頁
騰訊新聞網(wǎng)站數(shù)據(jù)分析與展示_第4頁
騰訊新聞網(wǎng)站數(shù)據(jù)分析與展示_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

目錄

1引言............................................................................................................................1

1.1項(xiàng)目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................1

1.2.1Python簡介..........................................................................................1

1.2.2MySQL簡介............................................................................................2

1.2.3Jupyternotebook簡介......................................................................2

1.2.4Python第三方庫簡介..........................................................................2

1.2.5Tableau簡介........................................................................................3

2需求分析....................................................................................................................3

2.1可行性需求分析..........................................................................................3

2.2采集目標(biāo)功能分析......................................................................................4

2.3關(guān)鍵技術(shù)分析..............................................................................................4

2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................4

2.3.2文件存取技術(shù).......................................................................................5

2.3.3可視化技術(shù)...........................................................................................5

3數(shù)據(jù)采集....................................................................................................................6

3.1采集頁面分析..............................................................................................6

3.2字段分析......................................................................................................7

3.3編程實(shí)現(xiàn)......................................................................................................9

4數(shù)據(jù)清洗與處理......................................................................................................12

4.1數(shù)據(jù)清洗...........................................................................................................13

4.2數(shù)據(jù)儲存...........................................................................................................13

4.3編程實(shí)現(xiàn)...........................................................................................................14

5數(shù)據(jù)統(tǒng)計與分析......................................................................................................14

5.1數(shù)據(jù)準(zhǔn)備....................................................................................................14

5.2數(shù)據(jù)展示....................................................................................................15

5.2.1對要聞新聞評論數(shù)進(jìn)行統(tǒng)計.............................................................15

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.2依據(jù)娛樂新聞關(guān)鍵詞進(jìn)行統(tǒng)計.........................................................17

5.2.3對娛樂新聞評論數(shù)進(jìn)行統(tǒng)計.............................................................18

5.3綜述............................................................................................................18

6小結(jié)..........................................................................................................................19

參考資料.........................................................................................................................20

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

騰訊新聞網(wǎng)站數(shù)據(jù)分析與展示

1引言

時光荏苒,我們的祖國已經(jīng)進(jìn)入了一個高速發(fā)展的階段。百年未有之大變局,

正是我們這一代年輕人應(yīng)該抓住的時機(jī)和機(jī)會。喬布斯的一次發(fā)布會,開啟了移

動互聯(lián)網(wǎng)時代的來臨,信息大爆炸讓各種技術(shù)應(yīng)用的隨需求不斷誕生,如雨后春

筍一般開始冒尖兒。云、大、物、智等計算機(jī)互聯(lián)網(wǎng)技術(shù)在當(dāng)下從百姓民生的

各個方面提供了智能生活的技術(shù)基礎(chǔ)。而廣大人民群眾日常的購物、出行等產(chǎn)

生的數(shù)據(jù)也讓為我們這些技術(shù)工作者提供的海量的數(shù)據(jù)源頭,讓我們有東西去

學(xué)習(xí)和開發(fā),然后應(yīng)用。

衣食住行、衛(wèi)生醫(yī)療等方面產(chǎn)生的海量數(shù)據(jù)等待開發(fā)的價值愈來愈大。我

們這一代也踩在了信息革命的門檻上,逐漸進(jìn)入到一個信息漫天飛舞的時代。大

量IT工作者鼓吹風(fēng)口一詞,引入許多人往這一行業(yè)涌入。大數(shù)據(jù)從業(yè)者都明白,

海量數(shù)據(jù)中隱藏的寶藏等待有緣人也可以說是有心人去發(fā)掘,數(shù)據(jù)科學(xué)及大數(shù)

據(jù)技術(shù)也成為目前信息技術(shù)領(lǐng)域的一個比較熱門的分支,大家都覺得他是未來。

1.1項(xiàng)目背景

隨著互聯(lián)網(wǎng)發(fā)展的日新月異,人們的日常生活也越來越離不開網(wǎng)絡(luò)媒體

了,網(wǎng)絡(luò)媒體在人們的心中有了很高的地位。隨著現(xiàn)在網(wǎng)上信息的爆炸式增長

網(wǎng)上的信息讓人眼花繚亂。這些網(wǎng)站也向我們提供了許多獲取數(shù)據(jù)的渠道,能

讓我們對網(wǎng)上的信息進(jìn)行收集與清洗。所以我選擇騰訊新聞網(wǎng)站,在其中的娛

樂板塊進(jìn)行數(shù)據(jù)爬取與分析,通過這次分析可以直觀的看到大家對于娛樂新聞

的關(guān)注熱點(diǎn)。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

自1990年P(guān)ython語言誕生到現(xiàn)在,它已被逐漸廣泛應(yīng)用于各種計算機(jī)場

景,它的創(chuàng)始人是荷蘭人吉多·范羅蘇姆,在1989年為了打發(fā)圣誕節(jié)的時間,

就開發(fā)了一個腳本解釋程序,起名叫python的原因是英國20世紀(jì)70年代首播

的電視喜劇《蒙提·派森的飛行馬戲團(tuán)》,python是一種非常簡潔的語言,它

易學(xué)易上手,并且用途廣泛,它擁有豐富的第三方庫,并且免費(fèi)開源,這使得

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

使用python的人愈來愈多。

1.2.2MySQL簡介

計算機(jī)發(fā)明初始是各國在世界大戰(zhàn)中用來計算破譯敵軍密碼的一個工具,

發(fā)展到后期需要計算一些實(shí)驗(yàn)中相關(guān)的數(shù)據(jù)以及公式。在計算過程中難免會產(chǎn)

生多個不同的實(shí)驗(yàn)數(shù)據(jù),再后來人們將每個不同的數(shù)據(jù)按一定的順序存入到計

算機(jī)的硬盤中,按照一定順序排列。最后這種按一定結(jié)構(gòu)存入數(shù)據(jù)的容器,人們

將之稱為數(shù)據(jù)庫。

MySQL數(shù)據(jù)庫的標(biāo)志是一個可愛的小海豚,它象征著這個數(shù)據(jù)庫的讀取、存

取速度和優(yōu)秀準(zhǔn)確的含義。它不僅高效而且安全、能與多款主流的計算機(jī)語言

緊密結(jié)合,十分方便開發(fā)人員對其進(jìn)行操作。對于企業(yè)而言,MySQL的體量小、操

作并不復(fù)雜。關(guān)鍵是開源免費(fèi),極大的節(jié)省了公司的成本。受到普通中小企業(yè)的

喜愛和歡迎。個人用戶可以網(wǎng)上下載MySQL數(shù)據(jù)庫十分方便。

1.2.3Jupyternotebook簡介

Jupyternotebook從本質(zhì)上來說是一種應(yīng)用程序,是一種基于瀏覽器的

工具。它將一些解釋性文本、數(shù)學(xué)、計算等結(jié)合起來,放在一個交互式的創(chuàng)作型

文檔中。并且在這個創(chuàng)作型文檔中所有的內(nèi)容都是可分享并可見的。在一些教

學(xué)或者項(xiàng)目的講解中,jupyternotebook或許是一枝獨(dú)秀。因?yàn)樗С諱arkdown

標(biāo)記語言,在瀏覽器界面編輯代碼的同時可以很方便的為代碼提供注釋。在

jupyternotebook執(zhí)行代碼的同時對于注釋性文本并不會執(zhí)行,這個極大的方便

了教學(xué)人員,或者開發(fā)人員講解項(xiàng)目。

Jupyternotebook在大數(shù)據(jù)方面應(yīng)用比較廣泛,特別適合用來做數(shù)據(jù)的

清洗和處理,在數(shù)據(jù)挖掘和可視化上的應(yīng)用也是十分方便的。對于比較高層次的

開發(fā)人員來說,這個工具也可以用來做深度的機(jī)器學(xué)習(xí)。

對于初學(xué)者來說安裝Jupyternotebook的方法就是安裝Anaconda,因?yàn)?/p>

Anaconda的版本中就是自帶Jupyternotebook。如果覺得不需要Anaconda,可

以自主選擇進(jìn)入官網(wǎng)下載安裝包。

1.2.4Python第三方庫簡介

Requests:最友好的網(wǎng)絡(luò)爬蟲功能庫,是Python實(shí)現(xiàn)的簡單易用的HTTP庫,

使用起來比urllib更簡潔很多,Python第三方庫在使用前要先進(jìn)行安裝。

Re:正則表達(dá)式解析和處理功能庫,里面包含了多種字符串匹配的方法。

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

Pprint:他的英文全稱為Dataprettyprinter他采用分行打印的方式輸出

數(shù)據(jù)結(jié)果。讓一些冗長復(fù)雜結(jié)構(gòu)的數(shù)據(jù)輸出更加漂亮好看,讓開發(fā)人員一目了然。

Csv:csv屬于python中的內(nèi)置模塊,它能夠讀取csv格式的文件或者將數(shù)

據(jù)存入到csv表格中。并且csv文件是表格和數(shù)據(jù)庫中常見的文件操作格式。

NumPy庫是Python數(shù)據(jù)分析的基礎(chǔ),是處理數(shù)組的Python庫,NumPy庫的

數(shù)據(jù)結(jié)構(gòu)比Python自帶的更加高效。

Pandas:數(shù)據(jù)分析并保存為csv文件,python數(shù)據(jù)分析高層次應(yīng)用庫,還可

以進(jìn)行數(shù)據(jù)清洗。

Matplotlib:繪圖庫,主要是偏向于二維繪圖包括折線圖、條形圖、扇形圖、

散點(diǎn)圖、直方圖等等。

Wordcloud、scipy、jieba:生成中文詞云的。

Pylab:它能設(shè)置畫圖讓其能顯示中文。

1.2.5Tableau簡介

Tableau數(shù)據(jù)可視化分析產(chǎn)品,能夠連接數(shù)據(jù)庫,呈現(xiàn)動態(tài)的數(shù)據(jù)變化,更加

直觀的進(jìn)行數(shù)據(jù)分析和可視化呈現(xiàn)。Tableau實(shí)現(xiàn)數(shù)據(jù)與圖表的完美嫁接,它的

程序很容易上手,各公司可以用它將大量數(shù)據(jù)拖放到數(shù)字“畫布”上,轉(zhuǎn)眼間就

能創(chuàng)建好各種圖表。這一軟件的理念是,界面上的數(shù)據(jù)越容易操控,公司對自己

在所在業(yè)務(wù)領(lǐng)域里的所作所為到底是正確還是錯誤,就能了解得越透徹。

2需求分析

2.1可行性需求分析

1、技術(shù)可行性。

Python是面向?qū)ο笳Z言中的一門通俗易懂的計算機(jī)編程語言,本次項(xiàng)目中

使用Python編寫程序來實(shí)現(xiàn)數(shù)據(jù)獲取,數(shù)據(jù)清洗預(yù)處理,數(shù)據(jù)可視化。在數(shù)據(jù)獲

取的過程中遇到一些小問題。隨后通過分析發(fā)現(xiàn)騰訊新聞娛樂頁面的數(shù)據(jù)是動

態(tài)傳輸?shù)?所以我們通過瀏覽器控制臺獲取請求和其參數(shù)。然后就可以得到網(wǎng)頁

面數(shù)據(jù)的返回值。隨后將爬取出來的原始數(shù)據(jù)暫時以csv格式儲存起來,在后續(xù)

的數(shù)據(jù)預(yù)處理和可視化中再進(jìn)行調(diào)用。最后我們會將準(zhǔn)確的數(shù)據(jù)存入MySQL數(shù)

據(jù)庫中做持久化儲存。

以上為此次項(xiàng)目的技術(shù)可行性,我也將在后續(xù)的工作中將所有的步驟實(shí)現(xiàn)

到位,保證數(shù)據(jù)的準(zhǔn)確性和安全性。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

2、項(xiàng)目可行性。

本次項(xiàng)目通過采集比較權(quán)威的騰訊新聞?wù)緝?nèi)的數(shù)據(jù),來分析大家對娛樂新

聞的關(guān)注度。我們也將從評論等方面對其進(jìn)行深度剖析,分析出有價值的信息,

將其可視化最后根據(jù)結(jié)果得出結(jié)論。

2.2采集目標(biāo)功能分析

本次項(xiàng)目的數(shù)據(jù)集的來源是騰訊新聞網(wǎng)站,是通過python爬取騰訊新聞?wù)?/p>

內(nèi)的娛樂板塊信息。數(shù)據(jù)清洗后共500條記錄,爬取完成后盡可能的檢查數(shù)據(jù)

的準(zhǔn)確性,確定爬取出來的數(shù)據(jù)無誤并且是屬于騰訊新聞娛樂板塊的信息。

分析騰訊新聞網(wǎng)站網(wǎng)頁信息,明確我們需要爬取的新聞參數(shù)有新聞標(biāo)題與

評論數(shù),在對原始數(shù)據(jù)進(jìn)行預(yù)處理后我們會對其數(shù)據(jù)進(jìn)行多個維度的分析。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

在我們?nèi)粘I钪袨g覽網(wǎng)頁通常都會遇到需要緩存在本地的數(shù)據(jù),當(dāng)數(shù)量

比較小的時候我們可以自己采取手動下載的方式去獲得想要的數(shù)據(jù),不過在我

們的大數(shù)據(jù)領(lǐng)域一般用到的數(shù)據(jù)體量都是幾個G甚至幾個T的單位,這個時候

采取手動下載獲取數(shù)據(jù)無疑是一個很愚蠢的方式,所以我們會采取網(wǎng)絡(luò)爬蟲的

手段自動化的獲取數(shù)據(jù)。

網(wǎng)絡(luò)爬蟲也被人們叫做網(wǎng)絡(luò)機(jī)器人,顧名思義就是讓人們不用自己動手操

作,只需要編寫程序或者一些小腳本用來自動的瀏覽龐大的互聯(lián)網(wǎng),并且對想要

的目標(biāo)網(wǎng)頁去進(jìn)行精準(zhǔn)的數(shù)據(jù)的采集。當(dāng)下常見的一些網(wǎng)絡(luò)爬蟲按照實(shí)現(xiàn)的原

理和技術(shù)結(jié)構(gòu)一般可以分為:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、

深層網(wǎng)絡(luò)爬蟲等一些類型。

在大家的印象中常常將普通的網(wǎng)絡(luò)爬蟲與黑客混為一談,其實(shí)二者之間有

很大的區(qū)別。黑客屬于違反法律肆意竊取個人或者組織內(nèi)有價值的信息以此獲

利,而爬蟲僅僅知識用來代替重復(fù)無意義的動作,在合法合理的范圍內(nèi)去獲得自

己想要的信息,在一定程度上網(wǎng)絡(luò)爬蟲和普通用戶瀏覽網(wǎng)頁是沒有本質(zhì)區(qū)別的,

但是爬蟲確實(shí)可以作為一種攻擊的手段。在編寫網(wǎng)絡(luò)爬蟲的腳本時沒有設(shè)置一

定的睡眠緩沖時間,通過極高的頻率反復(fù)訪問客戶端網(wǎng)站會讓服務(wù)器持續(xù)在高

強(qiáng)度環(huán)境下工作,對服務(wù)器造成一定的壓力,如果一時間處理不過來服務(wù)器往往

會自動關(guān)機(jī),也就是宕機(jī),這也是常見的DDOS攻擊。

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

由此可見,網(wǎng)絡(luò)爬蟲技術(shù)在應(yīng)用場景的不同它發(fā)揮的作用也是不同的。在好

的場景下可以幫我們完成搶購、投票、報名、搶購等操作。但是在壞的場景下

同樣也能一直發(fā)送騷擾信息,給他人帶來困擾。爬蟲技術(shù)是一把雙刃劍,一個不

小心可能就會傷害到自己和他人,所以我們技術(shù)人員要懂法、守法。在法律允許

的范疇內(nèi)去編寫自己的腳本程序,不要一不小心半只腳踏進(jìn)犯罪的深淵。

有爬蟲技術(shù),那也一定存在反爬取的技術(shù)了。高級的爬蟲都會涉及到反爬蟲

的概念,往往能夠繞過或者突破人家的防守機(jī)制從而獲取到自己想到要的數(shù)據(jù)

時,就代表爬蟲工程師的個人水平已經(jīng)很不錯了。常見的反爬機(jī)制有IP、JS加

密、css反爬、或者Ajax異步、驗(yàn)證碼等等手段。這些手段會加大爬蟲工程師

的工作量,也會加大網(wǎng)站的開發(fā)成本。所以像一般的小網(wǎng)站最多設(shè)置一個小反爬,

對于我們獲取數(shù)據(jù)而言也相對容易。我們也不用去考慮成本的問題。

2.3.2文件存取技術(shù)

Python內(nèi)置csv模塊如圖2-1所示:

圖2-1python內(nèi)置csv模塊

2.3.3可視化技術(shù)

爬取下來的數(shù)據(jù)通過預(yù)處理、保存為csv文件格式。該數(shù)據(jù)集我們能否一

眼就得到我們想要的結(jié)論呢?答案是否定的。

我們需要一種技術(shù),根據(jù)我們獲取到的龐大數(shù)據(jù)將其通過統(tǒng)計學(xué)圖形的方

式展現(xiàn)在我們眼前,讓我們對其結(jié)果一目了然。這個就是數(shù)據(jù)可視化技術(shù)。

顯然我們獲取到的數(shù)據(jù)是一串串冗長的字符串,上面寫的一條條信息或許

我們能夠看懂讀懂,但是當(dāng)它成千上萬的時候我們短時間內(nèi)很難看出端倪和破

綻,我們需要進(jìn)行深入的了解和分析。對這一坨枯燥而乏味的數(shù)據(jù)集進(jìn)行處理完

畢后,我們就要導(dǎo)入需要的第三方庫將數(shù)據(jù)合理的進(jìn)行判斷,決定使用什么樣的

幾何圖形才能最好、并且直觀的表達(dá)出數(shù)據(jù)集的信息。

多年來可視化的技術(shù)也逐漸發(fā)展成為了一下三類:科學(xué)可視化、信息可視

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

化、可視化分析。而我們這里用到的就是信息可視化,信息可視化的處理對象是

非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),如金融交易、社交網(wǎng)絡(luò)和文本數(shù)據(jù),其核心挑戰(zhàn)

是針對大尺度高維復(fù)雜數(shù)據(jù)如何減少視覺混淆對信息的干擾。

本次項(xiàng)目中僅僅只是將得到的數(shù)據(jù)用很簡單的可視化手段實(shí)現(xiàn)數(shù)據(jù)可視化,

具體的就是用python第三方庫matpoltlab去進(jìn)行可視化,matplotlab中包含

了許多庫,分別對應(yīng)餅圖、條形圖、直方圖、折線圖等圖形,可以很好的將數(shù)據(jù)

高效率的表現(xiàn)出來,可視化圖形呈現(xiàn)出來后對于結(jié)果自然一目了然,然后得出結(jié)

論。

3數(shù)據(jù)采集

3.1采集頁面分析

我們首先通過谷歌瀏覽器搜索騰訊新聞官方網(wǎng)頁,然后找到娛樂板塊,其中

URL為:'/web_feed/getPCList',如圖3-1所示。

圖3-1數(shù)據(jù)網(wǎng)址頁面

按F12調(diào)出開發(fā)者工具,刷新頁面,如圖3-2所示。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-2開發(fā)者工具

利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字

段,分析這是個什么請求,發(fā)現(xiàn)這個是一個POST請求,如圖3-3所示。

圖3-3請求方法

3.2字段分析

我們首先來到網(wǎng)頁面打開網(wǎng)頁的選擇欄,然后將選擇欄目定位到所需信息

的位置,然后跳出開發(fā)者工具頁面刷新一下頁面再進(jìn)入,點(diǎn)擊發(fā)者工具界面上方

的network,通過搜索標(biāo)題,如圖3-4,在data列表中的title字段中可以獲

得我們所需要的要聞新聞標(biāo)題,如圖3-5,在json字典中的title字段中可以

獲得我們所需要的娛樂新聞標(biāo)題,如圖3-6,在a標(biāo)簽中可以獲得我們需要的要

聞新聞評論數(shù),如圖3-7,在a標(biāo)簽中可以獲得我們需要的娛樂新聞評論數(shù)。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-4要聞新聞標(biāo)題

圖3-5娛樂新聞標(biāo)題

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-6要聞新聞評論數(shù)

圖3-7娛樂新聞評論數(shù)

3.3編程實(shí)現(xiàn)

導(dǎo)入所需要用到的庫,一共5個,csv,json,time,reques,random,如

圖3-8所示。

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-8導(dǎo)入所需庫頁面

設(shè)置請求頭,包涵User-Agent,Referer,Host,Origin,將爬蟲偽裝成瀏覽

器訪問服務(wù)器,如圖3-9所示。

圖3-9請求頭內(nèi)容頁面

代碼實(shí)現(xiàn)如下:

importcsv

importjson

importtime

importrequests

importtime

importcsv

importrandom

defdata_get(count,i):

count=i*10

globalnum

num=0

#foriinrange(10):#10頁,每頁10個....個別網(wǎng)頁會少于10個,比較特殊

foriinrange(10):#10頁,每頁10個....個別網(wǎng)頁會少于10個,比較特殊

count+=1

#t=str(int(t)-3600000000000)

#必須攜帶的參數(shù),json字典參數(shù),加入后續(xù)的請求中

pauload={

#"channel_id":"news_news_sports",

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

#"channel_id":"news_news_tech",

"channel_id":"news_news_ent",

#"qimei36":t,

"device_id":"1676190910868",

"base_req":{

"from":"pc"},

"forward":"1"

}

url='/web_feed/getPCList'

#發(fā)起請求,post請求

#json表單不能攜帶時間戳,否則會匹配重復(fù)數(shù)據(jù),置空=注釋即可..

res=requests.post(url=url,headers=headers,json=pauload)

#print(res)

#print(res.text)

#print('\n\n')

#數(shù)據(jù)json化

data=json.loads(res.text)

data_list=data['data']

fordataindata_list:

t_n=[]

ifnum==100:#抓取100條,爬取條目限制...超過則中斷程序...

break

title=data['title']

try:

talk_num=data['interation_info']["commet_num"]#去掉第一個一個逗號

#print(type(talk_num))

#talk_num=str(talk_num)

talk_num=int(talk_num)

except:#異常處理,有的關(guān)閉了評論板塊....有的是產(chǎn)品推廣,有的

是還沒有評論者

#talk_num='0'

talk_num=0

#print(type(talk_num))

t_n=[title,talk_num]

f1=open(file_name,'a',encoding='utf-8-sig',newline='')

w=csv.writer(f1)

w.writerow(t_n)#寫入新聞評論

f1.close()

num+=1

#withopen,分別打開寫入兩個表格...

#編碼utf-8-sig

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

#withopen('新聞標(biāo)題.txt','a+',encoding='utf-8-sig',newline='')asf:

#f.write(title+'\n')

#

#withopen('對應(yīng)評論數(shù).txt','a+',encoding='utf-8-sig',newline='')asf1:

#f1.write(talk_num)

#w.writerow(talk_num)

print(talk_num,title)

time.sleep(4)

print('\n')

print(f'******已經(jīng)迭代次數(shù):{count}次******')

if__name__=='__main__':

#主要請求頭

headers={

'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36

(KHTML,likeGecko)Chrome/Safari/537.3',

'Referer':'/',

'Host':'',

'Origin':'',

}

#記錄請求次數(shù)

count=0

file_name='騰訊新聞-娛樂500.csv'

head=['標(biāo)題','評論數(shù)目']

#csv寫入表單頭,head...

f=open(file_name,'w',encoding='utf-8-sig',newline='')

writer=csv.writer(f)

writer.writerow(head)

f.close()

#子線程序啟動

foriinrange(5):

time.sleep(3)

data_get(count,i)

print('-------*',i+1)

4數(shù)據(jù)清洗與處理

獲得龐大的數(shù)據(jù)集之后我們需要對數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的清洗和

檢查,確定爬取過來的數(shù)據(jù)是否存在無效值和確實(shí)值,要保證數(shù)據(jù)的一致性,

這個對于信息質(zhì)量的評估是一項(xiàng)很重要的任務(wù)。不僅如此,我們需要將數(shù)據(jù)進(jìn)

行有理化和有序化,這樣子能夠在數(shù)據(jù)調(diào)用共享過程中方便很多開發(fā)人員對數(shù)

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

據(jù)信息的使用。

本次項(xiàng)目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并且檢查是

否出現(xiàn)空值、錯值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對數(shù)據(jù)進(jìn)

行不同的處理。

4.1數(shù)據(jù)清洗

通過Jupyternotebook對數(shù)據(jù)進(jìn)行清洗查看,先引入pandas,然后寫入文

件路徑,規(guī)定字符集,最后輸出前十個數(shù)據(jù),如圖4-1所示:

圖4-1數(shù)據(jù)清檢查頁面

經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失,錯位還有空值,那么我們根據(jù)需求

將有效數(shù)據(jù)統(tǒng)一規(guī)劃去掉不要的行列數(shù)據(jù),防止數(shù)據(jù)冗余。因此我們只需保留需

要的數(shù)據(jù),然后整理為原網(wǎng)頁格式存入data。csv文件中,留存后續(xù)作為統(tǒng)計分

析、可視化使用。

4.2數(shù)據(jù)儲存

數(shù)據(jù)儲存得方法有很多種,常見得可以直接用記事本格式儲存(txt),或者

直接用其他文件的形式儲存csv、excel、json等,但是以上方法保存的數(shù)據(jù)體

量普遍都比較小。如果需要儲存較大的數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫,數(shù)據(jù)

庫也分為關(guān)系型和非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫比較典型的有MySQL和

Oracle等,非關(guān)系型數(shù)據(jù)庫等以鍵值對形式儲存數(shù)據(jù)的代表有Mongodb、Redis

等。本次項(xiàng)目我們用到的是csv,包含了所需要的新聞標(biāo)題與評論數(shù),如圖4-2

所示。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖4-2數(shù)據(jù)存儲為csv頁面

4.3編程實(shí)現(xiàn)

對爬取數(shù)據(jù)的處理和儲存代碼實(shí)現(xiàn)如圖4-3所示:

圖4-3數(shù)據(jù)處理與存儲編程實(shí)現(xiàn)

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入繪圖相關(guān)庫pyechars,使用pandas打開指定路徑,加載源數(shù)據(jù),如圖

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5-1所示:

圖5-1數(shù)據(jù)準(zhǔn)備頁面

5.2數(shù)據(jù)展示

5.2.1對要聞新聞評論數(shù)進(jìn)行統(tǒng)計

圖5-4數(shù)據(jù)展示頁面

將在表格中評論數(shù)進(jìn)行匯總和處理然后將其統(tǒng)計并可視化如圖5-4所示,

可以發(fā)現(xiàn)大部分要聞板塊中新聞所擁有的評論數(shù)位于150到300之間,說明這

些新聞較受讀者歡迎并引起了一定的討論。而其中最高的評論數(shù)為3621,出現(xiàn)

在與生態(tài)環(huán)境變化相關(guān)的新聞上,這表明該新聞引起了廣泛的用戶討論和關(guān)注,

成為了一個熱門話題,可以看出現(xiàn)在大家對環(huán)境的保護(hù)意識很高。

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-5數(shù)據(jù)展示頁面

如圖5-5所示,我們可以進(jìn)一步了解到網(wǎng)友們對新聞報道感興趣的關(guān)鍵點(diǎn)。

首先,烏克蘭和俄羅斯的沖突是網(wǎng)民關(guān)注的焦點(diǎn)之一,這表明他們對歐洲地區(qū)

的地緣政治局勢、軍事沖突和外交事務(wù)非常敏感。其次,全國疫情是另一個重

要的話題,對于當(dāng)前全球范圍內(nèi)的新冠疫情,網(wǎng)民對國內(nèi)的疫情發(fā)展和應(yīng)對措

施非常關(guān)心。第三,美國是另一個重要的話題,特別是在政治層面,尤其是在2020

年美國大選后,拜登等相關(guān)話題成為了焦點(diǎn),吸引了很多人的關(guān)注。通過這些

關(guān)鍵詞,我們可以看出網(wǎng)民們的廣泛興趣和關(guān)注點(diǎn),也能夠了解當(dāng)前時事新聞

的趨勢和熱點(diǎn)問題。因此,這些關(guān)鍵詞和話題是新聞媒體報道和分析的重點(diǎn),

也為讀者提供了更多的信息和視角。

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.2依據(jù)娛樂新聞關(guān)鍵詞進(jìn)行統(tǒng)計

圖5-6數(shù)據(jù)展示頁面

從圖5-6所示,可以得知在可以看出娛樂新聞板塊最近的熱點(diǎn)包括狂飆這

部電視劇、其中的演員張頌文、新劇和離婚等方面。這表明在娛樂新聞領(lǐng)域,

網(wǎng)友們對相關(guān)熱門電視劇、明星演員的動態(tài)以及新劇預(yù)告等方面非常關(guān)注。其

中,狂飆這部電視劇引起了很多網(wǎng)友的熱議和關(guān)注,顯示出該劇在娛樂圈中的

地位。而演員張頌文則成為了討論的焦點(diǎn),他在該劇中的表現(xiàn)備受贊賞和關(guān)注。

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

此外,新劇預(yù)告也是娛樂新聞板塊的熱點(diǎn)之一,吸引了很多網(wǎng)友的注意。離婚

這個話題則可能是某個明星的私人生活問題,也可能是娛樂圈內(nèi)的某對明星離

婚引發(fā)了人們的關(guān)注,具體情況需要根據(jù)報道來進(jìn)一步了解。綜上所述,娛樂

新聞板塊是吸引很多網(wǎng)民關(guān)注的一大板塊,網(wǎng)民們對熱門電視劇、演員、新劇

預(yù)告以及明星生活等方面有著較高的關(guān)注度。

5.2.3對娛樂新聞評論數(shù)進(jìn)行統(tǒng)計

圖5-7數(shù)據(jù)展示頁面

從圖5-7所示,可以得知在可以看出在娛樂新聞板塊中,大部分的評論數(shù)

據(jù)在0-200之間,這可能意味著大多數(shù)網(wǎng)民對于娛樂圈的討論沒有太大的熱情

和激烈的討論。但是,評論數(shù)最高的《李天一即將出獄,李雙江和夢鴿參加聚

會,喝茅臺,染發(fā)心情大好》引起了很多關(guān)注,評論數(shù)達(dá)到1996,這表明當(dāng)前

網(wǎng)友對此事比較關(guān)注,看點(diǎn)很多。從標(biāo)題可以看出涉及到一些明星的個人生活

和事件,這種類型的娛樂新聞往往更容易引起網(wǎng)友的關(guān)注和討論。此外,其他

明星也出現(xiàn)在標(biāo)題中,這可能會引起網(wǎng)友們對于他的討論和推廣,從而進(jìn)一步

提高該新聞的關(guān)注度和傳播度。

5.3綜述

綜上,通過對新聞數(shù)據(jù)的爬取與分析對網(wǎng)民的興趣愛好進(jìn)行了總結(jié),表明了

大部分網(wǎng)友對國際形勢比較關(guān)心。我認(rèn)為網(wǎng)民對俄羅斯烏克蘭沖突的討論最為

集中,這可能與該事件的影響力和新聞報道的廣泛性有關(guān)。此外,明星的私生

活也是網(wǎng)民關(guān)注的熱點(diǎn)之一,這一點(diǎn)也反映了人們對名人生活的好奇心和八卦

心理。基于以上的數(shù)據(jù)分析,騰訊新聞若要進(jìn)一步發(fā)展應(yīng)該抓住時代趨勢和網(wǎng)

18

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

民的熱點(diǎn)需求,積極推送時政、國際形勢等和時事有關(guān)的新聞,同時也要加大

對明星等娛樂資訊的報道力度。這樣可以為讀者

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論