




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
目錄
1引言............................................................................................................................1
1.1項(xiàng)目背景......................................................................................................1
1.2開發(fā)環(huán)境與工具..........................................................................................1
1.2.1Python簡介..........................................................................................1
1.2.2MySQL簡介............................................................................................2
1.2.3Jupyternotebook簡介......................................................................2
1.2.4Python第三方庫簡介..........................................................................2
1.2.5Tableau簡介........................................................................................3
2需求分析....................................................................................................................3
2.1可行性需求分析..........................................................................................3
2.2采集目標(biāo)功能分析......................................................................................4
2.3關(guān)鍵技術(shù)分析..............................................................................................4
2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................4
2.3.2文件存取技術(shù).......................................................................................5
2.3.3可視化技術(shù)...........................................................................................5
3數(shù)據(jù)采集....................................................................................................................6
3.1采集頁面分析..............................................................................................6
3.2字段分析......................................................................................................7
3.3編程實(shí)現(xiàn)......................................................................................................9
4數(shù)據(jù)清洗與處理......................................................................................................12
4.1數(shù)據(jù)清洗...........................................................................................................13
4.2數(shù)據(jù)儲存...........................................................................................................13
4.3編程實(shí)現(xiàn)...........................................................................................................14
5數(shù)據(jù)統(tǒng)計與分析......................................................................................................14
5.1數(shù)據(jù)準(zhǔn)備....................................................................................................14
5.2數(shù)據(jù)展示....................................................................................................15
5.2.1對要聞新聞評論數(shù)進(jìn)行統(tǒng)計.............................................................15
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.2.2依據(jù)娛樂新聞關(guān)鍵詞進(jìn)行統(tǒng)計.........................................................17
5.2.3對娛樂新聞評論數(shù)進(jìn)行統(tǒng)計.............................................................18
5.3綜述............................................................................................................18
6小結(jié)..........................................................................................................................19
參考資料.........................................................................................................................20
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
騰訊新聞網(wǎng)站數(shù)據(jù)分析與展示
1引言
時光荏苒,我們的祖國已經(jīng)進(jìn)入了一個高速發(fā)展的階段。百年未有之大變局,
正是我們這一代年輕人應(yīng)該抓住的時機(jī)和機(jī)會。喬布斯的一次發(fā)布會,開啟了移
動互聯(lián)網(wǎng)時代的來臨,信息大爆炸讓各種技術(shù)應(yīng)用的隨需求不斷誕生,如雨后春
筍一般開始冒尖兒。云、大、物、智等計算機(jī)互聯(lián)網(wǎng)技術(shù)在當(dāng)下從百姓民生的
各個方面提供了智能生活的技術(shù)基礎(chǔ)。而廣大人民群眾日常的購物、出行等產(chǎn)
生的數(shù)據(jù)也讓為我們這些技術(shù)工作者提供的海量的數(shù)據(jù)源頭,讓我們有東西去
學(xué)習(xí)和開發(fā),然后應(yīng)用。
衣食住行、衛(wèi)生醫(yī)療等方面產(chǎn)生的海量數(shù)據(jù)等待開發(fā)的價值愈來愈大。我
們這一代也踩在了信息革命的門檻上,逐漸進(jìn)入到一個信息漫天飛舞的時代。大
量IT工作者鼓吹風(fēng)口一詞,引入許多人往這一行業(yè)涌入。大數(shù)據(jù)從業(yè)者都明白,
海量數(shù)據(jù)中隱藏的寶藏等待有緣人也可以說是有心人去發(fā)掘,數(shù)據(jù)科學(xué)及大數(shù)
據(jù)技術(shù)也成為目前信息技術(shù)領(lǐng)域的一個比較熱門的分支,大家都覺得他是未來。
1.1項(xiàng)目背景
隨著互聯(lián)網(wǎng)發(fā)展的日新月異,人們的日常生活也越來越離不開網(wǎng)絡(luò)媒體
了,網(wǎng)絡(luò)媒體在人們的心中有了很高的地位。隨著現(xiàn)在網(wǎng)上信息的爆炸式增長
網(wǎng)上的信息讓人眼花繚亂。這些網(wǎng)站也向我們提供了許多獲取數(shù)據(jù)的渠道,能
讓我們對網(wǎng)上的信息進(jìn)行收集與清洗。所以我選擇騰訊新聞網(wǎng)站,在其中的娛
樂板塊進(jìn)行數(shù)據(jù)爬取與分析,通過這次分析可以直觀的看到大家對于娛樂新聞
的關(guān)注熱點(diǎn)。
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
自1990年P(guān)ython語言誕生到現(xiàn)在,它已被逐漸廣泛應(yīng)用于各種計算機(jī)場
景,它的創(chuàng)始人是荷蘭人吉多·范羅蘇姆,在1989年為了打發(fā)圣誕節(jié)的時間,
就開發(fā)了一個腳本解釋程序,起名叫python的原因是英國20世紀(jì)70年代首播
的電視喜劇《蒙提·派森的飛行馬戲團(tuán)》,python是一種非常簡潔的語言,它
易學(xué)易上手,并且用途廣泛,它擁有豐富的第三方庫,并且免費(fèi)開源,這使得
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
使用python的人愈來愈多。
1.2.2MySQL簡介
計算機(jī)發(fā)明初始是各國在世界大戰(zhàn)中用來計算破譯敵軍密碼的一個工具,
發(fā)展到后期需要計算一些實(shí)驗(yàn)中相關(guān)的數(shù)據(jù)以及公式。在計算過程中難免會產(chǎn)
生多個不同的實(shí)驗(yàn)數(shù)據(jù),再后來人們將每個不同的數(shù)據(jù)按一定的順序存入到計
算機(jī)的硬盤中,按照一定順序排列。最后這種按一定結(jié)構(gòu)存入數(shù)據(jù)的容器,人們
將之稱為數(shù)據(jù)庫。
MySQL數(shù)據(jù)庫的標(biāo)志是一個可愛的小海豚,它象征著這個數(shù)據(jù)庫的讀取、存
取速度和優(yōu)秀準(zhǔn)確的含義。它不僅高效而且安全、能與多款主流的計算機(jī)語言
緊密結(jié)合,十分方便開發(fā)人員對其進(jìn)行操作。對于企業(yè)而言,MySQL的體量小、操
作并不復(fù)雜。關(guān)鍵是開源免費(fèi),極大的節(jié)省了公司的成本。受到普通中小企業(yè)的
喜愛和歡迎。個人用戶可以網(wǎng)上下載MySQL數(shù)據(jù)庫十分方便。
1.2.3Jupyternotebook簡介
Jupyternotebook從本質(zhì)上來說是一種應(yīng)用程序,是一種基于瀏覽器的
工具。它將一些解釋性文本、數(shù)學(xué)、計算等結(jié)合起來,放在一個交互式的創(chuàng)作型
文檔中。并且在這個創(chuàng)作型文檔中所有的內(nèi)容都是可分享并可見的。在一些教
學(xué)或者項(xiàng)目的講解中,jupyternotebook或許是一枝獨(dú)秀。因?yàn)樗С諱arkdown
標(biāo)記語言,在瀏覽器界面編輯代碼的同時可以很方便的為代碼提供注釋。在
jupyternotebook執(zhí)行代碼的同時對于注釋性文本并不會執(zhí)行,這個極大的方便
了教學(xué)人員,或者開發(fā)人員講解項(xiàng)目。
Jupyternotebook在大數(shù)據(jù)方面應(yīng)用比較廣泛,特別適合用來做數(shù)據(jù)的
清洗和處理,在數(shù)據(jù)挖掘和可視化上的應(yīng)用也是十分方便的。對于比較高層次的
開發(fā)人員來說,這個工具也可以用來做深度的機(jī)器學(xué)習(xí)。
對于初學(xué)者來說安裝Jupyternotebook的方法就是安裝Anaconda,因?yàn)?/p>
Anaconda的版本中就是自帶Jupyternotebook。如果覺得不需要Anaconda,可
以自主選擇進(jìn)入官網(wǎng)下載安裝包。
1.2.4Python第三方庫簡介
Requests:最友好的網(wǎng)絡(luò)爬蟲功能庫,是Python實(shí)現(xiàn)的簡單易用的HTTP庫,
使用起來比urllib更簡潔很多,Python第三方庫在使用前要先進(jìn)行安裝。
Re:正則表達(dá)式解析和處理功能庫,里面包含了多種字符串匹配的方法。
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
Pprint:他的英文全稱為Dataprettyprinter他采用分行打印的方式輸出
數(shù)據(jù)結(jié)果。讓一些冗長復(fù)雜結(jié)構(gòu)的數(shù)據(jù)輸出更加漂亮好看,讓開發(fā)人員一目了然。
Csv:csv屬于python中的內(nèi)置模塊,它能夠讀取csv格式的文件或者將數(shù)
據(jù)存入到csv表格中。并且csv文件是表格和數(shù)據(jù)庫中常見的文件操作格式。
NumPy庫是Python數(shù)據(jù)分析的基礎(chǔ),是處理數(shù)組的Python庫,NumPy庫的
數(shù)據(jù)結(jié)構(gòu)比Python自帶的更加高效。
Pandas:數(shù)據(jù)分析并保存為csv文件,python數(shù)據(jù)分析高層次應(yīng)用庫,還可
以進(jìn)行數(shù)據(jù)清洗。
Matplotlib:繪圖庫,主要是偏向于二維繪圖包括折線圖、條形圖、扇形圖、
散點(diǎn)圖、直方圖等等。
Wordcloud、scipy、jieba:生成中文詞云的。
Pylab:它能設(shè)置畫圖讓其能顯示中文。
1.2.5Tableau簡介
Tableau數(shù)據(jù)可視化分析產(chǎn)品,能夠連接數(shù)據(jù)庫,呈現(xiàn)動態(tài)的數(shù)據(jù)變化,更加
直觀的進(jìn)行數(shù)據(jù)分析和可視化呈現(xiàn)。Tableau實(shí)現(xiàn)數(shù)據(jù)與圖表的完美嫁接,它的
程序很容易上手,各公司可以用它將大量數(shù)據(jù)拖放到數(shù)字“畫布”上,轉(zhuǎn)眼間就
能創(chuàng)建好各種圖表。這一軟件的理念是,界面上的數(shù)據(jù)越容易操控,公司對自己
在所在業(yè)務(wù)領(lǐng)域里的所作所為到底是正確還是錯誤,就能了解得越透徹。
2需求分析
2.1可行性需求分析
1、技術(shù)可行性。
Python是面向?qū)ο笳Z言中的一門通俗易懂的計算機(jī)編程語言,本次項(xiàng)目中
使用Python編寫程序來實(shí)現(xiàn)數(shù)據(jù)獲取,數(shù)據(jù)清洗預(yù)處理,數(shù)據(jù)可視化。在數(shù)據(jù)獲
取的過程中遇到一些小問題。隨后通過分析發(fā)現(xiàn)騰訊新聞娛樂頁面的數(shù)據(jù)是動
態(tài)傳輸?shù)?所以我們通過瀏覽器控制臺獲取請求和其參數(shù)。然后就可以得到網(wǎng)頁
面數(shù)據(jù)的返回值。隨后將爬取出來的原始數(shù)據(jù)暫時以csv格式儲存起來,在后續(xù)
的數(shù)據(jù)預(yù)處理和可視化中再進(jìn)行調(diào)用。最后我們會將準(zhǔn)確的數(shù)據(jù)存入MySQL數(shù)
據(jù)庫中做持久化儲存。
以上為此次項(xiàng)目的技術(shù)可行性,我也將在后續(xù)的工作中將所有的步驟實(shí)現(xiàn)
到位,保證數(shù)據(jù)的準(zhǔn)確性和安全性。
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
2、項(xiàng)目可行性。
本次項(xiàng)目通過采集比較權(quán)威的騰訊新聞?wù)緝?nèi)的數(shù)據(jù),來分析大家對娛樂新
聞的關(guān)注度。我們也將從評論等方面對其進(jìn)行深度剖析,分析出有價值的信息,
將其可視化最后根據(jù)結(jié)果得出結(jié)論。
2.2采集目標(biāo)功能分析
本次項(xiàng)目的數(shù)據(jù)集的來源是騰訊新聞網(wǎng)站,是通過python爬取騰訊新聞?wù)?/p>
內(nèi)的娛樂板塊信息。數(shù)據(jù)清洗后共500條記錄,爬取完成后盡可能的檢查數(shù)據(jù)
的準(zhǔn)確性,確定爬取出來的數(shù)據(jù)無誤并且是屬于騰訊新聞娛樂板塊的信息。
分析騰訊新聞網(wǎng)站網(wǎng)頁信息,明確我們需要爬取的新聞參數(shù)有新聞標(biāo)題與
評論數(shù),在對原始數(shù)據(jù)進(jìn)行預(yù)處理后我們會對其數(shù)據(jù)進(jìn)行多個維度的分析。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
在我們?nèi)粘I钪袨g覽網(wǎng)頁通常都會遇到需要緩存在本地的數(shù)據(jù),當(dāng)數(shù)量
比較小的時候我們可以自己采取手動下載的方式去獲得想要的數(shù)據(jù),不過在我
們的大數(shù)據(jù)領(lǐng)域一般用到的數(shù)據(jù)體量都是幾個G甚至幾個T的單位,這個時候
采取手動下載獲取數(shù)據(jù)無疑是一個很愚蠢的方式,所以我們會采取網(wǎng)絡(luò)爬蟲的
手段自動化的獲取數(shù)據(jù)。
網(wǎng)絡(luò)爬蟲也被人們叫做網(wǎng)絡(luò)機(jī)器人,顧名思義就是讓人們不用自己動手操
作,只需要編寫程序或者一些小腳本用來自動的瀏覽龐大的互聯(lián)網(wǎng),并且對想要
的目標(biāo)網(wǎng)頁去進(jìn)行精準(zhǔn)的數(shù)據(jù)的采集。當(dāng)下常見的一些網(wǎng)絡(luò)爬蟲按照實(shí)現(xiàn)的原
理和技術(shù)結(jié)構(gòu)一般可以分為:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、
深層網(wǎng)絡(luò)爬蟲等一些類型。
在大家的印象中常常將普通的網(wǎng)絡(luò)爬蟲與黑客混為一談,其實(shí)二者之間有
很大的區(qū)別。黑客屬于違反法律肆意竊取個人或者組織內(nèi)有價值的信息以此獲
利,而爬蟲僅僅知識用來代替重復(fù)無意義的動作,在合法合理的范圍內(nèi)去獲得自
己想要的信息,在一定程度上網(wǎng)絡(luò)爬蟲和普通用戶瀏覽網(wǎng)頁是沒有本質(zhì)區(qū)別的,
但是爬蟲確實(shí)可以作為一種攻擊的手段。在編寫網(wǎng)絡(luò)爬蟲的腳本時沒有設(shè)置一
定的睡眠緩沖時間,通過極高的頻率反復(fù)訪問客戶端網(wǎng)站會讓服務(wù)器持續(xù)在高
強(qiáng)度環(huán)境下工作,對服務(wù)器造成一定的壓力,如果一時間處理不過來服務(wù)器往往
會自動關(guān)機(jī),也就是宕機(jī),這也是常見的DDOS攻擊。
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
由此可見,網(wǎng)絡(luò)爬蟲技術(shù)在應(yīng)用場景的不同它發(fā)揮的作用也是不同的。在好
的場景下可以幫我們完成搶購、投票、報名、搶購等操作。但是在壞的場景下
同樣也能一直發(fā)送騷擾信息,給他人帶來困擾。爬蟲技術(shù)是一把雙刃劍,一個不
小心可能就會傷害到自己和他人,所以我們技術(shù)人員要懂法、守法。在法律允許
的范疇內(nèi)去編寫自己的腳本程序,不要一不小心半只腳踏進(jìn)犯罪的深淵。
有爬蟲技術(shù),那也一定存在反爬取的技術(shù)了。高級的爬蟲都會涉及到反爬蟲
的概念,往往能夠繞過或者突破人家的防守機(jī)制從而獲取到自己想到要的數(shù)據(jù)
時,就代表爬蟲工程師的個人水平已經(jīng)很不錯了。常見的反爬機(jī)制有IP、JS加
密、css反爬、或者Ajax異步、驗(yàn)證碼等等手段。這些手段會加大爬蟲工程師
的工作量,也會加大網(wǎng)站的開發(fā)成本。所以像一般的小網(wǎng)站最多設(shè)置一個小反爬,
對于我們獲取數(shù)據(jù)而言也相對容易。我們也不用去考慮成本的問題。
2.3.2文件存取技術(shù)
Python內(nèi)置csv模塊如圖2-1所示:
圖2-1python內(nèi)置csv模塊
2.3.3可視化技術(shù)
爬取下來的數(shù)據(jù)通過預(yù)處理、保存為csv文件格式。該數(shù)據(jù)集我們能否一
眼就得到我們想要的結(jié)論呢?答案是否定的。
我們需要一種技術(shù),根據(jù)我們獲取到的龐大數(shù)據(jù)將其通過統(tǒng)計學(xué)圖形的方
式展現(xiàn)在我們眼前,讓我們對其結(jié)果一目了然。這個就是數(shù)據(jù)可視化技術(shù)。
顯然我們獲取到的數(shù)據(jù)是一串串冗長的字符串,上面寫的一條條信息或許
我們能夠看懂讀懂,但是當(dāng)它成千上萬的時候我們短時間內(nèi)很難看出端倪和破
綻,我們需要進(jìn)行深入的了解和分析。對這一坨枯燥而乏味的數(shù)據(jù)集進(jìn)行處理完
畢后,我們就要導(dǎo)入需要的第三方庫將數(shù)據(jù)合理的進(jìn)行判斷,決定使用什么樣的
幾何圖形才能最好、并且直觀的表達(dá)出數(shù)據(jù)集的信息。
多年來可視化的技術(shù)也逐漸發(fā)展成為了一下三類:科學(xué)可視化、信息可視
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
化、可視化分析。而我們這里用到的就是信息可視化,信息可視化的處理對象是
非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),如金融交易、社交網(wǎng)絡(luò)和文本數(shù)據(jù),其核心挑戰(zhàn)
是針對大尺度高維復(fù)雜數(shù)據(jù)如何減少視覺混淆對信息的干擾。
本次項(xiàng)目中僅僅只是將得到的數(shù)據(jù)用很簡單的可視化手段實(shí)現(xiàn)數(shù)據(jù)可視化,
具體的就是用python第三方庫matpoltlab去進(jìn)行可視化,matplotlab中包含
了許多庫,分別對應(yīng)餅圖、條形圖、直方圖、折線圖等圖形,可以很好的將數(shù)據(jù)
高效率的表現(xiàn)出來,可視化圖形呈現(xiàn)出來后對于結(jié)果自然一目了然,然后得出結(jié)
論。
3數(shù)據(jù)采集
3.1采集頁面分析
我們首先通過谷歌瀏覽器搜索騰訊新聞官方網(wǎng)頁,然后找到娛樂板塊,其中
URL為:'/web_feed/getPCList',如圖3-1所示。
圖3-1數(shù)據(jù)網(wǎng)址頁面
按F12調(diào)出開發(fā)者工具,刷新頁面,如圖3-2所示。
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-2開發(fā)者工具
利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字
段,分析這是個什么請求,發(fā)現(xiàn)這個是一個POST請求,如圖3-3所示。
圖3-3請求方法
3.2字段分析
我們首先來到網(wǎng)頁面打開網(wǎng)頁的選擇欄,然后將選擇欄目定位到所需信息
的位置,然后跳出開發(fā)者工具頁面刷新一下頁面再進(jìn)入,點(diǎn)擊發(fā)者工具界面上方
的network,通過搜索標(biāo)題,如圖3-4,在data列表中的title字段中可以獲
得我們所需要的要聞新聞標(biāo)題,如圖3-5,在json字典中的title字段中可以
獲得我們所需要的娛樂新聞標(biāo)題,如圖3-6,在a標(biāo)簽中可以獲得我們需要的要
聞新聞評論數(shù),如圖3-7,在a標(biāo)簽中可以獲得我們需要的娛樂新聞評論數(shù)。
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-4要聞新聞標(biāo)題
圖3-5娛樂新聞標(biāo)題
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-6要聞新聞評論數(shù)
圖3-7娛樂新聞評論數(shù)
3.3編程實(shí)現(xiàn)
導(dǎo)入所需要用到的庫,一共5個,csv,json,time,reques,random,如
圖3-8所示。
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-8導(dǎo)入所需庫頁面
設(shè)置請求頭,包涵User-Agent,Referer,Host,Origin,將爬蟲偽裝成瀏覽
器訪問服務(wù)器,如圖3-9所示。
圖3-9請求頭內(nèi)容頁面
代碼實(shí)現(xiàn)如下:
importcsv
importjson
importtime
importrequests
importtime
importcsv
importrandom
defdata_get(count,i):
count=i*10
globalnum
num=0
#foriinrange(10):#10頁,每頁10個....個別網(wǎng)頁會少于10個,比較特殊
foriinrange(10):#10頁,每頁10個....個別網(wǎng)頁會少于10個,比較特殊
count+=1
#t=str(int(t)-3600000000000)
#必須攜帶的參數(shù),json字典參數(shù),加入后續(xù)的請求中
pauload={
#"channel_id":"news_news_sports",
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
#"channel_id":"news_news_tech",
"channel_id":"news_news_ent",
#"qimei36":t,
"device_id":"1676190910868",
"base_req":{
"from":"pc"},
"forward":"1"
}
url='/web_feed/getPCList'
#發(fā)起請求,post請求
#json表單不能攜帶時間戳,否則會匹配重復(fù)數(shù)據(jù),置空=注釋即可..
res=requests.post(url=url,headers=headers,json=pauload)
#print(res)
#print(res.text)
#print('\n\n')
#數(shù)據(jù)json化
data=json.loads(res.text)
data_list=data['data']
fordataindata_list:
t_n=[]
ifnum==100:#抓取100條,爬取條目限制...超過則中斷程序...
break
title=data['title']
try:
talk_num=data['interation_info']["commet_num"]#去掉第一個一個逗號
#print(type(talk_num))
#talk_num=str(talk_num)
talk_num=int(talk_num)
except:#異常處理,有的關(guān)閉了評論板塊....有的是產(chǎn)品推廣,有的
是還沒有評論者
#talk_num='0'
talk_num=0
#print(type(talk_num))
t_n=[title,talk_num]
f1=open(file_name,'a',encoding='utf-8-sig',newline='')
w=csv.writer(f1)
w.writerow(t_n)#寫入新聞評論
f1.close()
num+=1
#withopen,分別打開寫入兩個表格...
#編碼utf-8-sig
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
#withopen('新聞標(biāo)題.txt','a+',encoding='utf-8-sig',newline='')asf:
#f.write(title+'\n')
#
#withopen('對應(yīng)評論數(shù).txt','a+',encoding='utf-8-sig',newline='')asf1:
#f1.write(talk_num)
#w.writerow(talk_num)
print(talk_num,title)
time.sleep(4)
print('\n')
print(f'******已經(jīng)迭代次數(shù):{count}次******')
if__name__=='__main__':
#主要請求頭
headers={
'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36
(KHTML,likeGecko)Chrome/Safari/537.3',
'Referer':'/',
'Host':'',
'Origin':'',
}
#記錄請求次數(shù)
count=0
file_name='騰訊新聞-娛樂500.csv'
head=['標(biāo)題','評論數(shù)目']
#csv寫入表單頭,head...
f=open(file_name,'w',encoding='utf-8-sig',newline='')
writer=csv.writer(f)
writer.writerow(head)
f.close()
#子線程序啟動
foriinrange(5):
time.sleep(3)
data_get(count,i)
print('-------*',i+1)
4數(shù)據(jù)清洗與處理
獲得龐大的數(shù)據(jù)集之后我們需要對數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的清洗和
檢查,確定爬取過來的數(shù)據(jù)是否存在無效值和確實(shí)值,要保證數(shù)據(jù)的一致性,
這個對于信息質(zhì)量的評估是一項(xiàng)很重要的任務(wù)。不僅如此,我們需要將數(shù)據(jù)進(jìn)
行有理化和有序化,這樣子能夠在數(shù)據(jù)調(diào)用共享過程中方便很多開發(fā)人員對數(shù)
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
據(jù)信息的使用。
本次項(xiàng)目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并且檢查是
否出現(xiàn)空值、錯值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對數(shù)據(jù)進(jìn)
行不同的處理。
4.1數(shù)據(jù)清洗
通過Jupyternotebook對數(shù)據(jù)進(jìn)行清洗查看,先引入pandas,然后寫入文
件路徑,規(guī)定字符集,最后輸出前十個數(shù)據(jù),如圖4-1所示:
圖4-1數(shù)據(jù)清檢查頁面
經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失,錯位還有空值,那么我們根據(jù)需求
將有效數(shù)據(jù)統(tǒng)一規(guī)劃去掉不要的行列數(shù)據(jù),防止數(shù)據(jù)冗余。因此我們只需保留需
要的數(shù)據(jù),然后整理為原網(wǎng)頁格式存入data。csv文件中,留存后續(xù)作為統(tǒng)計分
析、可視化使用。
4.2數(shù)據(jù)儲存
數(shù)據(jù)儲存得方法有很多種,常見得可以直接用記事本格式儲存(txt),或者
直接用其他文件的形式儲存csv、excel、json等,但是以上方法保存的數(shù)據(jù)體
量普遍都比較小。如果需要儲存較大的數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫,數(shù)據(jù)
庫也分為關(guān)系型和非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫比較典型的有MySQL和
Oracle等,非關(guān)系型數(shù)據(jù)庫等以鍵值對形式儲存數(shù)據(jù)的代表有Mongodb、Redis
等。本次項(xiàng)目我們用到的是csv,包含了所需要的新聞標(biāo)題與評論數(shù),如圖4-2
所示。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖4-2數(shù)據(jù)存儲為csv頁面
4.3編程實(shí)現(xiàn)
對爬取數(shù)據(jù)的處理和儲存代碼實(shí)現(xiàn)如圖4-3所示:
圖4-3數(shù)據(jù)處理與存儲編程實(shí)現(xiàn)
5數(shù)據(jù)統(tǒng)計與分析
5.1數(shù)據(jù)準(zhǔn)備
導(dǎo)入繪圖相關(guān)庫pyechars,使用pandas打開指定路徑,加載源數(shù)據(jù),如圖
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5-1所示:
圖5-1數(shù)據(jù)準(zhǔn)備頁面
5.2數(shù)據(jù)展示
5.2.1對要聞新聞評論數(shù)進(jìn)行統(tǒng)計
圖5-4數(shù)據(jù)展示頁面
將在表格中評論數(shù)進(jìn)行匯總和處理然后將其統(tǒng)計并可視化如圖5-4所示,
可以發(fā)現(xiàn)大部分要聞板塊中新聞所擁有的評論數(shù)位于150到300之間,說明這
些新聞較受讀者歡迎并引起了一定的討論。而其中最高的評論數(shù)為3621,出現(xiàn)
在與生態(tài)環(huán)境變化相關(guān)的新聞上,這表明該新聞引起了廣泛的用戶討論和關(guān)注,
成為了一個熱門話題,可以看出現(xiàn)在大家對環(huán)境的保護(hù)意識很高。
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-5數(shù)據(jù)展示頁面
如圖5-5所示,我們可以進(jìn)一步了解到網(wǎng)友們對新聞報道感興趣的關(guān)鍵點(diǎn)。
首先,烏克蘭和俄羅斯的沖突是網(wǎng)民關(guān)注的焦點(diǎn)之一,這表明他們對歐洲地區(qū)
的地緣政治局勢、軍事沖突和外交事務(wù)非常敏感。其次,全國疫情是另一個重
要的話題,對于當(dāng)前全球范圍內(nèi)的新冠疫情,網(wǎng)民對國內(nèi)的疫情發(fā)展和應(yīng)對措
施非常關(guān)心。第三,美國是另一個重要的話題,特別是在政治層面,尤其是在2020
年美國大選后,拜登等相關(guān)話題成為了焦點(diǎn),吸引了很多人的關(guān)注。通過這些
關(guān)鍵詞,我們可以看出網(wǎng)民們的廣泛興趣和關(guān)注點(diǎn),也能夠了解當(dāng)前時事新聞
的趨勢和熱點(diǎn)問題。因此,這些關(guān)鍵詞和話題是新聞媒體報道和分析的重點(diǎn),
也為讀者提供了更多的信息和視角。
16
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.2.2依據(jù)娛樂新聞關(guān)鍵詞進(jìn)行統(tǒng)計
圖5-6數(shù)據(jù)展示頁面
從圖5-6所示,可以得知在可以看出娛樂新聞板塊最近的熱點(diǎn)包括狂飆這
部電視劇、其中的演員張頌文、新劇和離婚等方面。這表明在娛樂新聞領(lǐng)域,
網(wǎng)友們對相關(guān)熱門電視劇、明星演員的動態(tài)以及新劇預(yù)告等方面非常關(guān)注。其
中,狂飆這部電視劇引起了很多網(wǎng)友的熱議和關(guān)注,顯示出該劇在娛樂圈中的
地位。而演員張頌文則成為了討論的焦點(diǎn),他在該劇中的表現(xiàn)備受贊賞和關(guān)注。
17
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
此外,新劇預(yù)告也是娛樂新聞板塊的熱點(diǎn)之一,吸引了很多網(wǎng)友的注意。離婚
這個話題則可能是某個明星的私人生活問題,也可能是娛樂圈內(nèi)的某對明星離
婚引發(fā)了人們的關(guān)注,具體情況需要根據(jù)報道來進(jìn)一步了解。綜上所述,娛樂
新聞板塊是吸引很多網(wǎng)民關(guān)注的一大板塊,網(wǎng)民們對熱門電視劇、演員、新劇
預(yù)告以及明星生活等方面有著較高的關(guān)注度。
5.2.3對娛樂新聞評論數(shù)進(jìn)行統(tǒng)計
圖5-7數(shù)據(jù)展示頁面
從圖5-7所示,可以得知在可以看出在娛樂新聞板塊中,大部分的評論數(shù)
據(jù)在0-200之間,這可能意味著大多數(shù)網(wǎng)民對于娛樂圈的討論沒有太大的熱情
和激烈的討論。但是,評論數(shù)最高的《李天一即將出獄,李雙江和夢鴿參加聚
會,喝茅臺,染發(fā)心情大好》引起了很多關(guān)注,評論數(shù)達(dá)到1996,這表明當(dāng)前
網(wǎng)友對此事比較關(guān)注,看點(diǎn)很多。從標(biāo)題可以看出涉及到一些明星的個人生活
和事件,這種類型的娛樂新聞往往更容易引起網(wǎng)友的關(guān)注和討論。此外,其他
明星也出現(xiàn)在標(biāo)題中,這可能會引起網(wǎng)友們對于他的討論和推廣,從而進(jìn)一步
提高該新聞的關(guān)注度和傳播度。
5.3綜述
綜上,通過對新聞數(shù)據(jù)的爬取與分析對網(wǎng)民的興趣愛好進(jìn)行了總結(jié),表明了
大部分網(wǎng)友對國際形勢比較關(guān)心。我認(rèn)為網(wǎng)民對俄羅斯烏克蘭沖突的討論最為
集中,這可能與該事件的影響力和新聞報道的廣泛性有關(guān)。此外,明星的私生
活也是網(wǎng)民關(guān)注的熱點(diǎn)之一,這一點(diǎn)也反映了人們對名人生活的好奇心和八卦
心理。基于以上的數(shù)據(jù)分析,騰訊新聞若要進(jìn)一步發(fā)展應(yīng)該抓住時代趨勢和網(wǎng)
18
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
民的熱點(diǎn)需求,積極推送時政、國際形勢等和時事有關(guān)的新聞,同時也要加大
對明星等娛樂資訊的報道力度。這樣可以為讀者
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商場保安人員崗位職責(zé)明細(xì)計劃
- 2025年幼兒園大班標(biāo)準(zhǔn)教案《化妝舞會》含反思教學(xué)資料
- 商務(wù)秘書合同范本
- 社交媒體的危機(jī)公關(guān)與正面形象塑造
- 未來商業(yè)模式的AI驅(qū)動變革
- 寧波波形瀝青瓦施工方案
- 堰壩土方工程施工方案
- 榆林不銹鋼保溫施工方案
- 陜西電子信息職業(yè)技術(shù)學(xué)院《空調(diào)工程》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東創(chuàng)新科技職業(yè)學(xué)院《空間數(shù)據(jù)結(jié)構(gòu)》2023-2024學(xué)年第二學(xué)期期末試卷
- 裝飾材料復(fù)試清單
- GB/T 10089-1988圓柱蝸桿、蝸輪精度
- 人教版八年級美術(shù)下冊全冊課件匯總
- 質(zhì)量管理-AQL抽樣基礎(chǔ)知識培訓(xùn)課件
- 藥事管理與法規(guī)考試題庫及答案(可下載)
- 2023年煙臺南山學(xué)院單招綜合素質(zhì)考試筆試題庫及答案解析
- 基于Matlab的并行計算課件
- 2021年熔化焊與熱切割基礎(chǔ)知識課件
- 瀝青試驗(yàn)講解精品課件
- 創(chuàng)新藥產(chǎn)業(yè)鏈研究培訓(xùn)框架
- 燃?xì)鈽I(yè)務(wù)代辦授權(quán)書模板
評論
0/150
提交評論