




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于Python的“嗶哩嗶哩視頻網(wǎng)”視頻熱度分析Analysisofthevideoheatof"BiliBilivideonetwork"basedonPython摘要在21世紀的今天,網(wǎng)絡(luò)發(fā)展越來越快,網(wǎng)上的娛樂方式也越來越多樣化,而如今在網(wǎng)上觀看視頻消遣時間越來越受到大眾的青睞。Bilibili視頻網(wǎng)站是現(xiàn)當下年輕人最受歡迎的一個視頻網(wǎng)站。有調(diào)查顯示,直到2019年的10月份,Bilibili視頻網(wǎng)站的用戶在總體網(wǎng)絡(luò)視頻用戶占比高達90%。它與其他的視頻網(wǎng)站用戶相比較,其用戶忠實度更高,據(jù)其招募報告稱,其成員的12個月保留率達79%,而2009年注冊的用戶中60%的今天仍然活躍。Bilibili是目前國內(nèi)最受歡迎的綜合用戶網(wǎng)站,分析其視頻熱度可以從側(cè)面分析15-45歲群體的愛好,有著重要研究意義。本論文為基于Python的“嗶哩嗶哩視頻網(wǎng)”視頻熱度分析。首先講解本文使用的相關(guān)技術(shù),包括Scrapy框架,Pandas庫和pyecharts庫。然后根據(jù)頁面分析使用基于Scrapy的方法對嗶哩嗶哩視頻網(wǎng)數(shù)據(jù)抓取,并展示了部分數(shù)據(jù)結(jié)果,還對數(shù)據(jù)進行了預(yù)處理,接著為數(shù)據(jù)分析分別對分區(qū)占比、平均播放量、平均三連情況、各區(qū)平均播放和熱門標簽進行可視化,最后總結(jié)本論文所做的工作以及展望。關(guān)鍵詞:Scrapy;Pandas;嗶哩嗶哩視頻網(wǎng)AbstractInthe21stcentury,thedevelopmentoftheInternetisfasterandfaster,theonlineentertainmentismoreandmorediversified,andnowwatchingvideosontheInternetforleisuretimeismoreandmorepopular.Bilibiliisoneofthemostpopularvideowebsitesforyoungpeopletoday.AsofOctober2019,Bilibiliaccountsfor90percentofallonlinevideousers,accordingtoasurvey.Bilibilibilihashigheruserloyaltythanotherplatforms,witha12-monthretentionrateof79%accordingtoitsrecruitmentreport,comparedwith60%ofusersregisteredin2009whoarestillactivetoday.BilibilibiliisthemostpopularcomprehensiveuserwebsiteinChina.Analyzingitsvideopopularitycananalyzethehobbiesofthe15-45-year-oldgroupfromtheside,whichhasimportantresearchsignificance.ThispaperisbasedonPython"BiliBilivideonetwork"videoheatanalysis.Firstofall,itintroducestherelatedtechnologiesusedinthispaper,includingthescrapyframework,pandaslibraryandpyechartslibrary.Then,accordingtothepageanalysis,weusethemethodbasedonscratchtocapturethedataofbilibilibilivideonetwork,andshowsomedataresults,andpreprocessthedata.Thenwevisualizethepartitionproportion,theaverageplaybackvolume,theaveragetripleconnection,theaverageplaybackofeachareaandthehottagsforthedataanalysis.Finally,wesummarizetheworkandProspectofthispaper.Keywords:Scrapy;Pandas;BiliBili目錄第一章緒論 第一章緒論1.1研究背景與以前我國信息交流不發(fā)達的時代相比,如今我國學(xué)會上網(wǎng)的人也越來越多,而國家對互聯(lián)網(wǎng)的普及率也越來越高。導(dǎo)致與2018年相比較,如今中國的上網(wǎng)人數(shù)已經(jīng)比那時提高了2%。而如今隨著手機的更新?lián)Q代,手機上網(wǎng)比用電腦上網(wǎng)更加便捷,有數(shù)據(jù)顯示,如今使用手機上網(wǎng)的人數(shù)比使用電腦上網(wǎng)人數(shù)多3000萬。在21世紀的今天,網(wǎng)絡(luò)發(fā)展越來越快,網(wǎng)上的娛樂方式也越來越多樣化,而如今在網(wǎng)上觀看視頻消遣時間越來越受到大眾的青睞。Bilibili視頻網(wǎng)站是現(xiàn)當下年輕人最受歡迎的一個視頻網(wǎng)站。有調(diào)查顯示,直到2019年的10月份,Bilibili視頻網(wǎng)站的用戶在總體網(wǎng)絡(luò)視頻用戶占比高達90%。而如今不僅是Bilibili,就連像優(yōu)酷、騰訊、愛奇藝、樂視等的視頻網(wǎng)站都以電視劇、電影、動漫等的一些視頻類型向游戲、音樂、電競等當代年輕人喜愛的娛樂類型進行擴展聯(lián)動。正是有了這些視頻網(wǎng)站專業(yè)的生產(chǎn)和運營,我國的網(wǎng)絡(luò)視頻行業(yè)才慢慢不停地發(fā)展起來,逐步形成網(wǎng)絡(luò)視頻的內(nèi)容與各領(lǐng)域協(xié)同的娛樂生態(tài)內(nèi)容。Bilibili視頻網(wǎng)站于2009年創(chuàng)立,最開始的時候這個視頻網(wǎng)站只是類似于今天的A站一樣,分享一些精美圖片和視頻。但隨著中國近十多年來互聯(lián)網(wǎng)的快速發(fā)展,該視頻網(wǎng)站也慢慢地擴展了其他的業(yè)務(wù),例如一些電子商務(wù)和手機游戲等。但其特殊之處還不止這些,與優(yōu)酷和騰訊等其他視頻網(wǎng)站不同,Bilibili在ACG文化以及彈幕文化方面上顯得獨樹一幟。隨著Bilibili游客數(shù)量的快速增長,它的內(nèi)容也越來越豐富,除了占主導(dǎo)地位的主題之外,現(xiàn)在的Bilibili還提供了各個領(lǐng)域的視頻,包括音樂、舞蹈、科學(xué)、技術(shù)、娛樂、電影、戲劇、時裝、日常生活以及廣告電影。此外,Bilibili還提供實時流媒體服務(wù),觀眾可以與流媒體進行互動。通常這些主題都是關(guān)于動畫、內(nèi)容創(chuàng)建與游戲策略等。Bilibili與其他平臺相比,其用戶忠實度更高,據(jù)其招募報告稱,其成員的12個月保留率高達79%,而2009年注冊的用戶中有60%今天仍然活躍。此外,年齡在15-45歲之間的用戶占平臺總體用戶基礎(chǔ)的78%。Bilibili的平均用戶每天在該平臺上花費超過78分鐘,觀看每月上傳的240萬個視頻中的一些。Bilibili憑借其獨特而活躍的內(nèi)容社區(qū)吸引用戶,也是該網(wǎng)站用戶數(shù)量激增的原因。而自2018年9月以來,它在12個月內(nèi)獲得了3500萬的MAU。Bilibili是目前國內(nèi)最受歡迎的綜合用戶網(wǎng)站,分析其視頻熱度可以從側(cè)面分析15-45歲群體的愛好,有著重要研究意義。1.2國內(nèi)外研究現(xiàn)狀作為當代網(wǎng)民最重要的娛樂方式之一的網(wǎng)絡(luò)視頻已經(jīng)成為當今互聯(lián)網(wǎng)世界的第五大應(yīng)用。而在這個互聯(lián)網(wǎng)數(shù)據(jù)的時代,網(wǎng)絡(luò)視頻擁有大量的用戶數(shù)據(jù),對網(wǎng)絡(luò)視頻的分析研究能夠知道當代網(wǎng)民對視頻的喜愛類型,對今后網(wǎng)絡(luò)視頻的可持續(xù)發(fā)展有著重要的意義。馬翔[1]為了能夠?qū)崿F(xiàn)視頻網(wǎng)站分析平臺的用戶數(shù)據(jù)可視化應(yīng)用模型,他從人機交互和可視化等綜合視角出發(fā),帶領(lǐng)視頻制作團隊實現(xiàn)把用戶的數(shù)據(jù)向節(jié)目形式和內(nèi)容的轉(zhuǎn)化,也提出了用可視化的數(shù)據(jù)挖掘以及分析用戶的愛好習(xí)慣的觀點。崔楠,郭俞,張會雄[2]使用Python網(wǎng)絡(luò)蜘蛛作為工具對嗶哩嗶哩視頻網(wǎng)獲取了大量的彈幕數(shù)據(jù),并這些數(shù)據(jù)進行了挖掘分析,由此間接地評價了視頻的內(nèi)容,最終結(jié)果展示了流行短視頻的獨特評價,對短視頻的作者和平臺都具有一定的參考價值。他們基于這種彈幕的研究方法也為視頻內(nèi)容的自動識別與評價提供了新的思路。徐璐[3]使用獲得的Web用戶日志分析出觀看視頻用戶的一些選擇和觀看的視頻評分之間的矩陣關(guān)系。通俗來講就是建立用戶的興趣模型來發(fā)現(xiàn)觀看視頻用戶的喜好,在此過程中,她還對協(xié)同過濾算法中一些計算方法進行了改進,使其模型能夠主動向用戶提供他們喜好觀看的一些的視頻。顧軍華,高星,王守彬,等[4]以新媒體等視頻大數(shù)據(jù)為基礎(chǔ)在Spark上建立了BP神經(jīng)網(wǎng)絡(luò)視頻評估模型。還以傳統(tǒng)媒體等視頻方面的影響度為基礎(chǔ)不斷地去完善其評估體系。最后還建立了基于IPTV的大數(shù)據(jù),并且能夠反映其用戶群體的喜好類型評分策略的BP神經(jīng)網(wǎng)絡(luò)評估模型。1.3章節(jié)安排本篇論文總共有5個章節(jié),每一個章節(jié)的主要內(nèi)容如下:第1章是緒論章節(jié),主要介紹研究背景和國內(nèi)外的一些研究現(xiàn)狀,接著介紹本文的結(jié)構(gòu)。第2章主要介紹了本文使用的相關(guān)技術(shù),包括有Scrapy框架、Pandas庫和pyecharts庫。第3章為基于Scrapy的數(shù)據(jù)抓取,首先介紹了如何根據(jù)頁面分析對網(wǎng)頁數(shù)據(jù)進行抓取,然后展示了部分數(shù)據(jù)結(jié)果,并對數(shù)據(jù)進行了預(yù)處理。第4章主要為數(shù)據(jù)分析,分別對分區(qū)占比、平均播放量、平均三連情況、各區(qū)平均播放以及熱門標簽進行數(shù)據(jù)分析并可視化。第5章是結(jié)論,總結(jié)本論文所做的工作以及展望。第二章相關(guān)技術(shù)介紹2.1Scrapy框架Scrapy框架在Python語言中處理復(fù)雜情況的一種工具。它是一種強大的網(wǎng)頁蜘蛛框架,不僅能夠輕松構(gòu)建請求,并且能輕松解析響應(yīng)。它的性能非常高甚至還可以將網(wǎng)頁蜘蛛這種程序工程化以及模塊化。Scrapy框架主要包括:(1)引擎:主要工作負責(zé)項目管道、網(wǎng)頁蜘蛛、下載器、調(diào)度器中間的通訊、信號分析以及相關(guān)數(shù)據(jù)信息傳遞等。(2)調(diào)度器:主要負責(zé)接收來自引擎發(fā)送的請求,并組織和布置以某種方式入隊,當被需要時返回到引擎。(3)下載器:主要工作負責(zé)下載引擎發(fā)送的所有請求,并將其獲取到的響應(yīng)交還給引擎,并由相關(guān)引擎交給網(wǎng)頁蜘蛛來處理。(4)網(wǎng)頁蜘蛛:主要負責(zé)處理所有響應(yīng),從中分析提取數(shù)據(jù)并獲得項目字段所需的數(shù)據(jù),向引擎提交需要跟蹤的URL并又一次進入到調(diào)度器之中。(5)項目管道:從爬行器中獲取的項目進行處理和后處理的地方。Scrapy的運行流程基本如下:(1)首先,引擎從調(diào)度程序中檢索的URL作為初始目標的檢索程序,并開始從此URL抓取。(2)其次,URL被引擎封裝為請求并且傳送給下載器,下載器把資源下載到本機后再封裝為響應(yīng)。(3)網(wǎng)頁蜘蛛接收響應(yīng)同時調(diào)用回調(diào)函數(shù)。2.2Pandas庫Pandas庫的創(chuàng)始人是一位名叫WesMcKinney的開發(fā)人員開發(fā)出來的,其開發(fā)Pandas庫的目的在于能夠?qū)λ玫降臄?shù)據(jù)進行更加精準的操作分析以及建模等。而在此出現(xiàn)之前,Python只能夠簡單的對數(shù)據(jù)進行處理以及作出一些準備,而對于如今的數(shù)據(jù)分析的貢獻并不是很大。而目前作為一個開源的Pandas,已經(jīng)能夠利用其強大的功能為數(shù)據(jù)處理提供高性能的處理和分析了。而如今帶有Pandas庫的Python語言已經(jīng)在廣泛的領(lǐng)域中使用,其中就包括有學(xué)術(shù)、商業(yè)、金融、經(jīng)濟學(xué)、統(tǒng)計和分析等。Pandas庫的主要特點:(1)具有快速高效的數(shù)據(jù)框架對象,具有默認和自定義索引。(2)處理數(shù)據(jù)對齊和丟失數(shù)據(jù)。(3)將不同文件格式的數(shù)據(jù)加載到內(nèi)存中的數(shù)據(jù)對象工具。(4)可以把日期一期重新塑造以及設(shè)置。(5)可以刪除或插入數(shù)據(jù)結(jié)構(gòu)中的列。(6)基于標簽的切片,大數(shù)據(jù)集的索引和子集。2.3pyecharts庫Pyecharts庫作為Python中一個圖表的庫,使用它生成的圖表的可觀程度非常的高,對數(shù)據(jù)進行分析起來十分的方便,通過圖表數(shù)據(jù)與數(shù)據(jù)的比較更容易得出數(shù)據(jù)分析的結(jié)果。Pyecharts庫的主要特點:(1)能夠支持鏈式的調(diào)用,并且能夠?qū)崿F(xiàn)簡單干凈的API設(shè)計。(2)能提供三十多種的常用圖表。(3)帶有JupyterNotebook和JupyterLab并支持當下的Notebook環(huán)境。(4)可輕松集成到Flask和Django等主流的Web框架。(5)擁有四百個以上的地圖文件,也能夠支持地理數(shù)據(jù)的可視化實現(xiàn)。(6)為新手開發(fā)項目提供更多的文檔支持。第三章基于Scrapy的數(shù)據(jù)抓取3.1頁面分析如圖3.1為Bilibili排行榜頁面,在對網(wǎng)頁的數(shù)據(jù)抓取前首先需要分析其頁面結(jié)構(gòu)。如圖3.2為網(wǎng)頁的html結(jié)構(gòu),排行榜頁面僅有題目,作者,觀看量,評論數(shù),綜合得分等數(shù)據(jù),更多數(shù)據(jù)需要進入視頻詳情頁面進行抓取。如圖3.3為視頻詳情的html結(jié)構(gòu),視頻詳情頁面可以獲取與播放視頻相關(guān)的一些播放量、三連量、轉(zhuǎn)發(fā)量、熱門標簽等信息,我們都可以通過xpath方法來抓取這些在div標簽的信息。圖3.1排行榜頁面圖3.2排行榜頁面代碼圖3.3視頻詳情代碼3.2數(shù)據(jù)結(jié)果表3.1為本文獲取數(shù)據(jù)格式,表3.1展示了其中的九行數(shù)據(jù),包括了作者、投幣數(shù)、彈幕數(shù)、三連數(shù)、作品id、點贊數(shù)、類別,回復(fù)數(shù)、得分、分享數(shù)、觀看數(shù)、題目以及標簽十三列的數(shù)據(jù)內(nèi)容。表3.1原始數(shù)據(jù)表作者投幣數(shù)彈幕三連id點贊數(shù)類別快樂的Ler5125423319648384695473051611191全站飛魚不在天2588171182754928891835249279854全站落桑西4590019464117605190609023858630全站翹課遲到4395295294836403289558467582909全站奶糕成精檔案社22907634179582291675841268103全站維C永不加班426321111372349445952356127動畫可口的紅糖126985994110739891060138208720國創(chuàng)相關(guān)是珍珍又是希希23322498052914943605292舞蹈明月莊主moon5027616087920828311030858720游戲續(xù)表3.1原始數(shù)據(jù)表回復(fù)數(shù)得分分享觀看數(shù)題目標簽1515812345441524674887831“?????????????”“??????????”MAD.AMV,天氣之子,全能打卡挑戰(zhàn),宮崎駿,你的名字,新海誠,MAD,影視剪輯,BGM,多素材,純音樂936812771440230623123675這十個軟件,讓你的電腦舒適度提升1400%數(shù)碼,Windows,電腦,軟件,演示,推薦,微軟1180986413057679258418668B站現(xiàn)狀搞笑,全能打卡挑戰(zhàn),B站,惡搞,BILIBILI,嗶哩嗶哩,搞笑視頻4248267599592479315520288處處零搞笑,翻唱,處處吻,全民音樂UP主,搞笑翻唱,惡搞45723202361464641602855孩子要出道了,《被迫營業(yè)》MV正式首發(fā)!!萌寵,宅家vlog挑戰(zhàn),可愛,動物圈,日常,搞笑87811710174153337412【全員踩點】JO廚興奮劑MAD.AMV,JOJO的奇妙冒險,AMV,JOJO,MAD,燃,踩點,腦洞搞笑,熱血,搞笑61513287288317962246312看的我熱血沸騰,看完你可能要重新認識喜羊羊童年回憶殺,喜羊羊與灰太狼,國產(chǎn)動畫,bilibili新星計劃,童年,熱血,催淚向,動漫,動畫,剪輯435367972490215874【希?!縎enorita穿襯衫的小老虎明星舞蹈,街舞,舞蹈,全能打卡挑戰(zhàn),性感,爵士舞123110773236984554399我的世界基巖版從零開始學(xué)紅石《合集》by明月莊主手機游戲,紅石教程,沙盒游戲,明月莊主,教程,我的世界紅石,我的世界手機版,我的世界PE,我的世界基巖版3.3數(shù)據(jù)預(yù)處理數(shù)據(jù)清理主要是通過刪除或修改不正確、不完整、不相關(guān)、重復(fù)或者格式不正確的數(shù)據(jù)來準備要分析的數(shù)據(jù)的過程。在分析數(shù)據(jù)時,此數(shù)據(jù)通常不是必需的或無用的,因為它可能會阻礙過程或提供不準確的結(jié)果。有幾種清理數(shù)據(jù)的方法,具體取決于數(shù)據(jù)的存儲方式以及所尋求的答案。數(shù)據(jù)清理不僅涉及擦除信息以為新數(shù)據(jù)騰出空間,還在于尋找一種方法來最大化數(shù)據(jù)集的準確性而不必刪除信息。一方面,數(shù)據(jù)清除包括比刪除數(shù)據(jù)更多的操作,例如修復(fù)拼寫和語法錯誤,標準化數(shù)據(jù)集以及更正錯誤,例如空字段,缺少代碼以及識別重復(fù)的數(shù)據(jù)點。另一方面,數(shù)據(jù)清理被認為是數(shù)據(jù)科學(xué)基礎(chǔ)的基礎(chǔ)要素,因為它在分析過程中扮演著重要角色,并能夠找到可靠的答案。最重要的是,數(shù)據(jù)清理的目的是創(chuàng)建標準化且統(tǒng)一的數(shù)據(jù)集,以允許商業(yè)智能和數(shù)據(jù)分析工具輕松訪問并為每個查詢找到正確的數(shù)據(jù)。從本次采集到的數(shù)據(jù)中發(fā)現(xiàn)并缺失值,而且采取數(shù)據(jù)有1300行和13列。由于全站榜包含在各分區(qū)靠前的視頻中,而在rank_tab中有一個全站榜的數(shù)據(jù),所以這里就要把全站榜除外,避免重復(fù)計算。df_without_all=df[~df['rank_tab'].isin(['全站'])]由上面的一行代碼可把“全站”這個元素整行進行排除,這樣就能夠得到一個名為df_without_all的Dataframe,由此一來便能夠簡單地把收集來的數(shù)據(jù)進行了一個預(yù)清洗。第四章數(shù)據(jù)分析4.1分區(qū)占比可視化首先對預(yù)處理好的數(shù)據(jù)按照綜合評分進行降序排序,然后再對其進行切片處理,接著獲取分區(qū)名列的前100項的數(shù)據(jù),最后再統(tǒng)計每一個分區(qū)出現(xiàn)次數(shù)進行返回處理。得到的分區(qū)占比可視化由下圖所示。圖4.1分區(qū)占比可視化從圖4.1中可以看出,在綜合評分top100當中,代表當代年輕人喜愛的二次元動畫所占比例為21%,僅排名第二。但是生活類的視頻卻超過動畫類視頻并占且據(jù)第一位。根據(jù)對二次元的定義,整體看的話完全屬于二次元的視頻比例占24%,二次元至今依然是B站的主力軍。在2018年的B站資料數(shù)據(jù)中顯示,所有頻道中播放量TOP5的分別是娛樂、生活、游戲、動畫和科技區(qū)。與我們數(shù)據(jù)相比較,生活、動畫類視頻的排名分別提升到了第1名和第2名,而娛樂、游戲、科技類視頻則跌出榜單,位列倒數(shù),但時尚、鬼畜、音樂類的視頻則成為了新秀。4.2平均播放量可視化在對綜合評分top100視頻的平均播放量進行可視化的時候,這里選擇了用柱形圖來對獲取的數(shù)據(jù)進行進一步的可視化。把綜合評分top100的視頻平均播放量作為指標,而視頻類型的名稱作為維度,然后生成柱形圖。由于Pyecharts起初生成的圖表為html的格式,這里為了方便就利用snapshot_selenium把html直接轉(zhuǎn)為png格式。圖4.2平均播放量可視化4.3平均三連情況可視化雖然前面已經(jīng)初步可視化出top100綜合評分視頻的平均播放量,但是由于平均播放量的單位是人次而不是人數(shù),為了更加全面的反映出在B站用戶的具體喜愛的視頻類型。這里還需要對B站用戶在top100綜合評分視頻中的點贊、投幣和收藏的三連情況進行可視化操作。圖4.1-圖4.6是綜合評分top100中各分區(qū)平均三連情況分析,這里依舊是用snapshot_selenium把html直接轉(zhuǎn)為png格式,但是選擇的是雷達圖來對獲取的數(shù)據(jù)進行進一步的可視化。具體如下圖所示。圖4.3點贊情況可視化圖4.4投幣情況可視化圖4.5收藏情況可視化圖4.6三連情況可視化由以上三張雷達圖可以看出,在點贊人數(shù)里,影視區(qū)的視頻擁有最高的點贊量,其次為生活區(qū);在投幣人數(shù)里,生活區(qū)的視頻擁有最高的投幣量,其次為動畫區(qū);在收藏人數(shù)里,時尚區(qū)的視頻擁有最高的收藏量,其次為影視區(qū)。4.4各區(qū)平均播放可視化為了進一步對B站用戶喜愛視頻類型全面了解,若僅是對全站中的top100綜合評分視頻的數(shù)據(jù)分析可能還不足達到比較全面的效果。所以下面我將對所有視頻分區(qū)的top100綜合評分的視頻的平均播放量進一步進行分析。首先對前面提及的df_without_all按照分區(qū)名來進行分類,其次再統(tǒng)計出各個分區(qū)情況數(shù)據(jù)的平均值,最后完成后存入csv文件中。如此一來便完成簡單的數(shù)據(jù)預(yù)處理。之后這里選擇折線圖對視頻平均播放量的數(shù)據(jù)進行可視化,用前面所提及的方法轉(zhuǎn)化為以下的圖表。圖4.7各區(qū)播放量可視化由圖4.7可以看出,在各視頻分區(qū)的top100綜合評分之中,鬼畜區(qū)的平均播放量為最高,其次為生活區(qū),第三為動畫區(qū),相比于以往的生活區(qū)和動畫區(qū),相比于其它網(wǎng)站沒有而作為B站獨有特色的鬼畜區(qū)的平均播放量在這次有所上升。4.4熱門標簽可視化在對視頻進行了平均播放量的可視化分析之后,最后可以再對視頻的熱門標簽進行可視化的分析。因為在B站的視頻之中,每一個視頻都有不同的標簽,而數(shù)量眾多的視頻的標簽加起來就會出現(xiàn)標簽重復(fù)的情況。所以接下來需要對視頻標簽進行一個去重的工作,求出唯一的標簽,再去計算每一個標簽出現(xiàn)的次數(shù)。該過程稍微比較復(fù)雜,首先要在tag_name得到所得數(shù)據(jù),然后創(chuàng)建一個特定規(guī)格的Dataframe,命名后遍歷df_without_all[‘tag_name’],如果與tag_df的columns對應(yīng),則將tag_df中對應(yīng)的columns*index單元格賦值為1,最后對每一列的1進行求和。以上方法雖然比較復(fù)雜,但是Pandas庫里有更加簡便的方法能夠去實現(xiàn)這種復(fù)雜的操作。該方法在df_without_all的tag_name列提取熱門的標簽,然后把熱門的標簽數(shù)據(jù)作為一維的列表,再轉(zhuǎn)化為之后,調(diào)用方法進行賦值。其熱門可視化如下圖。圖4.8熱門標簽可視化由圖4.8可以看出,今年的熱門視頻標簽與之前B站所統(tǒng)計的熱門視頻標簽相對比,在B站熱門視頻標簽出現(xiàn)最多的仍然是搞笑標簽,而鬼畜和Bilibili新星計劃等幾個標簽作為B站獨有的文化仍然比較顯眼,而且在今年的視頻標簽中能夠發(fā)現(xiàn)挺多與生活相關(guān)的標簽,這說明每一年的視頻標簽都在不停地變化。第五章總結(jié)與展望5.1工作總結(jié)此次的畢業(yè)設(shè)計雖然耗時三四個月,但是作為對自己四年大學(xué)的一個總結(jié),還是經(jīng)過不懈努力把它完成了。從選題到開題報告,再從開題報告到畢業(yè)設(shè)計的實現(xiàn)以及論文的撰寫都需要查閱大量的課題資料與實現(xiàn)該設(shè)計的涉及的相關(guān)技術(shù)的文檔和書籍。通過這三四個月的不斷學(xué)習(xí)與動手實踐,也以這種一邊學(xué)習(xí)一邊動手的方式逐漸熟悉了基于Python對網(wǎng)站中網(wǎng)絡(luò)視頻的數(shù)據(jù)爬取和數(shù)據(jù)分析。在21世紀的今天,網(wǎng)絡(luò)發(fā)展越來越快,網(wǎng)上的娛樂方式也越來越多樣化,而如今在網(wǎng)上觀看視頻消遣時間越來越受到大眾的青睞。Bilibili視頻網(wǎng)站是現(xiàn)當下年輕人最受歡迎的一個視頻網(wǎng)站。有調(diào)查顯示,直到2019年的10月份,Bilibili視頻網(wǎng)站的用戶在總體網(wǎng)絡(luò)視頻用戶占比高達90%。它與其他的視頻網(wǎng)站用戶相比較,其用戶忠實度更高,據(jù)其招募報告稱,其成員的12個月保留率達79%,而2009年注冊的用戶中60%的今天仍然活躍。Bilibili是目前國內(nèi)最受歡迎的綜合用戶網(wǎng)站,分析其視頻熱度可以從側(cè)面分析15-45歲群體的愛好,有著重要研究意義。本次論文所進行的工作得出的總結(jié)主要有以下幾個方面:(1)通過分析B站綜合評分top100的視頻分類占比中,我們可以發(fā)現(xiàn)生活區(qū)的占比最高,其次為動畫區(qū),可見目前B站主流視頻類型為生活類和動畫類。(2)通過分析B站綜合評分top100的視頻平均播放量情況時,我們可以發(fā)現(xiàn)動畫類型的視頻平均播放量最高,其次為時尚類的視頻,可見在B站用戶里最受歡迎的還是動畫類的視頻,也從進一步判斷出B站用戶的年齡總體比較年輕。(3)通過分析B站用戶在top100視頻各分區(qū)的平均三連情況,我們可以發(fā)現(xiàn)點贊較多的視頻類型分別為影視、生活、動畫類型,投幣較多的視頻類型分別為動畫、生活、游戲類型,收藏較多的視頻類型分別為時尚、影視、動畫類型,其中最高的為時尚類型??偨Y(jié)平均三連情況可得知在點贊人數(shù)里,影視區(qū)的視頻擁有最高的點贊量,其次為生活區(qū);在投幣人數(shù)里,生活區(qū)的視頻擁有最高的投幣量,其次為動畫區(qū);在收藏人數(shù)里,時尚區(qū)的視頻擁有最高的收藏量,其次為影視區(qū)。由此可知B站用戶更喜歡把數(shù)量有限的幣投給動畫和生活類型的視頻,而相對于比較實用的時尚和科技類型的視頻他們就更偏向于收藏了。(4)通過分析B站視頻的熱門標簽,我們可以知道今年的熱門視頻標簽與之前B站所統(tǒng)計的熱門視頻標簽相對比,在B站熱門視頻標簽出現(xiàn)最多的仍然是搞笑標簽,可見B站用戶多數(shù)都喜歡能給人帶來快樂的視頻類型。而鬼畜和Bilibili新星計劃等幾個標簽作為B站獨有的文化仍然比較顯眼,而且在今年的視頻標簽中能夠發(fā)現(xiàn)挺多與生活相關(guān)的標簽,結(jié)合往年B站的熱門視頻標簽分析,這說明在B站可能每一年的視頻標簽都在不停地變化。5.2展望這個時代是被數(shù)據(jù)支配的時代,而數(shù)據(jù)分析毋庸置疑是當今互聯(lián)網(wǎng)發(fā)展的必由之路。而網(wǎng)絡(luò)視頻作為當下社會的精神文化產(chǎn)品,得到越來越多人的喜愛。所以對網(wǎng)絡(luò)視頻進行數(shù)據(jù)分析顯得十分重要,它能幫助人們進行判斷。而本文是基于Python對“嗶哩嗶哩視頻網(wǎng)”不同類型視頻進行數(shù)據(jù)分析,能進一步分析其視頻熱度,方便了解如今B站15-45歲群體的愛好。雖然本次通過對“嗶哩嗶哩視頻網(wǎng)”不同視頻類型的數(shù)據(jù)分析得到一定的成果,但是在此過程中仍然存在一些不足需要在以后的分析中得以完善。參考文獻[1]馬翔.視頻網(wǎng)站數(shù)據(jù)分析平臺中自制節(jié)目數(shù)據(jù)可視化應(yīng)用研究[D].湖南大學(xué),2015.[2]崔楠,郭俞,張會雄.基于彈幕數(shù)據(jù)分析的熱門短視頻評價研究[J].實驗科學(xué)與技術(shù),2019,17(3).[3]徐璐.基于Web挖掘的視頻推薦系統(tǒng)分析與實現(xiàn)[D].2016.[4]顧軍華,高星,王守彬,等.基于大數(shù)據(jù)的IPTV視頻評估模型[J].計算機應(yīng)用與軟件,2018,35(8):231r237.[5]舒德華.基于Scrapy爬取電商平臺數(shù)據(jù)及自動問答系統(tǒng)的構(gòu)建[D].華中師范大學(xué),2016.[6]CamilaLange,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度舞蹈學(xué)校校長職務(wù)合同
- 二零二五年度房屋出租免責(zé)及租賃保證金合同
- 二零二五年度企業(yè)員工溝通技巧授課勞務(wù)合同
- 二零二五年度股東股份協(xié)議書:跨境電子商務(wù)平臺股權(quán)投資協(xié)議
- 2025年度離職員工離職手續(xù)辦理及競業(yè)限制責(zé)任協(xié)議
- 2025年度私人修路項目過路通行費用結(jié)算協(xié)議
- 二零二五年度KTV租賃合同(詳細規(guī)定租期起止日期及娛樂活動)
- 二零二五年度教育信息化供應(yīng)商合作協(xié)議范本
- 二零二五年度醫(yī)療設(shè)施裝修工程與醫(yī)療專用材料供應(yīng)商專項合同
- 教師信息技術(shù)應(yīng)用能力提升績效評估方案
- 2024-2030年墨西哥五硫化二磷市場前景分析
- 國家基層糖尿病神經(jīng)病變診治指南(2024版)
- 老人存款兒女代管協(xié)議書
- 包裝結(jié)構(gòu)設(shè)計-管式折疊紙盒
- 2024年江西工業(yè)貿(mào)易職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫附答案
- 中國保險行業(yè)協(xié)會官方-2023年度商業(yè)健康保險經(jīng)營數(shù)據(jù)分析報告-2024年3月
- 注射泵操作評分標準
- 新人教版五年級PEP英語下冊單詞表
- 動力國際項目詳情
- 免拆底模鋼筋桁架樓承板圖集
- 2023-2024學(xué)年成都市金牛區(qū)中考英語二診試題(含答案)
評論
0/150
提交評論