版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于python的游戲銷量數(shù)據(jù)分析與預(yù)測目錄TOC\o"1-3"\h\u30100第一章緒論 5124071.1研究背景與意義 5306971.2國內(nèi)外研究現(xiàn)狀 511245第二章相關(guān)理論及方法 6227272.1文本型數(shù)據(jù)處理 6327002.2支持向量機回歸(SVR)模型 7106912.3隨機森林(RF)模型 86315第三章數(shù)據(jù)分析過程 8266073.1數(shù)據(jù)來源 8157093.2數(shù)據(jù)描述 9281113.3數(shù)據(jù)清洗 969013.4數(shù)據(jù)分析 1197303.5總結(jié) 159099第四章游戲銷量預(yù)測模型的構(gòu)建 1631524.1模型評價指標 16137194.2基于SVR的視頻游戲銷量預(yù)測模型的建立 17143194.3基于隨機森林的視頻游戲銷量預(yù)測模型的建立 19316244.4模型比較 2016713第五章總結(jié)與展望 20115395.1論文總結(jié) 2098585.2不足與展望 2126626參考文獻 2211657致謝 23摘要:在當(dāng)今的科技飛速發(fā)展的大環(huán)境下,游戲行業(yè)瞬息萬變,充滿了激烈的競爭。游戲開發(fā)公司和發(fā)行商面臨著重要而復(fù)雜的任務(wù),需要進行數(shù)據(jù)分析與銷量預(yù)測。通過利用先進的技術(shù)手段,比如使用python來做大數(shù)據(jù)的處理,以及使用tableau來進行數(shù)據(jù)可視化等,挖掘與分析游戲市場,有助于企業(yè)更好地理解用戶的需求,并預(yù)測銷量趨勢,從而更好地調(diào)整產(chǎn)品策劃和推廣策略,提高市場競爭力。因此,游戲市場的數(shù)據(jù)分析與銷量預(yù)測是當(dāng)前電子產(chǎn)業(yè)中一個重要的研究方向,對于游戲開發(fā)公司和發(fā)行商來說具有重要意義和積極影響。本研究從用戶層面、發(fā)行商層面、市場層面對游戲銷量數(shù)據(jù)進行可視化分析,并基于支持向量回歸(SVR)和隨機森林(RandomForest)算法構(gòu)建銷量預(yù)測模型,旨在分析游戲市場需求與玩家行為,幫助游戲開發(fā)公司和發(fā)行商提供科學(xué)合理的決策依據(jù)。關(guān)鍵詞:數(shù)據(jù)可視化分析;機器學(xué)習(xí);游戲銷量預(yù)測;python第一章緒論1.1研究背景與意義(1)研究背景隨著智能手機以及電子設(shè)備的的壯大,如今的游戲市場占據(jù)著整個市場較大的份額。電子游戲(VideoGames,有一少部分學(xué)者使用ElectronicGames),又被稱為電玩游戲,自從它誕生以來,游戲逐漸融入進人們的業(yè)余活動,給人們在緊張的生活壓力下帶來的許多的精神世界上的樂趣,讓人類的生活更加的豐富。諾蘭·布什納爾(NolanBushnell)于1979年創(chuàng)立的著名的雅達利公司,在其開發(fā)的電視游戲主機上,盛大地發(fā)布了一款能互換程序的二代電視機控制器。該產(chǎn)品一經(jīng)問世便大受歡迎,并因此獲得了3億3千萬的收入,同時也成為了當(dāng)時最受歡迎的圣誕禮品。第二年的銷售增長至四億六千四百萬,在第3年增加至十億;在第四年,也就是1982年,創(chuàng)造了三十億美金的銷售記錄。隨著互聯(lián)網(wǎng)時代的飛速發(fā)展,游戲產(chǎn)業(yè)也越來越受到人們的重視。據(jù)微信公眾號《手游那點事》公布的數(shù)據(jù),2023年全球游戲市場收入達到約1840億美元,較上年同期增長0.6%。從平臺來看,手機游戲在收入中所占比例最高(49%)是最大的,但這一數(shù)字為904億美元,同比下降1.6%。與之相比,在2023年,游戲機游戲的全球總收入分別為532億美元和384億美元,而個人電腦網(wǎng)絡(luò)游戲的總收入則為19億美元,與去年相比大幅下降了16.9%。根據(jù)橫跨40多年的數(shù)據(jù)對比來看,游戲市場在不斷的壯大,所以我們對游戲銷售數(shù)據(jù)的分析是非常有必要的。(2)研究意義電子產(chǎn)業(yè)是一個競爭十分激烈的行業(yè),加之其市場風(fēng)向變化很快,游戲銷售數(shù)據(jù)的分析對于游戲開發(fā)商來說具有重要意義。本文通過利用python和tableau對銷售數(shù)據(jù)進行可視化分析,可以幫助企業(yè)及時了解玩家的需求和喜好,從而更好地調(diào)整游戲內(nèi)容和開發(fā)方向,提高游戲的吸引力和競爭力。這樣的精準需求定位有助于節(jié)約開發(fā)成本,避免在不必要方向上進行投資,并且可以更加精確地進行市場定位,同時,這樣的分析方法也有能力揭示數(shù)據(jù)中隱藏的規(guī)律和趨勢,為企業(yè)制定銷售策略和推廣活動提供科學(xué)依據(jù)。除此之外,對于研究者和學(xué)術(shù)界而言,該研究可填補相關(guān)領(lǐng)域的空白,推動學(xué)科的進展。1.2國內(nèi)外研究現(xiàn)狀(1)銷量模型國內(nèi)研究現(xiàn)狀國內(nèi)有關(guān)銷量預(yù)測的研究主要涉及基于數(shù)學(xué)和統(tǒng)計方法、深度學(xué)習(xí)算法以及機器學(xué)習(xí)算法等方面的預(yù)測研究。隨著深度學(xué)習(xí)技術(shù)的進步,基于神經(jīng)網(wǎng)絡(luò)的銷量預(yù)測模型取得了顯著的發(fā)展。深度學(xué)習(xí)模型能夠自主提取數(shù)據(jù)特征,從而更有效地分析復(fù)雜的銷售數(shù)據(jù),提高了預(yù)測的準確性。王方宇以傳統(tǒng)預(yù)測方法為對照,構(gòu)建了基于梯度提升決策樹(GBDT)的多因素銷量預(yù)測模型。張雷東利用Stacking策略組合了Xgboost、SVR(支持向量回歸)和GRU神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)模型,隨后采用lightGBM作為最終預(yù)測模型,顯著提升了模型的預(yù)測性能。(2)銷量模型國外研究現(xiàn)狀盡管游戲行業(yè)的發(fā)展取得了顯著成效,但是目前關(guān)于游戲銷量的預(yù)測和研究,無論是國內(nèi)還是國外的文獻數(shù)量仍相對較為有限。通過閱讀國外的文獻發(fā)現(xiàn)針對游戲銷量預(yù)測領(lǐng)域的現(xiàn)有研究里,JulieMarcoux提出了一種基于連接主義和子空間分解的銷售預(yù)測方法,該方法利用反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò),以實現(xiàn)視頻游戲周銷量的預(yù)測。而ZHIPENGF等人通過對不同類型的數(shù)據(jù)進行統(tǒng)計分析,分析不同類型數(shù)據(jù)下不同類型的數(shù)據(jù)對不同類型用戶的評價結(jié)果的差異,揭示不同類型數(shù)據(jù)下不同類型用戶對不同類型數(shù)據(jù)的不同處理方式對不同類型用戶的評價結(jié)果的差異。第二章相關(guān)理論及方法2.1文本型數(shù)據(jù)處理針對所涉及的文本類型數(shù)據(jù),包括游戲發(fā)行年份、發(fā)行平臺和游戲發(fā)行商等特征,本研究采用了Pandas.get_dummies方法對其進行特征處理。pandas
中的
get_dummies
方法主要用于對類別型特征做One-Hot編碼(獨熱編碼)。one-hot的基本思想:將離散型特征的每一種取值都看成一種狀態(tài),若你的這一特征中有N個不相同的取值,那么我們就可以將該特征抽象成N種不同的狀態(tài),one-hot編碼保證了每一個取值只會使得一種狀態(tài)處于“激活態(tài)”,也就是說這N種狀態(tài)中只有一個狀態(tài)位值為1,其他狀態(tài)位都是0??梢赃@樣理解,對于每一個特征,如果它有m個可能值,那么經(jīng)過獨熱編碼后,就變成了m個二元特征(如成績這個特征有好,中,差變成one-hot就是100,010,001)。并且,這些特征互斥,每次只有一個激活。因此,數(shù)據(jù)會變成稀疏的。這樣做的好處主要有:解決了分類器不好處理屬性數(shù)據(jù)的問題,在一定程度上也起到了擴充特征的作用。2.2支持向量機回歸(SVR)模型支持向量機回歸(SupportVectorRegression,SVR)是一種基于支持向量機(SupportVectorMachine,SVM)的回歸方法。與傳統(tǒng)的回歸方法不同,SVR的目標不是直接擬合數(shù)據(jù),而是通過在特征空間中找到一個超平面,使得樣本點盡可能地位于該超平面附近,并且在容忍范圍內(nèi)允許一定的誤差如REF_Ref21099\h圖1所示。圖SEQ圖\*ARABIC1具體而言,SVR的思想是將回歸問題轉(zhuǎn)化為一個優(yōu)化問題。通過引入一個邊界帶(margin),將目標值限制在該邊界帶內(nèi),同時盡量使得邊界帶之外的樣本點盡量少。在SVR中,使用核函數(shù)將輸入特征映射到高維特征空間,然后在該特征空間中尋找最優(yōu)的超平面。SVR算法可以使用Scikit-Learn的SVR類來實現(xiàn),SVR的問題可形式化為如公式(1-1)所示(1-1)其中,為正則化常數(shù),為不敏感損失(insensitiveloss)函數(shù),引入松弛變量和,可將式重寫為如公式(1-2)所示(1-2)2.3隨機森林(RF)模型隨機森林(RandomForest,RF)是一種比較新的機器學(xué)習(xí)模型(非線性基于樹的模型)集成學(xué)習(xí)方法,決策樹+bagging=隨機森林。上世紀八十年代Breiman等人提出了分類樹算法,可以通過反復(fù)二分數(shù)據(jù)進行分類或回歸,統(tǒng)計工作量大大降低,2001年Breiman把分類樹組合成隨機森林,即在變量(列)的使用和數(shù)據(jù)(行)的使用上進行隨機化,生成很多分類樹,再匯總分類樹結(jié)果。隨機森林在計算量沒有顯著提高的前提下提高了預(yù)測精度,隨機森林對多元共線性不敏感,結(jié)果對缺失數(shù)據(jù)和非平衡數(shù)據(jù)比較穩(wěn)健,可以很好地預(yù)測多達幾千個解釋變量的作用,被譽為當(dāng)前最好算法之一,隨機森林是用隨機的方式構(gòu)建的一個森林,森林由很多的決策樹組成,且每一棵決策樹之間是沒有相互關(guān)聯(lián)的,大概流程如REF_Ref21723\h圖2所示。圖SEQ圖\*ARABIC2本研究使用ensemble模型庫中的RandomForestRegressor創(chuàng)建隨機森林模型對象。第三章數(shù)據(jù)分析過程3.1數(shù)據(jù)來源本文采取的數(shù)據(jù)來源于kaggle網(wǎng)站上的游戲銷量數(shù)據(jù)集,該數(shù)據(jù)集內(nèi)含有不同游戲約16600條游戲數(shù)據(jù)。3.2數(shù)據(jù)描述首先將數(shù)據(jù)集導(dǎo)入到Python中進行分析,觀察數(shù)據(jù)集中所存在的字段及屬性,各個字段的主要含義如REF_Ref21524\h表1所示。表SEQ表\*ARABIC1數(shù)據(jù)字段解釋編號字段名字段解釋1Rank銷售排名2Name游戲名3Platform平臺4Year游戲發(fā)布年份5Genre游戲類型6Publisher游戲發(fā)行商7NA_Sales北美銷量額(百萬)8EU_Sales歐洲銷量額(百萬)9JP_Sales日本銷量額(百萬)10Other_Sales其他地區(qū)銷量(百萬)11Global_Sales全球總銷量額(百萬)3.3數(shù)據(jù)清洗(1)缺失值處理在數(shù)據(jù)搜集的過程中,因為多種因素,可能會遇到數(shù)據(jù)不完整的情況,從而出現(xiàn)缺失值。這個問題通常是不可避免的。所以,在數(shù)據(jù)處理階段,處理缺失值是一個經(jīng)常遇到的挑戰(zhàn)。如果處理方式不正確,可能會簡單地將含有缺失值的數(shù)據(jù)排除出分析過程,這不僅會降低分析的精確度,還可能引入偏差,導(dǎo)致錯誤的判斷。通過對表格中各個域的數(shù)據(jù)進行統(tǒng)計,發(fā)現(xiàn)“游戲發(fā)布年份(Year)”和“游戲發(fā)行商(Publisher)”兩個字段都有丟失的數(shù)據(jù),如下REF_Ref21687\h圖3所示,由于缺少數(shù)據(jù)的年份是不能確定的,而對于丟失數(shù)據(jù)的填充也是不現(xiàn)實的,所以我們打算對有年份遺漏數(shù)據(jù)的案例進行剔除。在“游戲發(fā)布年份(Year)”欄中移除遺漏的數(shù)值后,在“游戲發(fā)行商(Publisher)”欄中找到了一些遺漏的信息,因為遺漏的比率很低,所以將這個遺漏的案例直接剔除掉了,刪除后還余下16291條數(shù)據(jù)。圖SEQ圖\*ARABIC3(2)重復(fù)值處理在實際數(shù)據(jù)收集、處理及分析過程中,常會碰到重復(fù)數(shù)據(jù)的問題。重復(fù)數(shù)據(jù)是數(shù)據(jù)分析和數(shù)據(jù)挖掘過程中的一個重要環(huán)節(jié)。例如,在logistic回歸分析中,數(shù)據(jù)重復(fù)對模型擬合的影響較大;在數(shù)據(jù)分析過程中,數(shù)據(jù)重復(fù)對預(yù)測內(nèi)容的準確性有很大的影響。因此,對具有重復(fù)值的數(shù)據(jù)進行處理具有重要意義。經(jīng)過對數(shù)據(jù)重復(fù)值刪除后,再對數(shù)據(jù)進行查詢我們發(fā)現(xiàn),該數(shù)據(jù)集中沒有重復(fù)值的出現(xiàn),在這里我們將“游戲發(fā)布年份(Year)”數(shù)據(jù)由float型轉(zhuǎn)化為int型數(shù)據(jù)。異常值處理異常值是個很重要的概念.異常點指的是一組與大部分數(shù)據(jù)顯著不符的觀察值。這些異常點的產(chǎn)生可能來自于數(shù)據(jù)采集不準確,事件不正常,度量不正確等。在很多機器學(xué)習(xí)算法中,異常點是影響預(yù)測效果的重要因素。所以檢測和處理是必要的。鑒于該數(shù)據(jù)為含時間的面板數(shù)據(jù),本人檢視了歷年數(shù)據(jù)的分布狀況,結(jié)果顯示2017及2020年數(shù)據(jù)量偏少,并發(fā)現(xiàn)二者間多年間斷,且2018及2019年資料有缺失,故需先剔除2017及2020年數(shù)據(jù)。得到處理后的數(shù)據(jù),對其進行描述性統(tǒng)計分析,數(shù)據(jù)基本情況如REF_Ref21919\h圖4所示。圖SEQ圖\*ARABIC4通過統(tǒng)計數(shù)據(jù)分析,我們得知該數(shù)據(jù)集中包含了1980年至2016年間的電子游戲銷售情況。3.4數(shù)據(jù)分析數(shù)據(jù)分析是在對海量數(shù)據(jù)進行深入研究、細致分析、全面歸納的過程。它的基本目的就是從這些數(shù)據(jù)中提煉出有益的數(shù)據(jù),以便輔助決策者進行科學(xué)的決策。通過對這些數(shù)據(jù)進行研究,能夠挖掘出其中蘊含的規(guī)則與變化,挖掘出其中存在的問題與機會,從而為企業(yè)與機構(gòu)的發(fā)展與創(chuàng)新提供理論依據(jù)。通過數(shù)據(jù)分析,人們可以更準確地了解現(xiàn)狀,預(yù)測未來走勢,并根據(jù)分析結(jié)果采取切實可行的行動,以實現(xiàn)目標的實現(xiàn)與持續(xù)改善。本研究通過對用戶、發(fā)行商和市場三個關(guān)鍵方面進行綜合分析,我們可以獲得關(guān)于近年電子游戲市場銷售情況的有關(guān)數(shù)據(jù)和信息。(1)從用戶層面游戲作為一種娛樂方式,其銷量分析需要從用戶需求出發(fā),了解用戶喜好的游戲類型以及常用的游戲平臺。因此,數(shù)據(jù)分析應(yīng)重點關(guān)注用戶喜好和游戲平臺偏好,為游戲銷量提供有效的用戶層面參考依據(jù)。首先,我們對全球銷量前十的游戲進行可視化分析如REF_Ref22118\h圖5所示圖SEQ圖\*ARABIC5全球銷售額排名前十游戲通過分析我們可以看到,從1980年至2020年間全球銷售額排名前十的游戲列表。這些游戲都是電子游戲歷史上極具影響力的作品,它們在全球范圍內(nèi)取得了巨大的商業(yè)成功。銷量最高的游戲是WiiSports,這些游戲不僅在游戲歷史上留下了深刻的印記,也為電子游戲產(chǎn)業(yè)的發(fā)展做出了巨大的貢獻。接下來,我們對用戶最喜歡的游戲類型進行可視化分析如下REF_Ref22255\h圖6所示。圖SEQ圖\*ARABIC6用戶最喜歡的游戲類型排行通過分析我們可以看到,最受用戶喜歡的游戲類型為Action(動作類)游戲,總銷售額達到了1723百萬美元,與排名第二的Sports(體育運動)類型游戲相差了約400百萬美元的銷售額。其次,我們對近十年全球游戲平臺用戶量進行可視化分析如下REF_Ref22562\h圖7、REF_Ref22569\h圖8所示。圖SEQ圖\*ARABIC72011-2015年游戲平臺用戶量圖SEQ圖\*ARABIC82016-2020年游戲平臺用戶量通過前五年與后五年的對比分析圖我們可以看到,電子產(chǎn)業(yè)技術(shù)不斷前進,產(chǎn)品設(shè)計和性能不斷提升,逐漸替代老舊產(chǎn)品成為市場焦點。在這樣的大背景下,PS4作為一個新一代游戲機在市場上的表現(xiàn)受到了廣泛的關(guān)注。與此同時,PS2的市場地位逐漸被逐步取代。這樣的對比分析,具有較高的指導(dǎo)意義,也能更好地了解消費者需求,促進新產(chǎn)品開發(fā)。1990年3月4號,索尼推出了第二代游戲機PS2,距今已有二十年。PS2不僅僅是一次商業(yè)上的成功,它更是我們童年時代的回憶。(2)從發(fā)行商層面其次,我們以發(fā)行商為重點,對全球排名前十的游戲發(fā)行商進行可視化分析如REF_Ref22735\h圖9所示。圖SEQ圖\*ARABIC9全球十大發(fā)行商通過1980-2020年全球十大發(fā)行商進行分析,我們可以得出,最受歡迎的發(fā)行商是Nintendo(任天堂)和ElectronicArts。很多人對
Nintendo這個名字并不熟悉,但是《超級馬里奧》這個名字,卻是很多人的回憶。那時候,《超級馬里奧》已經(jīng)在全國范圍內(nèi)掀起了一股熱潮,甚至還在全球范圍內(nèi)掀起了一股熱潮。(3)從游戲市場層面隨后,我們以市場為重點,旨在深入分析全球電子游戲市場和四大地區(qū)的銷售額變化情況,探討其發(fā)展趨勢和影響因素,各地區(qū)銷量趨勢圖如REF_Ref22902\h圖10所示。圖SEQ圖\*ARABIC10各地區(qū)銷量趨勢圖通過1980-2020年各地區(qū)電子游戲銷量趨勢圖我們可以看到,總的來說,從1980到1995年,電子游戲行業(yè)的發(fā)展趨向是平穩(wěn)的。在隨后的1995-2007年期間,電子游戲行業(yè)迅速增長,并在2007和2008年之間實現(xiàn)了一個高峰。不過,從那以后,電子游戲產(chǎn)業(yè)就開始走下坡路了,直到2016年,它的總銷售額還不到95年的水準,這個市場進入了一個蕭條的階段?;蛟S是因為最近幾年,手游的發(fā)展速度很快,所以在2018年以后,電子游戲的銷售額都有所下降。圖SEQ圖\*ARABIC11各地區(qū)總銷量對比圖根據(jù)不同地區(qū)游戲銷量對比REF_Ref23127\h圖11所示,北美地區(qū)的游戲銷售額最高。結(jié)合實際情況分析可得,經(jīng)濟發(fā)達地區(qū)的玩家有更強的購買力。游戲銷量和經(jīng)濟發(fā)展水平有一定的相關(guān)性,但是具體的相關(guān)性還需要與其他發(fā)達國家的數(shù)據(jù)進行比較。例如日本作為一經(jīng)濟發(fā)達國家,貢獻了全球游戲銷售額的14%,購買力顯著。3.5總結(jié)通過從用戶層面、發(fā)行商層面、市場層面對視頻游戲銷量數(shù)據(jù)進行分析,在電子游戲熱潮中,Action(動作類)游戲占據(jù)了最大的市場份額,緊隨其后的是Sports(體育)類和Shooter(射擊類)游戲。近十年來,用戶量最高的平臺分別是PS3和PS4。在游戲發(fā)行商銷量方面,Nintendo(任天堂),ElectronicArts(藝電公司,簡稱EA),Activision(動視公司)占據(jù)前三,且差距顯著。任天堂在大部分類型游戲領(lǐng)域都處于龍頭地位,占比第一;視頻游戲銷量在1995年開始逐漸上升,受2008年金融危機影響,視頻游戲銷量到2008年左右達到頂峰,此后開始階段性下滑。在經(jīng)濟發(fā)達區(qū)域,玩家擁有更多金錢用于購買游戲的現(xiàn)象一定程度上與經(jīng)濟發(fā)展水平相關(guān)。然而,為了準確評估銷售額與經(jīng)濟發(fā)達程度之間的關(guān)系,需要與其他經(jīng)濟發(fā)達國家的數(shù)據(jù)進行對比分析。各大游戲廠商應(yīng)該進一步挖掘銷量下滑原因,是否是手游、網(wǎng)游等影響,并針對性采取措施。第四章游戲銷量預(yù)測模型的構(gòu)建本章通過對數(shù)據(jù)集進行隨機劃分,擬通過構(gòu)建支持向量回歸機(SVR)模型和隨機森林模型,并選取均方誤差,均方根誤差,決定系數(shù)作為評價模型預(yù)測準確性的指標。4.1模型評價指標本研究采用均方誤差(RMSE)、平均絕對誤差(MAE)、決定系數(shù)(R2)三個指標對模型的預(yù)測效果進行評價,評價指標如下所示均方根誤差(RMSE)均方根誤差(RMSE)是均方誤差的平方根,它的數(shù)值越小,表示預(yù)測值和實際值之間的誤差就越小,說明模型具有較強的預(yù)測能力。且單位與原樣本保持一致,可以更好地描述數(shù)據(jù),其計算公式如(4-1)所示, (4-1)其中,為樣本個數(shù);為真實值;為預(yù)測值。平均絕對誤差(MAE)平均絕對誤差(MAE)是衡量預(yù)測值和實際值的平均值,它對離群點的敏感度較低,但不能準確地反映預(yù)報誤差的分布狀況。MAE越小表示模型越好。其公式計算如(4-2)所示,(4-2)其中,為樣本個數(shù);為真實值;為預(yù)測值。決定系數(shù)(R2)常用決定系數(shù)R2作為回歸模型擬合能力的指標,其數(shù)值越接近于0,說明擬合效果越差;它的數(shù)值越接近于1,說明該模型對因變量的解釋能力越強,也就是說,該模型的擬合效果也就越好。其計算公式如(4-3)所示,(4-3)其中,為樣本個數(shù);為真實值;為預(yù)測值。4.2基于SVR的視頻游戲銷量預(yù)測模型的建立(1)首先,對已進行過清洗處理的數(shù)據(jù)劃分成訓(xùn)練集和測試集,并對數(shù)據(jù)進行標準化處理。劃分過后的訓(xùn)練集與測試集如下REF_Ref23290\h圖12、REF_Ref23303\h圖13所示;圖SEQ圖\*ARABIC12訓(xùn)練集圖SEQ圖\*ARABIC13測試集創(chuàng)建一個SVR模型并使用測試集數(shù)據(jù)進行預(yù)測,使用X_train_scaled和y_train來訓(xùn)練模型,使用訓(xùn)練好的模型對X_test_scaled進行預(yù)測;其次輸出預(yù)測的均方根誤差、平均絕對誤差、決定系數(shù)如下REF_Ref23552\h圖14所示。圖SEQ圖\*ARABIC14SVR模型的評價指標導(dǎo)入matplotlib.pyplot包,將預(yù)測結(jié)果進行可視化如下REF_Ref23721\h圖15所示。圖SEQ圖\*ARABIC15SVR模型預(yù)測結(jié)果圖通過對
SVR模型預(yù)測結(jié)果進行可視化分析,得到了與實際情況基本一致的預(yù)報結(jié)果,表明其擬合效果良好,可以很好地反映出實際情況。因此,在實際應(yīng)用中,可以考慮利用該模型進行相關(guān)問題的預(yù)測和分析,為決策提供有力的支持和依據(jù)。4.3基于隨機森林的視頻游戲銷量預(yù)測模型的建立隨機森林作為常見的機器學(xué)習(xí)算法,其基于決策樹的原理,通過隨機構(gòu)建多個決策樹,并將它們集成進行預(yù)測。本研究旨在建立基于隨機森林的游戲銷量預(yù)測模型,主要包括數(shù)據(jù)準備、隨機森林建模、模型訓(xùn)練以及模型評估等四個關(guān)鍵步驟。我們還是使用剛剛已經(jīng)清洗好的并且已經(jīng)劃分好的訓(xùn)練集與測試集;創(chuàng)建一個隨機森林模型并使用測試集數(shù)據(jù)進行預(yù)測;其次輸出預(yù)測的均方根誤差、平均絕對誤差、決定系數(shù)如下REF_Ref24074\h圖16所示。圖SEQ圖\*ARABIC16隨機森林模型的評級指標導(dǎo)入matplotlib.pyplot包,繪制預(yù)測值與真實值的圖像如下REF_Ref24205\h圖17所示。圖SEQ圖\*ARABIC17隨機森林模型預(yù)測結(jié)果圖可視化分析隨機森林模型預(yù)測結(jié)果后,可以發(fā)現(xiàn)預(yù)測值與真實值重合度比較高。相比于SVR模型,隨機森林具有更強的預(yù)測模型擬合效果。通過隨機森林模型的分析,我們可以更加有效地預(yù)測結(jié)果,同時也對于模型的優(yōu)化和改進有著重要的參考價值。4.4模型比較通過對兩個模型評價指標來進行對比,如下表所示,如4.1中所介紹的均方根誤差(RMSE)的取值越小,說明預(yù)測值與真實值的誤差越小,模型預(yù)測能力強;平均絕對誤差(MAE)越小表示模型越好;決定系數(shù)(R2)的值越接近0,擬合程度越差;其值越接近1,模型解釋因變量的能力越強,即模型擬合效果越好。我們將兩個模型所計算出的模型指標評分作如REF_Ref24414\h表2進行對比分析。表SEQ表\*ARABIC2模型指標評分對比表模型SVR0.574450.093830.83279隨機森林0.222540.086010.97490那么通過對三個模型評價的指標對比我們可以看到,無論是從RMSE、MAE、R2任何一種指標都是隨機森林預(yù)測模型的擬合效果更好,預(yù)測能力更強。第五章總結(jié)與展望5.1論文總結(jié)游戲產(chǎn)業(yè)作為文化產(chǎn)業(yè)的重要組成部分,逐漸成為高科技產(chǎn)業(yè)和文化產(chǎn)業(yè)的融合點。在競爭激烈的市場環(huán)境中,游戲銷量預(yù)測成為游戲開發(fā)公司和發(fā)行商必須面對的挑戰(zhàn)之一。游戲銷量預(yù)測不僅關(guān)乎游戲開發(fā)公司的利益,還與消費者利益、游戲市場利益等息息相關(guān)。因此,如何科學(xué)合理地進行游戲銷量預(yù)測已成為游戲產(chǎn)業(yè)研究的熱點問題之一。本文旨在探究視頻游戲銷售額方面的問題,通過對kaggle網(wǎng)站所提供的視頻游戲銷量數(shù)據(jù)集,對1980-2020年的視頻游戲相關(guān)數(shù)據(jù)從用戶層面、發(fā)行商層面、市場層面進行可視化數(shù)據(jù)分析,并運用支持向量回歸模型和隨機森林模型進行游戲銷售額的預(yù)測。在評估預(yù)測效果時,對比了這兩個模型的評價參數(shù),從而選出更加精準可靠的預(yù)測模型,以期望對游戲開發(fā)商和發(fā)行商在決策資源分配及風(fēng)險控制方面提供有效參考,從而達到提高收益的目標。對數(shù)據(jù)可視化結(jié)果的分析,我們可以得到的結(jié)論是隨著游戲平臺不斷更新?lián)Q代,大型平臺發(fā)布的游戲牢固地占據(jù)市場主導(dǎo)地位,吸引了廣大游戲玩家的關(guān)注。同時,大型游戲發(fā)行商更傾向于不斷推陳出新,向市場推出新的游戲作品。2008年至2009年,是游戲的黃金市場,行情繁榮興盛,但由于受到經(jīng)濟危機的影響,到2015年時的游戲銷售數(shù)量僅有巔峰時期的約一半。未來游戲市場的發(fā)展走向,是否會再度興盛,抑或是繼續(xù)下降,亟需進一步的數(shù)據(jù)證據(jù)支撐。中國作為一個規(guī)模龐大的消費市場,但就目前的數(shù)據(jù)來看,中國市場的銷量或許被計算在其他地區(qū)的銷售額中,盡管當(dāng)前其他地區(qū)的銷售額占全球銷售額的比重相對較低。然而,由于該數(shù)據(jù)截至于16年,中國的消費水平在近年來不斷的提高值得高度關(guān)注,因此中國市場的未來消費潛力也應(yīng)得到足夠的重視。對游戲銷量預(yù)測模型結(jié)果的分析,通過本研究中建立的模型,以基于多種機器學(xué)習(xí)算法的游戲銷量預(yù)測為研究主體,分別運用隨機森林、支持向量回歸機算法在游戲銷量預(yù)測上進行評估。研究結(jié)果顯示,基于隨機森林的游戲銷量預(yù)測模型總體來說預(yù)測精度更高,同時從三個模型評價指標(均方根誤差、平均絕對誤差、決定系數(shù))的評價指標上來看,隨機森林模型也是預(yù)測誤差相對來說更小一些,因此建議在游戲銷量預(yù)測中使用基于隨機森林的預(yù)測模型,以提高精度和準確性。5.2不足與展望對于研讀其他文章后認為,本文所采用的方法和數(shù)據(jù)分析方法都存在著一定的缺陷與偏差,因此需要尋求更適合的方法與數(shù)據(jù)源。此外,在對研究問題的深入探討方面還需要進一步的闡述和解釋。我們也認識到本研究沒有考慮到某些重要的因素或變量,因此需要更加全面地考慮研究因素,以便獲得更加準確和可靠的研究結(jié)論。本研究首先對兩個獨立的游戲銷量預(yù)測模型進行了調(diào)查和分析,然而,對于模型的優(yōu)化方面進行了相對有限的研究。未來的工作將集中在對現(xiàn)有模型的進一步優(yōu)化,以找到最適用于游戲銷量數(shù)據(jù)訓(xùn)練的模型,并探索更多不同的線性回歸模型,以獲得具有更小誤差和更高精度的游戲銷量預(yù)測模型。參考文獻[1]徐英卓,郭博,王六鵬.基于GBDT算法的游戲銷量預(yù)測模型研究[J].智能計算機與應(yīng)用,2023,13(1):182-185.[2]黃文武.基于集成學(xué)習(xí)的二手車價格預(yù)測研究[D].華中師范大學(xué),2023.DOI:10.27159/ki.ghzsu.2022.000362.[3]瞿珊.基于機器學(xué)習(xí)的網(wǎng)絡(luò)游戲收益預(yù)測實證研究[D].重慶大學(xué),2020.DOI:10.27670/ki.gcqdu.2019.000019.[4]劉文文.A企業(yè)汽車售后服務(wù)產(chǎn)品銷量的預(yù)測研究[D].北京交通大學(xué),2022.DOI:10.26944/ki.gbfju.2021.000960[5]郭博.游戲銷量預(yù)測模型的研究與應(yīng)用[D].西安石油大學(xué),2024.DOI:10.27400/ki.gxasc.2023.000672.[6]張夢迪.基于大數(shù)據(jù)的汽車銷量預(yù)測研究[D].湖北大學(xué),2022
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 行政合同法律關(guān)系-洞察分析
- 采購合同的物聯(lián)網(wǎng)應(yīng)用3篇
- 采購合同銷售合同的合同風(fēng)險3篇
- 采購合同和采購訂單的外包策略3篇
- 采購戰(zhàn)略合同的廢舊物資回收3篇
- 采購合同風(fēng)險評估軟件評測3篇
- 采購合同協(xié)議簽訂的合同轉(zhuǎn)讓3篇
- 采購合同的供應(yīng)鏈公益活動采購3篇
- 采購合同框架協(xié)議的簽訂合作3篇
- 采購合同與采購計劃的互動3篇
- 信息學(xué)奧賽培訓(xùn)課件 第4課 c++基礎(chǔ)語法for循環(huán)結(jié)構(gòu)(第一課時)
- 劉燕園林花卉學(xué)2、3、4版課后答案
- 專升本英語寫作專題講解課件
- 干預(yù)策略患兒床頭抬高影響
- 電力增容改造技術(shù)標模板
- 血培養(yǎng)采集的方法及注意事項
- 梁靜茹《勇氣》的歌詞
- 國家開放大學(xué)02150-計算機網(wǎng)絡(luò)(本)期末復(fù)習(xí)題及參考答案
- 國開2023年春《理工英語3》機考網(wǎng)考期末復(fù)習(xí)資料參考答案
- 員工安全培訓(xùn)教育制度
- 譯林版一年級英語上冊期末試卷
評論
0/150
提交評論