版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2 1.1研究背景及意義 41.2本文的主要工作 61.3本文的組織結(jié)構(gòu) 7第二章相關(guān)方法 82.1隨機(jī)森林算法 82.2極端隨機(jī)樹算法 92.3LightGBM算法 9 9第三章問(wèn)題定義與分析 3.1問(wèn)題形式化 3.2問(wèn)題分析 第四章預(yù)測(cè)算法 4.1算法架構(gòu) 4.2數(shù)據(jù)預(yù)處理 4.3熱站點(diǎn)預(yù)測(cè)算法 4.3.1基于隨機(jī)森林的預(yù)測(cè)算法 4.3.2基于極端隨機(jī)樹的預(yù)測(cè)算法 4.3.3基于LightGBM的預(yù)測(cè)算法 204.4冷站點(diǎn)預(yù)測(cè)算法 4.4.2冷站點(diǎn)預(yù)測(cè) 4.5預(yù)測(cè)值修正 4.5.2站點(diǎn)分類 234.5.3預(yù)測(cè)值修正 24第五章實(shí)驗(yàn)驗(yàn)證 5.1數(shù)據(jù)集 5.2基線預(yù)測(cè)器&評(píng)分標(biāo)準(zhǔn) 275.3實(shí)驗(yàn)結(jié)果 第六章總結(jié)與展望 6.1本文總結(jié) 6.2后續(xù)工作展望 參考文獻(xiàn) 錯(cuò)誤!未定義書簽。很多便利,但共享單車系統(tǒng)的分配不平衡特點(diǎn)也給管理者和使用者帶來(lái)了許多問(wèn)明本文提出的模型好于基線預(yù)測(cè)器隨機(jī)森林算法、極端隨機(jī)樹算法和LightGBM。Inrecentyears,bike-sprovidingaconvenientandenvand"thelastkilometer"ofthepublictravel.Althoughithasbroughtalotofconvenietheuniquefeaturesofbike-sharingsysteusers.Forthemanagers,thedistributionisunevenbecauseoftheever-changingusageofthesharedbicycle,whichwilunevendistributionofthesharedbicyclewillleadtothephenomenonthatthereisnocarexperience.Weneedtorebalademandofdifferentsitesatdifferenttimeperiods.Ifweustorebalance,itwilltakealwell.Therefore,therebalancingstrategyofpredictionofsharedbicycles'borrowingandreturningflInthispaper,wepredictthesharedbicycles'borrowingandreturningfhistoricaldataandmeteorologicaldata.Weproposeasitelevelpredictionmethodwithcertainhistoricaldataaretreatedseparately,andtheKNNalgborrowingandreturningflowofthesecoldsites.Finally,accordingtoclassificationresults.OurmodelisverifiedbytheYonganbicyclecompany'spublicbike與其他時(shí)段數(shù)量需求的巨大差別以及許多站點(diǎn)出現(xiàn)的單車數(shù)量與使用需求不匹配等問(wèn)題造成了社會(huì)資源的浪費(fèi)。由于不同站點(diǎn)在不同時(shí)間段的借還需求是不平衡素對(duì)共享單車系統(tǒng)未來(lái)的借還流量進(jìn)行預(yù)測(cè)可以有效地避免共享單車的不平衡現(xiàn)可以指導(dǎo)企業(yè)和政府進(jìn)行共享單車的高效投放并在很大程度上避免站點(diǎn)無(wú)車可借本文提出了一種站點(diǎn)級(jí)別的預(yù)測(cè)模型,其主要由四個(gè)部分組成:1)根據(jù)歷史法——隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加權(quán)融合算法;2)對(duì)于歷史數(shù)據(jù)較少的冷站點(diǎn)單獨(dú)處理,采用KNN算法對(duì)這些站點(diǎn)的借還流量進(jìn)行預(yù)測(cè);3)根據(jù)POI信息采用KNN算法對(duì)自行車站點(diǎn)進(jìn)行分類;4)根據(jù)步驟3中得到的站點(diǎn)分類結(jié)果對(duì)步驟1和2中的冷熱站點(diǎn)預(yù)測(cè)算法進(jìn)行改進(jìn)和修正。本文所選擇的基線預(yù)測(cè)器是隨機(jī)森林站點(diǎn)提出了隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremely與其他時(shí)段數(shù)量需求的巨大差別以及許多站點(diǎn)出現(xiàn)的單車數(shù)量與使用需求不匹配等問(wèn)題造成了社會(huì)資源的浪費(fèi)。由于不同站點(diǎn)在不同時(shí)間段的借還需求是不平衡而根據(jù)歷史借還數(shù)據(jù)以及氣象數(shù)據(jù)等其他因素對(duì)共享單車系統(tǒng)未來(lái)的借還流可以指導(dǎo)企業(yè)和政府進(jìn)行共享單車的高效投放并在很大程度上避免站點(diǎn)無(wú)車可借數(shù)據(jù)比賽中使得感興趣的人可以對(duì)通過(guò)數(shù)學(xué)以及計(jì)算機(jī)手段對(duì)數(shù)據(jù)進(jìn)行研究從而表1.1描述了一個(gè)共享單車站點(diǎn)間轉(zhuǎn)移數(shù)據(jù)集,其中各個(gè)字段的含義分一條共享單車從借車站點(diǎn)轉(zhuǎn)移到還車站點(diǎn)的記錄,都有一個(gè)借車日期(例如1/1/2015)、一個(gè)借車時(shí)間(例如9:20:27)、一個(gè)1882345們的模型考慮了時(shí)間因素,但是沒(méi)有考慮天氣因素對(duì)自行車可用性的影響;文獻(xiàn)文獻(xiàn)[15]通過(guò)將眾多外生影響(如日常/每周/季節(jié)模式、天氣)納入廣義相加模型本文提出了一種站點(diǎn)級(jí)別的預(yù)測(cè)模型,其主要由四個(gè)部分組成:1)根據(jù)歷史法——隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加權(quán)融合算法;2)對(duì)于歷史數(shù)據(jù)較少的冷站點(diǎn)單獨(dú)處理,采用KNN算法對(duì)這些站點(diǎn)的借還流量進(jìn)行預(yù)測(cè);3)根據(jù)POI信息采用KNN算法對(duì)自行車站點(diǎn)進(jìn)行分類;4)根據(jù)步驟3中得到的站點(diǎn)分類結(jié)果對(duì)步驟1和2中的冷熱站點(diǎn)預(yù)測(cè)算法進(jìn)行改進(jìn)和修正。本文所選擇的基線預(yù)測(cè)器是隨機(jī)森林站點(diǎn)提出了隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremely森林算法、極端隨機(jī)樹算法和LightGBM這些基線預(yù)測(cè)器具有較好的預(yù)第二章:共享單車流量預(yù)測(cè)的相關(guān)方法。本章主要介本章介紹了本文所使用的共享單車流量預(yù)測(cè)相關(guān)方法和技術(shù)并概括歸納了相(1)使用自助采樣法從原始訓(xùn)練集N中采樣出T個(gè)采樣集,由此構(gòu)建T棵決(2)設(shè)有d個(gè)屬性,在每一棵決策樹的每個(gè)結(jié)點(diǎn)處隨機(jī)抽取k個(gè)屬性,之后(3)不對(duì)決策樹進(jìn)行修剪,使之最大限度生長(zhǎng);(4)用已訓(xùn)練好的T棵決策樹構(gòu)建隨機(jī)森林之后,用它對(duì)新的樣本進(jìn)行分類或回歸,分類結(jié)果由T棵決策樹采用多數(shù)表決而定,LightGBM(LightGradienGBDT是通過(guò)采用基學(xué)習(xí)器線性組合的方式不斷減小訓(xùn)練時(shí)產(chǎn)生的殘差來(lái)實(shí)現(xiàn)LightGBM算法可用于分類和回歸,在本文中用于對(duì)熱站KNN(k-NearestNeighbor;k近鄰)是一種常用監(jiān)督學(xué)習(xí)算法,既可以用來(lái)做分類,也可以用來(lái)做回歸任務(wù)。KNN沒(méi)有顯示訓(xùn)練過(guò)程,屬于“懶惰學(xué)習(xí)”,它在KNN算法的優(yōu)勢(shì)在于它的思想簡(jiǎn)單、理論成熟、精度高、既可以用于數(shù)值型數(shù)據(jù)其基本思想是基于某類距離度量找到訓(xùn)練集中與測(cè)試樣本最近的k個(gè)訓(xùn)練樣(1)計(jì)算訓(xùn)練集中的樣本和測(cè)試樣本的距離;(2)按照距離增序排列;(3)選擇距離最小的前k個(gè)訓(xùn)練樣本;(4)基于這k個(gè)樣本進(jìn)行預(yù)測(cè)。點(diǎn)本身的歷史數(shù)據(jù)而是使用熱站點(diǎn)的預(yù)測(cè)數(shù)據(jù)通過(guò)KNN對(duì)它們進(jìn)行回歸預(yù)測(cè)。第三章問(wèn)題定義與分析定義1站點(diǎn)。定義2記錄。素的影響。所以我們選取影響比較大的3個(gè)氣象因素和5個(gè)時(shí)間因素來(lái)構(gòu)成特征向T?=(holiday,tiaoxiu,weekday,is_weekend,hanshu)。其中holiday,tiaoxiu,weekday,is_weekend,hanshu分別表示時(shí)間段t是否為國(guó)假、是否是上班日(針對(duì)調(diào)休)、周幾、是否是周末、是否是寒暑假。定義6POI數(shù)據(jù)。問(wèn)題定義給定歷史共享單車使用記錄集合Rn={Rei,Rez…Ren},我們希望預(yù)測(cè)每個(gè)站點(diǎn)S(i=1,2,…n)在未來(lái)某個(gè)時(shí)間t內(nèi)的共享單車借還數(shù)量Lw,,和R,,這里的時(shí)間t的間隔在本文中被設(shè)置為1天。第i個(gè)站點(diǎn)n時(shí)間t的特征向量(1)本文中提到的共享單車借還流量預(yù)測(cè)場(chǎng)景中存在著冷熱站點(diǎn)之分。冷站數(shù)據(jù)集中,我們需要預(yù)測(cè)的是從2015年7月22日開始到2015年8月31日的共享單車借還流量,對(duì)于分類為學(xué)校附近的站點(diǎn)來(lái)說(shuō),訓(xùn)練集中日期在寒暑假期間的數(shù)據(jù)相較于其他日期很少,數(shù)據(jù)分布非常不平衡,可能會(huì)導(dǎo)致預(yù)測(cè)的的誤差較大。綜上所述,我們需要改進(jìn)所用的模型。圖4.1算法架構(gòu)定的歷史共享單車使用記錄集合Ra={Rei,Rez,…Ren}以及時(shí)間氣象等因素,預(yù)測(cè)每個(gè)站點(diǎn)S;(i=1,2,…n)在未來(lái)某個(gè)時(shí)間段t的共享單車借還數(shù)量Ls.以及R,這里t的時(shí)間間隔為1天。由3.2節(jié)可知,本文所要預(yù)測(cè)借還流量的站點(diǎn)S(i=1,2,…n)存在有冷熱站點(diǎn)之所以我們需要一個(gè)既能預(yù)測(cè)熱站點(diǎn)也能預(yù)測(cè)冷站點(diǎn)同時(shí)可以適應(yīng)不同類別站在這里我們先將歷史共享單車使用記錄集合Ra={Rei,Rez,…Ren}根據(jù)站點(diǎn)訓(xùn)練集Ts(i=1,2,……n)。我們區(qū)分冷熱站點(diǎn)的標(biāo)志是該站點(diǎn)S;(i=1,2,…n)訓(xùn)練集Ts(i=1,2……n)中的xax=(fi,rs.)(i=1,2,……n)數(shù)量是否大于等于46,簡(jiǎn)單來(lái)說(shuō)就是該站點(diǎn)有借還流量個(gè)屬性子集(含有k個(gè)屬性),然后再?gòu)倪@個(gè)屬性子集中選擇一最優(yōu)屬性用來(lái)劃分。在訓(xùn)練過(guò)程中,我們對(duì)每一個(gè)熱站點(diǎn)分開預(yù)測(cè)。我們通過(guò)對(duì)熱站點(diǎn)集合Sg中每一個(gè)熱站點(diǎn)S,的訓(xùn)練集Ts,進(jìn)行自助采樣的方式創(chuàng)建采樣集。對(duì)于每一個(gè)采樣集,決策樹根據(jù)以下步驟進(jìn)行生長(zhǎng):對(duì)于決策樹的每一個(gè)結(jié)點(diǎn),首先從特征向量f;中該結(jié)點(diǎn)的所有預(yù)測(cè)變量中隨機(jī)選擇一些特征作為劃分變量,即從此結(jié)點(diǎn)屬性集合隨機(jī)選擇含有k個(gè)屬性的子集;接著依據(jù)最大化兩個(gè)分支結(jié)點(diǎn)的均勻性的標(biāo)準(zhǔn)找到最優(yōu)劃分屬性進(jìn)行劃分;之后重復(fù)上述步驟將訓(xùn)練集一步步分成更小的組直到葉子節(jié)點(diǎn)。在本文中,我們選擇用來(lái)選擇最優(yōu)劃分屬性的衡量標(biāo)準(zhǔn)是均方誤差和。采用均方誤差和選擇最優(yōu)劃分屬性的過(guò)程如下:對(duì)于任意劃分屬性A,對(duì)應(yīng)的任意劃分點(diǎn)s將數(shù)據(jù)集劃分成D1和D2,選擇最優(yōu)劃分屬性的過(guò)程就是選出使得數(shù)據(jù)集D1和D2各自均方誤差最小,同時(shí)D1和D2的均方誤差之和也最小時(shí)所對(duì)應(yīng)的劃分屬性以及對(duì)應(yīng)劃分點(diǎn)。西百是臣是西曼是圖4.2展示了一個(gè)已訓(xùn)練好的深度為4的樣例決策樹。為了預(yù)測(cè)某一個(gè)熱站點(diǎn)S,在時(shí)間t+1的借車流量,輸入的特征向量fi+i必須包含時(shí)間t+1是否為國(guó)假、是否是上班日(針對(duì)調(diào)休)、周幾、是否是周末、是否是寒暑假以及時(shí)間t+1的最高氣溫、最低氣溫和天氣。當(dāng)fi+i被輸入決策樹時(shí),需要基于劃分變量在每一個(gè)結(jié)點(diǎn)上做決策直到到達(dá)葉子結(jié)點(diǎn)。例如,在圖4.2中,如果是周末則下一步是判斷是否下雨。如果下雨,則到達(dá)葉子節(jié)點(diǎn),該葉子節(jié)點(diǎn)訓(xùn)練樣本數(shù)Samples為36個(gè),36個(gè)樣本的平均借車流量Value為7.8。讓yn為第n個(gè)基決策樹的借車流量預(yù)測(cè)值,即在訓(xùn)練過(guò)程中到達(dá)該葉子節(jié)點(diǎn)的訓(xùn)練樣本的平均借車流量Value,則隨機(jī)森林中基決策樹的數(shù)量,也就是說(shuō)隨機(jī)森林的最終預(yù)測(cè)值是所有基決策樹預(yù)測(cè)值的平均。相比于其他算法,隨機(jī)森林算法可以同時(shí)處理離散屬性和連續(xù)屬性,在本文的屬性集合中既存在著連續(xù)屬性如最高氣溫、最低氣溫,也存在著離散屬性如是否是寒暑假,我們可以無(wú)需附加轉(zhuǎn)換地使用這些屬性;同時(shí)隨機(jī)森林可以處理大量的數(shù)據(jù)。綜上它適合本文的應(yīng)用場(chǎng)景。極端隨機(jī)樹算法與上述隨機(jī)森林算法十分相似,與隨機(jī)森林算法的區(qū)別在于以首先隨機(jī)森林對(duì)熱站點(diǎn)訓(xùn)練集Ts(Sr∈Sk)應(yīng)用的是Bagging,采用的是自助采樣;而極端隨機(jī)樹是使用熱站點(diǎn)訓(xùn)練集Ts(S,∈Sa)中的所有訓(xùn)練樣本得到每一棵決其次隨機(jī)森林對(duì)于含有k個(gè)屬性的隨機(jī)屬性子集中的每一個(gè)屬性都需要先計(jì)算該屬性的最優(yōu)劃分值,再得到最佳劃分屬性,而極端隨機(jī)樹對(duì)于輸入:熱站點(diǎn)訓(xùn)練集Ts={(fi,Ls,n),(fi,Ls,?),…(fu,Ls,w)}(Sr∈Sk),N為該站代替fw。通常使用的損失函數(shù)為L(zhǎng)(y,f(x)=(y-f(x))2,設(shè)定最大的迭代次數(shù)為T。輸出:強(qiáng)學(xué)習(xí)器f(x)Step2-(4):更新學(xué)習(xí)器(2)LightGBM在GBDT算法基礎(chǔ)上的改進(jìn)①直方圖算法(式4,5)直方圖算法的原理為首先將連續(xù)浮點(diǎn)屬性值離散化,形成k個(gè)整數(shù),并構(gòu)造出直方圖,寬度是k。在遍歷訓(xùn)練集時(shí),以離散化后的k個(gè)整數(shù)值為索引在直方圖中積累統(tǒng)計(jì)量,遍歷完數(shù)據(jù)以后,直方圖積累好了所需的統(tǒng)計(jì)量,最后根據(jù)直方圖中的離散值,遍歷以選擇每個(gè)連續(xù)屬性的最優(yōu)劃分點(diǎn)。使用直方圖算法的優(yōu)點(diǎn)為:降低內(nèi)存消耗、降低計(jì)算代價(jià)。②直方圖做差加速葉子結(jié)點(diǎn)的直方圖可由父結(jié)點(diǎn)以及兄弟結(jié)點(diǎn)的直方圖做差獲得。通常情況下構(gòu)造直方圖,需遍歷葉子結(jié)點(diǎn)上的全部數(shù)據(jù),但該方法僅僅要遍歷直方圖的k個(gè)桶。所以利用直方圖做差,LightGBM可在構(gòu)造完樣本較少的葉子結(jié)點(diǎn)的直方圖之后,用很小的代價(jià)獲得它兄弟結(jié)點(diǎn)的直方圖,從而加快速度。③帶深度限制的Leaf-wise的葉子生長(zhǎng)策略Leaf-wise和Level-wise相比是更加高效的策略,每次進(jìn)行決策樹生長(zhǎng)時(shí)都從目前所有的葉子結(jié)點(diǎn)中,找到分裂增益最大的一個(gè)葉子結(jié)點(diǎn),然后對(duì)該葉子結(jié)點(diǎn)進(jìn)行劃分,如此循環(huán)。與Level-wise比精度更高。但是Leaf-wise有可能會(huì)訓(xùn)練出較深的決策樹,出現(xiàn)過(guò)擬合的現(xiàn)象。所以LightGBM在Leaf-wise基礎(chǔ)上增加了最大深度的限制,既保證了高效,也在一定程度上防止了過(guò)擬合的現(xiàn)象。④直接支持類別特征很多機(jī)器學(xué)習(xí)的工具都不能做到直接支持類別特征,需將它轉(zhuǎn)成多維0/1特征,從而導(dǎo)致空間及時(shí)間效率下降。而LightGBM可直接輸入類別特征,從而加快訓(xùn)練速度。⑤支持并行學(xué)習(xí)LightGBM支持并行學(xué)習(xí),主要包括特征和數(shù)據(jù)并行兩類方法。特征并行這種并行學(xué)習(xí)方法的思想是不同機(jī)器在不同特征集合上分別查找最優(yōu)劃分點(diǎn),之后在機(jī)器之間進(jìn)行同步從而獲得全局最優(yōu)劃分點(diǎn)。數(shù)據(jù)并行這種并行學(xué)習(xí)方法的思想是不同機(jī)器在本地構(gòu)造直方圖,然后再在全局范圍內(nèi)進(jìn)行歸并,最后根據(jù)歸并以后的直方圖查找最優(yōu)劃分點(diǎn)。LightGBM對(duì)特征以及數(shù)據(jù)并行做了優(yōu)化,在特征并行中,LightGBM的每個(gè)機(jī)器都保留全部的數(shù)據(jù)集從而避免廣播instanceindices;在數(shù)據(jù)并行中,LightGBM采用了分散規(guī)約這種方式將直方圖合并的任務(wù)分派給不同機(jī)器,不同機(jī)器負(fù)責(zé)合并不同特征的局部直方圖從而降低通信量,同時(shí)采用直方圖做差算法進(jìn)一步減少通信量。多模型融合算法是指將多個(gè)算法模型通過(guò)特定的方式進(jìn)行組合。多模型融合算法充分利用不同算法的優(yōu)勢(shì),取長(zhǎng)補(bǔ)短,同時(shí)增加了多樣性,降低了回歸誤差。這里我們采用的是最簡(jiǎn)單的一種融合算法——線性加權(quán)融合算法。它只需匯總單個(gè)模型的結(jié)果,然后給不同的模型賦予不同權(quán)重,通常表現(xiàn)比較好的模型需要被賦予更大的權(quán)重,最后進(jìn)行加權(quán)融合即可獲得所需結(jié)果。(式4.7)其中Ls.;是站點(diǎn)S,在時(shí)間t的最終借車流量預(yù)測(cè)值,ok是分配給第k個(gè)單一模因?yàn)長(zhǎng)ightGBM模型的表現(xiàn)較好,隨機(jī)森林和極端隨機(jī)樹模型的表現(xiàn)差別不大,所以在這里我們賦予隨機(jī)森林模型和極端隨機(jī)樹的權(quán)重都為1/6,賦予LightGBM的權(quán)重為2/3,yu是第k個(gè)單一模型的在時(shí)間t的借車流4.4冷站點(diǎn)預(yù)測(cè)算法上述加權(quán)融合算法雖然解決了熱站點(diǎn)的借還流量預(yù)測(cè)問(wèn)題,但對(duì)于歷史數(shù)據(jù)少的冷站點(diǎn)來(lái)說(shuō),使用該加權(quán)融合算法并不能達(dá)到很好的預(yù)測(cè)效果,所以我們通過(guò)KNN算法使用已經(jīng)進(jìn)行預(yù)測(cè)的熱站點(diǎn)的預(yù)測(cè)值來(lái)預(yù)測(cè)這些冷站點(diǎn)并得到了較好的KNN回歸算法原理總結(jié)如下:在訓(xùn)練集已知的情況下,輸入測(cè)試樣本,將測(cè)試樣本的特征與訓(xùn)練集中對(duì)應(yīng)的特征進(jìn)行相互比較,即基于某種距離度量方式找到訓(xùn)練集中與測(cè)試樣本最相似的前K個(gè)訓(xùn)練樣本,基于前K個(gè)訓(xùn)練樣本對(duì)測(cè)試樣本將KNN用于回歸則測(cè)試樣本的回歸預(yù)測(cè)值為挑選出來(lái)的K個(gè)訓(xùn)練樣本取平均或者加權(quán)平均,與測(cè)試樣本距離越近的樣本權(quán)重o;越大。如圖4.5所示,在KNN冷站點(diǎn)預(yù)測(cè)算法中,距離度量為測(cè)試樣本和訓(xùn)練樣本要注意的是我們對(duì)KNN算法進(jìn)行了變化,若某一訓(xùn)練樣本與測(cè)試樣本tmersct的長(zhǎng)度小于等于5天,則需要舍棄這一近鄰,所以最后的近鄰數(shù)量可能小于5。冷站點(diǎn)在時(shí)間t的借車流量我們用選取的近鄰在這一個(gè)時(shí)間t的已預(yù)測(cè)借車流量取平均得到,所以我們?cè)谶@里用的是平均法。6.compares.append(Sr,dista8.foriincompares[:5圖4.5KNN冷站點(diǎn)預(yù)測(cè)算法在本文的數(shù)據(jù)場(chǎng)景以及大部分真實(shí)數(shù)據(jù)場(chǎng)景中,站點(diǎn)存在著不同類型,如學(xué)校附近的站點(diǎn)、景點(diǎn)等休閑娛樂(lè)區(qū)域附近的站點(diǎn)、公共交通附近的站點(diǎn)、公司附近的站點(diǎn)、住宅小區(qū)附近的站點(diǎn)等。對(duì)于這些不同種類的站點(diǎn),需要基于站點(diǎn)分類對(duì)預(yù)測(cè)值做不同程度的修正。本節(jié)介紹如何進(jìn)行站點(diǎn)分類以及利用站點(diǎn)分類信息對(duì)預(yù)測(cè)值進(jìn)行修正。里里眾4.5.1KNN分類算法原理KNN算法是指在訓(xùn)練集已知的情況下,輸入測(cè)試樣本,將測(cè)試樣本的特征與訓(xùn)練集中對(duì)應(yīng)的特征進(jìn)行相互比較,即基于某種距離度量方式找到訓(xùn)練集中與測(cè)試樣本最相似的前K個(gè)訓(xùn)練樣本,再基于前K個(gè)訓(xùn)練樣本對(duì)測(cè)試樣本實(shí)現(xiàn)預(yù)測(cè)。將KNN算法用于分類,則測(cè)試樣本的分類預(yù)測(cè)為挑選出來(lái)的K個(gè)訓(xùn)練樣本投票或者加權(quán)投票的結(jié)果,假設(shè)類別標(biāo)簽集合為{Ci,C?,…,Cv},我們將每一個(gè)訓(xùn)練樣本的標(biāo)簽值表示成一個(gè)N維的向量(y);y2;…;y^)(i=1,2……k),若第i個(gè)訓(xùn)練樣本的標(biāo)簽為Ck(I≤R≤N),則y=1,該樣本對(duì)應(yīng)N維向量的其他值都為0,使用投票法時(shí)測(cè)試樣本的預(yù)測(cè)標(biāo)簽值為,即預(yù)測(cè)標(biāo)簽為投票最多的標(biāo)簽值,使用加權(quán)投票法時(shí)測(cè)試樣本的預(yù)測(cè)標(biāo)簽值為,和加權(quán)平均類似,oi是第i個(gè)訓(xùn)練樣本的權(quán)重,o≥0,距離越近樣本權(quán)重oi越大。4.5.2站點(diǎn)分類(1)計(jì)算訓(xùn)練樣本和待分類樣本之間的距離。這里的特征空間是二維實(shí)數(shù)向量空間R?,X;和Xk屬于該特征空間。Xi=(X(1),X(2))',Xk=(Xk(1,Xt(2))',則X;和Xk的曼哈頓距離定義為(在這里第一維是經(jīng)度,第二維是緯度):(2)選擇k個(gè)與待分類樣本距離最近的訓(xùn)練樣本。(3)使用加權(quán)投票法,確定待分類樣本所屬的類別標(biāo)簽。對(duì)于學(xué)校附近的站點(diǎn),如果所預(yù)測(cè)時(shí)間t為寒暑假、周末、節(jié)假日,則修正系數(shù)應(yīng)該小于1,在這里我們選擇μ=0.5;對(duì)于景點(diǎn)等休閑娛樂(lè)區(qū)域附近的站點(diǎn),如果所預(yù)測(cè)時(shí)間t為周末、節(jié)假日,則修正系數(shù)應(yīng)該大于1,在這里我們選擇μ=1.2,如果所預(yù)測(cè)時(shí)間t為工作日,則修正系數(shù)應(yīng)該小于1,在這里我們選擇μ=0.8;對(duì)于公司附近的站點(diǎn),如果所預(yù)測(cè)時(shí)間t為周末、節(jié)假日,則修正系數(shù)應(yīng)該小于1,在這里我們選擇μ=0.8,如果所預(yù)測(cè)時(shí)間t為工作日,則修正系數(shù)應(yīng)該大于1,在這里我們選擇μ=1.2,而對(duì)于公共交通附近的站點(diǎn)以及住宅小區(qū)附近的站點(diǎn),無(wú)論是Lsi,t=Lsi,t×μ(式4.11)第五章實(shí)驗(yàn)驗(yàn)證本章首先在5.1節(jié)介紹本文實(shí)驗(yàn)場(chǎng)景中所使用的數(shù)據(jù)集所用的基線預(yù)測(cè)器以及所采用的算法評(píng)分標(biāo)準(zhǔn),最后在5.3節(jié)介紹本文所選用基線我們?cè)邴}城市2015年的自行車數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),如表5.1所示,該數(shù)據(jù)集提該數(shù)據(jù)集的共享單車站點(diǎn)間轉(zhuǎn)移記錄共有2132693條,站點(diǎn)共有390個(gè),數(shù)據(jù)集的日期為2015年1月1日~2015年8月31日,我們將7月22日及之后的數(shù)據(jù)劃分為測(cè)試集,將7月22日之前的數(shù)據(jù)劃分為訓(xùn)練集;如表5.2所示,除了共享單車站點(diǎn)間轉(zhuǎn)移記錄,我們還知道站點(diǎn)的經(jīng)緯度信息。表5.3所示的氣象數(shù)據(jù)集是從天氣網(wǎng)上爬取下來(lái)的|,其中天氣分為三種情況:天氣情況較好(如晴天)、天氣情況較差(如小雨、雷陣雨)、天氣情況很差(如暴雨、下雪)。表5.4所示的POI數(shù)據(jù)集變量名借車日期借車時(shí)間借車站點(diǎn)號(hào)還車站點(diǎn)號(hào)還車日期還車時(shí)間表5.2站點(diǎn)經(jīng)緯度數(shù)據(jù)集變量名i站點(diǎn)號(hào)站點(diǎn)緯度站點(diǎn)經(jīng)度變量名時(shí)間天氣表5.4POI數(shù)據(jù)集變量名2網(wǎng)址為(/)。緯度經(jīng)度5.2基線預(yù)測(cè)器&評(píng)分標(biāo)準(zhǔn)本文所選取的基線預(yù)測(cè)器為隨機(jī)森林算法、極端隨機(jī)樹算法以及LightGBM。本文的評(píng)分標(biāo)準(zhǔn)采用RMSE、MedAE以及MAE。(1)RMSE,即均方根誤差,它是真實(shí)值與預(yù)測(cè)值之間偏差的平方之和與預(yù)測(cè)次數(shù)n的比值的平方根。RMSE對(duì)一組預(yù)測(cè)中的特小或者特大誤差十分敏感,因此它能很好反映預(yù)測(cè)結(jié)果的精度。均方根誤差也被稱作標(biāo)準(zhǔn)偏差σ,它體現(xiàn)了預(yù)測(cè)值偏離真實(shí)值的程度,σ越小代表精度越高,泛化能力越強(qiáng)。我們采用的最終評(píng)分為score,score越大代表精度越高。(2)MedAE,即中位數(shù)絕對(duì)誤差,它是真實(shí)值和預(yù)測(cè)值之間所有絕對(duì)差值的中位數(shù)。它可對(duì)異常值的出現(xiàn)進(jìn)行有效評(píng)估,MedAE越小則算法表現(xiàn)越好。(3)MAE,即平均絕對(duì)誤差,它是絕對(duì)誤差的平均值。它可以很好地反映預(yù)測(cè)值與真實(shí)值之間誤差的真實(shí)情況,MAE越小則算法表現(xiàn)越好。隨機(jī)森林算法法法修正后的預(yù)測(cè)算法的精度相較于三個(gè)基預(yù)測(cè)器以及沒(méi)有進(jìn)行修正的預(yù)測(cè)算法第六章總結(jié)與展望本文提出了一種由四個(gè)主要步驟構(gòu)成的站點(diǎn)級(jí)別的預(yù)測(cè)模型。1)根據(jù)歷史數(shù)trees,ExtraTrees)以及LightGBM的加權(quán)融合算法;2)對(duì)于歷史數(shù)據(jù)較少的冷站點(diǎn)單獨(dú)處理,采用KNN算法對(duì)這些站點(diǎn)的借還流量進(jìn)行預(yù)測(cè);3)根據(jù)POI信息采用KNN算法對(duì)自行車站點(diǎn)進(jìn)行分類;4)根據(jù)步驟3中得到的站點(diǎn)分類結(jié)果對(duì)步驟1和2中的冷熱站點(diǎn)預(yù)測(cè)算法進(jìn)行改進(jìn)和修正。本文所選擇的基線預(yù)測(cè)器是隨機(jī)森林站點(diǎn)提出了隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremelyUsingSeasonalARIMAModels[J].JournalofTianjinUniversity,2005,AccurateTrafficPrediction[C]//IEEE,InternationalConferenceonDataregression[C]//IEEETransProceedings.IEEEXplore,2004:1438-1442vol.2.EnhancedLinearRegression[C]//Pacific-AsiaDiscoveryandDataMining.2013:484-495.speedpredictionusingremotemicrowavesensordata[J].Tran
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 快餐配送合同范本
- 北京師范大學(xué)-香港浸會(huì)大學(xué)聯(lián)合國(guó)際學(xué)院《征信理論與實(shí)務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 北京師范大學(xué)-香港浸會(huì)大學(xué)聯(lián)合國(guó)際學(xué)院《農(nóng)業(yè)大數(shù)據(jù)應(yīng)用案例》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025版第一部分綠色生態(tài)園林工程 施工合同3篇
- 學(xué)前班第一學(xué)期教學(xué)工作總結(jié)
- 三基的工作計(jì)劃
- 大學(xué)生寒假旅游計(jì)劃
- 2025工作計(jì)劃開頭范文
- 一年級(jí)教師工作計(jì)劃
- 醫(yī)院2019年門診護(hù)理工作計(jì)劃
- GB/T 13871.1-2022密封元件為彈性體材料的旋轉(zhuǎn)軸唇形密封圈第1部分:尺寸和公差
- 《農(nóng)產(chǎn)品安全生產(chǎn)》考試復(fù)習(xí)題庫(kù)(學(xué)生用)
- 監(jiān)理安全保證體系
- 野外生存2-1課件
- 謝孟媛中級(jí)文法講義整理版
- 關(guān)于歷史大單元、大概念教學(xué)的討論 課件-高考?xì)v史一輪復(fù)習(xí)
- 旅游者對(duì)鼓浪嶼旅游產(chǎn)品的滿意度調(diào)查問(wèn)卷
- 人教版初二數(shù)學(xué)下冊(cè)《第十七章小結(jié)與復(fù)習(xí)》課件
- 科技水晶質(zhì)感產(chǎn)品推廣PPT模板
- 化工儀表及自動(dòng)化第六版-課后-答案
- 老化箱點(diǎn)檢表A3版本
評(píng)論
0/150
提交評(píng)論