合肥市二手房成交價格研究_第1頁
合肥市二手房成交價格研究_第2頁
合肥市二手房成交價格研究_第3頁
合肥市二手房成交價格研究_第4頁
合肥市二手房成交價格研究_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 合肥市二手房成交價格研究 劉海Summary:二手房交易市場比重的增大,使得對于二手房房價預測構建模型有重要意義。選取合肥市2019年6月至2020年6月的二手房成交記錄作為研究數(shù)據(jù)。針對BP神經(jīng)網(wǎng)絡模型易陷入局部最優(yōu)和傳統(tǒng)遺傳算法的BP神經(jīng)網(wǎng)絡收斂速度過慢的不足,建立雙鏈遺傳算法的BP神經(jīng)網(wǎng)絡模型,對研究數(shù)據(jù)進行仿真訓練,并檢驗了模型的泛化能力。實驗結果表明使用模型在精度和收斂速度的雙重考量下最優(yōu)。Abstract: The increasing proportion of the second-hand housing market makes it important to build

2、 a model for the prediction of second-hand housing prices. This paper selects the transaction records of second-hand houses in Hefei City from June 2019 to June 2020 as the research data. The BP neural network model is easy to fall into the local optimum and the convergence speed of the traditional

3、Genetic Algorithm is too slow. In this paper, the BP neural network model of Double-chain Genetic Algorithm is established, the research data are simulated and trained, and the generalization ability of the model is tested. The experimental results show that the proposed model is optimal under the c

4、onsideration of both accuracy and convergence speed.Key:房價預測;BP神經(jīng)網(wǎng)絡;遺傳算法;雙鏈遺傳算法Key words: house price forecast;BP neural network;Genetic Algorithm;Double-chain Genetic Algorithm:F224 :A :1006-4311(2020)29-0003-040 引言近年來中國房地產(chǎn)行業(yè)發(fā)展迅速,人們買房的需求不斷增加,使得房屋交易由新房交易為主逐步轉變成新房和二手房交易“并駕齊驅”1。因此建立模型能夠對二手房房價進行一房一價預測在

5、交易中有重要的參考價值。在機器學習算法中BP神經(jīng)網(wǎng)絡由于具有良好的泛化能力、學習能力和映射能力,使得其在房價預測中有一定的優(yōu)勢2-4。然而BP神經(jīng)網(wǎng)絡在訓練過程容易使模型參數(shù)收斂為局部極值,無法達到最優(yōu),所以將遺傳算法(GA)與BP神經(jīng)網(wǎng)絡模型進行組合,補足了神經(jīng)網(wǎng)絡的缺點5。李春生、李霄野6等用遺傳算法改進BP神經(jīng)網(wǎng)絡,對中國2005年至2015年的房價進行研究,發(fā)現(xiàn)改進后的算法比單一的BP神經(jīng)網(wǎng)絡的性能更好。杭曉亞、柳敘豐7等運用GA-BP模型對青島市的房價進行預測,效果也十分顯著。但是傳統(tǒng)的遺傳算法存在收斂過慢或早收斂現(xiàn)象8,因此使用雙鏈遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡建立模型對合肥市二手房房價

6、進行預測研究。1 BP神經(jīng)網(wǎng)絡和雙鏈遺傳算法1.1 BP神經(jīng)網(wǎng)絡BP神經(jīng)網(wǎng)絡(Back Propagation Network)是一種通過誤差反向傳播進行參數(shù)調優(yōu)的多層前饋神經(jīng)網(wǎng)絡,是運用最普遍的神經(jīng)網(wǎng)絡模型9。模型由輸入層、隱含層、輸出層組成,且各層神經(jīng)元之間采用全連接形式10。一個隱含層的BP神經(jīng)網(wǎng)絡拓撲結構如圖1所示。BP神經(jīng)網(wǎng)絡的訓練過程由信號的正向傳播和誤差的反向傳播構成。正向傳播時,信號由輸入層進入網(wǎng)絡,通過隱含層的信號處理后將信號傳入輸出層,當輸出層輸出與期望輸出之間的誤差滿足預設精度則模型訓練終止,否則進入誤差反向傳播階段;反向傳播時,通過梯度下降法優(yōu)化目標函數(shù)將誤差反向傳向各

7、層,對各層每個神經(jīng)元的權值和閾值進行調整11。信號的正向傳播和誤差的反向傳播更替進行,直到誤差精度達到預設要求或者迭代至預設的次數(shù)。1.2 雙鏈遺傳算法遺傳算法(Genetic Algorithm,GA)是基于達爾文進化論的思想提出的一種優(yōu)化搜索計算模型,通過模擬自然界物種在繁衍后代過程中個體的選擇、基因的交叉、變異,將優(yōu)良基因保留而淘汰劣質基因的原則實現(xiàn)對問題解的優(yōu)化12。傳統(tǒng)的遺傳算法在對個體進行編碼時采用的時單鏈染色體結構,本文使用了一種改進算法,引入更符合自然界遺傳規(guī)律的雙鏈染色體結構13-14,稱之為雙鏈遺傳算法(Double-chain Genetic Algorithm,DGA)

8、。1.2.1 染色體的雙鏈結構雙鏈遺傳算法中每個個體有兩條染色體,含有兩份相同的遺傳信息,在進行遺傳操作時通過解鏈只對其中的一條染色體進行交叉、變異產(chǎn)生子代染色體,使得既能參與遺傳進化生成子代基因,又能保留父代潛在的優(yōu)秀基因,使得迭代進行的遺傳操作時,增加種群的多樣性,擴大了搜索空間15-16。1.2.2 雙鏈染色體遺傳操作Step1:對需要優(yōu)化的問題進行編碼處理;Step2:初始化種群X0,設定最大遺傳代數(shù)G,初始遺傳代數(shù)g=0;Step3:計算初始種群個體X0每條鏈適應度值;Step4:對初始種群中個體進行選擇、交叉、變異操作產(chǎn)生新的個體Xg,此時種群中新個體的雙鏈染色體中既包含父代信息基

9、因鏈也包含子代信息基因鏈;Step5:計算新個體Xg中父代鏈和子代鏈的適應度值,將適應度值更優(yōu)的基因鏈代入下一次遺傳操作中,直到g=G時結束。2 數(shù)據(jù)來源及數(shù)據(jù)預處理2.1 數(shù)據(jù)來源本文使用的數(shù)據(jù)來自鏈家二手房網(wǎng)(https:/),采集2019年6至2020年6月合肥市二手房成交數(shù)據(jù),共得到12581條有效數(shù)據(jù)。其中每條數(shù)據(jù)含有特征變量28個,對特征變量進行分類,分為3個類型,分別為數(shù)值變量、名義變量和序數(shù)變量。具體變量如表1所示。2.2 原始變量的衍生在鏈家網(wǎng)上收集到的房屋戶型數(shù)據(jù)的具體形式有2室1廳1廚1衛(wèi)、3室1廳1廚2衛(wèi)等52種形式,若按照處理名義變量的方式來處理此變量,易導致維度災難

10、,因此本文根據(jù)房屋戶型變量的數(shù)據(jù)特征,將其衍生出臥室數(shù)量、廚房數(shù)量、客廳數(shù)量、衛(wèi)生間數(shù)量4個數(shù)值變量。在鏈家網(wǎng)上收集到的梯戶比例數(shù)據(jù)的具體形式有2梯4戶、1梯2戶、1梯4戶等155種形式,按照處理名義變量的方式來處理也會造成維度災難,因此構造新的梯戶比例:梯數(shù)與戶數(shù)的比值。2.3 數(shù)據(jù)的預處理原始數(shù)據(jù)中可能含有大量的缺失值和異常值,不利于對數(shù)據(jù)的分析以及后續(xù)的建模,為了提升原始數(shù)據(jù)的質量以便后續(xù)工作的進行,需要對數(shù)據(jù)進行預處理。本文首先對數(shù)據(jù)的缺失值進行處理,表2展示了有缺失值的特征變量的統(tǒng)計信息。表2展示了原始數(shù)據(jù)中部分特征變量的缺失信息。其中瀏覽次數(shù)、套內(nèi)面積、供暖方式缺失比例分別為55.

11、32%、75.5%、96.7%,缺失比例過大,因此將這三個變量直接刪除;有無電梯缺失比例小于1%,因此將缺失的記錄刪除;戶型結構缺失比例為32.2%,采用眾數(shù)插補的方式對缺失值進行補充。對原始數(shù)據(jù)缺失值進行處理之后在對數(shù)據(jù)的異常值進行處理,本文通過箱線圖、經(jīng)驗判斷的方式對異常值進行檢測,并刪除異常值。2.4 數(shù)據(jù)量化處理接著對名義變量和序數(shù)變量進行量化處理。其中名義變量采用one-hot編碼處理。序數(shù)變量為所在樓層,取值為低、中、高,可分別取值為0、1、2。為消除數(shù)值變量量綱的影響,將數(shù)值變量進行歸一化,歸一化的公式為:其中xstd為歸一化后的數(shù)據(jù),xmin和xmax分別為每個數(shù)值變量的最小值

12、與最大值。至此完成對數(shù)據(jù)的處理,下面將處理后的數(shù)據(jù)用于建模。3 DGA-BP二手房成交價格預測模型3.1 DGA-BP模型參數(shù)設置DGA-BP模型設置的參數(shù)分為BP神經(jīng)網(wǎng)絡參數(shù)設置和雙鏈遺傳算法參數(shù)設置,設置具體如下:確定BP神經(jīng)網(wǎng)絡模型的基本結構。確定BP神經(jīng)網(wǎng)絡的隱含層層數(shù)及各層神經(jīng)元個數(shù)。設定神經(jīng)網(wǎng)絡輸入層有54個神經(jīng)元,1個隱含層且隱含層神經(jīng)元有109,輸入層有1神經(jīng)元。同時通過多次調整確定BP神經(jīng)網(wǎng)絡的學習率為0.01,預設迭代次數(shù)為30000次。設定適應度函數(shù),用于計算種群中個體的適應度。本文使用測試集誤差本文使用BP神經(jīng)網(wǎng)絡測試集的測試誤差作為適應度函數(shù),適應度函數(shù)為:yi為測試

13、集中數(shù)據(jù)的真實值,i為數(shù)據(jù)的估計值。設定最大遺傳代數(shù),初始化種群,隨機產(chǎn)生一個初始種群,將種群中每個個體通過格雷編碼的方式進行編碼,每個個體含有兩條信息相同的染色體,都含有神經(jīng)網(wǎng)絡權值和閾值的全部信息,并計算初始種群中每個個體的每條鏈的適應度值。本文設定種群規(guī)模為50,最大遺傳代數(shù)為200。進行遺傳操作設定:選擇算子:本文采用輪盤賭的方式進行選擇操作;交叉算子:本文采用兩點交叉的方式進行交叉操作;變異操作:本文設定的變異概率為0.01。3.2 模型評價指標平均絕對誤差(MAE)。平均絕對誤差是期望值與預測值差值的平均值。計算公式如下:其中n為樣本數(shù)目,yi為期望值,i為估計值。均方誤差(MSE

14、)。均方誤差是期望值與預測值差值平方的平均值。計算公式為:其中n為樣本數(shù)目,yi為期望值,i為估計值。可決系數(shù)(R2)??蓻Q系數(shù)是判定模型擬合能力的指標,可決系數(shù)越大則模型的擬合能力越強。其計算公式如下:式中:SSE為回歸平方和;SST為總離差平方和;SSR為殘差平方和,其計算公式如下:其中yi為樣本的期望值,yi為樣本的平均值,i為樣本的估計值。3.3 實驗結果本文使用有效數(shù)據(jù)9817條數(shù)據(jù),按照3:7的比例將數(shù)據(jù)集劃分為測試集與訓練集,通過與BP神經(jīng)網(wǎng)絡和傳統(tǒng)的GA-BP模型進行比較,突出本文使用的DGA-BP模型的優(yōu)越性。其中圖2表示DGA-BP模型在收斂速度上與GA-BP模型的比較結果

15、。從圖中可以看出DGA-BP模型的收斂速度遠遠快于GA-BP模型,在進化到53代時就達到最佳收斂,收斂速度遠遠快于GA-BP模型。表3表示了BP模型、GA-BP模型、DGA-BP模型在測試集上的計算結果的展示,從表中可以看出在MAE、MSE、R2指標的測度中,GA-BP模型和DGA-BP模型的計算結果都優(yōu)于BP模型。從上述敘述中可以總結得出DGA-BP模型在收斂速度和算法精度的綜合考量中最優(yōu),于此同時新抓取了合肥市二手房成交數(shù)據(jù)800條,使用DGA-BP模型進行擬合,得出其MAE為784、MSE為787652、R2為0.9123。其前100個數(shù)據(jù)擬合結果展示如圖3所示,通過新抓取數(shù)據(jù)的驗證,可

16、以看出DGA-BP模型能夠對合肥市二手房成交價格進行較好的預測。4 結論本文通過采集合肥市2019年6月至2020年6月城區(qū)二手房成交記錄數(shù)據(jù),對比傳統(tǒng)BP神經(jīng)網(wǎng)絡模型和GA-BP模型,建立一種能夠對二手房成交價格進行有效預測的DGA-BP模型,該模型彌補了BP模型和GA-BP模型的不足,使得在追求模型收斂速度和預測精度的雙重考量為最優(yōu)選擇。在進化到54代時,對測試集進行擬合,可決系數(shù)R2為0.9406,對新抓取數(shù)據(jù)的擬合,可決系數(shù)為0.9123。說明模型有較好的泛化能力。然而在建模時將搜索到的所有指標都投入模型中,沒有考察變量的有效性從而對指標進行篩選,使得本文建立的模型未能最簡化,也降低了

17、模型的收斂速度。今后對如何在眾多指標中篩選中穩(wěn)健的重要指標是研究的一個方向點。Reference:1姜沛言,孫聰,劉洪玉.住房市場研究中的樣本城市選擇J.統(tǒng)計與決策,2016(05):29-33.2李廣勝,郭歡.基于GM(1,1)模型的南京市房價預測研究J.江漢大學學報(自然科學版),2020,48(02):10-13.3高文,李富星,牛永潔.基于BP神經(jīng)網(wǎng)絡對房價預測的研究J.延安大學學報(自然科學版),2018,37(03):37-40.4王筱欣,高攀.基于BP神經(jīng)網(wǎng)絡的重慶市房價驗證與預測J.重慶理工大學學報(社會科學),2016,30(09):49-53.5張立毅,劉婷,孫云山,李鏘.

18、遺傳算法優(yōu)化神經(jīng)網(wǎng)絡權值盲均衡算法的研究J.計算機工程與應用,2009,45(11):162-164.6李春生,李霄野,張可佳.基于遺傳算法改進的BP神經(jīng)網(wǎng)絡房價預測分析J.計算機技術與發(fā)展,2018,28(08):144-147,151.7杭曉亞,柳敘豐,趙澤昆.基于GA-BP神經(jīng)網(wǎng)絡的青島房價預測J.四川建筑,2015,35(06):233-236.8PHOLDEE N, BUREERAT, S. Hybrid real-code population-based incremental learning and approximate gradients for multi-objective truss designJ. Engineering Optimization, 2014, 46(8):1032-1051.9李英冰,陳雨勁,歐陽茜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論