《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第10章重慶市主城區(qū)二手房可視化分析_第1頁
《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第10章重慶市主城區(qū)二手房可視化分析_第2頁
《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第10章重慶市主城區(qū)二手房可視化分析_第3頁
《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第10章重慶市主城區(qū)二手房可視化分析_第4頁
《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第10章重慶市主城區(qū)二手房可視化分析_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

從2016年12月開始,重慶樓市開始走進(jìn)人們的視野,越來越多的購房者開始涌向這個(gè)樓市價(jià)值洼地。最近幾年,重慶二手房市場(chǎng)開始逐漸火熱起來,截止2020年1月重慶二手房鏈家量超過13萬套,如此巨大的市場(chǎng)存量決定著想從重慶主城區(qū)挑選滿意的住房并非易事,本章希望通過分析采集到重慶主城區(qū)二手房房源數(shù)據(jù),深入分析大量數(shù)據(jù)背后隱藏的房?jī)r(jià)波動(dòng)和城市發(fā)展規(guī)律,以求更好的幫助大家進(jìn)行購房決策。案例背景本章以重慶市主城區(qū)二手房為例,利用K-Means算法對(duì)二手房數(shù)據(jù)進(jìn)行聚類分析,具體過程及挖掘目標(biāo)如下所示:(1)通過網(wǎng)絡(luò)爬蟲采集鏈家網(wǎng)上部分重慶二手房的房源數(shù)據(jù),然后對(duì)采集到的數(shù)據(jù)進(jìn)行初步清洗。(2)對(duì)清洗之后的數(shù)據(jù)進(jìn)行數(shù)據(jù)可視化分析,探索隱藏在大量數(shù)據(jù)背后的規(guī)律;(3)采用K-Means聚類算法對(duì)重慶主城區(qū)二手房數(shù)據(jù)進(jìn)行聚類分析,并根據(jù)聚類分析的結(jié)果,將這些房源大致分類,以對(duì)所有數(shù)據(jù)的概括總結(jié)。通過上述分析,我們可以了解到目前重慶市主城區(qū)市面上二手房各項(xiàng)基本特征及房源分布情況,幫助人們進(jìn)行購房決策。本章具體目標(biāo)本小節(jié)通過網(wǎng)絡(luò)爬蟲程序抓取鏈家網(wǎng)上部分重慶市主城區(qū)數(shù)據(jù),收集原始數(shù)據(jù),作為整個(gè)數(shù)據(jù)分析與挖掘的基石。在分析重慶鏈家二手房主頁之之后,從中選取重慶市主城九區(qū)(渝中、江北、渝北、沙坪壩、南岸、九龍坡、北碚、大渡口、巴南)二手房房源數(shù)據(jù)作為爬取目標(biāo),截至目前為止,重慶二手房總體存量超過13萬套,通過訪問網(wǎng)址:/ershoufang/)能夠看出,總計(jì)顯示100頁,每頁顯示30個(gè)房源信息,因此在爬取數(shù)據(jù)的時(shí)候需要考慮如何處理才能爬取更多數(shù)據(jù)?數(shù)據(jù)采集-鏈家網(wǎng)站結(jié)構(gòu)分析我們需要采集的目標(biāo)數(shù)據(jù)就在該頁面,包括基本信息、房屋屬性和交易屬性三大類。各類信息包括的數(shù)據(jù)項(xiàng)如下:1)基本信息:小區(qū)名稱、所在區(qū)域、總價(jià)、單價(jià)。2)房屋屬性:房屋戶型、所在樓層、建筑面積、戶型結(jié)構(gòu)、套內(nèi)面積、建筑類型、房屋朝向、建筑結(jié)構(gòu)、裝修情況、梯戶比例、配備電梯、產(chǎn)權(quán)年限。3)交易屬性:掛牌時(shí)間、交易權(quán)屬、上次交易、房屋用途、房屋年限、產(chǎn)權(quán)所屬、抵押信息、房本備件。數(shù)據(jù)采集-目標(biāo)數(shù)據(jù)(1)關(guān)鍵問題1:鏈家網(wǎng)二手房主頁最多只顯示100頁的房源數(shù)據(jù),所以在收集二手房房源信息頁面URL地址時(shí)會(huì)收集不全,導(dǎo)致最后只能采集到部分?jǐn)?shù)據(jù)。解決措施:將所有重慶市主城區(qū)手房數(shù)據(jù)分區(qū)域地進(jìn)行爬取,100頁最多能夠顯示3000套房,該區(qū)域房源少于3000套時(shí)可以直接爬取,如果該區(qū)域房源超過3000套可以再分成更小的區(qū)域。(2)關(guān)鍵問題2:爬蟲程序如果運(yùn)行過快,會(huì)在采集到兩、三千條數(shù)據(jù)時(shí)觸發(fā)鏈家網(wǎng)的反爬蟲機(jī)制,所有的請(qǐng)求會(huì)被重定向到鏈家的人機(jī)鑒定頁面,從而會(huì)導(dǎo)致后面的爬取失敗。解決措施:①為程序中每次http請(qǐng)求構(gòu)造header并且每次變換http請(qǐng)求header信息頭中USER_AGENTS數(shù)據(jù)項(xiàng)的值,讓請(qǐng)求信息看起來像是從不同瀏覽器發(fā)出的訪問請(qǐng)求。②爬蟲程序每處理完一次http請(qǐng)求和響應(yīng)后,隨機(jī)睡眠1-3秒,每請(qǐng)求2500次后,程序睡眠20分鐘,控制程序的請(qǐng)求速度。數(shù)據(jù)采集-網(wǎng)絡(luò)爬蟲程序關(guān)鍵問題說明爬取鏈家數(shù)據(jù)的核心模塊包括4個(gè),分別為爬蟲程序主模塊、網(wǎng)頁加載模塊、網(wǎng)頁解析模塊、數(shù)據(jù)輸出收集模塊,各模塊具體代碼及解析如下:(1)網(wǎng)頁加載模塊對(duì)于網(wǎng)頁加載模塊來說,在加載后續(xù)需要解析的網(wǎng)頁,為了更好應(yīng)對(duì)鏈家反爬蟲機(jī)制,在處理過程中會(huì)不斷更改header,然后不斷更改header以求更好模擬不同瀏覽器的訪問請(qǐng)求。(2)網(wǎng)頁解析模塊對(duì)于網(wǎng)頁解析模塊來說,它是在網(wǎng)頁加載模塊的基礎(chǔ)上進(jìn)行深度分析網(wǎng)頁,需要用到前面章節(jié)介紹的BeautifulSoup知識(shí)和Web開發(fā)中學(xué)過的HTML頁面相關(guān)知識(shí)。另外,還需要用到自己編寫的log.py,此處利用fromlogimportMyLog引入。數(shù)據(jù)采集-爬蟲代碼解析1(3)數(shù)據(jù)收集模塊對(duì)于數(shù)據(jù)采集模塊來說,它是建立在頁面分析模塊的基礎(chǔ)上,根據(jù)挖掘需要確定輸出內(nèi)容,并將爬取文件輸出到制定文件中。(4)爬蟲程序主模塊對(duì)于爬蟲主模塊來說,它需要調(diào)用網(wǎng)頁加載模塊、網(wǎng)頁解析模塊、數(shù)據(jù)輸出收集模塊。由于重慶市二手房市場(chǎng)存量數(shù)據(jù)超過13萬套,本章重點(diǎn)關(guān)注選擇的主城九區(qū)數(shù)據(jù),因此在代碼中要實(shí)現(xiàn)區(qū)域選擇,每個(gè)區(qū)域爬取100頁數(shù)據(jù)。數(shù)據(jù)采集-爬蟲代碼解析2對(duì)于爬蟲程序采集得到的數(shù)據(jù)并不能直接分析,需要先去掉一些“臟”數(shù)據(jù),修正一些錯(cuò)誤數(shù)據(jù),統(tǒng)一所有數(shù)據(jù)字段的格式,將這些零散的數(shù)據(jù)規(guī)整成統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)。本文爬取到的數(shù)據(jù)編碼格式并不是utf-8,這就導(dǎo)致后續(xù)的數(shù)據(jù)清洗比較麻煩,因此在進(jìn)行數(shù)據(jù)清洗之前需要對(duì)文件進(jìn)行轉(zhuǎn)碼,數(shù)據(jù)轉(zhuǎn)碼之后需要對(duì)數(shù)據(jù)進(jìn)行清洗,具體操作內(nèi)容如下:1)將雜亂的記錄的數(shù)據(jù)項(xiàng)對(duì)齊;2)清洗一些數(shù)據(jù)項(xiàng)格式;3)缺失值處理。數(shù)據(jù)清洗在數(shù)據(jù)清洗完成后,我們就可以開始對(duì)數(shù)據(jù)進(jìn)行可視化分析。該階段主要是對(duì)數(shù)據(jù)做一個(gè)探索性分析并將結(jié)果可視化呈現(xiàn),幫助人們更好、更直觀的認(rèn)識(shí)數(shù)據(jù),把隱藏在大量數(shù)據(jù)背后的信息集中和提煉出來。本文主要對(duì)二手房房源的總價(jià)、單價(jià)、面積、戶型、地區(qū)等屬性進(jìn)行了分析。數(shù)據(jù)可視化分析主要步驟如下:1)數(shù)據(jù)加載;2)數(shù)據(jù)轉(zhuǎn)換;3)數(shù)據(jù)可視化呈現(xiàn)。數(shù)據(jù)可視化分析數(shù)據(jù)分析和建模的大量工作都是用在數(shù)據(jù)準(zhǔn)備上的,如:清理、加載、轉(zhuǎn)換等。清洗完成后的數(shù)據(jù)仍然存儲(chǔ)在文本文件(CSV格式)中,要對(duì)數(shù)據(jù)進(jìn)行可視化分析,必須先要將數(shù)據(jù)按一定結(jié)果加載到內(nèi)存中。我們使用Pandas提供的DataFrame對(duì)象來加載和處理我們清洗后的數(shù)據(jù),Pandas同時(shí)提供將表格型數(shù)據(jù)讀取為DataFrame對(duì)象的函數(shù)。數(shù)據(jù)加載處理過程中需要注意的主要問題如下:(1)數(shù)據(jù)項(xiàng)的行列索引的處理;(2)數(shù)據(jù)類型推斷和數(shù)據(jù)轉(zhuǎn)換;(3)缺失值的處理。主城二手房數(shù)據(jù)加載數(shù)據(jù)加載后,數(shù)據(jù)基本情況見教材圖10.1。從圖中可以看到加載后的數(shù)據(jù)一共26372行、22列,占用內(nèi)存4.4+MB。在數(shù)據(jù)類型上,一共有1列float64類型,3列int64類型,18列object類型。除了房屋年限和上次交易時(shí)間三列數(shù)據(jù)項(xiàng)缺失值比較多之外,其他列數(shù)據(jù)項(xiàng)的缺失值都不多,所以數(shù)據(jù)整體的質(zhì)量還不錯(cuò)。從整體數(shù)據(jù)文件詞云,如教材圖10.2所示,我們可以得到在重慶二手房房源信息中經(jīng)常出現(xiàn)的高頻詞,如商品房、普通住宅、鋼混結(jié)構(gòu)、平層、塔樓等。我們可以通過這些高頻詞,十分粗略的了解整個(gè)數(shù)據(jù)文件中的基本內(nèi)容。通過前面的分析,我們可以看出該數(shù)據(jù)文件的整體質(zhì)量還不錯(cuò)。雖然存在一些缺失值比較多的數(shù)據(jù)項(xiàng),但我們比較關(guān)注一些數(shù)據(jù)項(xiàng)缺失值不多。這些缺失值較多的都是一些次要的數(shù)據(jù)項(xiàng),不影響我們的分析。數(shù)據(jù)整體質(zhì)量分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房房屋屬性可視化分析主要針對(duì)二手房:房屋戶型、房屋裝修占比、房屋朝向等三方面分析。重慶主城區(qū)二手房房屋屬性可視化分析二手房房屋屬性可視化分析主要針對(duì)二手房:房屋戶型、房屋裝修占比、房屋朝向等三方面分析。重慶主城區(qū)二手房房屋屬性可視化分析二手房房屋屬性可視化分析主要針對(duì)二手房:房屋戶型、房屋裝修占比、房屋朝向等三方面分析。重慶主城區(qū)二手房房屋屬性可視化分析該階段采用聚類算法中的k-means算法對(duì)爬取的二手房數(shù)據(jù)進(jìn)行聚類分析,根據(jù)聚類的結(jié)果和經(jīng)驗(yàn),將這些房源大致分類,已達(dá)到對(duì)數(shù)據(jù)概括總結(jié)的目的。在聚類過程中,我們選擇了面積、總價(jià)和單價(jià)這三個(gè)數(shù)值型變量作為樣本點(diǎn)的聚類屬性。對(duì)于K-means算法來說,它的原理相對(duì)簡(jiǎn)單,不過在聚類之前要實(shí)現(xiàn)給出聚類的簇?cái)?shù)k值,但在很多時(shí)候中k值的選定是十分難以估計(jì)的,很多情況我們聚類前并不清楚給出的數(shù)據(jù)集應(yīng)當(dāng)分成多少類才最恰當(dāng)。另外,k-means需要人為地確定初始質(zhì)心,不一樣的初始質(zhì)心可能會(huì)得出差別很大的聚類結(jié)果,無法保證k-means算法收斂于全局最優(yōu)解。下面我們將會(huì)重點(diǎn)介紹如何選擇合適的K值和質(zhì)心。重慶市主城區(qū)二手房模型構(gòu)建根據(jù)聚類原則:組內(nèi)差距要小,組間差距要大。我們先算出不同k值下各個(gè)SSE(Sumofsquarederrors)值,然后繪制出折線圖,如教材圖10.12所示,從中選定最優(yōu)解。從圖中,我們可以看出k值到達(dá)5或6以后,SSE變化趨于平緩,本次實(shí)驗(yàn)我們選擇K值為5。重慶市主城區(qū)二手房模型構(gòu)建--K值的選擇初始的k個(gè)質(zhì)心選定是采用的隨機(jī)法。從各列數(shù)值最大值和最小值中間按正太分布隨機(jī)選取k個(gè)質(zhì)心。離群點(diǎn)就是遠(yuǎn)離整體的,非常異常、非常特殊的數(shù)據(jù)點(diǎn)。因?yàn)閗-means算法對(duì)離群點(diǎn)十分敏感,所以在聚類之前應(yīng)該將這些“極大”、“極小”之類的離群數(shù)據(jù)都去掉,否則會(huì)對(duì)于聚類的結(jié)果有影響。離群點(diǎn)的判定標(biāo)準(zhǔn)是根據(jù)前面數(shù)據(jù)可視化分析過程的散點(diǎn)圖和箱線圖進(jìn)行判定。根據(jù)散點(diǎn)圖和箱線圖,需要去除離散值的范圍如下:1)單價(jià):基本都在50000以內(nèi),沒有特別的異常值。2)總價(jià):基本都集中在500萬以內(nèi),這里我們需要去除500萬外的異常值。3)建筑面積:基本都集中在400平米以內(nèi),這里我們需要去除400平米外的異常值。重慶市主城區(qū)二手房模型構(gòu)建--初始K個(gè)質(zhì)心選定及離群點(diǎn)處理因?yàn)榭們r(jià)的單位為萬元,單價(jià)的單位為元/平米,建筑面積的單位為平米,所以數(shù)據(jù)點(diǎn)計(jì)算出歐幾里德距離的單位是沒有意義的。同時(shí),總價(jià)都是500萬以內(nèi)的數(shù),建筑面積都是400以內(nèi)的數(shù),但單價(jià)基本都是10000以上的數(shù),在計(jì)算距離時(shí)單價(jià)起到的作用就比總價(jià)大,總價(jià)和單價(jià)的作用都遠(yuǎn)大于建筑面積,這樣聚類出來的結(jié)果是有問題的。這樣的情況下,我們需要將數(shù)據(jù)標(biāo)準(zhǔn)化,即將數(shù)據(jù)按比例縮放,使之都落入一個(gè)特定區(qū)間內(nèi)。去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級(jí)的指標(biāo)能夠進(jìn)行計(jì)算和比較。我們將單價(jià)、總價(jià)和面積都映射到500,因?yàn)槊娣e和總價(jià)本身就都在500以內(nèi),不要特別處理。單價(jià)在計(jì)算距離時(shí),需要先乘以映射比例0.005。這就能夠在一定程度上保證聚類效果不受數(shù)據(jù)量綱不統(tǒng)一的影響。重慶市主城區(qū)二手房模型構(gòu)建--數(shù)據(jù)的標(biāo)準(zhǔn)化經(jīng)過K-means算法聚類分析,下面對(duì)聚類結(jié)果進(jìn)行深入分析,以求更好的為購房者提供決策支持。聚類結(jié)果統(tǒng)計(jì)信息如下表所示:重慶市主城區(qū)二手房模型構(gòu)建--聚類結(jié)果分析聚類后的單價(jià)與建筑面積散點(diǎn)圖和總價(jià)與建筑面積散點(diǎn)圖如下所示:重慶市主城區(qū)二手房模型構(gòu)建--聚類結(jié)果分析聚類后的單價(jià)與建筑面積散點(diǎn)圖和總價(jià)與建筑面積散點(diǎn)圖如下所示:重慶市主城區(qū)二手房模型構(gòu)建--聚類結(jié)果分析根據(jù)以上聚類結(jié)果和我們的經(jīng)驗(yàn)分析,我們大致可以將這20000多套房源分為以下5類:1)大戶型(面積大,總價(jià)高),屬于第3類。平均面積都在200平以上,這種大戶型的房源相對(duì)數(shù)量較少,主要分布區(qū)域江北、渝北、渝中、南岸等地。2)改善型(單價(jià)高、面積較大),屬于第1類。此類房源數(shù)量不少,比較適合具有一定經(jīng)濟(jì)能力改善型需求,比如說比如江北、渝北等地洋房、大平層。3)經(jīng)濟(jì)型(單價(jià)居中,面積居中,總價(jià)合適)屬于第2類。此類房源數(shù)量最多,小三房居多,能夠滿足日常生活需求,分布區(qū)域較為廣泛。4)高性價(jià)比型(單價(jià)低、面積大)屬于第0類。此類房源多分布在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論