房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第1頁
房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第2頁
房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第3頁
房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第4頁
房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言1

1.1項(xiàng)目背景1

1.2開發(fā)環(huán)境與工具2

1.2.1Python簡介2

1.2.2Jypyternotebook簡介2

1.2.3Python第三方庫簡介3

2需求分析3

2.1可行性需求分析3

2.2采集目標(biāo)功能分析4

2.3關(guān)鍵技術(shù)分析4

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)4

2.3.2文件存取技術(shù)5

2.3.3可視化技術(shù)6

3數(shù)據(jù)采集7

3.1采集頁面分析7

3.2字段分析9

3.3編程實(shí)現(xiàn)10

4數(shù)據(jù)清洗與處理13

4.1數(shù)據(jù)清洗13

4.2數(shù)據(jù)儲(chǔ)存14

5數(shù)據(jù)統(tǒng)計(jì)與分析15

5.1數(shù)據(jù)準(zhǔn)備15

5.2數(shù)據(jù)展示16

5.2.1根據(jù)樓盤銷售狀態(tài)的數(shù)量進(jìn)行統(tǒng)計(jì)16

5.2.2依據(jù)各銷售狀態(tài)的均價(jià)進(jìn)行統(tǒng)計(jì)17

5.2.3據(jù)新房價(jià)格分布進(jìn)行統(tǒng)計(jì)和分析18

5.2.4依據(jù)單價(jià)價(jià)格前20樓盤位置進(jìn)行統(tǒng)計(jì)19

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.5根據(jù)戶型數(shù)量進(jìn)行統(tǒng)計(jì)20

5.3本章小結(jié)21

6小結(jié)21

參考資料23

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析

1引言

21世紀(jì)已然過去20年,全球在這20年里發(fā)展迅速,我國也同樣進(jìn)入信息

大爆炸時(shí)段,從以前的只聞耳邊事,到現(xiàn)在的知天下事??萍嫉难杆侔l(fā)展帶給

人們更便捷,更舒適的生活體驗(yàn)。我國雖然1997年才介入互聯(lián)網(wǎng),到2017年

互聯(lián)網(wǎng)的普及率才過半,但經(jīng)過斷斷幾年的發(fā)展,我國從無到有,再到如今的

飛躍。同時(shí)隨著互聯(lián)網(wǎng)的發(fā)展,我國也以驚人的速度成長起來,成為大國。

個(gè)人的穿衣風(fēng)格、食物喜好、娛樂選擇,匯聚為個(gè)人數(shù)據(jù),那么全球70億

人口的所有數(shù)據(jù)集合便是一個(gè)龐大無比的數(shù)據(jù)庫。從這個(gè)巨大的數(shù)據(jù)庫中觀察,

便可發(fā)現(xiàn)許多珍貴的信息,尤其是人們的衣食住行、衛(wèi)生醫(yī)療、娛樂項(xiàng)目等等,

其中的價(jià)值可開發(fā)性巨大。也因此,互聯(lián)網(wǎng)專業(yè)人才從幾年前的供不應(yīng)求的狀

態(tài)變成現(xiàn)在的飽和,正式人們看到了數(shù)據(jù)的未來的發(fā)展空間大。隨著發(fā)展,人

們的喜好會(huì)變,因此數(shù)據(jù)也會(huì)增加改變,發(fā)掘性也一直存在。

1.1項(xiàng)目背景

住房一直以來都是人們普遍關(guān)注的事,房子通常給人的感覺是溫暖、安全,

因此人們來到一個(gè)新城市的第一件事就是找到居住的房子。對(duì)于工作的年輕人,

通常都想在當(dāng)?shù)負(fù)碛幸粋€(gè)屬于自己的房子,而擁有房子,也讓婚姻有了保障,

讓夫妻在此培養(yǎng)下一代。

沿海省份普遍比內(nèi)陸省份發(fā)展高,工作薪資一般也比內(nèi)陸高。如今人們生

活離不開住房,但近幾年的售房率卻大大下降。在以往,尋找工作的年輕人的

選擇一般都為沿海省份城市,找到工作,然后買一間自己的小屋,所以房地產(chǎn)

行業(yè)經(jīng)久不衰。對(duì)于購房者,買方需要滿足自己的需求,周圍環(huán)境、朝向、交

通、醫(yī)療距離,都是購房的考慮要素。

這也是我將這作為畢設(shè)的原因,生活離不開住房,對(duì)房屋的各項(xiàng)分析便于

人更加清晰的了解房子,從而作出自己的選擇,房產(chǎn)公司也可通過分析了解人

們的隱形需求,以便未來發(fā)展。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python由荷蘭數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究學(xué)會(huì)的吉多·范羅蘇姆于1990年代

初設(shè)計(jì),作為一門叫做ABC語言的替代品。因?yàn)槭菑腁BC發(fā)展起來的,因此受

到了Modula-3的影響,結(jié)合了UnixShell和C的習(xí)慣。

Python是一種十分優(yōu)美的語言,其豐富的模塊和其他語言難以描述的列表、

字典等復(fù)雜的數(shù)據(jù)類型,在近年得到廣泛運(yùn)用。它具有開源、免費(fèi)、功能強(qiáng)大、

語法簡潔清晰、簡單、數(shù)據(jù)類型豐富、面向?qū)ο蟮忍攸c(diǎn)。而且它還有十分豐富

的資源包,無論用戶要干什么,基本都能找到一個(gè)程序包滿足自己。

隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的信息被發(fā)布到互聯(lián)網(wǎng)上,信息含量越

來越密集。而大數(shù)據(jù)技術(shù)所設(shè)計(jì)的數(shù)據(jù)獲取、數(shù)據(jù)清洗、可視化處理里,都有

這python的存在,足以證明python的應(yīng)用廣泛性。在如今,python已經(jīng)成為

了最受歡迎的程序語言之一,在國外,很多做科學(xué)計(jì)算的科研機(jī)構(gòu)都會(huì)選擇使

用python,一些知名大學(xué)也采取了用python教授設(shè)計(jì)課程的措施。眾多開源的

科學(xué)計(jì)算軟件包都提供了python的調(diào)用接口。同時(shí),NumPy、SciPy和

matplotlib這三個(gè)經(jīng)典的科學(xué)計(jì)算擴(kuò)展庫為python提供了快速數(shù)組處理、數(shù)值

運(yùn)算已經(jīng)繪圖功能,這是人們更加愿意使用python。

最后,python曾在2022年超越Java,在最新的榜單中,python在PYPL指

數(shù)榜中斬獲冠軍,成為最火熱的計(jì)算語言。并且隨著python的繼續(xù)開發(fā),從事

的工作崗位及內(nèi)容也增多。大數(shù)據(jù)技術(shù)的未來發(fā)展空間巨大,也正是因?yàn)閜ython

在許多方面大有發(fā)揮之處,現(xiàn)在的python相關(guān)職位也炙手可熱。

1.2.2Jypyternotebook簡介

Jupyternotebook從本質(zhì)上來說是一個(gè)Web程序,便于創(chuàng)建和共享程序

文檔,支持實(shí)時(shí)代碼,教學(xué)方程,可視化和markdown的應(yīng)用程序其最大的優(yōu)點(diǎn)

是可以重現(xiàn)整個(gè)分析過程,并將說明文字、代碼、圖表。公式和結(jié)論都整合在

一個(gè)文檔中。用戶可以通過墊子郵件等方法將數(shù)據(jù)結(jié)構(gòu)分享給其他人。相較于

其他的數(shù)據(jù)清洗方式,jypyternotebook更加方便。它支持markdown語言,可

以在編輯代碼的同時(shí),可以為代碼注釋。而且jypyternotebook執(zhí)行代碼不會(huì)

將注釋一起執(zhí)行,這使教學(xué)更加易懂,講解項(xiàng)目時(shí)也簡單明確。

對(duì)于大數(shù)據(jù)技術(shù)的工作人員,在收集了大量數(shù)據(jù)后,用jypyternotebook

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

來清洗數(shù)據(jù)十分廣泛,畢竟它除了可以清洗、處理數(shù)據(jù)外,還可以可視化,如

此方便、快捷的程序深受歡迎。

由于Anaconda中自帶jypyternotebook,所以用戶可以直接在當(dāng)前的系統(tǒng)

中安裝Anaconda環(huán)境,這樣就默認(rèn)擁有了了jypyternotebook,不需要另行下

載和安裝。當(dāng)然如果不想要Anaconda,可直接前往官網(wǎng)安裝,都是可行的。

1.2.3Python第三方庫簡介

Requests庫:是一個(gè)原生的HTTP庫,比urllib3庫更容易使用,且無須手

動(dòng)為URL添加查詢字符,也不需要對(duì)POST數(shù)據(jù)進(jìn)行表單編碼。相較于urllib3

庫,它擁有完全自動(dòng)化的Keep-Alive和HTTP連接池的功能。

Xpath:XML路徑語言是一門在XML文檔中查找信息的語言,Xpath的選擇

功能強(qiáng)大,它提供了非常簡潔明了的路勁選擇表達(dá)式,還提供了超過100個(gè)內(nèi)

建函數(shù),幾乎所有定位都可以用Xpath來選擇。

Csv:csv屬于python內(nèi)置模塊之一,它可以在python中讀取csv格式的

文件,也可以將數(shù)據(jù)存儲(chǔ)為csv可是文件。Csv文件是常見的數(shù)據(jù)存儲(chǔ)的文件格

式。

NumPy庫:具有矢量算術(shù)能力和復(fù)雜的廣播能力,可以進(jìn)行部分科學(xué)計(jì)算。

而且它還擁有對(duì)高維數(shù)組的處理能力。比python標(biāo)準(zhǔn)款操作性更高。

pandas:基于MumPy的庫,專門解決數(shù)據(jù)分析任務(wù),它不僅加入了大量的

庫和一些標(biāo)準(zhǔn)模型,還提供了高效操作大型數(shù)據(jù)所需的工具。

pycharts:繪圖庫,可繪制柱狀圖、條形圖、餅圖、箱型圖等可視圖。

Bar、Pie、:生成柱狀圖、餅圖。

pylab:它能設(shè)置畫圖讓文字顯示中文。

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

面向?qū)ο竦恼Z言中python相對(duì)其他計(jì)算機(jī)編程語言通俗易懂些,本次項(xiàng)目

用python編寫程序來獲取數(shù)據(jù),以及數(shù)據(jù)的清洗預(yù)處理和可視化。對(duì)網(wǎng)頁進(jìn)行

數(shù)據(jù)獲取需要事先設(shè)置反爬,以防ip封禁。網(wǎng)頁為靜態(tài)網(wǎng)頁,因此不需要像動(dòng)

態(tài)網(wǎng)頁那么復(fù)雜,通過向?yàn)g覽器控制臺(tái)發(fā)生請(qǐng)求和獲取參數(shù),得到房天下杭州

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

新房網(wǎng)頁的數(shù)據(jù)返回值。再通過xpath路徑獲取所需的新房數(shù)據(jù),通過去空格、

保留所需字符等操作,將爬取出的數(shù)據(jù)存以csv格式文件,后續(xù)再進(jìn)行數(shù)據(jù)預(yù)

處理清洗和可視化分析數(shù)據(jù)。

以上為本次項(xiàng)目的技術(shù)可行性,我將在接下來的工作中將以上步驟實(shí)現(xiàn)到

位,確保數(shù)據(jù)的準(zhǔn)確性、有序性和安全性。

2、項(xiàng)目可行性

教育、住房、醫(yī)療一直是人民所關(guān)注的、關(guān)心的,也是我們國家發(fā)展的必要

領(lǐng)域。安小家成大家,生活中方方面面都涉及到住房,教育、醫(yī)療都離不開住

房。而我國人民一直都高度關(guān)注住房問題,尤其近幾年售房數(shù)有所下降。

此次項(xiàng)目收集群眾看房頻率較高的一家售房網(wǎng)站房天下網(wǎng)站,沿海城市杭

州的新房數(shù)據(jù)。我們將從目前正在銷售的新房和未來進(jìn)入銷售行列的新房的數(shù)

量、價(jià)格、分布區(qū)域進(jìn)行深度分析,得到有用的信息,然后可視化得到更為直

觀的信息結(jié)論。

2.2采集目標(biāo)功能分析

此次項(xiàng)目的數(shù)據(jù)來源房天下網(wǎng)網(wǎng)站,通過用python爬取其網(wǎng)站下杭州城市

新房的數(shù)據(jù)信息。經(jīng)過數(shù)據(jù)清洗后留下了926條數(shù)據(jù),獲取的數(shù)據(jù)盡可能的檢

查數(shù)據(jù)的準(zhǔn)確性,確保爬取的數(shù)據(jù)準(zhǔn)確、一一對(duì)應(yīng)且的確為杭州新房的新房各

類數(shù)據(jù)的信息。

獲取房天下杭州新房的房產(chǎn)信息,確定我爬取的房產(chǎn)數(shù)據(jù)為樓盤名稱、戶

型、面積、價(jià)格、房屋類型、區(qū)域、地址、銷售狀態(tài),在對(duì)爬取后的原信息進(jìn)

行處理后,對(duì)其進(jìn)行多方面的分析。例如正處于在售和待售的新房數(shù)量,在售

及待售平均單價(jià)為多少,這樣可以看出該城市新房的平均單價(jià)處于哪個(gè)范圍,

購房者是否支撐得起購房所需的金額,查看每平米單價(jià)價(jià)格前二十的樓盤名稱,

以及它們多分布在城市的區(qū)域位置。可看出未來房產(chǎn)發(fā)展方向及城市規(guī)劃,助

于人們未來居住區(qū)域的規(guī)劃。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

如今網(wǎng)上的東西繁多,在瀏覽自己喜歡或需要的網(wǎng)頁時(shí),難免遇到要緩存

到本地的數(shù)據(jù),數(shù)量小還可以手動(dòng)自己去下載保存,但遇到龐大的數(shù)據(jù)是,手

動(dòng)保存費(fèi)事費(fèi)力,好幾個(gè)G甚至T的單位的數(shù)據(jù)若要進(jìn)行手動(dòng)幾乎難以實(shí)現(xiàn),

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

這時(shí)候爬蟲就體現(xiàn)了它的重要性,使用爬蟲自動(dòng)獲取數(shù)據(jù)可比手動(dòng)快,準(zhǔn)確性

也高,哪怕發(fā)生錯(cuò)誤,也可重新爬取,省時(shí)又省力。

網(wǎng)絡(luò)爬蟲素有網(wǎng)絡(luò)蜘蛛和網(wǎng)絡(luò)機(jī)器人之稱,是一個(gè)可實(shí)現(xiàn)自動(dòng)化下載網(wǎng)頁

的計(jì)算機(jī)程序或者自動(dòng)化腳本。只需編寫出正確的代碼,網(wǎng)絡(luò)蜘蛛就會(huì)如同一

只蜘蛛一樣在互聯(lián)網(wǎng)上爬行,去瀏覽那龐大的互聯(lián)網(wǎng),并且將網(wǎng)頁中的數(shù)據(jù)進(jìn)

行精準(zhǔn)、準(zhǔn)確的采集。如今的網(wǎng)絡(luò)爬蟲大致分為四種:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)

絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲,其分類是按照系統(tǒng)的結(jié)構(gòu)和運(yùn)作原

理劃分。

談起網(wǎng)絡(luò)爬蟲大多數(shù)人第一反應(yīng)是——黑客,但普通的網(wǎng)絡(luò)爬蟲不能與黑

客混為一談。黑客是屬于違法行為,那些黑客們違法獲取個(gè)人信息或者某些組

織的重要信息售賣進(jìn)行營利。若要將大數(shù)據(jù)比作女友,那么普通的網(wǎng)絡(luò)爬蟲便

是通過正規(guī)追求方式并獲得首肯的男友,而黑客就是違法犯罪的掠奪,二者有

著本質(zhì)上的區(qū)別。當(dāng)然在進(jìn)行爬蟲是還要設(shè)置反爬或者設(shè)置睡眠緩沖時(shí)間,否

則以極高的頻率去重復(fù)訪問瀏覽器,會(huì)造成壓力,還會(huì)倍客戶端認(rèn)為是惡意攻

擊行為,導(dǎo)致服務(wù)器自動(dòng)關(guān)機(jī)或者ip封禁。

網(wǎng)絡(luò)爬蟲在不同的場景會(huì)發(fā)揮其不同的作用,例如大學(xué)生放假前的搶票、

追星人給喜愛的明星投票、購物促銷時(shí)的限時(shí)搶購、名額有限的報(bào)名等等。同

樣也有壞的影響,歌手演唱會(huì)惡意大量搶購然后高價(jià)售出的黃牛行為、持續(xù)不

斷地信息騷擾?;ヂ?lián)網(wǎng)有利有弊,爬蟲也是如此的,因此我們技術(shù)人員要知法、

守法,不要作出違法行為,哪怕技術(shù)高超,有著超越絕大多數(shù)人的能力,也要

控制自己,不要踏入罪惡的深淵。

有爬蟲就有反爬蟲,一家公司設(shè)計(jì)網(wǎng)頁時(shí)肯定想到過他人會(huì)爬取網(wǎng)頁,那

么就會(huì)設(shè)制防守機(jī)制,反爬就是繞過防守機(jī)制獲取自己所需商務(wù)數(shù)據(jù)。反爬策

略有多種,發(fā)送模擬User-Agent、調(diào)整訪問頻率、通過驗(yàn)證碼校驗(yàn)、應(yīng)對(duì)網(wǎng)站

結(jié)構(gòu)變化、通過賬號(hào)權(quán)限限制、通過代理IP規(guī)避等。這些反爬技術(shù)雖說會(huì)極大

寫工作量,但為了更好的獲取數(shù)據(jù),這些也在所難免。對(duì)于部分小網(wǎng)站,設(shè)置

一個(gè)簡單的反爬獲取數(shù)據(jù),既不會(huì)造成太大的成本也會(huì)使我們操作簡單些。

2.3.2文件存取技術(shù)

Python內(nèi)置csv模塊如圖2-1顯示:

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖2-1python內(nèi)置csv模塊及添加表頭

圖2-2python內(nèi)為csv文件

存儲(chǔ)數(shù)據(jù)內(nèi)容

2.3.3可視化技術(shù)

將爬取后的數(shù)據(jù)進(jìn)行預(yù)處理后,我們?nèi)匀徊荒苤苯拥玫轿覀冃枰姆治鼋Y(jié)

果,因此我們?yōu)榱烁又庇^的得出結(jié)論,將數(shù)據(jù)可視化就能實(shí)現(xiàn)一目了然的分

析結(jié)論。

可視化就是將數(shù)據(jù)整理繪制出各類圖形,其主要數(shù)據(jù)都直接的顯示在圖中,

而一副圖可得出的信息不僅僅只有顯示出來的那些,一些隱含的數(shù)據(jù)也會(huì)在可

視圖中展露身影。

哪怕在我們預(yù)處理后的數(shù)據(jù)有序,但數(shù)據(jù)集龐大,幾百上千條的數(shù)據(jù)還是

各數(shù)據(jù)都在一起,若要盯著一條數(shù)值去看上上百條,也是繁冗枯燥的,何況要

分析得出結(jié)論,幾乎無法實(shí)現(xiàn)。為此,我們導(dǎo)入之后要利用到的第三方庫,將

數(shù)據(jù)提取出關(guān)鍵的數(shù)字、字符,然后根據(jù)提取出的數(shù)字、字符進(jìn)行統(tǒng)計(jì)、排序,

然后思考選擇怎樣的幾何圖形才能更好的、直觀的表達(dá)我們所需要的信息,接

著編譯、繪制圖形。

隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量已經(jīng)擴(kuò)大了50倍,如今哪怕單一數(shù)據(jù)集的規(guī)模

都達(dá)到了幾十TB到數(shù)PB不等,何況數(shù)據(jù)有復(fù)雜類型繁多,可視化技術(shù)也必須

隨之進(jìn)步。這么多年來,可視化技術(shù)也發(fā)展成了三類:科學(xué)可視化、信息可視

化、可視化分析。本項(xiàng)目用到的是信息可視化,專門對(duì)非結(jié)構(gòu)、非幾何的數(shù)據(jù)

對(duì)象進(jìn)行處理,減少由于數(shù)據(jù)復(fù)雜而混淆視覺的信息的干擾。

我們這次也僅是將數(shù)據(jù)簡單的用可視化技術(shù)來實(shí)現(xiàn)數(shù)據(jù)可視化,用到的是

python的第三方庫pyecharts庫來進(jìn)行可視化分析,pyecharts內(nèi)有許多的庫,

除了本次使用到的餅圖、條形圖,還有柱狀圖、折線圖、箱型圖等,這寫都可

以快捷的將數(shù)據(jù)展示出來,它的圖形呈現(xiàn)的數(shù)據(jù)結(jié)果一目了然,分析然后得出

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

結(jié)論。

3數(shù)據(jù)采集

3.1采集頁面分析

我們首先利用谷歌瀏覽器搜索房天下網(wǎng)站網(wǎng)頁,接著找到杭州的新房頁面

觀察圖3-1,其URL為:/house/s/。

圖3-1數(shù)據(jù)網(wǎng)址頁面

找到并點(diǎn)擊頁面下方的分頁鍵,網(wǎng)頁更新后觀察URL,發(fā)現(xiàn)URL有所變化,觀

察圖3-2,頁面URL變?yōu)椋?house/s/b92/。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-2第二頁的網(wǎng)址頁面

因此我們從分頁行列點(diǎn)擊上頁回到第一頁,發(fā)現(xiàn)URL只有最后一個(gè)數(shù)字的

變化,如圖3-3。

圖3-3第一頁網(wǎng)址頁面

右擊彈出窗口點(diǎn)擊檢查跳出開發(fā)者工具,刷新頁面,如圖3-4。

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-4開發(fā)者工具

因此我們進(jìn)行爬蟲爬取網(wǎng)址根據(jù)換頁后的網(wǎng)址進(jìn)行編寫。

3.2字段分析

前往網(wǎng)頁頁面在選項(xiàng)欄中選擇網(wǎng)頁,將欄目定位在新房信息處,刷新后再

開發(fā)者工具界面的上方選項(xiàng)欄中選擇Preview鍵,找到新房信息起始處,如圖

3-5,可以發(fā)現(xiàn)我們所要的房產(chǎn)數(shù)據(jù)信息網(wǎng)站是get響應(yīng)網(wǎng)站,這使我們接下來

的爬取數(shù)據(jù)提供了很大的方便,因此我們可以根據(jù)此特點(diǎn),利用Requests中的

get請(qǐng)求來獲取網(wǎng)頁響應(yīng),再一一利用xpath爬取所需數(shù)據(jù)。

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-5分析數(shù)據(jù)類型頁面

將樓盤名稱、戶型、面積、價(jià)格、房屋類型、區(qū)域、地址、銷售狀態(tài)的數(shù)

據(jù)爬取,整理后將所有數(shù)據(jù)按照順序?qū)戇M(jìn)csv格式的文件中,保證每條數(shù)據(jù)都

是準(zhǔn)確對(duì)應(yīng)的。

圖3-6房屋字段內(nèi)容

3.3編程實(shí)現(xiàn)

導(dǎo)入所需要使用的庫

圖3-6導(dǎo)入所需要使用的庫頁面

設(shè)置請(qǐng)求頭,利用模擬User-Agent來通過瀏覽器的檢驗(yàn)。

圖3-7請(qǐng)求頭內(nèi)容頁面

代碼實(shí)現(xiàn)如下:

importcsv

fromlxmlimportetree

importurllib3

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

importre

url='/house/s/b9{}/'

headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36

(KHTML,likeGecko)Chrome/Safari/537.36',

'cookie':"global_cookie=486nggyqlvkzehh1jmvkryzuk1tlee1au8i;engine_source_coo

kie=baidu;sf_source=baidu;__utma=147393320.1008477909.1676971114.16

76975563.1677054963.4;__utmc=147393320;__utmz=147393320.16770549

63.4.2.utmcsr=baidu|utmccn=(organic)|utmcmd=organic;__utmt_t0=1;__utmt

_t1=1;__utmt_t2=1;city=hz;csrfToken=dNkmJQKuYiS7ybIEHQ60Zo0E;

g_sourcepage=xf_lp^lb_pc';__utmt_t3=1;__utmt_t4=1;unique_cookie=U_ygp

fb7hzks3lc7lu8o1gydp2o11leff81d4*4;__utmb=147393367705496

3",

'referer':'/'}

##為csv文件添加表頭

header=('樓盤名稱','戶型','面積','價(jià)格','房屋類型','區(qū)域','地址','銷售狀態(tài)')

withopen('房天下.csv',mode='a',encoding='utf-8_sig',newline='')asf:

csv_writer=csv.writer(f)

csv_writer.writerow(header)

foriinrange(1,48):

url1=url.format(i)

http=urllib3.PoolManager()

res=http.request('GET',url1,headers=headers)

#print(res.status)

html=etree.HTML(res.data,parser=etree.HTMLParser(encoding='utf-8'))

a=html.xpath('//*[@class="nl_conclearfix"]/ul/li')

#print(a)

forjina:

##樓盤名稱

house_name=j.xpath('normalize-space(.//*[@class="nlcd_name"]/a/text())')

#print(house_name)

##房子戶型

h_type=j.xpath('.//*[@class="house_typeclearfix"]/a/text()')

house_type='-'.join(h_type)

#print(huxing)

##房子面積

h_area=j.xpath('.//*[@class="house_typeclearfix"]/text()')

h_area2=[x.strip()forxinh_areaifx.strip()!='\t']

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

ar=re.search('[\d~平米]+',str(h_area2))

ifar==None:

house_area='None'

else:

house_area=ar.group()

#print(house_area)

##房子價(jià)格

h_price=j.xpath('.//*[@class="nhouse_price"]/*/text()')

house_price='|'.join(h_price)

#print(house_price)

##房源

fy=j.xpath('.//*[@class="fangyuan"]/a/text()')

fangyuan='/'.join(fy)

#print(fangyuan)

##房子區(qū)域和地址

ar=j.xpath('normalize-space(.//*[@class="address"]/a/@title)')

ar2=re.sub('[a-zA-Z]','',str(ar))

h_address=str(ar2).strip('[]')

##區(qū)域

house_district=h_address[:2]

##地址

house_address=h_address[2:]

#print(house_address)

#print(house_district)

##銷售狀態(tài)

house_sale=j.xpath('normalize-space(.//*[@class="fangyuan"]/span/text())')

#print(house_sale)

#print(house_name,house_type,house_area,house_price,

#fangyuan,house_district,house_address,house_sale)

#withopen('房天下.csv',mode='a',encoding='utf-8_sig',newline='')asf:

#csv_writer=csv.writer(f)

#csv_writer.writerow([house_name,house_type,house_area,house_price,

#fangyuan,house_district,house_address,house_sale])

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4數(shù)據(jù)清洗與處理

得到了大量的數(shù)據(jù)后,則需要對(duì)數(shù)據(jù)進(jìn)行相關(guān)的處理,檢查獲取的數(shù)據(jù)是

否錯(cuò)誤、以及是否有空值,行數(shù)據(jù)是否對(duì)應(yīng)。只有數(shù)據(jù)準(zhǔn)確無誤,才能正確的

分析數(shù)據(jù),得出有用的結(jié)果。然后,將數(shù)據(jù)按要求整理,是它們有序性、清晰

性,這樣在后續(xù)的可視化中更方便的進(jìn)行可視化,也使對(duì)數(shù)據(jù)進(jìn)行調(diào)用開發(fā)的

人員同樣方便快捷、清晰易懂。

在此次項(xiàng)目中,我們要把數(shù)據(jù)和原網(wǎng)址的數(shù)進(jìn)行比對(duì),查看數(shù)值是否錯(cuò)誤、

是否存在空缺、數(shù)據(jù)錯(cuò)亂。并在對(duì)它們進(jìn)行其對(duì)應(yīng)的修正措施,然后再根據(jù)我

們需要的分析目的進(jìn)行處理。

4.1數(shù)據(jù)清洗

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面

經(jīng)過數(shù)據(jù)比對(duì)和檢查后,發(fā)現(xiàn)數(shù)據(jù)沒有發(fā)生缺失,錯(cuò)位以及空值,那么我們

接下來將有效的數(shù)據(jù)保留,將不要的數(shù)據(jù)去掉,以防發(fā)生數(shù)據(jù)的冗余,以及后

續(xù)分析過程的失誤。保留好整理后的數(shù)據(jù),重新存為列表,留以后續(xù)的統(tǒng)計(jì)分

析、可視化處理。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-2數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲(chǔ)存

數(shù)據(jù)儲(chǔ)存方法有很多種類,例如我們常見txt儲(chǔ)存,也就是記事本格式儲(chǔ)存,

當(dāng)然還有替他格式的存儲(chǔ)方法,例如數(shù)據(jù)庫、excel、json等儲(chǔ)存方式,對(duì)于數(shù)

據(jù)較多的儲(chǔ)存,數(shù)據(jù)庫雖然為一個(gè)不錯(cuò)的選擇,但容易出現(xiàn)錯(cuò)誤,以及容易發(fā)

生數(shù)據(jù)庫密碼忘記的記憶錯(cuò)誤。因此此次采取的事通過python進(jìn)行數(shù)據(jù)爬取后,

直接在python內(nèi)進(jìn)行csv存儲(chǔ),添加每列數(shù)據(jù)的表頭,一遍csv表中的數(shù)據(jù)明

了。本次使用到的項(xiàng)目是csv。

如圖4-3所示:

圖4-3數(shù)據(jù)存儲(chǔ)為csv儲(chǔ)存頁面

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-4數(shù)據(jù)存儲(chǔ)csv頁面

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入相關(guān)的要使用的庫,讀取csv文件,讀取前十條數(shù)據(jù),如圖5-1、5-2。

圖5-1數(shù)據(jù)準(zhǔn)備頁面

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-2數(shù)據(jù)加載頁面

5.2數(shù)據(jù)展示

5.2.1根據(jù)樓盤銷售狀態(tài)的數(shù)量進(jìn)行統(tǒng)計(jì)

圖5-3數(shù)據(jù)展示頁面

將在表格中價(jià)格待定的樓盤刪去,匯總成一個(gè)新的表格,將表格的銷售狀

態(tài)的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計(jì)出現(xiàn)的頻率,最后生成特定序列,通

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

過特定序列里面的數(shù)據(jù)參照頻率繪制出銷售狀態(tài)的數(shù)量圖。根據(jù)圖發(fā)現(xiàn),杭州

的新房待售的數(shù)量比在售的多,在后續(xù)的樓盤進(jìn)一步開放售賣中,這些待售的

樓盤將是個(gè)房產(chǎn)行業(yè)的主要宣傳對(duì)象。

由于近年來可供房地產(chǎn)建新房的土地逐年下降,因此對(duì)于房產(chǎn)行業(yè)來說,

現(xiàn)有的待售的房產(chǎn)是保障未來繼續(xù)發(fā)展的保障,在得到新的可用于建房的土地

前,要計(jì)劃好手中的待售樓盤開放頻率。而對(duì)于購房者來說,待售樓盤也是考

慮范圍內(nèi)的,在人群居多的地方,各類生活服務(wù)也會(huì)緊隨而至,區(qū)域的經(jīng)濟(jì)便

會(huì)隨人數(shù)增多發(fā)展。

5.2.2依據(jù)各銷售狀態(tài)的均價(jià)進(jìn)行統(tǒng)計(jì)

圖5-4數(shù)據(jù)展示頁面

由圖5-4可以看出,待售的每平米的平均單價(jià)比在售的每平米平均單價(jià)高,

在待售房比在售房多出91的數(shù)量上,在售的均價(jià)比待售的少了3500元左右。

由此可見,在售房雖然數(shù)量少,但價(jià)格普遍高,導(dǎo)致在低了近100的數(shù)量上只

低了4000不到。

在售的每平米的單價(jià)平均為27000元,但我國7億多勞動(dòng)人口,月薪資達(dá)

到5000元的人數(shù)占比不到10%,每月的工資除去生活花費(fèi)后,所能存下的數(shù)額

非常少,這讓現(xiàn)在的人們買方更加困難,哪怕有著房貸的存在,背負(fù)房貸的時(shí)

長長達(dá)數(shù)十年,這更加讓月薪不多的人們生活更加困難。同時(shí)由于可供建房的

土地減少,房產(chǎn)商們或許會(huì)因?yàn)橥恋販p少而增加每平米單價(jià)。商家增加房子價(jià)

格,買家因高額的房價(jià)放棄買方,這會(huì)使購房率持續(xù)下降,形成惡性循環(huán)。

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.3據(jù)新房價(jià)格分布進(jìn)行統(tǒng)計(jì)和分析

圖5-5數(shù)據(jù)展示頁面

圖5-5可以看出,新房的單價(jià)價(jià)格分布在20000~40000元區(qū)間,40000元以

上的房價(jià)較少,10000元至20000元的樓盤相對(duì)于40000元以上的多,而有的房

價(jià)甚至達(dá)到了12萬元每平米。

如上述所說,我國有90%的人每月薪資不足5000元,但新房市場上的房子

普遍在20000元每平米到40000元每平米,而對(duì)于這部分人來說,一年除去花

銷所攢下的金額不足5萬元,而一間房通常幾十平米,一年攢下的金額無法滿

足一個(gè)人的購房需求。近年來,購房率下降,房產(chǎn)行業(yè)面臨無人購房的處境,

與高房價(jià)、低薪資離不開關(guān)系,有人調(diào)查過,相對(duì)于8、90年代,房子的價(jià)格

上漲了將近500倍,而薪資卻漲了3倍,薪資漲幅于房價(jià)漲幅相差極大,導(dǎo)致

人們買方難。同時(shí),因?yàn)樯钗飪r(jià)上漲,年經(jīng)人生活普遍壓力大,導(dǎo)致結(jié)婚率

下降,買方的主力軍——婚姻下降,本來的因婚姻買方的占比下降,更是導(dǎo)致

購房率下降。

18

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.4依據(jù)單價(jià)價(jià)格前20樓盤位置進(jìn)行統(tǒng)計(jì)

圖5-6數(shù)據(jù)展示頁面

我們將前20的樓盤的區(qū)域位置進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)有一半的樓盤建在上城區(qū),

西湖的有四個(gè),其次就是拱墅的三個(gè)。由此可知,大多地產(chǎn)開發(fā)商都趨向于在

上城修建新房。

辦公區(qū)、學(xué)校、醫(yī)院周邊通常會(huì)成為房產(chǎn)商建設(shè)新房的目標(biāo),因?yàn)槿藗冏?/p>

房都會(huì)選擇離工作近、交通方便的地方,有孩子的家庭則更多選擇學(xué)校附近,

而單價(jià)前20的樓盤有一半在上城,經(jīng)濟(jì)越是發(fā)達(dá)的區(qū)域,房價(jià)也是更高,由此

可看出,上城的經(jīng)濟(jì)發(fā)展高于其他地區(qū),周邊的衛(wèi)生條件、社區(qū)服務(wù)也是相對(duì)

會(huì)高于其他地區(qū)。西湖、拱墅數(shù)量相差一,其經(jīng)濟(jì)狀況或許比不過上城,但也

有較高水平,何況杭州作為沿海省份城市,城市經(jīng)濟(jì)相對(duì)較高。但由于高薪資

人群少,所以,哪怕上城有多處新房銷售,不同人家也是望文卻步。

19

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.5根據(jù)戶型數(shù)量進(jìn)行統(tǒng)計(jì)

圖5-5數(shù)據(jù)展示頁面

根據(jù)圖5-5數(shù)據(jù)可知,在這些樓盤總,絕大多數(shù)支持三居或四居的房屋室

內(nèi)戶型,而又100多個(gè)樓盤只支持三居室、四居室戶型,而排在前四的都是都

是支持多居室的戶型,而支持多類戶型的樓盤只有一兩個(gè)。

如今購房的目的多為婚姻家庭,購房者的家庭多為夫妻式家庭組合,因此

三居、四居的購房者居多,且人們普遍認(rèn)為,婚姻要有新房才能有未來,房產(chǎn)

商們也正是抓住這點(diǎn),建設(shè)的房屋多為家庭設(shè)戶型。但由于今年來結(jié)婚率下降,

青年人普遍單身,購房便不是必要選擇。再者,近年來女性購方率升高,女性

購方普遍為個(gè)人居住,因此,一居室、兩居室的戶型房將會(huì)受到大量青年人歡

迎。但不排除合租式居住,購房者將新房買下,將其出租給他人,合租人太多

易發(fā)生矛盾,因此三居、四居為主要選擇,所以三、四居式房屋仍不會(huì)無人訪

問。

五居房多為三代式家庭居住,但愿意與長輩居住一起的人甚少,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論