版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
目錄
1引言............................................................................................................................1
1.1項目背景.........................................................................................................1
1.1.1需求分析..............................................................................................1
1.1.2可行性分析..........................................................................................2
1.2開發(fā)環(huán)境與工具..........................................................................................2
1.2.1Python簡介..........................................................................................2
1.2.2Jypyternotebook簡介......................................................................2
1.2.3Python第三方庫簡介..........................................................................2
2需求分析....................................................................................................................3
2.1可行性需求分析..........................................................................................3
2.1.1技術(shù)可行性..........................................................................................3
2.1.2項目可行性..........................................................................................3
2.2采集目標(biāo)功能分析......................................................................................3
2.3關(guān)鍵技術(shù)分析..............................................................................................4
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)......................................................................................4
2.3.2文件存取技術(shù)......................................................................................4
2.3.3可視化技術(shù)..........................................................................................5
3數(shù)據(jù)采集....................................................................................................................5
3.1采集頁面分析..............................................................................................5
3.2字段分析......................................................................................................7
3.3編程實現(xiàn)......................................................................................................8
4數(shù)據(jù)清洗與處理......................................................................................................11
4.1數(shù)據(jù)清洗....................................................................................................11
4.2數(shù)據(jù)儲存....................................................................................................16
5數(shù)據(jù)統(tǒng)計與分析......................................................................................................18
5.1數(shù)據(jù)準(zhǔn)備....................................................................................................18
5.2數(shù)據(jù)展示....................................................................................................19
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.2.1依據(jù)樓盤地址名稱進(jìn)行統(tǒng)計............................................................19
5.2.2據(jù)二手房總價進(jìn)行統(tǒng)計和分析........................................................20
5.2.3依據(jù)戶型類型進(jìn)行統(tǒng)計....................................................................21
5.2.4依據(jù)二手房裝修情況跟平均價格分析.............................................23
5.2.5依據(jù)二手房各城區(qū)數(shù)量和平均價格統(tǒng)計........................................24
6小結(jié)..........................................................................................................................25
參考資料.........................................................................................................................27
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
365淘房房產(chǎn)網(wǎng)站南京城市二手房數(shù)據(jù)采集與分析
1引言
二手房指的是已經(jīng)有人居住過的房屋,一般是售出后再次轉(zhuǎn)手出售。二手
房在房地產(chǎn)市場中占據(jù)著重要的地位,成為了廣大購房者的首選之一。首先,
二手房的價格相對較低,購買時對家庭的財務(wù)壓力較小。同時,二手房的房齡
相比新房來說更加成熟,裝修和配套設(shè)施也更加完善,生活舒適度更高。
其次,二手房的交易速度比較快,方便快捷。買賣雙方不需要等待開發(fā)商的
預(yù)售證和施工許可證等手續(xù),可以直接進(jìn)行交易。此外,二手房的位置和環(huán)境
也更加穩(wěn)定,購房者可以根據(jù)自己的實際需求進(jìn)行選擇。二手房現(xiàn)在已經(jīng)成為
房地產(chǎn)不可或缺的組成部分。二手房的優(yōu)勢就是周圍的配套比較成熟,發(fā)展比
較完善,比較適合居家生活。二手房的劣勢呢就是房子比較老舊,管理比較落
后,特別是房齡比較久遠(yuǎn)的老舊小區(qū)。現(xiàn)在做二手房業(yè)務(wù)的越來越多,因為這
個市場越來越大,很多家庭由于購買不起新房,轉(zhuǎn)而繼續(xù)考慮二手房。如果給
二手房業(yè)務(wù)提個建議的話,那么就是建議百花齊放,百家齊鳴禁止出現(xiàn)壟斷行
為,這樣不僅不利于行業(yè)發(fā)展,也不利于維護(hù)群眾的利益。房價飛漲,年輕的
我們剛畢業(yè)走出校門,又遇到令人喘不過氣的房價。處于尷尬時期的我們,只
能望樓興嘆,但是除此之外我們還可以房價分析。利用科學(xué)的技術(shù)手段,洞察
房價的趨勢。我們不買房,不炒房,但可以做到心中有個底。
1.1項目背景
1.1.1需求分析
隨著越來越多的許多城市的二手房交易量已經(jīng)超過了新建,許多一線和二
線城市都進(jìn)入了“存量”房屋的交易時代,這些房屋的大部分都是被釋放出來
的。同時,從去年上半年開始,新建住宅供給不足,為二手住宅的“復(fù)蘇”提
供了空間,越來越多的購房需求被積極地“轉(zhuǎn)移”到了存量住宅市場。數(shù)據(jù)顯
示,今年到目前為止,各大主要城市的新屋銷售出現(xiàn)了持續(xù)的輕微下降,而二
手房交易量出現(xiàn)了回落,廣州、重慶、武漢等,一、二手房住宅價格持續(xù)“倒
掛”,都預(yù)示二手房市場正以賣方為主導(dǎo)。
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
1.1.2可行性分析
在此背景下,首先,它能夠反應(yīng)出目前的實際需求,由于人為的“限價”,
新房的供應(yīng)和成交都會出現(xiàn)“失真”的現(xiàn)象,相比之下,新房的成交結(jié)構(gòu),能
夠更好地反應(yīng)出目前的實際需求,也能更好地了解哪些人會買房子。他們到底
想要哪種商品?第二,二手房產(chǎn)是一座大城市的中心,也是一座大城市的一座
大房子,通過對它的發(fā)展趨勢的分析,可以更好地預(yù)測各大城市的購房者的買
房意愿。
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
Python是由GuidoRossum于1989年誕生。
2005-2012年,Google大量應(yīng)用python,引起廣泛關(guān)注,促進(jìn)了python
的發(fā)展。
2012年云計算興起,其中最主要的OpenStack框架由python開發(fā),使得
python火了一把。2014年AI興起,AI中大量關(guān)鍵算法都是由python開發(fā),
因為python中含有很好的第三方庫特別適合做算法,加上入門低、開發(fā)效率高,
這樣又進(jìn)一步促使python的火爆。
2017年python走進(jìn)大眾視野(指非IT人士),走進(jìn)學(xué)科教育。
如今已經(jīng)發(fā)展成一門廣泛使用的高級編程語言。它可應(yīng)用于網(wǎng)絡(luò)爬蟲、機
器學(xué)習(xí)、數(shù)據(jù)分析和可視化等多種領(lǐng)域。它的特點是開源(免費)、豐富的庫、
簡單易學(xué)、支持跨平臺而且可移植性強。
1.2.2Jypyternotebook簡介
Jupyternotebook是一款強大的Web應(yīng)用,它可以將復(fù)雜的數(shù)學(xué)概念、
實驗結(jié)果、可視化內(nèi)容等組合成一個完整的文檔,使得研究和教學(xué)變得更加便
捷、高效。Pythonshell和IPython都支持可視化,但它們的可視化功能是分
開的,文字資料、函數(shù)和類腳本都存儲在不同的文檔中,以便更好地實現(xiàn)可視
化。
1.2.3Python第三方庫簡介
requests:是Python實現(xiàn)的簡單易用的庫,跟urllib比更簡潔很多,在使
用前要先進(jìn)行安裝。
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
Re:正則表達(dá)式解析和處理功能庫,里面包含了多種字符串匹配的方法。
NumPy庫是Python數(shù)據(jù)分析的基礎(chǔ),是處理數(shù)組的Python庫,NumPy庫的
數(shù)據(jù)結(jié)構(gòu)比Python自帶的更加高效。
pandas:數(shù)據(jù)分析并保存為Excel文件,python數(shù)據(jù)分析高層次應(yīng)用庫,
還可以進(jìn)行數(shù)據(jù)清洗。
matplotlib:繪圖庫,主要是偏向于二維繪圖包括折線圖、條形圖、扇形
圖、散點圖、直方圖等等。
pyecharts:繪圖。
statsmodels:統(tǒng)計建模。
wordcloud、scipy、jieba:生成中文詞云的。
pylab:設(shè)置畫圖能顯示中文。
2需求分析
2.1可行性需求分析
2.1.1技術(shù)可行性
Python編程語言通俗易懂、是一種動態(tài)的面對對象的腳本語言。這讓它對
于爬蟲領(lǐng)域有著巨大的優(yōu)勢,是當(dāng)前爬蟲的首選語言。本項目便是利用python
采集數(shù)據(jù),通過python第三方庫進(jìn)行數(shù)據(jù)分析、與數(shù)據(jù)可視化的展示,是一款
對人操作十分友好的軟件,利用它對數(shù)據(jù)可視化進(jìn)行展示和分析也十分便捷。
2.1.2項目可行性
首先通過Python爬蟲技術(shù)獲取365淘房網(wǎng)站的南京市二手房的基本信息,
再使用Jupyternotebook將數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,再用Python中pyechars庫繪
圖進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)南京市二手房在大量數(shù)據(jù)中隱藏的信息;通過以上步驟,
可以得出南京市二手房市場總體情況和各個區(qū)域的具體情況。在可行性方面,
該項目需要考慮到數(shù)據(jù)來源的質(zhì)量和可靠性問題。為了保證數(shù)據(jù)質(zhì)量,我們采
用了Python的爬蟲采集的獲取房源數(shù)據(jù)。
2.2采集目標(biāo)功能分析
此次項目的數(shù)據(jù)集來源于365淘房網(wǎng)站,是通過python爬取365淘房房產(chǎn)
網(wǎng)站南京城市二手房數(shù)據(jù)信息。爬取50頁的南京二手房信息,數(shù)據(jù)清洗后共
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
1611條記錄,以此盡可能保證數(shù)據(jù)可靠性。
本次爬取365淘房網(wǎng)站,主要獲得了以下信息:標(biāo)題、地址、詳細(xì)地址、
面積、總價、一平米價格、戶型、樓層、裝修、朝向、建成時間、優(yōu)點。主要
目的是通過實際數(shù)據(jù)來分析描述南京市二手房的基本現(xiàn)狀。比如:南京市二手
房房價情況以及在南京市二手房的地區(qū)分布情況,還有裝修對房價的影響,這
樣我們能根據(jù)自身條件來選擇最優(yōu)的二手房,幫助我們進(jìn)行購房決策。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更經(jīng)常的稱
為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者
腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。但
是,網(wǎng)絡(luò)爬蟲技術(shù)的使用需要遵守相關(guān)法律法規(guī)和道德規(guī)范,同時應(yīng)尊重網(wǎng)站
的隱私和版權(quán),不進(jìn)行惡意訪問和數(shù)據(jù)濫用。
2.3.2文件存取技術(shù)
文件存儲技術(shù)是指用來存儲和管理數(shù)據(jù)文件的技術(shù),包括硬盤、U盤、光
盤、磁帶等儲存介質(zhì)。在計算機應(yīng)用中,文件存儲技術(shù)是最基本、最常用的技
術(shù)之一。在文件存儲技術(shù)中,硬盤是最常用的儲存介質(zhì)之一,其使用成本低、
容量大、讀寫速度快、可靠性高。U盤則是一種小型、便攜式的存儲設(shè)備,可
隨身攜帶,容量較小但讀寫速度較快。光盤也是常見的儲存介質(zhì),它具有高容
量、長期保存、易于傳播等特點。磁帶則主要用于備份數(shù)據(jù)和存檔,其存儲容
量較大,但讀寫速度較慢。
Python存儲方法如圖2-1顯示:
圖2-1python內(nèi)置方法
在JupyterNotebook中存儲方法如圖2-2顯示:
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖2-2Numpy模塊方法
2.3.3可視化技術(shù)
可視化(Visualization)是利用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)
換成圖形或圖像在屏幕上顯示出來,再進(jìn)行交互處理的理論、方法和技術(shù)。在
數(shù)據(jù)分析領(lǐng)域,可視化技術(shù)可以幫助人們更好地理解數(shù)據(jù),從而做出更準(zhǔn)確的
決策。在現(xiàn)代數(shù)據(jù)處理技術(shù)的發(fā)展中,可視化技術(shù)成為數(shù)據(jù)處理技術(shù)不可或缺
的一環(huán),它可以使復(fù)雜數(shù)據(jù)變得易于理解和應(yīng)用。
3數(shù)據(jù)采集
3.1采集頁面分析
打開谷歌瀏覽器,首先登錄365淘房網(wǎng)站的南京市地區(qū)二手房,觀察圖
3-1,其中URL為:/district/p1.html
圖3-1數(shù)據(jù)網(wǎng)址頁面1
點擊頁面下方的分頁按鈕,同時觀察URL,發(fā)現(xiàn)URL有變化數(shù)字,如圖3-2所
示,URL為:/district/p2.html
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-2數(shù)據(jù)網(wǎng)址頁面
右擊鼠標(biāo)點檢查調(diào)出開發(fā)者工具,刷新頁面,利用全局搜索工具定位所需
數(shù)據(jù)位置,如圖3-3
圖3-3開發(fā)者工具頁面
點擊開發(fā)者工具上面的標(biāo)頭Headers字段,分析這是個什么請求,發(fā)現(xiàn)這
個是一個GET請求,即在獲取頁面信息需用GET請求方式爬取,如圖3-4:
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-4標(biāo)頭Headers確認(rèn)頁面
3.2字段分析
本次數(shù)據(jù)采集的字段有:房源標(biāo)題、裝修、房子價格、地址、戶型、面積、
年份、樓層等字段,在網(wǎng)頁中如下圖3-5所示
圖3-5房源字段
右擊鼠標(biāo)點檢查調(diào)出開發(fā)者工具,通過觀察發(fā)現(xiàn),大多數(shù)字段都保存在HTML
中,如圖3-5,在解析字段時,可以直接使用xpath方法進(jìn)行獲取,用全局搜
索工具定位所需數(shù)據(jù)位置便可以復(fù)制xpath并進(jìn)行修改,便可以獲取完整數(shù)據(jù)。
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-6房源字段
3.3編程實現(xiàn)
步驟一:先導(dǎo)入所需要的庫,如requests,etree,json,csv,如圖3-7:
圖3-7步驟一導(dǎo)入所需庫頁面
步驟二:根據(jù)URL網(wǎng)址的特征信息,爬取每頁信息,URL設(shè)置進(jìn)行循環(huán)翻
頁,爬取網(wǎng)頁信息如圖3-8:
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-8步驟二根據(jù)URL特征爬取網(wǎng)頁信息頁面
步驟三:根據(jù)所需內(nèi)容信息,這里定位到該位置即可爬取復(fù)制完整xpath,
用xpath()爬取如圖3-9:
圖3-9步驟三獲取相關(guān)信息頁面
步驟四:將獲取的部分字段去符號處理,循環(huán)輸入字典再存入json文件,
最后轉(zhuǎn)換為Excel文件方便后期數(shù)據(jù)清洗如圖3-10和如圖3-11:
圖3-10步驟四相關(guān)信息保存頁面1
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-11步驟四相關(guān)信息保存頁面2
存為json文件展示如圖3-12:
圖3-12保存好的json文件展示
將json轉(zhuǎn)換位Excel表后的數(shù)據(jù)展示如圖3-13:
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
:
圖3-13轉(zhuǎn)換好的Excel展示
4數(shù)據(jù)清洗與處理
數(shù)據(jù)清洗是整個數(shù)據(jù)分析過程中不可缺少的一個環(huán)節(jié),其結(jié)果質(zhì)量直接關(guān)
系到模型效果和最終結(jié)論。在實際操作中,數(shù)據(jù)清洗通常會占據(jù)分析過程的
50%—80%的時間,所以數(shù)據(jù)清洗極為重要。而且不同類型的數(shù)據(jù)異常所要用
到的方法有所不同,因此我們拿到原始數(shù)據(jù)之后,需要先分析都有什么樣的數(shù)
據(jù)異常,然后再使用相應(yīng)異常下常常采用的方法,正所謂“對癥下藥”,方能“藥
到病除”。
爬蟲采集365淘房網(wǎng)南京市二手房源數(shù)據(jù)后,可以進(jìn)行數(shù)據(jù)清洗來保證數(shù)據(jù)的
質(zhì)量和準(zhǔn)確性,包括數(shù)據(jù)去重、數(shù)據(jù)篩選、數(shù)據(jù)格式化等,以便更好地進(jìn)行數(shù)
據(jù)分析和挖掘。例如,在365淘房網(wǎng)的南京市二手房源數(shù)據(jù)中可能會存在重復(fù)
數(shù)據(jù),如同一個房源在不同的時間點被采集,采集到的數(shù)據(jù)可能存在略微差異,
因此需要進(jìn)行數(shù)據(jù)去重處理,以避免數(shù)據(jù)分析時對同一數(shù)據(jù)進(jìn)行重復(fù)計算,從
而導(dǎo)致分析結(jié)果的誤差。
4.1數(shù)據(jù)清洗
通過jupyternotebook數(shù)據(jù)清洗發(fā)現(xiàn)并改正數(shù)據(jù)文件中可識別的錯誤的最
后一道關(guān)卡程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等,根據(jù)二手房
數(shù)據(jù)字段的特征修改命名以及去掉單位,并且去掉空值以及重復(fù)值,方便后續(xù)
的數(shù)據(jù)統(tǒng)計與分析。
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
數(shù)據(jù)清洗準(zhǔn)備:導(dǎo)入所需要的庫如pandas和numpy,讀取二手房.xlsx文件,
并輸出表格前6行,如圖4-1;
圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面
提取區(qū)域信息:將詳細(xì)地址的數(shù)據(jù)細(xì)分,提取出一個新字段即小區(qū)儲存區(qū)域
信息,在最后會多出一列,如圖4-2;
圖4-2提取區(qū)域信息頁面
修改總價字段名:利用rename()方法將總價(萬)字段改為總價(單位:
萬),如圖4-3;
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖4-3修改總價字段名頁面
去掉面積的單位:利用map()方法遍歷面積字段去掉后面兩位數(shù)得到純
數(shù)字面積,如圖4-5;
圖4-4去掉面積單位頁面
修改面積字段:利用rename()方法將面積字段改為面積(單位:平方米),
如圖4-5;
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖4-5修改面積字段名頁面
去掉一平米價格的單位:利用map()方法遍歷一平米價格字段去掉后面
三位數(shù)得到純數(shù)字價格,如圖4-6;
圖4-6去掉一平米價格的單位頁面
去掉建成時間的單位:利用map()方法遍歷建成時間字段去掉最后一位
數(shù)得到純年份,如圖4-7;
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖4-7去掉建成時間的單位頁面
去掉樓層的單位:利用map()方法遍歷樓層字段去掉前三位和最后一位,
得到純樓層數(shù)據(jù),如圖4-8;
圖4-8去掉樓層的單位頁面
去空值去重復(fù)值:用dropna()方法刪除含有空值或缺失值的行即
inplace=true,數(shù)據(jù)由1700多減到1611,用drop()方法去掉重復(fù)值,數(shù)據(jù)不
變,如圖4-9;
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖4-9去空值去重復(fù)值頁面
4.2數(shù)據(jù)儲存
在Python開發(fā)中,數(shù)據(jù)存儲、讀取是必不可少的環(huán)節(jié),數(shù)據(jù)存儲:將用戶
輸入的數(shù)據(jù)轉(zhuǎn)化為可以處理的形式,并在需要時重新轉(zhuǎn)換成可讀可寫的形式,
可以是文本、數(shù)值、字符串等。讀?。簭挠嬎銠C或者其他設(shè)備獲取需要處理的
數(shù)據(jù)。數(shù)據(jù)存儲和讀取是Python編程語言中非常重要的環(huán)節(jié),不僅用于解決
程序中要處理的問題,也可以作為一個非常重要的模塊使用。常用的方法有
MySQL數(shù)據(jù)庫、MySQL數(shù)據(jù)庫、Redis數(shù)據(jù)庫、json文件以及Mongdb數(shù)據(jù)庫等。
json文件存儲數(shù)據(jù):json是一種一種函數(shù)式編程語言,是一種高級編程語
言,使用一種完全不同于編程語言的文本格式來存儲和表達(dá)數(shù)據(jù),可以有效地
解決py2和py3的代碼編譯存在的不足,而且其內(nèi)容結(jié)構(gòu)與Python中的字典和
16
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
列表極為相似,展現(xiàn)的信息簡潔明了,可以方便查看和修改撰寫,也更加有利
于機器的解析生成數(shù)據(jù),從而有利于加快網(wǎng)絡(luò)傳輸速度,提高效率。
csv文件:在Python中可以把數(shù)據(jù)存在CSV文件里面,這樣有利于我們進(jìn)
行數(shù)據(jù)的瀏覽,用excel打開CSV文檔就行了。
MySQL數(shù)據(jù)庫:MySQL數(shù)據(jù)庫存儲方式是使用Python數(shù)據(jù)存儲最常用的存
儲方式,Python標(biāo)準(zhǔn)數(shù)據(jù)庫接口為PythonDB-API,PythonDB-API為開發(fā)人
員提供了數(shù)據(jù)庫應(yīng)用程序接口,MySQLdb是用于Python鏈接Mysql數(shù)據(jù)庫的接
口。MySQL數(shù)據(jù)庫存儲過程是引入API模塊、獲取與數(shù)據(jù)庫的連接、執(zhí)行SQL
語句和存儲過程,最后關(guān)閉數(shù)據(jù)庫連接。
Redis數(shù)據(jù)庫:使用Python數(shù)據(jù)存儲為Redis數(shù)據(jù)庫,優(yōu)點是方便、速度
快,但是取出的數(shù)據(jù)是二進(jìn)制數(shù)據(jù),一般需要轉(zhuǎn)為字符串再操作
Mongdb數(shù)據(jù)庫:使用Python數(shù)據(jù)存儲為Mongdb數(shù)據(jù)庫,優(yōu)點是不在乎數(shù)
據(jù)結(jié)構(gòu),需要注意的是取出來的時候需要寫個腳本整理一下
這里我用to_excel()方法即CSV文件保存清洗后的數(shù)據(jù),文件名為清洗后
二手房數(shù)據(jù).xlsx,index=0,編碼方式為utf-8,如圖4-10。
圖4-10數(shù)據(jù)存儲頁面
讀取清洗后的數(shù)據(jù)文件,顯示前6行數(shù)據(jù),如圖4-11;
圖4-11清洗后數(shù)據(jù)展示頁面
數(shù)據(jù)清洗,顧名思義就是將要用到的數(shù)據(jù)中已經(jīng)多次出現(xiàn)、不需要的部分?jǐn)?shù)
據(jù)進(jìn)行挑選并刪除;把沒有的部分填充完整,并且把不對的數(shù)據(jù)改正好或者直接
刪掉。最后將數(shù)據(jù)整合成理想的數(shù)據(jù),后面使用更加方便。
17
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5數(shù)據(jù)統(tǒng)計與分析
在數(shù)據(jù)清洗完成后,我們就可以開始對數(shù)據(jù)進(jìn)行可視化分析。數(shù)據(jù)分析是
表示用合適的統(tǒng)計方法將集來的大量初始數(shù)據(jù)和數(shù)據(jù)處理后的數(shù)據(jù)來分析,把
它們轉(zhuǎn)化為有意義的結(jié)論的過程。通過數(shù)據(jù)分析,我們可以了解原始數(shù)據(jù)中的
規(guī)律性、趨勢性和異常值等問題。因此,對于數(shù)據(jù)分析來說,準(zhǔn)確的數(shù)據(jù)收集
和整理是非常重要的。在實際應(yīng)用中,我們通常需要使用一些常用的統(tǒng)計工具
來進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)又名觀測值,是測量、實驗、調(diào)查、調(diào)查等的詳細(xì)結(jié)果,
通常應(yīng)用數(shù)量的形式表達(dá)。
數(shù)據(jù)分析與數(shù)據(jù)挖掘息息相關(guān),數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中通過各種方法
和技術(shù),提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知
識。數(shù)據(jù)挖掘是對數(shù)據(jù)庫中未被理解或利用的信息進(jìn)行分析和提取,從中發(fā)現(xiàn)
隱含于數(shù)據(jù)中的有用信息和知識,最終將其用于對現(xiàn)實問題的處理,從大量數(shù)
據(jù)中提取有用信息,并建立模型,對現(xiàn)實問題進(jìn)行分析和處理,從而產(chǎn)生新的
決策。數(shù)據(jù)分析的意義數(shù)據(jù)分析是指通過對數(shù)據(jù)的收集、處理、分析,發(fā)現(xiàn)事
物發(fā)展規(guī)律,做出合理判斷,從而做出正確決策。數(shù)據(jù)分析的目的是指導(dǎo)我們
的工作,提高效率和效益。例如:通過對銷售數(shù)據(jù)的分析,你可以判斷出銷售
額增長較快的原因;通過對用戶行為數(shù)據(jù)的分析,你可以判斷出哪些商品是受
歡迎的;通過對行業(yè)數(shù)據(jù)的分析,你可以預(yù)測出下一年銷量增長最快的商品。
同時,通過對某一現(xiàn)象進(jìn)行深入分析,可以總結(jié)出具有規(guī)律性和普遍性的東西,
使我們認(rèn)識到事物發(fā)展的本質(zhì)規(guī)律,這對我們管理工作具有重要指導(dǎo)意義,所
以數(shù)據(jù)分析具有非常大的作用范圍。
通過對數(shù)據(jù)的探索性分析,我們可以將其轉(zhuǎn)換為可視化的形式,從而更加
清晰地了解數(shù)據(jù),并從中提取出潛藏在大量數(shù)據(jù)之下的重要信息。主要是對南
京市二手房房子的總價、每平方米單價、裝修、分布區(qū)域、戶型類型等屬性進(jìn)
行了分析。
5.1數(shù)據(jù)準(zhǔn)備
導(dǎo)入相關(guān)庫,如pandas和numpy,還有在pyecharts里面導(dǎo)入各種畫圖需
要的包,如圖5-1。
18
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-1數(shù)據(jù)準(zhǔn)備頁面
5.2數(shù)據(jù)展示
5.2.1依據(jù)樓盤地址名稱進(jìn)行統(tǒng)計
圖5-2數(shù)據(jù)展示頁面
19
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-3代碼展示頁面
為了更好的了解各個樓盤的受歡迎程度,我將樓盤地址名稱進(jìn)行數(shù)據(jù)可視
化分析,代碼如圖5-3,得到南京市樓盤數(shù)量位居前30的樓盤,如圖5-2,世
貿(mào)外灘新城樓盤的數(shù)量最多最受歡迎,新河一村和清河新寓二村其次,前30的
樓盤信息排名顯示了南京市二手房市場上最受歡迎的樓盤類型,這對開發(fā)商和
購房者都有很大的參考價值。通過對這些樓盤的分析,我們可以更好地了解市
場上最受歡迎的樓盤類型。
5.2.2據(jù)二手房總價進(jìn)行統(tǒng)計和分析
圖5-4數(shù)據(jù)展示頁面
20
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-5代碼展示頁面
對南京市二手房總價分析可以幫助我們更好地了解二手房市場的行情,從
而做出更加明智的決策。從圖5-4中可以得知南京市二手房總價200w-400w最
多,在200w以下的其次,再就是400w-600w,說明南京市購買二手房大部分人
的意向總價為600w以下,對600w以下的二手房的需求更多,通過對南京市二
手房總價的分析,我們可以更好地了解市場走勢,把握機會,避免損失。
5.2.3依據(jù)戶型類型進(jìn)行統(tǒng)計
21
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-6數(shù)據(jù)展示頁面
圖5-7代碼展示頁面
二手房戶型有多種類型,如單室戶、雙室戶、三室戶等。不同類型的戶型
具有不同的特點和功能,將戶型字段數(shù)據(jù)匯總,按照數(shù)量和戶型生成條形圖,
用來分析不同戶型的數(shù)量,如圖5-7中可以看出3室2廳在二手房中戶型類型
的數(shù)量最多為533,2室1廳為298和4室1廳為205次之,有需求才會有市場,
即南京市二手房購房者在購房時需求戶型要求偏向于3室2廳;
22
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.2.4依據(jù)二手房裝修情況跟平均價格分析
23
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-9代碼及數(shù)據(jù)展示頁面
從圖5-9中可以看出,精裝的數(shù)量最多為1098,中裝的數(shù)量最少為1,而
平均價格最高的是豪華裝高達(dá)821.61w最低為中裝為242w,在裝修之后,趨勢
是裝修程度越高,平均房價越高,裝修程度對房價有著一定影響和市場上同類
房屋平均價格之間有著一定關(guān)系。裝修程度越高,可以為購房者提供更多的選
擇和更高的舒適度,同時也可以改善居住環(huán)境和提高居住質(zhì)量,而裝修程度越
低,則可以為購房者提供更多的選擇和更低的成本,同時也可以減少不必要的
支出和浪費。
5.2.5依據(jù)二手房各城區(qū)數(shù)量和平均價格統(tǒng)計
24
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 心血管科護(hù)士關(guān)愛心血管疾病患者工作總結(jié)
- 資源節(jié)約與環(huán)保措施計劃
- IT部門加強網(wǎng)絡(luò)安全防護(hù)以保障信息安全
- 餐飲業(yè)保安工作總結(jié)
- 廣東省深圳市寶安區(qū)2023-2024學(xué)年六年級上學(xué)期英語期末試卷
- 室外廣告設(shè)計師的視覺沖擊力與傳播效果
- 2023-2024學(xué)年上海市閔行區(qū)高二(下)期中地理試卷
- 2024年陜西省寶雞市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2023年河北省承德市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2024年山東省萊蕪市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 車身穩(wěn)定系統(tǒng)課件
- 2023-2024學(xué)年廣東省東莞市七年級上期末數(shù)學(xué)試卷附答案
- 檢察機關(guān)的體制與組織機構(gòu)課件
- 山東省濰坊市濰城區(qū)2023-2024學(xué)年六年級上學(xué)期期末語文試題
- 2024年1月四川高中學(xué)業(yè)水平合格考物理試卷試題真題
- 雅詩蘭黛集團(tuán)企業(yè)培訓(xùn)方案
- 30題產(chǎn)業(yè)研究員崗位常見面試問題含HR問題考察點及參考回答
- 農(nóng)村電商公共服務(wù)體系的建設(shè)與完善研究-以XX村為例
- 復(fù)合機器人行業(yè)分析
- 建立進(jìn)出校園安全控制與管理的方案
- 新課標(biāo)《普通高中化學(xué)課程標(biāo)準(zhǔn)(2022年版)》
評論
0/150
提交評論