大數(shù)據(jù)分析項(xiàng)目實(shí)踐對(duì)北京朝陽(yáng)區(qū)出租房房?jī)r(jià)的分析_第1頁(yè)
大數(shù)據(jù)分析項(xiàng)目實(shí)踐對(duì)北京朝陽(yáng)區(qū)出租房房?jī)r(jià)的分析_第2頁(yè)
大數(shù)據(jù)分析項(xiàng)目實(shí)踐對(duì)北京朝陽(yáng)區(qū)出租房房?jī)r(jià)的分析_第3頁(yè)
大數(shù)據(jù)分析項(xiàng)目實(shí)踐對(duì)北京朝陽(yáng)區(qū)出租房房?jī)r(jià)的分析_第4頁(yè)
大數(shù)據(jù)分析項(xiàng)目實(shí)踐對(duì)北京朝陽(yáng)區(qū)出租房房?jī)r(jià)的分析_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

成果形式:實(shí)踐報(bào)告成果名稱(chēng):對(duì)北京朝陽(yáng)區(qū)出租房房?jī)r(jià)的分析大數(shù)據(jù)分析項(xiàng)目實(shí)踐對(duì)北京朝陽(yáng)區(qū)出租房房?jī)r(jià)的分析一、實(shí)踐目的1.素養(yǎng)提升(1)知識(shí)的運(yùn)用本次大數(shù)據(jù)分析項(xiàng)目的實(shí)踐,不僅是對(duì)大二學(xué)習(xí)的數(shù)據(jù)庫(kù)的一次復(fù)習(xí),也是對(duì)我們自身使用統(tǒng)計(jì)學(xué)相關(guān)知識(shí)的考驗(yàn)。通過(guò)這次實(shí)踐,我們能更加熟練地掌握數(shù)據(jù)庫(kù)相關(guān)知識(shí),并且對(duì)統(tǒng)計(jì)學(xué)也能有更加深入的了解和體悟。(2)相關(guān)軟件的學(xué)習(xí)本次實(shí)踐的目的是讓我們體驗(yàn)并學(xué)會(huì)數(shù)據(jù)分析方面的小項(xiàng)目的實(shí)施。以此為目標(biāo),我們主要學(xué)習(xí)了三個(gè)軟件Mysql、FineReport和Python,并附帶學(xué)習(xí)了Mysql的可視化工具Navicat,Python的編輯軟件Pycharm以及簡(jiǎn)易數(shù)據(jù)爬取工具八爪魚(yú)采集器。(3)增強(qiáng)自身對(duì)社會(huì)的認(rèn)識(shí)對(duì)于大部分學(xué)生,本次實(shí)踐的實(shí)習(xí)單位,光環(huán)北京光環(huán)致成國(guó)際管理咨詢有限公司,是學(xué)生第一次接觸的正式崗位。負(fù)責(zé)教學(xué)我們的老師也是企業(yè)的正式員工,根據(jù)員工的精神面貌和行為特點(diǎn)可以讓我們對(duì)社會(huì)有一個(gè)更加直接和清醒的認(rèn)識(shí)。2.提供資本(1)面試資本通過(guò)本次實(shí)踐,我們學(xué)習(xí)了數(shù)據(jù)分析方向小項(xiàng)目的實(shí)施方式以及相關(guān)軟件在數(shù)據(jù)分析方面的應(yīng)用,這個(gè)項(xiàng)目也確實(shí)是初級(jí)數(shù)據(jù)分析,此次的經(jīng)歷可以作為實(shí)習(xí)經(jīng)歷填入簡(jiǎn)歷中以豐富自己的面試資本,并由此提高自己的社會(huì)競(jìng)爭(zhēng)力。(2)調(diào)整自身在經(jīng)過(guò)本次實(shí)踐,對(duì)社會(huì)和職場(chǎng)有了模糊的印象后,可以對(duì)自己的生活方式做一個(gè)批判和改進(jìn),自己現(xiàn)在的生活方式是否正確以及是否做好了進(jìn)入社會(huì)的準(zhǔn)備。通過(guò)調(diào)整來(lái)使自己更加適應(yīng)社會(huì)。3.自我認(rèn)識(shí)增強(qiáng)(1)確定就業(yè)方向本次實(shí)踐提供的是數(shù)據(jù)分析方向的實(shí)習(xí),從這次實(shí)習(xí)我們可以大致聯(lián)想出從事數(shù)據(jù)分析行業(yè)的工作方式和生活方式,這有利于我們排除不適合我們的就業(yè)方向,盡量在就業(yè)前選出我們適合并且舒適的職業(yè)。(2)調(diào)整未來(lái)規(guī)劃通過(guò)本次實(shí)踐,我們對(duì)數(shù)據(jù)分析領(lǐng)域的工作有了更加具體的認(rèn)識(shí),同時(shí)我們也認(rèn)識(shí)到工作本身也伴隨著工具的使用,因此在未來(lái)規(guī)劃中加入對(duì)應(yīng)工具的學(xué)習(xí)將會(huì)大大提升我們的社會(huì)競(jìng)爭(zhēng)力,去爭(zhēng)取更好的崗位。二、實(shí)踐內(nèi)容1.Mysql的學(xué)習(xí)以及應(yīng)用首先,我們學(xué)習(xí)了Mysql軟件的安裝以及跳過(guò)Mysql驗(yàn)證的代碼編寫(xiě);因?yàn)镸ysql直接運(yùn)行很麻煩,于是我們繼續(xù)安裝了Mysql的可視化軟件NavicatPremium,并且后續(xù)操作都會(huì)在該軟件中進(jìn)行;接下來(lái)我們開(kāi)始學(xué)習(xí)各項(xiàng)數(shù)據(jù)庫(kù)相關(guān)的代碼如查看、創(chuàng)建、刪除數(shù)據(jù)庫(kù)等,并簡(jiǎn)單復(fù)習(xí)了數(shù)據(jù)庫(kù)的相關(guān)知識(shí);再之后我們學(xué)習(xí)了Navicat這一可視化工具在非編程時(shí)如何使用以及數(shù)據(jù)如何導(dǎo)入;最后我們學(xué)習(xí)了查詢相關(guān)語(yǔ)句,該語(yǔ)句會(huì)在下一個(gè)學(xué)習(xí)的軟件FineReport當(dāng)中用到。2.FineReport的學(xué)習(xí)以及應(yīng)用我們先學(xué)習(xí)了FineReport的安裝,安裝并不復(fù)雜;接下來(lái)我們學(xué)習(xí)了如何將FineReport與Mysql數(shù)據(jù)庫(kù)相連接并且學(xué)習(xí)了簡(jiǎn)單的操作界面的使用;之后我們正式開(kāi)始學(xué)習(xí)報(bào)表,首先是行式報(bào)表,過(guò)程很簡(jiǎn)單,是基礎(chǔ)報(bào)表;然后我們進(jìn)階學(xué)習(xí)了交叉報(bào)表并了解了父子格和拓展方向的概念;最后我們學(xué)習(xí)了決策報(bào)表,通過(guò)決策報(bào)表我們可以制作包括折線圖、和流向地圖等一系列圖表,同時(shí)我們也可以通過(guò)制作混合型決策報(bào)表把上述圖形匯合在一個(gè)報(bào)表內(nèi)。3.Python的學(xué)習(xí)以及應(yīng)用我們首先學(xué)習(xí)了Python的安裝,Python本身是一門(mén)編程的語(yǔ)言,因此我們又安裝了JetBrainsPyCharm來(lái)對(duì)Python進(jìn)行編輯操作。對(duì)于Python的學(xué)習(xí)其實(shí)就是對(duì)一串從網(wǎng)頁(yè)爬取數(shù)據(jù)的代碼的學(xué)習(xí),在為期四天的Python學(xué)習(xí)中,這串代碼被分到三天的課程中。在這之后,老師帶我們從網(wǎng)頁(yè)源代碼中提取需要信息并設(shè)置Python的偽裝。最后,以電影網(wǎng)站為例,我們學(xué)習(xí)了如何從網(wǎng)上爬取相應(yīng)的字段信息。4.數(shù)據(jù)分析小項(xiàng)目的實(shí)踐在完成數(shù)據(jù)爬取、數(shù)據(jù)收集和數(shù)據(jù)處理的課程后,下一步要做的是具體項(xiàng)目的實(shí)踐,按照要求,我們需要使用上述三種軟件或者給出的數(shù)據(jù)去完成一份最終報(bào)表。三、實(shí)踐過(guò)程1.Mysql(1)安裝我們通過(guò)老師下發(fā)的文件獲得安裝包,安裝時(shí)語(yǔ)言選擇utf8。在安裝過(guò)程中我們要設(shè)置密碼,但由于部分同學(xué)的電腦由于版本問(wèn)題導(dǎo)致密碼無(wú)法編輯,于是我們學(xué)習(xí)了如何通過(guò)修改Mysql的配置文件my.ini來(lái)實(shí)現(xiàn)跳過(guò)密碼驗(yàn)證的功能。(2)數(shù)據(jù)庫(kù)命令語(yǔ)句在安裝完成后,我們就開(kāi)始了對(duì)Mysql的數(shù)據(jù)庫(kù)的命令語(yǔ)句的學(xué)習(xí)。數(shù)據(jù)庫(kù)的命令語(yǔ)句主要包括對(duì)數(shù)據(jù)庫(kù)、表和數(shù)據(jù)的直接處理三類(lèi)。對(duì)數(shù)據(jù)庫(kù)的處理有查看數(shù)據(jù)庫(kù)、切換數(shù)據(jù)庫(kù)創(chuàng)建和刪除數(shù)據(jù)庫(kù),主要用到了show,use,create,drop。對(duì)表的處理有查看表、查看表結(jié)構(gòu)、創(chuàng)建數(shù)據(jù)表、刪除表內(nèi)數(shù)據(jù)、刪除全部數(shù)據(jù)保留表等,比如查看表結(jié)構(gòu)使用的查詢是:showtables;。最后是對(duì)數(shù)據(jù)的處理,有插入數(shù)據(jù)、查看數(shù)據(jù)、修改數(shù)據(jù)(有/無(wú)關(guān)聯(lián)條件)、查詢所有數(shù)據(jù),比如查詢所有數(shù)據(jù):select*from表名;。(3)Navicat非編程語(yǔ)句的使用Navicat非編程語(yǔ)言除了可以實(shí)現(xiàn)簡(jiǎn)單的表的創(chuàng)建與刪除之類(lèi)的操作,最重要的就是與Mysql建立連接,使得可以對(duì)Mysql中的數(shù)據(jù)庫(kù)進(jìn)行可視化操作。如果無(wú)法建立連接,一般是用戶名和密碼的問(wèn)題,可以通過(guò)修改配置文件來(lái)跳過(guò)驗(yàn)證。(4)Navicat內(nèi)編程語(yǔ)句的使用Navicat非編程語(yǔ)句可以更加快捷地實(shí)現(xiàn)簡(jiǎn)單的Mysql語(yǔ)句,比如表格數(shù)據(jù)庫(kù)的建立刪除等,但更加復(fù)雜的數(shù)據(jù)處理則必須用編程來(lái)實(shí)現(xiàn)。比如,插入數(shù)據(jù):insertinto表名(字段1,字段2,字段3)value(1,2,3);修改數(shù)據(jù)(關(guān)聯(lián)條件):updateempsetempnc=123whereempnc=1;單行數(shù)據(jù)查詢:select*fromempwheresal=5000;運(yùn)算符查詢:select*fromempwheresal>5000;別名的使用:selectempnoas編號(hào),enameas姓名fromemp;and關(guān)鍵字的使用:select*fromempwheresal=5000andsal=3000。(5)函數(shù)的學(xué)習(xí)在Mysql的學(xué)習(xí)時(shí)間中,最后學(xué)習(xí)的是函數(shù)。一共介紹了五種函數(shù),分別是count函數(shù)、max函數(shù)、min函數(shù)、avg函數(shù)和加密函數(shù)。前四種函數(shù)很簡(jiǎn)單,分別是用來(lái)計(jì)數(shù)、求最大、求最小、求平均的。值得一提的是加密函數(shù),老師一共介紹了兩種加密方式:selectpassword(‘root’);輸出后會(huì)得到一個(gè)32位的字符串,另一種也就是換了個(gè)算法:selectMD5(‘root’);。2.FineReport(1)安裝FineReport的安裝包較Mysql的要大,因此不使用網(wǎng)上下載的形式,安裝包通過(guò)U盤(pán)拷貝的方式在學(xué)生中傳遞。(2)與數(shù)據(jù)庫(kù)的連接在服務(wù)器選項(xiàng)中選擇定義數(shù)據(jù)庫(kù)連接,選擇JDBC模式,然后在數(shù)據(jù)庫(kù)類(lèi)型中選擇Mysql的數(shù)據(jù)庫(kù)類(lèi)型。之后要對(duì)URL進(jìn)行修改,在localhost后要加上”:3306”并在最后加上要連接的數(shù)據(jù)庫(kù)名字。(3)行式報(bào)表的學(xué)習(xí)行式報(bào)表在報(bào)表制作中是非常簡(jiǎn)單的基礎(chǔ)報(bào)表。在新建報(bào)表后,導(dǎo)入數(shù)據(jù)庫(kù),將選中的變量拖拽至同一行就完成了行式報(bào)表的制作,為了美觀可以繼續(xù)編輯行標(biāo)題以及自定義邊框。在教學(xué)中還有分界線的概念,文本中的數(shù)據(jù)長(zhǎng)度超過(guò)分界線的部分會(huì)被強(qiáng)制分頁(yè)。分界線無(wú)法通過(guò)直接拖拽來(lái)進(jìn)行操作,必須選定模板中的頁(yè)面設(shè)置,通過(guò)自定義紙張大小類(lèi)型來(lái)改變。(4)交叉報(bào)表的學(xué)習(xí)交叉報(bào)表比起行式報(bào)表多出了列變量。在制作交叉報(bào)表前,我們先學(xué)習(xí)了單元格拓展方向和父子格這兩個(gè)概念。單元格拓展方向是指變量所附帶的數(shù)據(jù)排列方向,有橫向和縱向兩種,根據(jù)交叉表的最終表現(xiàn)要求的不同會(huì)需要使用不同的拓展方向。父子格是指兩個(gè)單元格的從屬關(guān)系,子格根據(jù)父格來(lái)進(jìn)行數(shù)據(jù)排列,但父格不受子格的影響。父子格也分為左父格和上父格,分別是對(duì)應(yīng)父格相對(duì)于子格的位置。(5)決策報(bào)表決策報(bào)表主要是把數(shù)據(jù)制作成各種圖表,比如餅圖、地圖、雷達(dá)圖和詞云等。在課時(shí)中,我們主要學(xué)習(xí)了地圖(新特性)、點(diǎn)地圖、柱狀圖、餅圖和混合型報(bào)表,我主要介紹混合型報(bào)表?;旌闲蛨?bào)表本身是一個(gè)空模板,需要你將你想要制作的圖形拖入相應(yīng)位置中。在制作混合型報(bào)表時(shí),常常會(huì)遇到數(shù)據(jù)無(wú)法直接使用的情況,這時(shí)就需要在左下角的數(shù)據(jù)庫(kù)查詢中手動(dòng)輸入代碼來(lái)對(duì)數(shù)據(jù)做一些處理。在這一過(guò)程中,我們新學(xué)到了oederby語(yǔ)句、desclimit以及unionall語(yǔ)句。3.Python(1)安裝Python的安裝相對(duì)簡(jiǎn)單,要注意的只有如果曾經(jīng)安裝過(guò)舊版本,那在安裝新版本前必須清除注冊(cè)表。(2)數(shù)據(jù)類(lèi)型的介紹對(duì)于我們將要實(shí)現(xiàn)的項(xiàng)目,我們只用接觸到Python中相對(duì)簡(jiǎn)單的數(shù)據(jù)類(lèi)型,即int整數(shù)、float小數(shù)類(lèi)型、str字符串類(lèi)型、字典類(lèi)型,相應(yīng)也有語(yǔ)句,如b=int(a),意思是把字符串b轉(zhuǎn)化為int類(lèi)型并賦值給a。字典類(lèi)型是一個(gè)字段a={””,””}。(3)在網(wǎng)頁(yè)獲取數(shù)據(jù)的方式在網(wǎng)頁(yè)中獲取數(shù)據(jù)需要用到網(wǎng)頁(yè)的代碼,我們直接看到的數(shù)據(jù)圖片都會(huì)在代碼中顯示,而如何在復(fù)雜的代碼中把需要的數(shù)據(jù)爬取出來(lái)就是我們學(xué)習(xí)Python的原因。一般除了IE瀏覽器,普通瀏覽器都會(huì)有審查元素的功能,如果沒(méi)有找到也可以通過(guò)按F12喚出。在網(wǎng)頁(yè)中我們進(jìn)行的操作不多,主要把用戶名和相應(yīng)的代碼復(fù)制了,剩下的大部分還是在Pycharm中通過(guò)編程進(jìn)行。(4)爬取數(shù)據(jù)的數(shù)據(jù)代碼#發(fā)送請(qǐng)求

#引入導(dǎo)入使用urllib的包

#request的模塊(request.py)

fromurllibimportrequest

frombs4importBeautifulSoup

foriinrange(10):

page=str(i*10)

url="/board/4?offset="+page

header={"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/49.0.2623.221Safari/537.36SE2.XMetaSr1.0"}

#在request模塊中,有個(gè)大寫(xiě)的Request,可以封裝headers信息

r=request.Request(url,headers=header)

#request中的urlopen模塊,可以打開(kāi)網(wǎng)頁(yè)

#把封裝好的信息放到urlopen中

#urlopen發(fā)送請(qǐng)求接受響應(yīng)

response=request.urlopen(r)

#讀取響應(yīng)信息

html=response.read().decode()

#print(html)

#解析響應(yīng)解析源代碼

#創(chuàng)建soup對(duì)象參數(shù)1等待被解析的對(duì)象參數(shù)2解析器

soup=BeautifulSoup(html,"html.parser")#lxml

index=soup.select("i.board-index")

name=soup.select("a")

star=soup.select("p.star")

releasetime=soup.select("p.releasetime")

img=soup.select("img.board-img")

foriinrange(10):

print(index[i].text,name[i].text,star[i].text.strip(),releasetime[i].text,img[i].get("data-src"))四、實(shí)踐體會(huì)經(jīng)過(guò)十天的校內(nèi)短學(xué)期企業(yè)項(xiàng)目實(shí)習(xí)實(shí)踐,前三天通過(guò)對(duì)mysql的學(xué)習(xí)對(duì)數(shù)據(jù)庫(kù)做了初步的了解,了解了數(shù)據(jù)庫(kù)的重要性,以及數(shù)據(jù)庫(kù)在數(shù)據(jù)統(tǒng)計(jì)中所占的重要地位。對(duì)數(shù)據(jù)庫(kù)做了一定的了解之后的三天我們開(kāi)始了帆軟的學(xué)習(xí),F(xiàn)ineReport報(bào)表軟件是一款純Java編寫(xiě)的、集數(shù)據(jù)展示(報(bào)表)和數(shù)據(jù)錄入(表單)功能于一身的企業(yè)級(jí)web報(bào)表工具,它“專(zhuān)業(yè)、簡(jiǎn)捷、靈活”的特點(diǎn)和無(wú)碼理念,僅需簡(jiǎn)單的拖拽操作便可以設(shè)計(jì)復(fù)雜的中國(guó)式報(bào)表,搭建數(shù)據(jù)決策分析系統(tǒng)。我們通過(guò)對(duì)帆軟的學(xué)習(xí),知道了如何使我們的數(shù)據(jù)庫(kù)中的數(shù)據(jù)具體的表現(xiàn)出來(lái),以及如何讓數(shù)據(jù)能過(guò)更好的表達(dá)于人。然后,只會(huì)數(shù)據(jù)的表達(dá)是遠(yuǎn)遠(yuǎn)不夠的,我們還需要收集數(shù)據(jù),學(xué)會(huì)更快的收集我們所需要的數(shù)據(jù)。所以最后四天,我們學(xué)習(xí)了使用python,學(xué)習(xí)如何使用python爬取數(shù)據(jù)。Python爬蟲(chóng)即使用Python程序開(kāi)發(fā)的網(wǎng)絡(luò)爬蟲(chóng)(網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。其實(shí)通俗的講就是通過(guò)程序去獲取web頁(yè)面上自己想要的數(shù)據(jù),也就是自動(dòng)抓取數(shù)據(jù)。通過(guò)對(duì)python的學(xué)習(xí),我們能夠加快對(duì)數(shù)據(jù)的收集,以及對(duì)數(shù)據(jù)的處理,加強(qiáng)我們得統(tǒng)計(jì)數(shù)據(jù)的效率。Python就是對(duì)數(shù)據(jù)的爬取,可以讓我們直接在網(wǎng)頁(yè)上高效地獲取數(shù)據(jù),恭喜我終于獲得了除了統(tǒng)計(jì)年鑒之外的數(shù)據(jù)整理方式。主要是python能主動(dòng)翻頁(yè),這樣之前繁雜的數(shù)據(jù)也有了短暫收集完畢的可能。Mysql是一個(gè)數(shù)據(jù)庫(kù),通過(guò)對(duì)它的學(xué)習(xí),我多少回憶起了一些大二學(xué)習(xí)的數(shù)據(jù)庫(kù)的知識(shí)。Mysql和python一樣,主要靠的是編碼

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論