版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
-.z.基于網(wǎng)絡(luò)爬蟲(chóng)的招聘信息可視化分析系統(tǒng)摘要:隨著信息化時(shí)代的降臨,當(dāng)今世界信息化水平也越來(lái)越高。越來(lái)越多的招聘信息在網(wǎng)絡(luò)上發(fā)布,這就使得應(yīng)聘者在眼花繚亂的招聘信息中不知如何選擇最適合自己的工作。因此需要對(duì)這些海量的招聘信息進(jìn)行更深入的更高層次的分析。系統(tǒng)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)網(wǎng)絡(luò)上海量的招聘信息進(jìn)行爬取,并對(duì)其進(jìn)行相關(guān)的數(shù)據(jù)清洗工作,對(duì)清洗后的數(shù)據(jù)進(jìn)行可視化分析。實(shí)現(xiàn)了對(duì)爬取到的招聘信息進(jìn)行分類(lèi)查看、模糊查詢(xún)以及多條件聯(lián)合查詢(xún),按關(guān)鍵字對(duì)招聘信息進(jìn)行爬取等功能。隨著大數(shù)據(jù)分析技術(shù)日漸成熟,可以在合理的時(shí)間內(nèi)對(duì)海量的數(shù)據(jù)進(jìn)行管理、整理以及分析,從而發(fā)掘出數(shù)據(jù)之間隱藏的關(guān)聯(lián)規(guī)則以及預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。關(guān)鍵詞:招聘信息;數(shù)據(jù)可視化分析;網(wǎng)絡(luò)爬蟲(chóng)隨著大數(shù)據(jù)的相關(guān)知識(shí)在這個(gè)時(shí)代越來(lái)越普及,我們這個(gè)時(shí)代即將迎來(lái)大數(shù)據(jù)的黃金時(shí)期,大數(shù)據(jù)已經(jīng)有著越來(lái)越重要的戰(zhàn)略意義[1]。對(duì)于招聘信息而言,每天都會(huì)有海量的招聘信息發(fā)布在網(wǎng)絡(luò)上,在不同的網(wǎng)站上有著各種不同的招聘信息,然而數(shù)據(jù)庫(kù)只能滿(mǎn)足對(duì)這些數(shù)據(jù)的增加、修改、刪除、查詢(xún)等簡(jiǎn)單的功能,這些簡(jiǎn)單的功能無(wú)法深層次的發(fā)掘這些數(shù)據(jù)源的潛在價(jià)值,發(fā)揮數(shù)據(jù)源應(yīng)有的效益[2]。應(yīng)聘者往往希望找到最適合自己的工作,諸如介于工作地點(diǎn),工作報(bào)酬,工作經(jīng)驗(yàn),以及學(xué)歷的要求,導(dǎo)致應(yīng)聘者很難從海量的招聘信息中獲取到最適合自己的工作信息[3]。大數(shù)據(jù)分析技術(shù)可實(shí)現(xiàn)高度自動(dòng)化的對(duì)數(shù)據(jù)進(jìn)行分析,發(fā)掘數(shù)據(jù)中隱含的、未知的、潛在的趨勢(shì)和模型,有助于發(fā)現(xiàn)業(yè)務(wù)的趨勢(shì),控制風(fēng)險(xiǎn)[4]。因此。對(duì)于招聘信息大數(shù)據(jù)的可視化分析是有其可行性的,通過(guò)對(duì)招聘信息的可視化分析有利于應(yīng)聘者發(fā)現(xiàn)最適合自己的工作。因此本項(xiàng)目開(kāi)發(fā)了一款招聘信息可視化分析系統(tǒng)。因此對(duì)于招聘信息大數(shù)據(jù)的可視化分析是有其可行性的,通過(guò)對(duì)招聘信息的可視化分析有利于應(yīng)聘者發(fā)現(xiàn)最適合自己的工作。因此本項(xiàng)目開(kāi)發(fā)了一款招聘信息可視化分析系統(tǒng)。在實(shí)際的運(yùn)行中規(guī)避風(fēng)險(xiǎn),幫助數(shù)據(jù)分析這作出合理的決策,從而實(shí)現(xiàn)效益的最大[5]。1系統(tǒng)簡(jiǎn)介基于網(wǎng)絡(luò)爬蟲(chóng)的招聘信息可視化分析系統(tǒng)基于B/S架構(gòu),整個(gè)系統(tǒng)可以分為數(shù)據(jù)爬取模塊、數(shù)據(jù)可視化分析模塊、用戶(hù)功能模塊三大模塊。功能結(jié)構(gòu)圖如圖1所示。圖1系統(tǒng)功能結(jié)構(gòu)圖本文以對(duì)前程無(wú)憂(yōu)以及智聯(lián)招聘的招聘信息可視化分析業(yè)務(wù)為例,介紹數(shù)據(jù)分析模塊的需求分析、設(shè)計(jì)與實(shí)現(xiàn)。2系統(tǒng)需求分析招聘信息的可視化分析包括數(shù)據(jù)的整理,清洗以及繪制可視化圖形。主要業(yè)務(wù)流程是后臺(tái)管理員通過(guò)指定關(guān)鍵字從智聯(lián)招聘或者前程無(wú)憂(yōu)上獲取相關(guān)的招聘信息,將獲取到的數(shù)據(jù)保存在本地?cái)?shù)據(jù)庫(kù)中,然后通過(guò)對(duì)可利用的數(shù)據(jù)進(jìn)行清洗工作,篩選出可以進(jìn)行統(tǒng)計(jì)分析的招聘信息,最后通過(guò)管理員將可視化的分析結(jié)果上傳到網(wǎng)站上。(1)能夠?qū)崿F(xiàn)將MySql數(shù)據(jù)庫(kù)中的相關(guān)工作的數(shù)據(jù)轉(zhuǎn)存為JSON格式,并保存在本地服務(wù)器上,以供后續(xù)進(jìn)行數(shù)據(jù)可視化分析。(2)能夠?qū)SON格式的數(shù)據(jù)導(dǎo)入使用Python編寫(xiě)的使用pandas庫(kù)的數(shù)據(jù)格式——DataFrames中,從而對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,從而將冗余的重復(fù)的無(wú)用的信息排查出去,并且對(duì)數(shù)據(jù)進(jìn)行分類(lèi)整理,聚類(lèi)分析。(3)招聘信息經(jīng)過(guò)數(shù)據(jù)清洗之后,篩選出來(lái)的可用的信息再進(jìn)行可視化分析:工作月薪—工作地點(diǎn)分布關(guān)系圖、工作月薪—工作經(jīng)驗(yàn)分布關(guān)系圖、工作月薪—最低學(xué)歷—工作經(jīng)驗(yàn)分布關(guān)系圖、工作數(shù)量—工作地點(diǎn)分布關(guān)系圖、最低學(xué)歷—工作數(shù)量分布關(guān)系圖、工作數(shù)量—工作經(jīng)驗(yàn)分布關(guān)系圖。招聘信息可視化分析用例圖如圖2所示。圖2招聘信息可視化分析用例圖查看可視化分析用例描述如表1所示。表1招聘信息可視化分析用例描述標(biāo)題說(shuō)明用例名稱(chēng)查看可視化分析分布圖用例標(biāo)識(shí)號(hào)Report001簡(jiǎn)要說(shuō)明用戶(hù)可以通過(guò)可視化分析頁(yè)面查看可視化分布圖,分布圖主要包括前程無(wú)憂(yōu)和智聯(lián)招聘兩個(gè)數(shù)據(jù)來(lái)源的可視化分析,用戶(hù)可以點(diǎn)擊圖片放大查看,可以點(diǎn)擊下一張按鈕上下移動(dòng)右側(cè)縮略圖。前置條件用戶(hù)打開(kāi)可視化分析頁(yè)面?;臼录?.用戶(hù)點(diǎn)擊右側(cè)分布圖的縮略圖。
2.用戶(hù)點(diǎn)擊頁(yè)面中間的主瀏覽圖片放大查看,點(diǎn)擊翻頁(yè)按鈕實(shí)現(xiàn)圖片的分頁(yè)下滑。
3.用例終止。其他事件流若用戶(hù)沒(méi)有點(diǎn)擊任何按鈕,默認(rèn)顯示數(shù)據(jù)庫(kù)中第一張圖片。異常事件流1.提示數(shù)據(jù)庫(kù)中沒(méi)有已分析結(jié)果,用戶(hù)確認(rèn)。
2.返回到可視化分析頁(yè)面。后置條件跳轉(zhuǎn)招聘信息可視化分析主界面,查看成功。3系統(tǒng)的設(shè)計(jì)可視化分析模塊實(shí)現(xiàn)的主要功能是對(duì)從智聯(lián)招聘和前程無(wú)憂(yōu)上爬取到的數(shù)據(jù)進(jìn)行可視化分析,即對(duì)爬取到的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,對(duì)每一個(gè)字段進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)的結(jié)果通用Python中Matplotlib庫(kù)相關(guān)方法將數(shù)據(jù)可視化[6]。招聘信息可視化分析活動(dòng)圖如下圖3所示:圖3招聘信息可視化分析活動(dòng)圖通過(guò)對(duì)系統(tǒng)各個(gè)模塊的需求分析,設(shè)計(jì)得到系統(tǒng)類(lèi)圖如圖4所示。圖4系統(tǒng)類(lèi)圖4系統(tǒng)的實(shí)現(xiàn)對(duì)招聘信息可視化分析業(yè)務(wù)具體實(shí)現(xiàn)是通過(guò)將MySql數(shù)據(jù)庫(kù)中的相關(guān)工作的數(shù)據(jù)轉(zhuǎn)存為JSON格式,并保存在本地服務(wù)器上。之后將JSON格式的數(shù)據(jù)導(dǎo)入使用Python編寫(xiě)的使用pandas庫(kù)的數(shù)據(jù)格式——DataFrames中,從而對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,從而將冗余的重復(fù)的無(wú)用的信息排查出去,并且對(duì)數(shù)據(jù)進(jìn)行分類(lèi)整理,聚類(lèi)分析。招聘信息經(jīng)過(guò)數(shù)據(jù)清洗之后,篩選出來(lái)的可用的信息再進(jìn)行可視化分析:的到工作月薪—工作地點(diǎn)分布關(guān)系圖、工作月薪—工作經(jīng)驗(yàn)分布關(guān)系圖、工作月薪—最低學(xué)歷—工作經(jīng)驗(yàn)分布關(guān)系圖、工作數(shù)量—工作地點(diǎn)分布關(guān)系圖、最低學(xué)歷—工作數(shù)量分布關(guān)系圖、工作數(shù)量—工作經(jīng)驗(yàn)分布關(guān)系圖。招聘信息可視化分析順序圖如圖5所示。圖5招聘信息可視化分析順序圖實(shí)現(xiàn)對(duì)招聘信息的可視化分析的數(shù)據(jù)清理部分代碼如下所示。foriinrange(len(df['ZWnum'])):#處理職位數(shù)量try:item=df['ZWnum'].iloc[i].strip()result=re.findall(pattern,item)ifresult:df['num'].iloc[i]=result[0]e*ceptE*ceptionase:continuedf_city=df['ZWadd'].copy()pattern2=pile('(.*")(\-)')#處理工作地點(diǎn)foriinrange(len(df['ZWadd'])):item=df['ZWadd'].iloc[i].strip()result=re.search(pattern2,item)ifresult:df_city.iloc[i]=result.group(1).strip()else:df_city.iloc[i]=item.strip()df['add']=df_city(u'json數(shù)據(jù)清洗完畢')運(yùn)行結(jié)果圖如圖6所示。圖6最低學(xué)歷-工作經(jīng)驗(yàn)-平均月薪分布圖5結(jié)束語(yǔ)本文通過(guò)對(duì)招聘信息的可視化分析業(yè)務(wù)為例,詳細(xì)介紹了基于網(wǎng)絡(luò)爬蟲(chóng)的招聘信息可視化分析軟件的需求分析、設(shè)計(jì)與實(shí)現(xiàn)。對(duì)于招聘信息而言,每天都會(huì)有海量的招聘信息發(fā)布在網(wǎng)絡(luò)上,在不同的網(wǎng)站上有著各種不同的招聘信息。通過(guò)對(duì)招聘信息的可視化分析有利于應(yīng)聘者發(fā)現(xiàn)最適合自己的工作。參考文獻(xiàn)[1]吳俊鋒.基于Django的高性能計(jì)算Web系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].:電子科技大學(xué),2016.[2]劉文哲.詞語(yǔ)關(guān)聯(lián)搜索查詢(xún)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].:華中科技大學(xué),2015.[3]熊晟.知識(shí)庫(kù)質(zhì)量控制平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].:北京交通大學(xué),2016.[4]周嫣然.基于大數(shù)據(jù)時(shí)代的數(shù)據(jù)可視化應(yīng)用分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014,(11):47-48.[5]楊超明.基于.NET框架的高職就業(yè)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].:湖南大學(xué),2016.[6]王囝囝,楊樹(shù),畢燾.大數(shù)據(jù)時(shí)代數(shù)據(jù)信息可視化的研究[J].通訊世界,2015,(14):185-186.[7]HuangZ,ZhangL,*uR,etal./
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年可控硅式逆變焊機(jī)項(xiàng)目投資價(jià)值分析報(bào)告
- 2025年布棉鞋項(xiàng)目可行性研究報(bào)告
- 2025年出入口復(fù)蓋項(xiàng)目可行性研究報(bào)告
- 2025至2030年鍍鎳鋁塑管角彎項(xiàng)目投資價(jià)值分析報(bào)告
- 二年級(jí)數(shù)學(xué)(上)計(jì)算題專(zhuān)項(xiàng)練習(xí)匯編
- 三年級(jí)數(shù)學(xué)(上)計(jì)算題專(zhuān)項(xiàng)練習(xí)附答案集錦
- 一年級(jí)數(shù)學(xué)(上)計(jì)算題專(zhuān)項(xiàng)練習(xí)集錦
- 展會(huì)物流服務(wù)合同模板
- 高爾夫球場(chǎng)用地居間合同
- 礦權(quán)交易市場(chǎng)分析協(xié)議
- 刀模檢測(cè)、保養(yǎng)記錄
- 小學(xué)五年級(jí)脫式計(jì)算題300道-五年級(jí)上冊(cè)脫式計(jì)算題及答案
- 鋁礬土進(jìn)口合同中英文
- 最新臺(tái)灣藥事法
- 2022年金礦采選項(xiàng)目可行性研究報(bào)告
- 氧氣吸入法操作并發(fā)癥預(yù)防及處理規(guī)范草稿
- 2022版云南財(cái)經(jīng)大學(xué)推免管理辦法
- 門(mén)診特定病種待遇認(rèn)定申請(qǐng)表
- 混合離子交換器使用說(shuō)明書(shū)正本
- 工傷保險(xiǎn)待遇及案例分析PPT課件
- 自控工程識(shí)圖
評(píng)論
0/150
提交評(píng)論