




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、教學(xué)單位湖北工程學(xué)院學(xué)生學(xué)號 012301124127本科畢業(yè)論文(設(shè)計)題目基于大數(shù)據(jù)文本聚類關(guān)聯(lián)的網(wǎng)絡(luò)招聘信息挖掘?qū)W生姓名 鄭小樂 專業(yè)名稱統(tǒng)計學(xué) 指導(dǎo)教師張學(xué)新 2016年4月5日目 錄1、引言11、引言12、網(wǎng)絡(luò)招聘信息挖掘綜述12。1文本挖掘定義及特點12。1.1文本挖掘
2、的定義12.1.2文本挖掘的特點12。2文本挖掘及其網(wǎng)絡(luò)招聘信息挖掘的現(xiàn)狀23、網(wǎng)絡(luò)招聘信息挖掘步驟33。1讀取網(wǎng)頁招聘信息文本文件33。2招聘信息文本分詞43.2。1分詞43。2.2設(shè)置頻繁出現(xiàn)的領(lǐng)域干擾詞53。3詞頻統(tǒng)計與詞云63.4招聘信息文本聚類分析73。4。1特征詞權(quán)重73.4.2TFIDF法計算關(guān)鍵詞權(quán)重83。4.3相似度計算83.4。4創(chuàng)建文本-詞條矩陣93。4。5K-均值聚類94、招聘信息文本W(wǎng)eb圖分析125、建議13參考文獻(xiàn)15附錄16致謝18基于大數(shù)據(jù)文本聚類關(guān)聯(lián)的網(wǎng)絡(luò)招聘信息挖掘摘 要:隨著計算機(jī)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)招聘信息平臺已成為招聘者發(fā)布信息和應(yīng)聘者獲取職位的
3、主要途徑.大量的網(wǎng)絡(luò)招聘信息蘊(yùn)含著用人單位豐富的需求知識,諸如對人才的能力、素質(zhì)等方面的要求。本文自行爬取2015年11月-2016年4月拉鉤網(wǎng)24萬5千多條企業(yè)招聘信息,使用R語言編程,通過中文分詞,設(shè)置頻繁出現(xiàn)的領(lǐng)域干擾詞,詞頻統(tǒng)計,文本向量化,應(yīng)用k均值聚類及網(wǎng)狀Web圖方法分析社會各行業(yè)對人才的能力及素質(zhì)要求,描繪企業(yè)基本信息、薪資水平、工作經(jīng)驗要求間的關(guān)聯(lián)強(qiáng)度,給高校及時了解社會對人才的需求變化,有針對性的調(diào)整人才培養(yǎng)方案以及應(yīng)屆畢業(yè)生求職提出有益建議。關(guān)鍵詞:大數(shù)據(jù);網(wǎng)絡(luò)招聘信息;聚類分析;Web圖;R語言編程Online recruitment information minin
4、g by vast amounts of text clustering and associatingAbstract:Companying with computer network technology rapid development, network recruitment information platform has become a main way for recruiter to release information and for job seeker to get job。 A large number of network recruitment informa
5、tion contains the knowledge of demand of units for employees, such as the requirement of talents ability and quality, etc. In this paper, more than 24, 5 thousands enterprises net recruitment information, from November 2015 to April 2016 in Lagou net are crawled out. through setting frequent field d
6、isturbance terms, Chinese word segmentation, word frequency statistics, text vectorization, kmeans clustering using R language programming and Web diagram method are applied to excavate ability and quality requirements from social various industries for talents, to describe the correlation strengths
7、 among enterprise basic information, wages, job experience requirements for employees 。Finally, some beneficial suggestions are put forward for colleges and universities to timely understand of the social demand for talents and targeted adjust the talent training scheme ,and some reference are provi
8、ded for the fresh graduates to apply for a job。Key words: Big data; Network recruitment information; Clustering analysis; Web graph;R language programming1、引言隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)上信息呈爆發(fā)式增長,這種增長超過了創(chuàng)造機(jī)器的速度,甚至超過了人們的想象。數(shù)據(jù)庫中以文本形式存儲的信息越來越多,包含各種數(shù)據(jù)源的文本,如研究報告、研究論文、數(shù)字圖書館、電子郵件和頁面等。這些信息的存儲方式分為兩大類:一是可以用數(shù)字、符號等表示的結(jié)構(gòu)化數(shù)據(jù),另
9、一類則是非結(jié)構(gòu)化數(shù)據(jù)。其中非結(jié)構(gòu)化數(shù)據(jù)的挖掘更難。當(dāng)今,眾多用戶開始顯示出對文本挖掘的興趣,希望挖掘出有用的信息、規(guī)則.例如,企業(yè)把人才招聘信息越來越多的發(fā)布到互聯(lián)網(wǎng)上,這些招聘信息含有用人單位對人才的需求及能力要求,在一定程度上代表了人才需求的未來走向。高校希望利用現(xiàn)代技術(shù)手段從互聯(lián)網(wǎng)上獲取有用信息,分析用人單位對人才的需求特點,及時了解社會對人才的需求變化情況,有針對性的調(diào)整人才培養(yǎng)方案和設(shè)置相關(guān)課程,培養(yǎng)出更多的優(yōu)秀人才以滿足社會的需求。應(yīng)聘者也需要從網(wǎng)絡(luò)招聘信息平臺獲取信息,做好求職前的準(zhǔn)備工作。本文利用八爪魚采集器自行爬取拉勾網(wǎng)24萬多海量企業(yè)招聘信息,應(yīng)用R語言編程挖掘出一些有用的
10、知識。2、網(wǎng)絡(luò)招聘信息挖掘綜述2。1文本挖掘定義及特點2。1。1文本挖掘的定義網(wǎng)絡(luò)招聘信息挖掘是一種文本挖掘。文本挖掘是指從大量文本數(shù)據(jù)中獲取先前未知的模式,這種發(fā)現(xiàn)必須是可理解的、潛在有用的。分析文本數(shù)據(jù),抽取文本信息,目標(biāo)是發(fā)現(xiàn)文本知識.文本挖掘的主要難點在于它必須處理那些本來就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù),是一個多學(xué)科混雜的領(lǐng)域,涵蓋了統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)以及專業(yè)軟件使用等技術(shù).2.1.2文本挖掘的特點1. 面對的是大量文本集合。2. 文本挖掘發(fā)現(xiàn)的知識是以前未發(fā)現(xiàn)的。3. 文本挖掘的知識具有潛在價值,是用戶感興趣的直接可用的.4. 文本挖掘算法具有較高的復(fù)雜度.5. 文本挖掘涉及
11、多個學(xué)科交叉,包括模式識別、統(tǒng)計學(xué)、自然語言處理、可視化技術(shù)、數(shù)據(jù)庫技術(shù)等。2.2文本挖掘及其網(wǎng)絡(luò)招聘信息挖掘的現(xiàn)狀文本挖掘最近幾年在國外發(fā)展迅速,廣泛應(yīng)用于電子會議、郵件分類、垃圾信息過濾等多個方面1-3。國內(nèi)文本挖掘研究則較晚。早期主要是對Web文本挖掘技術(shù)研究的介紹4。稍后主要聚焦于對各種改進(jìn)的k-均值聚類算法的精度進(jìn)行實驗研究.王智勇5應(yīng)用基于詞條互信息的統(tǒng)計降維和Kohonen網(wǎng)絡(luò)相結(jié)合的文本聚類算法,測試搜狐網(wǎng)下載的已知類別的486篇文本的聚類精度。李伯陽6在網(wǎng)格聚類算法基礎(chǔ)上進(jìn)行文本聚類,將其應(yīng)用于14524個垃圾郵件的甄別。蔡坤7基于topN特征詞的文本聚類算法,采用復(fù)旦大學(xué)國
12、際數(shù)據(jù)庫中心自然語言處理小組公開提供的測試語料,從中隨機(jī)抽取了五大類共200篇文本實證聚類效果。現(xiàn)在的研究則關(guān)注中文分詞及應(yīng)用。曾路平8采用中科院開發(fā)的ICTCLAS2009共享版進(jìn)行中文分詞,利用單詞間的語義相關(guān)性,對公安情報系統(tǒng)中的輿情信息聚類分析。鐘曉旭910先后對2010年的3家招聘網(wǎng)站的78481條招聘信息及新安人才網(wǎng)上計算機(jī)類專業(yè)招聘信息進(jìn)行聚類,統(tǒng)計各個職位的需求量,計算職位間的相關(guān)系數(shù)。王靜11選擇2011年的4家招聘網(wǎng)站,包括六種職業(yè)的2262個招聘網(wǎng)頁,采用偽二維隱馬爾可夫模型來分割,抽取其中的職位名、機(jī)構(gòu)名等信息。馬力12對302個瀏覽頁面聚類分析,獲得用戶興趣序列的頻繁
13、模式。王盛明,盧秉亮13從校圖書館讀者借閱量表中抽取200名學(xué)生的記錄,應(yīng)用加權(quán)聚類算法劃分讀者群體。劉玉華等人14對某城市若干高校歷年畢業(yè)生的就業(yè)數(shù)據(jù)進(jìn)行聚類分析、關(guān)聯(lián)分析,開發(fā)畢業(yè)生和企業(yè)間的雙向推薦系統(tǒng)??偟膩碚f,國內(nèi)以上文本挖掘的研究深度有限,所用數(shù)據(jù)不是真正意義上的網(wǎng)絡(luò)招聘數(shù)據(jù),各種改進(jìn)的聚類算法的精度可信度不高。鮮見對網(wǎng)頁里大量非結(jié)構(gòu)化的招聘數(shù)據(jù)的挖掘研究。統(tǒng)計分析方法簡單,特別的,很少使用軟件編程。本文自行爬取2015年11月-2016年4月拉勾網(wǎng)(http://)24萬多海量企業(yè)招聘信息,應(yīng)用k均值聚類分析社會各行業(yè)對人才的能力及素質(zhì)要求,網(wǎng)狀Web圖
14、方法描繪企業(yè)規(guī)模、金融狀態(tài)、所在行業(yè)領(lǐng)域、工作性質(zhì)、職位類型、薪資水平、應(yīng)聘者工作經(jīng)驗間的關(guān)聯(lián)強(qiáng)度,為高校了解社會對人才的需求變化情況及時提供信息,設(shè)置實踐性選修課程提供科學(xué)依據(jù)。2.3網(wǎng)絡(luò)招聘信息挖掘的流程文本解析文本向量化文本預(yù)處理聚類與關(guān)聯(lián)挖掘中文分詞停用詞處理詞頻統(tǒng)計與詞云TF-IDF計算權(quán)重文檔-詞條矩陣K-均值聚類網(wǎng)絡(luò)招聘信息文本集合聚類結(jié)果分析Apriori關(guān)聯(lián)挖掘Web圖分析圖1 網(wǎng)絡(luò)招聘信息挖掘流程圖3、網(wǎng)絡(luò)招聘信息挖掘步驟3。1讀取網(wǎng)頁招聘信息文本文件本文首先通過八爪魚采集器抓取拉鉤網(wǎng)的招聘信息,然后匯總到一張csv表格,數(shù)據(jù)格式如圖2所示:圖2 網(wǎng)絡(luò)招聘信息原始數(shù)據(jù)樣例3
15、。2招聘信息文本分詞3。2。1分詞為了統(tǒng)計分析,必須對獲取的大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行中文分詞,提取有意義的中文單詞。所謂中文分詞指的是將一個漢字序列切分成單獨的有意義的詞條,以便為其建立索引。經(jīng)過中文分詞后,句子按照一定的規(guī)范重新組合成詞序列。分詞的準(zhǔn)確性直接影響著文本挖掘結(jié)果的有效性,詞分的越準(zhǔn)確,對文本的挖掘與分析越能有效提取文本中蘊(yùn)含的有用信息.本文采用ICTCLAS分詞軟件包對csv文本中的文本數(shù)據(jù)進(jìn)行中文分詞。ICTCLAS的分詞速度快,精度高,具有詞性標(biāo)注、未登錄詞識別等功能,是當(dāng)前世界上最好的漢語詞法分析器.為了提高切詞的準(zhǔn)確率,在分詞之前需要導(dǎo)入一些與文本數(shù)據(jù)相關(guān)的自定義詞典。本文
16、中文分詞示例圖3:圖3 網(wǎng)絡(luò)招聘信息文本分詞3。2。2設(shè)置頻繁出現(xiàn)的領(lǐng)域干擾詞在分詞結(jié)果中存在很多連詞、介詞、助詞、感嘆詞及標(biāo)點符號,或者一些通用名稱詞,如“公司"、“描述”等,稱做停用詞,它們對區(qū)分文本沒有作用,需要將其刪除。首先創(chuàng)建一個停詞表,添加招聘內(nèi)容中出現(xiàn)的停用詞。然后,在程序里自定義刪除停止詞的函數(shù),刪除文本中無實際意義的詞,得到結(jié)果如圖4:圖4 刪除停用詞后的分詞 相比之前的分詞結(jié)果,這次精簡了很多,剔除了諸如“對”、“的"、“和”等無意義的詞。3.3詞頻統(tǒng)計與詞云對分詞的結(jié)果做一個詞頻統(tǒng)計,計算出每個詞出現(xiàn)的次數(shù)并排序,然后取排名前50的50個詞語,用wor
17、dcloud()的方法來繪制詞云.詞云是現(xiàn)在很常見的一種分析圖,把這些詞語放在一張圖中,按頻次出現(xiàn)的多少來顯示詞語的大小。判斷分詞結(jié)果的好壞,最快捷的方法是繪制詞云,從而可以清晰的查看哪些詞不該出現(xiàn)或哪些詞分割的不準(zhǔn)確.圖5 詞頻統(tǒng)計圖6 詞云從詞云可以看出,除了少數(shù)無意義的詞未被完全剔除外,分詞結(jié)果總體上還是比較令人滿意的。此外,招聘信息的內(nèi)容有很明顯的特征,“工作”、“能力”、“開發(fā)”、“經(jīng)驗”出現(xiàn)的次數(shù)遠(yuǎn)大于其他詞語;其次出現(xiàn)頻率比較高的詞語是“設(shè)計”、“負(fù)責(zé)”、“團(tuán)隊”、“熟悉”、“產(chǎn)品"等詞語,可以看出現(xiàn)在的人才市場比較看重求職者的工作能力、工作經(jīng)驗、責(zé)任心、團(tuán)結(jié)協(xié)作能力等
18、。3。4招聘信息文本聚類分析文本聚類把所有文本文本按照某種相似性準(zhǔn)則聚合為若干類別,同類文本盡可能相似,每一類別挖掘出一個主題。文本聚類是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,不需要訓(xùn)練樣本,自動化處理能力較高,是文本信息提取的主要手段 8。文本聚類算法要求變量是數(shù)值型的,為此,先將文本數(shù)據(jù)轉(zhuǎn)換為文本詞條矩陣。3。4。1特征詞權(quán)重設(shè)是一個包含個文本的集合,是第個文本的特征向量,為文本中第個特征項詞條的權(quán)值,則;。3。4.2TFIDF法計算關(guān)鍵詞權(quán)重TF-IDF方法不僅用特征詞在訓(xùn)練文本內(nèi)的頻數(shù)度量該詞的重要性,而且也考慮包含該詞的文本數(shù)量,如果包含該詞的文本數(shù)量太多,那么該詞識別不同文本的能力就差,需要把
19、二者結(jié)合起來。對于給定文本,TF-IDF算法給出該文本中詞條的權(quán)重公式(1)其中表示第個特征詞在文本中出現(xiàn)的頻率;表示該詞條在整個文本集中的分布情況,即包含該詞條的文本數(shù)越少,則越大,說明該詞語有較強(qiáng)的類別區(qū)分能力.(2)其中的取值通過實驗來確定(通常取0。01),為出現(xiàn)特征項的文本數(shù),表示總文本數(shù)目。3。4。3相似度計算通過上述方法將文本映射成向量,再選擇某種距離度量文本間的相似度。本文用向量夾角的余弦值來度量.設(shè)第個和第個職位描述的特征向量分別為,,定義為特征項詞條在文本集合中出現(xiàn)的頻率;給定文本向量與,選擇它們的相似度指標(biāo)為向量夾角的余弦值:(3)所有招聘信息文本向量化以后,獲得結(jié)構(gòu)化數(shù)
20、據(jù),再使用R語言編程。3。4。4創(chuàng)建文本-詞條矩陣將已分完詞的列表導(dǎo)入為語料庫,并進(jìn)一步加工處理語料庫,從而創(chuàng)建文本-詞條矩陣,圖7展示了部分文本的向量化結(jié)果。圖7 文本-詞條矩陣該文本-詞條矩陣實際上為稀疏矩陣,其中矩陣中非0元素有80985個,而0元素有9442015個,稀疏率達(dá)到99;最后,這9523個詞中,最頻繁的一個詞出現(xiàn)在了24條招聘信息中。由于稀疏矩陣的稀疏率過高,我們再剔除一些出現(xiàn)頻次極低的詞語,結(jié)果見圖8. 圖8 精細(xì)化的文本詞條矩陣精細(xì)化的文本詞條矩陣中的列數(shù)大幅減少,當(dāng)前矩陣只包含了28列,即28個詞語。3.4。5K均值聚類K-均值聚類的基本思想是通過迭代的方法,逐次更新
21、各聚類中心的值,直至獲得滿意的結(jié)果。K均值聚類算法的步驟:1.初始化聚類中心。設(shè)定指定聚類類數(shù)N,給出迭代中止條件.在文本集合中隨機(jī)選取N個文本作為初始聚類中心.2.迭代。將文本與各個聚類中心進(jìn)行比較,把它劃入距離最近的聚類中心所在的類,形成新類。3。重新計算聚類中心.把新類的所有文本向量平均后作為新的聚類中心。4。重復(fù)23步,直到類別的變動很小或不再變動為止,形成K個類14。將以上算法通過R語言編程實現(xiàn),結(jié)果見表1.表1 網(wǎng)絡(luò)招聘信息聚類結(jié)果由表1可知,網(wǎng)絡(luò)招聘信息可分為7類。詳細(xì)分類見附件,聚類結(jié)果的可視化如圖9.圖9 聚類結(jié)果可視化圖9中,不同顏色的點代表不同的類別,*表示聚類中心。分別
22、提取聚類的7個類別的特征詞,得到表2結(jié)果:表2 特征詞排行第一類能力工作經(jīng)驗強(qiáng)以上團(tuán)隊客戶良好相關(guān)優(yōu)先第二類客戶團(tuán)隊招聘工作負(fù)責(zé)管理經(jīng)驗開發(fā)完成分析第三類公司銷售合作工作客戶能力團(tuán)隊以上負(fù)責(zé)經(jīng)驗第四類產(chǎn)品設(shè)計能力負(fù)責(zé)經(jīng)驗工作用戶以上需求分析第五類工作負(fù)責(zé)能力經(jīng)驗以上相關(guān)管理強(qiáng)開發(fā)優(yōu)先第六類熟悉開發(fā)經(jīng)驗工作設(shè)計以上能力技術(shù)系統(tǒng)優(yōu)先第七類開發(fā)經(jīng)驗?zāi)芰κ煜ぎa(chǎn)品以上工作設(shè)計要求優(yōu)先聚類結(jié)果依據(jù)詞頻重要性分成7類,第一類強(qiáng)調(diào)工作能力,第二類強(qiáng)調(diào)團(tuán)隊協(xié)作精神,第三類屬于市場營銷,強(qiáng)調(diào)溝通能力,第四類是產(chǎn)品設(shè)計,強(qiáng)調(diào)要從滿足用戶需求的角度來設(shè)計產(chǎn)品,第五類強(qiáng)調(diào)工作要認(rèn)真負(fù)責(zé),對工作經(jīng)驗和能力也有一定要求,第
23、六類強(qiáng)調(diào)軟件設(shè)計與開發(fā)能力,第七類強(qiáng)調(diào)產(chǎn)品設(shè)計與開發(fā)能力.4、招聘信息文本W(wǎng)eb圖分析Web圖分析是一種用圖的形式來描述關(guān)聯(lián)規(guī)則結(jié)果的方法。關(guān)聯(lián)規(guī)則的任務(wù)是從海量的數(shù)據(jù)中得到各指標(biāo)間有價值的相互關(guān)系,其結(jié)果很容易被理解且能夠使人有效地捕捉數(shù)據(jù)間聯(lián)系。關(guān)聯(lián)規(guī)則的一般形式。是規(guī)則的前項,可以是一個項目或項目集合,是規(guī)則的后項,一般是一個項目。關(guān)聯(lián)規(guī)則的核心算法是Apriori算法,其基本思想是設(shè)定最小支持度(一個規(guī)則支持度定義為前項與后項同時出現(xiàn)的概率),先找頻繁集,然后在頻繁集中產(chǎn)生較強(qiáng)的關(guān)聯(lián)規(guī)則.本文選擇Apriori算法挖掘關(guān)聯(lián)規(guī)則,算法具體過程為:1. 從容量為1的頻繁集開始掃描,將小于最
24、小支持度的集合忽略不計;2. 接著通過歸納從容量為k-1的頻繁集中生成容量為k的頻繁集,同時修建其中的容量為k1的非頻繁集。3. 確定了修剪后的頻繁集列表后,計算頻繁集的所有子集和(容量為k-1),其中包含輸入信息,包含輸出信息。4. 計算規(guī)則的置信度,即在項目出現(xiàn)的條件下,項目出現(xiàn)的條件概率.若不低于最小支持度,則列入相關(guān)規(guī)則。Web圖中線條的粗細(xì)直觀的表示了兩者的關(guān)聯(lián)強(qiáng)度,線條越粗,說明前項與后項的相關(guān)性越大。通過對網(wǎng)絡(luò)招聘信息中的各個變量編碼(具體見圖10),然后做出Web圖,見圖10。由圖10可以看出IndustryField_11(信息安全)與IndustryField_8(生活服務(wù)
25、)、PositionType_13(高端設(shè)計職位)、PositionType_16(高端職能職位)、PositionType_29(投資)、PositionType_8(法務(wù))之間有較強(qiáng)的關(guān)聯(lián);IndustryField_8(生活服務(wù))與PositionType_29(投資)之間有較強(qiáng)的關(guān)聯(lián);IndustryField_6(旅游)與PositionType_29(投資)之間有較強(qiáng)的關(guān)聯(lián)等。表明信息安全領(lǐng)域的企業(yè)與生活服務(wù)類企業(yè)關(guān)聯(lián)性較強(qiáng),且這類企業(yè)比較傾向于招聘高端設(shè)計職位、高端職能職位、投資、法務(wù)類人才;生活服務(wù)和旅游領(lǐng)域的企業(yè)比較傾向于招聘投資類人才。圖10 招聘信息關(guān)聯(lián)Web圖進(jìn)一步,選
26、擇支持度10、置信度80%可得如下結(jié)果:PositionFirstType_2(技術(shù))與PositionType_24(前端開發(fā))、PositionType_20(后端開發(fā))、IndustryField_12(移動互聯(lián)網(wǎng))之間有較強(qiáng)的關(guān)聯(lián);PositionFirstType_5(市場與銷售)與PositionType_31(銷售)之間有較強(qiáng)的關(guān)聯(lián);IndustryField_12(移動互聯(lián)網(wǎng))與FinanceStage_2(成長型)、WorkYear_5(35年)、Education_3(本科)之間有較強(qiáng)聯(lián)系;FinanceStage_1(初創(chuàng)型)與CompanySize_2(15-50人)、
27、IndustryField_12(移動互聯(lián)網(wǎng))之間有較強(qiáng)的關(guān)聯(lián);Education_3(本科)與FinanceStage_4(上市公司)、CompanySize_6(2000人以上)、Salary_5(20000以上)、PositionFirstType_2(技術(shù))有較強(qiáng)的關(guān)聯(lián)等。表明移動互聯(lián)網(wǎng)領(lǐng)域?qū)夹g(shù)類人才需求量較大,其中前端開發(fā)和后端開發(fā)領(lǐng)域的人才尤其受歡迎;此外,成長型公司大多存在于移動互聯(lián)網(wǎng)領(lǐng)域,且對人才的工作經(jīng)驗和學(xué)歷要求較高;初創(chuàng)型公司一般規(guī)模較小,且主要集中在移動互聯(lián)網(wǎng)領(lǐng)域;而上市公司的公司規(guī)模一般較大,員工人數(shù)在2000人以上,上市公司對技術(shù)類人才需求量較大,對人才的學(xué)歷要求
28、主要集中在本科學(xué)歷,對員工支付的薪水較高,普遍在20000元以上.5、建議從挖掘結(jié)果看,高??捎嗅槍π缘恼{(diào)整人才培養(yǎng)方案,開設(shè)R、Java、Python語言選修課程,提升學(xué)生應(yīng)用相關(guān)軟件的能力,積累解決實際問題的經(jīng)驗,學(xué)會團(tuán)隊協(xié)作.企業(yè)對市場營銷、軟件和產(chǎn)品的開發(fā)與設(shè)計類人才需求量較大,應(yīng)屆畢業(yè)生要重視參加軟件和產(chǎn)品的開發(fā)、設(shè)計等職業(yè)培訓(xùn)工作,適度利用業(yè)余時間做兼職,積累工作經(jīng)驗,在實踐中學(xué)習(xí)與客戶溝通的技巧。此外,我們不難看出移動互聯(lián)網(wǎng)行業(yè)發(fā)展前景廣闊,求職者若對移動互聯(lián)網(wǎng)感興趣,可優(yōu)先考慮向技術(shù)類方向發(fā)展,并且要注意工作經(jīng)驗的積累。若求職者想去規(guī)模較大的上市公司,那么有較高學(xué)歷的技術(shù)型人才
29、有較大優(yōu)勢。參考文獻(xiàn)1U.Fayyad,GPiatetskyShapior,PSmythAn OverviewIn Advance in KnowledgeDiscovery and Data MiningMMIT Press,19962Rabiner LRA tutorial on hidden Markov models and selected applications inspeech recognitionJProc IEEE,2007,77(2):257-2863Amaud Sahuguet,Fabien AzavantBuilding intelligent Web applic
30、ations using lightweight wrappersJ。Data Knowledge Engineering,2010,36(3):2833164王繼成,潘金貴,張福炎.Web文本挖掘技術(shù)研究J。計算機(jī)研究與發(fā)展,2000,37(5):51352。5王智勇.基于統(tǒng)計降維和Kohonen網(wǎng)絡(luò)的文本聚類和分類研究D.天津:天津大學(xué),2005。6李伯陽。文本聚類方法研究及其應(yīng)用D。廈門:廈門大學(xué),2008.7蔡坤?;谔卣髟~的文本聚類算法研究D.開封:河南大學(xué),2009.8曾路平?;谙嗨贫鹊奈谋揪垲愃惴ㄑ芯考皯?yīng)用D.鎮(zhèn)江:江蘇大學(xué),2009.9鐘曉旭?;赪eb招聘信息的文本挖掘系統(tǒng)
31、研究D.合肥:合肥工業(yè)大學(xué),2010。10鐘曉旭,胡學(xué)鋼?;跀?shù)據(jù)挖掘的Web招聘信息相關(guān)性分析J。安徽建筑工業(yè)學(xué)院學(xué)報(自然學(xué)科版),2010,18(4):23-45。11王靜.Web對象的信息抽取的關(guān)鍵技術(shù)研究D.西安:西安電子科技大學(xué),2011.12馬力?;诰垲惙治龅木W(wǎng)絡(luò)用戶興趣挖掘方法研究D.西安:西安電子科技大學(xué),2012.13王盛明,盧秉亮.加權(quán)聚類算法在圖書館中的應(yīng)用研究J.微機(jī)處理,2015,(6):47-49。14劉玉華,陳建國,張春燕.基于數(shù)據(jù)挖掘的國內(nèi)大學(xué)生就業(yè)信息雙向推薦系統(tǒng)J。沈陽大學(xué)學(xué)報(自然科學(xué)版),2015,27(3):226232。附錄文本數(shù)據(jù)聚類程序:讀取
32、數(shù)據(jù)mydata-read。table(file=file。choose(),quote="",header=TRUE,sep=”t”,stringsAsFactors=FALSE)strstr(mydata)添加自定義字典installDict(dictpath=D:R財經(jīng)金融詞匯大全【官方推薦】.scel,+ dictname=caijing,dicttype=scel)installDict(dictpath=D:R旅游詞匯大全【官方推薦】。scel,+ dictname='lvyou',dicttype='scel)installDict(d
33、ictpath='D:R電子商務(wù)專用詞庫【官方推薦】.scel,+ dictname='dianzishangwu,dicttype=scel')installDict(dictpath=D:RIT計算機(jī).scel,+ dictname=jisuanji',dicttype=scel')installDict(dictpath=D:RSEO 搜索引擎優(yōu)化 專業(yè)詞匯。scel,+ dictname=sousuoyinqing',dicttype=scel')installDict(dictpath='D:R醫(yī)學(xué)詞匯大全【官方推薦】.
34、scel',+ dictname='yixue,dicttype=scel)查看已安裝的詞典listDict()預(yù)處理mydata.res<mydatamydata!=”分詞 segword<segmentCN(strwords=mydata。res)查看第一條招聘信息分詞結(jié)果 segword1 #創(chuàng)建停止詞 mystopwords-read。table(file=file。choose(),stringsAsFactors=FALSE) head(mystopwords) class(mystopwords)
35、60;需要將數(shù)據(jù)框格式的數(shù)據(jù)轉(zhuǎn)化為向量格式 mystopwords<-as.vector(mystopwords,1)head(mystopwords)自定義刪除停止詞的函數(shù) removewords<function(target_words,stop_words) target_words=target_wordstarget_wordsin%stop_words=FALSE return(target_words) segword2sapply(X=segword,FUN=removewords,mystopwords)
36、0;查看已刪除后的分詞結(jié)果segword21詞頻統(tǒng)計word_freqgetWordFreq(string=unlist(segword2)#查看詞頻統(tǒng)計結(jié)果 word_freqopar<par(no。readonly=TRUE) Par(bg=black)繪制出現(xiàn)頻率最高的前50個詞wordcloud(words=word_freqWord,freq=word_freqFreq,+ max。words=50,random.color=TRUE,colors=rainbow(n=7)+ )par(opar) 將已分完詞的列表導(dǎo)入為語料庫,并進(jìn)一步加工處理語料庫 te
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 卷煙采購合同范本
- 商業(yè)訂金合同范本
- 醫(yī)療生意合伙協(xié)議合同范本
- 全款分期購房合同范例
- 合同范本開店合作
- 公司變賣解散合同范本
- 吊車合作合同范本
- 員工家具合同范本
- 買賣付款簡易合同范本
- 商標(biāo)服務(wù)購買合同范例
- 院前急救技術(shù)-止血包扎固定搬運課件
- 中國煤炭地質(zhì)總局公開招聘報名表
- 電子商務(wù)數(shù)據(jù)分析基礎(chǔ)(第二版) 課件 模塊1、2 電子商務(wù)數(shù)據(jù)分析概述、基礎(chǔ)數(shù)據(jù)采集
- YB-T+4190-2018工程用機(jī)編鋼絲網(wǎng)及組合體
- 高大模板安全施工施工安全保證措施
- 地連墻鋼筋籠吊裝安全施工T及T吊裝驗算及設(shè)備選定
- 2024-2025年跨境電商行業(yè)女裝市場前景及投資研究報告
- 委托辦理報廢汽車協(xié)議書
- 2024年新疆中考英語試卷真題(含答案)
- 蘇教版(SJ)《四年級下冊數(shù)學(xué)》補(bǔ)充習(xí)題
- 體育足球籃球排球體操教案
評論
0/150
提交評論