




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、題題 目目 電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)的 設(shè)計(jì)與實(shí)現(xiàn)學(xué)學(xué) 院院 專(zhuān)專(zhuān) 業(yè)業(yè) 學(xué)生姓名學(xué)生姓名 導(dǎo)師姓名導(dǎo)師姓名 設(shè)計(jì)任務(wù)書(shū)設(shè)計(jì)任務(wù)書(shū)學(xué)生姓名學(xué)號(hào)指導(dǎo)教師職稱(chēng)學(xué)院專(zhuān)業(yè) 題目名稱(chēng) 電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)任務(wù)與要求隨著互聯(lián)網(wǎng)及大數(shù)據(jù)技術(shù)的發(fā)展,各種數(shù)據(jù)快速積累。商業(yè)用戶(hù)希望 從中獲取有價(jià)值的信息,輔助各種商業(yè)決策。其中,如何根據(jù)業(yè)務(wù)需求, 形成數(shù)據(jù)標(biāo)簽,是其中最核心部分之一?;救蝿?wù)為:(1)對(duì)于多網(wǎng)絡(luò)渠道的數(shù)據(jù),研究數(shù)據(jù)的有效及清晰的整合方式;(2)綜合專(zhuān)家知識(shí)及機(jī)器學(xué)習(xí)技術(shù),形成面向垂直領(lǐng)域的標(biāo)準(zhǔn)營(yíng)銷(xiāo)數(shù) 據(jù)標(biāo)簽系統(tǒng);(3)形成一套可基本自動(dòng)化的商品標(biāo)簽化的軟件?;疽鬄椋?1)熟悉 Jav
2、a、Python;(2)熟悉相關(guān)的機(jī)器學(xué)習(xí)技術(shù);開(kāi)始日期完成日期院長(zhǎng)(簽字) 年月日注:本任務(wù)書(shū)一式兩份,一份交學(xué)院,一份學(xué)生自己保存。二、主要參考書(shū)目(資料)1https:/ Harrington 著;李銳,李鵬,曲亞?wèn)|,王斌 譯. 機(jī)器學(xué)習(xí)實(shí)戰(zhàn). 人民郵電出版社, 2013.3機(jī)器學(xué)習(xí). 周志華著. 清華大學(xué)出版社,20164Python for Data Analysis . Wes McKinney 著. OReilly Media,20125美 Michael Milton 著; 李芳 譯. 深入淺出數(shù)據(jù)分析, 電子工業(yè)出版社,20096SciPy and NumPy . Eli B
3、ressert 著. OReilly Media, 20127統(tǒng)計(jì)學(xué)習(xí)方法. 李航 著. 清華大學(xué)出版社,2012三、主要儀器設(shè)備及材料硬件:計(jì)算機(jī)一臺(tái)、服務(wù)器軟件:eclipse、pycharm、hadoop 等四、教師的指導(dǎo)安排情況(場(chǎng)地安排、指導(dǎo)方式等)學(xué)生在學(xué)院安排的機(jī)房上機(jī),每周通過(guò)電子郵件匯報(bào)工作進(jìn)展。每周師生見(jiàn)面一次, 確定下一步工作目標(biāo)。平時(shí)的問(wèn)題可以通過(guò)電子郵件和電話(huà)隨時(shí)溝通解決。五、對(duì)計(jì)劃的說(shuō)明如果遇到特殊情況,可適當(dāng)調(diào)整此計(jì)劃。注:本計(jì)劃一式兩份,一份交學(xué)院,一份學(xué)生自己保存(計(jì)劃書(shū)雙面打印)摘要摘要隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)中的商品信息和交易過(guò)程中產(chǎn)生了海量的數(shù)據(jù),如何
4、合理組織這些數(shù)據(jù)就成了一個(gè)難題,而電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)可以解決這個(gè)問(wèn)題。該系統(tǒng)從電子商務(wù)平臺(tái)上獲取相應(yīng)的數(shù)據(jù),通過(guò)數(shù)據(jù)分析處理技術(shù),然后生成一系列有價(jià)值的標(biāo)簽,它具有一定的現(xiàn)實(shí)意義。本文基于京東平臺(tái)實(shí)現(xiàn)了從數(shù)據(jù)采集到標(biāo)簽系統(tǒng)建立的一系列過(guò)程,主要分為以下的過(guò)程:1、實(shí)現(xiàn)了基于 scrapy 框架的爬蟲(chóng)程序,克服了眾多的反爬蟲(chóng)機(jī)制,實(shí)現(xiàn)了整個(gè)京東平臺(tái)的數(shù)據(jù)采集工作。2、完成了包括“搜索熱詞分詞工具”、“品牌統(tǒng)一工具”、“細(xì)分市場(chǎng)劃分工具” 等工具來(lái)確保數(shù)據(jù)的質(zhì)量,實(shí)現(xiàn)流程化操作。3、對(duì)于商品信息中最重要的評(píng)論分析處理,提出了基于語(yǔ)法依賴(lài)的傳播算法,結(jié)合一系列降噪方法得到了合理的“特征-觀點(diǎn)詞”標(biāo)
5、簽組合,并在提取過(guò)程中給“觀點(diǎn)詞” 標(biāo)注了情感傾向。之后,本文使用了k-means 聚類(lèi),將為數(shù)不少的“特征-觀點(diǎn)詞”標(biāo)簽聚類(lèi),得到了最有代表性的評(píng)論標(biāo)簽并根據(jù)其各自的貢獻(xiàn)值進(jìn)行了排序。實(shí)驗(yàn)結(jié)果表明,數(shù)據(jù)采集質(zhì)量高、評(píng)論的分析提取效果好、情感傾向標(biāo)注準(zhǔn)確率高。最后,將前期處理的所有的標(biāo)簽進(jìn)行了整合,得到了完整的電子商務(wù)標(biāo)簽系統(tǒng)。關(guān)鍵詞: scrapy 爬蟲(chóng)傳播算法情感傾向標(biāo)注k-means 聚類(lèi)ABSTRACTABSTRACTWith the development of the Internet, commodity information and transactions from e-
6、commerce generates a lot of data. How to organize these data has become a difficult problem, and e-commerce data tag system can solve this problem. The system obtain the appropriate data from the e-commerce platform, through data analysis and processing technology, and then generate a series of valu
7、able labels, it has a certain practical significance. Based on the Jingdong platform, this paper realizes a series of processes from data acquisition to tagging system, which are divided into the following processes:1. This paper achieves the scrapy framework based on the crawler program, overcomes
8、the many anti-reptile mechanism, achieves the entire Jingdong platform data collection.2. This paper completes some tools, including search hot word word tool, brand unified tool, market segmentation tools, to ensure the quality of the data and achieve process operation.3. In the process of analyzin
9、g and dealing the most important comments in commodity information, a propagation algorithm based on grammatical dependence is proposed. A series of noise reduction methods are used to get a reasonable combination of feature-opinion word tags, and mark opinion words the emotional tendencies. Later,
10、with the use of k-means clustering, a large number of feature-opinion words tags will be clustered, and the most representative comment labels are obtained and sorted according to their respective contribution values.The experimental results show that the data acquisition quality is high, the evalua
11、tion results are good and the emotion tendency is high. Finally, the pre-processing of all the labels were integrated, get a complete e-commerce label system.key words: Crawler based on scrapyPropagation algorithmEmotional tendencies K-means clustering目錄i目錄第第一一章章緒論緒論.11.1課題研究的背景和意義.11.2標(biāo)簽系統(tǒng)的研究與應(yīng)用現(xiàn)狀.
12、21.3本文的主要研究?jī)?nèi)容.31.4本文的結(jié)構(gòu).3第第二二章章網(wǎng)絡(luò)爬網(wǎng)絡(luò)爬蟲(chóng)蟲(chóng)簡(jiǎn)介與設(shè)計(jì)簡(jiǎn)介與設(shè)計(jì).52.1網(wǎng)絡(luò)爬蟲(chóng)類(lèi)型.52.2網(wǎng)頁(yè)搜索策略.62.3 反爬蟲(chóng)措施及應(yīng)對(duì)方法.72.4 結(jié)合實(shí)際情況的爬蟲(chóng)設(shè)計(jì).82.5 爬蟲(chóng)實(shí)現(xiàn)過(guò)程中所使用的工具以及語(yǔ)言.112.6 關(guān)于爬蟲(chóng)的一些思考.11第第三三章章評(píng)論特評(píng)論特征征提取提取.133.1評(píng)論標(biāo)簽的重要性及表現(xiàn)形式.133.2觀點(diǎn)詞提取及情感分析.133.3 基于語(yǔ)法依賴(lài)的傳播算法.14ii目錄3.4 觀點(diǎn)詞情感傾向判斷.183.5 噪聲剪枝策略.203.6 結(jié)果的聚類(lèi)及排序.20第第四四章章標(biāo)簽系標(biāo)簽系統(tǒng)統(tǒng)的設(shè)計(jì)實(shí)的設(shè)計(jì)實(shí)現(xiàn)現(xiàn)和分析和分析.2
13、34.1 標(biāo)簽系統(tǒng)的設(shè)計(jì).234.2 爬蟲(chóng)部分實(shí)現(xiàn)過(guò)程中所遇難題及解決方法.234.3數(shù)據(jù)爬蟲(chóng)實(shí)驗(yàn)結(jié)果.254.4標(biāo)簽系統(tǒng)提取實(shí)驗(yàn)結(jié)果.264.5 流程化工具介紹.294.6 不足與改進(jìn)方法的思考.35第第五五章章總結(jié)與總結(jié)與展展望望.375.1 本文總結(jié).375.2 工作展望.38致致謝謝.39參參考考文獻(xiàn)文獻(xiàn).41第一章緒論1第一章緒論1.1課題研究的背景和意義互聯(lián)網(wǎng)時(shí)代一個(gè)明顯的特點(diǎn)是交易方式的轉(zhuǎn)變。以京東、淘寶、國(guó)美等電商平臺(tái)為代表的電子商務(wù)已經(jīng)介入了人們生活的方方面面。如今人手一個(gè)手機(jī),隨時(shí)隨地都可在網(wǎng)絡(luò)店鋪上購(gòu)買(mǎi)商品,同時(shí)信息透明價(jià)格的比對(duì)輕而易舉,售后保障也愈加完善,對(duì)于當(dāng)前社會(huì)
14、忙碌的人們來(lái)說(shuō),網(wǎng)購(gòu)是個(gè)非常有利的選擇;另一方面,對(duì)于賣(mài)家,實(shí)體店租金連年上漲,導(dǎo)致了許多實(shí)體店主不堪重負(fù),也逐漸加入到電商平臺(tái)中來(lái)維持經(jīng)營(yíng)。由此可見(jiàn),電商交易的方式已經(jīng)成為一種社會(huì)趨勢(shì)。而這也導(dǎo)致了與此相關(guān)的電商數(shù)據(jù),正以指數(shù)級(jí)別的速度累積。這種新興趨勢(shì)是前所未有的,因此買(mǎi)家和賣(mài)家也遇到了一些疑惑和難題。買(mǎi)家的問(wèn)題相對(duì)簡(jiǎn)單,每個(gè)人都有作為買(mǎi)家的經(jīng)歷:面對(duì)如此繁雜的商品,如何根 據(jù)自己的需求來(lái)找到最合適自己的商品?如何對(duì)比這些候選商品的性?xún)r(jià)比,來(lái)幫助自己 的購(gòu)物,從而能夠物有所值?而賣(mài)家的問(wèn)題,則更加復(fù)雜、寬泛一些:自己的商品的反 響不佳,原因在何處?現(xiàn)在市面上類(lèi)似的商品為什么受歡迎?如何定位
15、自己商品的缺點(diǎn), 來(lái)改進(jìn)自己的商品從而達(dá)到他們那樣的效果?基于什么來(lái)指導(dǎo)雙方,特別是賣(mài)家的問(wèn)題呢?當(dāng)然是電商交易過(guò)程中產(chǎn)生的數(shù)據(jù), 數(shù)據(jù)是真實(shí)的、脫離主觀臆測(cè)的。所以現(xiàn)在的重點(diǎn)就是如何來(lái)獲取并且處理這些規(guī)模龐大的數(shù)據(jù)。獲取數(shù)據(jù)的方法有很多,比如第三方網(wǎng)站、爬蟲(chóng)獲取數(shù)據(jù)、向目標(biāo)平臺(tái)購(gòu)買(mǎi)等方式均可,而最滿(mǎn)足個(gè)性化需求且成本合適的首選當(dāng)然是網(wǎng)絡(luò)爬蟲(chóng)。而為了解決以上提出的問(wèn)題,單一的數(shù)據(jù)處理方式,僅能解一時(shí)之急,建立一個(gè)完整的數(shù)據(jù)處理系統(tǒng)顯然是更為目光長(zhǎng)遠(yuǎn)的選擇,本文的目的就是生成一個(gè)電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)。完成這樣一個(gè)系統(tǒng)后,以上的問(wèn)題都可以用該系統(tǒng)的一個(gè)標(biāo)簽或者將系統(tǒng)的某些標(biāo)簽進(jìn)行一定的處理得到解決
16、。而本文看重的不止是這一點(diǎn),賣(mài)家的需求千奇百怪,未來(lái)的市場(chǎng)瞬息萬(wàn)變,形成一套自洽的、拓展性高的數(shù)據(jù)系統(tǒng)才能緊跟社會(huì)浪潮。2電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)1.2標(biāo)簽系統(tǒng)的研究與應(yīng)用現(xiàn)狀標(biāo)簽系統(tǒng)的應(yīng)用場(chǎng)景極廣,但是它通常作為各類(lèi)學(xué)科的輔助工具出現(xiàn),而不是研究的主體。比如經(jīng)濟(jì)學(xué)方面,李?lèi)?ài)梅等利用標(biāo)簽研究情緒認(rèn)知對(duì)消費(fèi)決策的影響1;在計(jì)算機(jī)科學(xué)方面,Wang 等提出的用于軟件信息站點(diǎn)的增強(qiáng)型標(biāo)簽推薦系統(tǒng)2;在信息管理方面,更是標(biāo)簽系統(tǒng)的應(yīng)用最后的場(chǎng)景之一,比如姜婷婷的社會(huì)性標(biāo)簽系統(tǒng)的信息搜尋3。由以上的研究可以得到,標(biāo)簽系統(tǒng)絕對(duì)是一項(xiàng)輔助研究的利器,然而遺憾的是, 在電商商務(wù)方面還未有類(lèi)似的研究來(lái)指
17、導(dǎo)本文的工作,因此,這里來(lái)描述一下電子商務(wù)標(biāo)簽系統(tǒng)現(xiàn)在的應(yīng)用現(xiàn)狀:作為商品目錄:京東、淘寶等平臺(tái)首頁(yè)的目錄都是類(lèi)似的普遍為三層,行業(yè)層層細(xì)化,實(shí)際上這個(gè)目錄就是標(biāo)簽層次化的應(yīng)用,根據(jù)這個(gè)層次化標(biāo)簽結(jié)構(gòu),大多數(shù)用戶(hù)尋找自己想要內(nèi)容的過(guò)程中都沒(méi)費(fèi)太大的勁,這就證明,這種應(yīng)用是非常有效的;作為商品屬性:點(diǎn)開(kāi)一個(gè)商品的詳細(xì)介紹,往往可以找到一些類(lèi)似表格的參數(shù)集合, 里面的內(nèi)容詳細(xì)列出商品的各種參數(shù),這也是一類(lèi)標(biāo)簽。使用它,可以使商品的描述更加簡(jiǎn)潔系統(tǒng);作為商品推薦:商品推薦系統(tǒng)的標(biāo)簽通常是不可見(jiàn)的,但是以它為基礎(chǔ)的應(yīng)用大家都不會(huì)陌生。相關(guān)的應(yīng)用會(huì)根據(jù)你以往購(gòu)買(mǎi)記錄,或者收集你現(xiàn)在瀏覽商品的標(biāo)簽,進(jìn)行一
18、些相似性匹配,從而達(dá)到推薦的效果;作為評(píng)論提綱:用戶(hù)在瀏覽商品的評(píng)論時(shí),可以在評(píng)論上方看到一些總結(jié)性的標(biāo)簽, 比如“外觀好看”、“一般般”等,這些都是對(duì)評(píng)論進(jìn)行分析提取后得到的標(biāo)簽,本文后續(xù)章節(jié)也會(huì)提出一種提取該標(biāo)簽的方法。以上都是常見(jiàn)的場(chǎng)景。除此之外,還有一些電子商務(wù)數(shù)據(jù)標(biāo)簽潛移默化地為買(mǎi)家提供方便的場(chǎng)景,比如用作商品分類(lèi)、輔助搜索匹配商品等等。還有一些不常見(jiàn)的、個(gè)性化的面向商家的標(biāo)簽系統(tǒng),來(lái)表明市場(chǎng)的熱點(diǎn),市場(chǎng)產(chǎn)品評(píng)價(jià)統(tǒng)計(jì)標(biāo)簽等等。在我們自覺(jué)或不自覺(jué)中,電子商務(wù)數(shù)據(jù)標(biāo)簽早已經(jīng)開(kāi)始影響我們的生活方式。因此可見(jiàn),本文要實(shí)現(xiàn)的電子商務(wù)標(biāo)簽系統(tǒng)的作用是巨大的,并且可以為進(jìn)一步的延伸需求提供強(qiáng)有力的
19、幫助。第一章緒論31.3本文的主要研究?jī)?nèi)容本文希望從零開(kāi)始,進(jìn)行一系列類(lèi)似編寫(xiě)爬蟲(chóng)獲取數(shù)據(jù)、數(shù)據(jù)質(zhì)量保證處理、構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)倉(cāng)庫(kù)、構(gòu)建標(biāo)簽系統(tǒng)、大數(shù)據(jù)技術(shù)分析文本數(shù)據(jù)、書(shū)寫(xiě)流程工具等等工作,從而得到一個(gè)達(dá)到工業(yè)基本要求的標(biāo)簽系統(tǒng)。以下是部分細(xì)節(jié)內(nèi)容。數(shù)據(jù)獲取,研究并自主完成一個(gè)平臺(tái)幾乎所有商品信息數(shù)據(jù)的爬蟲(chóng)工具,克服獲取數(shù)據(jù)過(guò)程所遇到的種種問(wèn)題;質(zhì)量保證,根據(jù)需要將獲取的數(shù)據(jù)進(jìn)行一些處理,確保數(shù)據(jù)達(dá)到使用標(biāo)準(zhǔn),并編寫(xiě)一些流程化處理工具,方便操作;數(shù)據(jù)倉(cāng)庫(kù),構(gòu)建一個(gè)較完善的數(shù)據(jù)庫(kù)系統(tǒng),標(biāo)準(zhǔn)化存儲(chǔ)各種數(shù)據(jù)內(nèi)容,方便數(shù)據(jù)分析處理;文本分析,分析以商品評(píng)論為主的大量文本內(nèi)容,使用大數(shù)據(jù)技術(shù),提取評(píng)論中的
20、商品屬性-觀點(diǎn)詞組合;標(biāo)簽系統(tǒng),構(gòu)建一個(gè)盡量完善的標(biāo)簽系統(tǒng),使之包括商品各個(gè)角度的信息。1.4本文的結(jié)構(gòu)本文從工程與算法角度對(duì)如何制作一個(gè)電子商務(wù)標(biāo)簽系統(tǒng)進(jìn)行了詳細(xì)的描述,包括工程問(wèn)題如何解決、算法詳解以及最后的標(biāo)簽系統(tǒng)、處理工具展示。本文除了第一章的緒論外,還包括以下的內(nèi)容:第二章:網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介與設(shè)計(jì)。介紹爬蟲(chóng)的基本原理、網(wǎng)頁(yè)搜索策略、反爬蟲(chóng)措施及應(yīng)對(duì)方法,本論文爬蟲(chóng)的設(shè)計(jì)說(shuō)明,最后是關(guān)于爬蟲(chóng)的一些思考。第三章:評(píng)論特征提取。介紹了評(píng)論標(biāo)簽的形式、觀點(diǎn)詞提取及情感分析,著重講解了“特征-觀點(diǎn)詞”關(guān)聯(lián)識(shí)別、觀點(diǎn)詞極性判斷,最后提到了剪枝策略、結(jié)果的精煉排序。第四章:標(biāo)簽系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)和分析。描
21、述了標(biāo)簽系統(tǒng)的設(shè)計(jì)、實(shí)現(xiàn)爬蟲(chóng)過(guò)程中所遇問(wèn)題及解決方法、爬蟲(chóng)的實(shí)驗(yàn)結(jié)果,接著是標(biāo)簽系統(tǒng)結(jié)果的展示、流程化工具的介紹, 之后是反思不足、改進(jìn)方法的思考。第五章:總結(jié)與展望。簡(jiǎn)述全文工作,以及思考進(jìn)一步的研究?jī)?nèi)容。第二章網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介與設(shè)計(jì)5第二章網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介與設(shè)計(jì)本文要實(shí)現(xiàn)的不是單一類(lèi)型的爬蟲(chóng),同時(shí)對(duì)比使用了更為合理的搜索策略,為了詮釋其合理性,這里首先來(lái)介紹相關(guān)知識(shí)。2.1網(wǎng)絡(luò)爬蟲(chóng)類(lèi)型隨著網(wǎng)絡(luò)的發(fā)展,萬(wàn)維網(wǎng)承載了巨量的信息,而信息本身也承載著巨大的價(jià)值,于是為了獲取萬(wàn)維網(wǎng)承載信息的網(wǎng)絡(luò)爬蟲(chóng)就應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲(chóng)(web crawler),也叫網(wǎng)絡(luò)蜘蛛(spider),是一種利用HTTP 協(xié)議來(lái)獲取
22、Web 信息的網(wǎng)絡(luò)程序。如今網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用已經(jīng)十分成熟。同時(shí),由于不同的需求,網(wǎng)絡(luò)爬蟲(chóng)也延伸出多種類(lèi)型。通用網(wǎng)絡(luò)爬蟲(chóng):它又被稱(chēng)為全網(wǎng)爬蟲(chóng)(Scalable Web Crawler),爬取的對(duì)象是整個(gè)Web,沒(méi)有特定目標(biāo),由初始 URL 開(kāi)始獲取,獲取網(wǎng)頁(yè)信息,并且在這個(gè)過(guò)程中不斷抽取新的URL,層層深入,直到滿(mǎn)足特定的情況才停止4。在互聯(lián)網(wǎng)早期,以這類(lèi)爬蟲(chóng)為主。聚焦網(wǎng)絡(luò)爬蟲(chóng):由于網(wǎng)絡(luò)上數(shù)據(jù)量的不斷增多,對(duì)于特定人群的需求,通用網(wǎng)絡(luò)爬蟲(chóng)顯得太多于臃腫,獲取的信息包含著此人群不關(guān)心的內(nèi)容,且數(shù)量巨大,由此聚焦網(wǎng)絡(luò)爬蟲(chóng)(Focused Crawler)應(yīng)運(yùn)而生,它有著特定的目標(biāo)主題和對(duì)象,通過(guò)對(duì)網(wǎng)頁(yè)
23、或數(shù)據(jù)的分析與過(guò)濾使得到的內(nèi)容也更加細(xì)致化,滿(mǎn)足特定領(lǐng)域人群的需求5;增量式網(wǎng)絡(luò)爬蟲(chóng)6:為了實(shí)時(shí)跟進(jìn)最新的消息,并且減少無(wú)意義的重復(fù)獲取,增量式網(wǎng)絡(luò)爬蟲(chóng)(Incremental Web Crawler)也應(yīng)運(yùn)而生,這類(lèi)應(yīng)用中一般使用一些方法判斷網(wǎng)頁(yè)的特征值,并將之與原有數(shù)值進(jìn)行比較,從而只獲取數(shù)據(jù)庫(kù)還不存在的內(nèi)容,判斷變化的方法有hash 函數(shù)法,MD5 值法等等;Deep Web 爬蟲(chóng):隨著技術(shù)的發(fā)展,網(wǎng)頁(yè)只需要刷新部分內(nèi)容就能改變內(nèi)容靜態(tài)網(wǎng)頁(yè)成了一個(gè)容器,改變的是動(dòng)態(tài)裝載的內(nèi)容,這也導(dǎo)致了這些資源無(wú)法被傳統(tǒng)的方法獲取,于是與之相對(duì)的Deep Web 爬蟲(chóng)出現(xiàn)了,它致力于獲取網(wǎng)頁(yè)動(dòng)態(tài)加載的深
24、層內(nèi)容7。以往的獲取方式只能獲取到靜態(tài)網(wǎng)頁(yè),對(duì)于動(dòng)態(tài)加載的信息資源將無(wú)能為力,而動(dòng)態(tài)網(wǎng)頁(yè)使用卻是一個(gè)發(fā)展的趨勢(shì),因?yàn)樵摷夹g(shù)的出現(xiàn)與應(yīng)用是大勢(shì)所趨的,成為了一個(gè)任何學(xué)習(xí)爬蟲(chóng)的人必學(xué)的內(nèi)容。電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)62.2網(wǎng)頁(yè)搜索策略網(wǎng)頁(yè)搜索策略可以簡(jiǎn)單的被分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種8。其中,深度優(yōu)先隨著網(wǎng)頁(yè)深度的不斷加劇,已經(jīng)很少使用。廣度優(yōu)先和最佳優(yōu)先方法是目前最常用的。2.2.1 深度優(yōu)先搜索深度優(yōu)先搜索,這些搜索策略初始都是一致的,不同的是選擇下一個(gè)鏈接的方式, 深度優(yōu)先選擇的是 URL 池中最新加入的鏈接,也就是“?!钡姆绞?。它會(huì)處理完一條路線(xiàn)后再繼續(xù)另一條路線(xiàn)9。該方
25、法設(shè)計(jì)簡(jiǎn)單,在最初互聯(lián)網(wǎng)環(huán)境較簡(jiǎn)單時(shí),網(wǎng)頁(yè)深度較淺、網(wǎng)頁(yè)簡(jiǎn)單的場(chǎng)景下,使用較多。但在如今的應(yīng)用場(chǎng)景中,龐大的數(shù)據(jù)量、繁雜的網(wǎng)頁(yè)、不規(guī)范的廣告等等復(fù)雜的場(chǎng)景,這些因素共同導(dǎo)致了單條路線(xiàn)將會(huì)極其深入,往往會(huì)陷入其中,無(wú)法再?gòu)倪@條路線(xiàn)中出來(lái)。另一方面,深度越深,當(dāng)前信息與最開(kāi)始的目標(biāo)差異越大,也就意味著它的價(jià)值往往越小。因此如今使用深度優(yōu)先搜索往往不可行或者得不償失的。2.2.2 廣度優(yōu)先搜索廣度優(yōu)先搜索,它在完成當(dāng)前層次所有搜索之后,才進(jìn)行下一層次的搜索,直到搜索到被指定的層次為止即選擇先進(jìn)入 URL 池的鏈接,是“隊(duì)列”的方式。該策略會(huì)優(yōu)先覆蓋淺層的網(wǎng)頁(yè),這些是價(jià)值最高的;同時(shí)它還能在兩個(gè)網(wǎng)頁(yè)文
26、件中找到最短路徑。它的缺點(diǎn)是,隨著抓取的網(wǎng)頁(yè)變多,無(wú)用信息被獲取的幾率越大,會(huì)降低算法的效率。這是被使用較多的一種策略。2.2.3 最佳優(yōu)先搜索最佳優(yōu)先搜索,它會(huì)使用一個(gè)預(yù)測(cè)函數(shù),來(lái)分析候選鏈接的內(nèi)容與所需要目標(biāo)的差 異程度,對(duì)比每個(gè)候選 URL 的表現(xiàn)值,選取其中數(shù)值最優(yōu)的幾個(gè) URL 進(jìn)行爬取10。這種策略可以保證爬蟲(chóng)能優(yōu)先爬取較有價(jià)值的信息頁(yè)面。然而它是一種局部最優(yōu)搜索算法, 根據(jù)不同的優(yōu)先目標(biāo)函數(shù),它可能會(huì)忽略許多相關(guān)的網(wǎng)頁(yè),甚至?xí)雎砸恍┲匾男畔?。它的特點(diǎn)也決定了它只關(guān)心某一特定主題的內(nèi)容。在實(shí)際應(yīng)用中,需要對(duì)它進(jìn)行改進(jìn), 來(lái)幫助它跳出局部最優(yōu)的情況,獲取更多有價(jià)值的信息。第二章網(wǎng)
27、絡(luò)爬蟲(chóng)簡(jiǎn)介與設(shè)計(jì)72.3反爬蟲(chóng)措施及應(yīng)對(duì)方法之所以提到這一部分是因?yàn)榕c反爬蟲(chóng)機(jī)制的博弈占據(jù)了爬蟲(chóng)編寫(xiě)實(shí)現(xiàn)的一大部分任務(wù)??梢哉f(shuō)這是其中最具有挑戰(zhàn)性的任務(wù):在一次次試探中,找到對(duì)應(yīng)的反爬蟲(chóng)機(jī)制, 然后設(shè)計(jì)方案?jìng)窝b自己的訪(fǎng)問(wèn),通過(guò)對(duì)應(yīng)的防線(xiàn)。成熟的電商平臺(tái)都有著反爬蟲(chóng)措施,但是網(wǎng)站是面向公眾的,這一性質(zhì)導(dǎo)致反爬蟲(chóng)措施處于天然的劣勢(shì)地位,它在應(yīng)用場(chǎng)景中只能起到部分作用,不可能達(dá)到絕對(duì)禁絕爬蟲(chóng)的效果的。以下是一些普遍的措施以及相應(yīng)的應(yīng)對(duì)方法,由簡(jiǎn)單到復(fù)雜11?;赨ser-Agent:瀏覽器的訪(fǎng)問(wèn)請(qǐng)求都帶著各自的瀏覽器標(biāo)識(shí),一些知名的搜索引擎會(huì)在這個(gè)字段里加入自身的身份信息,使得服務(wù)器能夠準(zhǔn)確識(shí)別身份
28、。入門(mén)級(jí)爬蟲(chóng)可能會(huì)忽略這種信息。應(yīng)對(duì):非常簡(jiǎn)單,帶上User-Agent。基于動(dòng)態(tài)網(wǎng)頁(yè):如今網(wǎng)頁(yè)上的內(nèi)容許多都是動(dòng)態(tài)填充的,直接獲取目標(biāo)網(wǎng)頁(yè)只能得到一個(gè)框架,而得不到實(shí)質(zhì)的內(nèi)容,并且有些 ajax 請(qǐng)求需要提供一些參數(shù),服務(wù)器才會(huì)響應(yīng)。這些內(nèi)容都是通過(guò)另外隱藏的鏈接來(lái)訪(fǎng)問(wèn)的。應(yīng)對(duì):進(jìn)入瀏覽器調(diào)試模式,逐條查看加載項(xiàng)內(nèi)容以及它們需要提交的參數(shù)。基于 headers:headers 是瀏覽器訪(fǎng)問(wèn)必定會(huì)帶上的一些信息,這些信息雖然不會(huì)完全相同,但是有著一定的規(guī)律。服務(wù)器可以選擇 headers 中某字段作為門(mén)檻,這些信息可以是用戶(hù)名、密碼,也可以是變化的信息,如時(shí)間戳等;還可以檢測(cè)違法的 heade
29、rs 的訪(fǎng)問(wèn)進(jìn)行封鎖。若是這部分運(yùn)用得合理,可以攔截一大批爬蟲(chóng)。應(yīng)對(duì):了解 headers 中各種字段的必要性以及對(duì)應(yīng)的含義,進(jìn)行模擬?;?IP 限制:爬蟲(chóng)特別是一些簡(jiǎn)單粗暴的爬蟲(chóng),對(duì)于服務(wù)器帶來(lái)的困擾主要是其沒(méi)有節(jié)制的訪(fǎng)問(wèn),會(huì)造成類(lèi)似“拒絕服務(wù)”攻擊的后果。對(duì)此,服務(wù)器采取的方式是: 對(duì)單個(gè) IP 進(jìn)行訪(fǎng)問(wèn)統(tǒng)計(jì),并對(duì)超過(guò)訪(fǎng)問(wèn)頻率閾值的 IP 予以封鎖。應(yīng)對(duì):使用代理 IP?;谟脩?hù)行為:這是最有力度的反爬蟲(chóng)措施,通過(guò)大數(shù)據(jù)統(tǒng)計(jì)正常用戶(hù)的行為,并以此設(shè)限,禁止不正常的訪(fǎng)問(wèn)請(qǐng)求,這是目前最為靈活、有效的措施。應(yīng)對(duì):沒(méi)有具體的應(yīng)對(duì),只能通過(guò)多次的訪(fǎng)問(wèn)試探來(lái)尋找“禁止”和“非禁止”之間的紅線(xiàn),讓自
30、己的爬蟲(chóng)在紅線(xiàn)之上活動(dòng)。就目前反爬蟲(chóng)技術(shù)水平來(lái)說(shuō),經(jīng)常改變代理 IP,再結(jié)合一些基本的 headers、用戶(hù)行為等配置的方式,是無(wú)法限制其訪(fǎng)問(wèn)的。電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)82.4結(jié)合實(shí)際情況的爬蟲(chóng)設(shè)計(jì)本文爬蟲(chóng)所要達(dá)到的目的是:在保證數(shù)據(jù)的時(shí)效性的前提下,盡可能簡(jiǎn)單、規(guī)范地采集全平臺(tái)數(shù)據(jù)。其中,數(shù)據(jù)的實(shí)時(shí)性決定了數(shù)據(jù)價(jià)值的高低,并且電商平臺(tái)的數(shù)據(jù)更新速度極快,因此要完成一個(gè)較為實(shí)用的爬蟲(chóng),其增量式功能是不可或缺的。為了簡(jiǎn)化爬蟲(chóng)的實(shí)現(xiàn),這里使用了scrapy 作為框架。2.4.1 增量式更新策略樸素的更新策略12:這是最簡(jiǎn)單的更新策略,即周期、重復(fù)地爬取所有內(nèi)容,對(duì)比本地?cái)?shù)據(jù)副本與實(shí)時(shí)數(shù)據(jù)
31、的差別,更新其中發(fā)生變化的數(shù)據(jù)。這種樸素的更新策略,優(yōu)點(diǎn)是簡(jiǎn)單、可靠,適用于數(shù)據(jù)可靠性較高的場(chǎng)景;缺點(diǎn)是,當(dāng)數(shù)據(jù)量過(guò)大時(shí),在同等資源條件下,其往往無(wú)法在一個(gè)周期內(nèi)更新完所有數(shù)據(jù)。基于采樣的更新策略12:在可靠性要求不高的情況下,使用的都是該方法。該方法在一個(gè)新的周期里,隨機(jī)選擇、選擇經(jīng)常更新的內(nèi)容進(jìn)行采集,并與數(shù)據(jù)庫(kù)中的內(nèi)容進(jìn)行比對(duì)。在多個(gè)數(shù)據(jù)源的情況下,使用查詢(xún)queryi 查詢(xún)數(shù)據(jù)庫(kù) Si 的代價(jià)為:cos t(query , S ) count(queryi , Si ) iin式(2-1)2.4.2 檢測(cè)更新的方法基于hash 函數(shù):這是一種簡(jiǎn)單、常用的方法,效果基本能達(dá)預(yù)期。獲取整個(gè)
32、網(wǎng)頁(yè)到本地后,計(jì)算其 hash 值前后比對(duì)來(lái)判斷其是否更新13。然而該方法并不是絕對(duì)可靠的, 長(zhǎng)字符串的hash 值會(huì)出現(xiàn)“碰撞”的情況,因此它不適合可靠性需求高的場(chǎng)合?;?MD5 算法:該方法一般用于判斷文件是否被篡改,它與基于 hash 函數(shù)的方法沒(méi)有本質(zhì)區(qū)別。去噪判斷法14:網(wǎng)頁(yè)維護(hù)時(shí),經(jīng)常會(huì)發(fā)生網(wǎng)頁(yè)格式的變化,但內(nèi)容卻還是一致的情況。這會(huì)造成以上兩種方法的誤判。去噪判斷的方法就是去掉其中與所需信息無(wú)關(guān)的類(lèi)似 /br 的標(biāo)簽內(nèi)容、或提取出關(guān)鍵性信息后再進(jìn)行判斷。以上的方法,簡(jiǎn)而言之,實(shí)際上都是字符串內(nèi)容對(duì)比的方法。第二章網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介與設(shè)計(jì)92.4.3 基于scrapy 框架爬蟲(chóng)的優(yōu)勢(shì)s
33、crapy 由單詞 scratch(抓?。?變種而來(lái),它僅是一個(gè)框架而不是一個(gè)類(lèi)似“八爪魚(yú)” 的成熟產(chǎn)品。不需要編程的通用爬蟲(chóng)產(chǎn)品早已面世,然而使用它的代價(jià)就是根據(jù)網(wǎng)頁(yè)環(huán)境的不同降低所獲取數(shù)據(jù)的質(zhì)量。對(duì)于一些高要求的數(shù)據(jù)分析來(lái)說(shuō),后續(xù)數(shù)據(jù)質(zhì)量篩選的工作將會(huì)更加繁重,這是得不償失的;另一方面,一些反爬蟲(chóng)機(jī)制,如果沒(méi)有特殊的偽裝方法,這些產(chǎn)品是無(wú)法獲取到數(shù)據(jù)的。那么基于scrapy 框架到底有哪些優(yōu)勢(shì)呢?簡(jiǎn)化多線(xiàn)程爬取:多線(xiàn)程是提高爬蟲(chóng)速度、提高效率、提高資源利用率的一個(gè)利器,scrapy 框架改編了傳統(tǒng)的訪(fǎng)問(wèn)函數(shù),使得多線(xiàn)程訪(fǎng)問(wèn)變得簡(jiǎn)單。簡(jiǎn)化爬蟲(chóng)配置:對(duì)于自己編寫(xiě)的爬蟲(chóng)來(lái)說(shuō),一些必要的配置會(huì)顯得
34、比較麻煩,比如線(xiàn)程數(shù)限制、超時(shí)訪(fǎng)問(wèn)時(shí)間、http 緩存等功能都可以通過(guò)一個(gè)配置文件簡(jiǎn)單配置。簡(jiǎn)化數(shù)據(jù)處理:與數(shù)據(jù)庫(kù)的交互都被集成在框架里,使用者只需要配置數(shù)據(jù)庫(kù)的連接以及編寫(xiě)一個(gè)數(shù)據(jù)庫(kù)輸入的模板函數(shù)即可。以上的優(yōu)點(diǎn)只是使用scrapy 框架所帶來(lái)眾多優(yōu)勢(shì)中的最顯著的幾個(gè),同時(shí)也不必拘泥于這些功能,可以通過(guò)自定義來(lái)完成自身需求??偠灾褂迷摽蚣芸梢蕴嵘_(kāi)發(fā)爬蟲(chóng)的速度、爬蟲(chóng)的可靠性,同時(shí)不影響數(shù)據(jù)質(zhì)量。2.4.4 爬蟲(chóng)的流程及圖示為了系統(tǒng)地、規(guī)范的獲取全平臺(tái)的數(shù)據(jù),必須將爬蟲(chóng)結(jié)構(gòu)化,并設(shè)計(jì)出一種可控的、標(biāo)準(zhǔn)的方式來(lái)實(shí)現(xiàn)它。經(jīng)過(guò)詳細(xì)觀察,京東平臺(tái)的數(shù)據(jù)是以層次化的結(jié)構(gòu)安排數(shù)據(jù)的, 因此本文對(duì)該爬
35、蟲(chóng)獲取數(shù)據(jù)部分做出了以下設(shè)計(jì):1)獲取京東平臺(tái)的層次結(jié)構(gòu)目錄;2)根據(jù)層次化目錄層層深入,直至獲取行業(yè)細(xì)分市場(chǎng)的商品瀏覽頁(yè);3)獲取商品瀏覽頁(yè)中的商品唯一標(biāo)識(shí)ID,存入數(shù)據(jù)庫(kù)中;4)根據(jù)商品ID,生成對(duì)應(yīng)URL,訪(fǎng)問(wèn)商品目標(biāo)頁(yè),獲取商品信息;5)根據(jù)商品ID,生成對(duì)應(yīng)URL,訪(fǎng)問(wèn)商品評(píng)論頁(yè),獲取商品評(píng)論;6)步驟 2)到 5)循環(huán),直到層次目錄結(jié)束。以上的流程可以用圖 2.1 表示。獲取數(shù)據(jù)部分加上增量式更新方法共同構(gòu)成了本文需要完成的爬蟲(chóng)整體。電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)10否圖 2.1 爬蟲(chóng)流程圖開(kāi)始瀏覽到最后一頁(yè)否根據(jù)ID獲取商品是信息和評(píng)論, 存儲(chǔ)到DB層次目錄是否結(jié)束是結(jié)束獲取整
36、體層次目錄獲取新的商品瀏覽頁(yè)商品瀏覽頁(yè)翻頁(yè)獲取單個(gè)商品ID,存儲(chǔ)到DB第二章網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介與設(shè)計(jì)112.5爬蟲(chóng)實(shí)現(xiàn)過(guò)程中所使用的工具以及語(yǔ)言表 2.1 爬蟲(chóng)實(shí)現(xiàn)過(guò)程中所使用的工具以及語(yǔ)言類(lèi)目類(lèi)目名稱(chēng)名稱(chēng)描述描述語(yǔ)言python一種面向?qū)ο蟮慕忉屝途幊陶Z(yǔ)言,簡(jiǎn)潔、功能強(qiáng)大,可以方便地實(shí)現(xiàn)爬蟲(chóng)。IDEpycharm一款功能強(qiáng)大的 python 開(kāi)發(fā)工具,存在免費(fèi)版本。爬蟲(chóng)框架scrapy目前最流行的爬蟲(chóng)開(kāi)發(fā)框架之一。數(shù)據(jù)庫(kù)postgreSQL開(kāi)源數(shù)據(jù)庫(kù),性能優(yōu)異,在許多使用細(xì)節(jié)上有許多 mysql 沒(méi)有的優(yōu)點(diǎn)UI 框架tkinterpython 自帶的界面開(kāi)發(fā)框架運(yùn)行基礎(chǔ)Amazon Web Ser
37、vices亞馬遜公司提供的與計(jì)算服務(wù)。交互媒介redis一個(gè)非常快速的非關(guān)系型數(shù)據(jù)庫(kù)2.6關(guān)于爬蟲(chóng)的一些思考爬蟲(chóng)作為一種處于灰色地帶的工具,對(duì)于它的合法性一直是有爭(zhēng)論的。目的不同, 爬蟲(chóng)也可以做不同事情,比如單純的獲取數(shù)據(jù)、掃描 web 漏洞、獲取用戶(hù)信息等等,就像一把刀,作為一個(gè)工具,重要的還是使用它的人。那么,這里就從法律和道德方面進(jìn)行一定的思考。法律方面。如今數(shù)據(jù)是許多大型平臺(tái)的核心競(jìng)爭(zhēng)力。近年來(lái),由于抓取對(duì)方競(jìng)爭(zhēng)平臺(tái)的數(shù)據(jù)而打的官司屢見(jiàn)不鮮,并且被告方敗訴幾率相當(dāng)高,但是依據(jù)的法律并不是直接針對(duì)爬蟲(chóng)的,而是“危害用戶(hù)信息安全”、“不正當(dāng)競(jìng)爭(zhēng)”等商業(yè)法律。目前為止, 沒(méi)有明確的法律禁止爬
38、蟲(chóng),而“法無(wú)禁止即可為”,對(duì)于個(gè)人行為,運(yùn)用爬蟲(chóng),不進(jìn)行損害他人權(quán)益的活動(dòng),即是可行的。電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)12道德方面?,F(xiàn)在對(duì)于爬蟲(chóng)有一些君子協(xié)議“robot.txt”,它上面記錄了允許與不允許爬蟲(chóng)訪(fǎng)問(wèn)的區(qū)域,是否遵守全看爬蟲(chóng)作者本身。作為一個(gè)合法且道德完善的公民,使用爬蟲(chóng)時(shí)要以不損害他人權(quán)益為紅線(xiàn),遵守業(yè)界道德守則,不給目標(biāo)網(wǎng)站造成困擾。第三章評(píng)論特征提取13第三章評(píng)論特征提取3.1評(píng)論標(biāo)簽的重要性及表現(xiàn)形式電子商務(wù)的評(píng)論是消費(fèi)者購(gòu)買(mǎi)商品之后發(fā)表的看法。隨著時(shí)間推移,這些評(píng)論為商品形成了巨大的“在線(xiàn)口碑”,擁有一個(gè)好口碑,甚至決定了個(gè)體商品的生死。由于網(wǎng)絡(luò)購(gòu)物,不能像實(shí)體店那樣
39、親身試用商品,因此用戶(hù)評(píng)論的作用幾乎是決定性的,它傳遞出之前用戶(hù)的感受、情感,對(duì)后來(lái)者的影響巨大15。然而閱讀日益龐大的評(píng)論,對(duì)于消費(fèi)者來(lái)說(shuō)是一種高成本行為。如何將商品評(píng)論中的有價(jià)值信息提取出來(lái)并呈現(xiàn)給消費(fèi)者,已經(jīng)成為了一個(gè)熱門(mén)的研究熱點(diǎn)。與之對(duì)應(yīng)的, 評(píng)論標(biāo)簽也是標(biāo)簽系統(tǒng)中非常重要的一部分,它代表了以往用戶(hù)對(duì)該產(chǎn)品的印象,商品的優(yōu)缺點(diǎn)很大一部分上是從這里來(lái)的,開(kāi)篇提到的對(duì)于買(mǎi)家和賣(mài)家問(wèn)題的一部分,可以由這部分標(biāo)簽解答。評(píng)論信息提取展現(xiàn)是很多平臺(tái)都提供的服務(wù),比如目前京東電飯煲類(lèi)別中銷(xiāo)量最大商品的評(píng)論標(biāo)簽有“外觀漂亮”和“一般”兩種類(lèi)型的標(biāo)簽,前者是一個(gè)合適的標(biāo)簽, 包括了特征詞與觀點(diǎn)詞,對(duì)商
40、品的定位以及描述都十分明確;而后者僅包含了觀點(diǎn),并且太過(guò)于籠統(tǒng)。從評(píng)論提取出“特征詞-觀點(diǎn)詞”16這樣的信息組合,指向與觀點(diǎn)明確, 符合本文評(píng)論標(biāo)簽提取的需求。同時(shí),本論文評(píng)論特征提取的標(biāo)簽更加優(yōu)化,要對(duì)觀點(diǎn)詞的褒貶做出標(biāo)注。3.2觀點(diǎn)詞提取及情感分析情感分析包括詞、短語(yǔ)、子句、文檔級(jí)別的分析,這里主要討論的是詞級(jí)別的分析?;谶B接詞:該方法基于的知識(shí)是,使用連接詞(and、or)連接形容詞的情感屬性肯定是一致的,同時(shí)與一個(gè)形容詞用連接詞連接的肯定是另一個(gè)形容詞17。顯而易見(jiàn)的這種方法局限性非常大,應(yīng)用場(chǎng)景狹窄,需要依靠連接詞,而沒(méi)有連接詞的情況與之相當(dāng)甚至更普遍。好處是根據(jù)一個(gè)初始詞庫(kù),通過(guò)
41、傳播的方法可以獲取大部分用連接詞連接的觀點(diǎn)詞?;邳c(diǎn)互信息:點(diǎn)間互信息(PMI),主要作用是衡量不同詞間的語(yǔ)義相似度,文 檔中同時(shí)出現(xiàn)這兩個(gè)詞的概率越高,相關(guān)性越高16,18。接下來(lái)將兩個(gè)種子褒義詞組和貶電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)14義詞組來(lái)計(jì)算目標(biāo)的點(diǎn)互信息,作為它們的語(yǔ)義聯(lián)想。兩個(gè)詞 word1 與word2 的 PMI 值計(jì)算公式如下:PMI (word , word ) log p(word1 & word2 ) 122 p(word ) p(word ) 12 式(3-1)基于語(yǔ)料庫(kù):利用子句級(jí)別的內(nèi)容一致性來(lái)尋找候選集,然后使用統(tǒng)計(jì)評(píng)估的方法來(lái)確定候選集是否是觀點(diǎn)詞1
42、9。如果種子詞頻率低或者一個(gè)觀點(diǎn)詞在語(yǔ)料庫(kù)中沒(méi)有,那么該方法的效果將會(huì)較差。統(tǒng)計(jì)評(píng)估方法的準(zhǔn)確性非常依賴(lài)語(yǔ)料庫(kù)是否全面。基于字典:該方式可以延伸出多種方法,比如最簡(jiǎn)單的近義詞、反義詞;進(jìn)一步的, 通過(guò)近義詞庫(kù)建立近義詞網(wǎng)絡(luò),這樣一個(gè)詞的情感屬性可以通過(guò)它最近的兩個(gè)詞的情感屬性來(lái)決定20等等。但是所有基于詞典的方法都是領(lǐng)域不敏感的,通用的詞都是領(lǐng)域非相關(guān)的,例如“不可預(yù)知的”在電影評(píng)論中是褒義的,但在機(jī)械類(lèi)評(píng)論中就是貶義的。3.3基于語(yǔ)法依賴(lài)的傳播算法對(duì)于需要提取特征詞的分本分析,一般來(lái)說(shuō)都是產(chǎn)品分析,提取特征詞的方法和提取觀點(diǎn)詞的方法大同小異,其中的差異會(huì)在接下來(lái)的“特征-觀點(diǎn)詞”關(guān)聯(lián)識(shí)別中提
43、到。現(xiàn)階段效果良好的方法有語(yǔ)料庫(kù)法和字典法,但是這兩者都需要大量全面的詞庫(kù),且對(duì)于領(lǐng)域相關(guān)的文本分析效果一般,于是這里采用了“基于依賴(lài)語(yǔ)法的傳播算法”21來(lái)解決詞庫(kù)與領(lǐng)域相關(guān)詞問(wèn)題,但是該方法會(huì)帶入一些噪聲詞,所以提取之后需要進(jìn)行剪枝降噪。接下來(lái)介紹該方法的知識(shí)。3.3.1 語(yǔ)法依賴(lài)關(guān)系文本中所有的依賴(lài)關(guān)系22可以如下:直接依賴(lài)(Direct Dependency, DD )是指,一種直接的依賴(lài)關(guān)系是指,一個(gè)單詞依賴(lài)于其他單詞,在它們的依賴(lài)路徑中沒(méi)有任何其他的詞、或者它們都直接依賴(lài)于另一個(gè)詞。間接依賴(lài)(Indirect Dependency, ID )是指,一種非直接的依賴(lài)關(guān)系是指,一個(gè)單詞依
44、賴(lài)于其他單詞,通過(guò)一些其他的詞、或者它們都經(jīng)由額外的詞依賴(lài)于另一個(gè)詞。這些依賴(lài)關(guān)系是在分詞過(guò)程中,根據(jù)語(yǔ)法結(jié)構(gòu)來(lái)判斷生成的,由于分詞和生成語(yǔ)法結(jié)構(gòu)樹(shù)不是本論文的重點(diǎn),因此本論文使用了一個(gè)在線(xiàn)分詞工具“語(yǔ)言技術(shù)平臺(tái)(LTP)”,由哈工大研發(fā),可以幫我們完成這部分工作。第三章評(píng)論特征提取153.3.2 “特征”、“觀點(diǎn)詞”詞庫(kù)的拓展簡(jiǎn)而言之,傳播算法是根據(jù)語(yǔ)法依賴(lài)聯(lián)系和已知觀點(diǎn)詞(或特征詞)來(lái)提取出新的觀點(diǎn)詞(或特征詞),而根據(jù)新提取出的詞又可以進(jìn)行下一輪的迭代提取,直到無(wú)法提取出新的詞。例如,在短語(yǔ)“諾基亞手機(jī)外殼堅(jiān)固”中,如果我們知道“外殼”是一個(gè)特征詞, 那么通過(guò)規(guī)則匹配,就可以知道“堅(jiān)固”
45、是一個(gè)觀點(diǎn)詞;換言之,如果知道“堅(jiān)固”是一個(gè)觀點(diǎn)詞,通過(guò)規(guī)則匹配,“外殼”是特征詞也就不言而喻了。同時(shí)該方法,可以將提取到的特征詞和觀點(diǎn)詞一一對(duì)應(yīng)。在這里,我們進(jìn)行一些公式符號(hào)定義,形容詞為 wordadj ,名詞為wordn ,依賴(lài)關(guān)系DT(Dependency type)包括 DD 和 ID ,R 為語(yǔ)法關(guān)系(名詞和形容詞之間有主要有mod(修飾)、 pnmod 、subj (主語(yǔ))、s 、obj (賓語(yǔ))、obj2 和desc 等關(guān)系23;兩個(gè)名詞(形容詞)本身只有連接關(guān)系conj )。于是上述例子中,第一種情況可以被描述為 wordn , DD, mod, wordadj 。3.3.3
46、 語(yǔ)法依賴(lài)規(guī)則在描述算法是如何傳播之前,還需要描述一下傳播過(guò)程中使用的 4 條規(guī)則來(lái)完成以下的任務(wù):使用已有的觀點(diǎn)詞提取特征詞;使用提取出的特征詞提取新的特征詞;使用已有的特征詞提取觀點(diǎn)詞;使用原有的和后續(xù)提取的觀點(diǎn)詞來(lái)提取觀點(diǎn)詞。為了這四個(gè)任務(wù),相應(yīng)的也有四種對(duì)應(yīng)的規(guī)則,在表 3.1 中可以看到。因?yàn)樵谡Z(yǔ)義網(wǎng)絡(luò)中解析是比較困難的,所以這里只利用依賴(lài)關(guān)系 DD ,來(lái)定義這些規(guī)則。在定義規(guī)則之前,說(shuō)明一下,句子在分析之前會(huì)先被分詞,分離出形容詞和名詞, 在大多數(shù)論文中,形容詞是觀點(diǎn)詞、名詞是特征詞,在本篇論文中也會(huì)延續(xù)這個(gè)看法。分詞之后會(huì)有許多候選詞(Candidate Word),用CW 來(lái)代
47、表它。在表 3.1 中, o (或者t )代表輸出觀點(diǎn)詞(或特征詞)。O (T )是已知的觀點(diǎn)詞集合(特征詞集合) , 而不是原有的或者后續(xù)提取出的。H 可以代表任意的詞。CW( O(或者T ) ) 和O(或者T ) 代表了CW 信息和觀點(diǎn)詞的依賴(lài)關(guān)系。wordadj 和 wordn代表了潛在的觀點(diǎn)和特征詞CW 標(biāo)簽。就如之前所說(shuō),wordadj 包括了形容詞的三種類(lèi)型;wordn 包括了名詞的單復(fù)數(shù)形式。MR 包括觀點(diǎn)詞和特征詞( mod 、pnmod 、subj 、 s 、obj 、obj2 和desc )之間的依賴(lài)關(guān)系。CONJ 僅包含conj (連接關(guān)系)。箭頭代表電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)
48、的設(shè)計(jì)與實(shí)現(xiàn)16依賴(lài)關(guān)系。例如,O O-Dep T 。意味著O 經(jīng)過(guò)語(yǔ)法聯(lián)系O-Dep 依賴(lài)于T ?!?”代表一樣活相等。例如, Ti -Dep Tj -Dep 意味著Ti -Dep 和Tj -Dep 相等。表 3.1 特征-觀點(diǎn)詞提取規(guī)則第一列是規(guī)則的標(biāo)號(hào),第 2 列是依賴(lài)關(guān)系,約束必須要滿(mǎn)足,第 3 列是輸出,第 4 列是例子, 在每個(gè)例子中,下劃線(xiàn)詞是已知詞,雙引號(hào)是要提取的詞。例子后的括號(hào)中展示的是實(shí)例化的依賴(lài)關(guān)系。標(biāo)號(hào)標(biāo)號(hào)規(guī)則描述規(guī)則描述輸出輸出例子例子R11O O - Dep T s.t. O O, O - Dep MR, CW (T ) wordn t T這手機(jī)有一個(gè)不錯(cuò)的屏幕(
49、不錯(cuò)mod屏幕)R12O O - Dep H T - Dep T s.t. O O, O / T - Dep MR, CW (T ) wordn t Tipod 是個(gè)不錯(cuò)的音樂(lè)播放器(不錯(cuò)mod播放器subjipod)R21O O - Dep T s.t. T T, O - Dep MR, CW (O) wordadj o O與 R11 相似,但“不錯(cuò)” 和“屏幕”兩者的位置互換R22O O - Dep H T - Dep T s.t. T T, O / T - Dep MR, CW (O) wordadj o OR1與2 相似,但“ipod”和“不錯(cuò)”兩者的位置互換R31Ti ( j ) T
50、i ( j ) - Dep Tj (i ) s.t. Tj (i ) T,Ti ( j ) - Dep CONJ, CW (Ti ( j ) ) wordn t Ti ( j )這個(gè)播放器能播放音樂(lè)和視頻嗎(音樂(lè)conj視 頻)R32Ti Ti - Dep H Tj - Dep Tj s.t. TiT,Ti - Dep Tj - Dep, CW (Tj ) wordnt Tjiphone 有很棒的攝像頭(攝像頭odj有subjiphone)R41Oi ( j ) Oi ( j ) - Dep Oj (i ) s.t. Oj (i ) O,Oi ( j ) - Dep CONJ,CW (Oi (
51、 j ) ) wordadj o Oi ( j )這手機(jī)漂亮且耐用(漂亮conj耐用)R42Oi Oi - Dep H Oj - Dep Oj s.t. OiO, Oi - Dep Oj - Dep, CW (Oj ) wordadj o Ojipod 是一個(gè)很酷、功能強(qiáng)大的音樂(lè)播放器(酷mod播放器mod功能強(qiáng)大)第三章評(píng)論特征提取17在表中可以看到,R1i 表示使用觀點(diǎn)詞提取特征詞,R2i 表示使用特征詞提取觀點(diǎn)詞, R3i 表示用已提取的特征詞提取新的特征詞,R4i 表示使用已知的觀點(diǎn)詞提取觀點(diǎn)詞。就拿 R1i 為例子,一個(gè)以 wordn 作為它的候選的詞并滿(mǎn)足關(guān)系O-Dep 就能被提取
52、為特征詞。更具體的,短語(yǔ)“這手機(jī)有一個(gè)不錯(cuò)的屏幕”對(duì)應(yīng)圖 1 中所展示的依賴(lài)樹(shù)關(guān)系。如果我們知道“不錯(cuò)”是一個(gè)觀點(diǎn)詞,并且它依賴(lài)于“屏幕”,其中它通過(guò)包括在MR 中的mod 以及“屏幕”的詞性已經(jīng)在分詞結(jié)果中標(biāo)出,R1i 就能被應(yīng)用,將“屏幕”提取為一個(gè)特征詞。圖 3.1 是該語(yǔ)法樹(shù)的示意。有subjobj手機(jī)det屏幕mod這不錯(cuò)的3.3.4 算法傳播過(guò)程圖 3.1 短語(yǔ)“這手機(jī)有一個(gè)不錯(cuò)的屏幕”的依賴(lài)樹(shù) 接下來(lái)用圖 3.2 對(duì)該算法進(jìn)行描述。算法中,觀點(diǎn)詞庫(kù)O 、特征詞庫(kù)種子T 和商品的評(píng)論數(shù)據(jù) R 被作為輸入。算法的步驟也就是傳播的步驟,當(dāng)沒(méi)有新的觀點(diǎn)詞和特征詞能被添加到相應(yīng)隊(duì)列時(shí),算法
53、便停止。現(xiàn)在,這里使用一個(gè)例子來(lái)闡明算法的工作過(guò)程。假設(shè),在一個(gè)評(píng)論中,有以下的四個(gè)短語(yǔ):“iphone 能拍出不錯(cuò)的照片”,“照片很棒”, “你也許需要更多的空間來(lái)存儲(chǔ)照片和電影”,“這軟件很棒”。初始時(shí),僅有一個(gè)輸入的觀點(diǎn)詞“不錯(cuò)”。使用算法中基于R11 的 4 到 6 行的規(guī)則,可以提取“照片”作為特征詞。有了一個(gè)提取出的特征,通過(guò)基于 R22 的 16 到 18 行規(guī)則,接下來(lái)又可以確定“棒” 也是個(gè)觀點(diǎn)詞;通過(guò)基于 R31 的 13 到 15 行規(guī)則,“電影”也是一個(gè)特征。在第二次迭代中,因?yàn)椤鞍簟北徽J(rèn)為是一個(gè)觀點(diǎn)詞,通過(guò)基于 R12 的 4 到 6 行規(guī)則,“軟件”可以被提取為一個(gè)
54、特征詞。然后,傳播會(huì)因?yàn)闆](méi)有更多的特征詞或觀點(diǎn)詞被提取出而停止。就像我們看到的,通過(guò)傳播,僅僅用一個(gè)觀點(diǎn)詞,就可以發(fā)現(xiàn)評(píng)論中的三個(gè)產(chǎn)品特征和一個(gè)新的觀點(diǎn)詞。電子商務(wù)數(shù)據(jù)標(biāo)簽系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)18算法描述:輸入:觀點(diǎn)詞種子庫(kù)O,特征詞種子庫(kù)T,評(píng)論數(shù)據(jù) R輸出:被拓展的特征詞庫(kù)T-Expanded和觀點(diǎn)詞庫(kù)O-Expanded Function:O-Expanded=O,T-Expanded=TTi , Oi 1.do2.for each parsed sentence in R3.if(Extracted features not in T- Expanded)4.Extract Ti usin
55、g R11 and R12 based on O-Expanded5.endif6.if(Extracted opinion words not in O- Expanded)7.Extract Oi using R11 and R12 based on O-Expanded8.endif9.end for10.set T-Expanded=T-Expanded+Ti ,O-Expanded=O-Expanded+Oi 11.for each parsed sentence in R12.if(Extracted features not in T- Expanded)13.Extract T
56、i using R31 and R32 based on T-Expanded14.endif15.if(Extracted opinion words not in O- Expanded)16.Extract Oi using R21 and R22 based on T-Expanded17.endif18.end for19.set T-Expanded=T-Expanded+Ti ,O-Expanded=O-Expanded+Oi 20.until size(Ti)=0, size(Oi )圖 3.2 傳播算法過(guò)程3.4觀點(diǎn)詞情感傾向判斷對(duì)于評(píng)論標(biāo)簽,情感屬性是非常重要的,因此提取觀
57、點(diǎn)詞的同時(shí)也應(yīng)該被賦予情感屬性。一般的情感判斷方法有同義詞法(基于已有的類(lèi)似HowNet 語(yǔ)義網(wǎng)絡(luò)詞庫(kù))、點(diǎn)互信息法、機(jī)器學(xué)習(xí)等各類(lèi)方法。而評(píng)論作為一種表達(dá)觀點(diǎn)的簡(jiǎn)短文本,用戶(hù)的觀點(diǎn)一般是前后一致的,除非使用了“不過(guò)”、“盡管”等翻轉(zhuǎn)詞匯。因此這里我們使用一種根據(jù)上下文的分詞方法,這個(gè)標(biāo)注過(guò)程在觀點(diǎn)詞提取緊接一步進(jìn)行。在進(jìn)行方法描述之前,首先說(shuō)明一下下面這兩個(gè)普遍適用的前提觀點(diǎn):觀點(diǎn) 1:一個(gè)評(píng)論是由單個(gè)評(píng)論者寫(xiě)的文檔。通常的話(huà),評(píng)論者對(duì)于一個(gè)特征詞的情感傾向是相同的,盡管有時(shí)特征詞會(huì)出現(xiàn)不止一次。觀點(diǎn) 2:在一個(gè)領(lǐng)域中,相同的觀點(diǎn)詞擁有相同的情感屬性。第三章評(píng)論特征提取19基于上述的觀察,我
58、們就可以給特征詞和觀點(diǎn)詞分析情感傾向了。在評(píng)論中的一個(gè)特征詞的情感傾向需要根據(jù)評(píng)論中已知的特征詞來(lái)判斷。接下來(lái)描述三個(gè)規(guī)則,它們被用來(lái)判斷提取出的觀點(diǎn)詞和特征詞的情感傾向:1一致性規(guī)則:對(duì)于被已知特征詞提取的觀點(diǎn)詞和被已知觀點(diǎn)詞提取的特征詞,它們的情感傾向是根據(jù)已知詞來(lái)分配的分配與已知詞一樣的情感屬性。例如,如果A 是一個(gè)觀點(diǎn)詞(或特征詞),B 是一個(gè)特征詞(或觀點(diǎn)詞),并且A 是通過(guò) B 提取出來(lái)的,那么 A 將會(huì)被賦予和 B 同樣的情感傾向。實(shí)際上,特征詞是名詞,名詞本身是不傳遞情感傾向,觀點(diǎn)詞也僅僅是人們用來(lái)表達(dá)他們對(duì)某一商品特征的態(tài)度(褒、貶、中性) 。因此,特征的情感傾向是為了算法的
59、執(zhí)行才賦予的,并且是從關(guān)聯(lián)的觀點(diǎn)詞那里繼承得來(lái)的。2非一致性規(guī)則:對(duì)于被已知特征詞提取的觀點(diǎn)詞和被已知觀點(diǎn)詞提取的特征詞, 除非它們有否定詞在它們周?chē)?,我們都將它們作為已知的賦予同樣的情感傾向。例如, 判斷 A 和 B 都是特征詞(或觀點(diǎn)詞),A 是通過(guò)B 提取出來(lái)的,如果在 A 和 B 之間沒(méi)有否定詞,A 就會(huì)被賦予和 B 一樣的情感傾向;如果有,那就是相反的情感傾向。我們也注意到,當(dāng)它們(否定詞)被一起使用或者與否定詞相關(guān)聯(lián)(通過(guò)檢測(cè)每個(gè)觀點(diǎn)詞周?chē)?5 個(gè)詞窗大小范圍的詞),這些詞會(huì)取消詞性變化。詞性變化,僅會(huì)當(dāng)在兩個(gè)觀點(diǎn)詞或特征詞之間有奇數(shù)數(shù)量的否定詞時(shí),才會(huì)發(fā)生。在目前的工作中,否定
60、詞被設(shè)定為包括“不”、“非”、“沒(méi)(沒(méi)有)”、“盡管”、“但是”等詞。古漢語(yǔ)中,關(guān)于否定的詞有很多,但是現(xiàn)實(shí)情況中,這類(lèi)情況基本不會(huì)出現(xiàn)在商品評(píng)論上,因此這里忽略那些詞。3整體評(píng)論規(guī)則:通過(guò)來(lái)自其他評(píng)論的特征詞,會(huì)有新的評(píng)論詞被提取出來(lái)。在這種情況下,這些特征詞不應(yīng)傳遞情感傾向,因?yàn)樗鼈儾环嫌^點(diǎn) 1,因此,觀點(diǎn)詞不會(huì)被分配情感傾向。并且,如果這些觀點(diǎn)是僅能在當(dāng)前的評(píng)論中被發(fā)現(xiàn),那么觀點(diǎn) 2 就不能適用。為了給這樣的觀點(diǎn)詞賦予情感傾向,本文使用該評(píng)論整體的情感傾向來(lái)推斷。假設(shè)觀點(diǎn)詞與評(píng)論的情感傾向一致,也就是說(shuō),如果評(píng)論是積極的,觀點(diǎn)詞被分配為樂(lè)觀的,否則為悲觀的。評(píng)論情感傾向由一個(gè)整體情感值來(lái)決定,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《建筑施工安全講義》課件
- 自行車(chē)配件交易合同
- 服裝品牌投資合同
- 暖通設(shè)備維修服務(wù)協(xié)議
- 鐵路旅客運(yùn)輸服務(wù)鐵路旅客運(yùn)輸服務(wù)質(zhì)量規(guī)范課件
- 《GB 32438-2015民用燃煤取暖爐安全通 用技術(shù)條件》(2025版)深度解析
- 鐵路市場(chǎng)營(yíng)銷(xiāo)市場(chǎng)定位的方法課件
- 焦炭塔防腐施工方案
- 中醫(yī)中的肝教學(xué)課件
- 【課件】充分條件與必要條件課件-高一上學(xué)期數(shù)學(xué)人教A版(2019)+必修第一冊(cè)
- 電商行業(yè)10萬(wàn)字PRD
- 2024-2025學(xué)年八年級(jí)下學(xué)期道德與法治期中模擬試卷(一)(統(tǒng)編版含答案解析)
- 防溺水工作布置教師會(huì)議上校長(zhǎng)講話(huà):全力防溺水守護(hù)學(xué)生生命“生命線(xiàn)”
- 湖南省永州市祁陽(yáng)市茅竹鎮(zhèn)中心學(xué)校2024-2025學(xué)年下學(xué)期期中監(jiān)測(cè)八年級(jí)下冊(cè)《物理》試卷(含答案)
- GB/T 26354-2025旅游信息咨詢(xún)服務(wù)
- 交互式影像中敘事與視覺(jué)表達(dá)的融合及其觀眾體驗(yàn)研究
- SL631水利水電工程單元工程施工質(zhì)量驗(yàn)收標(biāo)準(zhǔn)第1部分:土石方工程
- 2025年國(guó)家國(guó)防科技工業(yè)局軍工項(xiàng)目審核中心招聘筆試參考題庫(kù)附帶答案詳解
- 靜療完整課件
- 2024供電所智能融合倉(cāng)建設(shè)技術(shù)規(guī)范
- 體育市場(chǎng)營(yíng)銷(xiāo)(第三版)整套課件完整版電子教案課件匯總(最新)
評(píng)論
0/150
提交評(píng)論