版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
《WebDatamining》復(fù)習(xí)與總結(jié)課程主要內(nèi)容數(shù)據(jù)挖掘概述+WEB數(shù)據(jù)挖掘數(shù)據(jù)挖掘(ch1概述):又被稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD)。是指從數(shù)據(jù)源(如DB、文本、圖片、萬維網(wǎng)等)探尋有用的模式或知識(shí)的過程。這些模式必須是有用的、有潛在價(jià)值的、并且是可以被理解的。數(shù)據(jù)挖掘是一門多學(xué)科交叉的學(xué)科,包括機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、數(shù)據(jù)庫、人工智能、信息檢索和可視化。WEB數(shù)據(jù)挖掘(ch6-12)的目標(biāo)是從web超鏈接、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。依據(jù)挖掘過程中使用的數(shù)據(jù)類別,web挖掘的任務(wù)劃分為三種主要的類型:web結(jié)構(gòu)挖掘、web內(nèi)容挖掘和web使用挖掘。web結(jié)構(gòu)挖掘:從表征web結(jié)構(gòu)的超鏈接中尋找知識(shí)。Ch6-ch8:信息檢索與web搜索;鏈接分析;web爬取。web內(nèi)容挖掘:從網(wǎng)頁內(nèi)容中抽取有用的信息和知識(shí)。Ch9-ch11:結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成;信息集成;觀點(diǎn)挖掘。web使用挖掘:從記錄每位用戶點(diǎn)擊情況的使用日志中挖掘用戶的訪問模式。Ch12:web使用挖掘各章主要知識(shí)點(diǎn)(ch1)概述——主要知識(shí)點(diǎn)萬維網(wǎng)、超文本、超鏈接、超媒體的概念;HTTP,HTML,URL,WEB,TCP/IP的含義;Web數(shù)據(jù)的特點(diǎn):P5-6;數(shù)據(jù)挖掘的定義、數(shù)據(jù)挖掘任務(wù)、KDD過程、KDD的數(shù)據(jù)類型等;Web數(shù)據(jù)挖掘的定義、分類、web數(shù)據(jù)挖掘過程等。關(guān)聯(lián)規(guī)則、列模式挖掘、分類與預(yù)測、聚類挖掘的基本概念及挖掘思想。WEB結(jié)構(gòu)挖掘:包括——信息檢索與WEB搜索、鏈接分析、WEB爬取(ch6)信息檢索與web搜索基本概念:(1)信息檢索IR:即幫助使用者從大號(hào)的數(shù)據(jù)集信息中發(fā)現(xiàn)需要的資料。了信息的采集、組織、存儲(chǔ)、檢索及分發(fā)。根據(jù)用戶的查詢信息得到相應(yīng)的一組文檔,得到的結(jié)果根據(jù)其與用戶查詢信息的相關(guān)程序排序,最常用的用戶查詢信息是一組關(guān)鍵字(又稱詞)。其基本信息是單個(gè)文檔,大量的文檔形成文本數(shù)據(jù)庫。(2)web搜索:是信息檢索的一個(gè)重要分支。區(qū)別于信息檢索的特點(diǎn)是:效率是WEB搜索的一個(gè)最為重要的問題;網(wǎng)頁與傳統(tǒng)信息檢索系統(tǒng)中使用的普通文檔不同:(1)具有超鏈接以及錨文本、(2)網(wǎng)頁是半結(jié)構(gòu)化的、(3)網(wǎng)頁中的內(nèi)容基本上是有組織的,并且在一些結(jié)構(gòu)塊中出現(xiàn);作弊技術(shù)是網(wǎng)絡(luò)上的一個(gè)重要的問題。(3)IR基本架構(gòu):用戶查詢(關(guān)鍵字查詢、布爾查詢、短語查詢、鄰近查詢、全文查詢、自然語言查詢等)+查詢操作(作簡單預(yù)處理如STOPWORDS刪除等發(fā)送到檢索引擎、或處理用戶反饋——關(guān)聯(lián)性反饋)+索引器(為提高查詢效率對(duì)原始文檔用某種數(shù)據(jù)結(jié)構(gòu)做索引,形成文檔索引——返回文檔索引,如倒排索引)+檢索系統(tǒng)(為每個(gè)索引文檔計(jì)算與查詢的相關(guān)度分?jǐn)?shù))關(guān)鍵字查詢布爾查詢短語查詢鄰近查詢?nèi)牟樵冏匀徽Z言查詢預(yù)處理關(guān)聯(lián)性反饋倒排索引計(jì)算文檔與查詢的相關(guān)度分?jǐn)?shù)布爾模型(布爾查詢:AND、OR、NOT)向量空間模型(TF表、TF-IDF表、查詢、相關(guān)度排名)語言模型概率模型關(guān)聯(lián)性反饋(4)查全率(recall)、查準(zhǔn)率(precision)、查準(zhǔn)率-查全率曲線(PR曲線)、排名查準(zhǔn)率(rankprecision)、F-score(5)網(wǎng)頁預(yù)處理:移除停用詞、詞干提取、數(shù)字、連字號(hào)、標(biāo)點(diǎn)、字符大小寫的處理;辨別不同的字段;辨別錨文本;移除HTML標(biāo)簽;辨別主要內(nèi)容塊;(6)副本探測(對(duì)整個(gè)文本Hash——MD5算法;基于n元短語的副本探測技術(shù)):即復(fù)制頁面,可減少索引大小,改善搜索效率;鏡像:復(fù)制站點(diǎn)的技術(shù)。(7)倒排索引:是一張列表,包含了每一個(gè)不同的詞和包含該詞的文檔列表??杉涌鞕z索和查詢的速度。其本身構(gòu)建速度也非???。記錄格式:〈idj,fij,[o1,o2,…..o|fij|]〉倒排索引的建立及壓縮:搜索引擎——基于向量空間模型和詞匹配模型。爬取網(wǎng)頁!!元搜索引擎和組合多種排序:略網(wǎng)絡(luò)作弊的概念及分類:內(nèi)容作弊(詞組作弊):標(biāo)題、元標(biāo)記、正文、錨文本、網(wǎng)址。如內(nèi)容重復(fù)、或添加其他不相關(guān)的鏈接作弊(影響知名度分?jǐn)?shù)):鏈出鏈接作弊(指向中心頁面——目錄克?。┗蜴溔腈溄幼鞅祝▌?chuàng)建蜜罐、網(wǎng)絡(luò)目錄中添加鏈接、用戶生成內(nèi)容是添加鏈接、交換鏈接、自發(fā)添加等)隱藏技術(shù):內(nèi)容隱藏(隱藏垃圾項(xiàng))、掩飾技術(shù)(垃圾網(wǎng)絡(luò)服務(wù)器、重定向技術(shù)等)抵制作弊:分類處理——區(qū)別對(duì)待內(nèi)容作弊、鏈接作弊、隱藏技術(shù)等;信任排名方法可用。2、主要知識(shí)點(diǎn)IR系統(tǒng)的基本架構(gòu)及原理用戶查詢的主要形式:關(guān)鍵字查詢、布爾查詢、短語查詢、鄰近查詢、全文查詢、自然語言查詢的含義查詢操作索引器檢索系統(tǒng)信息檢索模型主要有四種信息檢索模型:布爾模型、向量空間模型、語言模型、概率模型。熟悉布爾模型、向量空間模型的基本原理,了解統(tǒng)計(jì)語言模型、概率模型。了解社區(qū)發(fā)現(xiàn)的基本原理。(ch8)WEB爬取1.基本概念(1)WEB爬蟲(蜘蛛或機(jī)器人):能自動(dòng)下載網(wǎng)頁的程序。(2)WEB爬蟲的分類:通用爬蟲、限定爬蟲、主題爬蟲。通用爬蟲限定爬蟲主題爬蟲(3)簡單爬蟲算法:種子URL、隊(duì)列、頁面獲取、網(wǎng)頁庫等模塊。寬度優(yōu)先爬蟲帶偏好的爬蟲網(wǎng)頁獲取/網(wǎng)頁解析/刪除無用詞、詞干提取、鏈接提取和規(guī)范化/爬蟲陷井網(wǎng)頁庫爬蟲消耗的資源:網(wǎng)絡(luò)、中CPU和磁盤。(4)爬蟲的改進(jìn):實(shí)現(xiàn)并發(fā)性(并行爬蟲架構(gòu))。通用爬蟲:可擴(kuò)展性、爬蟲覆蓋率、新鮮度和重要度。限定爬蟲:能爬取用戶感興趣的某一類網(wǎng)頁。熟悉概念。主題爬蟲:帶偏好爬取網(wǎng)頁的爬蟲。熟悉概念。了解通用爬蟲、限定爬蟲、主題爬蟲的聯(lián)系與區(qū)別。主要知識(shí)點(diǎn)簡單爬蟲算法及改進(jìn)(并行爬蟲)。限定爬蟲算法的基本思想。主題爬蟲的基本原理。三種爬蟲算法的聯(lián)系與區(qū)別WEB內(nèi)容挖掘:包括——結(jié)構(gòu)化信息抽取、信息集成、觀點(diǎn)挖掘。(ch9)結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成1、基本概念(1)WEB信息抽?。簭木W(wǎng)頁中抽取目標(biāo)信息,包括:從自然語言文本中抽取信息及從網(wǎng)頁的結(jié)構(gòu)化數(shù)據(jù)中抽取信息。包裝器:抽取結(jié)構(gòu)化數(shù)據(jù)的程序。WEB結(jié)構(gòu)化數(shù)據(jù):從后臺(tái)數(shù)據(jù)庫獲取的數(shù)據(jù)記錄,它們按照一定的模板被展現(xiàn)在網(wǎng)頁上。數(shù)據(jù)記錄(2)信息抽取的主要方法:手工方法、包裝器歸納(監(jiān)督學(xué)習(xí)方法)、自動(dòng)抽?。o監(jiān)督學(xué)習(xí)方法)。數(shù)據(jù)抽?。航o定由HTML標(biāo)記編碼的數(shù)據(jù)(網(wǎng)頁),抽取系統(tǒng)恢復(fù)數(shù)據(jù)模型并從編碼后的數(shù)據(jù)記錄中抽取數(shù)據(jù)。即從HTML編碼的數(shù)據(jù)中恢復(fù)隱藏的模式。列表頁詳情頁數(shù)據(jù)模型:嵌套關(guān)系;基本類型、元組類型、集合類型、平坦元組類型、平坦集合類型;平坦關(guān)系;集合類型實(shí)例;元組類型實(shí)例等。數(shù)據(jù)實(shí)例的HTML編碼(3)包裝器歸納的概念及基本原理EC樹開始規(guī)則/結(jié)束規(guī)則地標(biāo)通配符析取規(guī)則學(xué)習(xí)抽取規(guī)則:正規(guī)則、負(fù)規(guī)則地標(biāo)提純拓樸提純包裝器學(xué)習(xí)的重要問題之一:手工標(biāo)注訓(xùn)練樣例。費(fèi)時(shí)費(fèi)力??赡艿陌b器歸納學(xué)習(xí)的改進(jìn):主動(dòng)學(xué)習(xí)或協(xié)同測試的方法。主動(dòng)學(xué)習(xí):是一種幫助自動(dòng)識(shí)別提供信息的未標(biāo)注樣例的方法。包裝器學(xué)習(xí)中主動(dòng)學(xué)習(xí)步驟:①從U中隨機(jī)選取一個(gè)較小的未標(biāo)注樣例子集L;②手工標(biāo)注L中的樣例,并令U=U-L;③基于標(biāo)注樣例集L學(xué)習(xí)一個(gè)包裝器;④將W應(yīng)用于U以找到一個(gè)提供信息樣例的集合L;⑤如果L=Ф,則終止,否則轉(zhuǎn)②?!惴ǖ年P(guān)鍵是④步。協(xié)同測試的方法可用來識(shí)別提供信息的樣例?!私馄浠舅枷?。包裝器維護(hù):包裝器驗(yàn)證問題、包裝器修復(fù)問題。——學(xué)習(xí)目標(biāo)數(shù)據(jù)項(xiàng)的特征模式,以監(jiān)視抽取工作以及檢驗(yàn)所抽取的數(shù)據(jù)項(xiàng)是否正確。再標(biāo)注,再學(xué)習(xí)?;趯?shí)例的包裝器學(xué)習(xí):不用學(xué)習(xí)抽取規(guī)則,而是通過將目標(biāo)數(shù)據(jù)項(xiàng)的前綴和后綴標(biāo)志字符串與對(duì)應(yīng)的標(biāo)注好的樣例進(jìn)行比較,來從一個(gè)新的實(shí)例或網(wǎng)頁中識(shí)別目標(biāo)數(shù)據(jù)項(xiàng)。如果一個(gè)未標(biāo)注的樣例中,某個(gè)數(shù)據(jù)項(xiàng)不能被識(shí)別。則它將被交付標(biāo)注,這是沒有附加機(jī)制的主動(dòng)學(xué)習(xí)。(4)自動(dòng)包裝生成中的問題:手工標(biāo)注不適合對(duì)大量站點(diǎn)的抽取;包裝器維護(hù)的開銷很大。包裝器自動(dòng)生成中的模板:指代網(wǎng)頁設(shè)計(jì)者所采用的隱藏模板。包裝器自動(dòng)生成中的模式:指代系統(tǒng)所發(fā)現(xiàn)的規(guī)則結(jié)構(gòu)。包裝器的應(yīng)用——兩個(gè)抽取問題:基于一張列表頁的抽取;基于多張網(wǎng)頁的抽取。從一組編碼好的同種類型的實(shí)例中尋找編碼模板——檢測HTML編碼字符串中重復(fù)出現(xiàn)的模式。信息抽取技術(shù):字符串匹配和樹匹配。DOM:文檔對(duì)象模型標(biāo)簽樹。字符串的編輯距離:即萊文斯坦距離,定義為將串S1變成串S2所需要的點(diǎn)突變的最少次數(shù)。點(diǎn)突變是指下列操作之一——改變一個(gè)字符;插入一個(gè)字符;刪除一個(gè)字符。掌握字符串的對(duì)齊算法。樹匹配中的樹編輯距離:是將樹A變換為樹B所需要的最小操作集對(duì)應(yīng)的代價(jià)。樹編輯距離的操作包括:節(jié)點(diǎn)刪除;節(jié)點(diǎn)插入和節(jié)點(diǎn)替換。每個(gè)操作都被指定了一個(gè)代價(jià)。解樹編輯距離問題應(yīng)時(shí)尋找兩棵樹間的最小代價(jià)映射。樹代價(jià)映射的定義簡單樹匹配STM:不允許節(jié)點(diǎn)替換和層次交叉,STM的目標(biāo)是找到兩棵樹間的最大匹配。最大匹配:設(shè)A、B是兩棵樹,而i∈A和j∈B是A和B中的兩節(jié)點(diǎn),兩棵樹間的一個(gè)匹配定義為一個(gè)映射M,使得對(duì)每一個(gè)節(jié)點(diǎn)對(duì)(i,j)∈M,(i,j都不是根節(jié)點(diǎn)),都有(parent(i),parent(j))∈M。一個(gè)最大匹配就是一個(gè)擁有最多節(jié)點(diǎn)對(duì)的匹配。了解STM算法多重對(duì)齊:產(chǎn)生一個(gè)對(duì)所有字符串或樹的全局對(duì)齊任務(wù)稱為多重對(duì)齊。兩種多重對(duì)齊算法:中星方法和部分樹對(duì)齊。中星方法部分樹對(duì)齊方法:構(gòu)建DOM樹——標(biāo)簽樹。標(biāo)簽樹的構(gòu)建方法:標(biāo)簽方法或用標(biāo)簽和視覺提示的方法。利用標(biāo)簽構(gòu)建DOM樹:HTML編碼清理;樹的構(gòu)建。用標(biāo)簽和視覺提示構(gòu)建DOM樹:通過調(diào)用瀏覽器的渲染引擎找到每一個(gè)HTML元素長廊形的四個(gè)邊界;依據(jù)開始標(biāo)簽序列進(jìn)行包含檢驗(yàn)以構(gòu)建標(biāo)簽樹。包含檢驗(yàn):是指檢驗(yàn)一個(gè)長方形是否被另一個(gè)長方形包含?;诹斜眄摰某槿。浩教箶?shù)據(jù)記錄的抽取假設(shè)網(wǎng)頁的DOM樹已經(jīng)構(gòu)建,給定一個(gè)含有多個(gè)列表,且每個(gè)列表含有多個(gè)數(shù)據(jù)記錄的列表頁,將執(zhí)行下列任務(wù):(1)識(shí)別每個(gè)列表(也稱為數(shù)據(jù)區(qū)域),即挖掘所有數(shù)據(jù)區(qū)域(挖掘廣義節(jié)點(diǎn)序列;比較廣義節(jié)點(diǎn););——MDR算法(2)將每個(gè)列表或數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)記錄分段,以及;——識(shí)別數(shù)據(jù)記錄、(3)對(duì)齊數(shù)據(jù)記錄中的數(shù)據(jù)項(xiàng)以為每一個(gè)數(shù)據(jù)區(qū)域產(chǎn)生一個(gè)數(shù)據(jù)表和一個(gè)正則表達(dá)式。數(shù)據(jù)項(xiàng)對(duì)齊與抽??;沖突消解;利用視覺信息等;基于列表頁的抽取——嵌套數(shù)據(jù)記錄(NET算法:后序遍歷):了解2主要知識(shí)點(diǎn)信息抽取的主要方法:手工方法、包裝器歸納(監(jiān)督學(xué)習(xí)方法)、自動(dòng)抽?。o監(jiān)督學(xué)習(xí)方法)。(1)數(shù)據(jù)抽?。航o定由HTML標(biāo)記編碼的數(shù)據(jù)(網(wǎng)頁),抽取系統(tǒng)恢復(fù)數(shù)據(jù)模型并從編碼后的數(shù)據(jù)記錄中抽取數(shù)據(jù)。即從HTML編碼的數(shù)據(jù)中恢復(fù)隱藏的模式。列表頁/詳情頁數(shù)據(jù)模型:嵌套關(guān)系;基本類型、元組類型、集合類型、平坦元組類型、平坦集合類型;平坦關(guān)系;集合類型實(shí)例;元組類型實(shí)例等。數(shù)據(jù)實(shí)例的HTML編碼(2)包裝器歸納的概念及基本原理EC樹開始規(guī)則/結(jié)束規(guī)則地標(biāo)通配符析取規(guī)則學(xué)習(xí)抽取規(guī)則:正規(guī)則、負(fù)規(guī)則地標(biāo)提純拓樸提純包裝器學(xué)習(xí)的重要問題之一:手工標(biāo)注訓(xùn)練樣例。費(fèi)時(shí)費(fèi)力??赡艿陌b器歸納學(xué)習(xí)的改進(jìn):主動(dòng)學(xué)習(xí)或協(xié)同測試的方法?!私庵鲃?dòng)學(xué)習(xí):是一種幫助自動(dòng)識(shí)別提供信息的未標(biāo)注樣例的方法。包裝器學(xué)習(xí)中主動(dòng)學(xué)習(xí)的算法步驟:(1)從U中隨機(jī)選取一個(gè)較小的未標(biāo)注樣例子集L;(2)手工標(biāo)注L中的樣例,并令U=U-L;(3)基于標(biāo)注樣例集L學(xué)習(xí)一個(gè)包裝器;(4)將W應(yīng)用于U以找到一個(gè)提供信息樣例的集合L;(5)如果L=Ф,則終止,否則轉(zhuǎn)(2)?!惴ǖ年P(guān)鍵是(4)步。協(xié)同測試的方法可用來識(shí)別提供信息的樣例?!私馄浠舅枷?。包裝器維護(hù):包裝器驗(yàn)證問題、包裝器修復(fù)問題?!獙W(xué)習(xí)目標(biāo)數(shù)據(jù)項(xiàng)的特征模式,以監(jiān)視抽取工作以及檢驗(yàn)所抽取的數(shù)據(jù)項(xiàng)是否正確。再標(biāo)注,再學(xué)習(xí)?;趯?shí)例的包裝器學(xué)習(xí):不用學(xué)習(xí)抽取規(guī)則,而是通過將目標(biāo)數(shù)據(jù)項(xiàng)的前綴和后綴標(biāo)志字符串與對(duì)應(yīng)的標(biāo)注好的樣例進(jìn)行比較,來從一個(gè)新的實(shí)例或網(wǎng)頁中識(shí)別目標(biāo)數(shù)據(jù)項(xiàng)。如果一個(gè)未標(biāo)注的樣例中,某個(gè)數(shù)據(jù)項(xiàng)不能被識(shí)別。則它將被交付標(biāo)注,這是沒有附加機(jī)制的主動(dòng)學(xué)習(xí)。(3)自動(dòng)包裝生成中的問題:手工標(biāo)注不適合對(duì)大量站點(diǎn)的抽取;包裝器維護(hù)的開銷很大。包裝器自動(dòng)生成中的模板:指代網(wǎng)頁設(shè)計(jì)者所采用的隱藏模板。包裝器自動(dòng)生成中的模式:指代系統(tǒng)所發(fā)現(xiàn)的規(guī)則結(jié)構(gòu)。包裝器的應(yīng)用——兩個(gè)抽取問題:基于一張列表頁的抽?。换诙鄰埦W(wǎng)頁的抽取。從一組編碼好的同種類型的實(shí)例中尋找編碼模板——檢測HTML編碼字符串中重復(fù)出現(xiàn)的模式。(4)信息抽取技術(shù):字符串匹配和樹匹配及相關(guān)算法。DOM:文檔對(duì)象模型標(biāo)簽樹。字符串的編輯距離:即萊文斯坦距離,定義為將串S1變成串S2所需要的點(diǎn)突變的最少次數(shù)。點(diǎn)突變是指下列操作之一——改變一個(gè)字符;插入一個(gè)字符;刪除一個(gè)字符。掌握字符串的對(duì)齊算法。樹匹配中的樹編輯距離:是將樹A變換為樹B所需要的最小操作集對(duì)應(yīng)的代價(jià)。樹編輯距離的操作包括:節(jié)點(diǎn)刪除;節(jié)點(diǎn)插入和節(jié)點(diǎn)替換。每個(gè)操作都被指定了一個(gè)代價(jià)。解樹編輯距離問題應(yīng)時(shí)尋找兩棵樹間的最小代價(jià)映射。樹代價(jià)映射的定義簡單樹匹配STM:不允許節(jié)點(diǎn)替換和層次交叉,STM的目標(biāo)是找到兩棵樹間的最大匹配。最大匹配:設(shè)A、B是兩棵樹,而i∈A和j∈B是A和B中的兩節(jié)點(diǎn),兩棵樹間的一個(gè)匹配定義為一個(gè)映射M,使得對(duì)每一個(gè)節(jié)點(diǎn)對(duì)(i,j)∈M,(i,j都不是根節(jié)點(diǎn)),都有(parent(i),parent(j))∈M。一個(gè)最大匹配就是一個(gè)擁有最多節(jié)點(diǎn)對(duì)的匹配。了解STM算法多重對(duì)齊:產(chǎn)生一個(gè)對(duì)所有字符串或樹的全局對(duì)齊任務(wù)稱為多重對(duì)齊。兩種多重對(duì)齊算法:中星方法和部分樹對(duì)齊。中星方法——掌握運(yùn)用部分樹對(duì)齊方法:掌握應(yīng)用構(gòu)建DOM樹——標(biāo)簽樹。標(biāo)簽樹的構(gòu)建方法:標(biāo)簽方法或用標(biāo)簽和視覺提示的方法。利用標(biāo)簽構(gòu)建DOM樹:HTML編碼清理;樹的構(gòu)建。用標(biāo)簽和視覺提示構(gòu)建DOM樹:通過調(diào)用瀏覽器的渲染引擎找到每一個(gè)HTML元素長廊形的四個(gè)邊界;依據(jù)開始標(biāo)簽序列進(jìn)行包含檢驗(yàn)以構(gòu)建標(biāo)簽樹。包含檢驗(yàn):是指檢驗(yàn)一個(gè)長方形是否被另一個(gè)長方形包含。基于列表頁的抽?。浩教箶?shù)據(jù)記錄的抽取平坦數(shù)據(jù)記錄抽取流程或算法步驟:假設(shè)網(wǎng)頁的DOM樹已經(jīng)構(gòu)建,給定一個(gè)含有多個(gè)列表,且每個(gè)列表含有多個(gè)數(shù)據(jù)記錄的列表頁,將執(zhí)行下列任務(wù)(應(yīng)盡量細(xì)化內(nèi)核):(1)識(shí)別每個(gè)列表(也稱為數(shù)據(jù)區(qū)域),即挖掘所有數(shù)據(jù)區(qū)域(挖掘廣義節(jié)點(diǎn)序列;比較廣義節(jié)點(diǎn););——MDR算法,(2)將每個(gè)列表或數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)記錄分段,以及;——識(shí)別數(shù)據(jù)記錄、(3)對(duì)齊數(shù)據(jù)記錄中的數(shù)據(jù)項(xiàng)以為每一個(gè)數(shù)據(jù)區(qū)域產(chǎn)生一個(gè)數(shù)據(jù)表和一個(gè)正則表達(dá)式。數(shù)據(jù)項(xiàng)對(duì)齊與抽?。粵_突消解;利用視覺信息等;基于列表頁的抽取——嵌套數(shù)據(jù)記錄(NET算法:后序遍歷):了解(ch10)信息集成1、基本概念(1)信息集成:最初的研究是針對(duì)關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫。(2)WEB全局搜索界面:是用來產(chǎn)生查詢字從而到WEB數(shù)據(jù)庫(深層WEB)中獲取相關(guān)信息的。全局搜索界面允許用戶輸入相關(guān)的信息,系統(tǒng)根據(jù)用戶提供的信息自動(dòng)填寫所有的源搜索界面從而從各個(gè)站點(diǎn)獲取所。各站點(diǎn)返回的數(shù)據(jù)需要經(jīng)過集成,展示給用戶。(3)樣式表匹配:是指對(duì)于兩個(gè)或更多個(gè)數(shù)據(jù)庫的樣式表建立映射,把具有相同意義的屬性(或元素)映射到一起。目的是把多個(gè)樣式表整合為一張全局的統(tǒng)一的樣式表。(4)樣式表的匹配方法:半自動(dòng)化的匹配(有難度,基于啟發(fā)式的領(lǐng)域知識(shí))或自動(dòng)匹配(難度很大,產(chǎn)生候選匹配由用戶確認(rèn)……)。基于輸入信息,樣式表匹配的不同類型:樣式表層次的匹配、領(lǐng)域和實(shí)例層次的匹配;樣式表、領(lǐng)域、實(shí)例整合的匹配。樣式表匹配的預(yù)處理:分詞、擴(kuò)展、移除無用詞和詞干提取、詞的標(biāo)準(zhǔn)化等。匹配類型:1:1;1:m;m:1;m:n樣式表層次的匹配中,主要有兩種信息:樣式表中屬性的名稱、描述等的自然語言詞匯(基于語言學(xué)的算法——名稱匹配、上位關(guān)系、基于描述的匹配等);樣式表中的限制(數(shù)據(jù)類型和數(shù)值范圍、唯一性、關(guān)系類型的的限制等)?;陬I(lǐng)域和實(shí)例層次的匹配:在WEB數(shù)據(jù)庫中,數(shù)據(jù)實(shí)例易于獲得;有些應(yīng)用中,屬性的領(lǐng)域信息也是可獲得的。屬性的領(lǐng)域分為:簡單領(lǐng)域和復(fù)雜領(lǐng)域。簡單領(lǐng)域是指該領(lǐng)域中的實(shí)例值都是簡單的,也就是非合成的。數(shù)據(jù)類型:如果樣式表對(duì)于屬性的類型沒有說明,則需要通過屬性的實(shí)例值來判斷元素的數(shù)據(jù)類型。識(shí)別數(shù)據(jù)類型的方法:半自動(dòng)方法(即正則表達(dá)式匹配的方法)和自動(dòng)化方法(使用機(jī)器學(xué)習(xí)的方法)。匹配算法:DI1——DI6簡單領(lǐng)域匹配算法DI1-使用數(shù)據(jù)類型作為限制信息,建立對(duì)應(yīng)表來描述一系列預(yù)定義好的數(shù)據(jù)類型之間的兼容度。DI2-對(duì)于數(shù)字類型的數(shù)據(jù),數(shù)值范圍、平均值和言狀都可以被用來計(jì)算他們之間的數(shù)據(jù)類型的相似度。DI3-對(duì)于不確定的數(shù)據(jù)類型,可以抽取和比較兩個(gè)元素的實(shí)例值,以決定其屬性是否匹配。DI4-對(duì)于字母和數(shù)字混雜的數(shù)據(jù)類型,字符串的長度和字母/非字母的比例都是非常有用的信息。DI5-對(duì)于文本數(shù)據(jù),可以用夾角余弦計(jì)算屬性之間的相似度。DI6-把樣式表元素的名稱添加到實(shí)例值中進(jìn)行比較。復(fù)合的領(lǐng)域和屬性:一個(gè)K元的復(fù)合領(lǐng)域是一個(gè)有序的K元組,其中第i個(gè)部分是第i個(gè)子領(lǐng)域的值,記作di。每個(gè)di都是一個(gè)簡單領(lǐng)域。如果一個(gè)屬性所有的領(lǐng)域是復(fù)合的,則稱該屬性是復(fù)合的屬性。一個(gè)復(fù)合領(lǐng)域通??梢酝ㄟ^它的實(shí)例值來反映。往往含有各種形式的分隔符,或其他的特殊單詞。進(jìn)行復(fù)合領(lǐng)域的匹配時(shí),為了保證分隔的正確性,需要大量的實(shí)例值。算法DI7-一個(gè)簡單領(lǐng)域與一個(gè)復(fù)合領(lǐng)域的相似度是通過比較簡單領(lǐng)域和復(fù)合領(lǐng)域的各個(gè)子領(lǐng)域來實(shí)現(xiàn)的。兩個(gè)復(fù)合領(lǐng)域的相似度也是通過比較他們各自所包含的簡單子領(lǐng)域的相似性來決定的。不同相似度的聯(lián)合:可通過多種策略實(shí)現(xiàn)——取最大值的策略;加權(quán)和;加權(quán)平均;機(jī)器學(xué)習(xí)的方法。1:m匹配——對(duì)于part-of類型的匹配;對(duì)于is-a類型的匹配樣式表匹配的結(jié)果的處理:最熱門N個(gè)候選;取最大相似度;閾值篩選等。(5)WEB全局搜索界面:把多個(gè)搜索界面集成為一個(gè)以提供給用戶一個(gè)全局的搜索因人而異,無需用戶逐個(gè)手動(dòng)搜索各個(gè)數(shù)據(jù)源,只需在全局搜索界面上輸入所需的信息即可。WEB全局搜索界面與普通的信息集成的區(qū)別:在WEB搜索界面中縮寫記號(hào)使用非常有限;詞匯有限;WEB中有大量的相似數(shù)據(jù)庫(網(wǎng)頁);附加的結(jié)構(gòu)。WEB全局搜索界面集成的方法:基于聚類的算法;基于互關(guān)系的方法;基于實(shí)例的方法。WEB全局搜索界面構(gòu)建步驟:一個(gè)良好的全局搜索界面應(yīng)該滿足的條件:結(jié)構(gòu)上的正確性;詞匯的正確性和實(shí)例的正確性。2、主要知識(shí)點(diǎn)(1)信息集成:從單一網(wǎng)站上抽取信息往往是不夠的,需要從大量的站點(diǎn)中提取數(shù)據(jù),然后對(duì)提取出的數(shù)據(jù)進(jìn)行集成以便提供增值服務(wù)。對(duì)不同的數(shù)據(jù)而言集成意味著匹配出表示同類信息的列,或者匹配出語義相同但是表達(dá)方式不同的值,并可能存放在后臺(tái)數(shù)據(jù)庫中。(2)信息集成的基本方法:樣式表匹配抽取樣式表——樣式表預(yù)處理——樣式表層次的匹配(基于語言學(xué)的算法、或基于樣式表中限制的算法)、基于領(lǐng)域和實(shí)例層次的匹配(簡單領(lǐng)域匹配方法——半自動(dòng)的方法或自動(dòng)的方法;復(fù)合領(lǐng)域匹配的方法)、樣式表/領(lǐng)域/實(shí)例整合的匹配;——大量樣式表的匹配(借助聚類算法、互關(guān)系或模式發(fā)現(xiàn)算法)——樣式表匹配的結(jié)果處理(最熱門的N個(gè)候選;最大相似度;閾值篩選等)——用戶交互(匹配系統(tǒng)搭建;匹配的后期工作)。(3)WEB搜索界面的集成:全局搜索界面的構(gòu)建全局搜索界面樣式表:全局搜索界面構(gòu)建:基于聚類的算法、基于互關(guān)系的方法、基于實(shí)例的方法?;诰垲惖乃惴ǎ毫私鈱?shí)現(xiàn)思想基于互關(guān)系的方法:了解實(shí)現(xiàn)思想基于實(shí)例的方法:了解實(shí)現(xiàn)思想(ch11)觀點(diǎn)挖掘1、基本概念背景:從網(wǎng)頁中抽取的結(jié)構(gòu)化數(shù)據(jù)通常在網(wǎng)頁設(shè)計(jì)時(shí)是來自于一個(gè)后臺(tái)的數(shù)據(jù)庫,并遵循一定的模板格式顯示在網(wǎng)頁中。此外,網(wǎng)頁中還存在大量的非結(jié)構(gòu)化的文本信息,包括了所有類型的各種有價(jià)值的信息,分析這些信息是非常重要的。觀點(diǎn)挖掘的背景:企業(yè)需要了解用戶對(duì)其產(chǎn)品或服務(wù)的評(píng)價(jià);新用戶需要知道現(xiàn)有用戶對(duì)某產(chǎn)品或服務(wù)的評(píng)價(jià);了解評(píng)價(jià)可為廣告放置提供參考等?,F(xiàn)實(shí)性與可能性:網(wǎng)絡(luò)用戶有多種發(fā)表觀點(diǎn)的方法:商業(yè)網(wǎng)站、產(chǎn)品或服務(wù)評(píng)價(jià)、博客、論壇等。本章內(nèi)容:評(píng)估文本、觀點(diǎn)搜索、觀點(diǎn)欺詐。(1)評(píng)估文本的三個(gè)挖掘任務(wù):意見分類、基于特征的觀點(diǎn)挖掘和摘要、比較性句子和比較關(guān)系挖掘。(2)觀點(diǎn)挖掘:可以使用戶搜索關(guān)于任何對(duì)象的觀點(diǎn)。(3)觀點(diǎn)欺詐:欺詐性觀點(diǎn)是指有些人為推銷自身產(chǎn)品或服務(wù)?;蛘邠p害競爭對(duì)手聲譽(yù)而發(fā)表的那些不切實(shí)際的或者懷有惡意的觀點(diǎn)。意見分類:正面評(píng)論、負(fù)面評(píng)論和中立評(píng)論。意見分類主要用于快速判定大眾對(duì)一個(gè)對(duì)象的普遍觀點(diǎn)。該任務(wù)和傳統(tǒng)的基于主題的文本分類相似。但有不同。意見分類中主題相關(guān)的詞匯并不重要,表征正面或負(fù)面觀點(diǎn)的詞匯更加重要。意見分類的研究層次:主要是文檔層次;其次還有句子層次的。①意見分類的具體方法:基于意見短語的分類;采用文本分類方法進(jìn)行意見分類;基于評(píng)分函數(shù)進(jìn)行分類?;谝庖姸陶Z的分類:基于各個(gè)評(píng)估文本中正面和負(fù)面的意見詞和短語?!惴ú襟E:基于調(diào)整性標(biāo)注的自然語言處理技術(shù)S1.抽取包含有形容詞和副詞的短語,采用賓州樹庫詞性標(biāo)注集(表11.1)+基于特征的觀點(diǎn)摘要(表11.2);S2.采用點(diǎn)對(duì)互信息估計(jì)所抽取的短語的語義傾向(一個(gè)短語的語義傾向SO基于它和正面參考詞“excellent”與負(fù)面詞“poor”的關(guān)聯(lián)程度進(jìn)行計(jì)算);S3.給定一個(gè)評(píng)審。算法計(jì)算評(píng)審中所有短語的平均SO。如果平均SO是正的,則為正面證人否則為負(fù)面評(píng)價(jià)。采用文本分類方法進(jìn)行意見分類:將該問題作為基于主題的文本分類問題,可采用na?veBayesian,VM,N等方法。基于評(píng)分函數(shù)進(jìn)行分類:采用通用評(píng)分函數(shù),算法步驟為:S1.在訓(xùn)練集中采用評(píng)分公式為每個(gè)詞賦值,介于-1——1之間;S2.算法將新文檔的所有詞的評(píng)分求和,并給出分類的判斷。②基于特征的觀點(diǎn)挖掘和摘要:一個(gè)關(guān)于特定對(duì)象的正面評(píng)估文本并不能說明作者對(duì)于該對(duì)象的任一方面都有正面的評(píng)價(jià)。在一個(gè)特定產(chǎn)品的評(píng)審中,評(píng)審人通常會(huì)同時(shí)給出一個(gè)產(chǎn)品的正面或負(fù)面評(píng)價(jià),挖掘往往作用于句子層面。定位和抽取評(píng)審者所評(píng)論產(chǎn)品的特征——產(chǎn)品特征判定對(duì)于特定特征的評(píng)價(jià)是正面的、負(fù)面的還是中立的。對(duì)象:一個(gè)對(duì)象O是指一個(gè)實(shí)體,它可以是一個(gè)產(chǎn)品、人物、事件、組織或者主題。它關(guān)聯(lián)到一個(gè)序?qū):(T,A),其中T是一個(gè)層次化或者結(jié)構(gòu)化的部件(或者組件)、子部件等。A是一個(gè)關(guān)于屬性的集合,每個(gè)部件都擁有它自己的子部件或?qū)傩约稀:數(shù)碼相機(jī)部件:lens,battery,view-finder……..Battery:life,size,weight……顯式特征和隱式特征:如果一個(gè)特征f出現(xiàn)在一個(gè)評(píng)估文本r中,則稱它是r的一個(gè)顯式特征。如果f沒有在r中出現(xiàn),則稱其為r的一個(gè)隱式特征。如thebatterylifeofthiscameraistooshort.Thiscameraistoolarge.某一特征的觀點(diǎn)段:一個(gè)關(guān)于對(duì)象r的特征f的觀點(diǎn)段是r中一組表達(dá)了關(guān)于f的正面或者負(fù)面觀點(diǎn)的連續(xù)句子。如:thebatteryqualityisgood,butthebatterylifeisshort.大多數(shù)的研究集中在句子上。每個(gè)段落由一個(gè)單獨(dú)的句子組成。顯式觀點(diǎn)和隱式觀點(diǎn):一個(gè)關(guān)于特征f的顯式觀點(diǎn)是一個(gè)直接表達(dá)了正面或負(fù)面觀點(diǎn)的主觀句子。一個(gè)關(guān)于特征f的隱式觀點(diǎn)是一個(gè)蘊(yùn)含了正面或負(fù)面觀點(diǎn)的客觀句子。如:thispicturequalityofthiscameraisamazing.Theearphonebrokeintwodays.觀點(diǎn)持有對(duì)象:關(guān)于某一特定觀點(diǎn)的持有對(duì)象是指擁有這一觀點(diǎn)的人或組織。一個(gè)對(duì)象和該對(duì)象之上的觀點(diǎn)集合的簡要模型:一個(gè)對(duì)象可以被表示為一個(gè)關(guān)于特征的有限集合F={f1,f2,…,fn},每一個(gè)F中的特征fi都可以表示為一個(gè)同義詞或者同義短語Wi的集合。即對(duì)于n個(gè)特征,有一個(gè)對(duì)應(yīng)的同義詞集合W={W1,W2,…Wn}。由于每個(gè)F中的特征fi都有一個(gè)名字(標(biāo)記為fi),可得到fi∈Wi。每個(gè)作者或觀點(diǎn)持有對(duì)象j對(duì)一個(gè)特征的子集SjF進(jìn)行評(píng)論。對(duì)于每個(gè)觀點(diǎn)持有對(duì)象進(jìn)行評(píng)論了的特征fk∈Sj,可以從Wk中選擇一個(gè)詞或者短語來描述該特征,并對(duì)其表達(dá)正面或負(fù)面的觀點(diǎn)。給定一個(gè)評(píng)測文本集合D作為輸入,則可有如下三個(gè)問題:P1:F和W都是未知的,在觀點(diǎn)挖掘中需要挖掘的任務(wù)——T1、T2和T3.T1:從每個(gè)評(píng)估d∈D中定位與抽取被評(píng)估對(duì)象的特征。T2:確定對(duì)于該特征的觀點(diǎn)是正面的、負(fù)面的或中立的。T3:由于不同的人可能采用不同的詞或短語來描述同樣的特征。需將各個(gè)特征的同義詞進(jìn)行歸并。P2:F已知而W未知。與P1類似有三個(gè)任務(wù),但處理更簡單。其中T1與T2同前;但T3可將已發(fā)現(xiàn)的特征與給定特征集合F進(jìn)行匹配而求解。P3:W已知(可以推出F也是已知的)。僅需要進(jìn)行任務(wù)T2,即在抽取所有包含相應(yīng)特征的句子后,,確定一個(gè)已知特征上的觀點(diǎn)是正面的,負(fù)面的還是中立的?;谔卣鞯恼盒纬舍槍?duì)某一對(duì)象的各種觀點(diǎn)的基于特征的摘要。對(duì)象特征提取:主要用在在線產(chǎn)品的評(píng)審上。有三種類型的評(píng)審格式,不同的評(píng)審格式需要不同的技術(shù)進(jìn)行特征提取。格式1:區(qū)分正面、負(fù)面以及細(xì)節(jié)的評(píng)審。評(píng)審者被要求獨(dú)立地描述正面和負(fù)面觀點(diǎn);此外,還要給出細(xì)節(jié)評(píng)審。格式2:區(qū)分正面和負(fù)面的評(píng)審。評(píng)審者被要求獨(dú)立地描述正面和負(fù)面觀點(diǎn);但不需要給出獨(dú)立的細(xì)節(jié)評(píng)審。格式3:自由格式。評(píng)審者可以自由地給出評(píng)價(jià)。不必區(qū)分正面或負(fù)面觀點(diǎn)。格式1中特征抽取算法:S1:用于LSR挖掘的訓(xùn)練數(shù)據(jù)準(zhǔn)備;S2:標(biāo)記順序規(guī)則挖掘;找到包含特征的規(guī)則,詞性標(biāo)注和詞形成語言模式;S3:特征抽取,考慮三種情形:如果一個(gè)句子片段匹配多個(gè)規(guī)則的處理對(duì)于沒有規(guī)則適用的句子片段,如果存在,被詞性標(biāo)注工具標(biāo)出來的名詞和名詞短語被抽取為特征;對(duì)于只有一個(gè)詞的句子片段,單一詞匯被對(duì)待為特征。隱式特征匹配同義詞分組特征粒度格式2和格式3的特征抽取算法:了解S1:找到所有的調(diào)頻名詞和名詞短語;名詞和名詞短語可能通過詞性標(biāo)注工具勷S2:通過利用意見詞找到不頻繁出現(xiàn)的特征。意見詞(又稱觀點(diǎn)詞)通常表達(dá)正面或負(fù)面評(píng)價(jià)的形容詞和副詞。觀點(diǎn)傾向分類:意見詞和短語是那些表達(dá)了正面或負(fù)面意見(觀點(diǎn))的詞,通常是形容詞和副詞,也可是動(dòng)詞或名詞。已構(gòu)建了意見詞的集合人工找到一個(gè)正面或負(fù)面詞匯、成語的種子集合,為形容詞、動(dòng)詞、名詞和副詞、成語等都準(zhǔn)備一個(gè)單獨(dú)的種子集合。在WORDNET中迭代地查找它們的同義詞和反義詞,以此擴(kuò)展種子集合直到收斂。人工檢查結(jié)果,并去除不正確的詞匯。識(shí)別句子的意見詞和短語,是正面的則賦值+1,負(fù)面的賦值為-1,所有的賦值相加,為正則結(jié)論是正面的,否則結(jié)論為負(fù)面的。③比較性句子和比較關(guān)系挖掘——直接表達(dá)某一對(duì)象的正面或負(fù)面觀點(diǎn)只是評(píng)估的一種形式,將一個(gè)對(duì)象和其他同等對(duì)象進(jìn)行比較是另一種形式。比較也是更能讓人信服的一種方式。分為主觀比較和客觀比較。如thepicturequalityofcameraxisgreat.典型句子主觀比較:thepicturequalityofcameraxisbetterthanthatofcameray.客觀比較:cameraXis20gramsheavierthancameray.比較性句子和判定比較關(guān)系是很難的。很多包含比較級(jí)(最高級(jí))的句子并不是比較格式;而不包含這類詞的句子卻是比較性句子。比較性句子:是一個(gè)表達(dá)了多個(gè)對(duì)象之間的相似或者不同關(guān)系的句子,比較性句子中的比較關(guān)系通常由一個(gè)形容詞或副詞的比較級(jí)或最高級(jí)來表達(dá)。幾種重要的比較類型:等級(jí)比較和非等級(jí)比較,其中等級(jí)比較可進(jìn)一步分為形容詞和副詞比較。等級(jí)比較包括:不相等的等級(jí)比較、相等等級(jí)的比較、最高級(jí)的比較。非等級(jí)比較比較了兩個(gè)或者多個(gè)對(duì)象的特征,但并不對(duì)他們進(jìn)行分級(jí)??煞譃槿N類型:對(duì)象A和對(duì)象B在某些特征上相似或者不同;對(duì)象A有特征f1,而對(duì)象B有特征f2;對(duì)象A擁有特征f,但是對(duì)象B沒有。比較性句子的三種類型:非平等等級(jí)比較;平等比較;最高級(jí)比較。比較關(guān)系的抽取:序列數(shù)據(jù)產(chǎn)生:用于挖掘的順序數(shù)據(jù)庫創(chuàng)建;在數(shù)據(jù)中手工標(biāo)記每個(gè)句子的標(biāo)號(hào)詞…….LSR的生成挖掘規(guī)則系統(tǒng)被用來生成標(biāo)號(hào)順序規(guī)則。關(guān)系項(xiàng)抽取,如使用規(guī)則來匹配句子,并用具有最高置信度的規(guī)則來抽取關(guān)系項(xiàng)。觀點(diǎn)搜索包括:搜索某一特定對(duì)象或?qū)ο筇卣魃系挠^點(diǎn)。搜索某一個(gè)人或組織對(duì)某一特定對(duì)象或?qū)ο筇卣鞯目捶āS^點(diǎn)欺詐指人們故意誤導(dǎo)讀者和自動(dòng)觀點(diǎn)挖掘系統(tǒng)的行為(比如撰寫欺詐性的評(píng)審)。觀點(diǎn)欺詐的目的:推銷某些目標(biāo)對(duì)象;損害某些其他目標(biāo)對(duì)象的聲譽(yù)等。觀點(diǎn)欺詐的行為:為了推銷目標(biāo)對(duì)象撰寫一些不切實(shí)際的正面評(píng)審——炒作欺詐;為了詆毀某些目標(biāo)對(duì)象的聲譽(yù),撰寫一些不公平或者惡毒的反而評(píng)審——誹謗欺詐。欺詐和欺詐者的種類:人工欺詐和自動(dòng)欺詐;個(gè)人欺詐和群組欺詐。隱藏技巧:欺詐者為了避免被檢測出來所采取的預(yù)防措施。欺詐檢測:面向評(píng)論的欺詐檢測;面向評(píng)論者的欺詐檢測;面向服務(wù)器的欺詐檢測。面向評(píng)論的欺詐檢測:比較內(nèi)容相似性;檢測評(píng)分和內(nèi)容例外;比較多個(gè)網(wǎng)站的平均打分;檢測評(píng)分例外。面向評(píng)論者的欺詐檢測:觀察早期用戶;檢測早期修正動(dòng)作;比較同一評(píng)論者對(duì)于不同品牌產(chǎn)品的評(píng)論打分;比較評(píng)論時(shí)間。面向服務(wù)器的欺詐檢測。2、主要知識(shí)點(diǎn)(1)意見分類基于意見短語的分類算法:基于各個(gè)評(píng)估文本中正面和負(fù)面的意見詞和短語。——算法步驟:基于調(diào)整性標(biāo)注的自然語言處理技術(shù)S1.抽取包含有形容詞和副詞的短語,采用賓州樹庫詞性標(biāo)注集(表11.1)+基于特征的觀點(diǎn)摘要(表11.2);S2.采用點(diǎn)對(duì)互信息估計(jì)所抽取的短語的語義傾向(一個(gè)短語的語義傾向SO基于它和正面參考詞“excellent”與負(fù)面詞“poor”的關(guān)聯(lián)程度進(jìn)行計(jì)算);S3.給定一個(gè)評(píng)審。算法計(jì)算評(píng)審中所有短語的平均SO。如果平均SO是正的,則為正面證人否則為負(fù)面評(píng)價(jià)。采用文本分類方法進(jìn)行意見分類:將該問題作為基于主題的文本分類問題,可采用na?veBayesian,VM,N等方法?;谠u(píng)分函數(shù)進(jìn)行分類:采用通用評(píng)分函數(shù),算法步驟為:S1.在訓(xùn)練集中采用評(píng)分公式為每個(gè)詞賦值,介于-1——1之間;S2.算法將新文檔的所有詞的評(píng)分求和,并給出分類的判斷。基于特征的觀點(diǎn)挖掘和摘要:一個(gè)關(guān)于特定對(duì)象的正面評(píng)估文本并不能說明作者對(duì)于該對(duì)象的任一方面都有正面的評(píng)價(jià)。在一個(gè)特定產(chǎn)品的評(píng)審中,評(píng)審人通常會(huì)同時(shí)給出一個(gè)產(chǎn)品的正面或負(fù)面評(píng)價(jià),挖掘往往作用于句子層面。定位和抽取評(píng)審者所評(píng)論產(chǎn)品的特征——產(chǎn)品特征判定對(duì)于特定特征的評(píng)價(jià)是正面的、負(fù)面的還是中立的。對(duì)象:一個(gè)對(duì)象O是指一個(gè)實(shí)體,它可以是一個(gè)產(chǎn)品、人物、事件、組織或者主題。它關(guān)聯(lián)到一個(gè)序?qū):(T,A),其中T是一個(gè)層次化或者結(jié)構(gòu)化的部件(或者組件)、子部件等。A是一個(gè)關(guān)于屬性的集合,每個(gè)部件都擁有它自己的子部件或?qū)傩约稀:數(shù)碼相機(jī)部件:lens,battery,view-finder……..Battery:life,size,weight……顯式特征和隱式特征:如果一個(gè)特征f出現(xiàn)在一個(gè)評(píng)估文本r中,則稱它是r的一個(gè)顯式特征。如果f沒有在r中出現(xiàn),則稱其為r的一個(gè)隱式特征。如thebatterylifeofthiscameraistooshort.Thiscameraistoolarge.某一特征的觀點(diǎn)段:一個(gè)關(guān)于對(duì)象r的特征f的觀點(diǎn)段是r中一組表達(dá)了關(guān)于f的正面或者負(fù)面觀點(diǎn)的連續(xù)句子。如:thebatteryqualityisgood,butthebatterylifeisshort.大多數(shù)的研究集中在句子上。每個(gè)段落由一個(gè)單獨(dú)的句子組成。顯式觀點(diǎn)和隱式觀點(diǎn):一個(gè)關(guān)于特征f的顯式觀點(diǎn)是一個(gè)直接表達(dá)了正面或負(fù)面觀點(diǎn)的主觀句子。一個(gè)關(guān)于特征f的隱式觀點(diǎn)是一個(gè)蘊(yùn)含了正面或負(fù)面觀點(diǎn)的客觀句子。如:thispicturequalityofthiscameraisamazing.Theearphonebrokeintwodays.觀點(diǎn)持有對(duì)象:關(guān)于某一特定觀點(diǎn)的持有對(duì)象是指擁有這一觀點(diǎn)的人或組織。一個(gè)對(duì)象和該對(duì)象之上的觀點(diǎn)集合的簡要模型:一個(gè)對(duì)象可以被表示為一個(gè)關(guān)于特征的有限集合F={f1,f2,…,fn},每一個(gè)F中的特征fi都可以表示為一個(gè)同義詞或者同義短語Wi的集合。即對(duì)于n個(gè)特征,有一個(gè)對(duì)應(yīng)的同義詞集合W={W1,W2,…Wn}。由于每個(gè)F中的特征fi都有一個(gè)名字(標(biāo)記為fi),可得到fi∈Wi。每個(gè)作者或觀點(diǎn)持有對(duì)象j對(duì)一個(gè)特征的子集SjF進(jìn)行評(píng)論。對(duì)于每個(gè)觀點(diǎn)持有對(duì)象進(jìn)行評(píng)論了的特征fk∈Sj,可以從Wk中選擇一個(gè)詞或者短語來描述該特征,并對(duì)其表達(dá)正面或負(fù)面的觀點(diǎn)。給定一個(gè)評(píng)測文本集合D作為輸入,則可有如下三個(gè)問題:P1:F和W都是未知的,在觀點(diǎn)挖掘中需要挖掘的任務(wù)——T1、T2和T3.T1:從每個(gè)評(píng)估d∈D中定位與抽取被評(píng)估對(duì)象的特征。T2:確定對(duì)于該特征的觀點(diǎn)是正面的、負(fù)面的或中立的。T3:由于不同的人可能采用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 以展興城會(huì)展業(yè)對(duì)城市發(fā)展的推動(dòng)作用
- 傳統(tǒng)禮儀在家庭教育中的重要性及實(shí)踐
- 2024屠戶生豬代宰與屠宰企業(yè)安全生產(chǎn)責(zé)任合同3篇
- 2025中國鐵路南寧局集團(tuán)限公司招聘高校畢業(yè)生1423人一(高等職業(yè)院校)高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025中國神華煤制油化工限公司社會(huì)招聘9人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025中國石化天津石化分公司畢業(yè)生招聘40人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025中國旅游集團(tuán)限公司校園招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025中冶沈勘招聘145人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025下半年陜西銅川市事業(yè)單位招聘工作人員87人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025下半年湖北黃石事業(yè)單位聯(lián)考高頻重點(diǎn)提升(共500題)附帶答案詳解
- 垃圾運(yùn)輸清運(yùn)合同
- 基礎(chǔ)工程-趙明華-第二章
- 腎病科主任述職報(bào)告
- 2023-2024全國初中物理競賽試題第11講壓強(qiáng)(解析版)
- 擴(kuò)大高水平對(duì)外開放課件
- 衛(wèi)生院年度工作總結(jié)
- 遺傳學(xué)-第二版-課后答案(1-8章)
- 2024年供應(yīng)鏈管理師(一級(jí))資格考試復(fù)習(xí)題庫(含答案)
- 《地理信息系統(tǒng)》課程中的思政元素科技服務(wù)于人與自然和諧共生
- 校招面試官培訓(xùn)課件
- 資產(chǎn)管理基礎(chǔ)知識(shí)
評(píng)論
0/150
提交評(píng)論