大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第1頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第2頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第3頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第4頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析方法與應(yīng)用上海理工大學(xué)主講人:耿秀麗

教授第6章文本挖掘6.1文本挖掘的應(yīng)用價(jià)值目錄CONTENTS6.2文本挖掘的流程6.3LDA主題模型6.4模型評(píng)估第6章文本挖掘6.5基于LDA主題模型的客戶需求挖掘案例分析6.1文本挖掘的應(yīng)用價(jià)值數(shù)據(jù)挖掘(DataMining)這一詞最早由UsamaFayaadg,于1995年在加拿大蒙特利爾召開的第一屆“知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘”國(guó)際學(xué)術(shù)會(huì)議上提出,它是一門很廣泛的交叉學(xué)科,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。結(jié)合人工智能研究領(lǐng)域中的自然語言理解和計(jì)算機(jī)語言學(xué),從數(shù)據(jù)挖掘中派生了兩類新興的數(shù)據(jù)挖掘研究領(lǐng)域:網(wǎng)絡(luò)挖掘和文本挖掘。6.1文本挖掘的應(yīng)用價(jià)值

網(wǎng)絡(luò)挖掘側(cè)重于分析和挖掘網(wǎng)頁相關(guān)的數(shù)據(jù),包括文本、鏈接結(jié)構(gòu)和訪問統(tǒng)計(jì)(最終形成用戶網(wǎng)絡(luò)導(dǎo)航)。一個(gè)網(wǎng)頁中包含了多種不同的數(shù)據(jù)類型,因此網(wǎng)絡(luò)挖掘就包含了文本挖掘、數(shù)據(jù)庫中數(shù)據(jù)挖掘、圖像挖掘等。網(wǎng)絡(luò)挖掘6.1文本挖掘的應(yīng)用價(jià)值

文本挖掘,是指以數(shù)理統(tǒng)計(jì)學(xué)和計(jì)算機(jī)語言學(xué)為理論基礎(chǔ),利用信息檢索技術(shù)從大量文本數(shù)據(jù)中提取未知的、隱含的、可能有用的信息的過程,也被稱為自然語言處理。文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過程。目的:在于把文本信息轉(zhuǎn)化為人可利用的知識(shí)。它需要多學(xué)科的融合才能達(dá)到最好的效果,一般涵蓋了統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、文本分析、模式識(shí)別、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)。用途:作為信息挖掘的一個(gè)研究分支,文本挖掘用于基于文本信息的知識(shí)發(fā)現(xiàn)。它利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源,抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息。文本挖掘6.1文本挖掘的應(yīng)用價(jià)值

隨著人工智能研究的發(fā)展,文本挖掘技術(shù)被廣泛地應(yīng)用到很多場(chǎng)景,比如智能語音,機(jī)器翻譯,文本分析,語音助手,問答系統(tǒng)等等。下面將分別詳細(xì)介紹文本挖掘技術(shù)在機(jī)器翻譯、文本分析以及問答系統(tǒng)場(chǎng)景中的應(yīng)用價(jià)值。6.1文本挖掘的應(yīng)用價(jià)值機(jī)器翻譯的應(yīng)用價(jià)值如何克服語言障礙,實(shí)現(xiàn)不同語言的人之間可以自由地交流,已成為國(guó)際社會(huì)共同面對(duì)的問題?;ヂ?lián)網(wǎng)的高速發(fā)展擴(kuò)大了對(duì)于機(jī)器翻譯的需求。機(jī)器翻譯可以為人工翻譯減輕負(fù)擔(dān),提高翻譯效率,在部分場(chǎng)景和任務(wù)下可替代人工,有極其廣闊的應(yīng)用前景。6.1文本挖掘的應(yīng)用價(jià)值文本分析的應(yīng)用價(jià)值隨著大數(shù)據(jù)的發(fā)展,文本分析被廣泛地應(yīng)用到問卷調(diào)研的處理、新媒體熱點(diǎn)采集追蹤及預(yù)測(cè)、企業(yè)品牌和產(chǎn)品的口碑管理等各個(gè)方面。此外,文本分析在輿情監(jiān)測(cè)方面也受到越來越多的重視。利用基于大數(shù)據(jù)的文本分析,可以清晰地知曉事件從始發(fā)到發(fā)酵期、發(fā)展期、高漲期、回落期和反饋期等階段的演變過程,分析輿情的傳播路徑、傳播節(jié)點(diǎn)、發(fā)展態(tài)勢(shì)和受眾反饋等情報(bào)。6.1文本挖掘的應(yīng)用價(jià)值問答系統(tǒng)的應(yīng)用價(jià)值問答系統(tǒng)是信息檢索系統(tǒng)的一種高級(jí)形式,它能用準(zhǔn)確、簡(jiǎn)潔的自然語言回答用戶用自然語言提出的問題。相對(duì)于傳統(tǒng)搜索引擎來說,問答系統(tǒng)更加智能,效率也更高,被看作是未來信息服務(wù)的顛覆性技術(shù)之一。隨著人工智能第三次熱潮的到來,問答系統(tǒng)的應(yīng)用領(lǐng)域更加廣泛。6.1文本挖掘的應(yīng)用價(jià)值除了在現(xiàn)實(shí)生活中應(yīng)用以外,許多學(xué)者對(duì)文本挖掘也進(jìn)行了廣泛的研究。①廖玉清在量化分析后從政策制定側(cè)重點(diǎn)及政策內(nèi)容上對(duì)文本進(jìn)行總結(jié)。②孫寶生等構(gòu)建游客滿意度評(píng)價(jià)指標(biāo)體系和評(píng)價(jià)模型,定量評(píng)價(jià)游客的生態(tài)旅游滿意度,為相關(guān)生態(tài)旅游政策的制定提供參考。③張敏等采用共詞分析和聚類分析這兩種定量方法剖析了文本挖掘研究現(xiàn)狀,表明文本挖掘在信息檢索、生物醫(yī)學(xué)和經(jīng)濟(jì)管理領(lǐng)域應(yīng)用廣泛;④史航等通過聚類分析得出結(jié)論,未來文本挖掘在生物醫(yī)學(xué)領(lǐng)域應(yīng)用的主要研究熱點(diǎn)為文本挖掘的基本技術(shù)研究、文本挖掘在生物信息學(xué)領(lǐng)域的應(yīng)用、文本挖掘在藥物相關(guān)事實(shí)抽取中的應(yīng)用三個(gè)方面。⑤李建蘭等也表明,未來將其應(yīng)用于網(wǎng)絡(luò)新媒體及輿情分析、商業(yè)流程優(yōu)化、醫(yī)療健康分析等領(lǐng)域會(huì)越來越成熟。6.2文本挖掘的流程文本挖掘的流程通常我們得到的原始文本數(shù)據(jù)冗余、復(fù)雜,因此文本挖掘處理是分析文本信息非常重要的一部分。將重復(fù)、多余、無意義的文本信息剔除,可以提高文本分析的精確度,保證文本信息的質(zhì)量,使之后得出的分析結(jié)果更準(zhǔn)確。文本挖掘流程如圖所示。6.2文本挖掘的流程1)文檔集獲取該過程包括網(wǎng)絡(luò)數(shù)據(jù)抓取、文件讀入及圖片OCR的轉(zhuǎn)化等??梢酝ㄟ^編寫爬蟲代碼或利用爬蟲軟件方式獲取數(shù)據(jù)。2)數(shù)據(jù)清洗對(duì)文檔集通過丟棄、替換、去重等操作,達(dá)到去除異常、糾正錯(cuò)誤、補(bǔ)足缺失的目的。6.2文本挖掘的流程3)分詞與去除停用詞分詞:把文檔集中的每句話分成無數(shù)個(gè)孤立的詞,作為最小的信息單位,即分詞。停用詞:在分詞處理后解析的文本中常常會(huì)有很多無效的詞,比如“著”、“和”以及一些標(biāo)點(diǎn)符號(hào),由于在文本分析時(shí)這些詞一般是我們不想引入的,因此我們需要去除這些冗余的詞及無意義的停用詞。對(duì)于這些停用詞的處理可以從網(wǎng)上下載常用的一些停用詞表對(duì)其進(jìn)行處理。詞性:指以詞的特點(diǎn)作為劃分詞類的根據(jù)。詞性標(biāo)注:就是在給定句子中判定每個(gè)詞的語法范疇,確定其詞性并加以標(biāo)注的過程,這也是自然語言處理中一項(xiàng)非常重要的基礎(chǔ)性工作。詞性標(biāo)注主要有以下兩種常見的方法:6.2文本挖掘的流程①基于規(guī)則的詞性標(biāo)注方法

基于規(guī)則的詞性標(biāo)注方法是人們提出較早的一種詞性標(biāo)注方法,基本思想:按兼類詞搭配關(guān)系和上下文語境建造詞類消歧規(guī)則。早期的詞類標(biāo)注規(guī)則一般由人工構(gòu)建。隨著標(biāo)注語料庫規(guī)模的增大,可利用的資源也變得越來越多,這時(shí)候以人工提取規(guī)則的方法變得不現(xiàn)實(shí)。②基于統(tǒng)計(jì)模型的詞性標(biāo)注方法

統(tǒng)計(jì)模型的詞性標(biāo)注方法將詞性標(biāo)注看作是一個(gè)序列標(biāo)注問題?;舅枷胧牵航o定帶有各自標(biāo)注的詞的序列,我們可以確定下一個(gè)詞最可能的詞性?,F(xiàn)在已經(jīng)有隱馬爾可夫模型、條件隨機(jī)場(chǎng)等統(tǒng)計(jì)模型,這些模型可以使用有標(biāo)記數(shù)據(jù)的大型語料庫進(jìn)行訓(xùn)練,而有標(biāo)記的數(shù)據(jù)則是指其中每一個(gè)詞都分配了正確的詞性標(biāo)注的文本。6.2文本挖掘的流程5)內(nèi)在信息挖掘與展示數(shù)據(jù)化后,我們即可對(duì)信息進(jìn)行挖掘與展示,包括關(guān)鍵詞提取、自動(dòng)摘要、文本聚類等。4)相關(guān)字典編制與信息的轉(zhuǎn)換將處理后的文檔集編制成“文檔-詞條”矩陣;必要的情況下還需進(jìn)行相應(yīng)的信息轉(zhuǎn)換,如信息的濃縮。6.2文本挖掘的流程6.2.1文本挖掘的關(guān)鍵技術(shù)文本聚類文本分類自動(dòng)文摘情感分析1)文本聚類

文本聚類是指在沒有預(yù)先定義主題類別的前提下,將文本集合分為若干個(gè)類或簇,要求同一簇內(nèi)文本內(nèi)容的相似度盡可能地大,而不同簇間的相似度盡可能地小。2)文本分類

文本分類是指對(duì)給定的文本片段給出合適的類別標(biāo)記,屬于一個(gè)非常典型的機(jī)器學(xué)習(xí)分類問題。從輸入文本的長(zhǎng)度來說,可以分成文檔級(jí)、句子級(jí)、短語搭配級(jí)的文本分類。從應(yīng)用的領(lǐng)域區(qū)分來說,文本分類可以分成話題分類、情感分類、意圖分類、關(guān)系分類。文本分類的研究意義是不言而喻的,它常常作為自然語言處理系統(tǒng)的前置模塊出現(xiàn),同時(shí)在許多任務(wù)中,文本分類往往可以達(dá)到工業(yè)級(jí)產(chǎn)品應(yīng)用的要求,因而也成為使用系統(tǒng)中最重要的算法模塊之一。因此,其重要意義不僅體現(xiàn)在學(xué)術(shù)研究中,還體現(xiàn)在工業(yè)應(yīng)用中。6.2文本挖掘的流程3)自動(dòng)文摘自動(dòng)文摘是指通過自動(dòng)分析給定的單篇或多篇文檔,提煉總結(jié)其中的要點(diǎn)信息,最終輸出一段長(zhǎng)度較短、可讀性良好的摘要,該摘要中的句子可直接出自原文,也可重新撰寫。通過不同的劃分標(biāo)準(zhǔn),自動(dòng)文摘任務(wù)可以包括以下幾種類型:①根據(jù)處理的文檔數(shù)量,自動(dòng)文摘可以分為單文檔自動(dòng)摘要和多文檔自動(dòng)摘要。單文檔自動(dòng)摘要只針對(duì)單篇文檔生成摘要,而多文檔自動(dòng)摘要?jiǎng)t為一個(gè)文檔集生成摘要。②根據(jù)是否提供上下文環(huán)境,自動(dòng)文摘可以分為與主題或查詢相關(guān)的自動(dòng)摘要以及普通自動(dòng)摘要。前者要求在給定的某個(gè)主題或查詢下,所產(chǎn)生的摘要能夠詮釋該主題或回答該查詢;而后者則指在不給定主題或查詢的情況下對(duì)文檔或文檔集進(jìn)行自動(dòng)摘要。6.2文本挖掘的流程③根據(jù)摘要的不同應(yīng)用場(chǎng)景,自動(dòng)文摘可以分為傳記摘要、觀點(diǎn)摘要、對(duì)話摘要等。這些摘要通常為滿足特定的應(yīng)用需求,例如傳記摘要的目的是為某個(gè)人生成一個(gè)概述性的描述,通常包含該人的各種基本屬性,用戶通過瀏覽某個(gè)人的傳記摘要就能對(duì)這個(gè)人有一個(gè)總體的了解;觀點(diǎn)摘要?jiǎng)t是總結(jié)用戶提出的評(píng)論文本中的主要觀點(diǎn)信息,以供管理層人士更加高效地了解輿情概貌、制訂決策;對(duì)話摘要?jiǎng)t是通過對(duì)兩人或多人參與的多輪對(duì)話進(jìn)行總結(jié),方便其他人員了解對(duì)話中所討論的主要內(nèi)容。4)情感分析情感分析,也稱為觀點(diǎn)挖掘,旨在分析人們研究所表達(dá)的對(duì)于實(shí)體及其屬性的觀點(diǎn)、情感、評(píng)價(jià)、態(tài)度和情感,其中實(shí)體可以是產(chǎn)品、個(gè)人、事件或主題。在這一研究領(lǐng)域中包含許多相關(guān)但又略不相同的任務(wù),例如情感分析、觀點(diǎn)挖掘、觀點(diǎn)抽取、主觀性分析、情緒分析及評(píng)論挖掘等,這些研究問題或任務(wù)都屬于情感分析的研究范疇。在情感分析領(lǐng)域中主客觀句子都是研究者的研究對(duì)象,挖掘文本中表達(dá)或暗示的正面或負(fù)面的觀點(diǎn)及情緒是情感分析的最終目標(biāo)。6.2文本挖掘的流程6.2.2文檔收集方法文本挖掘的第一步是獲取原始文本,原始文本的獲取可以通過編寫爬蟲代碼或者利用爬蟲軟件方式獲取。其中,常用的爬蟲軟件是八爪魚采集器。八爪魚采集器分為簡(jiǎn)易采集和自定義采集兩種模式,簡(jiǎn)易采集方式是對(duì)如淘寶、微博等主流網(wǎng)站利用固定模板對(duì)網(wǎng)頁中的數(shù)據(jù)進(jìn)行采集;自定義采集是用戶對(duì)任一網(wǎng)址中的數(shù)據(jù),定義其采集流程與內(nèi)容來進(jìn)行采集的方法。下面舉例說明兩種模式的使用。6.2文本挖掘的流程1、簡(jiǎn)易采集假設(shè)采集京東平臺(tái)某鼠標(biāo)的商品評(píng)論數(shù)據(jù),利用簡(jiǎn)易采集方式步驟如下:1)選擇簡(jiǎn)易采集下的“立即使用”6.2文本挖掘的流程2)選擇“京東”6.2文本挖掘的流程3)單擊“京東商品評(píng)論”模板6.2文本挖掘的流程4)單擊“立即使用”,就可以利用該模板獲取有關(guān)左側(cè)相關(guān)內(nèi)容的數(shù)據(jù)了6.2文本挖掘的流程5)初始數(shù)據(jù)設(shè)置①將京東平臺(tái)中某鼠標(biāo)的商品評(píng)論頁面網(wǎng)址復(fù)制到商品詳情鏈接的空白框內(nèi);②設(shè)置最大翻頁次數(shù);③最后單擊“保存并啟用”,便開始采集數(shù)據(jù)。6.2文本挖掘的流程6)單擊“啟用本地采集”6.2文本挖掘的流程7)采集運(yùn)行頁面如下圖所示6.2文本挖掘的流程8)采集完成6.2文本挖掘的流程9)最終,便得到了評(píng)價(jià)內(nèi)容、用戶名等一系列數(shù)據(jù)存儲(chǔ)在excel中6.2文本挖掘的流程2、自定義采集假設(shè)采集豆瓣網(wǎng)中某電影的評(píng)論,利用自定義采集方式步驟如下:1)選擇自定義采集下的“立即使用”6.2文本挖掘的流程2)輸入豆瓣網(wǎng)某電影評(píng)論的網(wǎng)址,并保存6.2文本挖掘的流程3)單擊“流程”6.2文本挖掘的流程4)單擊下面的某個(gè)評(píng)論,就會(huì)彈出本頁面的所有評(píng)論內(nèi)容6.2文本挖掘的流程5)單擊鼠標(biāo),便可以選中全部?jī)?nèi)容6.2文本挖掘的流程6)單擊“保存并開始采集”,便可以把所有評(píng)論都采集下來了6.2文本挖掘的流程7)單擊“啟用本地采集”6.2文本挖掘的流程8)采集完成,導(dǎo)出excel表格即可6.2文本挖掘的流程6.2.3分詞技術(shù)分詞就是將句子、段落、文章這種長(zhǎng)文本,分解為以字詞為單位的數(shù)據(jù)結(jié)構(gòu),方便后續(xù)的處理分析工作。英文文本:對(duì)英文文本而言,由于英文單詞存在豐富的變形變換,因此需要對(duì)其進(jìn)行詞還原和詞干提取。中文文本:中文需要不同的場(chǎng)景和要求選擇不同的粒度。中文分詞的難點(diǎn)主要表現(xiàn)在沒有統(tǒng)一的標(biāo)準(zhǔn)、歧義詞如何切分、新詞的識(shí)別。歧義切分指的是通過詞典匹配給出的切詞結(jié)果和原來語句所要表達(dá)的意思不相符或差別較大,在機(jī)械切分中比較常見,比如“這梨不大好吃”,通過機(jī)械切分的方式會(huì)有兩種切分結(jié)果:①“這梨/不大/好吃”;②“這梨/不大好吃”。將兩種切分方式對(duì)比可以發(fā)現(xiàn),兩者表達(dá)的意思不相符,單純的機(jī)械切分很難避免這種問題。6.2文本挖掘的流程未登錄詞識(shí)別也稱作新詞發(fā)現(xiàn),指的是在詞典中沒有出現(xiàn)過的一些詞,比如一些新的網(wǎng)絡(luò)詞匯“尾款人”“杠精”;命名實(shí)體,包括人名、地名、組織結(jié)構(gòu)名等;專有名詞,如新出現(xiàn)的電影名、書籍名等。解決該問題最簡(jiǎn)單的方法是可以在詞典中加詞,但是隨著字典的增大,可能會(huì)出現(xiàn)一些其他的問題,并且系統(tǒng)的運(yùn)算復(fù)雜度也會(huì)增加。目前,典型的分詞方法大致分為三類:6.2文本挖掘的流程1、基于字符串匹配的方法基于字符串匹配的方法又稱為機(jī)械分詞方法或字典匹配方法,其基本思想是基于詞典匹配,將待分詞的中文文本根據(jù)一定規(guī)則切分和調(diào)整,然后跟詞典中的詞語進(jìn)行匹配,匹配成功則按照詞典的詞分詞,匹配失敗通過調(diào)整或者重新選擇,如此反復(fù)循環(huán)即可。

但是基于詞典的機(jī)械切分會(huì)遇到多種問題,最為常見的包括歧義切分問題和未登錄詞識(shí)別問題。

在中文分詞上解決歧義切分方法:常見的包括基于正向最大匹配、基于逆向最大匹配、雙向最大匹配法、最少切分分詞法等。6.2文本挖掘的流程(1)正向及逆向匹配方法正向和逆向最大匹配依據(jù)詞典以及設(shè)定的最大長(zhǎng)度劃分詞語。例:我們經(jīng)常有意見分歧詞典:“我們”、“經(jīng)?!?、“有”、“意見”、“分歧”假定max-len=5,在正向最大匹配中首先劃分的詞語為“我們經(jīng)常有”,對(duì)照詞典發(fā)現(xiàn)不存在這個(gè)詞語,接著劃分的詞語為“我們經(jīng)?!保瑢?duì)照詞典發(fā)現(xiàn)仍然沒有該詞語,以此類推,對(duì)照詞典直至劃分出來的詞語在詞典中出現(xiàn);

逆向最大匹配是從句子的結(jié)尾開始選擇“有意見分析”,與正向最大匹配的處理方法一樣,對(duì)照詞典劃分詞語。這種方法得到的結(jié)果屬于局部最優(yōu),效率低且不能考慮語義。6.2文本挖掘的流程(2)雙向最大匹配法這種方法側(cè)重于分詞過程中檢錯(cuò)和糾錯(cuò)的應(yīng)用基本原理:對(duì)待切分字符串采用正向最大匹配和逆向最大匹配分別進(jìn)行正向和逆向掃描和初步切分;并將正向最大匹配初步切分結(jié)果和逆向最大匹配初步切分結(jié)果進(jìn)行比較;如果兩組結(jié)果一致,則判定分詞結(jié)果正確,如果存在不一致,則判定存在著切分歧義,需要進(jìn)一步采取技術(shù)手段來消解歧義。6.2文本挖掘的流程(3)最少切分分詞法該分詞算法依據(jù)最少切分原則,從幾種分詞算法切分結(jié)果中取切分詞數(shù)最少一種的。比如,從正向最大匹配和逆向最大匹配兩者中選擇詞數(shù)較少的方案,當(dāng)詞數(shù)相同時(shí),采取某種策略,選擇其中一個(gè)。6.2文本挖掘的流程2、基于統(tǒng)計(jì)模型的分詞方法基于統(tǒng)計(jì)的中文分詞算法通常使用序列標(biāo)注模型建模,在一段文字中,可以將每個(gè)字按照他們?cè)谠~中的位置進(jìn)行標(biāo)注。

常用的標(biāo)記有以下四個(gè)標(biāo)記:B,Begin,表示這個(gè)字是一個(gè)詞的首字;M,Middle,表示這是一個(gè)詞中間的字;E,End,表示這是一個(gè)詞的尾字;S,Single,表示這是單字成詞。分詞的過程就是將一段字符輸入模型,然后得到相應(yīng)的標(biāo)記序列,再根據(jù)標(biāo)記序列進(jìn)行分詞。優(yōu)點(diǎn):不受待處理文本領(lǐng)域的限制,不需要專門的詞典。統(tǒng)計(jì)分詞以概率論為理論基礎(chǔ),將上下文中字組合串的出現(xiàn)抽象成隨機(jī)過程,隨機(jī)過程的參數(shù)可以通過大規(guī)模語料庫訓(xùn)練得到?;诮y(tǒng)計(jì)的分詞可以采用統(tǒng)計(jì)模型如:隱馬爾可夫模型、條件隨機(jī)場(chǎng)模型、神經(jīng)網(wǎng)絡(luò)模型及最大熵模型等。以條件隨機(jī)場(chǎng)(CRF)模型為例,基本思路就是對(duì)漢字進(jìn)行標(biāo)注訓(xùn)練,不僅考慮了詞語出現(xiàn)的頻率,還考慮上下文,具備較好的學(xué)習(xí)能力。因此針對(duì)基于詞典的機(jī)械切分所面對(duì)的問題,尤其是未登錄詞識(shí)別,使用基于統(tǒng)計(jì)模型的分詞方法能夠取得更好的效果。6.2文本挖掘的流程3、基于深度學(xué)習(xí)方式的分詞方法

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,許多中文分詞算法會(huì)采用神經(jīng)網(wǎng)絡(luò)模型。

分詞的基礎(chǔ)思想還是使用序列標(biāo)注問題,將一個(gè)句子中的每個(gè)字標(biāo)記成BEMS四種標(biāo)記。

例如,將雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)和條件隨機(jī)場(chǎng)模型(CRF)結(jié)合使用進(jìn)行分詞處理。基于Bi-LSTM+CRF的神經(jīng)網(wǎng)絡(luò)分詞模型是融合了LSTM和CRF的一種常用于序列標(biāo)注任務(wù)的框架,可以有效地結(jié)合結(jié)構(gòu)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的特點(diǎn),在分詞應(yīng)用上可以取得很好的效果,提高分詞的準(zhǔn)確率。6.2文本挖掘的流程6.2.4詞的表示形式

文本是一種非結(jié)構(gòu)化的數(shù)據(jù)信息,是不可以直接被計(jì)算的。

文本表示:將這些非結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息,這樣就可以針對(duì)文本信息做計(jì)算,來完成我們?nèi)粘K芤姷降奈谋痉诸?、情感判斷等任?wù)。

文本表示的方法主要有三類,如圖所示6.2文本挖掘的流程1、one-hotrepresentation與整數(shù)編碼詞向量最初是用one-hotrepresentation表征的,也就是向量中每一個(gè)元素都關(guān)聯(lián)著詞庫中的一個(gè)單詞,指定詞的向量表示為:其在向量中對(duì)應(yīng)的元素設(shè)置為1,其他元素設(shè)置為0。獨(dú)熱編碼和整數(shù)編碼正是基于詞典將詞語用向量來表示,這兩種方法都無法表達(dá)詞語之間的關(guān)系,且過于稀疏的向量容易導(dǎo)致計(jì)算和存儲(chǔ)的效率不高,后來就出現(xiàn)了分布式表征。6.2文本挖掘的流程2、詞嵌入模型(wordsembedding)歷史上先后提出了詞袋模型(bagofwords)和詞嵌入模型(wordsembedding)。

詞袋模型的基本思想是假定一篇文檔中的詞之間是相互獨(dú)立的,只需要將其視為是一組詞的組合,就像一個(gè)袋子一樣,無須考慮次序、句法、語法。詞袋只是記錄了詞的出現(xiàn)次數(shù),并沒有先后關(guān)系;

而詞嵌入模型的基本思想是詞袋模型的改進(jìn)版,其基本實(shí)現(xiàn)會(huì)根據(jù)中心詞預(yù)測(cè)上下文詞或者根據(jù)上下文詞預(yù)測(cè)中心詞,所以詞嵌入模型訓(xùn)練出來的特征表示有一個(gè)特點(diǎn)就是語義相近的詞其分布式向量距離也相似。6.2文本挖掘的流程3、Word2vec在Word2vec中采用分布式表征,在向量維數(shù)比較大的情況下,每一個(gè)詞都可以用元素的分布式權(quán)重來表示,因此,向量的每一維都表示一個(gè)特征向量,作用于所有的單詞,而不是簡(jiǎn)單的元素和值之間的一一映射。這種方式抽象地表示了一個(gè)詞的“意義”。Word2vec中最重要的兩個(gè)模型是CBOW(ContinuousBagOfWords)模型和Skip-gram(ContinuousSkip-gram)模型。CBOW模型的作用是已知當(dāng)前詞Wt的上下文環(huán)境(Wt-2,Wt-1,Wt+1,Wt+2)來預(yù)測(cè)當(dāng)前詞。Skip-gram模型的作用是根據(jù)當(dāng)前詞Wt來預(yù)測(cè)上下文(Wt-2,Wt-1,Wt+1,Wt+2)。這兩個(gè)模型都包含三層:輸入層、投影層、輸出層。6.2文本挖掘的流程Word2vec模型如圖所示使用Word2vec進(jìn)行關(guān)鍵特征提取原理:將每一個(gè)詞映射到一個(gè)特定維度的實(shí)數(shù)空間中,越相似的詞在向量空間中越相近,將每個(gè)詞看作一個(gè)隨機(jī)k維向量通過訓(xùn)練后輸出對(duì)應(yīng)每個(gè)詞的最優(yōu)向量。優(yōu)點(diǎn):不僅能避免使用向量空間模型帶來的特征向量“維度災(zāi)難”,同時(shí)考慮了文本中的同義詞問題。6.2文本挖掘的流程6.2.5文本特征屬性處理文本被分詞之后存在這樣的問題:并不是所有的詞都是有用的,語料庫的詞量非常大而傳統(tǒng)的文本挖掘方法又是基于向量空間模型表示的,會(huì)造成數(shù)據(jù)過于稀疏。比如對(duì)詞語或者句子向量化可以用獨(dú)熱編碼(one-hot)來表示,但這種方法不能具體表達(dá)出一個(gè)詞語的含義且會(huì)造成維度災(zāi)難。因此在用向量表示的時(shí)候需要把單詞的權(quán)重考慮進(jìn)來,常用的方法是TF-IDF。其中,TF表示詞頻,IDF反映了一個(gè)詞在所有文本中出現(xiàn)的頻率。這里給出一個(gè)詞w的TF-IDF的公式:6.2文本挖掘的流程但此處存在一個(gè)問題:如果一個(gè)詞語在所有文檔中都沒有出現(xiàn),則式(6-2)的分母為0,此時(shí)就需要對(duì)IDF作平滑處理。平滑的方法有很多種,最常見的IDF平滑后的計(jì)算公式之一如下:

有了每段文本的TF-IDF的特征向量,我們就可以利用這些數(shù)據(jù)建立分類模型或者聚類模型了,或者進(jìn)行主題模型的分析。除了上述介紹的特征選擇方法外,常見的方法還有以下幾種:1、詞頻方法(WordFrequency),2、DF(DocumentFrequency),3、互信息法(MutualInformation,MI),4、信息增益法(InformationGain,IG),5、CHI(Chi-square)。6.2文本挖掘的流程(1)詞頻方法(WordFrequency)詞頻是一個(gè)詞在文檔中出現(xiàn)的次數(shù)。通過詞頻進(jìn)行特征選擇就是將詞頻小于某一閾值的詞刪除,從而降低特征空間的維數(shù)。這個(gè)方法是基于這樣一種假設(shè),即出現(xiàn)頻率小的詞對(duì)過濾的影響也較小。但是在信息檢索的研究中認(rèn)為,有時(shí)頻率小的詞含有更多的信息。因此,在特征選擇的過程中不宜簡(jiǎn)單地根據(jù)詞頻大幅度刪詞。6.2文本挖掘的流程(2)DF(DocumentFrequency)DF指的是統(tǒng)計(jì)特征詞出現(xiàn)的文檔數(shù)量,用來衡量某個(gè)特征詞的重要性。如果某些特征詞在文檔中經(jīng)常出現(xiàn),那么這個(gè)詞就可能很重要。而對(duì)于在文檔中很少出現(xiàn)的特征詞攜帶了很少的信息量,甚至是“噪聲”,這些特征詞對(duì)分類器學(xué)習(xí)影響也是很小。DF特征選擇方法屬于無監(jiān)督的學(xué)習(xí)算法,僅考慮了頻率因素而沒有考慮類別因素。因此,DF算法將會(huì)引入一些沒有意義的詞。如中文的“的”“是”“個(gè)”等,常常具有很高的DF分,但是對(duì)分類并沒有多大的意義。6.2文本挖掘的流程(3)互信息法(MutualInformation,MI)互信息法用于衡量特征詞與文檔類別直接的信息量。特征項(xiàng)和類別的互信息體現(xiàn)了特征項(xiàng)與類別的相關(guān)程度,是一種廣泛用于建立詞關(guān)聯(lián)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)。(4)信息增益法(InformationGain,IG)

信息增益法是機(jī)器學(xué)習(xí)的常用方法,它是衡量某個(gè)特征劃分?jǐn)?shù)據(jù)集所能獲得的收益大小。通過計(jì)算信息增益可以得到那些在正例樣本(屬于某一類別的樣本)中出現(xiàn)頻率高而在反例樣本(不屬于某一類別的樣本)中出現(xiàn)頻率低的特征,以及那些在反例樣本中出現(xiàn)頻率高而在正例樣本中出現(xiàn)頻率低的特征。6.2文本挖掘的流程(5)CHI(Chi-square)CHI特征選擇算法利用了統(tǒng)計(jì)學(xué)中的“假設(shè)檢驗(yàn)”的基本思想。首先假設(shè)特征詞與類別直接是不相關(guān)的,如果利用CHI分布計(jì)算出的檢驗(yàn)值偏離閾值越大,那么更有信息否定原假設(shè),接受原假設(shè)的備擇假設(shè),即特征詞與類別有著很高的關(guān)聯(lián)度。CHI特征選擇方法綜合考慮了文檔頻率與類別比例兩個(gè)因素。6.3LDA主題模型主題模型是對(duì)文本中隱含主題的一種建模方法,每個(gè)主題其實(shí)是詞表上單詞的概率分布。主題模型其實(shí)是一種生成模型,一篇文章的每個(gè)詞都是通過“以一定概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語這樣一個(gè)過程”得到的。主題建模還是一種統(tǒng)計(jì)方法,它通過分析原文本中的詞以發(fā)現(xiàn)蘊(yùn)藏于其中的主題、主題間的聯(lián)系以及主題隨時(shí)間的演變,而且不需要事前對(duì)文檔進(jìn)行標(biāo)記。6.3LDA主題模型主題模型的基本假設(shè)是:文章和主題是多對(duì)多的關(guān)系,每一個(gè)主題又由一組詞進(jìn)行表示。經(jīng)常使用的主題模型包括:潛在語義分析(LatentSemanticAnalysis,LSA)、概率潛在語義分析(ProbabilisticLatentSemanticAnalysis,PLSA)、隱含狄利克雷分布(LatentDirichletAllocation,LDA)、層次狄利克雷過程(HierarchicalDirichletProcess,HDP)、主題模型向量化(LatentDirichletAllocationVector,LDA2vec)。6.3LDA主題模型6.3.1LDA主題模型介紹6.3LDA主題模型LDA主題模型全稱為隱含狄利克雷分配模型(LatentDirichletallocation,LDA),它是由文檔與主題、主題與特征詞、前兩者的聯(lián)合分布三種元素所構(gòu)成的三層貝葉斯概率模型。構(gòu)建該模型的基本思路是根據(jù)文檔集分析出主題分布,然后根據(jù)各主題歸類出該主題下特征詞的分布,最終得到文本集的主題分布及各主題的特征詞分布。6.3.1LDA主題模型介紹6.3LDA主題模型6.3.2吉布斯采樣

計(jì)算LDA模型中未知的隱含變量的主要算法分為精確推斷和近似推斷兩類。LDA用精確推斷解起來很困難,所以常常采用近似推斷方法。近似推斷方法的其中一類便是采樣(Sampling),它是通過使用隨機(jī)化方法完成近似推斷。吉布斯采樣(GibbsSampling)是近似推斷方法中最常使用的一種方法。它使用馬爾科夫鏈讀取樣本,通過條件分布采樣模擬聯(lián)合分布,再通過模擬的聯(lián)合分布直接推導(dǎo)出條件分布,以此循環(huán)。通俗的說,就是以一定的概率分布預(yù)測(cè)要發(fā)生什么事件。下面舉一個(gè)關(guān)于吉布斯采樣的例子,以便于更好的理解吉布斯采樣。6.3LDA主題模型吉布斯采樣示例現(xiàn)已知了三件事的條件分布,即p(E|T,W),p(T|E,W),p(W|E,T),利用Gibbssampling求三件事的聯(lián)合分布矩陣。首先隨機(jī)初始化一個(gè)組合,如“學(xué)習(xí)+晚上+刮風(fēng)”,然后依條件概率改變其中的一個(gè)變量。具體說,假設(shè)知道“晚上+刮風(fēng)”發(fā)生的概率后,給E生成一個(gè)變量,如將“學(xué)習(xí)”變?yōu)椤俺燥垺?,求“吃?晚上+刮風(fēng)”的概率。再依條件概率改變下一個(gè)變量,類似地,由“學(xué)習(xí)+晚上+刮風(fēng)”求得“吃飯+上午+刮風(fēng)”的概率。以此類推,求得三件事發(fā)生的聯(lián)合分布矩陣。6.3LDA主題模型吉布斯采樣過程初始時(shí),隨機(jī)給文本中的每個(gè)單詞w分配主題Z(0);然后統(tǒng)計(jì)每個(gè)主題z下出現(xiàn)w的數(shù)量分布以及每個(gè)文檔m下主題z的數(shù)量分布;根據(jù)其他所有詞的主題分配,來估計(jì)當(dāng)前詞的主題;用同樣的方法不斷更新下一個(gè)詞的主題,直至每個(gè)文檔下主題的分布以及每個(gè)主題下詞的分布收斂,算法停止;Gibbs采樣就是利用計(jì)算公式,來根據(jù)其他所有詞的主題分配估計(jì)當(dāng)前詞的主題。6.3LDA主題模型6.3.3LDA主題模型訓(xùn)練過程LDA主題模型中文檔的生成過程假設(shè)語料庫D為由M篇文檔構(gòu)成的文檔集合,該文檔被挖掘出K個(gè)主題。第m篇文檔中包含詞匯Wm,n,其中m=1,2,...,M,n=1,2,...,Nm,Nm為第m篇文檔的詞匯總數(shù),且。在LDA模型中,文檔中詞項(xiàng)的生成過程如圖所示。6.3LDA主題模型LDA主題模型訓(xùn)練過程對(duì)于圖中LDA主題模型的文檔生成過程,具體步驟解釋如下。該模型中所有取樣均依據(jù)Gibbs取樣原理。1)從文檔Dirichlet分布中取樣生成文檔的主題分布,即“文檔-主題”矩陣;2)從“文檔-主題”矩陣取樣生成文檔m第n個(gè)詞的主題Zm,n;3)取樣生成主題k的詞分布,即“主題-詞語”矩陣;4)將詞語歸類到對(duì)應(yīng)的主題中,遍歷文檔集合中所有的詞。6.4模型評(píng)估

模型評(píng)估是對(duì)訓(xùn)練好的模型性能進(jìn)行評(píng)估,模型評(píng)估是模型開發(fā)過程不可或缺的一部分。它有助于發(fā)現(xiàn)表達(dá)數(shù)據(jù)的最佳模型和所選模型的工作性能如何。

機(jī)器學(xué)習(xí)模型需要有量化的評(píng)估指標(biāo)來評(píng)估哪種模型的效果更好常用的評(píng)估指標(biāo)有:準(zhǔn)確率、精確率、召回率、F1、ROC曲線、AUC曲線。混淆矩陣是監(jiān)督學(xué)習(xí)中的一種可視化工具,主要用于模型的分類結(jié)果和實(shí)例的真實(shí)信息的比較。矩陣中的每一行代表實(shí)例的預(yù)測(cè)類別,每一列代表實(shí)例的真實(shí)類別。6.4模型評(píng)估1)準(zhǔn)確率(Accuracy)準(zhǔn)確率是指預(yù)測(cè)正確的結(jié)果占總樣本的百分比,公式如下,雖然準(zhǔn)確率可以判斷總的正確率,但是在樣本不平衡的情況下,并不能作為很好的指標(biāo)來衡量結(jié)果。6.4模型評(píng)估2)精確率(Precision)精確率是指所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率,公式如下,需要注意的是精準(zhǔn)率和準(zhǔn)確率看上去有些類似,但是完全不同的兩個(gè)概念。6.4模型評(píng)估3)召回率(Recall)召回率(查全率)是指實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率,公式如下。召回率越高,代表實(shí)際用戶被預(yù)測(cè)出來的概率越高。6.4模型評(píng)估4)F1分?jǐn)?shù)F1分?jǐn)?shù)主要用于評(píng)估模型的穩(wěn)健性,F(xiàn)值是精確率和召回率的調(diào)和值,更接近這兩個(gè)數(shù)較小的那個(gè),所以精確率和召回率接近時(shí),F(xiàn)值最大。公式如下6.4模型評(píng)估5)ROC(接受者操作特征曲線)ROC曲線又稱接受者操作特征曲線,主要用于評(píng)價(jià)模型的預(yù)測(cè)能力。ROC曲線中的主要兩個(gè)指標(biāo)就是真正率和假正率。6.4模型評(píng)估6)AUC(曲線下的面積)AUC(AreaUnderCurve)被定義為ROC曲線下的面積,通常大于0.5小于1。隨機(jī)挑選一個(gè)正樣本以及一個(gè)負(fù)樣本,分類器判定正樣本的值高于負(fù)樣本的概率就是AUC值。AUC的一般判斷標(biāo)準(zhǔn):0.5–0.7:效果較低;0.7–0.85:效果一般;0.85–0.95:效果很好;0.95–1:效果非常好,但一般不太可能。6.5基于LDA主題模型的客戶需求挖掘案例分析隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能的飛速發(fā)展,互聯(lián)網(wǎng)應(yīng)用正在不斷創(chuàng)新中演化。同時(shí),隨著各種各樣的網(wǎng)絡(luò)社交平臺(tái)的建立,人們?cè)絹碓絻A向于在各大社交平臺(tái)及網(wǎng)購(gòu)平臺(tái)上發(fā)布評(píng)論信息,每天都將會(huì)生成大量的用戶評(píng)論數(shù)據(jù),而這些數(shù)據(jù)有著十分重要的用戶需求信息,有著十分重要的價(jià)值。這些文本數(shù)據(jù),一方面給用戶提供了發(fā)表意見的途徑,另一方面用戶也可以在社交平臺(tái)上了解到相關(guān)的信息,同時(shí)企業(yè)可以通過用戶的在線評(píng)論以及用戶的特征對(duì)產(chǎn)品進(jìn)行改進(jìn),從而生產(chǎn)出更加符合用戶需求的產(chǎn)品。然而,這些在線評(píng)論數(shù)據(jù)數(shù)量龐大、結(jié)構(gòu)混亂、更新快捷,傳統(tǒng)的文本處理方法不能從中快速地獲取有價(jià)值的信息。因此,通過文本挖掘與處理數(shù)據(jù),從在線評(píng)論中獲取用戶需求,可以幫助企業(yè)準(zhǔn)確地把握用戶的需求,為企業(yè)后續(xù)發(fā)展提供一定的依據(jù)。6.5基于LDA主題模型的客戶需求挖掘案例分析D公司是一家智能網(wǎng)聯(lián)汽車(IntelligentConnectedVehicle,ICV)制造廠商,主要從事ICV整車制造及其車聯(lián)網(wǎng)系統(tǒng)的自主研發(fā)。

為了提升公司的行業(yè)競(jìng)爭(zhēng)力與服務(wù)保障能力,D公司考慮將市場(chǎng)定位從ICV制造廠商升級(jí)為集ICV整車制造、車聯(lián)網(wǎng)系統(tǒng)研發(fā)及其配套服務(wù)系統(tǒng)為一體的制造服務(wù)型廠商。不僅為客戶提供ICV,還搭建從ICV產(chǎn)品支持、車聯(lián)網(wǎng)系統(tǒng)技術(shù)培訓(xùn)到ICV汽車服務(wù)系統(tǒng)的全產(chǎn)業(yè)鏈營(yíng)銷策略。其中,該公司研發(fā)的智能服務(wù)系統(tǒng)采用車聯(lián)網(wǎng)技術(shù),通過車身的傳感器、攝像頭等零件對(duì)客戶的ICV進(jìn)行監(jiān)控,獲取大量汽車運(yùn)行、車輛周圍環(huán)境、駕駛員行為等數(shù)據(jù),并上傳至云端進(jìn)行運(yùn)算分析,來監(jiān)控汽車安全駕駛狀態(tài),進(jìn)而制定智慧出行、安全駕駛、維修保養(yǎng)等全方位服務(wù)方案。1、客戶需求挖掘6.5基于LDA主題模型的客戶需求挖掘案例分析1)客戶在線評(píng)論數(shù)據(jù)收集

D公司自主開發(fā)的社群化交互平臺(tái)符合本章基于LDA模型獲取客戶需求的研究需要。因此,本章選取D公司社群化交互平臺(tái)中車主的評(píng)價(jià)作為數(shù)據(jù)源。本章利用“八爪魚采集器”從D公司社群化交互平臺(tái)中爬取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論