商務(wù)數(shù)據(jù)分析課件:復(fù)雜數(shù)據(jù)分析方法_第1頁
商務(wù)數(shù)據(jù)分析課件:復(fù)雜數(shù)據(jù)分析方法_第2頁
商務(wù)數(shù)據(jù)分析課件:復(fù)雜數(shù)據(jù)分析方法_第3頁
商務(wù)數(shù)據(jù)分析課件:復(fù)雜數(shù)據(jù)分析方法_第4頁
商務(wù)數(shù)據(jù)分析課件:復(fù)雜數(shù)據(jù)分析方法_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

復(fù)雜數(shù)據(jù)分析方法第一節(jié)文本處理1.文本預(yù)處理為了將文本處理為模型可用的數(shù)據(jù),需要先對文本進(jìn)行預(yù)處理。一般預(yù)處理步驟為分詞、清洗、標(biāo)準(zhǔn)化、特征提取,然后將提取出來的特征應(yīng)用下游任務(wù)中,如分類、情感分析等。

1.文本預(yù)處理(1)文本分詞組成文本的詞,被認(rèn)為是重要的特征。因此文本分析首先要做的是對文本進(jìn)行分詞。對于英文來說,文本本來就是根據(jù)空格分開的,可以直接以空格為依據(jù)進(jìn)行分詞。對于中文分詞目前已經(jīng)有很多分詞工具,通過這些工具,可以實現(xiàn)對文本的分詞。1.文本預(yù)處理(2)文本清洗在大多數(shù)情況下,經(jīng)過分詞的文本中還有很多無用的部分,為了提高后續(xù)處理的效率,需要將這些內(nèi)容清洗去除。根據(jù)第一步分詞時得到的每個詞的詞性,只留下有實際意義的與研究問題相關(guān)的詞,通常包括名詞,形容詞,副詞三種詞類。至此,經(jīng)過文本清洗,文本被拆分成了由若干個名詞,形容詞和副詞構(gòu)成的詞語集合(通常被稱為詞袋)。(3)標(biāo)準(zhǔn)化常應(yīng)用于英文的文本處理中。標(biāo)準(zhǔn)化就是處理一個單詞的不同形式,完成詞形還原,將一個任何形式的語言詞匯還原為一般形式,即將英文的過去式、現(xiàn)在分詞等各種形式都還原成詞根。2.文本特征提取文本分詞后的結(jié)果也會存在兩個問題第一、并不是所有詞都是有用的,第二,一個語料庫中詞的數(shù)量是非常大的,但是有的詞語出現(xiàn)次數(shù)很少,甚至只是出現(xiàn)一次,如果直接將分詞的結(jié)果作為特征進(jìn)行處理,會造成數(shù)據(jù)稀疏,嚴(yán)重影響模型效率。需要對特征進(jìn)行提取,即只用部分詞集合代表文本的特征。詞頻分析(WordFrequencyAnalysis)是對文本中詞匯出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計與分析,是文本挖掘中方便且重要的手段,是一種常見的文本分析角度。常見的分析方法主要為:詞袋模型和詞向量模型。2.文本特征提取

2.文本特征提?。?)詞袋模型之基礎(chǔ)的LDA主題模型只考慮詞頻,沒有考慮到詞語背后的語義之間的關(guān)聯(lián),無法處理兩個文檔共同出現(xiàn)的詞語不同,但是兩個文檔主題是相似的情況。主題模型是用來在大量的文檔中發(fā)現(xiàn)潛在主題的一種統(tǒng)計模型。一個文檔通常包含多個主題且每個主題所占比例各不相同,主題模型能夠統(tǒng)計文檔中的詞語,根據(jù)文檔中詞的信息判斷文檔包含的主題以及各個主題所占比重。一種典型的詞袋模型:LDA基本設(shè)想為一篇文檔是由一組詞組成的集合,詞與詞之間沒有順序和先后關(guān)系。同時,基于詞集合,文檔的特征由若干主題代表,每個主題“以一定概率選擇了某個詞”;而文檔的每個詞“以一定的概率屬于某個主題”。LDA主題模型中,文檔是由主題組成的,每篇文檔根據(jù)詞集合,按照概率分布的形式給出主題。通常在訓(xùn)練時雖然需要指定主題的個數(shù),但不需要對訓(xùn)練集進(jìn)行事先標(biāo)注,因此屬于無監(jiān)督算法。2.文本特征提?。?)詞袋模型之基礎(chǔ)的LDA主題模型不足之處生成的主題沒有顯式的有意義的語義主題和關(guān)鍵詞的生成過程分為如下幾步:第一步是設(shè)置主題的數(shù)量以及每個主題下輸出的關(guān)鍵詞個數(shù),例如在對十篇與外賣評論有關(guān)的文檔進(jìn)行處理前,先設(shè)置主題數(shù)量為2;第二步是生成每個主題下的詞分布,根據(jù)詞分布確定該主題的含義,例如根據(jù)每個主題下的關(guān)鍵詞,確定外賣評論的主題為“配送”和“商品”;第三步是生成文本-主題分布,確定每個文檔屬于每個主題的概率。例如第一篇文檔屬于“配送”的概率為70%,屬于“商品”的概率為30%。2.文本特征提?。?)詞袋模型之LabeledLDA主題模型LabeledLDA是一種有監(jiān)督的學(xué)習(xí)方法,與基礎(chǔ)LDA主題模型最明顯的區(qū)別在于,這個方法需要一部分已知標(biāo)簽的文本數(shù)據(jù)。在訓(xùn)練時采用了不斷擴(kuò)充訓(xùn)練集的方法。首先將這些人為打上標(biāo)簽的數(shù)據(jù)作為初始種子訓(xùn)練集,然后使用LabeledLDA方法計算出沒有標(biāo)簽的評論屬于每一個標(biāo)簽的概率分布,取概率分布差異最明顯,即對所打標(biāo)簽的可信任度較高的評論加入訓(xùn)練集。之后不斷重復(fù)這一步步的過程,直至所有評論數(shù)據(jù)均被打上標(biāo)簽。通過上述過程,即可獲得每條評論的標(biāo)簽。優(yōu)勢與基礎(chǔ)LDA相比,LabledLDA不僅可以獲得明確的主題,還能夠得到各個主題下關(guān)鍵詞的內(nèi)容。對比TF-IDF算法,上述LDA模型由于在詞和文檔之間加入了主題的概念,可以較好的解決一詞多義和多詞一義的問題2.文本特征提?。?)詞嵌入(詞向量)模型對于詞袋模型來說,在表示文本時容易受到維數(shù)災(zāi)難的困擾;同時不能很好的刻畫詞與詞之間的關(guān)系,由此發(fā)展出了詞嵌入模型。主要的思想是將文檔中每個詞語映射到低維空間上的一個向量,構(gòu)建基于向量分析的模型。通過詞向量可以表達(dá)比詞袋模型更豐富的內(nèi)容,例如詞與詞之間的關(guān)系,上下文的邏輯等,從而用于下一步的文本深入分析。Word2vec詞向量模型是一個小型的神經(jīng)網(wǎng)絡(luò),目前較為流行的有兩種模型:(1)CBOW模型:用上下文單詞作為輸入來預(yù)測目標(biāo)詞語,對于小型數(shù)據(jù)比較合適。(2)skip-gram模型:用一個詞語作為輸入來預(yù)測它周圍的上下文,在大型語料中表現(xiàn)更好。兩個模型均是一個三層的神經(jīng)網(wǎng)絡(luò),分別包含輸入層、隱藏層和輸出層,輸入層以詞的one-hot編碼表示。小結(jié)常見的TF-IDF算法和主題模型都可以應(yīng)用于文本的分類,主題模型還可以提取文本的不同主題。兩種詞嵌入模型CBOW、Skip-gram可以進(jìn)行詞或文本的特征提取,將人類語言轉(zhuǎn)為機(jī)器可以理解并計算的數(shù)值向量。3.文本情感分析通過分析文本所流露出的特定主體的情感偏好,可以更好地剖析文本對決策者的作用價值。文本情感分析又稱為意見挖掘或傾向性分析,指的是通過對文本進(jìn)行分析、處理、歸納和推理,分析出帶有感情色彩的文本中所包含的發(fā)布者的情感態(tài)度。(1)基于情感詞典的方法基于詞典的方法顧名思義,需要先指定情感詞典和對應(yīng)規(guī)則,以此為基礎(chǔ),對文本進(jìn)行段落拆分、句法分析,分別計算情感值,最后通過情感值來作為判定文本的情感傾向依據(jù)。I.情感詞典介紹

對于英語文本分析來說,sentiwordnet是很著名的情感詞典,對于中文來說,常見的有知網(wǎng)、臺灣大學(xué)簡體中文情感極性詞典等。有時也要利用打標(biāo)簽的樣本和制定的規(guī)則自己構(gòu)建或擴(kuò)充詞典,PMI(點互信息)算法是其中一種方法。3.文本情感分析

3.文本情感分析(1)基于情感詞典的方法II.基于詞典的情感計算為特定的情景應(yīng)用文本建立了情感詞典之后,便可以進(jìn)行詞語的情感計算。首先依次搜索各個詞語是否出現(xiàn)在情感詞典中以及它的情感值(如果詞典提供的話),如出現(xiàn)在正向情感中,則正向情感詞計數(shù)加一,若出現(xiàn)在負(fù)向情感詞典中,則負(fù)向情感詞計數(shù)加一,最后統(tǒng)計句子中分別出現(xiàn)的正負(fù)向詞語的數(shù)量,或者計算各個情感詞的情感分值就可以得到句子的情感值了。當(dāng)然有時還需要考慮情感詞前后是否出現(xiàn)否定詞和程度副詞。例如正向詞前面出現(xiàn)了否定詞例如“不/喜歡”,此時應(yīng)將“喜歡”處理為負(fù)向詞;如果出現(xiàn)了“特別/喜歡”,應(yīng)該將“喜歡”對應(yīng)的情感值乘“特別”對應(yīng)的程度值作為“喜歡”的情感值。除此之外,有時需要借助前面提到的主題模型,確定句子是到底是對什么表達(dá)的情感。小結(jié)基于詞典的技術(shù),可以分析文本中出現(xiàn)的情感詞,同時關(guān)聯(lián)該詞附近的副詞否定詞來計算最終句子的情感傾向。但是這種方法只適用于句子結(jié)構(gòu)節(jié)點而且情感傾向明顯的情況。在分析復(fù)雜句子結(jié)構(gòu)、復(fù)雜情感時,比如隨著網(wǎng)絡(luò)用語不斷出現(xiàn),互聯(lián)網(wǎng)上的評論不再正規(guī),沒有恰當(dāng)?shù)囊?guī)范的詞典,這時利用情感詞典的分析效果將會變差。3.文本情感分析(2)基于深度學(xué)習(xí)或者機(jī)器學(xué)習(xí)的方法需要利用有標(biāo)簽的文本進(jìn)行訓(xùn)練,建立模型后對未知的實例進(jìn)行情感分析。利用深度學(xué)習(xí)和機(jī)器學(xué)習(xí)進(jìn)行情感分析時會將問題抽象為分類問題,例如將一條語句分類為正向還是負(fù)向兩類,也可以轉(zhuǎn)換為回歸問題,例如判斷這條語句的情感程度。當(dāng)然基于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的情感分析也有一些難點,比如語句長度太長會出現(xiàn)梯度消失和梯度爆炸。第二節(jié)圖像處理常見的圖像處理包括圖像的分割、圖像的分類、目標(biāo)的檢測、圖像的情感識別等等。圖像分割是指根據(jù)空間紋理等圖像特征把圖像劃分成若干個互不相交的區(qū)域,例如在不同顏色的花中分辨出紅花。圖像分類是判斷圖像中物體的類別,如貓狗分類是判斷圖像是貓的圖像還是狗的圖像。目標(biāo)檢測也叫做目標(biāo)提取,這意味著不僅要用算法判斷圖像是否是貓的圖像,還要在圖片中定位出貓的位置。對于上述的圖像處理,最重要的就是找到合適的特征,然后利用這些特征結(jié)合合適的算法對圖像進(jìn)行處理。1.顏色特征顏色特征描述了圖像或圖像區(qū)域?qū)?yīng)的表面性質(zhì)。顏色的表示方法,顏色空間RGB顏色空間是根據(jù)人眼對不同波長的紅、綠、藍(lán)光做出錐狀體細(xì)胞的敏感度描述的基礎(chǔ)彩色模式

,所以其他顏色模型都可以根據(jù)RGB顏色模型進(jìn)行轉(zhuǎn)換計算得到。其中R、G、B分別是圖像中紅、綠、藍(lán)的亮度值,大小限定在0-1或者在0-255。HSV顏色模型是依據(jù)人類對于色澤、明暗和色調(diào)的直觀感覺定義顏色,其中H(Hue)代表色度,S(Saturation)代表飽和度,V(Value)代表量度,相對于RGB系統(tǒng),它更接近于人們的經(jīng)驗和對彩色的感知,因而被廣泛應(yīng)用于計算機(jī)視覺分析中。顏色特征的表達(dá)方法:顏色直方圖,能夠簡單描述一幅圖像中顏色的全局分布即不同色彩在整幅圖像中所占的比例,特別適用于描述那些難以自動分割的圖像和不需要考慮物體空間位置的圖像。優(yōu)點是不受到圖像旋轉(zhuǎn)和平移變化等的影響,同時進(jìn)一步借助歸一化還可以不受圖像尺度變化的影響。由于顏色對圖像的方向、大小等變化不敏感,所以顏色特征不能很好的捕捉到圖像中對象的局部特征,2.紋理特征紋理特征是所有物體表面共有的內(nèi)在特性,是一種不依賴于顏色或亮度的反映圖像同質(zhì)現(xiàn)象的視覺特征。紋理特征包含了物體表面結(jié)構(gòu)組織排列的重要信息,其表現(xiàn)為圖像上灰度或顏色分布的規(guī)律性。提取一般是設(shè)定一定大小的圖圖像區(qū)域,然后從中取得紋理特征,常見的提取方法是統(tǒng)計方法、幾何方法、模型法和信號處理法。統(tǒng)計方法是基于像素及其周圍鄰域的灰度屬性來研究紋理區(qū)域的統(tǒng)計特征。具有較強(qiáng)的穩(wěn)健性和適應(yīng)性,但是其計算成本較高,并且忽略了像素之間的依賴關(guān)系。幾何法是建立在紋理基元理論基礎(chǔ)上的一種紋理特征分析方法,該理論認(rèn)為,若干簡單的基本紋理元素按照一定規(guī)律的形式重復(fù)排列后,可以構(gòu)成復(fù)雜的紋理。模型法以圖像的構(gòu)造模型為基礎(chǔ),采用模型的參數(shù)作為紋理特征,模型參數(shù)的估計是模型法的核心問題。模型法可以研究像素之間的依賴關(guān)系以取得紋理特征,同時兼顧了紋理整體的規(guī)律性及局部的隨機(jī)性;但是參數(shù)調(diào)節(jié)不方便,且模型收斂速度較慢。信號處理法主要是利用濾波器等對紋理圖像某個區(qū)域進(jìn)行變換,再提取出能夠保持相對平穩(wěn)的特征值來表示該區(qū)域的紋理特征。信號處理法能在更精細(xì)的尺度上分析紋理,更符合人類視覺特征,但是其計算量較大,對于背景更復(fù)雜的自然圖像處理能力有限。3.形狀特征形狀特征主要是對圖像中形狀的表示,常見的有兩類的表示方法,一種是輪廓特征,一種是區(qū)域特征。圖像的輪廓特征主要是聚焦于物體的外邊界,而圖像的區(qū)域特征關(guān)系到整個形狀區(qū)域。常見的形狀特征的提取和表示有以下幾種方法。邊界特征法是通過對邊界特征的描述來獲取圖像的形狀參數(shù)。傅里葉形狀描述法的基本思想是用圖像邊界坐標(biāo)的傅里葉變換作為基礎(chǔ),定量地描述圖像中目標(biāo)邊界的形狀。這一方法具有對旋轉(zhuǎn)、平移、尺度變化不敏感的特點。幾何參數(shù)法是指采用有關(guān)形狀的定量測度參數(shù)(如面積、周長、矩等)對圖像進(jìn)行描述。但是形狀參數(shù)的提取要以圖像處理及圖像分割為前提,參數(shù)的準(zhǔn)確性必然受到分割效果的影響,甚至對于分割效果很差的圖像,形狀參數(shù)無法提取。4.空間關(guān)系特征空間關(guān)系主要描述的是圖像中多目標(biāo)之間的空間位置或者相對方向。常見來說,空間位置信息包含兩種:一種是絕對空間位置信息,強(qiáng)調(diào)目標(biāo)的具體位置,比如目標(biāo)之間的距離遠(yuǎn)近;另一種是相對空間位置信息,強(qiáng)調(diào)目標(biāo)之間的相對位置,比如左右、上下、前后等關(guān)系??臻g關(guān)系特征的使用可以加強(qiáng)對圖像內(nèi)容的描述區(qū)分能力??臻g關(guān)系特征常對圖像或者目標(biāo)的旋轉(zhuǎn)、翻轉(zhuǎn)、尺度變化等變換比較敏感,所以僅僅利用空間信息往往不夠,也需要和前面提到的其他特征進(jìn)行結(jié)合使用。常見的提取圖像空間關(guān)系特征有兩種方法:一種是運(yùn)用圖像分割算法對圖像進(jìn)行處理,自動將圖像劃分成各個區(qū)域,使各區(qū)域內(nèi)圖像特征盡可能相似,通過對各區(qū)域內(nèi)特征進(jìn)行提取,得到圖像的空間關(guān)系特征;一種是將圖像均勻劃分為各個部分,對各部分進(jìn)行特征提取,進(jìn)而得到空間關(guān)系特征。5.關(guān)鍵特征提取出圖片最關(guān)鍵的特征,即不會因為圖片位置平移旋轉(zhuǎn)、大小縮放、而發(fā)生變化的特征。SIFT特征(Scale-invariantFeatureTransform)是其中的代表,其本質(zhì)是在不同的尺度空間上查找關(guān)鍵點(特征點),并計算關(guān)鍵點的方向。SIFT的所查找到的關(guān)鍵點是一些不會因光照、旋轉(zhuǎn)等因素而消失的、十分突出的點。SIFT特征提取主要有以下三個步驟:(1)提取關(guān)鍵點:搜索所有尺度空間上的圖像位置,識別潛在的具有尺度和旋轉(zhuǎn)不變性質(zhì)的關(guān)鍵點。(2)定位關(guān)鍵點并確定特征方向:對關(guān)鍵點進(jìn)行選擇,選擇的依據(jù)為關(guān)鍵點的穩(wěn)定程度,這樣做可以增強(qiáng)抗噪能力和穩(wěn)定性。(3)生成關(guān)鍵點描述子:為了使關(guān)鍵點具有更多的不變特性、提高圖像匹配的效率,還需要生成關(guān)鍵點描述子。關(guān)鍵點描述子除了包括關(guān)鍵點之外,還包括關(guān)鍵點周圍對其有貢獻(xiàn)的像素點;同時為了保證旋轉(zhuǎn)不變性,需要將坐標(biāo)軸旋轉(zhuǎn)到關(guān)鍵點方向,生成SIFT特征向量。6.視覺詞袋特征詞袋模型也被應(yīng)用圖像處理中,與文本中的詞袋模型類比,將圖像的特征都當(dāng)做單詞,即把圖像“文字化”,簡寫為Bag-of-Visual-Word(BOVMmodel)。(1)圖像局部特征提?。焊鶕?jù)具體應(yīng)用場景,綜合考慮特征的獨特性、提取算法復(fù)雜性等因素,從圖像中抽取局部特征,生成一定維度的特征向量;(2)視覺詞典構(gòu)造:利用步驟1處理好的特征數(shù)據(jù)通過適當(dāng)?shù)娜ト哂嗵幚淼玫揭恍┯写硇缘奶卣飨蛄?,再用聚類方法將特征詞分為若干類,其類別的數(shù)據(jù)由自己設(shè)定,將聚類中心定義為視覺單詞。所有視覺單詞組成視覺詞典;(3)量化圖像特征:一個圖像由很多視覺詞匯組成,通過每個圖像的視覺詞匯來量化表示圖像

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論