非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第1頁(yè)
非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第2頁(yè)
非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第3頁(yè)
非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第4頁(yè)
非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第5頁(yè)
已閱讀5頁(yè),還剩106頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章非結(jié)構(gòu)化數(shù)據(jù)描述性分析3.1數(shù)據(jù)的描述3.2數(shù)據(jù)的可視化3.3數(shù)據(jù)的質(zhì)量目錄和內(nèi)容3.1文本數(shù)據(jù)的描述文本的自然描述文本是由文字和標(biāo)點(diǎn)組成的字符串。字組成詞、詞組,形成句子、段落和文檔。對(duì)于只能理解0和1的計(jì)算機(jī)來(lái)說(shuō),尋找一種能夠讓機(jī)器接收的表示方法就是描述文本描述成為理解非結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵。文字和表情混用

如圖展示了電影《美麗人生》海報(bào)和用戶在豆瓣APP上對(duì)電影進(jìn)行的評(píng)價(jià)。網(wǎng)絡(luò)社交圈子中,除了文字之外,還有豐富的表情包、新生的顏文字,通過(guò)卡通表情來(lái)敘述自己的態(tài)度。中英文混雜縮寫DIY:DoItYourself的縮寫,自己動(dòng)手做的意思。例句:清歡太壞了,青眉電腦壞了找他修,他讓青眉DIY。SOHO:SmallOfficeHomeOfficer的簡(jiǎn)稱,意思是“在家辦公”。

例句:《游俠秀秀》的作者小非是SOHO一族啊。BUG:原意是“臭蟲(chóng)”,后來(lái)把跟電腦有關(guān)的故障都稱之為“BUG”。例句:每回俠客社區(qū)出現(xiàn)BUG,青眉都急得跳腳。I服了U:我服了你……周星星片子里的經(jīng)典臺(tái)詞。例句:你居然能讓清歡不對(duì)你說(shuō)“不”,I服了U!EMO:“我抑郁了”,“我網(wǎng)抑云了”,“我頹了”“我傻了”諧音短語(yǔ):數(shù)字諧音快速表達(dá)某些短語(yǔ),如下:

3166:沙喲娜拉,日語(yǔ),再見(jiàn)886:拜拜嘍,再見(jiàn)3Q:ThankYou,謝謝7456:氣死我了9494:就是就是表情包emoji:表情包是直接、快速的現(xiàn)代表達(dá)方式挖掘emoji信息幫助提升評(píng)論的情感分析文本數(shù)字化描述構(gòu)建文本表示模型,如何選取要素來(lái)表示文本文本表示模型:詞袋模型N-gram文本數(shù)值化描述基于頻次詞嵌入方法大模型文本表示模型詞袋模型BagofWords(BOW)詞袋模型將整個(gè)語(yǔ)料庫(kù)以詞為單位進(jìn)行切分,形成一個(gè)不包含重復(fù)對(duì)象的詞集合。例如有語(yǔ)料庫(kù):“今天一直下雨,明天會(huì)不會(huì)一直下雨”。利用BOW詞袋模型建模,獲得集合:(今天,明天,一直,下雨,會(huì)不會(huì))。該方法十分簡(jiǎn)單,容易理解忽略了句子中詞語(yǔ)的出現(xiàn)順序沒(méi)有將不同詞之間的相關(guān)性、是否是近義詞考慮進(jìn)去表示稀疏N元語(yǔ)言模型N-gram

基于統(tǒng)計(jì)語(yǔ)言模型的算法,將文本按照字節(jié)進(jìn)行大小為N的滑動(dòng)窗口操作,形成了長(zhǎng)度是N的字節(jié)片段序列。基于假設(shè):第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。具體操作是將N個(gè)詞之間的組合看作一個(gè)詞,生成一個(gè)不包含重復(fù)對(duì)象的詞組合集合。例如:“今天一直下雨,明天會(huì)不會(huì)一直下雨”,當(dāng)N=2時(shí),獲得(今天一直,一直下雨,明天會(huì)不會(huì),會(huì)不會(huì)一直)N-gram同樣非常稀疏,且隨著N的增加,N-gram模型的維數(shù)迅速膨脹。文本數(shù)值化將文本按照相應(yīng)表示模型轉(zhuǎn)化成集合后,對(duì)其進(jìn)行數(shù)值化將模型中的每個(gè)元素以數(shù)值代替。

頻次編碼CountVector:通過(guò)計(jì)數(shù)來(lái)生成詞向量的。舉例說(shuō)明:包含2個(gè)文檔的語(yǔ)料庫(kù):“我愛(ài)浙大”、“我愛(ài)中國(guó),非常愛(ài)”。語(yǔ)料庫(kù)中共有5個(gè)詞出現(xiàn),首先使用文本表示方法轉(zhuǎn)換為詞袋:(我,愛(ài),浙大,中國(guó),非常)則該語(yǔ)料庫(kù)的這兩個(gè)文檔都使用維度為5的CountVector來(lái)表示:第一個(gè)文檔中,“我”出現(xiàn)1次,計(jì)數(shù)為1;第二個(gè)文檔中“愛(ài)”出現(xiàn)了2次,計(jì)數(shù)為2。以此類推:共現(xiàn)矩陣共現(xiàn)矩陣是一個(gè)對(duì)稱矩陣,用來(lái)分析詞與詞之間基于上下文的相似性指在中心詞的左右某個(gè)窗口大小的范圍內(nèi),某兩個(gè)詞共同出現(xiàn)的次數(shù)如果窗口大小為1,則計(jì)算中心詞與前后1個(gè)位置的詞的共現(xiàn)次數(shù)對(duì)于語(yǔ)料庫(kù):“我愛(ài)浙大”、“我愛(ài)中國(guó),非常愛(ài)”中的文檔“我愛(ài)浙大”,滑動(dòng)窗口大小為1,尋找每一個(gè)詞前后的兩個(gè)詞如“愛(ài)”前后為“我”和“浙大”,在對(duì)應(yīng)位置標(biāo)注1即可得到共現(xiàn)矩陣為下:Index我愛(ài)浙大中國(guó)非常我01000愛(ài)10100浙大01000中國(guó)00000非常00000示例語(yǔ)料庫(kù)文檔“我愛(ài)浙大”的共現(xiàn)矩陣A/D轉(zhuǎn)換器鏡頭CCD傳感器濾波器CFA插值

白平衡、伽馬校正數(shù)據(jù)壓縮、存儲(chǔ)成像系統(tǒng)的內(nèi)部構(gòu)成相機(jī)拍照后選擇存儲(chǔ)格式3.2圖像數(shù)據(jù)的描述圖像的自然描述數(shù)字圖像是用傳感器將物體在光照下拍照獲得的手機(jī)和相機(jī)等光學(xué)傳感器獲取圖像的系統(tǒng)框圖有高度和寬度、以像素為基本單元順序的圖像數(shù)據(jù)圖像數(shù)據(jù)的描述-參數(shù)圖像大小:圖像文件的大小決定了圖像文件所需的磁盤存儲(chǔ)空間,一般以字節(jié)(byte)來(lái)度量,其計(jì)算公式為:字節(jié)數(shù)=(位圖高×位圖寬×圖像深度)/8。圖像分辨率:指單位打印長(zhǎng)度上的圖像像素的數(shù)目,表示圖像數(shù)字信息的數(shù)量或密度,決定了圖像的清晰程度。一張照片的分辨率為:1920*1080(dpi,全稱為dotperinch),1920是照片的寬度,1080是圖像的高度。圖像顏色:一種記錄圖像顏色的方式,將某種顏色表現(xiàn)為數(shù)字形式的模型。有RGB模式、RGBA模式、CMYK模式、位圖模式、灰度模式、索引顏色模式、雙色調(diào)模式等。位深:存儲(chǔ)每個(gè)像素所用的位數(shù)。圖像的每一個(gè)像素對(duì)應(yīng)的數(shù)據(jù)通??梢允?位(bit)或多位字節(jié),用于存放該像素的顏色、亮度等信息,數(shù)據(jù)位數(shù)越多,對(duì)應(yīng)的圖像顏色種類越多。如RGB的深度就是28*3=256*3=768,此圖像的深度為768,每個(gè)像素點(diǎn)都能夠代表768中的顏色。色調(diào):指各種圖像色彩模式下圖像的原色的明暗度。例如,RGB模式的圖像的原以為R、G、B的3種明暗度,色調(diào)的調(diào)整就是對(duì)明暗度的調(diào)整。飽和度:指圖像顏色的深度,它表明了色彩的純度,決定于物體反射或投射的特性。圖像數(shù)字化描述

圖像的數(shù)字化描述是能夠在計(jì)算機(jī)上存儲(chǔ)和容易分析的圖像形式可根據(jù)特性分為位圖和矢量圖。位圖通常使用數(shù)字陣列來(lái)表示,常見(jiàn)的格式有BMP、JPEG、GIF等。用數(shù)字照相機(jī)得到的圖像都是位圖圖像,位圖圖像由像素組成,每個(gè)像素都被分配一個(gè)特定位置和顏色值數(shù)字化描述方式,灰度圖像、二值圖像、彩色圖像和比特平面分層圖像等矢量圖有矢量數(shù)據(jù)庫(kù)表示,常見(jiàn)的是PNG圖形位圖的矩陣描述將一幅圖像視為一個(gè)二維函數(shù)f(x,y)其中x和y是空間坐標(biāo),在x-y平面中的任意一對(duì)空間坐標(biāo)(x,y)上的幅值f用來(lái)表示一幅圖像具有兩個(gè)連續(xù)變量x和y的連續(xù)圖像函數(shù),該函數(shù)可以是該點(diǎn)的灰度、亮度或者強(qiáng)度?;叶葓D像RGB彩色圖像自然界幾乎所有顏色都可以由紅綠藍(lán)三種顏色組合而成,稱為RGB三原色彩色圖像的每個(gè)像素通常是由紅(R)、綠(G)、藍(lán)(B)三個(gè)分量來(lái)表示的紅、綠、藍(lán)每一種顏色各有256級(jí)亮度,256級(jí)的RGB色彩總共能組合出約1678萬(wàn)種色彩對(duì)于圖像的每個(gè)像素,通過(guò)控制RGB三原色的合成比例,則可決定該像素的顯示顏色

比特平面分層比特平面分層代替突出灰度級(jí)的范圍,突出特定的比特對(duì)整個(gè)圖像做出的貢獻(xiàn)像素是比特組成的數(shù)字,一幅8比特的圖像可以認(rèn)為是8個(gè)1比特的平面構(gòu)成平面1包含圖像中所有像素的最低階比特,平面8包含圖像中所有像素的最高階比特低階的比特平面含有原圖的灰度細(xì)節(jié)高階的比特平面則包含了大多數(shù)的圖像的數(shù)據(jù)可以使用高階的幾層比頁(yè)面重建原圖,減少圖像存儲(chǔ)量《蒙娜麗莎的微笑》圖像的比特平面分層示例分層的作用:通過(guò)對(duì)特定位面提高亮度,改善圖像質(zhì)量分層觀察圖像進(jìn)行圖像差異化的描述分析較高位(如前4位)包含視覺(jué)重要數(shù)據(jù)較低位(如后4位)對(duì)圖像小細(xì)節(jié)有作用可以分析每一位在圖像中的相對(duì)重要性

彩色圖像的比特平面分層彩色圖像的比特面分層只是在紅、藍(lán)、綠三個(gè)分量上分別進(jìn)行分層如圖3.12中紅色通道上的一個(gè)像素用8比特的字節(jié)表示,二進(jìn)制數(shù)存儲(chǔ)在不同的比特面層次的低層到高層中,則二進(jìn)制11001010=十進(jìn)制202最后彩色圖像上該像素的幅度值為RGB三個(gè)彩色分量上8比特字節(jié)的組合

圖像描述(ImageCaption)看圖說(shuō)話:輸入是一幅圖像,輸出是對(duì)該幅圖像文字描述3.3視頻數(shù)據(jù)的描述視頻的自然描述視頻指連續(xù)的圖像序列是人肉眼可觀察到的連續(xù)畫面經(jīng)過(guò)捕捉和存儲(chǔ)后,可重復(fù)播放的信息形式用幀、鏡頭、場(chǎng)景、故事單元等元素來(lái)描述視頻的內(nèi)部?jī)?nèi)容衡量視頻的質(zhì)量,用清晰度、分辨率、色彩空間以及峰值信噪比來(lái)量化視頻表現(xiàn)的時(shí)序動(dòng)作信息

視頻數(shù)字化描述每個(gè)視頻都是一個(gè)圖像序列,其內(nèi)容比一張圖像豐富的多,表現(xiàn)力更強(qiáng)。視頻具有層次化結(jié)構(gòu),由場(chǎng)景、鏡頭和幀三個(gè)邏輯單元組成。對(duì)視頻的分析通常是基于視頻幀,通過(guò)視頻解碼后得到的視頻流中包含的I幀、B幀、P幀等。關(guān)鍵幀定義:把圖像坐標(biāo)系中每個(gè)“視頻幀”都疊加在一起,這時(shí)鏡頭中視頻幀的特征矢量會(huì)在空間中呈現(xiàn)出一個(gè)軌跡的狀態(tài),而與軌跡中特征值進(jìn)行對(duì)應(yīng)的“幀”即可稱之為關(guān)鍵幀。在構(gòu)成一段動(dòng)畫的若干幀中,起到?jīng)Q定性作用的往往是2-3幀。通常關(guān)鍵幀通常是1秒動(dòng)畫的第一幀和最后一幀,因此,提取視頻的關(guān)鍵幀至關(guān)重要視頻流中的I幀、B幀、P幀和關(guān)鍵幀的信息抽取

百度智能云媒體內(nèi)容分析過(guò)程百度智能云媒體內(nèi)容分析MCA(MediaContentAnalysis)是一款基于多維AI技術(shù)的計(jì)算型產(chǎn)品,為用戶提供音視頻及直播的內(nèi)容分析能力。視頻語(yǔ)音、文字、公眾人物、物體、場(chǎng)景等多個(gè)維度進(jìn)行識(shí)別后輸出對(duì)視頻的場(chǎng)景、公眾人物、地點(diǎn)、實(shí)體和關(guān)鍵詞的結(jié)構(gòu)化標(biāo)簽信息提高搜索準(zhǔn)確度和用戶推薦視頻的曝光量。

視頻描述(VideoCaptioning)3.4音頻數(shù)據(jù)的描述音頻的自然描述音頻信號(hào)(Audio)是帶有語(yǔ)音、音樂(lè)和音效的有規(guī)律的聲波的頻率、幅度變化信息載體。不同類型的音頻具有不同的內(nèi)在特征和自然描述,物理特征級(jí)、聲學(xué)特征級(jí)別和語(yǔ)義級(jí)。物理樣本級(jí)描述包含的特征有采樣頻率、時(shí)間刻度、樣本等;聲學(xué)特征級(jí)描述包含音調(diào)、音高、旋律、節(jié)奏等;語(yǔ)義級(jí)描述則包括音頻的敘事、音頻對(duì)象描述、語(yǔ)音識(shí)別文本等。

語(yǔ)音“我愛(ài)北京天安門”的時(shí)域信號(hào)語(yǔ)音:隨時(shí)間播放音樂(lè):唱歌樂(lè)曲隨時(shí)間播放音頻數(shù)字化過(guò)程音頻數(shù)字化描述采樣率是指錄音設(shè)備在單位時(shí)間內(nèi)對(duì)聲音信號(hào)的采樣次數(shù),主流采樣率分為三個(gè)等級(jí):22.05KHz、44.1KHz、48KHz。44.1KHz理論上是CD音質(zhì)的界限,這也是MP3具有的采樣率。量化是聲音信號(hào)在幅值的數(shù)字化,主要是將幅度上連續(xù)取值的每一個(gè)樣本轉(zhuǎn)換為離散值表示,其量化過(guò)后的樣本用二進(jìn)制表示。二進(jìn)制的位數(shù)反映了度量聲音波形幅度的精度。精度越大,聲音的質(zhì)量就越好。通常的精度有8bit,16bit,32bit等,質(zhì)量越好,需要的儲(chǔ)存空間就越大。音頻數(shù)據(jù)的時(shí)域和頻域表示音頻數(shù)據(jù)的時(shí)域和頻域表示數(shù)據(jù)率是音頻數(shù)字化的基本技術(shù)參數(shù),數(shù)據(jù)率為每秒bit數(shù),其總數(shù)據(jù)量與計(jì)算機(jī)的存儲(chǔ)空間有直接關(guān)系。未經(jīng)壓縮的數(shù)字音頻數(shù)據(jù)率可按下式計(jì)算:數(shù)據(jù)率=采樣頻率(Hz)×量化位數(shù)(bit)×聲道數(shù)(bit/s)3.5數(shù)據(jù)的可視化可視化技術(shù)通常會(huì)將數(shù)據(jù)分析內(nèi)容集成在一個(gè)圖形界面上,展示一個(gè)或多個(gè)可視化視圖。非結(jié)構(gòu)數(shù)據(jù)特征多,需要降維以緩解維數(shù)災(zāi)難。可以對(duì)數(shù)據(jù)去冗余、降低信噪比,方便可視化。因此非結(jié)構(gòu)數(shù)據(jù)可視化需要首先提取特征,在分解和降維之后再進(jìn)行可視化,分析和揭示數(shù)據(jù)的規(guī)律。文本的可視化分析詞云WordCloud使用Python,調(diào)用wordcloud庫(kù)中的方法來(lái)簡(jiǎn)單制作詞云圖,步驟如下:收集語(yǔ)料:語(yǔ)料可以是某一類新聞,某一篇小說(shuō),某一篇報(bào)道,人物描述,公司描述,物品描述等等,通過(guò)某個(gè)語(yǔ)料,獲取該語(yǔ)料的主題。數(shù)據(jù)讀?。簩?duì)于爬蟲(chóng)得到的數(shù)據(jù)需要去掉空行,對(duì)不規(guī)范的內(nèi)容進(jìn)行處理,對(duì)于規(guī)范的文本可以直接調(diào)用jieba庫(kù)進(jìn)行分詞。去停止詞:分詞后需去掉停止詞,停止詞的詞頻很大,影響結(jié)果。統(tǒng)計(jì)詞頻:使用wordcloud制作成詞云B站詞云的案例bilibili網(wǎng)站下視頻彈幕文本的詞云圖經(jīng)過(guò)爬取bilibili網(wǎng)站下視頻“建黨百年主題MV《少年》”下出現(xiàn)的高頻彈幕,并制作詞云圖可以清晰地展示大眾在該視頻下的彈幕評(píng)論高頻詞匯:“吾輩”、“當(dāng)自強(qiáng)”、“中國(guó)”等。詞云可以很好地表現(xiàn)每個(gè)單詞在特定文本體中被提及的頻率(即詞頻分布)通過(guò)使用不同的顏色和大小來(lái)表示不同級(jí)別的相對(duì)顯著性。TIARA可視化方法TIARA結(jié)合了標(biāo)簽云,通過(guò)主題分析技術(shù)(latentdirichletallocation,LDA),將文本關(guān)鍵詞根據(jù)時(shí)間點(diǎn)放置在每條色帶上用詞的大小來(lái)表示關(guān)鍵詞在該時(shí)刻出現(xiàn)的頻率。因此用TIARA可以幫助用戶快速分析文本具體內(nèi)容隨時(shí)間變化的規(guī)律。如圖3.24在可視化中,每一層代表一個(gè)主題,由一組關(guān)鍵字描述。此處顯示了總共18個(gè)主題中的前8個(gè)主題。這些主題關(guān)鍵字隨時(shí)間分布,總結(jié)了內(nèi)容隨時(shí)間的演變。x軸編碼時(shí)間,y軸編碼每個(gè)主題的強(qiáng)度。對(duì)于每個(gè)主題,高度編碼了特定時(shí)間主題的電子郵件。從每個(gè)話題的高度及其隨時(shí)間分布的內(nèi)容,用戶可以觀察到話題隨時(shí)間的演變。FaceAtlas氣泡圖FaceAtlas結(jié)合了氣泡集和節(jié)點(diǎn)-鏈接圖兩種視圖,用于表達(dá)文本各層面信息內(nèi)部和外部的關(guān)聯(lián)。每個(gè)節(jié)點(diǎn)表示一個(gè)實(shí)體,用KDE方法刻畫出氣泡圖的輪廓,然后用線將同一層面的實(shí)體鏈接起來(lái),一種顏色代表一種實(shí)體。下圖是基于醫(yī)療健康文檔,展示了與HIV相關(guān)的病名、病因、癥狀、診斷方案等多層面的信息,“無(wú)癥狀HIV感染”中(右上角),顯示了更多相關(guān)疾病(以紅色圓圈突出顯示)。情感分析可視化情感分析是指從文本中挖掘出心情、喜好、感覺(jué)等主觀信息。分析文本能掌握人們對(duì)于一個(gè)事件的觀點(diǎn)或情感的發(fā)展。圖3.25是基于矩陣視圖的客戶反饋信息的可視化工作,其中的行是指用戶觀點(diǎn)的載體,列是用戶的評(píng)價(jià),顏色表達(dá)的是用戶評(píng)價(jià)的傾向程度,紅色代表消極,藍(lán)色代表積極,每個(gè)方格內(nèi)的小格子代表用戶評(píng)價(jià)的人數(shù),評(píng)價(jià)人數(shù)越多小格子越大。文本的知識(shí)圖譜知識(shí)圖譜旨在用結(jié)構(gòu)化的形式描述真實(shí)世界中存在的各種實(shí)體或概念之間的關(guān)系,簡(jiǎn)化成三元組模式,即:實(shí)體-關(guān)系-實(shí)體。最終呈現(xiàn)的是一張的關(guān)系網(wǎng),網(wǎng)中每個(gè)節(jié)點(diǎn)代表某種實(shí)體或概念,而關(guān)系則是展現(xiàn)兩者之間的關(guān)聯(lián)文本數(shù)據(jù)知識(shí)圖譜技術(shù)以最契合社會(huì)行為的形式表達(dá)復(fù)雜的社會(huì)結(jié)構(gòu),適合分析具有關(guān)聯(lián)關(guān)系的數(shù)據(jù)。圖表示知識(shí)圖譜助力新冠肺炎抗疫,在大量的數(shù)據(jù)中抽取出軌跡的關(guān)鍵點(diǎn)信息、新冠肺炎特征、預(yù)防措施、治療方案等信息,將數(shù)據(jù)進(jìn)行信息化和知識(shí)化處理,經(jīng)過(guò)前期抽樣的人工校驗(yàn)后作為疫情大腦的數(shù)據(jù)來(lái)源。CNN特征圖可視化深度神經(jīng)網(wǎng)絡(luò)性能很高,但其內(nèi)部的工作方式錯(cuò)綜復(fù)雜,研究人員難以理解其中是如何得出結(jié)果的。

如下圖示出簡(jiǎn)化的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如何將紅色虛線框中的黑盒打開(kāi),用可視化方式展示網(wǎng)絡(luò)內(nèi)部各種層級(jí)結(jié)構(gòu),對(duì)黑箱的CNN進(jìn)行可解釋對(duì)分析決策是非常重要的。

CNN特征圖可視化

類別激活映射(CAM)解釋CNN分類結(jié)果(圖像來(lái)源:BoleiZhouetalLearningDeepFeaturesforDiscriminativeLocalization.CVPR2016)交互式可視化學(xué)習(xí)CNN使用CNNExplainer觀察CNN運(yùn)作過(guò)程(圖像來(lái)源:CNNExplainer(poloclub.github.io))特征降維PCAt-SNE降維與可視化與PCA的性能相比,t-SNE的表現(xiàn)更好。t-SNE算法將不同的手寫數(shù)字聚類,沒(méi)有任何重疊,PCA難以將手寫數(shù)字圖像進(jìn)行完美分類。與PCA不同,t-SNE可以更好地應(yīng)用于線性和非線性良好聚類的數(shù)據(jù)集,并產(chǎn)生更有意義的聚類。盡管t-SNE在可視化分離良好的群集方面非常出色,但大多數(shù)情況下它無(wú)法保留數(shù)據(jù)的整體幾何形狀。3.6數(shù)據(jù)的質(zhì)量數(shù)據(jù)質(zhì)量問(wèn)題直接影響分析的結(jié)果高質(zhì)量數(shù)據(jù)應(yīng)該是對(duì)現(xiàn)實(shí)世界的真實(shí)反映高質(zhì)量數(shù)據(jù)=?文本數(shù)據(jù)的質(zhì)量文本數(shù)據(jù)的描述,經(jīng)過(guò)爬取和收集的生數(shù)據(jù)集(rawdata)中常常包含大量來(lái)自于網(wǎng)絡(luò)的文本,無(wú)可避免的需要面對(duì)一些不規(guī)范的文本表達(dá)問(wèn)題。社交網(wǎng)絡(luò)中常出現(xiàn)的顏文字、表情符號(hào)等圖像數(shù)據(jù)的質(zhì)量標(biāo)簽噪聲自行車圖像清晰度質(zhì)量低環(huán)境照度圖像(下圖a)模糊不清圖像(下圖b)雨霧天圖像(下圖c,d)遠(yuǎn)距離分辨率低圖像壓縮倍數(shù)大質(zhì)量低都將會(huì)影響圖像分析的結(jié)果音頻數(shù)據(jù)的質(zhì)量干擾場(chǎng)景:實(shí)際中聲音檢測(cè)主要是處于干擾環(huán)境中的背景音以及聲音的混響例如使用Siri的時(shí)候會(huì)發(fā)現(xiàn),如果周圍環(huán)境噪聲過(guò)大,Siri就會(huì)出現(xiàn)誤判,主要的原因是人說(shuō)話的語(yǔ)音信號(hào)與手機(jī)麥克風(fēng)所采拾的環(huán)境噪聲之間信噪比(SNR)較小,噪聲影響了正常識(shí)別系統(tǒng)的性能。遠(yuǎn)場(chǎng)場(chǎng)景:遠(yuǎn)場(chǎng)場(chǎng)景都是比較復(fù)雜的場(chǎng)景,這主要是因?yàn)辂溈孙L(fēng)距離遠(yuǎn),語(yǔ)音信號(hào)到達(dá)麥克風(fēng)時(shí)衰減嚴(yán)重,使得環(huán)境噪音、混響、音樂(lè)等背景干擾信號(hào),以及其他人聲的影響難以被忽略。實(shí)用中識(shí)別系統(tǒng)在訓(xùn)練數(shù)據(jù)具有多重干擾時(shí),尤其是多人人聲和干擾的環(huán)境下的魯棒性仍需解決。數(shù)據(jù)的偏差影響很多人認(rèn)為,只要數(shù)據(jù)集的樣本足夠多,就能夠訓(xùn)練得到在真實(shí)世界中性能同樣出眾的模型這種觀點(diǎn)的前提假設(shè)是訓(xùn)練集的樣本分布與真實(shí)世界的分布一致。事實(shí)上,數(shù)據(jù)集與真實(shí)世界存在數(shù)據(jù)分布偏差,不同數(shù)據(jù)集之間也存在樣本分布偏差。有偏見(jiàn)的數(shù)據(jù)集不能準(zhǔn)確地表示模型的用例,從而導(dǎo)致結(jié)果偏斜,準(zhǔn)確性水平低、分析結(jié)果錯(cuò)誤。樣本偏差當(dāng)數(shù)據(jù)集不能反映模型將在其中運(yùn)行的環(huán)境的實(shí)際情況時(shí),就會(huì)發(fā)生樣本偏差。在2018年夏天,英國(guó)媒體就報(bào)道過(guò),由于人臉識(shí)別技術(shù)的誤判,導(dǎo)致一名年輕黑人男性被誤認(rèn)為嫌疑犯,在公眾場(chǎng)合被警察搜身。一些用于面部識(shí)別系統(tǒng)的數(shù)據(jù)集大部分都由白人構(gòu)成,這樣的偏見(jiàn)會(huì)在AI系統(tǒng)中形成錯(cuò)判。這些模型對(duì)婦女和不同種族的人的準(zhǔn)確率要低得多,此偏差的另一個(gè)名稱是選擇偏差,可能導(dǎo)致學(xué)習(xí)算法的泛化能力變差。亞馬遜AI識(shí)別深色女性人種的正確率更低(圖片來(lái)源:/archives/451383)數(shù)據(jù)的偏差影響只要數(shù)據(jù)樣本足夠多,就能夠訓(xùn)練出性能同樣的模型?這觀點(diǎn)的前提假設(shè)是訓(xùn)練集的樣本分布與真實(shí)世界的分布一致事實(shí)上,數(shù)據(jù)集與真實(shí)世界存在數(shù)據(jù)樣本分布偏差有偏見(jiàn)的數(shù)據(jù)集不能準(zhǔn)確地表示模型的用例導(dǎo)致結(jié)果偏斜,準(zhǔn)確性水平低、分析結(jié)果錯(cuò)誤測(cè)量偏差收集的數(shù)據(jù)與現(xiàn)實(shí)世界中收集的數(shù)據(jù)有可能不同不同人、不同設(shè)備、不同角度的采集發(fā)生這種偏差訓(xùn)練數(shù)據(jù)用一類相機(jī)收集的,測(cè)試數(shù)據(jù)是用另一種照相機(jī)不同人拍攝同樣建筑獲得不同的圖可能產(chǎn)生測(cè)量偏差在項(xiàng)目數(shù)據(jù)標(biāo)記階段,注釋不一致也會(huì)導(dǎo)致測(cè)量偏差。觀察者偏差觀察者偏差是一種認(rèn)知偏差,這是基于人們傾向于尋找與他們先前持有的信念相一致的信息。當(dāng)研究人員在有意識(shí)或無(wú)意識(shí)的情況下,對(duì)自己的研究有主觀意識(shí)嵌入到項(xiàng)目里。例如當(dāng)標(biāo)簽制作者有自己的直覺(jué)習(xí)慣,制作的標(biāo)簽就存在主觀思想的控制,會(huì)導(dǎo)致數(shù)據(jù)不準(zhǔn)確。數(shù)據(jù)集間偏差數(shù)據(jù)集之間同樣也存在著偏差任務(wù)不同,每一個(gè)數(shù)據(jù)集收集到的圖像風(fēng)格會(huì)受到影響不同數(shù)據(jù)集之間同一目標(biāo)的圖像其拍攝角度、風(fēng)格等各異一般的模型無(wú)法泛化所有的圖像數(shù)據(jù)集在遇到來(lái)自于其他數(shù)據(jù)集圖像,會(huì)出現(xiàn)誤判,準(zhǔn)確率明顯下降。謝謝大家勤學(xué)/修德/明辨/篤實(shí)第四章經(jīng)典模型與分析方法4.1模型評(píng)價(jià)與模型選擇4.2集成樹(shù)模型4.3線性模型4.4K近鄰法4.5支持向量機(jī)4.6K均值聚類4.7層次聚類法目錄和內(nèi)容監(jiān)督學(xué)習(xí)versus

無(wú)監(jiān)督學(xué)習(xí)決策樹(shù)隨機(jī)森林XGBoost線性回歸邏輯回歸線性判別分析k近鄰法支持向量機(jī)感知器神經(jīng)網(wǎng)絡(luò)K均值聚類層次聚類法章節(jié)內(nèi)容概述目錄和內(nèi)容4.1模型評(píng)價(jià)與模型選擇4.2集成樹(shù)模型4.3線性模型4.4K近鄰法4.5支持向量機(jī)4.6K均值聚類4.7層次聚類法

4.1.1模型評(píng)價(jià)準(zhǔn)則

錯(cuò)誤率和精度以二分類問(wèn)題為例,將樣本的真實(shí)類別和預(yù)測(cè)類別分為四種組合:真正例(TruePositive)、假正例(FalsePositive)、真反例(TrueNegative)和假反例(FalseNegative),假設(shè)這四種組合對(duì)應(yīng)的樣本個(gè)數(shù)分別為TP、FP、TN和FN,則TP+FP+TN+FN=N。查準(zhǔn)率和召回率真實(shí)情況預(yù)測(cè)結(jié)果正例反例正例TPFN反例FPTN

受試者工作特征曲線

以TPR為縱軸,F(xiàn)PR為橫軸即可畫出ROC曲線,模型對(duì)應(yīng)的ROC曲線下圍成的面積(AreaUnderROCCurve,AUC)越大意味著模型更優(yōu)。ROC曲線下圍成的面積回歸問(wèn)題評(píng)價(jià)指標(biāo)

4.1.2模型評(píng)價(jià)方法-留出法令S為數(shù)據(jù)樣本,若在S較為充分的情況下,可以將數(shù)據(jù)集劃分為訓(xùn)練集TR、測(cè)試集TE和驗(yàn)證集VA三個(gè)互斥部分,且滿足:訓(xùn)練集、測(cè)試集、驗(yàn)證集劃分按照通常做法,訓(xùn)練集、測(cè)試集和驗(yàn)證集三部分的比例一般取6:2:2。訓(xùn)練模型時(shí),在訓(xùn)練集和測(cè)試集上進(jìn)行模型參數(shù)調(diào)整,并在驗(yàn)證集上進(jìn)行模型泛化能力的檢驗(yàn)。交叉驗(yàn)證法在實(shí)際應(yīng)用中,有許多場(chǎng)合獲得的數(shù)據(jù)樣本量偏少,沒(méi)有足夠的數(shù)據(jù)進(jìn)行訓(xùn)練。為了能夠訓(xùn)練出好的模型,較常使用的方法是S交叉驗(yàn)證法(S-foldCrossValidation)。這里以5-fold交叉驗(yàn)證為例,4.1.3過(guò)擬合和欠擬合模型學(xué)習(xí)能力過(guò)強(qiáng),將訓(xùn)練樣本的某些偏差當(dāng)作樣本特征,會(huì)導(dǎo)致其在面對(duì)新樣本時(shí)表現(xiàn)不佳(相對(duì)訓(xùn)練樣本而言),即泛化能力較弱,這種情況稱為過(guò)擬合(Overfitting)。與過(guò)擬合相對(duì)應(yīng)的是欠擬合(Underfitting),其表現(xiàn)為模型不能充分學(xué)習(xí)訓(xùn)練樣本的特征,遺漏了較多樣本信息,導(dǎo)致模型訓(xùn)練效果較差。正確的擬合形式過(guò)擬合和欠擬合的對(duì)比4.1.4模型參數(shù)調(diào)整機(jī)器學(xué)習(xí)模型包含許多參數(shù),在用這些模型解決實(shí)際問(wèn)題時(shí),一般需要先對(duì)參數(shù)進(jìn)行設(shè)定,這類需要事先設(shè)定的參數(shù)稱為“超參數(shù)”(Hyperparameter)。參數(shù)調(diào)優(yōu)的目標(biāo)是選擇合適的參數(shù)以使模型能夠達(dá)到令人滿意的效果。常見(jiàn)方法網(wǎng)格搜索(GridSearch)隨機(jī)搜索(RandomSearch)這些參數(shù)調(diào)優(yōu)方法均已被封裝為工具包,讀者在實(shí)戰(zhàn)中可根據(jù)具體問(wèn)題選擇合適的調(diào)優(yōu)方法并調(diào)用相應(yīng)的工具包。目錄和內(nèi)容4.1模型評(píng)價(jià)與模型選擇4.2集成樹(shù)模型4.3線性模型4.4K近鄰法4.5支持向量機(jī)4.6K均值聚類4.7層次聚類法4.2.1基本的樹(shù)模型決策樹(shù)(DecisionTree)是一種非參數(shù)的機(jī)器學(xué)習(xí)算法,常用來(lái)解決分類和回歸問(wèn)題。以二叉樹(shù)為例。一棵決策樹(shù)由結(jié)點(diǎn)和邊構(gòu)成,結(jié)點(diǎn)包括一個(gè)根結(jié)點(diǎn)(代表樣本集合),多個(gè)內(nèi)部結(jié)點(diǎn)(代表屬性)和多個(gè)葉結(jié)點(diǎn)(代表結(jié)果),邊代表分裂過(guò)程。根據(jù)屬性分裂準(zhǔn)則的不同,決策樹(shù)可以分為ID3算法(使用信息增益選擇分裂屬性)C4.5算法(使用增益率選擇分裂屬性)CART算法(使用基尼指數(shù)選擇分裂屬性)信息增益

信息增益率

基尼指數(shù)

隨機(jī)森林為了克服決策樹(shù)泛化能力弱的特點(diǎn),LeoBreiman在2001年提出了隨機(jī)森林(RandomForest)算法,結(jié)合多棵決策樹(shù)進(jìn)行預(yù)測(cè)。隨機(jī)森林主要具有以下優(yōu)點(diǎn):(1)通過(guò)對(duì)訓(xùn)練樣本和特征進(jìn)行隨機(jī)抽樣,防止過(guò)擬合,提高模型的泛化能力;(2)多棵樹(shù)的訓(xùn)練相互獨(dú)立,可以通過(guò)并行計(jì)算,提高訓(xùn)練速度。但是它也存在以下缺點(diǎn):部分決策樹(shù)因?yàn)闃颖绢悇e不平衡、重復(fù)抽樣等原因預(yù)測(cè)表現(xiàn)比較差,會(huì)降低整個(gè)隨機(jī)森林的預(yù)測(cè)表現(xiàn)。4.2.2XGBoost算法Chen

Tianqi在2016年提出了XGBoost算法,克服了隨機(jī)森林算法的缺點(diǎn)。XGBoost(ExtremeGradientBoosting,極限梯度提升)算法屬于集成學(xué)習(xí)算法,它是對(duì)Boosting算法和GradientBoosting算法的進(jìn)一步改進(jìn)。Boosting算法通過(guò)迭代優(yōu)化,將多個(gè)弱學(xué)習(xí)器組合成一個(gè)強(qiáng)學(xué)習(xí)器,提高預(yù)測(cè)準(zhǔn)確性。GradientBoosting算法是Boosting算法的改進(jìn),令損失函數(shù)在迭代過(guò)程中沿梯度方向下降。目標(biāo)函數(shù)

目錄和內(nèi)容4.1模型評(píng)價(jià)與模型選擇4.2集成樹(shù)模型4.3線性模型4.4K近鄰法4.5支持向量機(jī)4.6K均值聚類4.7層次聚類法4.3.1基本線性模型

樣本序號(hào)11.11.023.44.132.02.544.23.755.05.067.26.978.18.3邏輯回歸

邏輯回歸

Logistic分布的分布函數(shù)曲線和概率密度函數(shù)曲線邏輯回歸

參數(shù)估計(jì)參數(shù)估計(jì)

4.3.2線性判別分析

兩個(gè)類別投影后的效果距離計(jì)算

算例本小節(jié)試圖通過(guò)LDA模型判斷圖像類別是否為貓,數(shù)據(jù)及參考代碼來(lái)源于Kaggle公開(kāi)數(shù)據(jù)集(數(shù)據(jù)來(lái)源:/mriganksingh/cat-images-dataset;參考代碼來(lái)源:/gamerplayer/classification-using-logistic-regression-sklearn)。數(shù)據(jù)集中訓(xùn)練集樣本數(shù)為209,包含72個(gè)正例,即72張圖像為貓的圖像;測(cè)試集大小為50,包含33個(gè)正例。其中,正例標(biāo)記為1,反例標(biāo)記為0。首先導(dǎo)入所需代碼包,并確定數(shù)據(jù)集所在位置:算例導(dǎo)入數(shù)據(jù)集:算例訓(xùn)練集第8張圖像是貓的圖像,結(jié)果顯示如下:將數(shù)據(jù)處理成模型可識(shí)別的形式,并進(jìn)行標(biāo)準(zhǔn)化:調(diào)用sklearn.discriminant_analysis函數(shù)庫(kù)中的LinearDiscriminantAnalysis()函數(shù)進(jìn)行模型訓(xùn)練:4.3.3常用策略和方法

k與權(quán)值的關(guān)系4.3.3常用策略和方法

目錄和內(nèi)容4.1模型評(píng)價(jià)與模型選擇4.2集成樹(shù)模型4.3線性模型4.4K近鄰法4.5支持向量機(jī)4.6K均值聚類4.7層次聚類法4.4.1算法介紹k近鄰法(K-nearestNeighbor,KNN)是一種常用的機(jī)器學(xué)習(xí)算法,屬于監(jiān)督學(xué)習(xí)。工作原理:輸入訓(xùn)練樣本后,定義某種特定的距離算法,在訓(xùn)練樣本中尋找k個(gè)和待預(yù)測(cè)樣本數(shù)據(jù)點(diǎn)最接近的樣本,即找到測(cè)試樣本點(diǎn)在訓(xùn)練樣本點(diǎn)中的k個(gè)“鄰居”,并利用這些鄰居的表現(xiàn)預(yù)測(cè)測(cè)試樣本的表現(xiàn)。k近鄰法既可以用于分類問(wèn)題,又可以用于回歸問(wèn)題。4.4.2距離度量方式

4.4.3近鄰點(diǎn)搜索算法在應(yīng)用k近鄰算法時(shí),最大挑戰(zhàn)在于如何提高尋找訓(xùn)練樣本中k個(gè)最近鄰點(diǎn)的搜索速度。當(dāng)特征空間的維數(shù)升高或者訓(xùn)練樣本數(shù)據(jù)量過(guò)大時(shí),這個(gè)問(wèn)題變得非常重要。kdtree算法就是一種快速實(shí)現(xiàn)近鄰點(diǎn)搜索的算法。在R2空間中根據(jù)以下數(shù)據(jù)集建立一個(gè)平衡kdtree:S={(1,1),(3,5),(4,2),(5,4),(6,0.5),(6.5,1),(7,3)}kdtree示意4.4.4KNN算例數(shù)據(jù)集:Sort_1000pics選擇卡車、花朵、馬和山峰共400張圖片,將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測(cè)試集,比例為7:3,進(jìn)行圖片多分類識(shí)別

precisionrecallF1-scoresupport卡車0.860.970.9133花朵0.840.70.7630馬0.651.00.7926山峰10.580.7331

Accuracy

0.81120Macroavg0.840.810.80120Weightedavg0.850.810.80120

算法表現(xiàn):目錄和內(nèi)容4.1模型評(píng)價(jià)與模型選擇4.2集成樹(shù)模型4.3線性模型4.4K近鄰法4.5支持向量機(jī)4.6K均值聚類4.7層次聚類法4.5.1SVM算法介紹

二分類圖示支持向量機(jī)基本原理示意4.5.2線性可分支持向量機(jī)訓(xùn)練數(shù)據(jù)集D中,有T個(gè)訓(xùn)練樣本,每個(gè)訓(xùn)練樣本由特征向量X和類別Y組成,寫作:D={(x1,y1),(x2,y2),...,(xT,yT)}線性可分支持向量機(jī)中的樣本可以被超平面完全分割,且能夠完全分割的超平面可能不唯一,因此希望能夠找到一個(gè)最佳的超平面,以獲得最優(yōu)的分類效果,使得出錯(cuò)概率最小。以二分類問(wèn)題為例,對(duì)i=1,2,...,T,令yi∈{-1,+1},如果特征向量X只有A和B兩個(gè)屬性的話,存在如下超平面進(jìn)行分割:多個(gè)分割超平面示意4.5.2線性可分支持向量機(jī)為了得到最優(yōu)超平面,定義“帶寬”。因此目標(biāo)轉(zhuǎn)化為尋找最大帶寬的超平面。超平面可以描述為:該超平面可以將所有樣本正確分類為+1和-1,正負(fù)臨界平面定義如下:①正臨界平面:②負(fù)臨界平面:(a)小帶寬

(b)大帶寬正負(fù)臨界超平面示意4.5.3線性支持向量機(jī)在線性可分支持向量機(jī)中,一個(gè)重要的假定是所有的樣本均可被一個(gè)分割超平面分開(kāi),但在許多情況下,盡管可以找到一個(gè)超平面較好地對(duì)數(shù)據(jù)樣本進(jìn)行分類,卻因?yàn)樵肼暫透蓴_的存在無(wú)法對(duì)所有點(diǎn)進(jìn)行準(zhǔn)確分類。線性不可分解決該問(wèn)題的一個(gè)非常重要的方法是軟間隔法,即允許支持向量機(jī)在部分?jǐn)?shù)據(jù)的分類上不滿足約束,即出現(xiàn)錯(cuò)誤(線性可分支持向量機(jī)不允許出現(xiàn)錯(cuò)誤),但是需要盡可能減少樣本的錯(cuò)誤4.5.3線性支

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論