信息內(nèi)容安全復(fù)習(xí)_第1頁
信息內(nèi)容安全復(fù)習(xí)_第2頁
信息內(nèi)容安全復(fù)習(xí)_第3頁
信息內(nèi)容安全復(fù)習(xí)_第4頁
信息內(nèi)容安全復(fù)習(xí)_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、信息內(nèi)容安全:如何利用計算機(jī)從包含海量信息且迅速變化的網(wǎng)絡(luò)中,對與特定安全主題相關(guān)信息進(jìn)行自動地獲取和分析的技術(shù)。2、 信息類型:文字、音頻、圖像/視頻3、 內(nèi)容安全的范疇:輿情監(jiān)測;信息過濾;內(nèi)容分級;信息隱藏4、 網(wǎng)絡(luò)信息獲?。海?)主動獲取技術(shù):通過向網(wǎng)絡(luò)發(fā)出請求來獲取信息,特點是接入方式簡單,能夠獲取更廣泛的信息內(nèi)容,但會對網(wǎng)絡(luò)造成額外的負(fù)擔(dān)。 網(wǎng)絡(luò)媒體信息獲取網(wǎng)頁具體形態(tài):7、網(wǎng)頁具體形態(tài):7、 (1) 靜態(tài)網(wǎng)頁:頁面內(nèi)容事先由設(shè)計人員寫好,內(nèi)容是固定不變的;靜態(tài)網(wǎng)頁每個網(wǎng)頁都有一個固定的URL,且網(wǎng)頁URL以.htm、.html、等常見形式為后綴,而不含有“?”和參數(shù);(2) 動態(tài)網(wǎng)頁:頁面內(nèi)容由后臺服務(wù)器根據(jù)對請求的處理結(jié)果自動生成,請求不同,生成的結(jié)果就不同;動態(tài)網(wǎng)頁常見后綴,.php、.asp、.jsp等(3) 共同處:不論靜態(tài)頁面或動態(tài)頁面,它們到達(dá)瀏覽器后的表現(xiàn)形式都一樣,即HTML文檔;判斷:(1)動態(tài)網(wǎng)頁的網(wǎng)頁上有各種動畫、滾動字幕等視覺效果。 (X)(2) 采用動態(tài)網(wǎng)頁技術(shù)的網(wǎng)站可以實現(xiàn)更多的功能,如用戶注冊、用戶登錄、在線調(diào)查、用戶管理、訂單管理等等。 (Y)(3)采用Javascript腳本語言實現(xiàn)網(wǎng)頁動態(tài)效果的頁面是動態(tài)頁面。(X)8、 媒體信息的特征表達(dá):是將媒體信息表示成計算機(jī)能夠高效計算的形式。9、 信息內(nèi)容識別:是指以特征表達(dá)為基礎(chǔ),對信息內(nèi)容進(jìn)行識別、分類,確定其是否為所需要的目標(biāo)內(nèi)容,識別的準(zhǔn)確度和速度是重要指標(biāo)。分類:文字、音頻、圖像/視頻。10、 搜索引擎:是指根據(jù)一定的策略、運(yùn)用特定的計算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。

www.teos£!y^orn搜索引擎功能組件:用戶接口、搜索器、索引器、檢索器四個部分組成。www.teos£!y^orn內(nèi)容安全領(lǐng)域網(wǎng)絡(luò)媒體信息與 搜索引擎技術(shù)相通、目標(biāo)不同。詞臭直些-HTg或西,rfTTP/i.i詞臭直些-HTg或西,rfTTP/i.iHost:蕓盧時花;bnp;/IretG.xBcon>a^如=hnp戔甫=newssinQ.頂求応奪:,URIEL?]初始向壟地址舞會 HTTP文本信息獲取范例罔琵起勻■HTTPR宜HTTPjl.LUKtOICHTTP■有皮mg{空行】HTTPN底勻.電推hnp://nars.slna.cancnf11、網(wǎng)絡(luò)媒體信息獲取分類: (1) 全網(wǎng)信息獲?。盒畔@取范圍涉及整個國際互聯(lián)網(wǎng)內(nèi)所有網(wǎng)絡(luò)媒體信息,保證信息全面性,耗時長,本地存儲信息量大。 (2) 定點信息獲?。盒畔@取范圍限制在一定范圍內(nèi),更加注重實效性。 (3) 基于主題的信息獲?。好嫦蚰承┨囟ㄔ掝},在信息獲取過程中增加話題匹配環(huán)節(jié),本地存儲信息量小。 如何查看:緩存-查看cookie信息1 如何查看:緩存-查看cookie信息 ? 需身份認(rèn)證靜態(tài)媒體發(fā)布信息獲取基于Cookie ? 需身份認(rèn)證靜態(tài)媒體發(fā)布信息獲取基于Cookie機(jī)制實現(xiàn)認(rèn)證 基于網(wǎng)絡(luò)交互重構(gòu)實現(xiàn)信息獲取Cookie是您訪問網(wǎng)站時該網(wǎng)站發(fā)送到您計算機(jī)中的小文件。 網(wǎng)站依靠Cookie來記住您的用戶名密碼等訪問信息。網(wǎng)絡(luò)媒依信息萩恥身份認(rèn)證模撅39? 內(nèi)嵌腳本語言片段的動態(tài)網(wǎng)頁信息獲取利用HTMLDOM樹提取動態(tài)網(wǎng)頁內(nèi)的腳本語言片段基于Rhino實現(xiàn)JavaScript動態(tài)網(wǎng)頁信息提取主環(huán)內(nèi)杏豎収主環(huán)內(nèi)杏豎収利用開源瀏覽器實現(xiàn)網(wǎng)絡(luò)媒體信息獲取。?基于瀏覽器模擬實現(xiàn)網(wǎng)絡(luò)媒體信息獲取MaScnpL丈車值息導(dǎo)出指勺堂互相,'昔膛門衛(wèi)庫庠錄說網(wǎng)Ki應(yīng)也自動蛾,:網(wǎng)而接軌.徒摟吶巾.丄網(wǎng)熱WiifiA證呸,I叫M發(fā)布俑志滿覽視,晉械I言也點艷+■/-worv対給槐體信息曲版 13、 網(wǎng)絡(luò)蜘蛛:是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。 (1) 工作原理:網(wǎng)絡(luò)爬蟲是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個網(wǎng)頁(通常是 首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找 下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。 (2) 分類:1)傳統(tǒng)爬蟲:從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。 2)聚焦爬蟲:需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,將有用的鏈接放入等 待抓取的URL隊列,根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時停止。14、 網(wǎng)頁搜索策略:(1)廣度優(yōu)先策略:在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn) 行下一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一 般使用廣度優(yōu)先搜索方法。(2)深度優(yōu)先策略 (3) 最佳優(yōu)先方法:按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進(jìn)行抓取。它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為“有用”的網(wǎng)頁。存在的一個問題是,很多相關(guān)網(wǎng)頁可能被忽略,因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。15、跨站廣告:Cookie,是網(wǎng)站在客戶端上存放的一小塊數(shù)據(jù)。他們都由某個域存放,只能被這個域訪問。他們的區(qū)別其實并不是技術(shù)上的區(qū)別,而是使用方式上的區(qū)別。 一般,網(wǎng)站自身的Cookie被稱為第一方Cookie,而來自他站的Cookie生成或者訪問被稱為第三方Cookie。而淘寶跨站廣告的本質(zhì)是第三方Cookie。16、 特征:指某一物質(zhì)自身所具備的特殊性質(zhì),是區(qū)別于其他物質(zhì)的基本征象和標(biāo)志 一幅圖像的特征:能夠充分表達(dá)該幅圖像所描述的內(nèi)容,以區(qū)別于其他圖像或其他不同 類型圖像 計算機(jī)提取的圖像特征:可計算、可高效計算 特征類型:顏色、紋理、形狀、空間關(guān)系17、 特征描述一就是用一組數(shù)值(特征向量、空間點)或符號,即特征描述子(descriptor), 來表征圖像、物體或圖像局部區(qū)域等的某些特征。18、 應(yīng)用:基于圖像內(nèi)容的檢索;基于圖像內(nèi)容的分類;目標(biāo)物分割;圖像填補(bǔ)、修復(fù);圖像拼接 19、 數(shù)字圖像的表示方法:灰度圖像(256級顏色,uint8):每個像素可以是0?255之間的任何一個值;二值圖像(黑白兩色,logical/boolean):圖中的每個像素的像素值用1位存儲,它的值只有“0”或者“1”。

存儲量的計算:一幅640X480的灰度圖像就需要占據(jù)的存儲空間是? (300KB)答:640*480/1024=300KB一幅640X480的二值圖像需要占據(jù)的存儲空間是? (37.5KB)答:黑白圖像只有兩種顏色,每個像素點用一位二進(jìn)制數(shù)就可以表示,一個字節(jié)的二進(jìn)制數(shù)可以表示8個像素點,所以需要的總字節(jié)數(shù)就是640x480-8=3840020、彩色圖像(RGB三通道,每通道256級顏色,三維數(shù)組,uint8)21、 圖像空間距離:22、 顏色特征:(1)顏色矩:21、 圖像空間距離:22、 顏色特征:(1)顏色矩:均登銖潅差*陽巳彩晝圖憶等征ft亙;[riLr卩若.ULr寧一.爵呂,<>L-%,卜秘:-:L1l特征空間是240000維度,再來一幅,放縮到400*600,拉成向量,做比較可計算的,但計算效率高嗎?平移不變嗎?旋轉(zhuǎn)不變嗎?縮放不變嗎?不是4=特壺維教低」具有-定的葢別方可以應(yīng)對成蜂'尺度變化寫,V靛珀節(jié)描述方39(2)顏色直方圖:直方圖是一個二維圖,橫坐標(biāo)為圖像中各個像素點的灰度級別,縱坐標(biāo)表示具有各個灰度級別的像素在圖像中出現(xiàn)的次數(shù)或概率。資直方圖比較:a、卡方系數(shù)(值越小越相似):H1(D+H招)°ChiSqunreI"1jw2)=H1(D+H招)i-1b、 相關(guān)系數(shù)(絕對值越大越相似):心地應(yīng)珀,冊)=-頑加血)%8仇〃",=攔匕]WH)-而)(W再),處1=帝f=J泌 盼Lc、直方圖相交法(值越大越相似): 可冊哈1風(fēng)5i,也)=Z施町⑴)(3)顏色聚合矢量:23、紋理特征:(1)灰度共生矩陣:A) 方向:0°、45°、90°、135°B) 偏移量:待統(tǒng)計的元素距離C) 級數(shù):當(dāng)圖像灰度值級數(shù)是N時,灰度共生矩陣為N*N的矩陣.

D) 灰度矩陣二頻度矩陣/總頻次E) 共生矩陣反應(yīng)圖像灰度分布關(guān)于方向、局部鄰域和變化幅度的綜合信息。F) 能量特征:是灰度共生矩陣元素值的平方和,反映了圖像灰度分布均勻程度。如果共生矩陣的所有值均相等,則值小;相反,如果其中一些值大而其它值小,則值大。能量特征:R=£P(guān)(i,j)2,P(i,j)表示共生矩陣元素i,jG)若灰度共生矩陣值分布均勻,也即圖像近于隨機(jī)或噪聲很大,嫡會有較大值。嫡是圖像所具有的信息量的度量,是一個隨機(jī)性的度量,當(dāng)共生矩陣中所有元素有最大的隨機(jī)性、空間共生矩陣中所有值幾乎相等時,共生矩陣中元素分散分布時,嫡較大。它表示了圖像中紋理的非均勻程度或復(fù)雜程度。3.對比度特征:2.墉特征:我=&次(5。9眄)討4.共性特征:(2)LBP特征f/_yAl+li-;!L.J '對于每個像素,將其環(huán)形鄰域內(nèi)的8個點(也可以是環(huán)形鄰域多個點.應(yīng)用LBP算法的三個鄰域示例所示)進(jìn)行順時針或逆時針的比較,如果中心像素值比該鄰點大,則將鄰點賦值為否則賦值為0,這樣每個點都會獲得一個8位二進(jìn)制數(shù)(通常轉(zhuǎn)換為十進(jìn)制數(shù))。旋轉(zhuǎn)不變:比較8位二進(jìn)制數(shù)排列中最小的可能。形狀特征的性能往往取決于圖像24、形狀特征:形狀特征相比顏色、紋理,鑒別力更高。形狀特征的性能往往取決于圖像分割和輪廓提取的效果。熵是圖像所具有的信息量的度量即圖像近于隨機(jī)或噪聲量,是一個隨機(jī)性的度量,當(dāng)共生矩陣中所有元素有最大的隨機(jī)性、共生矩陣中所有值幾乎相等時,共生矩陣中元素分散分布時,熵較大。表示了圖像中紋理的非均勻程度或復(fù)雜程度。若灰度共生矩陣值分布均勻,熵會有較大值。(1)目標(biāo)(輪廓)提?。红厥菆D像所具有的信息量的度量即圖像近于隨機(jī)或噪聲量,是一個隨機(jī)性的度量,當(dāng)共生矩陣中所有元素有最大的隨機(jī)性、共生矩陣中所有值幾乎相等時,共生矩陣中元素分散分布時,熵較大。表示了圖像中紋理的非均勻程度或復(fù)雜程度。若灰度共生矩陣值分布均勻,熵會有較大值。鏈碼 >(起始點不變)旋轉(zhuǎn)不變:差分碼不變用罠嗎至示結(jié)定目標(biāo)的迅畀時,如果目標(biāo)平穢,償碼不會發(fā)生殳化,而如果目標(biāo)旅轉(zhuǎn),則毎瑪將會發(fā)生変化:反方題做2>-LH)J卜 AXW\A/vVVV3313303。用鐐?cè)跤?慚主分來重析構(gòu)供1個序列[L個表示原儀嗎各段之間方向変化的新序列),相當(dāng)于把鐲瑪進(jìn)2>-LH)J卜 AXW\A/vVVV3313303。,君1個有崗數(shù)瞄劇童邊骨程蝗特啟-頂註曲證生嗟it.怛耋白鵑笛有韭比(3R2Tf-L一葉葉*3wvvvwvD,君1個有崗數(shù)瞄劇童邊骨程蝗特啟-頂註曲證生嗟it.怛耋白鵑笛有韭比(3R2Tf-L一葉葉*3wvvvwv? 多邊形近似:要用盡可能少的線段,來代表邊界,并保持邊界的基本形狀1、 基于收縮的最小周長多邊形法2、 基于聚合(merge)的最小均方差線段逼近法3、 基于分裂(split)的最小均方差線段逼近法:原始邊界-〉按最大距離分割邊界-〉連接

垂直點-〉最后的多邊形(2)邊界描述的形狀特征?周長是邊界的全局特征,指輪廓的周長。區(qū)域R的邊界B是由R的所有邊界點按4-方向或8-方向連接組成的,區(qū)域的其它點稱為區(qū)域的內(nèi)部點對于區(qū)域R而言,它的每1個邊界點P都應(yīng)滿足2個條件:(DP本身屬于區(qū)域R;(2)P的鄰域中有象素不屬于區(qū)域R如果區(qū)域R的內(nèi)部點用8-方向連通來判斷,貝IJ得到的邊界為4-方向連通的,如果用4-方向連通來判斷,則得到的邊界為8-方向連通的3)目標(biāo)區(qū);(b)將內(nèi)部點用4方向連通判斷,則粉色區(qū)域點為內(nèi)部點,其余綠色區(qū)域點構(gòu)成4-方向連通邊界,{。)方向連通來判斷,則得到的邊界為8-方向連通的3)目標(biāo)區(qū);(b)將內(nèi)部點用4方向連通判斷,則粉色區(qū)域點為內(nèi)部點,其余綠色區(qū)域點構(gòu)成4-方向連通邊界,{。)將內(nèi)部點用4-方向連通判斷,則此時區(qū)域內(nèi)部點和8-方向連通邊界如囹?所示。區(qū)域的邊界點和內(nèi)部點要采用不同的連通性來定義,否則會出現(xiàn)歧義I|B||=#(k|(xk+]mi)f.^>P4(xk}+[k|(ik4.ieND(xt,yk)))gJ lt_L. 對■應(yīng)2個象I'云由.中陌奎伯?dāng)?shù)艾R+]螂

^KttW財也個象素間直編段討應(yīng)】個寂素摘對痢魏段如果邊界用單位長鏈碼表示,則水平和垂直碼的個數(shù)加上”2乘以對角碼的個數(shù)=》邊界長度,將邊界的所有點從0排到K-1(設(shè)邊界點共K個),則邊界長度計算式為:?形狀數(shù):1個邊界的形狀數(shù)是這些差分中其值最小的1個序列,也就是說,形狀數(shù)是值最小的(鏈碼)差分碼每個形狀數(shù)都有1個對應(yīng)的階(order),階定義為:形狀數(shù)序列的長度(即碼的個數(shù))。Order4Order6匸向Cheiincode-03Z10^32215h<f>eOrder4Order6匸向Cheiincode-03Z10^32215h<f>em.:"OMOmj尋咁缶u季>□mmimmOrder&形狀數(shù)提供了1種有用的形狀度量方法,對每個階是唯一的,不隨邊界的旋轉(zhuǎn)和尺度的變化而改變計算形狀數(shù)步驟:1、 從所有滿足給定階要求的矩形中選取其長短軸比例最接近給定邊界如圖a的矩形,如圖b所示2、 根據(jù)給定階將選出的矩形劃分為如圖c所示的多個等邊正方形(18階)3、 求出與邊界最吻合的多邊形,如將面積的50%以上包在邊界內(nèi)的正方形劃入內(nèi)部得到d圖4、 計算鏈碼、差分碼以及形狀數(shù):Chaincode:000030032232221211Difference:300031033013003130Shapeno.:000310330130031303對2個區(qū)域邊界而言,它們之間形狀上的相似性可借助它們的形狀數(shù)進(jìn)行描述:從小到大逐步計算兩個邊界的各階形狀數(shù),并相互比較,直到找到最大階的相等形狀數(shù),即2個區(qū)域邊界之間的相似度用它們的最大公共形狀數(shù)來衡量

(3)區(qū)域描述的形狀特征1、區(qū)域面積:描述區(qū)域的大小,對屬于區(qū)域的象素計數(shù),面積公式為:(3)區(qū)域描述的形狀特征1、區(qū)域面積:描述區(qū)域的大小,對屬于區(qū)域的象素計數(shù),面積公式為:A=E(x,y)eX=丄,XA_ (X,y)gR丄,y=厶yA,…(X,y)eR重心:區(qū)域重心一根據(jù)所有屬于區(qū)域的點計算拓?fù)洌簩?個給定平面區(qū)域而言,區(qū)域內(nèi)的rR

步孔數(shù)H和區(qū)域的連通成分C都是常用的拓?fù)湫再|(zhì),可進(jìn)一步來定義歐拉數(shù)rR

步例如:A:1個孔,1個連通成分,歐拉數(shù)為0;B:2個孔,1個連通成分,歐拉數(shù)為-1B2?形狀參數(shù):根據(jù)區(qū)域的周長和區(qū)域的面積計算的:f=yL4nA區(qū)域為圓形時F為1,其它形狀時,F(xiàn)>1,即當(dāng)區(qū)域為圓時,F(xiàn)為最小。對數(shù)字圖像而言,邊界按4-連通計算,則對正八邊形區(qū)域F最小。邊界按8-連通計算,則對正菱形F最小。形狀參數(shù)在一定程度上描述了區(qū)域的緊湊性,無量綱,對尺度變化不敏感,如果去除由于離散區(qū)域旋轉(zhuǎn)帶來的誤差,它對旋轉(zhuǎn)也不敏感。偏心度:區(qū)域的偏心度是區(qū)域形狀的重要描述,度量偏心度常用的一種方法是采用區(qū)域主軸和輔軸的比。如圖所示,即為A/B。圖中, ~、主軸與輔軸相互垂直,且是兩方向上的最長值。 二忑拓展:幾種簡單的幾何矩:令平面上點坐標(biāo)為P(x,y),重心為C(x!,y!),二階行距:rowMoment=[ECx-x!)*(x-x!)]/A二階列距:colMoment=[E(y-y!)*(y-y!)]/AA為點的個數(shù)。25、 SIFT:應(yīng)用:物體識別、圖像拼接、筆跡鑒定、三維建模26、 圖像分割一一意義;基于分割后圖像的描述更具區(qū)分力;分割后的圖像是場景理解和基于場景理解的應(yīng)用的基礎(chǔ);后續(xù)計算的復(fù)雜度將降低10倍;圖像合成、影視制作、三維重建27、 分割所用基本線索灰度/顏色/紋理:判斷像素(或超像素)、區(qū)域相似性統(tǒng)計模型(類簇、直方圖、混合高斯):判斷像素(或超像素)與統(tǒng)計模型的相似性。在已知前背景或分割目標(biāo)區(qū)域的部分信息時,可對其建立統(tǒng)計模型(類簇、直方圖、混合高斯),并依此計算未標(biāo)記像素與各自統(tǒng)計模型之間的距離判斷其標(biāo)記。K-means:算法接受輸入量k;然后將n個數(shù)據(jù)對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。步驟:1) 從n個數(shù)據(jù)對象任意選擇k個對象作為初始聚類中心;2) 根據(jù)每個聚類對象的均值(中心對象),計算每個對象與中心對象的距離;并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分;3) 重新計算每個(有變化)類簇均值(中心對象)

4)循環(huán)2)到3)直到每個聚類不再發(fā)生變化為止3.相鄰像素(或超像素)之間的約束:相鄰像素分割標(biāo)記的一致性、相鄰像素分割標(biāo)記的梯度相關(guān)性 28、分割方法z*僅僅考慮了灰度(顏色/紋理)信息,忽略了相鄰像素之間的約束(1)基于閾值的分割一一通過閾值對不同物體進(jìn)行分割(物體與背景具有較強(qiáng)區(qū)別的圖像分割有效)步驟:1、確定需要的分割閾值2、將分割閾值與象素值比較以劃分象素閾值分割利用圖像中要提取的目標(biāo)物與其背景在灰度/顏色/紋理特性上的差異,選取一個合適的閾值,以確定圖像中每個象素點應(yīng)該屬于目標(biāo)還是背景區(qū)域,從而產(chǎn)生相應(yīng)的二值圖像(分別表示目標(biāo)和背景)?;叶仁侵饕褂玫奶匦?,后續(xù)以灰度特性為例則分割后的圖像g(x,y),可由下式表示:或「IL設(shè)原始圖像f(x,y),以一定的準(zhǔn)則在f(x,y)則分割后的圖像g(x,y),可由下式表示:或「IL另外,還可以將閾值設(shè)置為一個灰度范圍[t1,t2],凡是灰度在范圍內(nèi)的象素都變?yōu)?,否則皆變?yōu)?,即 :ri9(XfV)=r其它半分割法:某種特殊情況下,高于閾值t的象素保持原灰度級,其它象素都變?yōu)?,稱為半閾值法,分割后的圖像可表示為:9啊=閾值t的選取是閾值分割技術(shù)得關(guān)鍵,若是暗背景上存在亮物體,如果t過高,則:過多的目標(biāo)點被誤歸為背景;如果閾值過低,則會出現(xiàn)相反的情況閾值法,分割后的圖像可表示為:9啊=? 閾值選取方法(1)雙峰直方圖閾值(全局閾值):如果灰度級直方圖呈明顯的雙峰狀,則選取兩峰之間的谷底所對應(yīng)的灰度級作為閾值。如何確定閾值:谷底所對應(yīng)的灰度級作為閾值。1、 選取一個初值t2、 用t分割圖像得到兩組像素,C0是小于等于t的,C1大于t3、 計算C0和C1中像素的平均值u0和u14、 計算新閾值t=(u0+u1)/25、 迭代計算2~4,直至t的變化量小于某個預(yù)定值(2) Ostu閾值(全局閾值)移劫平均是按照,一幅圖像的掃描行i二算。掃描県2字形模式逐行執(zhí)行.令玨h波示步驟k+1掃捕序列中遇到的疙的灰度『這個新點處的移動平均其中,n表示由于計算移劫平均的點數(shù).=n■由Ostu在1979年提出的最大類間方差法口該方法在類間方差最大的情況下能夠得到最優(yōu)的分割結(jié)果o最佳園值f-Ar^max的)類間方差/5任)-\尊T總方差勇5(貝-Q十叫(叫一尹庁認(rèn)、像素被分到玖的概率懐素祁盼到1醐葬 %十聽二1%M&*C]像素的平均灰度值A(chǔ)r所有後素平均灰度值(3) 可變閾值(局部閾值)圖像分塊取閾值基于局部圖像特性(依賴于圖像局部的亮度均值和方差)移動平均(4) 用圖像預(yù)處理改善閾值分割(2)基于區(qū)域的分割一一把各象素劃歸到各個物體或區(qū)域中區(qū)域生長(種子象素的選取常可借助具體問題的特點進(jìn)行。)基本思想一根據(jù)預(yù)先定義的生長準(zhǔn)則將像素或子區(qū)域組合為更大的區(qū)域的過程。每個區(qū)域包含具有相似性質(zhì)的象素集合。關(guān)鍵步驟:(1) 選擇或確定一組能正確代表所需區(qū)域的種子象素(2) 確定在生長過程中能將相鄰象素包括進(jìn)來的準(zhǔn)則(3) 制定讓生長過程停止的條件或規(guī)則(通常是再沒有滿足生長準(zhǔn)則需要的象素時停止)'區(qū)域竺—生長準(zhǔn)則的選取灰膨靛色相近D灰膨餵色變化-區(qū)域纜骨特性帽近(需犯圉像分成小區(qū)蟻)F薊色拒、直方囲、紋理捆述的差異Note:生長棗考慮象麥間的連通性和鄒吾姻有時會出現(xiàn)無意義的分割結(jié)果11 5aW□HB□DS□HHgssss國T=1不考商一般生長過程,在進(jìn)行到再沒有滿足生長準(zhǔn)則需要的象素時停止,但常用的基于灰度、紋理、彩色的準(zhǔn)則大都是基于圖像中的局部性質(zhì),并沒有充分考慮生長的“歷史”。為增加區(qū)域生長的能力,??紤]一些尺寸、形狀等圖像和目標(biāo)的全局性質(zhì)有關(guān)準(zhǔn)則,在這種情況下,需對分割結(jié)果建立一定的模型或輔以一定的先驗知識釆用的利斷準(zhǔn)如,詢黑所號虐的最覇與神于象鬻表度推差的制世小于蕖午門曜T.瓣格該盤香包鮑神子鑿費(fèi)陽在的區(qū)域?區(qū)域分裂一合并方法基本思想:先從整幅圖像開始通過不斷分裂(四叉樹結(jié)構(gòu)),得到任意大小且不重疊的區(qū)域,然后再合并或分裂這些區(qū)域,以滿足分割的要求。在合并時中,常根據(jù)圖像的統(tǒng)計特性設(shè)定圖像區(qū)域?qū)傩缘囊恢滦詼y度日叉樹實現(xiàn)分裂合并皇歸圖鶴四叉樹實現(xiàn)分裂合并置R代去整個正方形囹悔區(qū)域,F(xiàn)日叉樹實現(xiàn)分裂合并皇歸圖鶴四叉樹實現(xiàn)分裂合并置R代去整個正方形囹悔區(qū)域,F(xiàn)代為醫(yī)域一戰(zhàn)性荊斷淮財*風(fēng)域皿開敕,IBR連簽充裂成15末薑小的1V4的正方電于區(qū)域皿并的終,Pt叫-TRTER1加MR)-I 葛明律分成四尊好?如此圭推,白刑m為単十您去壩果麗許蛇用封履.燒后有可儲出皿PiRJL珂區(qū)頂1:£.但局討Ri養(yǎng)矗有晴成一御加f翕.為解在任如t裂后,.允g■黃,只吉井R咨招?勃且會弄泗成的詰虎嫉瀆是一畋性推劇的醫(yī)域工*,?葡里混浴是"FRiIW>=TRL-Lrt#Ei?lRj臺井分裂合并算法步驟:對任一區(qū)域Ri,如果P(Ri)=FALSE,就將其分裂成不重疊的四等分對相鄰的兩個區(qū)域Ri和Rj(它們可以大小不同,即不在同一層),如果條件P(RiURj)=TRUE,就將它們合并如果進(jìn)一步的分裂或合并都不可能,則結(jié)束分水嶺分割(形態(tài)學(xué))一一地形方法基于目標(biāo)函數(shù)優(yōu)化的分割一一通過優(yōu)化目標(biāo)函數(shù)實現(xiàn)分割定義目標(biāo)函數(shù),通過最優(yōu)化目標(biāo)函數(shù)實現(xiàn)分割。目標(biāo)函數(shù)可包含像素信息或區(qū)域統(tǒng)計信息,以及相鄰像素的光滑約束、邊界的光滑約束、以及梯度約束。其他一一基于邊緣的分割(難以生成連貫的目標(biāo)物邊界);基于機(jī)器學(xué)習(xí)的方法(受限于訓(xùn)練用的數(shù)據(jù)庫,只能針對少數(shù)幾種類型的目標(biāo)物做分割)運(yùn)動圖像分割:差分方法:當(dāng)前圖像與固定背景圖像之間的差分稱為減背景法當(dāng)前連續(xù)兩幅圖像(時間間隔At)之間的差分稱為相鄰幀差分法。(由于不同時刻風(fēng)吹、光照變化、陰影等影響,通常難以得到干凈的前景)光流方法:光流(opticalflow)是指圖像亮度模式的表觀(或視在)運(yùn)動(apparentmotion)在光流場中,不同的物體會有不同的速度,這為具有不同速度的其它運(yùn)動物體的分割提供了方便。(適合相對靜止環(huán)境中的運(yùn)動物體分割)(7)29、信息隱藏加密:對信息本身進(jìn)行保護(hù),但是信息的傳遞過程是暴露的偽裝:掩蓋信息存在的事實載體可以是任何一種多媒體數(shù)據(jù),如音頻、視頻、圖像、甚至文本、數(shù)據(jù)等被隱藏的信息也可以是任何形式(全部作為比特流)利用人類感知系統(tǒng)以及計算機(jī)處理系統(tǒng)的冗余30、實現(xiàn)信息隱藏的基本要求:載體對象是正常的,不會引起懷疑;對偽裝對象的正常處理,不應(yīng)破壞隱藏的信息31、信息隱藏的應(yīng)用——數(shù)字水印水印:存在于紙張、紙幣中,用于標(biāo)識真?zhèn)螖?shù)字水印:是永久鑲嵌在數(shù)字作品中,具有可鑒別性的數(shù)字信號或模式,并且不影響數(shù)字作品的可用性數(shù)字水印作用:確定、鑒別作者的版權(quán)聲明、追蹤盜版、拷貝保護(hù)(1) 用于版權(quán)保護(hù)的數(shù)字水印:將版權(quán)所有者的信息,嵌入在要保護(hù)的數(shù)字多媒體作品中,從而防止其他團(tuán)體對該作品宣稱擁有版權(quán)(2) 用于盜版跟蹤的數(shù)字指紋:同一個作品被不同用戶買去,售出時不僅嵌入了版權(quán)所有者信息,而且還嵌入了購買者信息,如果市場上發(fā)現(xiàn)盜版,可以識別盜版者(3) 用于拷貝保護(hù)的數(shù)字水?。核∨c作品的使用工具相結(jié)合(如軟硬件播放器等),使得盜版的作品無法使用?數(shù)字水印三要素:水印本身(版權(quán)所有者、合法使用者等具體信息、圖標(biāo));水印嵌入算法;水印檢測算法水印嵌入模型水印提取模型(1)數(shù)字水印分類——從載體上分類圖像水印圖像是使用最多的一種多媒體數(shù)據(jù),也是經(jīng)常引起版權(quán)糾紛的一類載體?彩色/灰度圖像,卡通,設(shè)計圖,二值圖像(徽標(biāo)、文字),等視頻水印保護(hù)視頻產(chǎn)品和節(jié)目制作者的合法利益音頻水印保護(hù)MP3、CD、廣播電臺的節(jié)目內(nèi)容等文檔水印 確定文檔數(shù)據(jù)的所有者

(2) 數(shù)字水印分類一一從外觀上分類可見水印(可察覺水?。┢淠康脑谟诿鞔_標(biāo)識版權(quán),防止非法的使用,降低了資料的商業(yè)價值不可見水?。ú豢刹煊X水?。? 水印在視覺上不可見,目的是為了將來起訴非法使用者。不可見水印往往用在商業(yè)用的高質(zhì)量圖像上(3) 數(shù)字水印分類——從水印特性上分類 健壯性數(shù)字水印要求水印能夠經(jīng)受各種常用的操作,包括無意的或惡意的處理 只要載體信號沒有被破壞到不可使用的程度,都應(yīng)該能夠檢測出水印信息 脆弱性數(shù)字水?。ㄍ耆嗳跣?半脆弱性) 要求水印對載體的變化很敏感,根據(jù)水印的狀態(tài)來判斷數(shù)據(jù)是否被篡改過 特點:載體數(shù)據(jù)經(jīng)過很微小的處理后,水印就會被改變或毀掉主要用于完整性保護(hù) 與穩(wěn)健性水印的要求相反 32、信息隱藏和水印算法舉例 (1) 在文件格式中隱藏信息 圖像文件都有一定的存貯格式 文件頭主要描述圖像文件的格式、文件大小、數(shù)據(jù)起始偏移地址、圖像數(shù)據(jù)大小等關(guān)鍵信息 利用圖像文件的這種特性,可以在圖像文件中隱藏秘密數(shù)據(jù) 特點:Lena圖像文件增加的字節(jié)數(shù)正好等于所添加文檔的字節(jié)數(shù); 文件頭中文件長度域的值增加的幅度也剛好等于所添加文檔的字節(jié)數(shù); 使用Windows的畫板程序可以將偽裝后的Lena圖像文件正常打開; 將圖像另存為一個新文檔后發(fā)現(xiàn),所隱藏的文檔數(shù)據(jù)完全丟失。 (2) 時域替換技術(shù) 任何多媒體信息,在數(shù)字化時,都會產(chǎn)生物理隨機(jī)噪聲,而人的感官系統(tǒng)對這些隨機(jī)噪聲是不敏感的 替換技術(shù)就是利用這個原理,試圖用秘密信息比特替換掉隨機(jī)噪聲,以達(dá)到隱藏秘密信息的目的LSB順序嵌入LSB隨機(jī)嵌入 LSB方法的特點:把信息隱藏在載體的最不重要部分;簡單,易實現(xiàn),容量大;安全性不高,不能抵抗疊加噪聲、有損壓縮等破壞 (3) 變換域技術(shù) 在載體頻域中隱藏信息,比LSB方法能夠更好地抵抗攻擊,而且還保持了對人類感觀的不可察覺性 常用的變換域方法:離散余弦變換(DCT);離散小波變換(DWT);離散傅立葉變換(DFT)33、 33、全局特征:對整幅圖像或者整個前景目標(biāo)物進(jìn)行描述的顏色、紋理、形狀特征34、 34、局部特征:對圖像或目標(biāo)物局部進(jìn)行描述的顏色、紋理、形狀特征。(局部特征是圖像 中有別于其周圍的地方。局部特征通常是描述一塊區(qū)域,使其能具有高可區(qū)分度) 35、局部特征和全局特征,哪一種對一類數(shù)據(jù)更具描述力呢?(局部特征?。ㄓ嬎銖?fù)雜度高))

36、詞級別特征和權(quán)重計算權(quán)重il算方式1:頃(t),Termfrequency(TF+詞頻)單詞t在文本d中出現(xiàn)的枚數(shù).-個文本中,t詞頻越肝,山-能其在樣本中的貢獻(xiàn)越大。?權(quán)重計算方式以Inversedocumentfrequency(IOF)逆文檔頻率n岫)=1叫而n(£)idocumentfrequency^檔頻率,包含特征詞i:的所有樣木文檔總數(shù)cn:文檔總數(shù)。t的文檔頻率越低.IDFti越高,t的重要性越高。?權(quán)重計算方式3:TF-IDF"5=tfd(t)log^綜合了上im兩種特征權(quán)重的性質(zhì)。1偵SQ)>00Otherwise權(quán)重計算方式4:1偵SQ)>00Otherwise"』代)=文本與圖像基于詞的表達(dá)的區(qū)別是什么?(詞、詞典、詞的匹配) 圖像詞級別特征:圖像中的詞匯不像文本文檔中的那樣是現(xiàn)成的,需要首先從圖像中提取出相互獨(dú)立的視覺詞匯。步驟:(1)特征檢測和表示(SIFI特征);(2)單詞本的生成;(3)利用單詞表中的詞匯表示圖像(K-means算法)1?高維的特征空間:例如一份普通的文本在經(jīng)過特征表示后,如果以詞為特征,特征空間維數(shù)將達(dá)到幾千,甚至幾萬。大多數(shù)分類算法都無法處理如此大的維數(shù)2.將每個詞單獨(dú)對待,詞與詞之間的上下文語義關(guān)系完全忽略37、特征選擇特征選擇是為了能夠在保證分類性能的前提下,進(jìn)行特征的篩選,以降低特征空間的維數(shù)。即對每類構(gòu)造k個最有區(qū)別能力的term。對每類構(gòu)造k個最有區(qū)別能力的term。特征選擇方法:(1) 停用詞過濾(StopWordElimination)(僅適用于文本)英語中的冠詞、介詞、連詞、代詞,漢語中的助詞、虛詞等,對分類沒有貢獻(xiàn),可以濾除。停用詞詞表可以手工建立,也可以通過統(tǒng)計自動生成。自動生成:統(tǒng)計某一項特征項t在所有樣本中出現(xiàn)的頻率,例如出現(xiàn)特征項t的總的樣本數(shù),或者在所有樣本中,特征項t出現(xiàn)的總次數(shù)。(2) 文檔頻率閾值法(DFT,DocumentFrequencyThreshold)文檔頻率閾值法:用于去除樣本中出現(xiàn)頻率較低的特征項。對于特征t,如果包含它的樣本數(shù)n(t)小于某個閾值,則去除該特征?;炯僭O(shè):稀少的詞或者對于分類沒有幫助,或者不會影響整體性能。優(yōu)缺點:最簡單的降低特征空間維數(shù)的方法稀少的詞往往具有更多的信息,因此不宜用DF大幅度地刪除詞特征項頻率-逆文本頻率(TF-IDF,TermFrequency-InverseDocumentFrequency)TF-IDF考慮兩項:出現(xiàn)次數(shù)較多的特征項對分類貢獻(xiàn)較大;如果一個特征項在樣本集中的大多數(shù)樣本中出現(xiàn),則該特征項對分類貢獻(xiàn)不大,應(yīng)該去除。H'!-’丿 n(t)――包含特征t的樣本數(shù);n-一所有樣本總數(shù)信噪比(SNR,Signal-to-NoiseRatio)JSNR(signal-to-noise「atio,信噪比)■噪聲Noise[f)=—/ r):七國5^.r.—,門,EWI hFrsn-i;ir-涂音的玄卓宜范目n方.所有祥車的個立『待跆均河會在名更有樣土?xí)r.鼻音點數(shù)回遷大■特征t性第中在云卩樣盆=E,驟有國労直垃b-話待征酢為唄戸的fW恍性,宀、SS牛(signal-to-nniiserati。,信噪比)SNRNoise=—>p(乩£)也[卩(乩匚)ShK(0=kigJjjCD-NoisefO特従項七以建右.新有土檔丿樣本=釣法數(shù)蘭三該當(dāng)棒征t春全新F樣本上均勻出制芭時慢.耳恥gM特壅頊應(yīng)T或也段y樣左曠.車國壬煎高.信息增益(InformationGain)特征項t為整個分類所能提供的信息量,不考慮特征t的熵和考慮該特征后的熵的差值。定義C為從訓(xùn)練樣本中隨機(jī)選取單個樣本時,其所屬類別的隨機(jī)變量。對于隨機(jī)事件C,每次抽取到的樣本,可能包含特征項t,也可能不包含,定義T為該隨機(jī)變量。關(guān)于特征詞t的信息增益:IG(t)=E(C)-E(C|T)=-^P(Q)fogjQ(cJ十(p(oY夙部)如戒閂|日+洲)£p怎冋叩口(iin]i i

X2統(tǒng)計量'X準(zhǔn)計量■他統(tǒng)計量:度量兩者(特征詞和類別)獨(dú)立性程度一’,'£)=(一’,'£)=(試+頃應(yīng)+円乂】+占乂。+刁)龍趙大,獨(dú)立性趙小,相關(guān)性趙大。若ADcBC,則t與畝由立€不JS于”體育L春錐包含“砌氣ABAh-E不包含“砌"E€DC+D尊數(shù)A+CB-+DN38、基于詞級別特征的分類實例介紹找出每篇新聞中的重要詞(特征選擇)“的、地、得”?“之乎者也”?實詞?對每個詞的重要性進(jìn)行度量(特征權(quán)重計算)采用TF—IDF用上述方式為每篇新聞稿計算一個特征向量(Featurevector),利用向量相似度度量,例如夾角余弦,計算新聞稿相似度。..|A|.|c|分析:由于向量中每個變量都是正數(shù),余弦取值為正余弦的取值范圍:[0,1],向量夾角取值范圍:[0,90]。余弦值等于1時,向量夾角為0 兩條新聞完全相同;余弦值接近于1時 兩條新聞相似可合并歸為1類;(3)余弦值越小,夾角越大 兩條新聞越不相關(guān);(4)當(dāng)兩個向量正交時(90度),夾角余弦為零兩條新聞沒有相同的主題詞。(3)余弦值越小,夾角越大 兩條新聞越不相關(guān);(4)當(dāng)兩個向量正交時(90度),夾角余弦為零兩條新聞沒有相同的主題詞。合并實現(xiàn)分類: 計算所有新聞之間兩兩的余弦相似性,把相似性大于一個閾值的新聞合并成一個小類。如此,N篇新聞就被合并為N1個小類,N1<N;把每個小類中所有的新聞作為一個整體,計算小類的特征向量,再計算小類之間兩兩的余弦相似性,然后合并成大一點的小類,假如有N2個,N2<N1;不斷重復(fù),類別越來越少,每個類越來越大。直到滿足迭代停止條件。(計算機(jī)自動執(zhí)行以下Steps:1.對每一個新的新聞稿按前述方法計算一個特征向量;2.用該向量與聚類后的每個類向量做相似度計算;3.選擇最相似的類向量所屬類作為自己的類標(biāo)簽。)

39、特征重構(gòu)(1) 詞干(僅適用于文本)將詞形變換后的詞與其原形式合并為單個特征項詞干處理對系統(tǒng)性能提高有限(2) 知識庫(僅適用于文本)知識庫從詞義角度進(jìn)行降維,合并同義詞、近義詞(3) 奇異值分解(SingularValueDecomposition,簡稱SVD)M=l,000,000,N=500,000o第i行,第j列的元素,是字典中第i個詞在第j篇文章中出現(xiàn)的加權(quán)詞頻(比如,TF/IDF)o矩陣非常大,有五千億個元素。(SVD,SingularValueDecomposition)'0.7。丄廠""筍腭詞S.3I).瀉.三個更陣花非常淸命的劉理會義.eDecomposition)L01CU101.0

典皿WZZ林X:eDecomposition)L01CU101.0

典皿WZZ林心"1in口.駝ns?」二兵三?b坦博有非常港府的翳理會義.擔(dān)布文牟分類的莖票,另一列表示一個掉蘋文點,魚一行對應(yīng)一個主理.何一列曲備十元素表示復(fù)列討應(yīng)的文盤在不同主理曲相關(guān)性.如果邑一列都陳窗最大偵.苴彖的都改為攀,所會毎一程文衣都校唯一曲分到了一髡主理中,B:詞的類和文章的類之間的相關(guān)性。40、 SVD降維過程(1) 將文檔庫表示成VSM模型的詞-文檔矩陣A,A是稀疏矩陣。(2) 利用奇異值分解SVD求A的只有r個正交因子的降秩矩陣。41、 分類方法(1)無監(jiān)督學(xué)習(xí)一一聚類在一堆數(shù)據(jù)中尋找一種“自然分組”(k組)。我們希望同組(類別)的樣本較為相似,而不同組的樣本間有明顯不同方法舉例。

聚類方法:?層次聚類在無標(biāo)注的樣本集合中建立樹狀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論