試論基于多媒體的數(shù)據(jù)挖掘_第1頁
試論基于多媒體的數(shù)據(jù)挖掘_第2頁
試論基于多媒體的數(shù)據(jù)挖掘_第3頁
試論基于多媒體的數(shù)據(jù)挖掘_第4頁
試論基于多媒體的數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于多媒體的數(shù)據(jù)挖掘【摘要】:多媒體挖掘是數(shù)據(jù)挖掘的一個新興且富有挑戰(zhàn)性的子領(lǐng)域。本文介紹了多媒體數(shù)據(jù)挖掘的特性,一種適合多媒體挖掘的系統(tǒng)模型,闡述了幾種多媒體挖掘方法以及討論了多媒體數(shù)據(jù)挖掘在知識服務(wù)中的應(yīng)用?!娟P(guān)鍵詞】:數(shù)據(jù)挖掘,多媒體挖掘,挖掘方法,服務(wù)應(yīng)用目前,數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支之一,也是人們一直研究的熱點。在數(shù)據(jù)挖掘近年來研究與應(yīng)用迅猛進展的過程中,前人取得了一定的成果1。新的和改進的算法不斷出現(xiàn),所考察的數(shù)據(jù)類型日趨豐富,應(yīng)用領(lǐng)域逐漸擴大,數(shù)據(jù)挖掘技術(shù)正慢慢融入到多媒體數(shù)據(jù)庫中。多媒體數(shù)據(jù)庫因為其數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、模式多樣等特點一直是人們研究的難點。

2、隨著數(shù)據(jù)挖掘技術(shù)應(yīng)用的成功,人們將目光放到了多媒體數(shù)據(jù)庫中進行知識發(fā)覺。一、數(shù)據(jù)挖掘的概念及其結(jié)構(gòu)1、差不多概念簡單地講,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識。數(shù)據(jù)挖掘確實是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不明白的、但又是潛在有用的信息和知識的過程。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。那個定義包括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)覺的是用戶感興趣的知識;發(fā)覺的知識要可同意、可理解、可運用;并不要求發(fā)覺放之四海皆準的知識,僅支持特定的發(fā)覺問題。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中查找其規(guī)律的技術(shù),要緊有數(shù)據(jù)預(yù)備、規(guī)律查

3、找和規(guī)律表示三個步驟。2、體系結(jié)構(gòu)一個典型的數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)如下:其中數(shù)據(jù)庫、數(shù)據(jù)倉庫或者是其他一些信息存儲媒介為數(shù)據(jù)挖掘的工作對象;服務(wù)器要緊是響應(yīng)數(shù)據(jù)挖掘引擎的請求,提取相應(yīng)的數(shù)據(jù);領(lǐng)域知識庫要緊用來指導(dǎo)挖掘的過程,以及用來評價挖掘出來的候選模式;數(shù)據(jù)挖掘引擎是整個系統(tǒng)的核心部分,能夠由以下模塊組成:分類模塊、關(guān)聯(lián)規(guī)則模塊、聚類分析模塊、時序模塊和異常分析模塊等;模式評價模塊要緊是依照一定的度量標準來與數(shù)據(jù)挖掘模塊交互,以使得數(shù)據(jù)挖掘向著我們感興趣的方向進行,往往越是高效的數(shù)據(jù)挖掘系統(tǒng)這種交互阻礙的程度越高;圖形用戶界面要緊是為方便用戶與數(shù)據(jù)挖掘系統(tǒng)的交互,由用戶提出挖掘任務(wù)、指定重

4、要的挖掘參數(shù)以及由當(dāng)前返回的結(jié)果指導(dǎo)進行更進一步的挖掘工作。二、多媒體與數(shù)據(jù)挖掘相結(jié)合隨著多媒體技術(shù)的進展,人們接觸的數(shù)據(jù)形式不斷地豐富,多媒體數(shù)據(jù)庫的日益增多,原有的數(shù)據(jù)庫技術(shù)已滿足不了應(yīng)用的需要,人們希望從這些媒體數(shù)據(jù)中得到一些高層的概念和模式,找出蘊涵于其中的有價值的知識。這種將數(shù)據(jù)挖掘技術(shù)和多媒體信息處理技術(shù)有機地結(jié)合起來形成的在多媒體數(shù)據(jù)中進行知識發(fā)覺的信息處理方法確實是多媒體數(shù)據(jù)挖掘 。1、多媒體數(shù)據(jù)挖掘的特性 由于音頻視頻設(shè)備、數(shù)碼像機、CD- ROM 和因特網(wǎng)的流行和普及,多媒體數(shù)據(jù)庫系統(tǒng)變得日益一般。多媒體數(shù)據(jù)通常是一種多維的、非結(jié)構(gòu)化或者半結(jié)構(gòu)化的,各媒體數(shù)據(jù)有著不同的特點

5、,有著各自表述信息的方式,各媒體既可獨立表示信息又可共同表示相同事件的不同特征,共同描述事件的存在、進展和結(jié)果。因此,多媒體數(shù)據(jù)集中必定存在關(guān)于信息主體的特征、屬性以及它們之間的關(guān)系,或者存在著某些人們從直觀上無法得到的模式。多媒體數(shù)據(jù)挖掘是一種智能的數(shù)據(jù)分析,旨在從特定的多媒體數(shù)據(jù)集中發(fā)覺必要的結(jié)果來用于決策、對策及融合分析。例如在MMMiner(Mult iMediaMiner,多媒體挖掘)中,如查找包含人臉的所有圖像,用戶界面上就會逐步顯示不同國家、不同膚色、不同表情的人臉,而不是顯示一些猴臉或者是馬臉。由此可見,多媒體挖掘確實是從大量的多媒體數(shù)據(jù)集中,通過綜合分析視聽特性和語義,發(fā)覺隱

6、含的、有效的、有價值的、可理解的模式,得出事件的趨向和關(guān)聯(lián),為用戶提供問題求解層次的決策支持能力。22、多媒體數(shù)據(jù)挖掘的系統(tǒng)模型多媒體挖掘需要一個切實可行的系統(tǒng)框架模型。它的一般系統(tǒng)結(jié)構(gòu)模型如圖:3、多媒體數(shù)據(jù)挖掘的方法31多媒體數(shù)據(jù)的相似性搜索 關(guān)于多媒體數(shù)據(jù)相似性搜索,要緊考慮兩種多媒體索引和檢索系統(tǒng):(1)基于描述的檢索系統(tǒng),它基于圖像描述(如關(guān)鍵詞、標題、尺寸和創(chuàng)建時刻等)建立索引和進行對象檢索:(2)基于內(nèi)容的檢索系統(tǒng),它支持基于圖像內(nèi)容的檢索,如顏色直方圖、紋理、模式、圖像拓撲、對象的形狀和它們在圖像中的布局和位置?;诿枋龅臋z索若人工完成是專門費勁的。若自動完成,則質(zhì)量較差。例如

7、,關(guān)鍵詞到圖像的賦值可能是棘手和武斷的任務(wù)。最近開發(fā)的基于web的圖像聚類和分類方法提高了基于描述的web圖像檢索的質(zhì)量,因為圍繞圖像的文本信息和web鏈接信息能夠用于提取合適的描述,并將描述相似主題的圖像聚合在一起?;趦?nèi)容的檢索使用視覺特征索引圖像,并促進基于特征相似性的對象檢索,這在專門多應(yīng)用中差不多上特不期望的。332多媒體數(shù)據(jù)的多維分析 為便于大型多媒體數(shù)據(jù)庫的多維分析,能夠用類似于從關(guān)系數(shù)據(jù)構(gòu)造傳統(tǒng)數(shù)據(jù)立方體的方法,設(shè)計和構(gòu)造多媒體數(shù)據(jù)立方體。多媒體數(shù)據(jù)立方體可包含針對多媒體信息的維和度量,如顏色、紋理和形狀。如圖是一個簡單的圖像數(shù)據(jù)立方體的模型:多媒體數(shù)據(jù)立方體是一種對多媒體數(shù)據(jù)

8、進行多維分析的有味模型, 通過適當(dāng)?shù)囊恍┎僮? 上卷、下鉆、切片和切塊、轉(zhuǎn)軸(旋轉(zhuǎn))能夠進行強有力的分析。多媒體數(shù)據(jù)立方體的建立有助于基于視覺內(nèi)容的多媒體數(shù)據(jù)的多維分析,和多種知識的挖掘,包括匯總、比較、分類、關(guān)聯(lián)和聚類。33多媒體數(shù)據(jù)的分類和預(yù)測分析分類和預(yù)測建模差不多用于挖掘多媒體數(shù)據(jù),尤其在科學(xué)研究中,如天文學(xué)、地震學(xué)和地理科學(xué)的研究。數(shù)據(jù)分類可通過以下兩步來實現(xiàn):(1)建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器: 分類通常是依照媒體數(shù)據(jù)的某一特性來確定的,該特性在元數(shù)據(jù)庫中表現(xiàn)為視聽描述子。通過分析元數(shù)據(jù)庫中部分數(shù)據(jù)的該描述子值來構(gòu)造模型,并把用于建立模型的媒體數(shù)據(jù)作為訓(xùn)練集。訓(xùn)練樣本能

9、夠隨機選取,并預(yù)先給出類標號。(2)使用模型分類:首先評估分類器的預(yù)測準確率,用給定檢驗集上的準確率來判定分類器的準確率,假如分類器的準確率能夠同意,就能夠用它來對以后元組進行分類。34多媒體數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則 多媒體圖像數(shù)據(jù)挖掘的一個十分關(guān)鍵的問題是圖像數(shù)據(jù)本身的表示問題。這也是圖像處理和模式識不的關(guān)鍵。一般講來,能夠用顏色、紋理、形狀和運動向量等來表示圖像的差不多特征。高級概念能夠看成是一種特征模式。多媒體圖像數(shù)據(jù)挖掘的過程能夠由下圖所示:在圖像和視頻數(shù)據(jù)庫中,能夠挖掘涉及多媒體對象的關(guān)聯(lián)規(guī)則。至少包括以下三類:(1)圖像內(nèi)容和非圖像內(nèi)容特征間的關(guān)聯(lián):如規(guī)則“假如一幅圖片的上面至少50%是

10、藍色,則它專門可能代表天空”屬于此類,因為它把圖像的內(nèi)容和關(guān)鍵詞天空關(guān)聯(lián)在一起。(2)與空間聯(lián)系無關(guān)的圖像內(nèi)容間的關(guān)聯(lián):如規(guī)則“假如一幅圖片包含兩個藍色正方形,則它專門可能也包含一個紅色圓形”屬于此類,因為關(guān)聯(lián)考慮的差不多上圖像內(nèi)容。(3)與空間聯(lián)系有關(guān)的圖像內(nèi)容間的關(guān)聯(lián):如規(guī)則“假如一個紅色三角形在兩個黃色正方形之間,則專門可能下面存在一個大的橢圓形對象”屬于此類,因為它把圖像中對象與空間聯(lián)系關(guān)聯(lián)在一起。4為了挖掘多媒體對象間的關(guān)聯(lián),能夠把每個圖像看作一個事務(wù),找出在不同圖像中頻繁出現(xiàn)的模式。三、多媒體數(shù)據(jù)挖掘在知識服務(wù)中的應(yīng)用1、文本數(shù)據(jù)挖掘所謂多媒體文本數(shù)據(jù)挖掘,確實是從大量的多媒體文本

11、數(shù)據(jù)中發(fā)覺有意義的模式過程。多媒體文本數(shù)據(jù)挖掘的過程對多媒體文本數(shù)據(jù)挖掘最行之有效的途徑確實是將多媒體文本數(shù)據(jù)結(jié)構(gòu)化后,再對結(jié)構(gòu)化數(shù)據(jù)采納數(shù)據(jù)挖掘方法。文本挖掘從功能上能夠分為總結(jié)、分類、聚類、趨勢預(yù)測等。文本是指從文檔中抽取關(guān)鍵信息,用簡潔的形式對文檔內(nèi)容進行摘要或解釋。從而用戶不需要掃瞄全文就能夠了解文檔或文檔集合的總體內(nèi)容。文本總結(jié)在有些場合特不有用,例如, 搜索引擎在向用戶返回查詢結(jié)果時,通常需要給出文檔的摘要。目前,絕大部分搜索引擎采納的方法是簡單地截取文檔的前幾行。在對文檔進行特征提取前,需要先進行文本信息的預(yù)處理,對英文而言,需進行Stemming 處理,中文的情況則不同,因為中

12、文詞與詞之間沒有固有的間隔符,需要進行分詞處理。在中文信息處理領(lǐng)域,對中文自動分詞研究差不多比較多了,提出了一些分詞方法,如最大匹配法、逐詞遍歷匹配法、最小匹配法等。采納基于詞典的正向逐詞遍歷匹配法,在我們設(shè)計的分類系統(tǒng)(ST CS)中,我們在分析了最大匹配法的特點后,提出了一種改進的算法。該算法在同意一定的分詞錯誤率的情況下,能顯著提高分詞效率,其速度優(yōu)于傳統(tǒng)的最大匹配法。然而我們忽略了通用詞的處理,僅處理專用詞典中詞條,從而較好地幸免了通用分詞的技術(shù)問題,此方法適合于專用領(lǐng)域文檔的分類。2、圖像數(shù)據(jù)挖掘圖像挖掘是多媒體挖掘的一個分支,圖像挖掘能夠廣泛地應(yīng)用于圖像檢索、醫(yī)學(xué)影像診斷分析、衛(wèi)星

13、圖片分析、地下礦藏預(yù)測等各種領(lǐng)域。其挖掘方法和原型結(jié)構(gòu)存在著巨大的改進空間。 圖像挖掘的一般過程如下。運用圖像處理技術(shù)。如圖像分割、邊緣探測、邊緣提取、模式識不等。從圖像(視頻幀)中抽取能代表、區(qū)分該圖像的結(jié)構(gòu)化內(nèi)容的特征。同時收集用于圖像處理和數(shù)據(jù)挖掘所需要的知識。獲得各種元數(shù)據(jù)及領(lǐng)域知識。建立特征庫和知識庫。 當(dāng)挖掘任務(wù)確定后。抽取與挖掘任務(wù)相關(guān)的特征向量。形成多維特征向量。在這些特征向量空間中比較、分析各向量之間的距離或相似關(guān)系。在知識庫的指導(dǎo)下。完成對圖像內(nèi)容的分析、索引、摘要、分類、聚類、關(guān)聯(lián)等操作。將所得到的結(jié)果進行解釋和表示。從而獲得高層的概念或模式。63、視頻、音頻數(shù)據(jù)挖掘除了

14、靜態(tài)圖像,在數(shù)字文檔、萬維網(wǎng)、廣播數(shù)據(jù)流、個人或?qū)I(yè)數(shù)據(jù)庫中,還能獲得數(shù)字形式的大量音頻和視頻信息。這類信息量增長迅速,迫切需要針對音頻和視頻數(shù)據(jù)的、有效的、基于內(nèi)容的檢索和挖掘方法。典型的例子包括:在TV工作室搜索和多媒體編輯特定的視頻片段,從監(jiān)視錄像中檢測可疑的人或場景,在個人多媒體庫中檢索特定的事件,從氣象雷達記錄中發(fā)覺模式或離散點,在你的MP3音頻簿中找到特定的主旋律或曲調(diào)。4、在醫(yī)學(xué)圖書館服務(wù)中的應(yīng)用多媒體數(shù)據(jù)挖掘?qū)︶t(yī)學(xué)信息有專門強的適應(yīng)性。多媒體技術(shù)的應(yīng)用便于醫(yī)學(xué)信息的儲存多媒體技術(shù)是當(dāng)今信息技術(shù)領(lǐng)域進展最快、最活躍的技術(shù),是新一代電子技術(shù)進展和競爭的焦點。利用現(xiàn)代數(shù)據(jù)挖掘技術(shù)對醫(yī)

15、學(xué)信息進行組織、開發(fā)、傳遞和評價以及導(dǎo)航,能夠最大限度滿足用戶的醫(yī)學(xué)信息資源需求和服務(wù)需求。多媒體醫(yī)學(xué)信息數(shù)據(jù)庫系統(tǒng)為醫(yī)學(xué)教育、咨詢提供了方便的技術(shù)手段,也為從事臨床醫(yī)學(xué)研究的人員提供了高效的數(shù)據(jù)處理工具。 目前,高校醫(yī)學(xué)資源庫的建立已初具規(guī)模,擁有多種媒體、內(nèi)容豐富的數(shù)字化信息資源。這些信息具有模式的多態(tài)性(純數(shù)據(jù)、圖像、信號、文字等)、不完整性(疾病信息的客觀不完整和描述疾病的豐觀不完整)、較強時刻性、復(fù)雜性和冗余性。常用的數(shù)據(jù)庫及統(tǒng)計分析方法差不多遠不能滿足現(xiàn)實的要求,因此。必須使用多媒體數(shù)據(jù)庫對高校醫(yī)學(xué)信息資源進行整理和收集。 多媒體數(shù)據(jù)挖掘在醫(yī)學(xué)圖書館服務(wù)中的應(yīng)用醫(yī)學(xué)資料的數(shù)據(jù)類型多

16、種多樣,大致有下列幾種:文本,包括病員的個人資料,如姓名、性不,住址等;長文本,包括病史詳述、大夫的診斷報告等;靜態(tài)圖像,包括各類醫(yī)學(xué)圖片,如CT、x光片、等;運動圖像,包括B超或血管造影等得到的視頻圖像;聲音,包括電子聽診器偵聽到的聲音和大夫的口頭診斷結(jié)果等音頻數(shù)據(jù)5。醫(yī)學(xué)信息的特點要求多媒體挖掘技術(shù)在基礎(chǔ)醫(yī)學(xué)領(lǐng)域、疾病的臨床診斷和治療方面、流行病學(xué)研究和醫(yī)學(xué)統(tǒng)計方法學(xué)方面、醫(yī)院和衛(wèi)生事業(yè)治理等多方面都差不多有各種挖掘方法和軟件出現(xiàn)(如DNA序列分析)。相信隨著數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,方法的不斷改進,可實現(xiàn)軟件的進展,數(shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域的應(yīng)用將更為廣泛和深入,從而帶來更大的社會經(jīng)濟效益。四、前景展望多媒體數(shù)據(jù)挖掘是多媒體和數(shù)據(jù)挖掘的結(jié)合,是一個新的研究方向,一些概念和方法正在形成中,有專門多問題急待解決。盡管多媒體數(shù)據(jù)挖掘面臨著許多問題和挑戰(zhàn),然而對多媒體數(shù)據(jù)進行挖掘同時實現(xiàn)智能化信息檢索是以后進展的需求,是一個專門有前途的研究方向。我相信隨著研究的深入,一定會取得更多的成就。而隨著多媒體數(shù)據(jù)挖掘的不斷進展,技術(shù)的進步,關(guān)于人們的日常生活也會產(chǎn)生巨大的阻礙。我相信多媒體數(shù)據(jù)挖掘的進展會給人們帶來更便捷、更豐富的生活。參考文獻:1 Advances in

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論