試論基于多媒體的數(shù)據(jù)挖掘

上傳人：q*** IP屬地：江蘇上傳時間：2022-08-18 格式：DOC 頁數(shù)：13 大小：450.35KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、基于多媒體的數(shù)據(jù)挖掘【摘要】：多媒體挖掘是數(shù)據(jù)挖掘的一個新興且富有挑戰(zhàn)性的子領(lǐng)域。本文介紹了多媒體數(shù)據(jù)挖掘的特性，一種適合多媒體挖掘的系統(tǒng)模型,闡述了幾種多媒體挖掘方法以及討論了多媒體數(shù)據(jù)挖掘在知識服務(wù)中的應(yīng)用?！娟P(guān)鍵詞】：數(shù)據(jù)挖掘，多媒體挖掘，挖掘方法，服務(wù)應(yīng)用目前，數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支之一，也是人們一直研究的熱點。在數(shù)據(jù)挖掘近年來研究與應(yīng)用迅猛進展的過程中，前人取得了一定的成果1。新的和改進的算法不斷出現(xiàn)，所考察的數(shù)據(jù)類型日趨豐富，應(yīng)用領(lǐng)域逐漸擴大，數(shù)據(jù)挖掘技術(shù)正慢慢融入到多媒體數(shù)據(jù)庫中。多媒體數(shù)據(jù)庫因為其數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、模式多樣等特點一直是人們研究的難點。

2、隨著數(shù)據(jù)挖掘技術(shù)應(yīng)用的成功，人們將目光放到了多媒體數(shù)據(jù)庫中進行知識發(fā)覺。一、數(shù)據(jù)挖掘的概念及其結(jié)構(gòu)1、差不多概念簡單地講，數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識。數(shù)據(jù)挖掘確實是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不明白的、但又是潛在有用的信息和知識的過程。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。那個定義包括好幾層含義：數(shù)據(jù)源必須是真實的、大量的、含噪聲的；發(fā)覺的是用戶感興趣的知識；發(fā)覺的知識要可同意、可理解、可運用；并不要求發(fā)覺放之四海皆準的知識，僅支持特定的發(fā)覺問題。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中查找其規(guī)律的技術(shù)，要緊有數(shù)據(jù)預(yù)備、規(guī)律查

3、找和規(guī)律表示三個步驟。2、體系結(jié)構(gòu)一個典型的數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)如下：其中數(shù)據(jù)庫、數(shù)據(jù)倉庫或者是其他一些信息存儲媒介為數(shù)據(jù)挖掘的工作對象；服務(wù)器要緊是響應(yīng)數(shù)據(jù)挖掘引擎的請求，提取相應(yīng)的數(shù)據(jù)；領(lǐng)域知識庫要緊用來指導(dǎo)挖掘的過程，以及用來評價挖掘出來的候選模式；數(shù)據(jù)挖掘引擎是整個系統(tǒng)的核心部分，能夠由以下模塊組成：分類模塊、關(guān)聯(lián)規(guī)則模塊、聚類分析模塊、時序模塊和異常分析模塊等；模式評價模塊要緊是依照一定的度量標準來與數(shù)據(jù)挖掘模塊交互，以使得數(shù)據(jù)挖掘向著我們感興趣的方向進行，往往越是高效的數(shù)據(jù)挖掘系統(tǒng)這種交互阻礙的程度越高；圖形用戶界面要緊是為方便用戶與數(shù)據(jù)挖掘系統(tǒng)的交互，由用戶提出挖掘任務(wù)、指定重

4、要的挖掘參數(shù)以及由當(dāng)前返回的結(jié)果指導(dǎo)進行更進一步的挖掘工作。二、多媒體與數(shù)據(jù)挖掘相結(jié)合隨著多媒體技術(shù)的進展，人們接觸的數(shù)據(jù)形式不斷地豐富，多媒體數(shù)據(jù)庫的日益增多，原有的數(shù)據(jù)庫技術(shù)已滿足不了應(yīng)用的需要，人們希望從這些媒體數(shù)據(jù)中得到一些高層的概念和模式，找出蘊涵于其中的有價值的知識。這種將數(shù)據(jù)挖掘技術(shù)和多媒體信息處理技術(shù)有機地結(jié)合起來形成的在多媒體數(shù)據(jù)中進行知識發(fā)覺的信息處理方法確實是多媒體數(shù)據(jù)挖掘。1、多媒體數(shù)據(jù)挖掘的特性由于音頻視頻設(shè)備、數(shù)碼像機、CD- ROM 和因特網(wǎng)的流行和普及，多媒體數(shù)據(jù)庫系統(tǒng)變得日益一般。多媒體數(shù)據(jù)通常是一種多維的、非結(jié)構(gòu)化或者半結(jié)構(gòu)化的，各媒體數(shù)據(jù)有著不同的特點

5、，有著各自表述信息的方式，各媒體既可獨立表示信息又可共同表示相同事件的不同特征，共同描述事件的存在、進展和結(jié)果。因此，多媒體數(shù)據(jù)集中必定存在關(guān)于信息主體的特征、屬性以及它們之間的關(guān)系，或者存在著某些人們從直觀上無法得到的模式。多媒體數(shù)據(jù)挖掘是一種智能的數(shù)據(jù)分析，旨在從特定的多媒體數(shù)據(jù)集中發(fā)覺必要的結(jié)果來用于決策、對策及融合分析。例如在MMMiner(Mult iMediaMiner，多媒體挖掘)中，如查找包含人臉的所有圖像，用戶界面上就會逐步顯示不同國家、不同膚色、不同表情的人臉，而不是顯示一些猴臉或者是馬臉。由此可見，多媒體挖掘確實是從大量的多媒體數(shù)據(jù)集中，通過綜合分析視聽特性和語義，發(fā)覺隱

6、含的、有效的、有價值的、可理解的模式，得出事件的趨向和關(guān)聯(lián)，為用戶提供問題求解層次的決策支持能力。22、多媒體數(shù)據(jù)挖掘的系統(tǒng)模型多媒體挖掘需要一個切實可行的系統(tǒng)框架模型。它的一般系統(tǒng)結(jié)構(gòu)模型如圖：3、多媒體數(shù)據(jù)挖掘的方法31多媒體數(shù)據(jù)的相似性搜索關(guān)于多媒體數(shù)據(jù)相似性搜索，要緊考慮兩種多媒體索引和檢索系統(tǒng)：（1）基于描述的檢索系統(tǒng)，它基于圖像描述（如關(guān)鍵詞、標題、尺寸和創(chuàng)建時刻等）建立索引和進行對象檢索：(2)基于內(nèi)容的檢索系統(tǒng)，它支持基于圖像內(nèi)容的檢索，如顏色直方圖、紋理、模式、圖像拓撲、對象的形狀和它們在圖像中的布局和位置?；诿枋龅臋z索若人工完成是專門費勁的。若自動完成，則質(zhì)量較差。例如

7、，關(guān)鍵詞到圖像的賦值可能是棘手和武斷的任務(wù)。最近開發(fā)的基于web的圖像聚類和分類方法提高了基于描述的web圖像檢索的質(zhì)量，因為圍繞圖像的文本信息和web鏈接信息能夠用于提取合適的描述，并將描述相似主題的圖像聚合在一起?；趦?nèi)容的檢索使用視覺特征索引圖像，并促進基于特征相似性的對象檢索，這在專門多應(yīng)用中差不多上特不期望的。332多媒體數(shù)據(jù)的多維分析為便于大型多媒體數(shù)據(jù)庫的多維分析，能夠用類似于從關(guān)系數(shù)據(jù)構(gòu)造傳統(tǒng)數(shù)據(jù)立方體的方法，設(shè)計和構(gòu)造多媒體數(shù)據(jù)立方體。多媒體數(shù)據(jù)立方體可包含針對多媒體信息的維和度量，如顏色、紋理和形狀。如圖是一個簡單的圖像數(shù)據(jù)立方體的模型：多媒體數(shù)據(jù)立方體是一種對多媒體數(shù)據(jù)

8、進行多維分析的有味模型, 通過適當(dāng)?shù)囊恍┎僮? 上卷、下鉆、切片和切塊、轉(zhuǎn)軸(旋轉(zhuǎn))能夠進行強有力的分析。多媒體數(shù)據(jù)立方體的建立有助于基于視覺內(nèi)容的多媒體數(shù)據(jù)的多維分析，和多種知識的挖掘，包括匯總、比較、分類、關(guān)聯(lián)和聚類。33多媒體數(shù)據(jù)的分類和預(yù)測分析分類和預(yù)測建模差不多用于挖掘多媒體數(shù)據(jù)，尤其在科學(xué)研究中，如天文學(xué)、地震學(xué)和地理科學(xué)的研究。數(shù)據(jù)分類可通過以下兩步來實現(xiàn)：（1）建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器：分類通常是依照媒體數(shù)據(jù)的某一特性來確定的，該特性在元數(shù)據(jù)庫中表現(xiàn)為視聽描述子。通過分析元數(shù)據(jù)庫中部分數(shù)據(jù)的該描述子值來構(gòu)造模型，并把用于建立模型的媒體數(shù)據(jù)作為訓(xùn)練集。訓(xùn)練樣本能

9、夠隨機選取，并預(yù)先給出類標號。（2）使用模型分類：首先評估分類器的預(yù)測準確率，用給定檢驗集上的準確率來判定分類器的準確率，假如分類器的準確率能夠同意，就能夠用它來對以后元組進行分類。34多媒體數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則多媒體圖像數(shù)據(jù)挖掘的一個十分關(guān)鍵的問題是圖像數(shù)據(jù)本身的表示問題。這也是圖像處理和模式識不的關(guān)鍵。一般講來，能夠用顏色、紋理、形狀和運動向量等來表示圖像的差不多特征。高級概念能夠看成是一種特征模式。多媒體圖像數(shù)據(jù)挖掘的過程能夠由下圖所示：在圖像和視頻數(shù)據(jù)庫中，能夠挖掘涉及多媒體對象的關(guān)聯(lián)規(guī)則。至少包括以下三類：（1）圖像內(nèi)容和非圖像內(nèi)容特征間的關(guān)聯(lián)：如規(guī)則“假如一幅圖片的上面至少50%是

10、藍色，則它專門可能代表天空”屬于此類，因為它把圖像的內(nèi)容和關(guān)鍵詞天空關(guān)聯(lián)在一起。（2）與空間聯(lián)系無關(guān)的圖像內(nèi)容間的關(guān)聯(lián)：如規(guī)則“假如一幅圖片包含兩個藍色正方形，則它專門可能也包含一個紅色圓形”屬于此類，因為關(guān)聯(lián)考慮的差不多上圖像內(nèi)容。（3）與空間聯(lián)系有關(guān)的圖像內(nèi)容間的關(guān)聯(lián)：如規(guī)則“假如一個紅色三角形在兩個黃色正方形之間，則專門可能下面存在一個大的橢圓形對象”屬于此類，因為它把圖像中對象與空間聯(lián)系關(guān)聯(lián)在一起。4為了挖掘多媒體對象間的關(guān)聯(lián)，能夠把每個圖像看作一個事務(wù)，找出在不同圖像中頻繁出現(xiàn)的模式。三、多媒體數(shù)據(jù)挖掘在知識服務(wù)中的應(yīng)用1、文本數(shù)據(jù)挖掘所謂多媒體文本數(shù)據(jù)挖掘，確實是從大量的多媒體文本

11、數(shù)據(jù)中發(fā)覺有意義的模式過程。多媒體文本數(shù)據(jù)挖掘的過程對多媒體文本數(shù)據(jù)挖掘最行之有效的途徑確實是將多媒體文本數(shù)據(jù)結(jié)構(gòu)化后，再對結(jié)構(gòu)化數(shù)據(jù)采納數(shù)據(jù)挖掘方法。文本挖掘從功能上能夠分為總結(jié)、分類、聚類、趨勢預(yù)測等。文本是指從文檔中抽取關(guān)鍵信息，用簡潔的形式對文檔內(nèi)容進行摘要或解釋。從而用戶不需要掃瞄全文就能夠了解文檔或文檔集合的總體內(nèi)容。文本總結(jié)在有些場合特不有用，例如，搜索引擎在向用戶返回查詢結(jié)果時，通常需要給出文檔的摘要。目前，絕大部分搜索引擎采納的方法是簡單地截取文檔的前幾行。在對文檔進行特征提取前，需要先進行文本信息的預(yù)處理，對英文而言，需進行Stemming 處理，中文的情況則不同，因為中

12、文詞與詞之間沒有固有的間隔符，需要進行分詞處理。在中文信息處理領(lǐng)域，對中文自動分詞研究差不多比較多了，提出了一些分詞方法，如最大匹配法、逐詞遍歷匹配法、最小匹配法等。采納基于詞典的正向逐詞遍歷匹配法，在我們設(shè)計的分類系統(tǒng)(ST CS)中，我們在分析了最大匹配法的特點后，提出了一種改進的算法。該算法在同意一定的分詞錯誤率的情況下，能顯著提高分詞效率，其速度優(yōu)于傳統(tǒng)的最大匹配法。然而我們忽略了通用詞的處理，僅處理專用詞典中詞條，從而較好地幸免了通用分詞的技術(shù)問題，此方法適合于專用領(lǐng)域文檔的分類。2、圖像數(shù)據(jù)挖掘圖像挖掘是多媒體挖掘的一個分支，圖像挖掘能夠廣泛地應(yīng)用于圖像檢索、醫(yī)學(xué)影像診斷分析、衛(wèi)星

13、圖片分析、地下礦藏預(yù)測等各種領(lǐng)域。其挖掘方法和原型結(jié)構(gòu)存在著巨大的改進空間。圖像挖掘的一般過程如下。運用圖像處理技術(shù)。如圖像分割、邊緣探測、邊緣提取、模式識不等。從圖像(視頻幀)中抽取能代表、區(qū)分該圖像的結(jié)構(gòu)化內(nèi)容的特征。同時收集用于圖像處理和數(shù)據(jù)挖掘所需要的知識。獲得各種元數(shù)據(jù)及領(lǐng)域知識。建立特征庫和知識庫。當(dāng)挖掘任務(wù)確定后。抽取與挖掘任務(wù)相關(guān)的特征向量。形成多維特征向量。在這些特征向量空間中比較、分析各向量之間的距離或相似關(guān)系。在知識庫的指導(dǎo)下。完成對圖像內(nèi)容的分析、索引、摘要、分類、聚類、關(guān)聯(lián)等操作。將所得到的結(jié)果進行解釋和表示。從而獲得高層的概念或模式。63、視頻、音頻數(shù)據(jù)挖掘除了

14、靜態(tài)圖像，在數(shù)字文檔、萬維網(wǎng)、廣播數(shù)據(jù)流、個人或?qū)I(yè)數(shù)據(jù)庫中，還能獲得數(shù)字形式的大量音頻和視頻信息。這類信息量增長迅速，迫切需要針對音頻和視頻數(shù)據(jù)的、有效的、基于內(nèi)容的檢索和挖掘方法。典型的例子包括：在TV工作室搜索和多媒體編輯特定的視頻片段，從監(jiān)視錄像中檢測可疑的人或場景，在個人多媒體庫中檢索特定的事件，從氣象雷達記錄中發(fā)覺模式或離散點，在你的MP3音頻簿中找到特定的主旋律或曲調(diào)。4、在醫(yī)學(xué)圖書館服務(wù)中的應(yīng)用多媒體數(shù)據(jù)挖掘?qū)︶t(yī)學(xué)信息有專門強的適應(yīng)性。多媒體技術(shù)的應(yīng)用便于醫(yī)學(xué)信息的儲存多媒體技術(shù)是當(dāng)今信息技術(shù)領(lǐng)域進展最快、最活躍的技術(shù)，是新一代電子技術(shù)進展和競爭的焦點。利用現(xiàn)代數(shù)據(jù)挖掘技術(shù)對醫(yī)

15、學(xué)信息進行組織、開發(fā)、傳遞和評價以及導(dǎo)航，能夠最大限度滿足用戶的醫(yī)學(xué)信息資源需求和服務(wù)需求。多媒體醫(yī)學(xué)信息數(shù)據(jù)庫系統(tǒng)為醫(yī)學(xué)教育、咨詢提供了方便的技術(shù)手段，也為從事臨床醫(yī)學(xué)研究的人員提供了高效的數(shù)據(jù)處理工具。目前，高校醫(yī)學(xué)資源庫的建立已初具規(guī)模，擁有多種媒體、內(nèi)容豐富的數(shù)字化信息資源。這些信息具有模式的多態(tài)性(純數(shù)據(jù)、圖像、信號、文字等)、不完整性(疾病信息的客觀不完整和描述疾病的豐觀不完整)、較強時刻性、復(fù)雜性和冗余性。常用的數(shù)據(jù)庫及統(tǒng)計分析方法差不多遠不能滿足現(xiàn)實的要求，因此。必須使用多媒體數(shù)據(jù)庫對高校醫(yī)學(xué)信息資源進行整理和收集。多媒體數(shù)據(jù)挖掘在醫(yī)學(xué)圖書館服務(wù)中的應(yīng)用醫(yī)學(xué)資料的數(shù)據(jù)類型多

16、種多樣，大致有下列幾種：文本，包括病員的個人資料，如姓名、性不，住址等；長文本，包括病史詳述、大夫的診斷報告等；靜態(tài)圖像，包括各類醫(yī)學(xué)圖片，如CT、x光片、等；運動圖像，包括B超或血管造影等得到的視頻圖像；聲音，包括電子聽診器偵聽到的聲音和大夫的口頭診斷結(jié)果等音頻數(shù)據(jù)5。醫(yī)學(xué)信息的特點要求多媒體挖掘技術(shù)在基礎(chǔ)醫(yī)學(xué)領(lǐng)域、疾病的臨床診斷和治療方面、流行病學(xué)研究和醫(yī)學(xué)統(tǒng)計方法學(xué)方面、醫(yī)院和衛(wèi)生事業(yè)治理等多方面都差不多有各種挖掘方法和軟件出現(xiàn)(如DNA序列分析)。相信隨著數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用，方法的不斷改進，可實現(xiàn)軟件的進展，數(shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域的應(yīng)用將更為廣泛和深入，從而帶來更大的社會經(jīng)濟效益。四、前景展望多媒體數(shù)據(jù)挖掘是多媒體和數(shù)據(jù)挖掘的結(jié)合，是一個新的研究方向，一些概念和方法正在形成中，有專門多問題急待解決。盡管多媒體數(shù)據(jù)挖掘面臨著許多問題和挑戰(zhàn)，然而對多媒體數(shù)據(jù)進行挖掘同時實現(xiàn)智能化信息檢索是以后進展的需求，是一個專門有前途的研究方向。我相信隨著研究的深入，一定會取得更多的成就。而隨著多媒體數(shù)據(jù)挖掘的不斷進展，技術(shù)的進步，關(guān)于人們的日常生活也會產(chǎn)生巨大的阻礙。我相信多媒體數(shù)據(jù)挖掘的進展會給人們帶來更便捷、更豐富的生活。參考文獻：1 Advances in

人人文庫> 全部分類> 應(yīng)用文書 > 工作計劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

試論基于多媒體的數(shù)據(jù)挖掘

文檔簡介

溫馨提示

最新文檔

評論

試論基于多媒體的數(shù)據(jù)挖掘

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔