北郵劉剛教授-信息工程導(dǎo)論課件-多媒體信息處理-2015_第1頁(yè)
北郵劉剛教授-信息工程導(dǎo)論課件-多媒體信息處理-2015_第2頁(yè)
北郵劉剛教授-信息工程導(dǎo)論課件-多媒體信息處理-2015_第3頁(yè)
北郵劉剛教授-信息工程導(dǎo)論課件-多媒體信息處理-2015_第4頁(yè)
北郵劉剛教授-信息工程導(dǎo)論課件-多媒體信息處理-2015_第5頁(yè)
已閱讀5頁(yè),還剩90頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多媒體信息處理劉剛網(wǎng)絡(luò)搜索教研中心模式識(shí)別與智能系統(tǒng)實(shí)驗(yàn)室liugang@15一月2023信息工程導(dǎo)論目錄概述多媒體信息采集多媒體通信/存儲(chǔ)多媒體信息識(shí)別多媒體信息檢索多媒體信息生成總結(jié)2023年1月15日2信息與通信工程學(xué)院liugang@1.概述什么是多媒體為什么要研究多媒體信息信息處理流程多媒體信息處理研究?jī)?nèi)容2023年1月15日3信息與通信工程學(xué)院liugang@1.1什么是多媒體媒體(Media)就是人與人之間實(shí)現(xiàn)信息交流的中介,簡(jiǎn)單地說(shuō),就是信息的載體,也稱為媒介。多媒體就是多重媒體的意思可以理解為直接作用于人感官的文字、圖形、圖像、動(dòng)畫、聲音和視頻等各種媒體的統(tǒng)稱,即多種信息載體的表現(xiàn)形式和傳遞方式。2023年1月15日4信息與通信工程學(xué)院liugang@信息來(lái)源統(tǒng)計(jì)根據(jù)美國(guó)哈佛商學(xué)院有關(guān)研究人員的分析資料表明,人的大腦每天通過(guò)五種感官接受外部信息的比例分別為:味覺1%,觸覺1.5%,嗅覺3.5%,聽覺11%,以及視覺83%。主要的三個(gè)媒體聲音:語(yǔ)音(語(yǔ)言的表達(dá)形式之一),音樂(lè),音效(一般音頻)圖像:圖形,圖像,動(dòng)畫,視頻文本(抽象):文本(語(yǔ)言的表達(dá)形式之一),數(shù)據(jù)等2023年1月15日5信息與通信工程學(xué)院liugang@1.2為什么要研究多媒體信息多媒體是信息載體的總稱,是信息的承載形式或表現(xiàn)形式。多媒體信息處理,實(shí)際上就是信息處理。信息及其處理是當(dāng)前時(shí)代的標(biāo)志信息處理是信息工程專業(yè)的使命多媒體信息處理又有自身的特點(diǎn)2023年1月15日6信息與通信工程學(xué)院liugang@2023年1月15日信息與通信工程學(xué)院liugang@7信息及其處理是當(dāng)前時(shí)代的標(biāo)志社會(huì)發(fā)展史:

農(nóng)業(yè)社會(huì)(物質(zhì)資源)擴(kuò)展人的體質(zhì)能力工業(yè)社會(huì)(能量資源)擴(kuò)展人的體力能力信息社會(huì)(信息資源)擴(kuò)展人的智力能力沒(méi)有物質(zhì)什麼都不存在,沒(méi)有能量什麼都不發(fā)生,沒(méi)有信息什麼都沒(méi)意義信息處理是信息工程專業(yè)的使命信息工程的使命信息工程是面向信息通信行業(yè),口徑寬、適應(yīng)面廣的專業(yè)。該專業(yè)培養(yǎng)系統(tǒng)掌握信息傳輸和處理的基本理論和基本知識(shí),掌握信息獲取和應(yīng)用的核心技術(shù),能從事現(xiàn)代信息網(wǎng)絡(luò)和智能信息系統(tǒng)的設(shè)計(jì)、開發(fā)、研究及運(yùn)營(yíng)等方面工作的高素質(zhì)專門人才。2023年1月15日8信息與通信工程學(xué)院liugang@多媒體信息處理又有自身的特點(diǎn)音頻---隨機(jī)視頻---隨機(jī)文本/數(shù)據(jù)---確定多媒體融合2023年1月15日信息與通信工程學(xué)院liugang@9如何結(jié)合不同媒體的特點(diǎn)進(jìn)行更好的信息處理如何進(jìn)行多個(gè)媒體的信息融合處理1.3信息處理的流程2023年1月15日信息與通信工程學(xué)院liugang@10信息處理的流程信息科學(xué)基本原理2023年1月15日信息與通信工程學(xué)院liugang@11通信通信1.3信息處理的流程2023年1月15日信息與通信工程學(xué)院liugang@12信息獲取通信信息決策信息施效通信多媒體信息處理主要研究與媒體相關(guān)的部分1.4多媒體信息處理研究?jī)?nèi)容2023年1月15日信息與通信工程學(xué)院liugang@13數(shù)字信號(hào)處理數(shù)據(jù)采集技術(shù)通信原理信息處理與編碼模式識(shí)別Web搜索語(yǔ)音信號(hào)數(shù)字處理,數(shù)字圖像處理信號(hào)層次內(nèi)容層次1.4多媒體信息處理研究?jī)?nèi)容研究如何更有效地產(chǎn)生、傳輸、存儲(chǔ)、獲取和應(yīng)用多媒體信息多媒體信息采集多媒體通信/存儲(chǔ)多媒體編碼/譯碼----信源編碼多媒體內(nèi)容處理---智能信息處理多媒體信息識(shí)別多媒體信息檢索多媒體信息生成2023年1月15日14信息與通信工程學(xué)院liugang@目錄概述多媒體信息采集多媒體通信/存儲(chǔ)多媒體信息識(shí)別多媒體信息檢索多媒體信息生成總結(jié)2023年1月15日15信息與通信工程學(xué)院liugang@2.多媒體信息采集概述傳感器模數(shù)轉(zhuǎn)換/數(shù)模轉(zhuǎn)換噪聲處理等預(yù)處理2023年1月15日16信息與通信工程學(xué)院liugang@2.1多媒體信息采集-概述采集原則不失真有用信號(hào)不失真噪聲干擾小處理過(guò)程傳感器采集模數(shù)轉(zhuǎn)換/數(shù)模轉(zhuǎn)換噪聲處理等預(yù)處理2023年1月15日17信息與通信工程學(xué)院liugang@數(shù)據(jù)采集技術(shù)2.2傳感器傳感器transducer/sensor一種檢測(cè)裝置,能感受到被測(cè)量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號(hào)或其他所需形式的信息輸出兩個(gè)功能信號(hào)敏感換能2023年1月15日信息與通信工程學(xué)院liugang@182.2傳感器傳感器是人類五官的延長(zhǎng),又稱之為電五官光敏傳感器——視覺聲敏傳感器——聽覺氣敏/化學(xué)傳感器——嗅覺化學(xué)傳感器——味覺壓敏、溫敏、流體傳感器——觸覺2023年1月15日信息與通信工程學(xué)院liugang@19可燃?xì)怏w感器二氧化氮傳感器鹽度傳感器紅外壓力可穿戴柔性觸覺2.2傳感器---Mic陣列2023年1月15日20信息與通信工程學(xué)院liugang@2.2傳感器---Mic陣列2023年1月15日21信息與通信工程學(xué)院liugang@2.2傳感器---Mic陣列2023年1月15日22信息與通信工程學(xué)院liugang@針對(duì)復(fù)雜應(yīng)用如:音源定位遠(yuǎn)距離聲音采集聲場(chǎng)分析等2023年1月15日信息與通信工程學(xué)院liugang@012345672.3模數(shù)轉(zhuǎn)換量化編碼000011011100100101110111111111111110101011010量化誤差0.5-0.5抽樣23圖像二值化等2023年1月15日24信息與通信工程學(xué)院liugang@2.3預(yù)處理噪聲的去除和有用信息的初步提取降噪分割檢測(cè)……2023年1月15日信息與通信工程學(xué)院liugang@25語(yǔ)音預(yù)處理語(yǔ)音增強(qiáng)語(yǔ)音端點(diǎn)檢測(cè)2023年1月15日信息與通信工程學(xué)院liugang@26譜減法語(yǔ)音增強(qiáng)Kalman濾波法2023年1月15日27圖像的降噪/group/dipr信息與通信工程學(xué)院liugang@2023年1月15日28圖像增強(qiáng)信息與通信工程學(xué)院liugang@2023年1月15日29圖像恢復(fù)運(yùn)動(dòng)模糊圖像恢復(fù)圖像信息與通信工程學(xué)院liugang@2023年1月15日30圖像的分割信息與通信工程學(xué)院liugang@周界檢測(cè)系統(tǒng)系統(tǒng)可以自動(dòng)檢測(cè)到進(jìn)入到場(chǎng)景中的運(yùn)動(dòng)目標(biāo),判斷是否進(jìn)入設(shè)定警戒區(qū)域。應(yīng)用場(chǎng)景:機(jī)場(chǎng),小區(qū),軍事禁區(qū)2023年1月15日31信息與通信工程學(xué)院liugang@目錄概述多媒體信息采集多媒體通信/存儲(chǔ)多媒體信息識(shí)別多媒體信息檢索多媒體信息生成總結(jié)2023年1月15日32信息與通信工程學(xué)院liugang@3.多媒體通信和存儲(chǔ)

—多媒體編碼為什么要進(jìn)行編碼信源編碼---壓縮,提高有效性為什么可以壓縮信號(hào)本身的冗余度---語(yǔ)音感知特性----人耳的聽覺特性語(yǔ)音--G.721,G.729,G.723.1混合音頻編碼圖像--JPEG、JPEG2000視頻--MPEG-1,MPEG-2和MPEG-4,H261,H.263,MPEG7,MPEG212023年1月15日33信息與通信工程學(xué)院liugang@目錄概述多媒體信息采集多媒體通信/存儲(chǔ)多媒體信息識(shí)別多媒體信息檢索多媒體信息生成總結(jié)2023年1月15日34信息與通信工程學(xué)院liugang@4.多媒體信息識(shí)別模式識(shí)別概述語(yǔ)音識(shí)別音頻事件識(shí)別圖像識(shí)別多模態(tài)模式識(shí)別2023年1月15日35信息與通信工程學(xué)院liugang@4.1模式識(shí)別模式識(shí)別(PatternRecognition)模式分類模式識(shí)別是從模式到類別的映射模式識(shí)別是模擬人的某些功能模擬人的視覺:計(jì)算機(jī)+光學(xué)系統(tǒng)--圖像識(shí)別模擬人的聽覺:計(jì)算機(jī)+聲音傳感器---語(yǔ)音識(shí)別模擬人的嗅覺和觸覺:計(jì)算機(jī)+傳感器模式識(shí)別是從模式到類別的映射2023年1月15日36信息與通信工程學(xué)院liugang@模式識(shí)別在智能信息處理中的地位2023年1月15日37信息與通信工程學(xué)院liugang@模式識(shí)別在信息處理中的地位2023年1月15日信息與通信工程學(xué)院liugang@382023年1月15日信息與通信工程學(xué)院liugang@38信息獲取通信信息處理信息施效通信模式識(shí)別的原理框圖2023年1月15日39信息與通信工程學(xué)院liugang@模式識(shí)別的原理4.2語(yǔ)音識(shí)別什么是語(yǔ)音識(shí)別語(yǔ)音識(shí)別是研究如何采用數(shù)字信號(hào)處理技術(shù)自動(dòng)提取以及決定語(yǔ)音信號(hào)中最基本、最有意義的信息的一門新興的邊緣學(xué)科。分類語(yǔ)音識(shí)別(內(nèi)容)特定人/非特定人,孤立詞/連續(xù)語(yǔ)音/關(guān)鍵詞識(shí)別說(shuō)話人識(shí)別/聲紋語(yǔ)種識(shí)別/方言識(shí)別性別識(shí)別情緒識(shí)別,母語(yǔ)/非母語(yǔ),發(fā)音評(píng)價(jià),疾病診斷,說(shuō)話時(shí)吃東西?2023年1月15日41信息與通信工程學(xué)院liugang@演示系統(tǒng)語(yǔ)音輸入法/語(yǔ)音搜索谷歌、百度、搜狗、訊飛、微信語(yǔ)音問(wèn)答系統(tǒng)蘋果SIRI 計(jì)算機(jī)聲控系統(tǒng)2023年1月15日42信息與通信工程學(xué)院liugang@4.3音頻事件識(shí)別語(yǔ)音音頻音頻事件識(shí)別關(guān)鍵事件---安全監(jiān)控腳步聲,關(guān)門開門聲,槍聲,玻璃破碎聲,重物落地聲,語(yǔ)音等音頻場(chǎng)景分析/情境計(jì)算音視頻摘要、檢索2023年1月15日43信息與通信工程學(xué)院liugang@演示系統(tǒng)2023年1月15日信息與通信工程學(xué)院liugang@444.4圖像識(shí)別一、二維條碼識(shí)別簡(jiǎn)單問(wèn)題文字識(shí)別、指紋識(shí)別、虹膜識(shí)別、掌紋識(shí)別、人臉識(shí)別、車牌識(shí)別……物體識(shí)別2023年1月15日45信息與通信工程學(xué)院liugang@46字符識(shí)別脫機(jī)offlineOCR聯(lián)機(jī)online手寫輸入2023年1月15日信息與通信工程學(xué)院liugang@2023年1月15日47

遼C79388信息與通信工程學(xué)院liugang@人臉識(shí)別人臉識(shí)別是指通過(guò)人臉進(jìn)行身份確認(rèn)或者身份查找的技術(shù)人臉圖像采集人臉定位人臉識(shí)別預(yù)處理身份確認(rèn)以及身份查找等;2023年1月15日48信息與通信工程學(xué)院liugang@49人臉檢測(cè)2023年1月15日信息與通信工程學(xué)院liugang@50人臉識(shí)別2023年1月15日信息與通信工程學(xué)院liugang@51指紋識(shí)別2023年1月15日信息與通信工程學(xué)院liugang@52虹膜識(shí)別2023年1月15日信息與通信工程學(xué)院liugang@生物特征識(shí)別生物特征識(shí)別:未來(lái)的身份驗(yàn)證方法!生物:指紋、虹膜、人臉、掌紋、手形、視網(wǎng)膜、紅外溫譜行為:筆跡、步態(tài)、聲紋2023年1月15日53信息與通信工程學(xué)院liugang@手勢(shì)識(shí)別體態(tài)識(shí)別靜止運(yùn)動(dòng)步態(tài)識(shí)別2023年1月15日54信息與通信工程學(xué)院liugang@物體識(shí)別(圖像解析)2023年1月15日55信息與通信工程學(xué)院liugang@4.5多模態(tài)模式識(shí)別聽覺視覺雙模態(tài)語(yǔ)音識(shí)別視頻與聽覺語(yǔ)音聯(lián)合使用,提高識(shí)別率---多媒體融合2023年1月15日56信息與通信工程學(xué)院liugang@目錄概述多媒體信息采集多媒體通信/存儲(chǔ)多媒體信息識(shí)別多媒體信息檢索多媒體信息生成總結(jié)2023年1月15日57信息與通信工程學(xué)院liugang@5.多媒體信息檢索文本檢索語(yǔ)音檢索音頻檢索圖像檢索多媒體融合信息檢索2023年1月15日58信息與通信工程學(xué)院liugang@5.1文本檢索另外一講多媒體檢索與文本檢索的異同文本檢索是信息檢索的基礎(chǔ)多媒體檢索需要進(jìn)行識(shí)別再進(jìn)行檢索識(shí)別錯(cuò)誤會(huì)產(chǎn)生影響2023年1月15日信息與通信工程學(xué)院liugang@595.2語(yǔ)音檢索查詢方式文本,語(yǔ)音檢索對(duì)象文本,語(yǔ)音2023年1月15日60信息與通信工程學(xué)院liugang@語(yǔ)音檢索演示語(yǔ)音檢索檢索對(duì)象:廣播新聞?wù)Z音,如新聞聯(lián)播檢索輸入:文本2023年1月15日61信息與通信工程學(xué)院liugang@2023年1月15日信息與通信工程學(xué)院liugang@625.3音頻檢索基于樣例的音頻檢索哼唱檢索基于語(yǔ)義的音頻檢索音頻事件檢索音頻場(chǎng)景檢索2023年1月15日63信息與通信工程學(xué)院liugang@基于樣例的音頻檢索功能簡(jiǎn)介通過(guò)音頻片斷(原始的音頻片段或者錄制的)搜索到整個(gè)音頻的完整信息2023年1月15日64信息與通信工程學(xué)院liugang@2023年1月15日信息與通信工程學(xué)院liugang@65基于樣例的音頻檢索哼唱檢索QBH(QueryByHumming)通過(guò)哼唱歌曲的某個(gè)片段來(lái)找到想要搜尋

的歌曲,是一種基于內(nèi)容的音樂(lè)信息檢索方式。2023年1月15日66信息與通信工程學(xué)院liugang@2023年1月15日信息與通信工程學(xué)院liugang@67多媒體融合信息檢索

---以音樂(lè)檢索為例檢索輸入信息:歌名,歌手,歌詞,旋律,曲譜,流派,風(fēng)格等形式:文本,語(yǔ)音,哼唱,音頻,圖像(曲譜)檢索對(duì)象(輸出)文本,語(yǔ)音,歌曲,圖像等技術(shù)文本檢索,語(yǔ)音檢索(語(yǔ)音識(shí)別),哼唱檢索,流派識(shí)別,樣例檢索,音頻屬性檢索,多媒體信息融合等2023年1月15日68信息與通信工程學(xué)院liugang@5.4圖像信息檢索圖片檢索(谷歌、百度圖片搜索)文本檢索圖片圖片檢索圖片基于圖像的商品檢索2023年1月15日69信息與通信工程學(xué)院liugang@基于3G手機(jī)的圖片檢索系統(tǒng)2023年1月15日70信息與通信工程學(xué)院liugang@目錄概述多媒體信息采集多媒體通信/存儲(chǔ)多媒體信息識(shí)別多媒體信息檢索多媒體信息生成總結(jié)2023年1月15日71信息與通信工程學(xué)院liugang@6.多媒體信息生成

---虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)多媒體信息的再生---轉(zhuǎn)換多媒體信息的合成---合成人臉表情合成語(yǔ)音合成聽覺場(chǎng)景生成視覺場(chǎng)景生成3D4D5D電影---全息。。。。。。2023年1月15日72信息與通信工程學(xué)院liugang@6.1語(yǔ)音合成(TTS)什么是TTSTextToSpeech讓機(jī)器開口說(shuō)話評(píng)價(jià)指標(biāo)可懂度、自然度2023年1月15日73信息與通信工程學(xué)院liugang@6.2人臉表情合成2023年1月15日74信息與通信工程學(xué)院liugang@6.2人臉表情合成2023年1月15日75信息與通信工程學(xué)院liugang@聽覺場(chǎng)景生成計(jì)算聽覺場(chǎng)景分析用計(jì)算機(jī)技術(shù)將人類聽覺對(duì)聲音的處理過(guò)程(聽覺場(chǎng)景分析)建模,使計(jì)算機(jī)具備從混合聲音中分離各物理聲源并作出合理解釋的能力。聽覺場(chǎng)景生成通過(guò)多揚(yáng)聲器在新的聲學(xué)空間重現(xiàn)聲學(xué)場(chǎng)景環(huán)繞立體聲免提全息電話Bee游戲虛擬現(xiàn)實(shí)2023年1月15日76信息與通信工程學(xué)院liugang@視覺場(chǎng)景生成全息投影/景象往往包括音頻(即聽覺)3D4D5D電影---全息MicrosoftHoloLens

全息眼鏡MagicLeap2023年1月15日信息與通信工程學(xué)院liugang@773D,4D,5D電影3D立體效果的基礎(chǔ)上增加動(dòng)感座椅,環(huán)境特效,5D電影院讓觀眾從聽覺、視覺、觸覺,這幾方面達(dá)到最強(qiáng)大的逼真感如同置身于影片中,通過(guò)環(huán)境模擬實(shí)現(xiàn)風(fēng)、雨、電、煙、雪花、泡泡、火焰掃腿、捅背、震動(dòng)、香煙等環(huán)境效果,順著影視內(nèi)容變化可實(shí)時(shí)感受到置身“閃電、煙霧、雪花”中,在“火焰”前有灼熱感,海浪撲身時(shí)會(huì)“濕”了衣裳。體驗(yàn)下墜、震動(dòng)、刮風(fēng)、下雨、掃腿等全新的真切感覺,對(duì)電影行業(yè)有一定的推動(dòng)作用。2023年1月15日信息與通信工程學(xué)院liugang@78MicrosoftHoloLens

全息眼鏡Holograms借助頭戴設(shè)備HoloLen的幫助,讓用戶的眼前出現(xiàn)懸浮界面,以實(shí)際環(huán)境作為載體,實(shí)時(shí)處理、獲取虛擬信息:如在墻上查看消息、查找聯(lián)系人,在地上玩游戲、在客廳墻上直接進(jìn)行Skype視頻通話、觀看球賽。2023年1月15日信息與通信工程學(xué)院liugang@792023年1月15日信息與通信工程學(xué)院liugang@80MagicLeap公司的3D裸眼技術(shù)2023年1月15日信息與通

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論