聲音、音頻技術在視頻安防監(jiān)控中的應用(READ)_第1頁
聲音、音頻技術在視頻安防監(jiān)控中的應用(READ)_第2頁
聲音、音頻技術在視頻安防監(jiān)控中的應用(READ)_第3頁
聲音、音頻技術在視頻安防監(jiān)控中的應用(READ)_第4頁
聲音、音頻技術在視頻安防監(jiān)控中的應用(READ)_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、聲音在視頻監(jiān)控中的應用聲音在視頻監(jiān)控中的應用概述概述聲音是攜帶信息的重要媒體。研究表明,人類從聲音是攜帶信息的重要媒體。研究表明,人類從外部世界獲取的信息中,外部世界獲取的信息中,10%10%是通過聽覺獲得的是通過聽覺獲得的, ,因此聲音是多媒體技術研究中的一個重要內容。因此聲音是多媒體技術研究中的一個重要內容。聲音是由物體振動產生的,這種振動引起周圍空氣聲音是由物體振動產生的,這種振動引起周圍空氣壓強的振蕩,從而使耳朵產生聽覺的印象。壓強的振蕩,從而使耳朵產生聽覺的印象。聲音的種類繁多,人的語音是最重要的聲音。此聲音的種類繁多,人的語音是最重要的聲音。此外,還有動物、樂器等發(fā)出的聲音,風聲、

2、雨聲、外,還有動物、樂器等發(fā)出的聲音,風聲、雨聲、雷聲等自然聲音,以及機器合成產生的聲音等。雷聲等自然聲音,以及機器合成產生的聲音等。 聲音在視頻監(jiān)控中的應用幅值t一個周期+空氣壓強0 人耳能識別的聲音頻率范圍大約在2020kHz,通常稱為音頻(audio)信號。 人耳能識別的聲音頻率范圍大約在2020kHz,通常稱為音頻(audio)信號。 其中 300HZ 3kHZ 為語音信號(speech) 圖2.1 空氣壓強振蕩的波形示意圖聲音在視頻監(jiān)控中的應用音頻濾波濾波器是一種選頻裝置,可以使信號中特定的頻率成分通過,而極大地衰減其它頻率成分。在測試裝置中,利用濾波器的這種選頻作用,可以濾除干擾噪

3、聲或進行頻譜分析。音頻濾波就是要濾除音頻范圍外的聲音信號,相對突出音頻信號,或者檢出或去除某段頻率的信號。常見的濾波器有高通,低通,帶通,帶阻。聲音在視頻監(jiān)控中的應用聲音在視頻監(jiān)控中的應用特定聲音的檢測和識別特定的聲音常見的有玻璃破碎聲,槍聲,尖叫聲等,下面以玻璃破碎聲為例介紹特定聲音的檢測和識別。聲音在視頻監(jiān)控中的應用檢測原理利用玻璃破碎的頻率特征( 10k15kHZ ),對高頻的玻璃破碎聲音進行有效檢測,而對10kHZ以下的聲音信號(如說話、走路聲)進行有效過濾,這樣當檢測到特定頻率的聲音強度超過閾值時,就可認為發(fā)生了玻璃破碎。聲音在視頻監(jiān)控中的應用檢測原理示意圖 生態(tài)環(huán)境聲音信號預處理訓

4、練樣本測試樣本特征提取特征提取高斯混合模型判決規(guī)則投票識別結果 訓練識別前端處理聲音在視頻監(jiān)控中的應用玻璃破碎的應用玻璃破碎可應用到銀行,博物館,商業(yè)等一系列場合,如果同時進行低頻的敲擊聲的檢測,針對性將更強,但玻璃破碎探測器要盡量靠近所要保護的玻璃玻璃破碎探測器要盡量靠近所要保護的玻璃,盡量遠離噪聲干擾源盡量遠離噪聲干擾源,如尖銳的金屬撞擊聲、鈴聲、,如尖銳的金屬撞擊聲、鈴聲、汽笛的嘯叫聲等,減少誤報警。汽笛的嘯叫聲等,減少誤報警。聲音在視頻監(jiān)控中的應用聲紋識別 聲紋識別屬于生物識別技術的一種,是一項根據語音波形中反映說話人生理和行為特征的語音參數,自動識別說話人身份的技術。與語音識別不同的

5、是,利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調說話人的個性;而的目的是識別出語音信號中的言語內容,并不考慮說話人是誰,它強調共性。 聲紋識別系統(tǒng)主要包括兩部分,即特征檢測和模式匹配。特征檢測的任務是選取唯一表現說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務是對訓練和識別時的特征模式做相似性匹配。聲音在視頻監(jiān)控中的應用聲紋識別應用前景 與其他生物識別技術,諸如指紋識別、掌形識別、虹膜識別等相比較,聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優(yōu)點外,還具有以下特性: 用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。 與其他生物識別技術,諸如指紋識別、掌形識別、

6、虹膜識別等相比較,聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優(yōu)點外,還具有以下特性:與其他生物識別技術,諸如指紋識別、掌形識別、虹膜識別等相比較,聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優(yōu)點外,還具有以下特性: 用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。 與其他生物識別技術,諸如指紋識別、掌形識別、虹膜識別等相比較,聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優(yōu)點外,還具有以下特性:與其他生物識別技術,諸如指紋識別、掌形識別、虹膜識別等相比較,聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優(yōu)點外,

7、還具有以下特性: 用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。 聲音在視頻監(jiān)控中的應用聲音定位人們經常借助聽覺來判定發(fā)音物體的位置。聲音定位在人和動物的日常生活中著重要意義。例如,當你獨自行走時,突然聽到一個響聲你會想到這個聲音什么意思,對你有無威脅,它來自何方等等。確定聲音的方向和距離需要比較來自兩耳信息,雖然你會很快作比判斷和反應,但聲音定位過程是聽覺系統(tǒng)復雜綜合的功能。聲音在視頻監(jiān)控中的應用聲音定位機理強度差強度差高頻的聲音刺激,由于它的波長較短,如果一個高頻聲波來自一側,頭部本身就構成聲音傳播的障礙物,使其到達對側耳中

8、的音強受到耗損,這樣在兩耳之間形成了強度差,導致神經元單位發(fā)放頻率的不對稱。一般成年人能準確定位2000-3000Hz的聲音。 聲音在視頻監(jiān)控中的應用聲音定位機理時間差時間差來自正前方的聲音同時到達雙耳,來自正側方的聲音到達近側耳朵的時間比遠側耳朵約600ms,介于兩者之間的聲音到達雙耳的時間差為0-600ms之間。到達的時間對有特征的、突然發(fā)生的聲源定位是很有用的。 此外還有音色差,相位差等。聲音在視頻監(jiān)控中的應用聲音與視頻的配合在視頻監(jiān)控中的應用在目前的視頻監(jiān)控中,基本以無聲和單聲道對講為主,聲音基本沒有用來作為監(jiān)控的特征加以應用。但聲音具有一系列獨有的特征,如不受白天晚上的影響,不容易遮

9、擋,具有方向性等等,結合其諸多優(yōu)點及特性,下面提出一些可行的聲音在視頻監(jiān)控中的解決方案。一個聲音通道,用一個傳聲器拾取聲音,用一個揚聲器進行放音的過程,稱之為單聲道。單聲道是指把來自不同方位的音頻信號混合后統(tǒng)一由錄音器材把它記錄下來,再由一只音箱進行重放聲音在視頻監(jiān)控中的應用方案1:帶聲音方向定位的智能球機具體實現:在球機上安置多個麥克風,對聲音的方向進行定位,當檢測到異常聲音時控制球機到相應位置,這樣一來,在一定程度上就可在第一時間看到異常聲音所處位置的實時視頻,為判定事態(tài)提供了多種信息。聲音與視頻的配合在視頻監(jiān)控中的應用聲音在視頻監(jiān)控中的應用方案2:聲音在智能視頻中的應用具體實現:目前的智能視頻分析中有廠家提出了打架行為檢測的概念,但普遍存在誤報和漏報的情況,如果在一定的環(huán)境中同時啟用聲音判別和視頻分析,準確率就會高很多。聲音與視頻的配合在視頻監(jiān)控中的應用聲音在視頻監(jiān)控中的應用聲音和視頻配合監(jiān)控的例子很多,目前已有研究機構提出“多傳感器立體監(jiān)控”的概念,并應用到一些重要場合。隨著成本的降低和芯片的集成度不斷提高,可以大膽推斷,類似設計的應用很快就會出現在市場中。聲音與視頻的配合在視頻監(jiān)控中的應用聲音在視頻監(jiān)控中的應

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論