大數(shù)據(jù)管理與應(yīng)用概論 課件 6.5 基于音頻大數(shù)據(jù)的管理決策_(dá)第1頁
大數(shù)據(jù)管理與應(yīng)用概論 課件 6.5 基于音頻大數(shù)據(jù)的管理決策_(dá)第2頁
大數(shù)據(jù)管理與應(yīng)用概論 課件 6.5 基于音頻大數(shù)據(jù)的管理決策_(dá)第3頁
大數(shù)據(jù)管理與應(yīng)用概論 課件 6.5 基于音頻大數(shù)據(jù)的管理決策_(dá)第4頁
大數(shù)據(jù)管理與應(yīng)用概論 課件 6.5 基于音頻大數(shù)據(jù)的管理決策_(dá)第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

6.5基于音頻大數(shù)據(jù)的管理決策音頻大數(shù)據(jù)處理技術(shù)音頻大數(shù)據(jù)是指由大量音頻數(shù)據(jù)組成的數(shù)據(jù)集合。這些音頻數(shù)據(jù)可以來自各種渠道,例如音樂網(wǎng)站、語音助手、電話錄音等等。由于音頻數(shù)據(jù)具有大規(guī)模、高維度、非結(jié)構(gòu)化等特點(diǎn),因此對音頻大數(shù)據(jù)的處理需要使用到一些音頻分析、語音識別等技術(shù),以從中提取有用的信息。音頻大數(shù)據(jù)處理技術(shù)語音識別技術(shù)語音合成技術(shù)語音增強(qiáng)技術(shù)音頻大數(shù)據(jù)處理技術(shù)語音識別技術(shù)語音識別是指將語音片段輸入轉(zhuǎn)化為文本輸出的過程。聲音本質(zhì)上是一種波,這種波可作為一種信號來處理,所以語音識別的輸入是一段隨時間播放的信號序列,而輸出是一段文本序列。語音識別系統(tǒng)模塊一個完整的語音識別系統(tǒng)通常包括信號處理和特征提取、聲學(xué)模型、語音模型和解碼搜索這四個模塊,如右圖所示。音頻大數(shù)據(jù)處理技術(shù)語音識別技術(shù)信號處理和特征提取可以視作音頻數(shù)據(jù)的預(yù)處理部分,即通過消除噪聲和信道增強(qiáng)等預(yù)處理技術(shù),將信號從時間域轉(zhuǎn)化到頻率域,為聲學(xué)模型提供有效的特征向量。然后聲學(xué)模型將預(yù)處理部分得到的特征向量轉(zhuǎn)化為聲學(xué)模型得分,與此同時,語言模型會得到一個語言模型得分。最后解碼搜索階段會綜合聲學(xué)模型得分和語言模型得分,將得分最高的詞序列作為最后的識別結(jié)構(gòu)。音頻大數(shù)據(jù)處理技術(shù)語音識別技術(shù)語音識別相較于一般自然語言處理任務(wù)的特殊之處就在于聲學(xué)模型,所以語音識別的關(guān)鍵也就是信號與處理技術(shù)和聲學(xué)模型部分。在深度學(xué)習(xí)興起前,聲學(xué)模型已有非常成熟的模型體系,如高斯混合模型和隱馬爾可夫模型等,并可成功應(yīng)用到實(shí)際系統(tǒng)中。深度學(xué)習(xí)興起后,循環(huán)神經(jīng)網(wǎng)絡(luò)、LSTM、編碼-解碼框架、注意力機(jī)制等基于深度學(xué)習(xí)的聲學(xué)模型將此前各項(xiàng)基于傳統(tǒng)聲學(xué)模型的識別案例錯誤率降低了一個層次。音頻大數(shù)據(jù)處理技術(shù)語音合成技術(shù)-波形編碼合成,直接把要合成的語音發(fā)音波形進(jìn)行存儲,或進(jìn)行波形編碼壓縮后存儲,合成重放時再解碼組合輸出。-波形編輯合成,通過選取音庫中采取自然語言的合成單元的波形,對這些波形進(jìn)行編輯拼接后輸出。比較復(fù)雜的方法。為了節(jié)約存儲容量,先對語音信號進(jìn)行分析,提取出語音的參數(shù),以壓縮存儲量,然后由人工控制這些參數(shù)的合成。通過語音學(xué)規(guī)則產(chǎn)生語音。合成的詞匯表不是事先確定,系統(tǒng)存儲最小語音單位的聲學(xué)參數(shù),以及由音素、音節(jié)、音調(diào)等韻律規(guī)則。給出待合成的文本數(shù)據(jù)后,合成系統(tǒng)利用規(guī)則自動地將它們轉(zhuǎn)換成連續(xù)的語音聲波。波形合成法參數(shù)合成法規(guī)則合成法語音合成是用機(jī)器來模擬發(fā)出人的自然語言音頻大數(shù)據(jù)處理技術(shù)語音合成技術(shù)深度語言合成策略。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)興起后,基于深度學(xué)習(xí)的語言合成技術(shù)也逐漸成為語音合成領(lǐng)域的核心技術(shù),主流語音合成方法有WaveNet(原始音頻生成模型)、Tacotron(端到端的語音合成模型)、DeepVoice1/2/3(實(shí)時神經(jīng)文本語音轉(zhuǎn)換模型、多說話人神經(jīng)文本語音轉(zhuǎn)換模型、帶有卷積序列學(xué)習(xí)的尺度文本語音轉(zhuǎn)換模型)、ParallelWaveNet(快速高保真語音合成)等。音頻大數(shù)據(jù)處理技術(shù)語音增強(qiáng)技術(shù)指從帶噪語音信號中提取盡可能純凈的原始語音信號,提高語音信號的質(zhì)量、清晰度和可懂度。語音增強(qiáng)方法可按其運(yùn)用方法的不同分成數(shù)字信號處理方法和基于機(jī)器學(xué)習(xí)的方法。其中,數(shù)字信號處理的語音增強(qiáng)方法是主流方法,已有多年發(fā)展歷史,是目前工程界進(jìn)行語音降噪的主要思路。語音增強(qiáng)方法分類音頻大數(shù)據(jù)處理技術(shù)語音增強(qiáng)技術(shù)單通道語音增強(qiáng)方法麥克風(fēng)陣列的語音增強(qiáng)方法基于機(jī)器學(xué)習(xí)的語音增強(qiáng)方法對數(shù)字信號處理的知識運(yùn)用較多,時域和頻域的方法都有,以頻域處理為主,其中基于短時譜估計的語音增強(qiáng)方法是目前應(yīng)用最為廣泛的語音增強(qiáng)方法。由于利用了更多的麥克風(fēng),考慮了信號的空間信息,因此在抑制特定方向的干擾、進(jìn)行語音分離等方面,比單通道的語音增強(qiáng)更有優(yōu)勢。麥克風(fēng)陣列的語音增強(qiáng)方法目前在智能音箱、機(jī)器人等領(lǐng)域應(yīng)用較多?;谏疃壬窠?jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法可利用深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)強(qiáng)大的非線性映射能力,訓(xùn)練出一個非線性模型進(jìn)行語音增強(qiáng)。在實(shí)踐中,華為手機(jī)已成功地將該技術(shù)應(yīng)用到復(fù)雜聲學(xué)環(huán)境中的語音通話中,開辟了將深度學(xué)習(xí)應(yīng)用于語音增強(qiáng)的先河?;谝纛l大數(shù)據(jù)的管理決策語音識別技術(shù)在軍事斗爭領(lǐng)域有著極為重要的應(yīng)用價值。目前,語音識別技術(shù)已在軍事指揮和控制自動化方面得以應(yīng)用。比如,將語音識別技術(shù)應(yīng)用于航空飛行控制管理決策,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān)。飛行員利用語音輸人來代替?zhèn)鹘y(tǒng)的手動操作和控制各種開關(guān)。軍事應(yīng)用對語音識別系統(tǒng)的識別精度、響應(yīng)時間、惡劣環(huán)境下的頑健性都提出了更高的要求。基于音頻大數(shù)據(jù)的管理決策語音合成技術(shù)在教育領(lǐng)域里有著極其廣闊的應(yīng)用空間。在教育領(lǐng)域,尤其是語言教育,模仿與交互是必不可少的鍛煉方式。語音合成技術(shù)通過合成足夠標(biāo)準(zhǔn)和自然的語音,大大增加有聲教育素材,用于語言學(xué)習(xí)中的發(fā)音示例,有效緩解口語學(xué)習(xí)中教師發(fā)音水平參差不齊、教師資源嚴(yán)重不足的問題?;谝纛l大數(shù)據(jù)的管理決策語音增強(qiáng)技術(shù)在醫(yī)療保健領(lǐng)域也有重要的應(yīng)用價值。聲音是人類獲取外界信息最為便捷可靠的方法之一,聽力損失患者由于自身聽覺系統(tǒng)存在缺陷或遭到損傷,所能獲取到的語音信息十分有限,因此需要憑借助聽器等醫(yī)療器械來彌補(bǔ)其聽覺系統(tǒng)上的缺失。語音增強(qiáng)技術(shù)可使得數(shù)字助聽器在多噪聲源等復(fù)雜聲學(xué)環(huán)境下依然具有良好空間分辨率和抗干擾能力,增強(qiáng)語音質(zhì)量,提升用戶體驗(yàn)。案例分析滾動軸承作為各類旋轉(zhuǎn)機(jī)械中最常用的通用零部件之一,也是旋轉(zhuǎn)機(jī)械易損件之一。滾動軸承的主要故障按其產(chǎn)生的部位可分為四類:內(nèi)圈故障、外圈故障、滾動體故障及保持架故障。軸承音頻數(shù)據(jù)包含其運(yùn)行狀態(tài)的重要信息,通過分析這些信息就能對軸承故障進(jìn)行有效診斷,而且音頻數(shù)據(jù)能夠非接觸式采集,具有使用方便、成本低廉等優(yōu)點(diǎn)。運(yùn)用音頻數(shù)據(jù)進(jìn)行滾動軸承故障診斷具有重要和實(shí)際的應(yīng)用價值和意義。案例分析理論建模音頻數(shù)據(jù)的特征提取在故障軸承診斷中具有舉足輕重的作用。本部分選用的特征參數(shù)為線性預(yù)測倒譜系數(shù)(LinerPredicitionCepstrumCoefficients,LPCC)。LPCC提取的主要思想是利用音頻數(shù)據(jù)采樣點(diǎn)之間的相關(guān)性,針對一個音頻數(shù)據(jù)抽樣,用過去若干個音頻抽樣或者它們的線性組合來逼近。通過使實(shí)際的音頻數(shù)據(jù)抽樣值與線性預(yù)測抽樣值的均方誤差達(dá)到最小,確定出唯一的一組線性預(yù)測系數(shù)。案例分析理論建模步驟1:將預(yù)處理后的分析幀進(jìn)行復(fù)倒譜計算,提取LPC步驟2:用LPC推導(dǎo)出LPCC特征參數(shù)。p為LPC階數(shù),m為LPCC階數(shù)根據(jù)神經(jīng)網(wǎng)絡(luò)中BP神經(jīng)網(wǎng)絡(luò)模型高度非線性、并行處理機(jī)制、信息的分布存儲性、自學(xué)習(xí)性及容錯性等特點(diǎn),基于提取的特征參數(shù)LPCC,運(yùn)用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)基于音頻數(shù)據(jù)的滾動軸承故障診斷。案例分析實(shí)際應(yīng)用對于各類軸承運(yùn)行狀態(tài),內(nèi)圈異音、外圈異音、保持架異音、滾動體異音及正常音分別取LPCC特征參數(shù)各100組作為樣本訓(xùn)練模型,各類故障數(shù)據(jù)與正常數(shù)據(jù)中再分別取100組不同于樣本相應(yīng)特征參數(shù)作為測試數(shù)據(jù),以檢驗(yàn)參數(shù)的診斷效果。對內(nèi)圈故障、外圈故障、滾動體故障、保持架故障以及正常狀態(tài)等五種類型的數(shù)據(jù)通過Matlab仿真系統(tǒng)進(jìn)行滾動軸承故障診斷實(shí)驗(yàn)。案例分析實(shí)際應(yīng)用首先使用LPCC特征參數(shù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,12個輸入節(jié)點(diǎn)時,單隱層節(jié)點(diǎn)數(shù)取27網(wǎng)絡(luò)可達(dá)到最佳性能。因此BP網(wǎng)絡(luò)設(shè)置1個隱層,輸入層12個節(jié)點(diǎn),隱層27個節(jié)點(diǎn),輸出為5個節(jié)點(diǎn)。學(xué)習(xí)率初始值設(shè)為0.5,誤差值設(shè)定為0.0001。基于LPCC特征參數(shù)的網(wǎng)絡(luò)模型的診斷結(jié)果如下表所示。故障類型診斷數(shù)據(jù)正確率內(nèi)圈外

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論