《AI硬件與Pyhthon編程實踐》16語音交互控制智能相機設計綜合實踐寫字字帖_第1頁
《AI硬件與Pyhthon編程實踐》16語音交互控制智能相機設計綜合實踐寫字字帖_第2頁
《AI硬件與Pyhthon編程實踐》16語音交互控制智能相機設計綜合實踐寫字字帖_第3頁
《AI硬件與Pyhthon編程實踐》16語音交互控制智能相機設計綜合實踐寫字字帖_第4頁
《AI硬件與Pyhthon編程實踐》16語音交互控制智能相機設計綜合實踐寫字字帖_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

語音交互控制智能相機

設計綜合實踐人工智能開源硬件與python編程實踐情境導入人們喜歡用手機自拍,留下紀念。市場上有專供自拍用的補光燈,給陰暗場景中的臉部補光。有些補光燈固定裝在手機上,也有補光燈發(fā)光亮度強,手持獨立使用。自拍過程中既要注意表情取景,又要用手作觸摸實現(xiàn)拍照,指操起來不便,照片的質(zhì)量也難以保證。應用語音識別技術有助于解決這一問題,通過語音交互控制拍照過程,通過光線檢測、人臉檢測、笑臉檢測等技術有助于捕捉最美瞬間,拍出高質(zhì)量的照片。任務與目標綜合應用語音識別、圖像處理、計算機視覺技術的原理和方法解決生活中的實際問題,設計語音交互的智能相機控制系統(tǒng);應用人工智能開源硬件設計綜合語音識別與計算機視覺技術的智能系統(tǒng);提升Python編程能力,利用人工智能開源硬件和相關Python庫算法設計語音識別、計算機視覺功能;鞏固深化利用Python語言編程實現(xiàn)語音識別、計算機視覺應用程序以及OpenAIEIDE編程工具編寫、上傳、運行、調(diào)試的方法;針對生活應用場景,進一步開展創(chuàng)意設計,設計具有實用價值的人機交互智能相機應用系統(tǒng)。知識拓展:HMM語音識別系統(tǒng)框架

語音信號預處理與特征提取。梅爾刻度式倒頻譜參數(shù)考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性。聲學模型與模式匹配。聲學模型通常是將獲取的語音特征使用訓練算法進行訓練后產(chǎn)生。在識別時將輸入的語音特征同聲學模型(模式)進行匹配與比較,得到最佳的識別結果。語言模型與語言處理。語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當分類發(fā)生錯誤時可以根據(jù)語言學模型、語法結構、語義學進行判斷糾正,特別是一些同音字則必須通過上下文結構才能確定詞義。知識拓展:音識別應用的分類

特定人語音識別芯片是針對指定人的語音識別,其他人的話不識別,須先把使用者的語音參考樣本存入當成比對的資料庫,即特定人語音識別在使用前必須要進行語音訓練,一般按照機器提示訓練幾遍語音詞條即可使用;非特定人語音識別是不用針對指定的人的識別技術,不分年齡、性別,只要說相同語言就可以,應用模式是在產(chǎn)品定型前按照確定的十幾個語音交互詞條,采集200人左右的聲音樣本,經(jīng)過PC算法處理得到交互詞條的語音模型和特征數(shù)據(jù)庫,然后燒錄到芯片上。知識拓展:嵌入式語音識別

嵌入式語音識別系統(tǒng)中,錄入的語音信號首先經(jīng)過預處理,包括語音信號的采樣、反混疊濾波、語音增強,接下來是特征提取,用以從語音信號波形中提取出能夠描述語音信號特征的參數(shù)。特征提取之后的處理分為兩個步驟:第一步是訓練階段,構建模型參數(shù)庫,詞表中每個詞重復發(fā)音多遍進行采樣,再經(jīng)特征提取和某種訓練中得到。第二步是識別階段,按照一定的準則求取待測語音特征參數(shù)和語音信息與模式庫中相應模板之間的失真測度,最匹配的就是識別結果。2023/1/30知識拓展:DNN進行語音數(shù)據(jù)訓練

基于DNN方法去訓練深度學習神經(jīng)網(wǎng)絡語音識別系統(tǒng)架構的過程分為以下2步:從底往上的非監(jiān)督學習,就是用無標簽數(shù)據(jù)進行每一層的預訓練(pre-training),而每一層的訓練結果作為其高一層的輸入,這是與傳統(tǒng)神經(jīng)網(wǎng)絡相比最大的區(qū)別,這個過程可看做是特征學習(featurelearning)的過程。從頂向下的監(jiān)督學習,就是用有標簽的數(shù)據(jù)調(diào)整所有層的權值和閾值,按照誤差反向傳播算法(backpropagation,BP)自頂向下傳輸,對網(wǎng)絡進行微調(diào)(tune-fining)。知識拓展:利用DNN進行語音特征提取深度自動編碼器是一種深度學習神經(jīng)網(wǎng)絡,其輸入和輸出具有相同的維度。由于它以在輸出層重構出原始輸入作為目標,不需要額外的監(jiān)督信息,因而可以直接從海量未標注原始數(shù)據(jù)中自動學習數(shù)據(jù)特征。知識拓展:利用DNN進行聲學建模實際工作中,使用5層DNN模型替換GMM-HMM系統(tǒng)中的混合高斯模型(GMM),并以單音素狀態(tài)作為建模單元,取得了成功。與現(xiàn)有建模分類器相比,DNN最主要的優(yōu)勢是加強了語音幀與幀之間的聯(lián)系。設計與實踐創(chuàng)意與總體設計語音識別庫的編程應用語音識別、人臉檢測綜合程實踐自拍系統(tǒng)編程實現(xiàn)創(chuàng)意與總體設計

綜合應用語音識別、圖像處理、計算機視覺技術的原理和方法,利用人工智能開源硬件設計一套基于語音交互與智能控制的自拍相機原型系統(tǒng):編寫語音識別程序模塊,實現(xiàn)對說話指令的識別;編寫人臉檢測程序模塊,實現(xiàn)人臉檢測功能,決定是否拍照;編寫板上LED控制程序,實現(xiàn)拍照補光功能;編寫提取和保存圖像幀程序,將當前圖像幀保存成照片;語音交互與智能控制的自拍相機流程圖

啟動視覺模塊啟動語音識別模塊語音命令詞識別“拍照”指令人臉檢測笑臉檢測亮度檢測補光保存當前圖像幀無線網(wǎng)絡發(fā)送圖像幀文件提示提示無無暗有有是亮有否語音識別庫編程方法ASR庫提供與語音識別相關的asr對象,pyb庫包括led、button、serial等對象,分別與板上集成的LED彩燈、按鍵、串口對應。serial對象提供初始化set()、發(fā)送send()、接收receive()等方法。asr對象主要提供設置工作場景命令詞add_cmd()、啟動識別過程run()、獲取識別結果get_res()等方法。語音識別過程

實現(xiàn)語音識別功能的流程是:初始化-->添加關鍵詞識別列表-->開始識別-->等待識別結果。實現(xiàn)ASR類導入及初始化、工作場景設置以及啟動語音識別過程的Python程序代碼示例如下:#語音工作場景設置asr.add_cmd("qiezi",1) #添加關鍵詞“茄子”,作為拍照操作命令詞;asr.add_cmd("paizhao",1) #添加關鍵詞“拍照”,作為拍照操作命令詞;asr.run() #啟動語音識別過程人臉檢測過程利用項目8中介紹的人臉檢測應用方法,可以編寫相關的人臉檢測Python代碼,供參考:#加載人臉檢測模型face_cascade=image.HaarCascade("frontalface",stages=25)#進行人臉檢測objects=img.find_features(face_cascade,threshold=0.75,scale=1.35)a=0forrinobjects:

img.draw_rectangle(r)a=1 #檢測到人臉后進行標記補光功能設計設計語音交互的智能相機控制系統(tǒng)可以增加一個創(chuàng)意,利用板上的LED燈對人臉進行補光。點亮LED燈,使之發(fā)出白色光的代碼如下:

led.red.on() #進行補光

led.green.on()led.blue.on()拍照功能設計將攝像頭拍攝到的視頻圖像流,提取出其中一幀,保存圖像到板上Flash存儲中,存為一個文件,就完成了拍照功能的設計。利用snapshot().save方法可以實現(xiàn)這一概念,具體編程可以參考項目2里的程序設計。系統(tǒng)編程與實現(xiàn)不斷進行人臉檢測,一旦檢測到人臉,先綠燈提示,然后提取語音識別結果。如果發(fā)現(xiàn)拍照指令,就補光并保存當前幀作為照片。如果當前圖像幀中沒有人臉,就會顯示無人,提取語音識別的結果。如果發(fā)現(xiàn)當前的圖像幀沒有保存成功,先去檢查板上存儲空間是否滿了,刪除以前存儲的圖像文件,再運行程序。分析與思考OpenAIEIDE工具中不能直接動態(tài)調(diào)試嵌入式Python程序,復雜些的Python程序有無調(diào)試方法?利用串口打印出的不同變量或狀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論