《AI硬件與Pyhthon編程實(shí)踐》16語(yǔ)音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫(xiě)字字帖_第1頁(yè)
《AI硬件與Pyhthon編程實(shí)踐》16語(yǔ)音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫(xiě)字字帖_第2頁(yè)
《AI硬件與Pyhthon編程實(shí)踐》16語(yǔ)音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫(xiě)字字帖_第3頁(yè)
《AI硬件與Pyhthon編程實(shí)踐》16語(yǔ)音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫(xiě)字字帖_第4頁(yè)
《AI硬件與Pyhthon編程實(shí)踐》16語(yǔ)音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫(xiě)字字帖_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語(yǔ)音交互控制智能相機(jī)

設(shè)計(jì)綜合實(shí)踐人工智能開(kāi)源硬件與python編程實(shí)踐情境導(dǎo)入人們喜歡用手機(jī)自拍,留下紀(jì)念。市場(chǎng)上有專(zhuān)供自拍用的補(bǔ)光燈,給陰暗場(chǎng)景中的臉部補(bǔ)光。有些補(bǔ)光燈固定裝在手機(jī)上,也有補(bǔ)光燈發(fā)光亮度強(qiáng),手持獨(dú)立使用。自拍過(guò)程中既要注意表情取景,又要用手作觸摸實(shí)現(xiàn)拍照,指操起來(lái)不便,照片的質(zhì)量也難以保證。應(yīng)用語(yǔ)音識(shí)別技術(shù)有助于解決這一問(wèn)題,通過(guò)語(yǔ)音交互控制拍照過(guò)程,通過(guò)光線檢測(cè)、人臉檢測(cè)、笑臉檢測(cè)等技術(shù)有助于捕捉最美瞬間,拍出高質(zhì)量的照片。任務(wù)與目標(biāo)綜合應(yīng)用語(yǔ)音識(shí)別、圖像處理、計(jì)算機(jī)視覺(jué)技術(shù)的原理和方法解決生活中的實(shí)際問(wèn)題,設(shè)計(jì)語(yǔ)音交互的智能相機(jī)控制系統(tǒng);應(yīng)用人工智能開(kāi)源硬件設(shè)計(jì)綜合語(yǔ)音識(shí)別與計(jì)算機(jī)視覺(jué)技術(shù)的智能系統(tǒng);提升Python編程能力,利用人工智能開(kāi)源硬件和相關(guān)Python庫(kù)算法設(shè)計(jì)語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)功能;鞏固深化利用Python語(yǔ)言編程實(shí)現(xiàn)語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)應(yīng)用程序以及OpenAIEIDE編程工具編寫(xiě)、上傳、運(yùn)行、調(diào)試的方法;針對(duì)生活應(yīng)用場(chǎng)景,進(jìn)一步開(kāi)展創(chuàng)意設(shè)計(jì),設(shè)計(jì)具有實(shí)用價(jià)值的人機(jī)交互智能相機(jī)應(yīng)用系統(tǒng)。知識(shí)拓展:HMM語(yǔ)音識(shí)別系統(tǒng)框架

語(yǔ)音信號(hào)預(yù)處理與特征提取。梅爾刻度式倒頻譜參數(shù)考慮了人類(lèi)發(fā)聲與接收聲音的特性,具有更好的魯棒性。聲學(xué)模型與模式匹配。聲學(xué)模型通常是將獲取的語(yǔ)音特征使用訓(xùn)練算法進(jìn)行訓(xùn)練后產(chǎn)生。在識(shí)別時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。語(yǔ)言模型與語(yǔ)言處理。語(yǔ)言模型對(duì)中、大詞匯量的語(yǔ)音識(shí)別系統(tǒng)特別重要。當(dāng)分類(lèi)發(fā)生錯(cuò)誤時(shí)可以根據(jù)語(yǔ)言學(xué)模型、語(yǔ)法結(jié)構(gòu)、語(yǔ)義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過(guò)上下文結(jié)構(gòu)才能確定詞義。知識(shí)拓展:音識(shí)別應(yīng)用的分類(lèi)

特定人語(yǔ)音識(shí)別芯片是針對(duì)指定人的語(yǔ)音識(shí)別,其他人的話不識(shí)別,須先把使用者的語(yǔ)音參考樣本存入當(dāng)成比對(duì)的資料庫(kù),即特定人語(yǔ)音識(shí)別在使用前必須要進(jìn)行語(yǔ)音訓(xùn)練,一般按照機(jī)器提示訓(xùn)練幾遍語(yǔ)音詞條即可使用;非特定人語(yǔ)音識(shí)別是不用針對(duì)指定的人的識(shí)別技術(shù),不分年齡、性別,只要說(shuō)相同語(yǔ)言就可以,應(yīng)用模式是在產(chǎn)品定型前按照確定的十幾個(gè)語(yǔ)音交互詞條,采集200人左右的聲音樣本,經(jīng)過(guò)PC算法處理得到交互詞條的語(yǔ)音模型和特征數(shù)據(jù)庫(kù),然后燒錄到芯片上。知識(shí)拓展:嵌入式語(yǔ)音識(shí)別

嵌入式語(yǔ)音識(shí)別系統(tǒng)中,錄入的語(yǔ)音信號(hào)首先經(jīng)過(guò)預(yù)處理,包括語(yǔ)音信號(hào)的采樣、反混疊濾波、語(yǔ)音增強(qiáng),接下來(lái)是特征提取,用以從語(yǔ)音信號(hào)波形中提取出能夠描述語(yǔ)音信號(hào)特征的參數(shù)。特征提取之后的處理分為兩個(gè)步驟:第一步是訓(xùn)練階段,構(gòu)建模型參數(shù)庫(kù),詞表中每個(gè)詞重復(fù)發(fā)音多遍進(jìn)行采樣,再經(jīng)特征提取和某種訓(xùn)練中得到。第二步是識(shí)別階段,按照一定的準(zhǔn)則求取待測(cè)語(yǔ)音特征參數(shù)和語(yǔ)音信息與模式庫(kù)中相應(yīng)模板之間的失真測(cè)度,最匹配的就是識(shí)別結(jié)果。2023/1/30知識(shí)拓展:DNN進(jìn)行語(yǔ)音數(shù)據(jù)訓(xùn)練

基于DNN方法去訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng)架構(gòu)的過(guò)程分為以下2步:從底往上的非監(jiān)督學(xué)習(xí),就是用無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行每一層的預(yù)訓(xùn)練(pre-training),而每一層的訓(xùn)練結(jié)果作為其高一層的輸入,這是與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比最大的區(qū)別,這個(gè)過(guò)程可看做是特征學(xué)習(xí)(featurelearning)的過(guò)程。從頂向下的監(jiān)督學(xué)習(xí),就是用有標(biāo)簽的數(shù)據(jù)調(diào)整所有層的權(quán)值和閾值,按照誤差反向傳播算法(backpropagation,BP)自頂向下傳輸,對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)(tune-fining)。知識(shí)拓展:利用DNN進(jìn)行語(yǔ)音特征提取深度自動(dòng)編碼器是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),其輸入和輸出具有相同的維度。由于它以在輸出層重構(gòu)出原始輸入作為目標(biāo),不需要額外的監(jiān)督信息,因而可以直接從海量未標(biāo)注原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)數(shù)據(jù)特征。知識(shí)拓展:利用DNN進(jìn)行聲學(xué)建模實(shí)際工作中,使用5層DNN模型替換GMM-HMM系統(tǒng)中的混合高斯模型(GMM),并以單音素狀態(tài)作為建模單元,取得了成功。與現(xiàn)有建模分類(lèi)器相比,DNN最主要的優(yōu)勢(shì)是加強(qiáng)了語(yǔ)音幀與幀之間的聯(lián)系。設(shè)計(jì)與實(shí)踐創(chuàng)意與總體設(shè)計(jì)語(yǔ)音識(shí)別庫(kù)的編程應(yīng)用語(yǔ)音識(shí)別、人臉檢測(cè)綜合程實(shí)踐自拍系統(tǒng)編程實(shí)現(xiàn)創(chuàng)意與總體設(shè)計(jì)

綜合應(yīng)用語(yǔ)音識(shí)別、圖像處理、計(jì)算機(jī)視覺(jué)技術(shù)的原理和方法,利用人工智能開(kāi)源硬件設(shè)計(jì)一套基于語(yǔ)音交互與智能控制的自拍相機(jī)原型系統(tǒng):編寫(xiě)語(yǔ)音識(shí)別程序模塊,實(shí)現(xiàn)對(duì)說(shuō)話指令的識(shí)別;編寫(xiě)人臉檢測(cè)程序模塊,實(shí)現(xiàn)人臉檢測(cè)功能,決定是否拍照;編寫(xiě)板上LED控制程序,實(shí)現(xiàn)拍照補(bǔ)光功能;編寫(xiě)提取和保存圖像幀程序,將當(dāng)前圖像幀保存成照片;語(yǔ)音交互與智能控制的自拍相機(jī)流程圖

啟動(dòng)視覺(jué)模塊啟動(dòng)語(yǔ)音識(shí)別模塊語(yǔ)音命令詞識(shí)別“拍照”指令人臉檢測(cè)笑臉檢測(cè)亮度檢測(cè)補(bǔ)光保存當(dāng)前圖像幀無(wú)線網(wǎng)絡(luò)發(fā)送圖像幀文件提示提示無(wú)無(wú)暗有有是亮有否語(yǔ)音識(shí)別庫(kù)編程方法ASR庫(kù)提供與語(yǔ)音識(shí)別相關(guān)的asr對(duì)象,pyb庫(kù)包括led、button、serial等對(duì)象,分別與板上集成的LED彩燈、按鍵、串口對(duì)應(yīng)。serial對(duì)象提供初始化set()、發(fā)送send()、接收receive()等方法。asr對(duì)象主要提供設(shè)置工作場(chǎng)景命令詞add_cmd()、啟動(dòng)識(shí)別過(guò)程run()、獲取識(shí)別結(jié)果get_res()等方法。語(yǔ)音識(shí)別過(guò)程

實(shí)現(xiàn)語(yǔ)音識(shí)別功能的流程是:初始化-->添加關(guān)鍵詞識(shí)別列表-->開(kāi)始識(shí)別-->等待識(shí)別結(jié)果。實(shí)現(xiàn)ASR類(lèi)導(dǎo)入及初始化、工作場(chǎng)景設(shè)置以及啟動(dòng)語(yǔ)音識(shí)別過(guò)程的Python程序代碼示例如下:#語(yǔ)音工作場(chǎng)景設(shè)置asr.add_cmd("qiezi",1) #添加關(guān)鍵詞“茄子”,作為拍照操作命令詞;asr.add_cmd("paizhao",1) #添加關(guān)鍵詞“拍照”,作為拍照操作命令詞;asr.run() #啟動(dòng)語(yǔ)音識(shí)別過(guò)程人臉檢測(cè)過(guò)程利用項(xiàng)目8中介紹的人臉檢測(cè)應(yīng)用方法,可以編寫(xiě)相關(guān)的人臉檢測(cè)Python代碼,供參考:#加載人臉檢測(cè)模型face_cascade=image.HaarCascade("frontalface",stages=25)#進(jìn)行人臉檢測(cè)objects=img.find_features(face_cascade,threshold=0.75,scale=1.35)a=0forrinobjects:

img.draw_rectangle(r)a=1 #檢測(cè)到人臉后進(jìn)行標(biāo)記補(bǔ)光功能設(shè)計(jì)設(shè)計(jì)語(yǔ)音交互的智能相機(jī)控制系統(tǒng)可以增加一個(gè)創(chuàng)意,利用板上的LED燈對(duì)人臉進(jìn)行補(bǔ)光。點(diǎn)亮LED燈,使之發(fā)出白色光的代碼如下:

led.red.on() #進(jìn)行補(bǔ)光

led.green.on()led.blue.on()拍照功能設(shè)計(jì)將攝像頭拍攝到的視頻圖像流,提取出其中一幀,保存圖像到板上Flash存儲(chǔ)中,存為一個(gè)文件,就完成了拍照功能的設(shè)計(jì)。利用snapshot().save方法可以實(shí)現(xiàn)這一概念,具體編程可以參考項(xiàng)目2里的程序設(shè)計(jì)。系統(tǒng)編程與實(shí)現(xiàn)不斷進(jìn)行人臉檢測(cè),一旦檢測(cè)到人臉,先綠燈提示,然后提取語(yǔ)音識(shí)別結(jié)果。如果發(fā)現(xiàn)拍照指令,就補(bǔ)光并保存當(dāng)前幀作為照片。如果當(dāng)前圖像幀中沒(méi)有人臉,就會(huì)顯示無(wú)人,提取語(yǔ)音識(shí)別的結(jié)果。如果發(fā)現(xiàn)當(dāng)前的圖像幀沒(méi)有保存成功,先去檢查板上存儲(chǔ)空間是否滿(mǎn)了,刪除以前存儲(chǔ)的圖像文件,再運(yùn)行程序。分析與思考OpenAIEIDE工具中不能直接動(dòng)態(tài)調(diào)試嵌入式Python程序,復(fù)雜些的Python程序有無(wú)調(diào)試方法?利用串口打印出的不同變量或狀

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論