工業(yè)機器人應(yīng)用技術(shù)(第三版)課件 6.2 人工智能技術(shù)_第1頁
工業(yè)機器人應(yīng)用技術(shù)(第三版)課件 6.2 人工智能技術(shù)_第2頁
工業(yè)機器人應(yīng)用技術(shù)(第三版)課件 6.2 人工智能技術(shù)_第3頁
工業(yè)機器人應(yīng)用技術(shù)(第三版)課件 6.2 人工智能技術(shù)_第4頁
工業(yè)機器人應(yīng)用技術(shù)(第三版)課件 6.2 人工智能技術(shù)_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六篇拓展篇——人工智能與智能機器人任務(wù)二人工智能技術(shù)第六篇拓展篇——人工智能與智能機器人1.了解語音識別技術(shù)2.了解機器人視覺技術(shù)3.了解深度學(xué)習(xí)6.2人工智能技術(shù)6.2.1語音識別技術(shù)與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。自動語音識別技術(shù)ASR(AutomaticSpeechRecognition)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預(yù)計,未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。語音識別的最大優(yōu)勢在于使得人機用戶界面更加自然和容易使用。6.2人工智能技術(shù)1.手機應(yīng)用語音輸入將語音實時識別為文字,適用于語音聊天、語音輸入、語音搜索、語音下單、語音指令、語音問答等多種場景。2.機器人對話通過語音識別實現(xiàn)人機對話。將語音對話實時識別為文字,實現(xiàn)自然流暢的人機對話。6.2人工智能技術(shù)3.語音內(nèi)容分析將音頻內(nèi)容識別為文字進行返回,從中提取關(guān)鍵信息,對內(nèi)容進行追蹤、處理及打標簽等操作。4.實時語音轉(zhuǎn)寫可將會議記錄、筆記、總結(jié)、音視頻直播內(nèi)容等音頻實時轉(zhuǎn)寫為文字,進行內(nèi)容記錄、實時展示。6.2人工智能技術(shù)任務(wù)實施使用Python實現(xiàn)以下語音識別功能:對著電腦說一段10S鐘內(nèi)的語言,進行錄音,并將聲音上傳到百度智能云進行識別,將識別結(jié)果返回。百度智能云語音識別開發(fā)的過程如圖6-15所示。6.2人工智能技術(shù)圖6-15百度智能云語音開發(fā)過程本任務(wù)需要用到的python模塊有:PyAudio(錄音接口)、wave(打開錄音文件并設(shè)置音頻參數(shù))、requests(GET/POST)。1.創(chuàng)建百度智能云語言應(yīng)用登錄百度智能云/,注冊賬號,如有賬號可以直接登錄,在應(yīng)用列表中,創(chuàng)建一個語言技術(shù)的應(yīng)用。應(yīng)用的名稱自定義,可設(shè)為“語音識別”。6.2人工智能技術(shù)圖6-16登錄百度智能云圖6-17創(chuàng)建百度智能云語音技術(shù)應(yīng)用創(chuàng)建應(yīng)用完成后,獲取該應(yīng)用的APIkey和SecretKey6.2人工智能技術(shù)圖6-18應(yīng)用創(chuàng)建完成2.錄音功能實現(xiàn)百度智能云支持的語音格式包含pcm(不壓縮)、wav(不壓縮,pcm編碼)、amr(壓縮格式)。推薦使用pcm格式(采樣率16000,編碼:16bit位的單聲道),如使用其他格式百度智能云端會將非pcm格式,轉(zhuǎn)為pcm格式,因此使用wav、amr會有額外的轉(zhuǎn)換耗時。實現(xiàn)錄音功能的具體python代碼如下。6.2人工智能技術(shù)importwavefrompyaudioimportPyAudio,paInt16framerate=16000#采樣率num_samples=2000#采樣點channels=1#聲道sampwidth=2#采樣寬度2bytesFILEPATH='speech.wav'6.2人工智能技術(shù)defsave_wave_file(filepath,data):wf=wave.open(filepath,'wb')wf.setnchannels(channels)wf.setsampwidth(sampwidth)wf.setframerate(framerate)wf.writeframes(b''.join(data))6.2人工智能技術(shù)wf.close()#錄音defmy_record():pa=PyAudio()#打開一個新的音頻streamstream=pa.open(format=paInt16,channels=channels,rate=framerate,input=True,frames_per_buffer=num_samples)my_buf=[]#存放錄音數(shù)據(jù)6.2人工智能技術(shù)t=time.time()print('正在錄音...')whiletime.time()<t+9:#設(shè)置錄音時間(10秒)

#循環(huán)read,每次read2000framesstring_audio_data=stream.read(num_samples)my_buf.append(string_audio_data)print('錄音結(jié)束.')save_wave_file(FILEPATH,my_buf)stream.close()6.2人工智能技術(shù)3.獲取百度語音識別服務(wù)通過文檔組裝url獲取token,以JSON格式POST到百度語音識別服務(wù)器,獲得返回結(jié)果。具體代碼如下。importrequestsimportbase64#百度語音要求對本地語音二進制數(shù)據(jù)進行base64編碼#組裝url獲取token6.2人工智能技術(shù)base_url="/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s"APIKey="U6sTWixskuPvbBUSHtNnMCVL"SecretKey="Crv0kw*******R00****"HOST=base_url%(APIKey,SecretKey)defgetToken(host):res=requests.post(host)returnres.json()['access_token']6.2人工智能技術(shù)#傳入語音二進制數(shù)據(jù),token#dev_pid為百度語音識別提供的幾種語言選擇defspeech2text(speech_data,token,dev_pid=1537):FORMAT='wav'RATE='16000'CHANNEL=1CUID='********'SPEECH=base64.b64encode(speech_data).decode('utf-8')6.2人工智能技術(shù)data={'format':FORMAT,'rate':RATE,'channel':CHANNEL,'cuid':CUID,'len':len(speech_data),'speech':SPEECH,'token':token,'dev_pid':dev_pid }6.2人工智能技術(shù)url='/server_api'headers={'Content-Type':'application/json'}#r=requests.post(url,data=json.dumps(data),headers=headers)print('正在識別...')r=requests.post(url,json=data,headers=headers)Result=r.json()if'result'inResult:returnResult['result'][0]else:returnResult6.2人工智能技術(shù)完整程序,見ASR-demo.py,使用中文普通話錄音后返回文字如圖6-19如下。讀者可下載程序,在百度智能云創(chuàng)建應(yīng)用,修改程序中APIKey和SecretKey,運行程序后進行錄音并識別。6.2人工智能技術(shù)圖6-19語音識別結(jié)果6.2.2機器視覺技術(shù)機器視覺作為人工智能的一個分支既是機遇也是挑戰(zhàn),工業(yè)機器人賦予“慧眼”的機器視覺,大大提升了工業(yè)機器人效率。在智能制造過程中,機器視覺主要用計算機,來模擬人的視覺功能,也就是要把客觀事物的圖像信息提取、處理并理解,最終用于實際檢測、測量和控制。目前,日漸成熟的圖像識別技術(shù)已經(jīng)被應(yīng)用在各個行業(yè)各個領(lǐng)域,如網(wǎng)絡(luò)搜索、智能家居、電商購物、農(nóng)林業(yè)、金融、安防、醫(yī)療等。6.2人工智能技術(shù)在智能家居領(lǐng)域,可實現(xiàn)在門口安裝了攝像頭,當(dāng)有物體出現(xiàn)在攝像頭范圍內(nèi)的時候,攝像頭自動拍攝圖像進行識別,如果發(fā)現(xiàn)是可疑的人或物體,就可以及時報警給戶主。如果圖像和主人的面部匹配,則會主動為主人開門,如圖6-20所示。該技術(shù)也普遍應(yīng)用于安防系統(tǒng)。6.2人工智能技術(shù)圖6-20智能家居將圖像識別技術(shù)應(yīng)用到醫(yī)療領(lǐng)域,可以更精準更快速地分辨X光片、MRI和CT掃描圖片,上至診斷預(yù)防癌癥,下至加速發(fā)現(xiàn)治病救命的新藥。一個放射科醫(yī)生一生可能會看上萬張掃描圖像,但是,一臺計算機可能會看上千萬張,如圖6-21所示。6.2人工智能技術(shù)圖6-21機器人分析X光片機器視覺針對瑕疵檢測,也是人工智能的一大“場景”,是人工智能在工業(yè)場景的一大落地應(yīng)用。經(jīng)視覺準確分析定位后引導(dǎo)動作,避免了產(chǎn)品傳送中的偏差,增強了不同產(chǎn)品的生產(chǎn)適應(yīng)性,同時大幅提升產(chǎn)品的加工精度。此外,機器視覺還能檢測成品的精度,免除人工抽檢帶來的低效、誤差與漏檢。6.2人工智能技術(shù)圖6-22視覺分揀任務(wù)實施使用在線識圖搜索,上傳圖片至百度識圖搜索進行識別。1.準備好需要識別的圖片。準備好如圖6-23所示的機械手圖片。2.打開百度識圖搜索,如圖6-24所示。6.2人工智能技術(shù)圖6-23機械手圖片圖6-24百度識圖3.上傳圖片并識圖上傳機械手的圖片,根據(jù)該圖像特征匹配到“可能是越疆魔術(shù)師機械臂”,并提供相似圖片以供參考,如圖6-25所示。6.2人工智能技術(shù)圖6-25百度識圖結(jié)果6.2.3深度學(xué)習(xí)技術(shù)深度學(xué)習(xí)是機器學(xué)習(xí)的一種,而機器學(xué)習(xí)是實現(xiàn)人工智能的必經(jīng)路徑。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,含多個隱藏層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。研究深度學(xué)習(xí)的動機在于建立模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本等。6.2人工智能技術(shù)典型的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork)、DBN和堆棧自編碼網(wǎng)絡(luò)(stackedauto-encodernetwork)模型等。1.卷積神經(jīng)網(wǎng)絡(luò)模型在無監(jiān)督預(yù)訓(xùn)練出現(xiàn)之前,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)通常非常困難,而其中一個特例是卷積神經(jīng)網(wǎng)絡(luò)。6.2人工智能技術(shù)圖6-26卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)受視覺系統(tǒng)的結(jié)構(gòu)啟發(fā)而產(chǎn)生。第一個卷積神經(jīng)網(wǎng)絡(luò)計算模型是在Fukushima(D的神經(jīng)認知機中提出的,基于神經(jīng)元之間的局部連接和分層組織圖像轉(zhuǎn)換,將有相同參數(shù)的神經(jīng)元應(yīng)用于前一層神經(jīng)網(wǎng)絡(luò)的不同位置,得到一種平移不變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式。后來,LeCun等人在該思想的基礎(chǔ)上,用誤差梯度設(shè)計并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),在一些模式識別任務(wù)上得到優(yōu)越的性能。至今,基于卷積神經(jīng)網(wǎng)絡(luò)的模式識別系統(tǒng)是最好的實現(xiàn)系統(tǒng)之一,尤其在手寫體字符識別任務(wù)上表現(xiàn)出非凡的性能。6.2人工智能技術(shù)2.深度信任網(wǎng)絡(luò)模型DBN可以解釋為貝葉斯概率生成模型,由多層隨機隱變量組成,上面的兩層具有無向?qū)ΨQ連接,下面的層得到來自上一層的自頂向下的有向連接,最底層單元的狀態(tài)為可見輸入數(shù)據(jù)向量。DBN由若2F結(jié)構(gòu)單元堆棧組成,結(jié)構(gòu)單元通常為RBM(RestIlctedBoltzmannMachine,受限玻爾茲曼機)。堆棧中每個RBM單元的可視層神經(jīng)元數(shù)量等于前一RBM單元的隱層神經(jīng)元數(shù)量。根據(jù)深度學(xué)習(xí)機制,采用輸入樣例訓(xùn)練第一層RBM單元,并利用其輸出訓(xùn)練第二層RBM模型,將RBM模型進行堆棧通過增加層來改善模型性能。在無監(jiān)督預(yù)訓(xùn)練過程中,DBN編碼輸入到頂層RBM后,解碼頂層的狀態(tài)到最底層的單元,實現(xiàn)輸入的重構(gòu)。RBM作為DBN的結(jié)構(gòu)單元,與每一層DBN共享參數(shù)。6.2人工智能技術(shù)3.堆棧自編碼網(wǎng)絡(luò)模型堆棧自編碼網(wǎng)絡(luò)的結(jié)構(gòu)與DBN類似,由若干結(jié)構(gòu)單元堆棧組成,不同之處在于其結(jié)構(gòu)單元為自編碼模型(auto-en-coder)而不是RBM。自編碼模型是一個兩層的神經(jīng)網(wǎng)絡(luò),第一層稱為編碼層

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論