機(jī)器人感知智能 課件 第5、6章 機(jī)器人聽覺感知、機(jī)器人感知系統(tǒng)智能化_第1頁
機(jī)器人感知智能 課件 第5、6章 機(jī)器人聽覺感知、機(jī)器人感知系統(tǒng)智能化_第2頁
機(jī)器人感知智能 課件 第5、6章 機(jī)器人聽覺感知、機(jī)器人感知系統(tǒng)智能化_第3頁
機(jī)器人感知智能 課件 第5、6章 機(jī)器人聽覺感知、機(jī)器人感知系統(tǒng)智能化_第4頁
機(jī)器人感知智能 課件 第5、6章 機(jī)器人聽覺感知、機(jī)器人感知系統(tǒng)智能化_第5頁
已閱讀5頁,還剩89頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

機(jī)器人感知智能第五章機(jī)器人聽覺感知聲音是一種物理波動現(xiàn)象,即聲源振動或氣動發(fā)聲所產(chǎn)生的聲波。聲波通過空氣、固體、液體等介質(zhì)傳播,便能被人或動物的聽覺器官所感知。聲波具有一般波的各種特性,包括反射、折射和衍射等。聲音還是一種心理感受,不僅與人的生理構(gòu)造和聲音的物理性質(zhì)有關(guān),還受到環(huán)境和背景的影響。圖5.1聲音的分類關(guān)系圖5.1.1人類聽覺模型一、聲音的定義5.1機(jī)器人聽覺概述純音和復(fù)合音都是周期性聲音,波形具有一定的重復(fù)性,具有明顯的音高。純音是只具有單一頻率的正弦波,通常只能由音叉、電子器件或合成器產(chǎn)生,在自然環(huán)境下一般不會發(fā)生。日常生活和自然界中聽到的聲音大多是復(fù)合音,由許多參數(shù)不同的正弦波分量疊加而成。純音和復(fù)合音之間可以互相合成與分解。從信號的角度——聲音可分為純音、復(fù)合音和噪聲。從聲音特性的角度——聲音可劃分為語音、音樂和一般音頻。語音信號屬于復(fù)合音,其基本要素是音高、強(qiáng)度、音長、音色等。音樂是人類創(chuàng)造的復(fù)雜的藝術(shù)形式,組成成分是上述的各種樂音,包括歌聲、各種管弦和彈撥類樂器發(fā)出的復(fù)合音、少量來自環(huán)境聲的復(fù)合音以及一些來自打擊樂器的噪樂音。除了人類創(chuàng)造的語音和音樂,在自然界和日常生活中,還存在著其他數(shù)量巨大、種類繁多的聲音,統(tǒng)稱為一般音頻或環(huán)境聲。5.1.1人類聽覺模型二、人類聽覺中樞外耳包括耳翼和外耳道兩個部分。從外耳道發(fā)出的聲音在中頻區(qū)域與外耳產(chǎn)生共鳴。外耳道的最后部分是一種稱為鼓膜的薄膜。中耳包括鼓膜和內(nèi)耳層,內(nèi)層有三個聽小骨,即錐骨、砧骨和鐙骨,它們彼此相連。聲波經(jīng)外耳道進(jìn)入后,會引起鼓膜的震動,三個與鼓膜連接的聽骨會因?yàn)槁曇舻恼饎佣a(chǎn)生震動。內(nèi)耳是人類聽覺的一個主要器官,在內(nèi)耳有一個重要的螺旋狀環(huán)形通路,稱為耳蝸。耳蝸是主要的聽覺器官,它是由骨頭組成,外形像蝸牛,里面充滿了高電阻的淋巴。當(dāng)聲音傳入耳內(nèi)時,由外耳、中耳、內(nèi)耳分別負(fù)責(zé),共同發(fā)出“感覺”訊息給大腦。一般而言,聲源與媒介間的時序差異和聲源間的強(qiáng)度差異,可以幫助人們精確地確定聲源的方位。5.1.1人類聽覺模型三、人類聽覺中樞的工作方式機(jī)器人聽覺傳感器的總體思想:模仿人的聽覺中樞,完成語音信號的信息提取和聲源定位。外耳鼓膜接收外界聲音,鼓膜產(chǎn)生震動,中耳將這種震動放大、壓縮和限幅,并抑制噪聲。內(nèi)耳的主要功能是對不同聲音進(jìn)行分析。纖維將基底膜接受聲音時產(chǎn)生的震動變成電信號的平均值時,對應(yīng)的繼電器接通。位于耳蝸底部的基底膜使得耳蝸帶有相異的電諧振以及機(jī)械諧振效應(yīng),如果接收到的聲音信號中含有不同頻率段,那么在基底膜的不同位置會產(chǎn)生由于行波差異導(dǎo)致的某個頻率段的最大峰值。重合神經(jīng)元主要負(fù)責(zé)完成突觸和細(xì)胞體的響應(yīng),在整個聽覺中樞系統(tǒng)中完成對語音信號的空間方位信息提取與整合。5.1.1人類聽覺模型(一)聲源目標(biāo)的實(shí)時定位:在許多應(yīng)用場景下機(jī)器人是需要實(shí)時與人進(jìn)行溝通的,目標(biāo)定位的實(shí)時性是機(jī)器人定位應(yīng)用的關(guān)鍵問題,如何進(jìn)一步提高算法的精度和速度是下一步研究的主要內(nèi)容之一。(二)多語音識別:很多時候機(jī)器人實(shí)際工作環(huán)境不可能是單聲源的,如何在多聲源情況下服務(wù)機(jī)器人準(zhǔn)確辨識、分離、判斷任務(wù),是人機(jī)互動的前提之一。(三)針對運(yùn)動聲源實(shí)現(xiàn)跟蹤定位:機(jī)器人大多需要不停移動或者被服務(wù)對象是運(yùn)動的,如何針對運(yùn)動的聲源進(jìn)行定位、追蹤,同樣是服務(wù)機(jī)器人進(jìn)行聲源定位的研究內(nèi)容之一。(四)智能、友好的交互方式:機(jī)器人可以透明地、主動與人交互,而人處于被動的方式。因此,服務(wù)機(jī)器人目標(biāo)聲源定位技術(shù)一定程度上受到相關(guān)技術(shù)的限制,例如聲音的分離、檢測以及識別等。一、聽覺感知應(yīng)用5.1.2機(jī)器人聽覺感知二、機(jī)器人聽覺在應(yīng)用中需要解決的問題音頻時頻表示:包括音頻本身的表示,如信號或符號、單聲道或雙聲道、模擬或數(shù)字、聲波樣本、壓縮算法的參數(shù)等;音頻信號的各種時頻表示,如短時傅里葉變換、小波變換、小波包變換、連續(xù)小波變換、常數(shù)Q變換、S變換、希爾伯特-黃變換、離散余弦變換等;音頻信號的建模表示由于種類繁多,又通常包含多個聲源,無法像語音信號那樣被有效地表示成某個特定的模型,如源濾波器模型,通常使用濾波器組或正弦波模型來獲取并捕捉多個聲音參數(shù)。特征提?。阂纛l特征是對音頻內(nèi)容的緊致反映,用來刻畫音頻信號的特定方面,有時域特征、頻域譜特征、T-F特征、統(tǒng)計特征、感知特征、中層特征、高層特征等數(shù)十種。典型的時域特征如過零率、能量,頻域譜特征如譜質(zhì)心、譜通量,T-F特征如基于頻譜圖的Zernike矩、基于頻譜圖的描述子,統(tǒng)計特征如峰度、均值,感知特征如Mel頻率倒譜系數(shù)、線性預(yù)測倒譜系數(shù),中層特征如半音類,高層特征如旋律、節(jié)奏、頻率顫音等。5.1.2機(jī)器人聽覺感知聲音相似性:兩段音頻之間或者一段音頻內(nèi)部各子序列之間的相似性一般通過計算音頻特征之間的各種距離來度量。距離越小,相似度越高。在某些時域信息很重要的場合,通常使用動態(tài)時間規(guī)整來計算相似度,也可通過機(jī)器學(xué)習(xí)方法進(jìn)行音頻相似性計算。聲源分離:與通常只有一個聲源的語音信號不同,現(xiàn)實(shí)聲音場景中的環(huán)境聲及音樂的一個基本特性就是包含多個同時發(fā)聲的聲源,因此聲源分離問題成為一個極其重要的技術(shù)難點(diǎn)。音樂中的各種樂器及歌聲按照旋律、和聲及節(jié)奏耦合起來,對其進(jìn)行分離比分離環(huán)境聲中各種基本不相關(guān)的聲源要更加困難,至今沒有方法能很好地解決這個問題。多模態(tài)分析:人類對世界的感知都是結(jié)合各個信息源綜合得到的。因此,對數(shù)字音頻和音樂進(jìn)行內(nèi)容分析理解時,理想情況下也需要結(jié)合文本、視頻、圖像等多種媒體進(jìn)行多模態(tài)的跨媒體研究。二、機(jī)器人聽覺在應(yīng)用中需要解決的問題5.1.2機(jī)器人聽覺感知5.2.1麥克風(fēng)原理:電磁感應(yīng)原理。當(dāng)發(fā)射聲波后,膜片產(chǎn)生振動,膜片內(nèi)部纏繞的線圈(又稱音圈)也隨之振動。線圈纏繞在磁鐵上,在磁鐵產(chǎn)生的磁場內(nèi)發(fā)生振動,振動導(dǎo)致電流產(chǎn)生,輸出電信號。當(dāng)話筒采集到的聲音時,在音圈內(nèi)產(chǎn)生的電流的幅度和方向也會隨之改變,獲取到的聲音信號決定了感應(yīng)電流變化的大小。優(yōu)點(diǎn):結(jié)構(gòu)簡單、穩(wěn)定性好、自身噪音小、容易操作、實(shí)用性好、成本低。缺點(diǎn):靈敏度低、頻率范圍窄。結(jié)構(gòu):電容式麥克風(fēng)內(nèi)包含三部分,即振膜、金屬極板和負(fù)載電阻。原理:內(nèi)部含有兩個導(dǎo)電膜片,當(dāng)振膜受到聲波振動時,導(dǎo)電膜片之間的電容大小產(chǎn)生變化,導(dǎo)致整個電路中的電流隨之變化。電流的變化導(dǎo)致負(fù)載電阻上產(chǎn)生相對應(yīng)的電壓,將接收到的聲音信號就變成電信號。優(yōu)點(diǎn):具有平坦的頻率響應(yīng)。對于語音信號的識別,語音頻率范圍內(nèi)靈敏度統(tǒng)一,有利于單通道語音識別處理。缺點(diǎn):靈敏度不足、識別距離有限、功耗大、大放大電路不穩(wěn)定等。圖5.6動圈式麥克風(fēng)結(jié)構(gòu)示意圖一、動圈式麥克風(fēng)二、電容式麥克風(fēng)5.2聲音傳感器毫米級駐極體麥克風(fēng)具有極低的雜散電容、自偏置、可大規(guī)模生產(chǎn)、可陣列、可與片上電子器件集成、結(jié)構(gòu)簡單且在普通環(huán)境中隨時間推移極其穩(wěn)定等特點(diǎn)。在聲控電路、錄音機(jī)、無線話筒等方面廣泛應(yīng)用,在其生產(chǎn)高峰時每年產(chǎn)量超過10億個。由于出色的電荷存儲氟碳聚合物的特性,幾乎所有商用非硅駐極體麥克風(fēng)使用碳氟化合物駐極體,例如聚四氟乙烯,且考慮到輸入輸出阻抗問題,駐極體電容式話筒在工作時需要直流工作電壓。圖5.7駐極體麥克風(fēng)優(yōu)點(diǎn):高可靠性、高穩(wěn)定性、高一致性、低不良率和低返修率等優(yōu)點(diǎn)。圖5.11MEMS傳感器結(jié)構(gòu)示意圖與傳感器實(shí)物圖片(一)駐極體麥克風(fēng)(二)MEMS電容傳感器5.2.1麥克風(fēng)壓電式麥克風(fēng)是用晶體或陶瓷(欽酸鋇等材料)作為變換元件,利用壓電原理將機(jī)械振動從聲波信號轉(zhuǎn)換為電信號。在壓電式麥克風(fēng)中,常用用來制造振動隔膜的壓電材料是氮化鋁和氧化鋅。壓電式麥克風(fēng)的優(yōu)點(diǎn)是靈敏度高、體積小。壓電效應(yīng)是通過變形來產(chǎn)生電荷,除了可以作為聲音傳感元件,壓電效應(yīng)所產(chǎn)生的電信號還可用于感知運(yùn)動引起的物理或化學(xué)效應(yīng)。圖5.12柔性壓電式麥克風(fēng)的工作流程示意圖

電容式壓阻式電磁式壓電式檢測信號電容電壓電流電壓外部供電需要需要不需要不需要開路靈敏度低低低高頻率響應(yīng)平坦尖峰尖峰聲音頻帶可調(diào)表5.1不同聲傳感器的性能對比三、壓電式麥克風(fēng)5.2.1麥克風(fēng)

圖5.14幾款超聲波傳感器芯片:(a)MaxBotixInc.(MB1414-000);(b)MaxBotixInc.(MB1443-000);(c)TDKInvenSense(MOD_CH101-03-01).超聲波是一種具有很短的波長(在空氣中不到2厘米)的機(jī)械波,它必須通過媒介來傳遞,在空中的傳播速度沒有聲音和次聲波快,在水里的傳播范圍要更大一些。超聲傳感器測距包括三個主要過程,即超聲波的產(chǎn)生、傳播和接收。5.2.2超聲波傳感器超聲波傳感器是一種應(yīng)用超聲波技術(shù)研制而成的傳感器,可以把各種能量和超聲波轉(zhuǎn)換成各種形態(tài)的裝置。超聲波傳感器的核心部分是一種能夠發(fā)出和接收聲波的壓電片。超聲波探頭可以分為直探頭、雙探頭、斜探頭等。超聲波沿著一條直線進(jìn)行傳播,其發(fā)射頻率越高,其反射性能越好。目前超聲傳感器的市場份額最大的是電聲型傳感器和水力型超聲波傳感器。一、工作原理電聲傳感器包括壓電、磁致伸縮、靜電三大類;液動超聲傳感器分為兩類,即氣態(tài)和液態(tài)。5.2.2超聲波傳感器超聲波接收器的工作原理:利用發(fā)電機(jī)中的壓電晶體共振來生成聲波。常見的壓電式超聲波傳感器內(nèi)部包括兩塊壓電晶圓和一塊喇叭或共振板,當(dāng)負(fù)載的脈沖信號與壓電晶圓的自振頻率一致時,它們就會發(fā)生共鳴,從而引起振蕩,因此形成了超聲波信號。反之,在不將脈沖信號導(dǎo)入壓電晶圓的兩端時,若在擴(kuò)音器或共振板上檢測到超聲波,則該揚(yáng)聲器或諧振板將引起振蕩,從而使壓電晶片產(chǎn)生振動,使物理機(jī)械能量轉(zhuǎn)化為電能,而壓電晶體在振動時,將會產(chǎn)生電信號,從而使壓電晶體的兩端產(chǎn)生電信號,這時,超聲波發(fā)生器就變成了超聲波接收器。接觸式超聲傳感器主要用于變壓器、組合電器等大型電力設(shè)備監(jiān)測;非接觸式超聲傳感器則主要用于電力電纜、開關(guān)柜等電力設(shè)備檢測。圖5.16超聲波往返時間檢測法測距原理示意圖圖5.15常見超聲波傳感器外觀及結(jié)構(gòu)示意圖5.2.2超聲波傳感器常規(guī)脈沖回波超聲波傳感器,其測距方法包括單程測距法和雙程測距法。單程測距法中傳感器信號發(fā)射端和接收端分離,信號接收端配置在待測目標(biāo)處,發(fā)射端發(fā)射信號,接收端接收信號,根據(jù)信號傳播速度和渡越時間的乘積,計算獲得距離。距離計算公式:l表示超聲傳感器信號的發(fā)送端到被測量對象的信號接收端的距離,c表示在空氣中超聲的傳播速率,?t表示從信號發(fā)送端到被測量對象的接收端的超聲傳輸?shù)膫鬏敃r間。圖5.19雙程測距法原理圖圖5.18單程測距法原理圖雙程測距法與單程測距法的不同之處在于超聲波傳感器信號發(fā)射端與信號接收端配置在一起。距離計算公式:5.2.2超聲波傳感器二、聲吶聲吶檢測利用了聲波在水下的傳播特性,發(fā)射聲波在水中傳播遇到物體發(fā)射的回波獲取目標(biāo)信息,完成水下目標(biāo)檢測。水下聲傳播可以用聲波P的齊次波動方程來描述:其中c為水中聲速,x,y,z為空間方向。通常用聲場信號強(qiáng)度的衰減來度量傳播損失的大小,某點(diǎn)與參考點(diǎn)距離之間的聲信號強(qiáng)度損失為傳播損失:聲波的強(qiáng)度隨傳播距離增大會呈現(xiàn)指數(shù)衰減的變化規(guī)律,另外聲波的振動頻率、環(huán)境溫度和介質(zhì)特性也會造成聲波強(qiáng)度的變化。一、仿生聽覺傳感器蝙蝠耳仿生麥克風(fēng):蝙蝠具有極其強(qiáng)大的檢波、抗噪、自適應(yīng)能力,是目前的聲吶系統(tǒng)、雷達(dá)系統(tǒng)所無法達(dá)到的。仿蠅耳麥克風(fēng):一種具有指向性、靈敏度高特性的微型傳聲器蚊子聽覺仿生系統(tǒng):蚊子的聽覺系統(tǒng)位于其頭部觸角上。當(dāng)有聲音傳過來時,觸角上的鞭毛會發(fā)生彎曲變形,拉動觸角中的神經(jīng)發(fā)生形變,使得神經(jīng)膜內(nèi)外電位差變化,從而將這種信號傳輸給蚊子大腦來感知聲音信號。二、柔性壓電聲學(xué)傳感器壓電膜的厚度和形狀是影響諧振頻率的關(guān)鍵因素,設(shè)計時應(yīng)該重點(diǎn)考慮;柔性壓電膜可以根據(jù)通道寬度產(chǎn)生多個頻率分量數(shù)據(jù)集,多通道信號可以獲得兩倍以上的語音信息進(jìn)行語音處理;具有基于充足數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練和從多通道輸入中選擇有用信號的優(yōu)點(diǎn)。5.2.3其他聲音傳感器三、光纖聲音傳感器光纖聲學(xué)傳感器是一種利用光纖作為光傳播的聲學(xué)傳感器媒體或檢測單元。與傳統(tǒng)的電聲傳感器相比,它具有靈敏度高、帶寬頻率響應(yīng)、抗電磁干擾等優(yōu)點(diǎn),對國家安全、工業(yè)無損檢測、醫(yī)療診斷、消費(fèi)電子等領(lǐng)域具有重要價值。聲場與光的耦合方式有間接耦合和直接耦合兩種。間接耦合型光纖聲傳感器:分為光強(qiáng)調(diào)制型、相位調(diào)制型和波長調(diào)制型等類型。直接耦合型光纖聲傳感器:不使用聲耦合材料,直接利用光束檢測聲波引起空氣介質(zhì)折射率的微小變化實(shí)現(xiàn)聲探測,相比間接耦合型光纖聲傳感器,具有穩(wěn)定性好、高頻靈敏度高、大帶寬、大動態(tài)范圍等優(yōu)點(diǎn),主要包括自耦合效應(yīng)型和法布里—珀羅標(biāo)準(zhǔn)具(FPE)型兩種類型。衡量光纖聲傳感器性能的參數(shù)主要包括:靈敏度、信噪比、頻率響應(yīng)和動態(tài)范圍。5.2.3其他聲音傳感器5.3.1語音信號特點(diǎn)一、語音的聲學(xué)特性和短時性聲道是一個可以放大一定頻率的共振腔,同時也可以削弱其它頻率的能量,這種共振頻率就是所謂的共振峰值。諧振峰與聲道的尺寸相關(guān),不同組之間的諧振峰一一對應(yīng)。語音的頻譜特征主要取決于諧振峰值。因?yàn)椴煌f話人的聲道尺寸是不一樣的,所以諧振峰值和說話人有著很大的聯(lián)系。即便是同樣的音位,由于說話人的差異,其共振峰也會發(fā)生很大的改變。在語音識別中,需要考慮三個以上的共振峰。二、語音信號特點(diǎn)漢語以漢語拼音為基礎(chǔ)。漢語一字節(jié)是由聲母和韻母組成的,通常一個聲母中只有一個輔音,而韻母是一個或幾個以上的元音或元音和輔音的結(jié)合。漢語是一種聲調(diào)語言,漢語聲調(diào)的識別功能是其最基本的功能,其主要功能是根據(jù)調(diào)式進(jìn)行區(qū)分不同的音調(diào)。英語里的每個句子都有一個重讀。在口語中,有時還會出現(xiàn)兩個或更多的重讀,所以,在口頭交流中,重音是表達(dá)意義的象征,而重音同時也是一條重要的信息。5.3語音識別二、語音識別系統(tǒng)分類(一)按照說話人分類說話人識別的特征提取與語音識別的特征提取正好相反,語音識別是要找到不同說話人相同語音之間的共性作為特征,而說話人識別則需要使用說話人之間的區(qū)別作為特征。說話人識別的特征在層次上又可分為低層的聲學(xué)特征和高層的語言習(xí)慣特征,而在目前的研究水平,可區(qū)分性較強(qiáng)、穩(wěn)定性較高特征還僅限于低層的聲學(xué)特征,是基于個人的發(fā)聲器官的生理特性的特征。具有較好效果的特征主要有如下幾種:

基于發(fā)聲原理的管道模型的線性預(yù)測系數(shù)及其各種變體;語音頻譜導(dǎo)出系數(shù)組,包括基音輪廓、共振峰、語音強(qiáng)度以及其變遷特性;基于聽覺感知原理的特征,以美爾頻標(biāo)倒譜為代表。5.3.2語音識別概述二、語音識別系統(tǒng)分類(二)按照詞匯量分類大詞匯量指的是500字以上的識別,小詞匯量是指100字以下的識別,除此之外,還有中等詞匯量的識別。例如,MHINT語料庫:包含男性發(fā)音的480個語句,每個語句包含十個漢字。語音采樣率均為16kHz。(三)按照表達(dá)方式的不同分類對于一次語音輸出,機(jī)器可按照連續(xù)信號、孤立詞、關(guān)鍵詞三種方式檢索識別。連續(xù)語音識別計算量較大,對一段連續(xù)的語音信號進(jìn)行識別處理;孤立詞即機(jī)器對一個個孤立的字或詞進(jìn)行識別,所以運(yùn)算量較??;關(guān)鍵詞語音識別即機(jī)器從一段語音信號中找出需要的關(guān)鍵詞進(jìn)行識別。5.3.2語音識別概述三、說話人識別基本原理說話人識別系統(tǒng)由語音數(shù)據(jù)預(yù)處理、特征提取、模型訓(xùn)練、模式匹配四部分組成。在訓(xùn)練階段,系統(tǒng)根據(jù)輸入的語音數(shù)據(jù)提取特征,利用聲紋識別算法訓(xùn)練出模型;在識別階段,系統(tǒng)提取輸入語音數(shù)據(jù)的特征,并將該特征輸入訓(xùn)練好的識別模型,輸出識別結(jié)果。圖5.25說話人識別系統(tǒng)架構(gòu)語音情感識別語音情感識別是指從語音信號中識別出說話人的情感狀態(tài),常見特征包括:特征名稱說明基音基因頻率及其導(dǎo)數(shù),以及均值,方差等統(tǒng)計量基音輪廓輪廓以及各種幾何學(xué)特征強(qiáng)度短時能量及其導(dǎo)數(shù)的各種統(tǒng)計量語速單位時間內(nèi)的符號數(shù)量音質(zhì)共振峰的頻率及其帶寬5.3.2語音識別概述預(yù)處理

將輸入的音信號數(shù)字話并轉(zhuǎn)換成適合在計算機(jī)系統(tǒng)中進(jìn)行運(yùn)算的結(jié)構(gòu)以及調(diào)整數(shù)據(jù)的特性。特征提取

從語音流中找到聲學(xué)特征的表達(dá)參數(shù),能夠有效的包含應(yīng)語音段的有效信息。特征訓(xùn)練

先將訓(xùn)練的聲音輸入到語音,再通過預(yù)處理、特征抽取等方法,獲得一個特征向量的參數(shù),再利用該模型建立一個訓(xùn)練語音的參照庫,或者在模式庫中修改該參照庫。識別

將輸入的語音特征矢量和參照模式庫的相似度進(jìn)行測度,并將它們的相應(yīng)類型作為識別的中間候選。后處理判別模塊是利用語言模型、詞法、句法等多種知識進(jìn)行最后的辨識,以達(dá)到語音識別的目的。圖5.26典型的語音識別系統(tǒng)結(jié)構(gòu)語音數(shù)據(jù)處理包含了語音信號預(yù)處理、特征提取、特征訓(xùn)練、識別與后處理判定等多項功能,后處理和判決是任選的。5.3.3語音數(shù)據(jù)處理一、語音數(shù)據(jù)預(yù)處理圖5.27語音識別預(yù)處理基本流程(一)采樣與量化聲帶發(fā)出的原始聲音是連續(xù)的,而錄音機(jī)則會接收到持續(xù)的訊號,也就是模擬訊號,需要取樣、量化,然后再用電腦進(jìn)行處理。取樣是指在時間線上以某一頻率(也就是間隔一段時間),用每一次模擬信號的模擬量替換原先連續(xù)的信號。奈奎斯特取樣頻率:假定頻譜限制信號f(t),在頻譜在-ωm~+ωm范圍內(nèi)時,可用等間距取樣值來唯一地表達(dá)信號f(t)。(二)預(yù)加重目的是消除聲門激振和口鼻輻射,人為地利用預(yù)加重功能強(qiáng)化了語音信號中的高頻成分,改善了高頻段的信噪比,降低了語音信號在發(fā)射時產(chǎn)生的能量損耗,使得聲音的高頻部分得到增強(qiáng),使得信號的頻譜更加扁平。5.3.3語音數(shù)據(jù)處理一、語音數(shù)據(jù)預(yù)處理(三)分幀與加窗可以把話音分成短時的語言,每一段都被稱作“幀”,所以對話音信號的處理必須基于它的“短時性”;分幀是通過窗函數(shù)實(shí)現(xiàn)語音信號截斷,但截斷后的短時語音信號會導(dǎo)致信號的頻譜特性發(fā)生突變,產(chǎn)生無限帶寬;在語音分幀時,常采用一種可動的有限長窗來進(jìn)行加權(quán),而窗的選取會影響其短期能量,并將其視為濾波器的單元沖擊響應(yīng)。(1)矩形窗

(2)漢明窗(3)漢寧窗5.3.3語音數(shù)據(jù)處理(四)端點(diǎn)檢測實(shí)際的語音識別中,由于語音信號中會含有噪音,因此,首先要對語音輸入進(jìn)行判定,并從中找到含有有效信息的起始點(diǎn),從而確保所獲取的聲音是真正有用的;通常采用短時能量、短時平均振幅、短時過零率等時域參數(shù)來判定有效信號的起始和結(jié)束。語音信號的短時能量定義為:其中,窗口長度為N,短時能見度為一幀樣點(diǎn)的加權(quán)平方和。短時能的主要功能是:首先,它可以區(qū)分清音與濁音,因?yàn)樵跐嵋魰r,短時間內(nèi)的能量E(n)要比清音大。語音信號的短時平均過零率定義為:一、語音數(shù)據(jù)預(yù)處理5.3.3語音數(shù)據(jù)處理二、特征提?。ㄒ唬┚€性預(yù)測系數(shù)LPC線性預(yù)測的基本概念:將其以往幾次抽樣值的權(quán)值(線性結(jié)合)用于預(yù)測,其中每一權(quán)重系數(shù)都是以最小的預(yù)測誤差平均方值為原則(也就是按照所謂的最小平均方差標(biāo)準(zhǔn)),那么就是p級的線性預(yù)測因子(Linearitypredictscoefficients,LPC)。設(shè)P{x(n)|n=0,1,...,N-1}為一幀語音采樣序列,則第n個語音樣點(diǎn)值s(n)的p階線性預(yù)測值為:式中p為預(yù)測階數(shù),ai

(i=1,2,...,p

)是線性預(yù)測系數(shù)。預(yù)測誤差ε(n)為:5.3.3語音數(shù)據(jù)處理二、特征提取線性預(yù)測倒頻譜系數(shù)(Linearitypredictscepstrumcoefficients,LPCC)是一個較為關(guān)鍵的特征參數(shù),它可以較徹底地消除語音生成時的激勵信息,并能很好地反映出語音的共振峰。在線性預(yù)測分析中,通道模型是一個完全的極點(diǎn)模式:LPC分析的重要意義:該方法能提供一套簡單的語音模型參數(shù),能夠更準(zhǔn)確地反映出語音信號的波幅,并且其運(yùn)算量也不大,可以用來做模板,既能提高識別率,又能縮短處理時間。LPC倒譜系數(shù)不足之處:其建立在全極點(diǎn)模式的基礎(chǔ)上,因而不能準(zhǔn)確地反映清、鼻音,同時又包含了零點(diǎn)效應(yīng),故在理論上,應(yīng)采用極點(diǎn)模式。(二)線性預(yù)測倒譜系數(shù)LPCC5.3.3語音數(shù)據(jù)處理二、特征提?。ㄈ┟窢柕棺V系數(shù)MFCC在求取梅爾倒譜系數(shù)(Mel-frequencycepstralcoefficient,MFCC)的過程中,根據(jù)梅爾頻率與Hz的對應(yīng)關(guān)系,類似臨界頻帶的劃分,可以將語音頻率劃分成一系列三角濾波器序列,即梅爾頻率濾波器組,每個濾波器在以梅爾為單位的頻率軸上是不等間距的,而是符合臨界帶寬的分布特性。取每個三角形的濾波器頻帶寬內(nèi)所有信號幅度加權(quán)和作為某個帶通濾波器的輸出,然后對所有濾波器輸出做對數(shù)運(yùn)算,再進(jìn)一步進(jìn)行離散余弦變換(Discretecosinetransform,DCT),即得到MFCC。將各三角濾波器頻率帶寬中的信號幅值相加,并將其作為一個帶通濾波器的輸出,并對各濾波器的輸出進(jìn)行對數(shù)運(yùn)算,最后進(jìn)行DCT,即獲得MFCC。5.3.3語音數(shù)據(jù)處理(一)動態(tài)時間規(guī)整法(DynamicTimeWarping,DTW)動態(tài)時間規(guī)則問題是最典型的,其最大的特點(diǎn)是:在此基礎(chǔ)上,利用一條有條件限制的時間規(guī)則函數(shù)來描述模型與樣品模板之間的時間對應(yīng)關(guān)系,并在此基礎(chǔ)上求出相應(yīng)的規(guī)則函數(shù)。(二)矢量量化(VectorQuantization,VQ)模型向量量化指的是把說話者當(dāng)作一個聲音信號源,通過向量量化技術(shù)對其進(jìn)行建模(通過訓(xùn)練序列聚合產(chǎn)生

VQ代碼書),使得

VQ代碼書與說話者一一對應(yīng),在進(jìn)行識別時,使用全部碼本編碼輸入的測試序列,并計算出相應(yīng)的平均量化畸變,再進(jìn)行比較,確定出失真最少的基準(zhǔn)模式。圖5.17基于VQ技術(shù)的說話人識別系統(tǒng)原理圖三、模型訓(xùn)練與模板匹配5.3.3語音數(shù)據(jù)處理(三)隱馬爾可夫模型隱馬爾可夫模型是一種以轉(zhuǎn)移概率和輸出概率為基礎(chǔ)的隨機(jī)模式,其原因在于,一種具有n個狀態(tài)的S1,S2,……,Sn的模式,將輸入的特性從一種狀態(tài)轉(zhuǎn)換到另一種狀態(tài),每次由于無法觀測到狀態(tài)轉(zhuǎn)換序列,因此只能根據(jù)已知的輸出符號序列進(jìn)行運(yùn)算,并對其進(jìn)行預(yù)測。為每一個說話人構(gòu)建一個特殊的語音模型,然后經(jīng)過訓(xùn)練,獲得一個狀態(tài)轉(zhuǎn)換的概率矩陣和符號的輸出概率矩陣。在辨識時,通過計算狀態(tài)轉(zhuǎn)換中未知語言的最大機(jī)率,并利用最大概率對應(yīng)的模式判斷出說話者的身份。圖5.19狀態(tài)轉(zhuǎn)移模型三、模型訓(xùn)練與模板匹配5.3.3語音數(shù)據(jù)處理語音識別系統(tǒng)可分為離線語音識別和在線離線語音識別系統(tǒng)。離線語音識別:詞語庫比較小,屬于小詞匯量語音識別,不依賴網(wǎng)絡(luò)環(huán)境,識別過程在硬件內(nèi)部自動完成;受嵌入式硬件平臺的限制,導(dǎo)致離線語音識別不能占有過多的存儲空間,而且不能進(jìn)行太多復(fù)雜的運(yùn)算處理;目前主要以嵌入式平臺為主,通過啟動專用語音識別芯片的方法來進(jìn)行語音識別。在線語音識別:針對大詞匯量的連續(xù)語音識別的分布式語音識別系統(tǒng);每次識別前將需要識別的語音內(nèi)容上傳至服務(wù)器,然后通過服務(wù)器進(jìn)行運(yùn)算處理,最后與詞語庫中的詞語進(jìn)行匹配,最后再將結(jié)果反饋給說話者。一、語音識別模塊(一)MEGASUN-M6語音識別模塊(二)LD3320芯片(三)XFS5152CE芯片5.3.4語音識別系統(tǒng)二、硬件開發(fā)語音識別芯片:語音信號的處理和識別;單片機(jī):主控芯片加以控制,同時與上位機(jī)進(jìn)行通訊;外部寄存器:動態(tài)地添加和編輯需要識別的詞語庫;USB轉(zhuǎn)串口模塊:將硬件系統(tǒng)方便地與上位機(jī)建立通信;專用的語音識別芯片:用麥克風(fēng)接收說話者的語音信號,進(jìn)行處理和識別。三、軟件開發(fā)(一)Arduino開源平臺(二)DeepSpeech開源平臺(三)Kaldi開源平臺(四)CMUSphinx語音識別器5.3.4語音識別系統(tǒng)5.4.1人耳模型在大多數(shù)人類聲音定位研究中,聲源被限制在兩個平面中的一個:水平面或垂直(中矢)面。水平和垂直定位之間的區(qū)別似乎也可以通過水平和垂直定位的主要空間線索(即雙耳差異線索與單耳線索)的差異來證明。入射到聽者耳朵上的聲波會被面對入射波一側(cè)的頭部反射,衍射到頭部陰影一側(cè)的耳朵,并通過耳廓傳輸?shù)蕉?。這些反射和衍射產(chǎn)生雙耳時間差和雙耳強(qiáng)度差,這是眾所周知的雙耳差異線索。5.4.2麥克風(fēng)陣列麥克風(fēng)陣列由若干個具有特定幾何結(jié)構(gòu)的感應(yīng)器構(gòu)成,具有很好的空間選擇性,能夠在一定的距離上對聲源進(jìn)行自適應(yīng)探測,并能進(jìn)行軌跡定位。麥克風(fēng)陣列能夠有效地解決單一話筒在空間信號的接收與處理上的不足。機(jī)器人聽力系統(tǒng)通常采用多種形式的傳聲器,通過多種方法組成一個陣列,從周圍環(huán)境中采集聲音,并對不同方位的聲音進(jìn)行加強(qiáng)。5.4聲源定位(一)線性陣列圖5.23線性陣列示意圖(二)二維平面陣列指向性模式圖5.25二維面陣示意圖5.4.2麥克風(fēng)陣列(三)三維立體陣列1.四元正四面體陣列:圖5.28正四面體陣列結(jié)構(gòu)與位置示意圖2.五元正四面體陣列:圖5.29五元正四面體陣列結(jié)構(gòu)3.球形陣列:圖5.30球面陣列示意圖5.4.2麥克風(fēng)陣列固定波束形成。固定波束成形可以看做是一種閉環(huán)系統(tǒng),在這種系統(tǒng)中,接收到的信號的隨機(jī)統(tǒng)計特性決定了其性能的好壞,為了能夠更好的降低噪聲和干擾對語音的影響,進(jìn)行固定波束形成前需要知道信號和干擾、噪聲的具體位置。它的各項參數(shù)在進(jìn)行波束形成前就由開發(fā)人員固定,不因信號的改變而改變。自適應(yīng)波束形成。該類波束形成算法常以具體準(zhǔn)則為基礎(chǔ)提出相應(yīng)的算法,可用較少的麥克風(fēng)取得較好的去噪效果。自適應(yīng)波束形成算法本質(zhì)上以信號處理為基礎(chǔ),仍只是將語音看做普通的傳輸信號處理。

盲源信號分離。該類算法分為三類,第一類方法被稱為獨(dú)立分量分析,它是在信號經(jīng)過變換后,保證不同的信號分量之間的相依性盡可能的減小。5.4.2麥克風(fēng)陣列雙耳聲源定位主要機(jī)理:1.雙耳間聲強(qiáng)差:聲源在左右耳的聲音強(qiáng)度差;

2.雙耳間時間差或相位差:點(diǎn)聲源抵達(dá)左右耳的時間差;

3.頻率線索:基于頻譜相關(guān)特性來進(jìn)行聲源定位。在三維空間聲場中,空間上的描述有三個維度:1.左右空間方位:這個主要是依賴于雙耳線索,通過聲音抵達(dá)雙耳之間的差異,來判斷聲音的左右偏向。ITD是聲源抵達(dá)雙耳的時間差,ITD范圍為0~690????區(qū)間。2.上下空間方位:主要是通過耳廓的形狀,造成不同入射角有不同的折射程度而產(chǎn)生的差異。大多數(shù)頻譜線索位于4~16kHz的頻率范圍。

3.遠(yuǎn)近空間方位(Distance):遠(yuǎn)近維度其實(shí)就是聲源到達(dá)雙耳的能量,能量大聽覺上感覺近,能量小聽覺上感覺遠(yuǎn)。

5.4.3聲源定位方法

一、基于聲波到達(dá)時間差聲音定位的基本思想是從一對麥克風(fēng)之間的到達(dá)時間差推導(dǎo)出聲源的方向;時差可以在短時間內(nèi)通過通用互相關(guān)方法進(jìn)行估計;通用互相關(guān)方法可以通過不同的加權(quán)方案進(jìn)行增強(qiáng),如相位變換。二、基于最大輸出功率的可控波束形成技術(shù)波束形成器形成標(biāo)量輸出信號,作為傳感器陣列接收的數(shù)據(jù)的加權(quán)組合;權(quán)重確定波束形成器的空間濾波特性,并且如果具有重疊頻率內(nèi)容的信號來自不同位置,則能夠分離這些信號;選擇與數(shù)據(jù)無關(guān)的波束形成器中的權(quán)重,以提供與接收數(shù)據(jù)無關(guān)的固定響應(yīng)。三、基于高分辨率譜估計高分辨頻譜估計技術(shù)一般應(yīng)用于多個聲源環(huán)境;該方法給出了在一定條件下,保證在平穩(wěn)狀態(tài)下不發(fā)生變化,且具有充分的平均信號,而在真實(shí)情況下,這種情況發(fā)生的可能性非常低;這種方法計算量大,相對于傳統(tǒng)的波束成形算法,它對聲源和話筒模型的錯誤具有很好的魯棒性,因而很難應(yīng)用于現(xiàn)代的其他聲源定位系統(tǒng)。5.4.3聲源定位方法5.5.1人類視聽交叉感知機(jī)制視聽覺系統(tǒng)感受環(huán)境信息的機(jī)理相似,信息量重合,因此大腦對這兩種系統(tǒng)獲取的信息進(jìn)行交叉感知,得到統(tǒng)一的感知。但對于視聽覺信息發(fā)生的多種情況作出不同反應(yīng):互相補(bǔ)充。當(dāng)兩種信息中的一方不能滿足環(huán)境的感知時,可以通過另一方來獲得補(bǔ)充。例如視覺只能對視野內(nèi)的目標(biāo)信息敏感,但當(dāng)發(fā)生遮擋和偏轉(zhuǎn)等情況時,這時聽覺系統(tǒng)可以根據(jù)目標(biāo)的聲音信息判別出物體,也可以提供物體的方位信息。這樣,兩者之間的互相補(bǔ)充作用增加了信息的全面性。

整合化一。當(dāng)兩者信息相違背時,人腦會對這兩種感官信息分析融合,形成單一的認(rèn)知。

對應(yīng)調(diào)整。當(dāng)兩信號持續(xù)不一致時,人腦的神經(jīng)系統(tǒng)會調(diào)整信息,最終獲得視聽一致的信號。例如當(dāng)發(fā)生閃電時,視覺和聽覺會對閃電的發(fā)生會產(chǎn)生不一致的信息,但人腦可以根據(jù)聲音和視覺的傳播差機(jī)制將這兩種信息整合成單一的閃電信息。

5.5視覺聽覺交叉融合圖5.34說話人識別中的視聽交互感知人的視覺和聽覺是通過感知來收集外部的信息,然后將這些信息傳遞給大腦,再由大腦將這些信息結(jié)合起來,最終獲得正確的信息。人在處理和做出決定的過程中,將感知所獲得的信息進(jìn)行綜合處理,并與神經(jīng)系統(tǒng)協(xié)同作用,最后由相互融合的信息做出決定。5.5.2視聽信息融合識別一、視覺—聽覺融合跟蹤圖5.37基于視覺聽覺融合的目標(biāo)跟蹤算法結(jié)構(gòu)二、聽覺控制—視覺跟蹤圖5.38聽覺控制—視覺追蹤控制系統(tǒng)方案5.5.3視聽信息交互的目標(biāo)跟蹤總結(jié)知識節(jié)點(diǎn)5.1機(jī)器人聽覺概述人類聽覺模型機(jī)器人聽覺感知5.2聲音傳感器麥克風(fēng)動圈式麥克風(fēng)電容式麥克風(fēng)壓電式麥克風(fēng)5.3語音識別語音信號特點(diǎn)語音識別概述語音識別系統(tǒng)分類說話人識別語音數(shù)據(jù)處理預(yù)處理特征提取特性訓(xùn)練與模板匹配語音識別系統(tǒng)語音識別模塊硬件開發(fā)軟件開發(fā)5.4聲源定位人耳模型麥克風(fēng)陣列陣列類型陣列算法聲源定位方法聲波到達(dá)時間差可控波束形成技術(shù)高分辨率譜估計聲源定位案例系統(tǒng)原理方案設(shè)計定位誤差分析5.5視聽交叉融合超聲波傳感器概念與發(fā)展工作原理其他聲音傳感器仿生聽覺傳感器柔性壓電聲學(xué)傳感器光纖聲音傳感器機(jī)器人聽覺概述聲音傳感器語音識別聲源定位視聽交叉融合人類視聽交叉感知機(jī)制視聽信息融合識別視聽信息交互的目標(biāo)跟蹤第五章機(jī)器人聽覺感知機(jī)器人感知智能第六章機(jī)器人感知系統(tǒng)智能化信息融合所涉及的主要領(lǐng)域包括:模式識別、智能制造系統(tǒng)、無人機(jī)駕駛、目標(biāo)檢測與跟蹤、人工智能、航空航天應(yīng)用、圖像分析處理等;由于該技術(shù)涉及到的研究內(nèi)容種類豐富,領(lǐng)域廣泛,目前還沒有普遍適用且明確的定義。不同國家的學(xué)者對信息融合的定義有著不同的表述;根據(jù)國內(nèi)外的觀點(diǎn),信息融合的定義為:按照一定的規(guī)則,使用計算機(jī)技術(shù)對特定時序獲得的若干異質(zhì)或同質(zhì)的傳感觀測信息進(jìn)行分析、提取和綜合,是一種用于對所需要的目標(biāo)進(jìn)行估計與決策的信息處理過程。信息融合是近些年發(fā)展起來的技術(shù),由許多學(xué)科領(lǐng)域交叉融合形成,在機(jī)器人信息處理的過程中被廣泛應(yīng)用。6.1.1多傳感器信息融合概念一、信息融合6.1多傳感器信息融合(一)分布式:先對各個獨(dú)立傳感器所獲得的原始數(shù)據(jù)進(jìn)行局部處理,然后再將結(jié)果送入信息融合中心進(jìn)行智能優(yōu)化組合來獲得最終的結(jié)果。分布式對通信帶寬的需求低、計算速度快、可靠性和延續(xù)性好,但跟蹤的精度卻遠(yuǎn)沒有集中式高;分布式的融合結(jié)構(gòu)又可以分為帶反饋的分布式融合結(jié)構(gòu)和不帶反饋的分布式融合結(jié)構(gòu)。(二)集中式:集中式將各傳感器獲得的原始數(shù)據(jù)直接送至中央處理器進(jìn)行融合處理,可以實(shí)現(xiàn)實(shí)時融合,其數(shù)據(jù)處理的精度高,算法靈活,缺點(diǎn)是對處理器的要求高,可靠性較低,數(shù)據(jù)量大,故難于實(shí)現(xiàn);(三)混合式:混合式多傳感器信息融合框架中,部分傳感器采用集中式融合方式,剩余的傳感器采用分布式融合方式?;旌鲜饺诤峡蚣芫哂休^強(qiáng)的適應(yīng)能力,兼顧了集中式融合和分布式的優(yōu)點(diǎn),穩(wěn)定性強(qiáng)?;旌鲜饺诤戏绞降慕Y(jié)構(gòu)比前兩種融合方式的結(jié)構(gòu)復(fù)雜,這樣就加大了通信和計算上的代價。二、多傳感器信息融合圖6.3緊耦合狀態(tài)估計流程圖根據(jù)數(shù)據(jù)處理方法的不同,信息融合系統(tǒng)的體系結(jié)構(gòu)有三種:分布式、集中式和混合式。6.1.1多傳感器信息融合概念二、多傳感器信息融合多傳感器融合狀態(tài)估計技術(shù)在人工智能應(yīng)用場景中,有非常多的應(yīng)用:(一)掃地機(jī)器人:這是最簡單的多傳感器融合狀態(tài)估計的應(yīng)用了,一般該機(jī)器人會裝有相機(jī)和IMU傳感器,一些還有紅外線接近度傳感器、激光傳感器。(二)餐廳服務(wù)機(jī)器人:在餐廳負(fù)責(zé)送餐任務(wù)的機(jī)器人,通常會有雙目相機(jī)、輪速計、導(dǎo)軌等傳感器。(三)增強(qiáng)現(xiàn)實(shí)(AR)應(yīng)用:AR技術(shù)近年來快速發(fā)展,在手機(jī)軟件、智能穿戴硬件中都有應(yīng)用,主要用到的傳感器有相機(jī)、慣性測量單元(InertialMeasurementUnit,IMU)等。(四)自動駕駛:自動駕駛對精度和魯棒性要求非常之高,所用傳感器也是非常之多,自動駕駛汽車基本都會用到的傳感器有多個相機(jī)、IMU、輪速計、激光雷達(dá)、超聲波、紅外、GPS等。圖6.5美國海軍實(shí)驗(yàn)室研發(fā)的四麥克風(fēng)陣列B21r機(jī)器人(左)和MDS像人機(jī)器人(右)6.1.1多傳感器信息融合概念二、多傳感器信息融合信息融合的三個主要特征如下:

(一)信息融合是一個多源、多級的信息處理過程,每一級都代表著不同層次的圖像抽象。

(二)信息融合包含信息的檢測、互聯(lián)、相關(guān)、估計和組合等步驟。(三)信息融合的結(jié)果包含低層次的局部狀態(tài)估計和高層次的全局狀態(tài)估計。圖6.4常見的地面機(jī)器人(a)新正源迎賓服務(wù)機(jī)器人(b)愛森T2智能移動機(jī)器人(c)華碩Zenbo智能家庭助理機(jī)器人6.1.1多傳感器信息融合概念一、自主車輛機(jī)器人中的傳感器融合技術(shù)二、醫(yī)療人機(jī)交互場景下的多傳感器融合圖6.7幾種自主車輛機(jī)器人(a)應(yīng)用于國家電網(wǎng)的新松無人搬運(yùn)車(b)艾瑞思物流倉儲智能機(jī)器人(c)??低曋悄軅}庫機(jī)器人(一)多模型用戶數(shù)據(jù)融合:可解釋的神經(jīng)網(wǎng)絡(luò)、聯(lián)想學(xué)習(xí)。(二)人機(jī)對話和意圖理解:人類識別、語音識別。(三)用戶分類:交互式知識圖譜建模。(四)路徑和動作規(guī)劃:基于多模態(tài)的路徑規(guī)劃仿人操作的感知、任務(wù)規(guī)劃。

6.1.2幾種機(jī)器人中的多傳感器融合(一)跨領(lǐng)域融合:主要關(guān)注跨領(lǐng)域知識遷移和不同特征空間的融合,解決了由于源域和目標(biāo)域在不同的有限元表示空間中的多模態(tài)數(shù)據(jù),能夠支持基于決策的融合醫(yī)學(xué)人機(jī)交互產(chǎn)生的多源數(shù)據(jù)研究情節(jié)。(二)增量分類器融合:由于醫(yī)療機(jī)器人引入了附加信息、大量數(shù)據(jù)或數(shù)據(jù)的動態(tài)增長數(shù)據(jù)導(dǎo)致收斂開銷顯著增加,這不能滿足實(shí)時融合決策的要求。增量分類器融合可以通過以下方式優(yōu)化互補(bǔ)模態(tài)數(shù)據(jù):對多模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合聚類,更快地得到?jīng)Q策結(jié)果。(三)數(shù)據(jù)不完整的多傳感器融合:主要處理部分丟失的原始感知數(shù)據(jù)。例如,傳統(tǒng)的融合機(jī)制無法處理數(shù)據(jù)集中包含的不完整數(shù)據(jù)。雖然它可以直接刪除不完整的數(shù)據(jù),并做出融合決策僅基于剩余的完整數(shù)據(jù),不完整數(shù)據(jù)中包含的有價值信息的丟失將影響融合決策的準(zhǔn)確性和綜合性。因此,核聚變機(jī)制基于不完全數(shù)據(jù)的醫(yī)學(xué)人機(jī)交互是非常必要的。融合機(jī)制的選擇:6.1.2幾種機(jī)器人中的多傳感器融合一、系統(tǒng)中傳感器的類型、分辨率以及精度二、傳感器在機(jī)器人本體上的布置位置三、系統(tǒng)的通信能力和計算能力四、系統(tǒng)的設(shè)計目標(biāo)五、系統(tǒng)的拓?fù)浣Y(jié)構(gòu)在多傳感器信息融合技術(shù)中,通常涉及到多種類型的傳感器選擇的問題,因此在選擇傳感器類型時,要考慮以下幾個問題:多傳感器融合的移動機(jī)器人一般包括三個傳感系統(tǒng):(一)視覺子系統(tǒng)。該子系統(tǒng)主要包括3個模塊:光視覺檢測模塊、紅外視覺檢測模塊和視覺融合模塊。(二)聽覺子系統(tǒng)。該子系統(tǒng)主要包括3個模塊:語音檢測模塊、類周期求救聲檢測模塊和聲源定向模塊。(三)運(yùn)動規(guī)劃子系統(tǒng)。該子系統(tǒng)主要包括3個模塊:自主規(guī)劃模塊、機(jī)器人控制模塊和避免碰撞模塊。6.1.3傳感器類型與布局一、相機(jī)傳感器圖6.9SLAM算法系統(tǒng)流程圖6.1.4傳感器模型二、慣性測量單元圖6.11三軸數(shù)字加速度計圖6.12三軸磁力計圖6.13IMU傳感器慣性測量單元IMU是一種組合測量傳感器,其具有三個加速度計和三個陀螺儀,可用來獲取運(yùn)動載體的位姿信息的裝置;加速度計和陀螺儀相互垂直安裝,加速度計用來檢測物體在坐標(biāo)系上的加速度,陀螺儀利用載體相對空間的位置變化,再進(jìn)行坐標(biāo)變化檢測到物體的角速度;通過測量物體的角速度與加速度來計算物體的姿態(tài)。6.1.4傳感器模型三、里程計模型圖6.14相機(jī)透視投影模型(一)從世界坐標(biāo)系到相機(jī)坐標(biāo)系的轉(zhuǎn)換。6.1.4傳感器模型三、里程計模型(二)從相機(jī)坐標(biāo)系到物理成像平面坐標(biāo)的轉(zhuǎn)換。(三)從物理成像平面坐標(biāo)到計算機(jī)圖像坐標(biāo)的轉(zhuǎn)換。圖6.15視覺里程計實(shí)現(xiàn)流程圖6.1.4傳感器模型四、激光雷達(dá)傳感器模型圖6.17激光雷達(dá)三角測距原理圖6.18激光雷達(dá)飛行時間測量原理飛行時差測距法(TimeofFlight,TOF)是激光器發(fā)射激光脈沖,由計時器記錄出射時間,接收器接收往返光,計時器記錄返回時間,返回時間減出射時間,得到光的“飛行時間”。光速是已知的,因此在速度和時間已知的情況下,可以求得機(jī)器人與目標(biāo)物體之間的距離。6.1.4傳感器模型四、激光雷達(dá)傳感器模型(一)測量距離:TOF激光雷達(dá)可以測量更長的距離,因此應(yīng)用更為廣泛,而三角測距法當(dāng)測量物體距離越遠(yuǎn)時,在CCD上所成的像的位置間差別就越小,超過一定距離時,CCD上的成像位置幾乎無法分辨。(二)采樣率:TOF激光雷達(dá)采樣率更高,因?yàn)轱w行時間測距一次測量只需一個激光脈沖,且時效性好,可以快速響應(yīng)。然而,三角雷達(dá)的計算時間較長。(三)精度:三角法在近距離測量時的精度很高,但是隨著距離的增加,測量精度會隨之下降。由于TOF激光雷達(dá)的精度取決于飛行時間,時間測量精度不隨長度的增加而變化,在幾十米的測量范圍內(nèi)都保持較高的測量精度。(四)轉(zhuǎn)速(幀率):三角激光雷達(dá)的最大轉(zhuǎn)速通常在20Hz以下,而TOF激光雷達(dá)的最大轉(zhuǎn)速約為30Hz~50Hz。6.1.4傳感器模型一、多傳感器融合分類(一)數(shù)據(jù)層的融合數(shù)據(jù)層融合也稱像素層融合,是對傳感器原始信息的融合,屬于最低層融合方式。未經(jīng)處理的原始觀測信息直接通過數(shù)據(jù)層融合進(jìn)行加工和處理,然后再提取其信息特征進(jìn)行特征匹配。數(shù)據(jù)層融合對數(shù)據(jù)類型有所要求,即傳感器感知觀測到的對象信息需要是同一類型的數(shù)據(jù)。圖6.20像素層融合6.1.5多傳感器融合方法(二)特征層的融合特征層融合是指對傳感器信息進(jìn)行初步處理之后,將各自提取的特征點(diǎn)進(jìn)行統(tǒng)籌融合,屬于中間層融合,因此該方式同時具備了低層次和高層次的部分融合優(yōu)勢。該方法可分為目標(biāo)特征信息融合和目標(biāo)狀態(tài)信息融合。前者適用于目標(biāo)的跟蹤,通過對數(shù)據(jù)進(jìn)行配準(zhǔn)實(shí)現(xiàn)對狀態(tài)和參數(shù)的估計;后者適用于目標(biāo)的組合分類,通過傳統(tǒng)的模式識別技術(shù)實(shí)現(xiàn)分類再整合。圖6.21特征層融合一、多傳感器融合分類6.1.5多傳感器融合方法(三)決策層的融合決策層融合屬于高層次的融合方式,與前兩者相比,這種融合的時間順序發(fā)生了主要變化;該方式在感知到數(shù)據(jù)信息后,對其進(jìn)行了特征提取和識別,之后才開始融合過程,同樣融合之后可以返回用于決策,它直接響應(yīng)決策目標(biāo),并為最終決策奠定基礎(chǔ),是充分利用較完整信息的一種策略類融合算法;通過策略類的選擇評級,分?jǐn)?shù)更高的結(jié)果使其成為下一模塊的信息的輸入,不會增加過多的運(yùn)算負(fù)擔(dān),還能夠擁有更好的魯棒性。圖6.22決策層融合一、多傳感器融合分類6.1.5多傳感器融合方法二、多傳感器融合策略(一)加權(quán)平均法最簡單的加權(quán)平均法是對一組傳感器的數(shù)據(jù)直接進(jìn)行加權(quán)平均運(yùn)算,每個傳感器的權(quán)值由經(jīng)驗(yàn)確定,并將此加權(quán)結(jié)果作為最終融合的信息。6.1.5多傳感器融合方法(二)卡爾曼濾波法卡爾曼濾波算法基于系統(tǒng)線性測量模型的統(tǒng)計特性進(jìn)行遞歸計算,動態(tài)系統(tǒng)的狀態(tài)通過一系列噪聲數(shù)據(jù)來估計,實(shí)時更新和處理現(xiàn)場采集的數(shù)據(jù)。系統(tǒng)噪聲和系統(tǒng)的狀態(tài)都是呈現(xiàn)高斯分布的,因此對錯誤信息較敏感。在數(shù)據(jù)層融合中,傳感器接收的數(shù)據(jù)常存在較大誤差,卡爾曼濾波法能有效減小數(shù)據(jù)間的誤差,提升融合效果。二、多傳感器融合策略6.1.5多傳感器融合方法(三)模糊邏輯模糊邏輯是一種不需要建立精確數(shù)學(xué)模型,將已有的經(jīng)驗(yàn)和知識直接通過模糊集合論構(gòu)建模型的方法。模糊邏輯是在人類思維方式的基礎(chǔ)上,根據(jù)客觀事物認(rèn)知的統(tǒng)一特征,進(jìn)行歸納、提取、抽象和總結(jié),最后轉(zhuǎn)化為模糊規(guī)則,來幫助相應(yīng)的函數(shù)確定結(jié)果。由于該方法不依賴數(shù)學(xué)模型,所以該方法可以應(yīng)用在各種復(fù)雜難以建?;騽討B(tài)特性常變的系統(tǒng)中。模糊邏輯的難點(diǎn)問題:合理的指標(biāo)判斷規(guī)則和隸屬函數(shù)的構(gòu)建。二、多傳感器融合策略6.1.5多傳感器融合方法(四)神經(jīng)網(wǎng)絡(luò)算法神經(jīng)網(wǎng)絡(luò)算法是一種新出現(xiàn)的算法,其融合方法能對非線性系統(tǒng)進(jìn)行很好地處理和模型的泛化,并且可以較好地解決檢測系統(tǒng)的誤差問題,實(shí)現(xiàn)了知識的自動獲取及并行處理信息的能力。圖6.23神經(jīng)元的數(shù)學(xué)模型圖6.24網(wǎng)絡(luò)通用結(jié)構(gòu)二、多傳感器融合策略6.1.5多傳感器融合方法(五)貝葉斯估計貝葉斯的基本思想是:把現(xiàn)象的經(jīng)驗(yàn)推理和某種先前經(jīng)驗(yàn)結(jié)合,去估計事物的可能性。貝葉斯估計將每個傳感器作為一個貝葉斯分類器,根據(jù)傳感器的先驗(yàn)概率分布,組合成聯(lián)合分布似然函數(shù),然后根據(jù)不同的新觀測值更新聯(lián)合分布函數(shù),并利用概率函數(shù)的極值完成融合。它要求系統(tǒng)具有正太分布,或者噪聲也是高斯分布的。貝葉斯估計還可以將傳感器采集的可信度低的信息剔除,提高了信息采集的準(zhǔn)確性。狀態(tài)方程:觀測方程:圖6.25狀態(tài)估計模型圖二、多傳感器融合策略6.1.5多傳感器融合方法(六)D-S證據(jù)理論D-S證據(jù)理論可以處理由于未知引起的不確定性,并將其轉(zhuǎn)換為一組以概率分布函數(shù)表示的不確定性描述集,得到概率函數(shù)來描述不同數(shù)據(jù)對命題結(jié)果的支持率,并通過推理得到目標(biāo)融合結(jié)果;該方法利用信任函數(shù)和非信任函數(shù)將證明區(qū)間分為支持、信任和拒絕三類,在不確定信息的情況下對證明區(qū)間進(jìn)行快速分類,分類決策在最終的決策層進(jìn)行,以促進(jìn)最終結(jié)果的產(chǎn)生。圖6.26三類證據(jù)關(guān)系圖二、多傳感器融合策略6.1.5多傳感器融合方法三、隱馬爾可夫模型與貝葉斯模型隱馬爾可夫過程基于兩個基本假設(shè):

(一)齊次馬爾科夫假設(shè),是指假設(shè)馬爾科夫過程在任意時刻的狀態(tài)只與前一時刻的狀態(tài)相關(guān)。

(二)觀測獨(dú)立性假設(shè),是指任何時刻的觀測只與當(dāng)前時刻的狀態(tài)有關(guān),與其他時刻觀測無關(guān)。

貝葉斯遞推過程基于狀態(tài)觀測和狀態(tài)更新:

(一)基于模型的狀態(tài)估計,也就是說根據(jù)狀態(tài)轉(zhuǎn)移概率或者已知的真是測量值,計算預(yù)測概率分布,以得出狀態(tài)預(yù)測的均值和方差等估計值。

(二)基于觀測狀態(tài)更新,通過概率函數(shù)與狀態(tài)估計概率進(jìn)行積分系數(shù)歸一化處理,得到觀測轉(zhuǎn)移的后驗(yàn)概率分布,然后得到目標(biāo)觀測的均值和方差,計算卡爾曼增益。6.1.5多傳感器融合方法一、微型慣性單元與視覺數(shù)據(jù)融合最早出現(xiàn)的IMU處理方法是整合IMU數(shù)據(jù),再積分處理,但該方法對位姿信息依賴性強(qiáng),融合過程中計算量較大。為了解決這個問題,學(xué)者們提出了IMU預(yù)積分法,該方法的核心思想是對兩幀間的IMU運(yùn)動增量進(jìn)行計算,并提取增量積分中與初始值有關(guān)的數(shù)據(jù),從而避免重復(fù)反饋過程優(yōu)化中的重復(fù)積分,提高計算效率。同時,兩幀之間的IMU預(yù)測分量可對這兩關(guān)鍵幀加以限制。

IMU視覺優(yōu)勢快速響應(yīng);不受成像質(zhì)量影響;角速度比較準(zhǔn)確;可估計絕對尺度;存在零偏;低精度IMU積分位姿發(fā)散;高精度價格昂貴不產(chǎn)生漂移;直接測量旋轉(zhuǎn)與平移劣勢存在零偏;低精度IMU積分位姿發(fā)散;高精度價格昂貴受圖像遮擋和運(yùn)動物體干擾;單目視覺無法測量尺度;單目純旋轉(zhuǎn)運(yùn)動無法估計;快速運(yùn)動時易丟失表6.1IMU與視覺定位特點(diǎn)比較6.1.6SLAM技術(shù)中的多傳感器信息融合一、微型慣性單元與視覺數(shù)據(jù)融合圖6.27基于濾波的松耦合圖6.28基于非線性優(yōu)化的緊耦合6.1.6SLAM技術(shù)中的多傳感器信息融合二、2D激光雷達(dá)與RGB-D相機(jī)信息融合將激光雷達(dá)和RGB-D相機(jī)結(jié)合,可以實(shí)現(xiàn)激光數(shù)據(jù)和三維深度數(shù)據(jù)的同時采集,進(jìn)而建立激光雷達(dá)測距點(diǎn)與深度圖像點(diǎn)間的對應(yīng)關(guān)系,對檢測數(shù)據(jù)進(jìn)行融合,得到環(huán)境障礙物的位置。相機(jī)從空間中采集三維深度數(shù)據(jù),使用針孔相機(jī)模型將真實(shí)世界中的三維坐標(biāo)點(diǎn)映射到二維平面以獲取深度圖像,將數(shù)據(jù)深度圖像轉(zhuǎn)換為虛擬激光測距數(shù)據(jù)。圖6.29英特爾RealSenseD455相機(jī)表6.2KinectV2參數(shù)配置參數(shù)彩色相機(jī)分辨率1920×1080深度相機(jī)分辨率512×424水平角度70°垂直角度60°骨骼關(guān)節(jié)數(shù)25個/人檢測范圍0.5~4.5m音效16bit,16kHz6.1.6SLAM技術(shù)中的多傳感器信息融合(一)相機(jī)標(biāo)定二者參考坐標(biāo)系不同,需要將多個傳感器的數(shù)據(jù)統(tǒng)一整合到一個參考坐標(biāo)系中進(jìn)行坐標(biāo)對準(zhǔn),從而實(shí)現(xiàn)數(shù)據(jù)的粗糙融合。通過坐標(biāo)標(biāo)定,找到激光雷達(dá)坐標(biāo)系與Kinect圖像坐標(biāo)系間的關(guān)系,以實(shí)現(xiàn)激光雷達(dá)測距與Kinect的深度圖像數(shù)據(jù)的精確融合。圖6.31激光雷達(dá)與Kinect相機(jī)坐標(biāo)系圖6.32激光雷達(dá)的直角坐標(biāo)系與極坐標(biāo)系二、2D激光雷達(dá)與RGB-D相機(jī)信息融合6.1.6SLAM技術(shù)中的多傳感器信息融合(二)點(diǎn)云匹配激光點(diǎn)是真實(shí)環(huán)境中的曲面離散采樣,激光點(diǎn)到實(shí)際曲面的距離是最佳誤差范圍。常用的點(diǎn)云匹配算法為迭代最近點(diǎn)算法,將點(diǎn)間距離作為誤差,構(gòu)造誤差方程,易造成誤差匹配,增加迭代時間。通過用點(diǎn)到其最近兩點(diǎn)連線的距離,可以構(gòu)建誤差方程,有利于縮減迭代時間,增加算法時效性。深度相機(jī)模擬的點(diǎn)云和對應(yīng)的激光雷達(dá)點(diǎn)云空間坐標(biāo)集合分別為:二、2D激光雷達(dá)與RGB-D相機(jī)信息融合6.1.6SLAM技術(shù)中的多傳感器信息融合(三)傳感器數(shù)據(jù)融合在點(diǎn)云配準(zhǔn)得到兩傳感器間的位姿關(guān)系后,可將兩束激光轉(zhuǎn)換到同一坐標(biāo)系下進(jìn)行數(shù)據(jù)精確融合。該過程常用濾波思想來實(shí)現(xiàn),由于經(jīng)典卡爾曼濾波對運(yùn)算場景有限制,只能用于高斯理想場景下。而基于經(jīng)典卡爾曼濾波演變的EKF算法,可以在粗融合的基礎(chǔ)上再進(jìn)行細(xì)化融合。(四)貝葉斯估計數(shù)據(jù)融合貝葉斯估計是一種利用先前經(jīng)驗(yàn)與經(jīng)驗(yàn)推理對狀態(tài)進(jìn)行估計的信息融合算法,該算法是在得到結(jié)果后重新修正的概率的基礎(chǔ)上進(jìn)行的。該方法通過觀測得到已知狀態(tài)向量Z,預(yù)測一個未知的n維狀態(tài)向量X,并且已知狀態(tài)向量z中包含有未知狀態(tài)向量X的信息。二、2D激光雷達(dá)與RGB-D相機(jī)信息融合6.1.6SLAM技術(shù)中的多傳感器信息融合三、視覺慣性激光雷達(dá)圖6.33VIL-SLAM系統(tǒng)圖圖6.34固定滯后位姿圖示慣性測量單元具有抗干擾能力強(qiáng)、可信度高、獨(dú)立性強(qiáng)等優(yōu)點(diǎn),而3D激光雷達(dá)具有測量范圍廣、可以直接得到較為準(zhǔn)確的深度信息、計算負(fù)擔(dān)小以及受光照影響小等優(yōu)點(diǎn),恰巧可以彌補(bǔ)視覺傳感器受劇烈運(yùn)動、無環(huán)境紋理、光照條件不好等外界環(huán)境的影響,進(jìn)而提高了系統(tǒng)的魯棒性、健壯性以及廣泛適用性。6.1.6SLAM技術(shù)中的多傳感器信息融合物理層:也叫做傳感器層,負(fù)責(zé)原始信號的采集,獲取物理世界的信息;應(yīng)用服務(wù)層:把采集到的信息進(jìn)行局部功能封裝,成為具有特定服務(wù)功能的模塊;應(yīng)用開發(fā)層:借助第三方開發(fā)工具、算法等對下層的功能模塊進(jìn)一步集成;應(yīng)用層:面向最終的用戶,針對具體應(yīng)用定制自己的系統(tǒng)。6.2.1機(jī)器人感知系統(tǒng)概述相互合作型可以分為四類:一、水平型合作:每個模塊可以獨(dú)立獲取問題決策而不必依賴于其他模塊,而它與其他模塊的合作可以增加決策的可信度;

二、樹型合作:一個高級的模塊必須依靠低級的模塊才能獲得問題的決策;三、遞歸型合作:為了取得問題的決策各模塊之間具有相互依賴的關(guān)系;四、混合型合作:它是前三種合作類型的有機(jī)結(jié)合。6.2機(jī)器人感知系統(tǒng)控制機(jī)器人感知系統(tǒng)標(biāo)準(zhǔn)化工作的必要性:

一、仿人機(jī)器人智能化很大程度上取決于其感知能力,其傳感器種類越來越多,對可重用和互置換的要求迫在眉睫;

二、現(xiàn)場總線的標(biāo)準(zhǔn)各自為政,需要統(tǒng)一的通信協(xié)議來約束,方便用戶的操作;

三、國家的戰(zhàn)略需求,國內(nèi)機(jī)器人及傳感器產(chǎn)業(yè)現(xiàn)狀迫切需要制訂的相應(yīng)的標(biāo)準(zhǔn),實(shí)現(xiàn)工業(yè)化級別的規(guī)模生產(chǎn),降低制造成本。6.2.1機(jī)器人感知系統(tǒng)概述主控模塊主要是進(jìn)行各種信息數(shù)據(jù)的處理,可以讓每一個功能模塊都能更好的來完成它們各自的任務(wù)。圖6.35STM32F芯片主控單元模板ARM是通常意義所說的高效能RISC,使用了經(jīng)過精簡設(shè)計的指令系統(tǒng),基于該芯片的微控制器在功耗和體積上都大大減小,設(shè)計也可以更加簡潔;DSP是數(shù)字信號處理器,顧名思義,DSP只負(fù)責(zé)數(shù)字信號處理,難以實(shí)現(xiàn)和普通處理器一樣的通用計算;PLC是可編程邏輯控制器,PLC和工控機(jī)在控制性能上都很優(yōu)異,二者缺點(diǎn)是相較于微處理器,其體積和功耗更大,價格更貴。6.2.2主控電路設(shè)計一、氣體傳感器氧氣是人類正常生活必不可少的氣體,因此氧氣濃度是重要的檢測參數(shù)??扇夹詺怏w,以瓦斯為主要代表,其主要成分是烷烴,其中甲烷含量所占比例最高,其次還有少量的乙烷、丙烷和丁烷。烷烴類氣體具有易燃易爆的特點(diǎn),而且濃度過高時也可造成缺氧,甚至使人窒息死亡。分類優(yōu)點(diǎn)缺點(diǎn)半導(dǎo)體響應(yīng)速度快、檢測靈敏度高、結(jié)構(gòu)簡單、價格低廉測量線性范圍小,受背景氣體干擾較大電化學(xué)線性和重復(fù)性較好,體積小,功耗小,分辨率較高,壽命較長易受干擾,靈敏度受溫度變化影響較大催化燃燒式對環(huán)境濕度、溫度的影響不敏感,近線性的輸出信號,響應(yīng)快精度低,電流功耗大,對可燃性氣體無選擇性,有引燃爆炸的危險,易中毒紅外式無需加熱、響應(yīng)速度快、精度高、靈敏度高、壽命長技術(shù)不夠成熟,制造成本高,使用復(fù)雜表6.3氣體傳感器的分類及各自優(yōu)缺點(diǎn)對比圖6.36MQ-2氣體傳感器化石能源生產(chǎn)和消耗環(huán)境氣體檢測主要分三大類:氧氣檢測、有毒氣體檢測和可燃性氣體檢測。6.2.3多傳感器接口設(shè)計二、溫度傳感器

消防的目的就是為了救災(zāi)滅火,防止火勢進(jìn)一步蔓延而造成更多的損失,對環(huán)境的溫度測量有助于消防工作。同時,為保護(hù)機(jī)器人內(nèi)部元器件,防止高溫對機(jī)器人的損害,可以采用機(jī)器人暫時遠(yuǎn)離火場,或者噴水自冷卻等保護(hù)措施,則還需探測機(jī)器人內(nèi)部的溫度,來判斷何時該啟動保護(hù)措施。因此溫度傳感器需包括車內(nèi)和車外溫度傳感器。三、超聲波傳感器

機(jī)器人在行進(jìn)過程中,有時會遇到各種障礙物、崎嶇路段,為保證車體順利前進(jìn),不被障礙物阻隔,或者遇到洼地、較大的坑時被陷入無法動彈,我們需要增加一些測距傳感器,測量車體與前方物體的距離,通過距離大小來判斷機(jī)器人周圍路段情況。當(dāng)判斷出前方有較高較大阻礙物,或者深坑、洼地等不良路面時,機(jī)器人需要提前避開,當(dāng)阻礙物較低較小,或者路面情況良好時,機(jī)器人可以直接碾過去,因此還需注意傳感器在車體上的安放位置。6.2.3多傳感器接口設(shè)計在機(jī)器人感知系統(tǒng)設(shè)計方面,現(xiàn)階段較為成熟的是就是統(tǒng)一建模語言(UnifiedModelingLanguage,UML,UML在面向?qū)ο竽P偷谋硎痉矫娴玫搅藦V泛的認(rèn)可。(一)邏輯視圖,解決了系統(tǒng)的功能需求,是設(shè)計模型的抽象,并確定了主要的設(shè)計包、子系統(tǒng)和類;(二)實(shí)現(xiàn)視圖,從打包、分層和配置管理的角度描述組織中的靜態(tài)模塊;(三)進(jìn)程視圖,處理系統(tǒng)運(yùn)行時任務(wù)、線程或進(jìn)程的并發(fā)方面及其交互;(四)部署視圖,顯示底層平臺或計算節(jié)點(diǎn)中各種可執(zhí)行文件和其他運(yùn)行時組件的映射;(五)用例視圖,在初始階段和精化階段推動架構(gòu)的發(fā)現(xiàn)和設(shè)計,稍后將用于驗(yàn)證不同的視圖。表6.4

UML表現(xiàn)不同的視圖名稱視圖主要符號組合結(jié)構(gòu)圖表現(xiàn)架構(gòu)需求,主要包括Part、Port接口和鏈接Part

、Port、接口、連接關(guān)系用例圖表現(xiàn)功能需求,

主要包括用例和參與者用例、參與者、關(guān)聯(lián)關(guān)系類圖表現(xiàn)靜態(tài)結(jié)構(gòu),

主要包括一群類及其間的靜態(tài)關(guān)系關(guān)聯(lián)關(guān)系、泛化關(guān)系序列圖表現(xiàn)一群對象依序傳送消息的交互狀況對象、消息、活動期對象圖表現(xiàn)某時刻下的數(shù)據(jù)結(jié)構(gòu),

主要包括一群對象及其間擁有的數(shù)據(jù)數(shù)值對象、鏈接、消息協(xié)作圖表現(xiàn)一群有鏈接的對象傳送消息的交互狀況對象、鏈接6.2.4UML機(jī)器人感知系統(tǒng)設(shè)計UML的主要特點(diǎn):(一)統(tǒng)一的標(biāo)準(zhǔn)。UML統(tǒng)一了眾多方法中的基本概念,并被OMG接受為標(biāo)準(zhǔn)的建模語言,越來越多的開發(fā)人員和廠商開始支持并使用UML進(jìn)行軟件開發(fā)。(二)UML吸取了其它流派的長處,包括一些非常規(guī)方法的影響,同時也溶入了軟件工程領(lǐng)域的新思想、新方法和新技術(shù),它是開發(fā)者依據(jù)最優(yōu)方法和豐富的計算機(jī)科學(xué)實(shí)踐經(jīng)驗(yàn)綜合提煉而成的。(三)UML在演變過程中提出了一些新的概念,如模板、擴(kuò)展機(jī)制、線程、分布式、并發(fā)等,為分布式、并發(fā)以及實(shí)時系統(tǒng)等的開發(fā)提供了支持。(四)面向?qū)ο?、可視化、表示能力?qiáng)大。豐富的符號表示使得UML成為眾多應(yīng)用程序領(lǐng)域中有關(guān)獲得系統(tǒng)文件、規(guī)格說明、捕獲用戶需求、定義初始軟件體系結(jié)構(gòu)的一種受歡迎的建模語言。(五)獨(dú)立于過程。UML不依賴于特定的軟件開發(fā)過程,這也是它被眾多軟件開發(fā)人員接受的一個原因。(六)概念明確,建模表示法簡潔,圖形結(jié)構(gòu)清晰,容易掌握和使用。6.2.4UML機(jī)器人感知系統(tǒng)設(shè)計UML建模分為三個建模過程:(一)概念級:確定所需解決的問題以及目標(biāo),常采用黑盒方式確立角色和用例,然后繪制用例圖,角色可以是人,也可以是物,機(jī)器人感知系統(tǒng)中的用戶是普通用戶和設(shè)計人員,用例是系統(tǒng)所提供的功能模塊。(二)邏輯級:詳細(xì)分析用例的基本信息和工作流程,整個分析過程可以分為靜態(tài)描述和動態(tài)描述。其中靜態(tài)描述主要是明確系統(tǒng)的關(guān)鍵要素,可以使用類圖、對象圖等進(jìn)行描述,感知系統(tǒng)的關(guān)鍵要素為:微處理器、存儲器、總線、接口等,其關(guān)系為關(guān)聯(lián)關(guān)系,接口可以派生出鍵盤、顯示器、以太網(wǎng)等多個子模塊。圖6.37UML建模圖形類別(三)物理級:主要考慮系統(tǒng)的實(shí)際結(jié)構(gòu)以及物理部署,包括設(shè)備之間的連接、分布情況、組件之間的物理關(guān)系。終上所述,機(jī)器人感知系統(tǒng)的設(shè)計是軟硬件互相嵌套的組合方式,可以將從中抽取相對固定的組件以及組件端口,組合出多樣化的感知系統(tǒng),同時組件可以分散提前開發(fā),加快組合速度,并且可以外購線程組件以降低成本,為感知系統(tǒng)的模塊化設(shè)計提供基礎(chǔ)。6.2.4UML機(jī)器人感知系統(tǒng)設(shè)計一、通信原理圖6.38機(jī)器人無線通信無論是數(shù)據(jù)傳輸還是視頻傳輸,都需要通過無線發(fā)射模塊和無線接收模塊來實(shí)現(xiàn):數(shù)傳模塊和圖傳模塊均有獨(dú)立的一套無線發(fā)射器和無線接收器,其各自有一個互不干擾的傳輸頻段,設(shè)定好工作頻段即可實(shí)現(xiàn)信號在無線模塊之間傳輸。無線數(shù)傳時,無線傳輸模塊既可作發(fā)射器,也可作接收器,信號可在兩個模塊之間雙向發(fā)射和接收,而無線圖傳時,發(fā)射器與攝像頭連接,接收器與顯示器連接,由于無需給攝像頭下達(dá)控制指令,所以圖像信息是單向傳輸。6.2.5傳感器通訊模塊設(shè)計無線傳輸?shù)氖巧衔粰C(jī)與下位機(jī)之間的指令、數(shù)據(jù)、圖像等,包括上位機(jī)發(fā)出的控制指令,以及下位機(jī)對各個傳感器、電機(jī)、攝像頭的控制以及數(shù)據(jù)、圖像的采集,并返回給上位機(jī)顯示,即控制信號、數(shù)據(jù)信號和視頻信號的無線傳輸,其中控制信號和數(shù)據(jù)信號可用同一無線設(shè)備傳輸。圖6.39機(jī)器人數(shù)傳模塊數(shù)傳模塊圖傳模塊圖6.40機(jī)器人攝像頭與圖傳模塊二、模塊選擇6.2.5傳感器通訊模塊設(shè)計(一)結(jié)構(gòu)分離原則(軟硬件分離原則):分級別、分層次結(jié)構(gòu)分離原則是考慮機(jī)器人系統(tǒng)設(shè)計的分工和效率。目前現(xiàn)有的機(jī)器人系統(tǒng)專用性強(qiáng),通常采用源自專業(yè)領(lǐng)域的整體系統(tǒng)設(shè)計方法。

(二)功能分離原則(通用專用分離原則):平臺無關(guān)和平臺相關(guān)原則功能分離是功能構(gòu)件體系的基本出發(fā)點(diǎn)。(三)復(fù)合原則(可組合性):由于機(jī)器人功能具有可以復(fù)合的特點(diǎn),模塊化機(jī)器人的功能構(gòu)件應(yīng)當(dāng)具有可組合性,即應(yīng)當(dāng)具有可以復(fù)合的特性。(四)開放原則(可擴(kuò)展性):對機(jī)器人本身構(gòu)造來講,為了提高機(jī)器人軟件的復(fù)用性,實(shí)現(xiàn)源碼開放,資源共享,一些開源的機(jī)器人軟件工程獲到了快速發(fā)展,提出了自己的復(fù)用解決方案。一、硬件模塊化設(shè)計基本原則6.2.6控制系統(tǒng)硬件設(shè)計二、底層節(jié)點(diǎn)模塊三、傳感器模塊機(jī)器人感知系統(tǒng)的硬件平臺設(shè)計的基本任務(wù)是根據(jù)其所連接的各種傳感器的輸出方式設(shè)計相應(yīng)的信號接口處理電路,用于傳感器的信號轉(zhuǎn)換和處理。傳感器模塊總體來說包括執(zhí)行器、模擬傳感器和數(shù)字傳感器,該模塊是直接與物理世界連接的裝備,一切信號的來源,實(shí)現(xiàn)物理信號到數(shù)字信息的轉(zhuǎn)換。機(jī)器人感知系統(tǒng)節(jié)點(diǎn)是傳感器與計算機(jī)或傳感器網(wǎng)絡(luò)之間連接的橋梁,解決傳感器的異構(gòu)性帶來的諸多問題,完成從原始信號到數(shù)據(jù)的數(shù)據(jù)流過程,一般是指傳感器與計算機(jī)或傳感器網(wǎng)絡(luò)之間的硬件連接設(shè)備,主要包括傳感器信號的轉(zhuǎn)換、調(diào)理電路,有時還包括模數(shù)轉(zhuǎn)換器以及數(shù)據(jù)通訊的總線接口。6.2.6控制系統(tǒng)硬件設(shè)計一、機(jī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論