計算模型在雙語詞匯識別中的應用

上傳人：1*** IP屬地：廣東上傳時間：2023-10-26 格式：DOCX 頁數：7 大?。?3.77KB 積分：9.6 舉報 版權申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

計算模型在雙語詞匯識別中的應用

0.雙語詞匯識別模型自20世紀80年代以來，連接模型1（即人工神經網絡）模型已被廣泛用于研究母語的理解和生產。這種機制在于模擬成年人的語言系統以及該系統的發(fā)展過程。在雙語詞匯識別領域也有一部分研究采用了聯結主義模型的方法。本文主要介紹其中的兩種模型,即局域式網絡模型和分布式網絡模型。1.雙語詞匯識別模型計算模型在雙語詞匯識別研究中具有一定優(yōu)勢。首先,建立計算模型必須使理論本身足夠清晰以滿足計算機應用的需要;其次,當某種理論的預測結果很難確定時(比如理論中各因素之間的相互影響非常復雜時),計算模型通過訓練后能夠生成可檢驗的結果,將模型的計算結果和實驗數據進行對比即可分析理論的解釋力水平;最后,計算模型可以模擬一些語言研究中的特殊情況,比如腦損傷造成的語言缺失,而這很難通過實驗的方法來研究。但是,在雙語詞匯識別研究中應用計算模型仍有一些值得考慮的問題。首先,盡管計算模型在應用過程的主要評估標準是其對實際數據的模擬程度,但是只有模擬仍然不夠,計算模型還必須服務于理論的發(fā)展。因此,建立模型時,研究者必須了解模型運轉的機制,弄清模型中哪些方面影響著模型的模擬效果。其次,不同模型的計算結果之間具有差異,其差異的起因各有不同:某些差異源于不同的理論基礎,另一些則可能是因為模型選用的處理結構不同。雙語詞匯識別模型主要關注兩個問題:1)雙語者記憶中兩種語言存儲于同一個系統還是分別存儲于兩個系統?2)如果存儲于兩個分離的系統,那么兩個系統中的詞匯提取是串行還是并行?該領域的許多理論都圍繞上述問題而構建,基于這些理論建立的計算模型又使理論本身不斷發(fā)展。其中大部分計算模型都遵循聯結主義模型,采用神經計算的方法,究其原因有兩點:第一,研究者認為雙語詞匯識別屬于認知系統中的功能處理和表征結構范疇,可以通過神經層面的計算來模擬;第二,聯結主義模型在處理方式上形同人腦,因此似乎可以建立語言數據和大腦功能成像數據之間的聯系。但事實上,模型本身是一種簡化的模擬,不可能包含所有生物神經層面的特征。因此,聯結主義模型應用的是一種抽象的神經計算概念,并不能等同于人腦中的神經網絡。根據處理單元的特征以及處理單元之間聯結強度變化的不同,雙語詞匯識別聯結主義模型可以大致分為兩種,即局域式網絡模型和分布式網絡模型。這兩種模型具有相同的組成成分,即處理單元和處理單元之間的聯結。處理單元具有不同的激活閾值,它們通過不同的聯結強度相互影響激活狀態(tài)。兩種模型的不同之處在于:局域式網絡模型對其中的處理單元賦予了一定的特征,并且處理單元之間的聯結強度是根據理論分析的結果預設好的,不會隨著模型的學習而發(fā)生變化;而分布式網絡模型中單個的處理單元并不能表征特征,該表征通過處理單元之間的激活方式來實現。換句話說,分布式網絡模型中的單個處理單元沒有實際含義,處理單元之間的激活方式才對應于局域式網絡模型中處理單元所表征的特征。此外,相對于局域式網絡模型中不變的處理單元之間的聯結強度,分布式網絡模型允許由經驗引起的改變,網絡通過學習來建立不同信息類型之間的映射。網絡中不同處理單元之間的聯結強度也會隨著學習過程發(fā)生相應改變并最終形成穩(wěn)定的映射關系。下面分別介紹雙語詞匯識別領域目前比較成功的局域式網絡模型和分布式網絡模型,并對國內的相關研究進行回顧。2.bia在詞匯激活作用上的應用根據模擬對象的不同,局域式網絡模型可以大致分為三類:一是針對視覺詞匯的模型,該類模型主要研究字母輸入的視覺詞匯識別;二是針對聽覺詞匯的模型,該類模型主要研究語音輸入的詞匯識別;三是針對多層面詞匯表征的模型,該類模型不僅同時涉及字母輸入和語音輸入,而且建立了詞匯與語義之間的映射。視覺詞匯激活模型中具有重要影響的模型之一是Dijkstra等人提出的“雙語互動激活模型”(BilingualInteractiveActivationModel,BIA)(Dijkstra,etal.,1998;vanHeuven,etal.,1998)。該模型源于McClelland&Rumelhart(1981)提出的“互動激活模型”(InteractiveActivationModel,IA),其研究對象是母語中的詞優(yōu)勢效應,它是局域式網絡模型應用于語言處理的里程碑。BIA是基于英語和荷蘭語的雙語處理模型,其基本結構如圖1所示:在結構上,BIA模型由4個結點層組成,分別為特征結點層、字母結點層、單詞結點層和語言結點層。位于最下方的特征結點層具有14種視覺特征,其上的字母結點層編碼了26個字母,再上面的單詞結點層涉及英語和荷蘭語中的四字母單詞,最上面是語言結點層,只包含兩個結點,分別表示英語和荷蘭語(圖1中的箭頭表示激活,帶有圓點的線條表示抑制)。雖然圖中的單詞結點層畫出了兩個單詞集合,分別對應于英語和荷蘭語單詞,但是在實際處理過程中,所有單詞都會進行橫向競爭以達到激活狀態(tài),因此單詞結點層呈現為一個合成的單一詞庫。視覺輸入進入模型時,模型首先判斷該輸入是否具有某種字母特征。如果該輸入與某個字母的特征相吻合,那么該字母就被激活;相反,如果輸入信息與某個字母的特征不符,那么模型就會抑制該字母的激活。字母激活后,它們又接著激活符合該字母位置的單詞。單詞結點層中的所有單詞結點相互聯結,因此,一個單詞的激活會抑制其他單詞的激活。這就是橫向限制或者橫向競爭。此外,被激活的單詞還會將激活信息反饋到它的組成字母。由于模型中英語和荷蘭語的單詞結點之間相互聯結,因此該模型采用的是一個統一的雙語詞典。在字母結點層上被激活的字母會同時激活兩種語言中具備該字母信息的單詞。這些單詞會進行橫向限制來獲取激活狀態(tài)。除了橫向限制之外,BIA模型還利用了語言結點來限制某種語言的激活。在語言結點層,語言結點收集單詞的激活情況,如果某語言結點被激活,那它就會抑制另一種語言的所有激活動作。因此,語言結點在該模型中起到了從上到下的限制作用?？偟膩碚f,BIA模型在處理過程中有3條原則制約激活過程。首先,激活狀態(tài)從模型的底層向頂層流動,從特征到字母,再到單詞,最后到語言。與輸入相符的上一層結點才能被激活。其次,在單詞結點層上,兩種語言的單詞通過橫向競爭獲得激活。最后,語言結點發(fā)揮從上到下的限制作用。被激活的單詞可以促進其剩余字母的激活,被激活的語言可以抑制另一種語言的激活。隨著激活過程在不同層面之間的流動以及新結點的激活,與輸入信息最匹配的單詞結點會達到識別閾值,于是該單詞被識別。目前已有的研究表明,BIA在鄰近效應、組成部分啟動效應以及語際間同形異義詞激活方面具有較好的模擬效果。再看聽覺詞匯激活模型,其中具有重要影響的模型之一是“雙語詞匯提取互動模型”(BilingualInteractiveModelofLexicalAccess,BIMOLA)(Lewy&Grosjean,1997)。雖然都是局域式網絡模型,BIMOLA與BIA之間存在明顯區(qū)別。首先,BIA采用的是統一的雙語詞典,而BIMOLA為每種語言設計了單獨的詞典。具體來說,BIA中兩種語言的所有詞匯之間通過橫向競爭來達到激活狀態(tài),并且這個過程受語言結點從上到下的制約;而在BIMOLA中,詞匯只與本語言中的其他詞匯競爭來達到激活狀態(tài)。其次,為了解決口語識別中的語境效應問題,BIMOLA使用了從上到下的語言激活機制,具體采用的是總體語言信息,這不同于BIA中的語言結點。BIA中的語言結點不能激活某種語言的詞匯,它只能抑制沒有被激活的語言;而總體語言信息可以激活它所表示的語言中的所有單詞。總之,研究者在兩種模型中采用了不同的詞典結構和從上到下的制約機制,其中的差異反映了聽覺和視覺在認知需要上的不同。最后再看多層面詞匯表征模型,其中影響較大的是“語義、拼寫和語音互動激活模型”(Semantic,Orthographic,andPhonologicalInteractiveActivationModel,SOPHIA)(Dijkstra&vanHeuven,2002)。該模型源于Dijkstra&vanHeuven(2002)提出的一個被稱為BIA+的理論。與BIA不同,BIA+中的語言結點不再限制語言的激活。在結構上,拼寫、語音、語義和語言結點共同組成了BIA+模型的識別系統。Dijkstra&vanHeuven用局域式網絡實現了BIA+理論,即SOPHIA模型。到目前為止,該模型的模擬還僅限于母語單音節(jié)的詞匯處理。但是,該模型可以解決許多其他模型無法解決的語音和拼寫模擬問題?，F在,研究者們正逐漸將該模型應用于雙語詞匯處理研究?？傮w而言,局域式網絡模型對網絡中的處理單元賦予一定的特征(如字母特征、字母和詞等),根據不同的特征將網絡分為不同的層次。各處理單元之間的聯結強度根據模型所基于的理論預先設定,不會因為經驗和學習而發(fā)生改變。因此,局域式網絡旨在研究詞匯識別系統的靜態(tài)結構。由于網絡中的每個處理單元都有預先設定的特征,因此局域式網絡的優(yōu)勢在于具有較好的語義透明度,可以清楚地解釋網絡狀態(tài)。3.模型比較典型分布式網絡模型主要由3部分組成:輸入層、輸出層和內隱層。輸入層和輸出層負責處理網絡中的輸入和輸出信息,而內隱層則在學習過程中建立輸入層和輸出層之間復雜的表征結構。由于分布式網絡模型可以根據經驗進行學習并改變處理單元之間的聯結強度,因此該網絡可以應用于語言習得和語言變化的動態(tài)研究。但由于內隱層的表征結構難以預測,分布式網絡往往在理論上顯得比較模糊。建立分布式網絡模型較之局域式網絡模型的不同之處主要在于兩個步驟。首先,研究者要建立一個適用于當前認知領域的表征體系。這里的認知領域可以是對口語的語音表征,對書面語的拼寫表征,對詞義的表征或者單詞在句子內部充當某種成分的表征。其次,研究者還要建立一個網絡結構,該結構可以通過學習來建立不同認知領域之間的聯結。由于網絡中的聯結強度一開始是隨機的,因此網絡在開始的時候沒有內容。網絡模型通過訓練來習得相關的映射關系,研究者的理論基礎通過最初建立的表征體系和選用的映射學習結構來實現。分布式網絡模型在雙語詞匯識別領域的應用起步較晚,下面介紹其中3種比較典型的模型。首先是Thomas(1997)提出的“雙語單網絡模型”(BilingualSingleNetworkModel,BSN)。Thomas是在雙語詞匯處理領域運用分布式網絡模型的早期研究之一。該研究認同雙語詞匯處理中雙語詞典的合成表征結構假設,認為雙語者在處理語際間同形詞時往往會出現處理困難是在同一表征體系中存儲兩種語言的結果。該模型模擬的是拼寫與語義間關系的學習過程,由3個層面組成,即拼寫輸入層、內隱層和語義輸出層,具體結構如圖2所示:模型中的拼寫表征同BIA模型類似,都是以字母位置為依據進行編碼;而語義編碼的依據是分布式語義特征。模型中設有語境信息幫助模型進行語言處理。該模型中詞匯的識別過程開始于字母的激活,激活狀態(tài)隨著網絡聯結傳送到內隱層,進而激活相關的詞匯語義特征。由于網絡的分布表征完全由網絡自身通過學習建立,因此在對該分布式表征進行解釋時必須借助主成分分析等方法來完成。盡管BSN模型可以解釋許多語言現象,如語際語義啟動效應,但它也存在許多不足。首先,該模型只涉及拼寫和語義信息,因此無法識別語際同形詞。其次,由于網絡的表征體系完全通過學習來建立,因此該模型必須解決干涉效應問題。換句話說,線性的學習過程很容易使模型忘記與現在知識不符的早期知識。除了BSN以外,針對雙語詞匯識別的典型分布式網絡模型還有“雙語簡單遞歸網絡”(BilingualSimpleRecurrentNetwork,BSRN)(French,1998)和“雙語處理自組織模型”(Self-OrganizingModelofBilingualProcessing,SOMBIP)(Li&Farka?,2002)。BSRN的輸入和輸出層包含了所有單詞信息的編碼。通過遞歸激活,該模型依據句子中已出現的單詞和語境信息來處理下一次出現的單詞。因此,該模型的任務就是推測詞序。該模型發(fā)現,當語言之間的轉換頻率很低時,詞序特征可以建立語言之間不同的表征結構。SOMBIP是針對英語和漢語的模型,它包括語言的理解和產出兩個方面。與其他模型不同,SOMBIP沒有使用人工語言來進行訓練,它利用的是雙語兒童語言語料庫,這大大增強了模型對實際數據的模擬能力。在SOMBIP中,模型要學習兩個自組織映射(一個是英語和漢語的語音表征,另一個是兩種語言的詞匯語義)以及這兩個映射之間的聯結。聯結建立的方式是赫比學習法(Hebbianlearning)。盡管SOMBIP依據心理學和神經計算方面的研究成果設定了大量參數,以提高模型分析的效度,但遺憾的是,目前該模型還處于探索階段,研究者還沒有將其分析結果與實驗數據進行對比?？偟膩砜?上述3種模型都建立在一個統一的雙語表征體系基礎上。盡管這樣可以解釋一些語際間的干涉現象,但它并不能完全否定雙語者具有分離的雙語語言體系,語際間的干涉效應也可能源于雙語者無法輕松地控制和協調兩套語言系統(Tho-mas,2005)。此外,語際間的干涉現象并不足以解釋語言系統的分離或合成問題,后者還涉及語言習得和語言遺忘因素,這些都是分布式網絡模型下一步研究的課題。4.兩種網絡模型的對比首先,局域式網絡模型可以產出兩種數據,即反應時數據和準確率數據。前者指的是模型達到穩(wěn)定狀態(tài)所需要的訓練周期,后者則是模型達到穩(wěn)定狀態(tài)后的分析準確率。比較起來,分布式網絡模型只能產出一種數據,即準確率數據。這是分布式網絡模型在數據分析上的不足。其次,聯結主義模型可以模擬雙語者同時習得兩種語言時的語言行為。但遺憾的是,目前該模型還無法模擬某種語言處理結構已經存在時雙語者的二語習得情況。因此,如何將聯結主義模型更好地應用于二語習得研究仍有待進一步探索。再次,在語義透明度方面,局域式網絡模型較分布式網絡模型更為出色。前者處理結點的激活與相應特征的輸入直接相關,任何激活狀態(tài)都可以通過模型基于的理論來解釋。相反,分布式網絡模型中的內隱層沒有任何語義解釋力。要對模型的激活狀態(tài)進行解釋必須借助其他研究方法,如主成分分析。語義解釋力的缺失導致分布式網絡模型對其基于的理論改進貢獻有限。但是我們也應該辨證地看待這種語義透明度的缺失。正因為分布式網絡模型在特征確定上比較靈活,它產生的結果往往超出設計者的預期,因此,相對于局域式網絡模型而言可以獲得更為全面的模擬結果。最后,相對于局域式網絡模型而言,分布式網絡模型對人腦神經網絡的模擬程度更高。因此,隨著研究的深入,分布式網絡模型也許可以用于解釋實際的神經處理數據。5.使用串聯主義模型的必要性目前,國內利用聯結主義來進行雙語詞匯識別的研究還不多見。王建勤(2005)利用自組織模型模擬了外國學生漢字構形意識的發(fā)展,采用的是分布式網絡結構,該模型被稱為“漢字部件識別模型”(TheModelofComponentRecognitionofChineseCharacters,CRCC)。這個模型本質上是一個自組織特征映射網絡,其模型結構主要受美國里士滿大學李平教授和趙曉巍博士開發(fā)的“兒童初期詞匯發(fā)展自組織神經網絡”(TheSelf-organizingNeuralNetworkModelofEarlyLexicalDevelopment,DevLex-II)的啟發(fā),其主要功能是漢字的自組織學習和漢字部件的識別與分解。該模型包含兩層網絡,第一層為輸入層,是一個標準的自組織網圖,其主要功能是根據字形對漢字進行聚類;第二層為輸出層,其主要功能是將漢字分解為部件,也就是檢驗模型對漢字字形的習得結果。研究發(fā)現,潛在的漢字知識對字形習得有重要影響;與中國小學生相比,外國成人學習者需要兩倍以上的漢字識別量才能萌發(fā)漢字構形意識。此外,國內也有學者利用聯結主義模型對漢語進行研究。邢紅兵等(2007)建立了小學兒童詞匯獲得的自組織模型,成功模擬了小學二、四、六年級兒童的形聲字學習過程,其中涉及到年級效應、頻率效應、規(guī)則性效應及其交互作用。該研究結果表明輸入學

人人文庫> 全部分類> 專業(yè)文獻 > 學術論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

計算模型在雙語詞匯識別中的應用

文檔簡介

溫馨提示

最新文檔

評論

計算模型在雙語詞匯識別中的應用

文檔簡介

溫馨提示

最新文檔

評論

相關文檔