版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)時代的漢語(Hny)研究應(yīng)對張平彭海燕(hi yn)摘要: 大數(shù)據(jù)時代對漢語研究提出(t ch)了新的要求,語言是人類最為重要的交流思想、傳遞信息的工具,研究好自然語言這一工具是我們打開大數(shù)據(jù)寶藏必備的鑰匙。從語言大數(shù)據(jù)的機(jī)器自動提取與分析來看,漢語研究應(yīng)該從漢語的實際使用出發(fā),面向語言大數(shù)據(jù)的處理,進(jìn)行更為全面地觀察,揭示更為精細(xì)的使用規(guī)則,描寫更為細(xì)致的語義特征和語義關(guān)系,探索新的漢語語義知識表述理論體系。關(guān) 鍵 詞: 語言大數(shù)據(jù); 漢語研究; 漢語使用規(guī)則; 漢語語義知識表述理論體系DOI:10.16059/43-1008/c.2015.03.029大數(shù)據(jù)正以前所未有的廣度和深度影
2、響著這想象僅憑人力能夠完成有史以來如此浩瀚的大數(shù)個時代,諸多基于大數(shù)據(jù)分析的系統(tǒng)讓我們的生活據(jù)提取和分析工作。為大數(shù)據(jù)服務(wù)的語言研究,一變得更加便利。價格預(yù)測系統(tǒng)幫助我們購買到便定是面向機(jī)器的。面向機(jī)器的語言研究,發(fā)端于機(jī)宜的商品,異常交易報警系統(tǒng)保護(hù)信用卡的安全,器翻譯系統(tǒng)研發(fā)的需要。上個世紀(jì)七八十年代,概流行病監(jiān)測系統(tǒng)及時預(yù)報疾病感染的區(qū)域等等,大念依存理論、擴(kuò)展轉(zhuǎn)移網(wǎng)絡(luò)、廣義短語結(jié)構(gòu)語法、中數(shù)據(jù)為我們開啟了一扇扇從紛繁復(fù)雜的現(xiàn)象中尋心詞短語結(jié)構(gòu)語法等在小規(guī)模的語言實例訓(xùn)練中求事物相關(guān)性的大門。從顧客網(wǎng)絡(luò)購物的海量記表現(xiàn)突出,給機(jī)器在理解自然語言的基礎(chǔ)上進(jìn)行翻錄里,商家可以通過統(tǒng)計分析,了
3、解不同人群的喜譯帶來了希望。但是,這些基于有限規(guī)則的系統(tǒng)好,為他們定制個性化的服務(wù)。大數(shù)據(jù)背后蘊(yùn)藏并不能很好地處理各種紛繁復(fù)雜的真實語料。隨著價值驚人的信息,這些信息的載體,有數(shù)字、有圖著互聯(lián)網(wǎng)的迅猛發(fā)展,大規(guī)模的語言數(shù)據(jù)成為了重片,更有自然語言。語言是人類最為重要的交流思要的研究資源。一部分機(jī)器翻譯研究者拋開對語想、傳遞信息的工具,研究好自然語言這一工具是言結(jié)構(gòu)的分析和歸納,聲稱不需要特定語言學(xué)家的我們打開大數(shù)據(jù)寶藏必備的鑰匙。翻譯系統(tǒng)通過對海量數(shù)據(jù)的統(tǒng)計,構(gòu)建起統(tǒng)計機(jī)器一 面向機(jī)器的語言研究背景翻譯模型,并為社會用戶提供了切實的網(wǎng)絡(luò)翻譯服務(wù)。盡管基于統(tǒng)計的翻譯系統(tǒng)在工程上以更易于大數(shù)據(jù)的力
4、量必須借助于機(jī)器才能實現(xiàn),無法開發(fā)的優(yōu)勢領(lǐng)先于基于規(guī)則的系統(tǒng),但每一個用過作者簡介: 張平,博士,湖南大學(xué)中國語言文學(xué)學(xué)院副教授 / 彭海燕,湖南大學(xué)中國語言文學(xué)學(xué)院碩士研究生。( 湖南 長沙,410082)基金項目: 教育部人文社科規(guī)劃青年基金項目( 12YJC740139)維克托邁爾舍恩伯格、肯尼思庫克耶: 大數(shù)據(jù)時代: 生活、工作與思維的大變革,杭州: 浙江人民出版社,2013 年。馮志偉: 自然語言處理的形式模型,北京: 中國科學(xué)技術(shù)出版社,2010 年。139google 和有道翻譯的用戶(yngh)都不會對其翻譯效果表示十分(shfn)的滿意。不少研究者仍希望通過(tnggu)對自
5、然語言進(jìn)行面向機(jī)器的深入探索,從根本上突破機(jī)器翻譯的難題。伴隨著大數(shù)據(jù)時代的來臨,語言數(shù)據(jù)的機(jī)器提取與分析對語言研究提出了更多的要求。詹衛(wèi)東從計算語言學(xué)的發(fā)展過程中得到啟發(fā),認(rèn)為大數(shù)據(jù)時代的漢語研究,首先應(yīng)該更加注重語言工程的研究和開發(fā),以提高漢語大規(guī)模語言資源的數(shù)量、類型及易獲得性,因此,漢語語言資源建設(shè)應(yīng)努力實現(xiàn)語言范疇形式化、語言數(shù)據(jù)專項化和語言知識可視化; 其次,漢語語言學(xué)的研究應(yīng)更加開放、更具多元化視角、更加注重多學(xué)科的交叉和融合。除了詹文指出的兩大宏觀方向外,從語言大數(shù)據(jù)的機(jī)器自動提取與分析本身來看,漢語研究還應(yīng)該關(guān)注漢語的計量單位和漢語的結(jié)構(gòu)化這兩個方面的問題。獲取語言大數(shù)據(jù)的根
6、本目的,在于挖掘具有統(tǒng)計學(xué)意義的語言大數(shù)據(jù)背后有價值的信息。對超大規(guī)模語言材料進(jìn)行計量統(tǒng)計是語言大數(shù)據(jù)處理的前提,而漢語的結(jié)構(gòu)化,尤其是語義知識的結(jié)構(gòu)化是訓(xùn)練機(jī)器自動理解語言大數(shù)據(jù)所承載的語義信息的基礎(chǔ)。二 對超大規(guī)模語言材料進(jìn)行計量統(tǒng)計的漢 語研究應(yīng)對語言是一套音義結(jié)合的符號系統(tǒng),語言信息主要以語義知識的形式存在。這一特點決定了服務(wù)于語言大數(shù)據(jù)提取與分析的漢語研究首先要從作為音義結(jié)合體的各語言單位計量統(tǒng)計入手。要進(jìn)行語言單位的計量,最為基礎(chǔ)的語言研究任務(wù)是對它們進(jìn)行劃分和定性。以往談?wù)Z言單位,主要是語素、詞、短語、句子、語段、語篇等。在漢語中,句子、語段和語篇由于形式上有明顯的分隔標(biāo)記,句子
7、可 以依靠句號、問號和嘆號等句末的點號來分隔,語 段可以依靠段前段后的空格來分隔,語篇可以依靠 標(biāo)題等來分隔,確定起來并不困難。漢語的語素、 詞和短語這三級單位的分界沒有形式上的標(biāo)志。 語言學(xué)上的區(qū)分所依據(jù)的是入句的語法功能和內(nèi) 在的意義,概括起來即是能否獨(dú)立運(yùn)用和是否具有 意義上的凝固性。語素不具有獨(dú)立運(yùn)用的能力,短 語不具有意義上的凝固性,其意義等于組成成分意 義的加合,詞則是能夠獨(dú)立運(yùn)用的最小的音義結(jié)合體。這一特點使得詞在語言的理解中作用特殊,是最小的意義理解(lji)單元。要將這三級單位(dnwi)區(qū)分開來,語言研究者常用(chn yn)的方式是替換法和擴(kuò)展法??商鎿Q的是多個語素組成的
8、合成詞,不可替換的是一個語素組成的單純詞,例如: “新娘”是一個由兩個語素組合而成的詞,可以進(jìn)行替換操作: 用“姑”替換“新”,可以組合成“姑娘”; 用“人”替換“娘”可以組合成“新人”。但“蜻蜓”中的“蜻”或者“蜓”就不能用別的語言單位來替換,只能是一個語素組合而成的詞。另一方面,“新娘”不能像“新書”那樣進(jìn)行擴(kuò)展操作,其意義不等于組成成分意義的加合,即“新書”的意義等同于“新的書”,而“新娘”在意義上并不是“新的娘”,所以,“新娘”不是短語,“新書”是短語。這兩種劃分操作是人運(yùn)用其所掌 握的語言學(xué)知識,包括語法和語義知識,以及其他 百科知識才得以實現(xiàn)的。在超大規(guī)模的語言數(shù)據(jù) 面前,人工去一
9、一分辨絕不可能,必須求助于機(jī)器 的自動操作。目前,國內(nèi)外的不少研究機(jī)構(gòu)都開發(fā) 了漢語的自動分詞和詞性標(biāo)注系統(tǒng),但這些系統(tǒng)中 沒有一個是既便于操作又能將詞毫無爭議地切分 出來,并對其進(jìn)行準(zhǔn)確定性的。這一現(xiàn)狀已經(jīng)成為 了漢語信息處理的基本障礙。要解決這個困難,除了繼續(xù)探索基于統(tǒng)計的計 算模型外,漢語研究的精細(xì)化勢在必行。漢語自動 分詞的困難當(dāng)前集中在歧義字段和未登錄詞這兩 大方面。無論是歧義字段的分詞和標(biāo)注,還是未 登錄詞的識別,都需要漢語研究者去發(fā)現(xiàn)更為細(xì)致 的形式上的特點,以便于寫出好的規(guī)則存入電腦的 規(guī)則庫中。例如: “了”什么時候該分成一個獨(dú)立 的詞,什么時候只是一個構(gòu)詞的語素? 漢語本體
10、研 究的成果表明: “了”獨(dú)立成詞,若是動態(tài)助詞,其 前必定是一個謂詞性成分,若為語氣助詞,則位于 句末,其后有句末標(biāo)點符號,若作動詞,表示完結(jié)的 意思時,后面可以帶名詞賓語,表示可能與不可能 時,以“V + 不 / 得了”的形式出現(xiàn); “了”若是一個構(gòu) 詞語素,只存在于有限的“了得”、“了不得”、“了不起”、“了結(jié)”、“了解”、“了卻”“了事”、“罷了”、“除了”、“大不了”、“得了”、“明了”、“末了”、“私了”、“為了”“終了”等詞中。將這些細(xì)化的、具有形式上的標(biāo)記的條件寫成規(guī)則,對提高“了”自動分詞和詞性標(biāo)注的精確性會有直接的幫助。由此推及一般,面向機(jī)器的漢語本體研究,應(yīng)該更多地詹衛(wèi)東
11、: 大數(shù)據(jù)時代的漢語語言學(xué)研究,山西大學(xué)學(xué)報( 哲學(xué)社會科學(xué)版) 2013 年第 5 期。孫鐵利、劉延吉: 中文分詞技術(shù)的研究現(xiàn)狀與困難,信息技術(shù)2009 年第 7 期。140關(guān)注語言的實際使用(shyng)情況,在詞、語、句、篇等語言(yyn)單位的使用特點(tdin)上下更多的功夫,揭示更多的、更為細(xì)致的用法及其語境條件。三機(jī)器自動理解語言大數(shù)據(jù)的漢語研究應(yīng)對大數(shù)據(jù)時代漢語研究要解決的第二個問題是 漢語的結(jié)構(gòu)化,既包括語表形式的結(jié)構(gòu)化,也包括 語里意義的結(jié)構(gòu)化。在這個問題上,句子處于樞紐位置。句子是言語交際的基本單位,自然語言理解的關(guān)鍵是句子。無論是口語,還是書面語,句子都以線性的方式呈現(xiàn)
12、,但句法構(gòu)造和語義構(gòu)造并非如此?!鞍职趾芟矚g聽女兒唱歌”,并非以線性方式,先“爸爸”和“很”直接組合成“爸爸很”,而后以“爸爸很喜歡”“爸爸很喜歡聽”“爸爸很喜歡 聽女兒”“爸爸很喜歡聽女兒唱歌”的方式一步 一步組合而成。相反,和“爸爸”以主謂關(guān)系直接組合的是“很喜歡聽女兒唱歌”這個短語,在這個短語中,“很”與“喜歡聽女兒唱歌”以狀中的關(guān)系直接組合,“喜歡”與“聽女兒唱歌”以述賓關(guān)系直接組合,“聽”與“女兒唱歌”以述賓關(guān)系直接組合,“女兒”與“唱歌”又以主謂關(guān)系直接組合。其語義結(jié)構(gòu)是,“喜歡”的主體是“爸爸”,客體是“聽女兒唱歌”,程度是“很”,“聽”的主體是“爸爸”,客體是“女兒唱歌”,而“
13、唱歌”的主體又是“女兒”。理解句子的意義,必須清楚其結(jié)構(gòu)層次和語義關(guān)系。機(jī)器理解句子的根本,即是對句子進(jìn)行結(jié)構(gòu)預(yù)測,包括句法結(jié)構(gòu)的預(yù)測和語義結(jié)構(gòu)的預(yù)測。漢語機(jī)器理解的困難在于,漢語是一種重意合的語言,缺少明確的詞類標(biāo)記和句法標(biāo)記,語義成分、句法成分的省略比比皆是,語序也具有很大的靈活性,這樣就造成了不少的歧義結(jié)構(gòu)、緊縮句、流水句和變式句等,大大增加了漢語結(jié)構(gòu)化的難度。如“動詞 + 名詞”結(jié)構(gòu),“指導(dǎo)老師”是修飾關(guān)系的定中短語,“指導(dǎo)學(xué)生”卻是支配關(guān)系的述賓短語?!跋矚g + 漂亮 + 名詞”結(jié)構(gòu),既可能是“漂亮”與其后的名詞直接組合為結(jié)構(gòu)體,再跟“喜歡”組合,構(gòu)成述賓結(jié)構(gòu),如“喜歡漂亮的衣服”,
14、又可能是“喜歡”和“漂亮”直接組合的結(jié)構(gòu)體,再和后面的名詞組合,構(gòu)成定中結(jié)構(gòu),如“喜歡漂亮的老人”,還可能是二者皆可,如“喜歡漂亮的姑娘”既可以是述賓短語,又可以是定中短語。再如“名詞+ 名詞 + 名詞”結(jié)構(gòu),“老王的兒子的同學(xué)”,先是“老王”和“兒子(r zi)”直接(zhji)組合,再和“同學(xué)(tng xu)”組合,而“老王的中學(xué)的同學(xué)”則是“老王”和“中學(xué)同學(xué)”直接組合,“中學(xué)”和“同學(xué)”直接組合。面向機(jī)器的漢語研究,應(yīng)該積極探索這些結(jié)構(gòu)中的決定性因素。如“指導(dǎo)老師”和“指導(dǎo)學(xué)生”的不同在于“老師”和“學(xué)生”的語義特征不一樣,“老師”的詞義中包含了作為指導(dǎo)者的身份,“學(xué)生”則是被指導(dǎo)者的
15、身份?!跋矚g漂亮的衣服”、“喜歡漂亮的老人”和“喜歡漂亮的姑娘”的差別在于,“衣服”是無生名詞,一般情況下是不可能產(chǎn)生“喜歡”的情緒的,只能作受事,“老人”和“姑娘”都是有生的名詞,可以是“喜歡”的施事,也可以是喜歡的受事,但“漂亮”這個形容詞對人的語義選擇傾向主要是年青的女性或年幼的孩子,所以不會有“漂亮的老人”的組合。把這些語義特征教給機(jī)器,必然會提高對這兩個結(jié)構(gòu)的預(yù)測能力。漢語的這些結(jié)構(gòu),盡管已經(jīng)有了一些可應(yīng)用于機(jī)器處理的成果,但就廣度和深度而言,現(xiàn)有的研究還遠(yuǎn)遠(yuǎn)不能滿足語言大數(shù)據(jù)處理的需要。要在這個問題上有所突破,漢語語義框架、語義網(wǎng)絡(luò)的構(gòu)建勢在必行。這里的語義框架和語義網(wǎng)絡(luò),既包括像
16、董振東先生開發(fā)的知網(wǎng)( HowNet) ,也包括每個詞由多個典型語義特征與輻射語義特征鏈接而成的概念框架,如“老師”一詞的語義框架,其典型語義特征是“人”、“具有一定學(xué)識和技能”、“傳授知識”、“指導(dǎo)學(xué)生”,并由這些典型特征激活對相關(guān)背景知識的聯(lián)想,輻射出“智慧”、“權(quán)威”、“奉獻(xiàn)”、“愛心”、“值得尊敬”等含義,由此構(gòu) 成一個有結(jié)構(gòu)的概念網(wǎng)絡(luò):語義網(wǎng)絡(luò)還包括句子乃至語篇的語義聯(lián)想網(wǎng) 絡(luò),如句子“上課鈴聲響了”,會激活如下相關(guān)場景: “老師走進(jìn)了教室,同學(xué)們都安靜了下來,打開劉宓慶: 漢英對比研究的理論問題( 下) ,外國語1991 年第 5 期。程琪龍: 語義框架和認(rèn)知操作,外語教學(xué)2007
17、 年第 1 期。141劃、國家自然科學(xué)基金和社會科學(xué)基金的資助下開 展了多個(du )漢語框架語義網(wǎng)絡(luò)的建構(gòu),但不論(bln)其規(guī)模 還是效果,都不能很好地滿足(mnz)實際應(yīng)用的需要。這其中一個重要原因,是對漢語詞、句、篇的語義本體 研究還十分地不充分。在這些本體研究當(dāng)中,漢語 研究者既需要對具體的詞、句、篇進(jìn)行細(xì)致地語義 特征描寫和語義關(guān)系刻畫,進(jìn)而建構(gòu)大規(guī)模的語義 資源庫,更需要對漢語語義知識的表述理論進(jìn)行根 本性的創(chuàng)新,因為它是語義知識庫構(gòu)建的基礎(chǔ)。要在漢語語義知識表述理論上有所創(chuàng)新,我們有必要 思考語義知識在我們頭腦中存儲的方式和結(jié)構(gòu),有 必要思考我們究竟是如何組詞造句謀篇以完成我
18、們的交際意圖,又是如何對接收到的語言符號序列 進(jìn)行結(jié)構(gòu)的分析、如何調(diào)動存貯于我們大腦中的相 關(guān)知識達(dá)到意義的理解等問題。漢語結(jié)構(gòu)化的研 究,除了我們已有的研究方法和研究模式之外,十不細(xì)致。國內(nèi)的漢語信息處理學(xué)界在國家 863 計如美國加州大學(xué)的 FrameNet。這些成果的對象主算語言學(xué)界的研究者建立起了互聯(lián)網(wǎng)在線框架網(wǎng),了較深入的理論和個例的探討,其研究成果啟發(fā)計書本,做好聽課的準(zhǔn)備,值日生喊起立,老師請同學(xué)分有必要引入認(rèn)知學(xué)科的理論和方法,以促進(jìn)漢語們坐下,開始講課”,等等,它們共同構(gòu)成一個有關(guān)語義知識表述理論的創(chuàng)新。開始上課的語義框架。后兩個方面的內(nèi)容,國外的認(rèn)知語義學(xué)已經(jīng)有大數(shù)據(jù)時代給漢語帶來了新的研究課題,不僅需要漢語研究者在思想觀念上重視語言工程的研 發(fā),在知識結(jié)構(gòu)上進(jìn)行語言學(xué)、統(tǒng)計學(xué)、計算機(jī)科學(xué) 等多學(xué)科的交融調(diào)整,也需要從事漢語本體研究
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度智能家居二手房買賣居間合同(科技版)4篇
- 洛陽二零二五版房產(chǎn)買賣糾紛調(diào)解協(xié)議書4篇
- 2025版烏笑與配偶離婚后子女監(jiān)護(hù)權(quán)變更協(xié)議3篇
- 2025版智慧醫(yī)療服務(wù)平臺建設(shè)合同4篇
- 2025版健康體檢中心與醫(yī)療機(jī)構(gòu)聯(lián)姻合同3篇
- 二零二五年度森林碳匯項目承包樹木合同4篇
- 二零二五版藝術(shù)品收藏100%股權(quán)轉(zhuǎn)讓與保管協(xié)議3篇
- 二零二四年農(nóng)業(yè)科技園區(qū)農(nóng)產(chǎn)品種植技術(shù)研發(fā)合同3篇
- 2025版?;愤\(yùn)輸合同應(yīng)急管理規(guī)范與案例集3篇
- 2024年熱力管道網(wǎng)絡(luò)機(jī)電安裝工程合同
- 2024年二級建造師繼續(xù)教育題庫及答案(500題)
- 《中華民族多元一體格局》
- 2023年四川省綿陽市中考數(shù)學(xué)試卷
- 選煤廠安全知識培訓(xùn)課件
- 項目前期選址分析報告
- 急性肺栓塞搶救流程
- 《形象價值百萬》課件
- 紅色文化教育國內(nèi)外研究現(xiàn)狀范文十
- 中醫(yī)基礎(chǔ)理論-肝
- 小學(xué)外來人員出入校門登記表
- 《土地利用規(guī)劃學(xué)》完整課件
評論
0/150
提交評論