熱烈祝賀北京語言大學信息科學學院成立10周年語言信息處_第1頁
熱烈祝賀北京語言大學信息科學學院成立10周年語言信息處_第2頁
熱烈祝賀北京語言大學信息科學學院成立10周年語言信息處_第3頁
熱烈祝賀北京語言大學信息科學學院成立10周年語言信息處_第4頁
熱烈祝賀北京語言大學信息科學學院成立10周年語言信息處_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

熱烈祝賀北京語言大學信息科學學院成立10周年!語言信息處理研究所成立 23周年!重逢機遇,再迎挑戰(zhàn)

--一種變換思考

董振東

dzd@

北京語言大學

2010-05-29提綱開場白–變換思考引言應用軟件啟示錄分析和討論變換思考沒有嚴格的“詞”,只有“詞語”;不必再制定“分詞規(guī)范”;只有詞語處理,是“合”,從單字開始“合”, 字—詞語—語塊—(句)文,“合”的結果是語義關系;沒有名、形、動詞類體系,只有義類體系和虛詞詞語;沒有主、謂、賓體系,但有語義角色關系;不是樹,而是圖;引言一些令人深省的報告為何老是“落后”?一些令人深省的報告(1)“雖然在一些評測中,命名實體識別的性能達到較高水平,但是評測有很大的局限性,在真實應用環(huán)境中,命名實體識別的性能會大打折扣,命名實體識別問題還遠遠沒有得到解決。 (1)系統(tǒng)的自適應能力不強自適應能力不強是統(tǒng)計學習方法普篇存在的問題…”

--趙軍,命名實體識別、排歧和跨語言關聯(lián),中文信息學報,2009-03一些令人深省的報告(2)第一屆漢語句法分析評測學術研討會的報告稱:在詞性標注任務中,“名動詞vN的識別性能最差。這與我們的直觀識別難度判斷一致。”“在三個常用的專名小類設計(nP,nS,nO)中,機構名nO的標注效果最差,其主要原因是由于其內部組成靈活,外部句法特征分布不明顯,以及相關統(tǒng)計數據較稀疏等”vN最高F-1值:74.90 (vM最高F-1值:96.64)nO最高F-1值:53.49 (nP最高F-1值:88.44)一些令人深省的報告(3)“近30年來的研究,并沒有真正改善中文自然語言與信息處理最基本的瓶頸問題。中文自然語言應用在分詞的第一步就遠遠落后英文或其他先進語言,在技術上尚不能達到大規(guī)模應用?!@是中文自然語言處理研究的危機?!?/p>

--黃居仁,瓶頸,挑戰(zhàn),與轉機:中文分詞研究的新思維,中國計算語言學研究前沿進展(2007-2009)一些令人深省的報告(4)Aroundtheworld,fromChinatoGermany,ourcompetitorsarewagingahistoricefforttoleadindevelopingnewenergytechnologies.TherearefactorieslikethisbeingbuiltinChina,factorieslikethisbeingbuiltinGermany.Nobodyisplayingforsecondplace.Thesecountriesrecognizethatthenationthatleadsthecleanenergyeconomyislikelytoleadtheglobaleconomy.Andifwefailtorecognizethatsameimperative,weriskfallingbehind.Weriskfallingbehind.(Applause.)一些令人深省的報告(5)Fifteenyearsago,theUnitedStatesproduced40percentoftheworld'ssolarpanels--40percent.

Thatwasjust15yearsago.

By2008,oursharehadfallentojustover5percent.

Idon'tknowaboutyou,butI'mnotpreparedtocedeAmericanleadershipinthisindustry,becauseI'mnotpreparedtocedeAmerica'sleadershipintheglobaleconomy.

為何老是“落后”?(1)“我們的中文信息處理遠遠落后了”或者“我們在語言學領域在國際上沒有話語權”,這是我們可以聽到的感嘆。1.所謂的“落后”,是不是應該做過細的分析?2.如今我們在各個領域(分析、排歧、機譯等)所采用的技術路線、方法和工具,基本上是與“先進者”一樣的,甚至資源也是他們的,那怎么還會落后呢?3.是工具和方法不對頭,還是對象出了問題?“為何老是落后”?(2)如今有兩個值得反思的問題: 1.主流技術三部曲; 2.馬氏文通的漢語語法框架;30年前我們這個領域的論文常是“概念依存”、“GPSG”、”LFG”、”合一運算”,“蒙塔古語法”、”生成語法”、“配價語法”等等,那時候,我們自嘆“落后了”;30年后是我們改成了“ML”、”HMM”、 ”SVM”、””CRFs、”ME”、“Moses”、”認知語言學”等等,我們還是“落后了”。賓州中文樹庫的標注–是中文嗎?

(IP(NP-SBJ(NN經濟)) (VP(ADVP(AD年平均)) (VV增長) (QP-EXT(CD百分之十七)))) (PU,) (IP(NP-SBJ*pro*) (VP(VV高于) (NP-OBJ(NP(DP(DT全)) (NP(NN國))) (ADJP(JJ年平均)) (NP(NN增長) (NN速度)))))) (PU。)))我的書中14章指出“WewonderifthisremainstheChineselanguagethatChinesepeoplereallyuse.Chinesespeakersarenotassensitiveinparts-of-speechasEnglishspeakers.

”“ThestrategywebelieveinwhendoingtheresearchanddevelopmentofHowNetis:LetChinesebeChinese.Nevertrytodistortitandsqueezeitintoanon-Chinesegrammarframe,orasaChineseoldsayinggoes,tocutone’sfeettofittheshoes.”應用軟件啟示錄Office的“拼寫和語法”MT系統(tǒng)Office的“拼寫和語法”2010年3月5日溫家寶的政府工作報告,17頁,2萬字:(查出的錯誤或問題)共計:59建議: 3 請予審議預審數字的不規(guī)范用法: 6 2萬億美元非詞單字: 7 共克時艱;醫(yī)保詞法錯誤: 1 可再生能源

數量詞錯誤 1 兩高一資”產品出口

輸入錯誤或特殊用法 41

節(jié)能減排和;經濟增長內生動力不足;地區(qū)維穩(wěn)等重大任務

西氣東輸二線西段;重點小型病險水庫;強國必先強教。

MT系統(tǒng)(1)(1)據鄰居反映,案發(fā)當天中午有一個快餐外賣郎來過被害人家中。

a.Accordingtoneighborsreflectedtheincidentthatdayatnoonthereisafastfoodtake-Langcametothevictim'shome.

b.Accordingtotheinformationofneighbour's,afastfoodtakesoutthemydarlingtobeentovictim'shomeatnoononthedaywhenthecasehappened.MT系統(tǒng)(2)(2)一個官員被修腳女刺死了。

a.Oneofficerwasstabbedtodeaththewomenpedicure. b.Anofficeristrimmedthefootdaughterandassassinated.MT系統(tǒng)(3)(3)這褲子穿著有點緊繃,很不舒服。

a.Thisisalittletightpantswearing,veryuncomfortable.b.Itisalittletightthatthistrouserswear,veryuncomfortable.(4)這褲子穿著緊緊繃繃的,很不舒服。a.Wearingtightstretchpantsthatstretch,andveryuncomfortable.b.Thistrousersworeandsplitopentightly,veryuncomfortable.MT系統(tǒng)(4)(6)星期天幾家女人常一起逛逛街,購購物,美美容,我們男人很少陪著。a.Sundaywithseveralwomenoftenwalkonthestreets,shoppingandshopping,theU.S.beauty,weseldomstaywithaman.b.SeveralfamilywomenoftengoshoppingtogetheronSunday,purchaseanddoshopping,U.S.A.improveslooks,wemenareseldomaccompanied.分析和討論(1)如果英語處理朝著淺方向、粗的、簡單的走;漢語則反其道而行之,是朝著深方向、細的、復雜的走;以語義為根本;破除關于語義的誤區(qū)!語義和語法結合貫穿始終;不同性質問題采取不同策略;歧義(結構或詞語意義)處理采取精準打擊,定點清除的策略;分析和討論(2)原則:一切能產的語言現象都應處理; (1)研究應該采取的策略; (2)建立和試驗所需的資源;階段:(1)詞語處理固定詞語(類似于MWE)語塊(類似于chunk) (2)遠距離依存關系分析 (3)詞語意義判定詞語處理階段的任務1.單字和標點2.合成已登錄詞語3.偽生詞辨識與合成4.緊縮詞語辨識5.重疊詞語辨識與處理6.近距功能詞語辨識與處理偽生詞辨識與合成(1)組成多字詞語的每一單位的意義是它在知網中列出的義項者;(2)組成多音詞語的每一單位的組合模式是規(guī)范的;例如:野泳、蒸鍋、食宿費、外賣郎、修腳女、獨臂英雄辦-法,做-法,療-法,寫-法,制-法,泡-法,切-法,談-法,走-法,畫-法,摔-法,打-法,譯-法,編-法,織-法,加-法,減-法,乘-法,除-法,割-法,算-法,沖-法,游-法,跳-法,書-法,表達-法,描述-法,切入-法,切割-法,切開-法,教學-法裁剪-法,

障眼-法,入水-法,鼻飼-法,飼養(yǎng)-法,

緊縮詞語辨識1.

醫(yī)保、醫(yī)改、涉農、婚介2.維穩(wěn)辦、糾風辦3.寒暑假、事病假、輕重機槍重疊詞語辨識與處理1.

看看、研究研究、寬寬松松2.一張張3.一張一張、一張又一張4.美美容、購購物5.試試看6.看一看、翻了翻、看了又看7.哭著哭著近距功能詞語辨識與處理1.

了、著、過2.趨向功能詞(上、下、起來、得起、不起)遠距離依存關系分析任務短語內部詞語依存(境外毒品走私集團)短語邊界MT系統(tǒng)(7)(8)港臺童裝制造商紛紛來東莞設廠。a.KidsHongKongandTaiwanmanufacturershavesetupfactoriesinDongguan.b.ManufacturercometoDongguantosetupthefactoryoneafteranotherwithchildren'sclothesofHongKongandTaiwan.MT系統(tǒng)(8)(7)這樣的宣傳我們是不會相信的。 這樣的宣傳董事會是不會相信的。a.Thisinformationwewillnotbelieveit. Thiskindofboardwouldnotbelieve.b.Wewillnotbelievesuchpropaganda. Suchpropagandadirectorwillnotbelieve.MT系統(tǒng)(9)(8)村上的人死了,開個追悼會。用這樣的方法,寄托我們的哀思,使整個人民團結起來。a.Murakami'sdead,openamemorialservice.

Inthisway,andplacedourgrief,sothatthewholepeopletogether.b.Thepersoninthevillagehasdied,holdamemorialmeeting.Bysuchmeans,placeourgrief,makethewholepeopleunite.詞類(1)說因為漢語的詞缺少形態(tài)特征,所以詞類問題有許多爭論。我一直有兩個困惑:(1)這個“爭論”在普通百姓中存在嗎?還是他們無知、冷漠?還是學者自作多情?(2)普通百姓是不是因為搞不清“和平”的詞性,就不會用這個詞語了呢?詞類(2)中文現有的詞類體系及標注,不利于中文信息處理;中文的詞類是高度基于語義的,與概念基本一致的 英文 中文operate 作戰(zhàn)operation 作戰(zhàn)operating(~radius) 作戰(zhàn)(~半徑)operational(~headquarters) 作戰(zhàn)(~指揮部)operationally(~responsivespace)作戰(zhàn)(~反應空間)詞類(3)--傳統(tǒng)詞類無助區(qū)別NNN NNVnN美國

總統(tǒng)

布什 臺灣

廢棄物

處理

業(yè)者原告

被告

關系 語言

信息

處理

系統(tǒng)

VnN NVnN運輸

公司 臺胞

接待

站;質量

監(jiān)督

機構統(tǒng)計

數據 鐵路

運輸

成本;機器

翻譯

系統(tǒng)開拓

精神ANN現代

漢語

詞典袖珍

漢語

詞典;白

胡子

老頭關于詞類類宜粗不宜細,盡可能淡化、粗化詞類;特性描寫宜細不宜粗,可以落實到個別詞;詞類的判定3原則:形態(tài)、分布、意義,以意義為主。知網7大類對應中文詞類如下:萬物、 部件、時間、空間 --noun/pron屬性 --noun屬性值 --adj/num/adv事件 --verb中文文法觀意為根本棧結構–意合、短時為特征各級(詞語)組合規(guī)律相同詞類與句法成分的關系中文現有的主、謂、賓、定、狀等句法體系,不利于中文的信息處理;主、謂、賓太模糊!定、狀、補尚可以!詞類與句法功能不一一對應,還是根本就不存在傳統(tǒng)的詞類和句法功能?中文的句子結構不是樹,我們的標注應該能夠適應這樣的非樹結構;舉例(1)斷枝樹? a.他穿著一套新西裝,料子高檔,做工考究。 b.那位女經理,性格剛毅,處事果斷,是一位典型的女強人。(2)藤還是樹?

a.今早上街買菜,遇見了一個老同學,說了會兒話,回來晚了,被老婆說了一頓,一上午心里都很別扭。關于兼類(1)以意義為主靜態(tài)、脫離語境,與句法功用無關必須在詞典中有所反映的關于兼類(2)特別注意下列英語詞典釋義的樣式adj--oforrelatedto(n)如:intestinal,enteric,enteral<--intestinen--anactof(-ing)如:publication<--publish;cultivation<--cultivaten–thequalityofbeing(adj)如:carelessnessadv–ina(adj)manner如:thoughtfully這里的形、名、副是漢語里沒有對應的是“樹”還是“圖”?(1)刑事拘留是否賠償需要進行利益平衡,從保障人權角度看,拘留不合適肯定要賠,但拘留是緊急情況下采取的臨時性措施,對事實的判斷很初步,如果拘了又放了的情況都賠償的話,賠償量可能比較大,更為復雜的問題是,“如果都賠,公安部門可能不敢在緊急狀態(tài)下行使拘留權。 從p/保障v?vn?n?/人權n/角度n/看v

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論