




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、“人”“機”分詞差異及規(guī)范詞典的收詞依據(jù)對645條常用詞未見于現(xiàn)漢的思考刊辭書研究2000年第2期廈門大學 蘇新春 顧江萍一、筆者在最近作的一項詞語調查中,偶然發(fā)現(xiàn)一個頗有意味的數(shù)據(jù),現(xiàn)代漢語頻率詞典(下稱頻率)統(tǒng)計出來的8548條常用詞, 現(xiàn)代漢語頻率詞典,北京語言學院語言教學研究所編,北京語言學院出版社,1986版。491-656頁:使用度最高的前8000個詞詞表。 竟有645條沒有在現(xiàn)代漢語詞典(下稱現(xiàn)漢)出現(xiàn)。本來不同性質、不同規(guī)模,甚或不同版本的詞典之間,它們的收詞不同是很正常的,可現(xiàn)漢是以收現(xiàn)代漢語普通話詞語為己任的規(guī)范詞典,且收詞規(guī)模達56000多條,卻沒有收齊只占其詞匯總量約1
2、5%的最常用的詞語,這就引人深思:沒收的詞語是什么樣的?有何性質和特點?與現(xiàn)漢現(xiàn)有的詞語有何區(qū)別?現(xiàn)漢為什么沒有收錄它們?是現(xiàn)漢漏收還是有其它原因?作為規(guī)范詞典的現(xiàn)漢應如何確定常用詞的收錄?正是這些疑問促使筆者開展了進一步的調查?,F(xiàn)漢是我國目前為止反映現(xiàn)代漢語詞匯最具權威性的詞典。調查的現(xiàn)漢是第二版,即1983年版,內容與1979年第一版基本相同。頻率是我國第一部有嚴格計量統(tǒng)計數(shù)據(jù)的現(xiàn)代漢語匯頻率詞典,1986年出版,實際研究工作始于1979年。兩書截取語料的時間相當接近,具有較好的可比性?,F(xiàn)漢在1996年出版了修訂本,645條常用詞中只有80條增收其中,而占88%的詞語仍未收,因此以第二版的
3、現(xiàn)漢為基本比較材料,再輔之以與“修訂版”的比較。未見于現(xiàn)漢的645條常用詞中,雙音詞370條,單音詞169條。645條中使用度最高的位于第57位(動詞的“到”),最低的位于8547位(名詞的“比方”),平均數(shù)為4921,這個平均數(shù)表明它們在8548條常用詞中排在比較前的位置。在各千字段的分布情況如下:曲線圖顯示645條未見詞語在8548條常用詞的各千字段中呈緩慢上升的趨勢,但差別不大,也就是說645條未收詞語均衡分布于按序號排列的8548條常用詞之中,其常用性有較普遍的性質。那么這些未見于現(xiàn)漢的常用詞有著什么樣的結構特征?據(jù)此可分出以下四類:第一類“固定語”。所謂固定語就是它們不太像一般的詞語
4、那樣有較強的獨立運用和較完整的意義的特點,只是在言語使用中緊密地凝合在一起。如“要不是4106”、“極為7495”、“售貨2721”、“傷病員6886”、“不得不2296”、“就是說1970”、“絕大多數(shù)8297”、“這樣一來4766”、“從中6337”、“為的是6013”、“恨不得5811”、“老是4183”、“較為6633”、“越來越1218”。(詞語后面的數(shù)字表示8548條常用詞的順序號) 詞語后面的數(shù)字為現(xiàn)代漢語頻率詞典按使用度統(tǒng)計的8548條常用詞的序號,序號愈靠前的表示使用度愈高,愈常見。 本類共88例,占13.6%。第二類“詞性分詞”。指的是根據(jù)不同的語法功能而將同形同音近義,或
5、同形近音近義的詞分立為多個詞語,而這些詞在現(xiàn)漢中都是作為一個詞出現(xiàn)的。如“聲明(動)5794”“聲明(名)7369”,“箱(名)2502”“箱(量)7181”,“來回(副)4698”“來回(名)7478”,“極(副)405”“極(名)8087”。本類共205例,占31.8%。第三類“固定搭配結構”。如“一面,一面1592”、“ 既又7629”、“ 來去4412”、“ 對來說3982”、“ 分之716”、“ 有點兒736”。本類共24例,占3.7%。第四類“一般詞語”。它們與人們的語感較接近,一般都看作是通用詞語,如“變成509”、“高產(chǎn)7817”、“全會5551”、“判處6271”、“花市57
6、05”。本類共328例,占50.9%。這部分內容相當復雜,下面將會作專門的分析。上述一、二、三類顯示頻率對詞語的切分是有其特殊之處的。主要表現(xiàn)為兩點,首先,它看重的是在言語實際中的凝固程度與復現(xiàn)率,只要具備這樣的條件就可以切分出來成“詞”,故有了類似“來自”“較為”“不得不”“之上”“有所”“得慌”“不是嗎”這樣的詞語。這種切分原則跟通常要求“詞”具有“意義的完整性”和“使用上的獨立性”有著明顯的區(qū)別。把結構的凝固程度與頻率的復現(xiàn)率放在首要地位來考慮,放在超出于詞語意義的完整性和使用上的獨立性來考慮,恰恰是詞匯計量統(tǒng)計的基本特點。固定搭配結構大量出現(xiàn)的原因也在于此。現(xiàn)漢中已經(jīng)有了34例固定搭配
7、結構的詞目,如“半不”、“大特”、“似非”等,只是頻率更加注意反映這種固定搭配結構,提煉出來立目的數(shù)量多,劃分細。其次,重視語法功能的差異,不同語法功能的用法都切分出來獨立為不同的詞目。拙文同形詞與“詞”的意義范圍 蘇新春同形詞與“詞”的意義范圍析現(xiàn)代漢語詞典的同形詞詞目,刊辭書研究2000年第5期。 曾經(jīng)指出這是現(xiàn)漢分詞的特點之一,如把名詞的“赤膊”和動詞的“赤膊”分成兩個詞。而頻率在這點上更進了一步,分割的詞語數(shù)量多,離析的語法功能更細微。如“包”有名、動、量三個詞,“到”有補、動、介三個詞,“頂”有名、動、副、量四個詞。645條未見詞語中共有169例單音詞,就全都屬于據(jù)語法功能分詞的范圍
8、,占到據(jù)詞性分詞總數(shù)202例的84 %。據(jù)詞性分詞凸現(xiàn)了詞的語法功能,使得詞語的意義和功能單一化,還使多義詞的處理變得簡單化,這正好滿足了機器語言處理的需要,大大方便了機器對語言的加工和處理。上述兩個特點體現(xiàn)了“機器分語”的性質和要求,它們直接影響到第二、三類的全部和第一類的大部,數(shù)量占到645條常用詞的幾乎一半。而現(xiàn)漢的分詞則基本上還是考慮詞語意義的完整性和使用上的獨立性,這種分詞原則可以說是“人的分詞”。兩種不同的分詞原則,必然會產(chǎn)生不盡相同的分詞結果。不認識到這點,以此框彼,或以彼框此,都有失準衡。這就是本文的題目用“未見”而不用“缺收”或“漏收”的原因。二、下面再來看看第四類“一般詞語
9、”的具體情況。這類詞語有328條,占總數(shù)的50.9%。它們在詞義的完整性與使用的獨立性上都很接近于人們平常對“詞”認識的語感,這樣最想提出的問題就是:它們與現(xiàn)漢現(xiàn)有詞語有何不同?現(xiàn)漢為什么沒收它們?為了解答這些問題,下面從兩個角度來作些分析。首先來看看它們與現(xiàn)漢已有詞語的關系如何。詞綴不同實詞素不同完全不同3281259257100%3.7%18%78.4%1,“詞綴不同” 頻率 現(xiàn)漢 小孩子 小孩兒 差點兒 差點 一點 一點兒 兜兒 兜子 象樣兒 象樣2,“實詞素不同” 頻率 現(xiàn)漢 吉普 吉普車 輕工 輕工業(yè) 噪聲 噪音 四面八方 四面 飛蛾 飛蛾投火 膝蓋 膝蓋骨 欣欣向榮 欣欣 3,“迥
10、異” 三月、大字報、可貴、院校、飛奔、成千上萬、特有、眼科、官軍、晴綸、衣袋、辨識、藍色、抽煙、教研、細長、西部、大戰(zhàn)“詞綴不同”與“實詞素不同”兩類共71例,它們在現(xiàn)漢中都有與之相關的詞語。由于漢語語素的獨立性,由于書面語的文字形式與口語詞的語音形式難以完全對齊,出現(xiàn)這些的差異是可以理解的。也就是說這71例詞語雖然不見于現(xiàn)漢,但現(xiàn)漢實際上并不缺乏對它們的反映,人們只要認識了其中的一個詞語,另一個也就基本上能認識了。而“迥異”的257條則與現(xiàn)漢無甚干系,未收錄它們造成了現(xiàn)漢詞目的實際上的缺損。為了更好地探討現(xiàn)漢為什么沒有收錄這些詞語的真實情況,下面再從意義分布的角度來作些觀察:稱謂詞時間方位詞
11、時代詞生活詞語328402336229100%12%7%11%70%1,“稱謂詞”。如:班長、連長、營長、團長、軍長、所長、會長、組長、院長、區(qū)委、區(qū)書、處長、村長、部長、市長、局長、廠長、師姐、師哥、船主、爸爸、大伯、表哥、師姑。2,“時間方位詞”。如:一月、二月、三月、四月、五月、六月、七月、八月、九月、十月、十一月、十二月、今晚、有時候、那邊、一旁、東面、中部、西部、星期一、星期天。3,“時代詞”。如:常委會、黨委會、軍委、社隊、井隊、紅旗手、工農(nóng)兵、干校、包產(chǎn)到戶、大躍進、紀念堂、微處理機、幫派、極左、派性、幫派、四化、大字派、工聯(lián)、匪軍、黑狗、?;省顸h、偽軍。4,“生活詞”。如:
12、槐樹、儲量、深處、綁帶、炎夏、頭部、乳白色、樓下、棉條、詩句、夜空、手電、手臂、毒性、石碑、筆桿、判處、山野、褐色、油液、暗堡、撫摸、前來、殘渣、產(chǎn)區(qū)、田徑。在談論這四類詞語該不該收進現(xiàn)漢,先得準確認識規(guī)范詞典的性質與作用。雖然現(xiàn)漢的任務是“完整地記錄民族共同語的詞匯體系”,而不象一般的詞典那樣完全以“釋義解惑”為主, 晁繼周、單耀海、韓敬體關于規(guī)范型詞典的收詞問題,見現(xiàn)代漢語詞典學術研討會論文集,商務印書館,1996年10月 但象“稱謂詞類”中那樣成系列的官職稱呼、“時間方位詞類”中成系列的年月詞、星期詞、方位詞,是否都需要收錄,還是值得商榷的。這樣的詞語在漢語中大都一目了然,見字及義,作為
13、詞典來說在一個類屬名或相關詞語作較完整的釋義就可以涵蓋其它。由于頻率重在反映詞語使用度的高低,它把頻率作為唯一的標準,可以一刀切而不顧及其它?,F(xiàn)漢中有“星期”和“星期天”兩個詞,在“星期”詞目下解釋了星期的來歷及其七天的構成,而頻率則除了“星期”“星期天”外還收了“星期一”,其原因大概就是因為“星期一”出現(xiàn)的頻率高。至于為什么不收“星期二”“星期三”,這就不是頻率所要解決的問題了。作為規(guī)范詞典的現(xiàn)漢則除了詞頻外,還得考慮收詞的平衡性、相關性、可釋性等一系列因素。如此看來,“稱謂詞”和“時間方位詞”中的大部分詞語不被現(xiàn)漢收錄是有一定道理的。而占到“一般詞語”中82%的“時代詞”與“生活詞”則不屬
14、此類?!皶r代詞”與時代、社會密切相關,只要它穩(wěn)定下來了,就應看作是進入了普通話詞匯系統(tǒng),當然也就應該成為“現(xiàn)代漢語”詞典的反映對象?!吧钤~”也應按這一原則來定取舍。這兩類詞語共265條,在總共645條未見詞語中約占40%,其中的絕大多數(shù)都符合普通話詞語“穩(wěn)定”“通用”的特點,再加上頻率已經(jīng)顯現(xiàn)出來的“常用性”,看作是現(xiàn)代漢語普通話詞匯應屬無疑。它們被排除在現(xiàn)漢之外,表明現(xiàn)漢在對這兩類詞語的取舍上存在著某些缺陷。96年出版的現(xiàn)漢修訂版中,這種情況有所改觀,645條詞語中有80條被收進了詞典,其中屬于“時代詞”和“生活詞”的達68條。如“可愛”“科研”“對岸”“好久”“可貴”“可笑”“沒說的”“
15、竅聽”“派性”“辨識”“判處”“儲量”“撫摸”“頭盔”“幫派”“暗堡”“檢測”“姊妹”“干?!钡?。但情況然遠未徹底改觀。因為無論是80條還或68條,相比于總數(shù)的645條,或是“時代詞”和“生活詞”的265條來說,所占的比例都不高,只有12.4%與25.7%。也就是說在頻率出版整整十年之后,這些經(jīng)過嚴格統(tǒng)計出來的詞頻數(shù)據(jù)仍未受到編纂現(xiàn)代漢語規(guī)范詞典人們的重視。象下面這些常用詞仍被排除在96年版的現(xiàn)漢之外就很難說得過去:“各種666”、“唯物1091”、“可怕2579”、“綠色2760”、“被迫3018”、“各種各樣3611”、“自言自語4039”、“極左4206”、“大躍進4479”、“四化45
16、77”、“大字報5904”、“院校5923”、“某些5512”、“臉孔7330”、“軍委8078”(按常用的順序號排列)。通過上面的分析可以看到,頻率對詞的切分和對常用詞的認定,有著它特自的要求,體現(xiàn)了“機器分詞”的性質和特點?,F(xiàn)漢作為主要供“人”使用的詞典,在對詞的切分上仍保留傳統(tǒng)的對詞的確認原則和方法。那么現(xiàn)漢在這樣的原則和方法下依靠什么來確定詞目的取舍?是“詞的使用頻率”。現(xiàn)漢的編纂者們也認識到了這一點:“選詞的依據(jù)主要不是看查考的需要,而是看詞語在語言使用中出現(xiàn)的頻率”, 同但實際情況看來與此還有相當?shù)牟罹?。要知道本文所例舉的常用詞都是位于現(xiàn)代漢語最常用的8548條詞語之中,而現(xiàn)漢的收詞卻是它的七倍。如果我們的收
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)產(chǎn)品供貨協(xié)議示例
- 鞋業(yè)采購合同范本
- 2025至2030年中國樹掛水花花崗巖數(shù)據(jù)監(jiān)測研究報告
- 品牌影響力空間裝修合同
- 2025至2030年中國木龍骨數(shù)據(jù)監(jiān)測研究報告
- 租賃gps合同范本
- 智能眼鏡技術合同范本
- 環(huán)保型生產(chǎn)設備的維護與保養(yǎng)策略
- 臨床試驗患者教育平臺行業(yè)深度調研及發(fā)展戰(zhàn)略咨詢報告
- 剪絨拖鞋企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 《室內照明設計》(熊杰)794-5 教案 第7節(jié) 綠色照明、節(jié)能照明與應急照明
- 2023±800kV及以上特高壓直流工程閥廳設計導則
- 腦卒中后認知障礙的護理課件
- 《大學生國防教育教程》第四章
- 抑郁病診斷證明書
- mks robin nano主板使用手冊信息科技保留一切權利
- 幼兒教師口語(高職學前教育)PPT完整全套教學課件
- 婦產(chǎn)科運用PDCA降低產(chǎn)后乳房脹痛發(fā)生率品管圈成果報告書
- 第四章泵的汽蝕
- 數(shù)字孿生水利工程建設技術導則(試行)
- 零售藥店醫(yī)保培訓試題及答案,零售藥店醫(yī)保培
評論
0/150
提交評論