版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
詞典1謝謝觀賞2019-8-28詞典1謝謝觀賞2019-8-28詞典與詞典編撰的研究詞典學lexicologyTheoryanddescriptionoflexicalinformation計算詞典學computationallexicologyformalmodellingoflexicalinformation詞典編撰學lexicographyConstructionofdictionaries(databases,handbooks)計算詞典編撰學computationallexicographyconstructionandproductionofdictionariesusingelectronicpublishing2謝謝觀賞2019-8-28詞典與詞典編撰的研究詞典學lexicology2謝謝觀賞20機讀詞典與人讀詞典人讀詞典(HumanReadableDictionary)格式不規(guī)范數(shù)據完整性和一致性不好非結構化機讀詞典(MachineReadableDictionary)格式規(guī)范數(shù)據完整性和一致性較好結構化3謝謝觀賞2019-8-28機讀詞典與人讀詞典人讀詞典(HumanReadableD機讀詞典的分類按信息類型分類語法詞典語義詞典(包括同義詞典)雙語詞典……按領域分類通用詞典專業(yè)詞典(術語詞典)專名詞典……4謝謝觀賞2019-8-28機讀詞典的分類按信息類型分類4謝謝觀賞2019-8-28人讀詞典(demo)金山詞霸story中古英語storie<古法語estoire<拉丁語historian-ries(1)故事,小說;傳聞;軼事Pleasereadusastory!請給我們讀個故事!(2)謊話,假話(3)(書籍、電影、戲劇等的)情節(jié)(4)(報刊、雜志文章的)素材,題材5謝謝觀賞2019-8-28人讀詞典(demo)金山詞霸5謝謝觀賞2019-8-28漢語語法信息詞典開發(fā)單位:北京大學計算語言學研究所參考文獻:俞士汶等(1998)《現(xiàn)代漢語語法信息詞典詳解》,清華大學出版社、廣西科學技術出版社1998年版。規(guī)模:7萬多詞條總庫詞性庫名詞時間詞處所詞方位詞數(shù)詞量詞區(qū)別詞代詞動詞形容詞狀態(tài)詞副詞介詞連詞助詞語氣詞前接成分后接成分成語簡稱略語習用語語素標點符號詞性分庫動詞代詞6謝謝觀賞2019-8-28漢語語法信息詞典開發(fā)單位:北京大學計算語言學研究所6謝謝觀賞新華社詞語數(shù)據庫全庫分為中文和外文兩個大類,主要包括中文新聞庫、經濟信息庫、證券庫、人物庫、組織機構庫、專題資料庫等中文數(shù)據庫,還包括XinhuaNewsBulletin、Who’sWhoinChina等英文數(shù)據庫。共有28個庫100多個子庫,數(shù)據量達80多億漢字,并以日均150萬漢字的速度增長。7謝謝觀賞2019-8-28新華社詞語數(shù)據庫全庫分為中文和外文兩個大類,主要包括中文新聞新華社詞語數(shù)據庫·國際組織“2000年問題”聯(lián)合委員會/jointyear2000council/International“4·19”運動/movementapril19/Colombia“阿爾法66”/"alpha66"/Cuba“俄羅斯地區(qū)”社會聯(lián)盟/regionsofrussiagroup/Russia“法中-2000年”協(xié)會/france-chinaassociationfortheyear2000/France“繁榮”黨/prosperity/Russia“光明的日本”國會議員聯(lián)盟/parliamentaryunionforabrightjapan/Japan“基地”組織/alqaeda/SaudiArabia《財富》雜志/fortune/USA《朝日新聞》/asahishimbun/Japan國際獻血組織聯(lián)合會/internationalfederationofblooddonororganizations/International國際憲法學協(xié)會/internationalassociationofconstitutionallaw/International國際香料集團/internationalspicegroup/International經濟和外貿部/ministryofeconomyandexternaltradeofsyria/Syria經濟和外貿部/ministryofeconomyandforeigntradeofegypt/Egypt8謝謝觀賞2019-8-28新華社詞語數(shù)據庫·國際組織“2000年問題”聯(lián)合委員會/jo知網(Hownet)1作者:董振東董強網站:概念描述舉例NO.=017144W_C=打G_C=VE_C=~網球,~牌,~秋千,~太極,球~得很棒W_E=playG_E=VE_E=DEF=exercise|鍛練,sport|體育其中DEF是核心,采用特定的“知識描述語言”9謝謝觀賞2019-8-28知網(Hownet)1作者:董振東董強9謝謝觀賞2019-8知網(Hownet)2打017144exercise|鍛練,sport|體育男人059349human|人,family|家,male|男高興029542aValue|屬性值,circumstances|境況,happy|福,desired|良生日072280time|時間,day|日,@ComeToWorld|問世,$congratulate|祝賀寫信089834write|寫,ContentProduct=letter|信件北京003815place|地方,capital|國都,ProperName|專,(China|中國)愛好者000363human|人,*FondOf|喜歡,#WhileAway|消閑必須004932{modality|語氣}串015204NounUnit|名量,&(grape|葡萄),&(key|鑰匙)從良016251cease|停做,content=(prostitution|賣淫)打對折017317subtract|削減,patient=price|價格,commercial|商,(range|幅度=50%)兒童基金會024083part|部件,%institution|機構,politics|政,#young|幼,#fund|資金,(institution|機構=UN|聯(lián)合國)10謝謝觀賞2019-8-28知網(Hownet)2打017144exercise|知網(Hownet)3義原總數(shù):1500多個義原分類:共8類基本義原事件、實體、次要特征屬性、屬性值、數(shù)量、數(shù)量值語法義原:描述語法特征,如POS語法關系義原:描述意義關系,類似于格關系動態(tài)角色動態(tài)屬性11謝謝觀賞2019-8-28知網(Hownet)3義原總數(shù):1500多個11謝謝觀賞20知網(Hownet)4義原的上下位關系構成樹結構-entity|實體├thing|萬物
…├physical|物質
…├animate|生物
…├AnimalHuman|動物
…├human|人
│└humanized|擬人
└animal|獸
├beast|走獸
…12謝謝觀賞2019-8-28知網(Hownet)4義原的上下位關系構成樹結構12謝謝觀賞知網(Hownet)513謝謝觀賞2019-8-28知網(Hownet)513謝謝觀賞2019-8-28同義詞詞林1梅家駒等,1983,上海辭書出版社為克服寫作和翻譯時的詞窮現(xiàn)象而編寫目前廣泛應用于自然語言處理中收詞近7萬(按義項統(tǒng)計)按義項編排12大類94中類1428小類3925詞群詞群內部的詞是同義詞大類、中類、小類之間不一定是上下位關系(有些是領域)14謝謝觀賞2019-8-28同義詞詞林1梅家駒等,1983,上海辭書出版社14謝謝觀賞2同義詞詞林2大類:A中類:g小類:10詞群:01最小同義詞集:01,02,0315謝謝觀賞2019-8-28同義詞詞林2大類:A15謝謝觀賞2019-8-28WordNet1網址:開發(fā)單位:普林斯頓大學心理語言學實驗室初衷是作為研究人類詞匯記憶的心理語言學成果在自然語言處理中得到廣泛的應用免費的在線詞匯數(shù)據庫世界很多語種都開發(fā)了相應的版本各種歐洲語言:EuroNet漢語:CCD(ChineseConceptDictioanry)16謝謝觀賞2019-8-28WordNet1網址:16謝謝觀賞2019-8-28WordNet2同義詞集Synset用一組同義詞的集合Synset來表示一個概念每一個概念有一段描述性的說明關系上下位關系(hyponymy,troponymy)同義反義關系(synonymy,antonymy)部分整體關系(entailment,meronymy)……17謝謝觀賞2019-8-28WordNet2同義詞集Synset17謝謝觀賞2019-Wordnet3規(guī)模名詞:80,000words,60,000synsets形容詞:16,000synsets動詞:11,500synsets還在不斷發(fā)展之中18謝謝觀賞2019-8-28Wordnet3規(guī)模18謝謝觀賞2019-8-28WordNet4—名詞概念的組織19謝謝觀賞2019-8-28WordNet4—名詞概念的組織19謝謝觀賞2019-8-WordNet5—形容詞概念的組織20謝謝觀賞2019-8-28WordNet5—形容詞概念的組織20謝謝觀賞2019-8詞典檢索算法1詞典檢索算法的性能評價時間復雜度空間復雜度檢索方式直接用詞語檢索檢索句子中某個位置開始的所有詞檢索句子中某個位置開始的最長詞模糊檢索……增量式索引21謝謝觀賞2019-8-28詞典檢索算法1詞典檢索算法的性能評價21謝謝觀賞2019-8詞典檢索算法2兩個問題索引結構查找算法一種索引結構可以對應不同的查找算法22謝謝觀賞2019-8-28詞典檢索算法2兩個問題22謝謝觀賞2019-8-28詞典順序索引23謝謝觀賞2019-8-28詞典順序索引23謝謝觀賞2019-8-28詞典順序索引的查找算法整詞二分查找時間復雜度O(log2N)無法按前綴查找改進的整詞二分查找時間復雜度O(log2N)可以實現(xiàn)按前綴查找24謝謝觀賞2019-8-28詞典順序索引的查找算法整詞二分查找24謝謝觀賞2019-8-詞典散列索引25謝謝觀賞2019-8-28詞典散列索引25謝謝觀賞2019-8-28詞典散列索引的檢索算法利用散列(hash)函數(shù)直接定位效率高:常數(shù)不能按前綴查找沖突的解決使用沖突隊列使用再散列散列函數(shù)(hash)的選擇算法改進:逐詞散列,可以實現(xiàn)按前綴查找26謝謝觀賞2019-8-28詞典散列索引的檢索算法利用散列(hash)函數(shù)直接定位26謝詞典分級索引將詞語分成若干部分,為每一部分分別建立索引在分級索引中,每一級索引都可以采用各種不同的索引和查找算法對于漢語而言,第一級索引一般使用詞語的首字,所以又常稱為首字索引漢語的首字數(shù)量有限,可以使用直接定位法,效率最高,空間也不大27謝謝觀賞2019-8-28詞典分級索引將詞語分成若干部分,為每一部分分別建立索引27謝漢語詞典按首字順序索引28謝謝觀賞2019-8-28漢語詞典按首字順序索引28謝謝觀賞2019-8-28首字二分檢索2時間復雜度:O(log2N)空間復雜度:O(N)可以按前綴查找不能增量式索引:每次要重新排序29謝謝觀賞2019-8-28首字二分檢索2時間復雜度:O(log2N)29謝謝觀賞201漢語詞典TRIE樹索引30謝謝觀賞2019-8-28漢語詞典TRIE樹索引30謝謝觀賞2019-8-28AC算法1問題假設詞典中有兩個詞:aba,abcd考慮輸入串:bababcdab如何迅速找出輸入串中詞典詞的所有出現(xiàn)?簡單解決辦法逐字查詞典:效率太低AC算法將詞典構造成一個自動機,一次掃描完成31謝謝觀賞2019-8-28AC算法1問題31謝謝觀賞2019-8-28AC算法232謝謝觀賞2019-8-28AC算法232謝謝觀賞2019-8-28AC算法333謝謝觀賞2019-8-28AC算法333謝謝觀賞2019-8-28AC算法434謝謝觀賞2019-8-28AC算法434謝謝觀賞2019-8-28AC算法535謝謝觀賞2019-8-28AC算法535謝謝觀賞2019-8-28AC算法636謝謝觀賞2019-8-28AC算法636謝謝觀賞2019-8-28AC算法737謝謝觀賞2019-8-28AC算法737謝謝觀賞2019-8-28AC算法838謝謝觀賞2019-8-28AC算法838謝謝觀賞2019-8-28AC算法939謝謝觀賞2019-8-28AC算法939謝謝觀賞2019-8-28AC算法1040謝謝觀賞2019-8-28AC算法1040謝謝觀賞2019-8-28重復子串識別目標:識別出文本中所有出現(xiàn)兩次以上的子串據香港《文匯報》報道,北京的臺灣問題專家李家泉受訪時指出,臺北、高雄兩市市長選舉,盡管藍、綠兩政治勢力進行了激烈的斗爭,但“北藍南綠”的政治格局未被打破,由此可以預見,未來一段時間內兩岸關系的改善很難有突破。李家泉指出,此次北高兩市選舉在兩個大背景下進行,一是民進黨執(zhí)政兩年來政績相當差,自身危機感非常強;二是距離2004年“大選”只有一年多時間,兩派都格外重視此次交鋒,對泛
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學生數(shù)學邏輯訓練課程設計與實施案例
- 液壓翻板壩施工方案
- 2024版新能源電動汽車充電設施建設合同
- 二零二五年度智能電網建設項目工程合作框架協(xié)議書范本3篇
- 潮州初二期中數(shù)學試卷
- 2024版材料運輸合同范文
- 2024年高品質坯布定制加工與品牌授權合同3篇
- 北京順義區(qū)初三數(shù)學試卷
- 砼抹面施工方案
- 二零二五年度電力安裝與新能源并網服務合同3篇
- 無縫鋼管焊接作業(yè)指導書(1)
- 零缺陷與質量成本
- 網吧企業(yè)章程范本
- 安徽省書法家協(xié)會會員登記表
- 阿特拉斯基本擰緊技術ppt課件
- 五格數(shù)理解釋及吉兇對照
- 婚姻狀況聲明書
- 新課程理念下的班主任工作藝術
- 領導激勵藝術教材
- 化肥對土壤的影響
- 水泥罐抗傾覆驗算7頁
評論
0/150
提交評論