中英文翻譯搜索引擎_第1頁
中英文翻譯搜索引擎_第2頁
中英文翻譯搜索引擎_第3頁
中英文翻譯搜索引擎_第4頁
中英文翻譯搜索引擎_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、中英文翻譯搜索引擎項目報告一、項目背景:隨著 Internet 的迅速發(fā)展,搜索引擎在網(wǎng)絡(luò)中扮演著越來越重要的角色,天網(wǎng)、百渡和 google 的使用者達到數(shù)百萬。搜索引擎預(yù)先從網(wǎng)絡(luò)上抓取網(wǎng)頁,在本地建立副本或者索引,對用戶的查詢作出快速響應(yīng)。就目前的搜索引擎而言,存在的問題還有很多,比如:如何提高搜索的精確度和結(jié)果的有效性,如何提高搜索引擎的效率和性能,如何構(gòu)建具有智能代理的信息過濾和個性化服務(wù),如何適應(yīng)交叉語言在搜索中的使用等等。因此,搜索引擎已經(jīng)成為了一個新的研究、開發(fā)領(lǐng)域,由于對它的研究需要涉及到信息檢索、人工智能、計算機網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多

2、領(lǐng)域的理論和技術(shù),所以極具綜合性和挑戰(zhàn)性。通過研究搜索引擎的發(fā)展趨勢,我們把注意力集中在開發(fā)具有翻譯功能的搜索引擎上(具體項目計劃可以參看多語言翻譯搜索引擎商業(yè)計劃)。由于時間和技術(shù)限制,本次課程實習只實現(xiàn)了中英文翻譯的搜索引擎原型。二、目的和意義使用搜索引擎,我們只需要輸入少量的關(guān)鍵字,就可以在數(shù)秒時間內(nèi)得到所需的信息結(jié)果集,從而大大提高我們的工作效率。中英文搜索引擎中,用戶只需要中文關(guān)鍵詞,就可以自動翻譯成英文關(guān)鍵詞進行查詢??梢酝瑫r返回中文查詢結(jié)果和英文查詢結(jié)果,當然,該搜索引擎也支持通常的單語言的查詢。三、 中英文搜索引擎的實現(xiàn)方法A. 基本實現(xiàn)方法中英文搜索引擎的執(zhí)行流程如下:中文關(guān)

3、鍵詞英文關(guān)鍵詞網(wǎng)頁抓取詞語提取:中金山詞霸文切詞查詢結(jié)果在線翻譯中文詞語翻譯處理成英文英文單詞選取輸出查詢結(jié)果比較不同搜索引擎的結(jié)果按一定規(guī)則將結(jié)果排序1輸入中文關(guān)鍵詞2中文關(guān)鍵詞到英文關(guān)鍵詞的翻譯考慮到語料庫實現(xiàn)的復雜性,該翻譯功能由金山詞霸在線翻譯系統(tǒng)完成。根據(jù)金山詞霸返回的結(jié)果頁面,提取較為合理的單詞,作為英文關(guān)鍵詞。根據(jù)輸入的中文短語,金山詞霸的返回可能為單個英文單詞或者英文短句,在提取英文關(guān)鍵字的時候,必須對兩種情況分別處理。通過分析返回頁面,找出統(tǒng)一標志域,然后提取該標志域?qū)?yīng)的文本信息。提取出可能作為關(guān)鍵詞的英文單詞或者英文語句。比如金山詞霸返回的翻譯結(jié)果頁面為 result.h

4、tm,單詞和短語的處理規(guī)則如下:單詞結(jié)果頁面 result.htm 中單詞選取時,由于沒有語義信息,主要是根據(jù)每個詞的權(quán)值進行選擇, 權(quán)值的大小和詞在翻譯結(jié)果網(wǎng)頁中位置, 以及其在翻譯結(jié)果網(wǎng)頁中的詞頻有關(guān)。我們認為詞頻越大,正確地概率越大。短語對于短語的查詢, 返回的是包含短語的句子。 通過對句子求最大公共子句,找出翻譯的結(jié)果短語。同樣,對于不同的翻譯結(jié)果,我們也根據(jù)頻率選擇作為查詢關(guān)鍵字。3網(wǎng)頁的抓取根據(jù)中英文關(guān)鍵詞,搜索相關(guān)頁面。4查詢結(jié)果的返回返回最為匹配的前10 條結(jié)果。B. 完整的中英文搜索引擎流程中文關(guān)鍵詞到英文關(guān)鍵詞的轉(zhuǎn)化是該搜索引擎的關(guān)鍵部分, 為了提高搜索引擎的速率和準確性,

5、建立轉(zhuǎn)化詞表,用戶輸入某個查詢詞時,先在詞表中找是否已經(jīng)有對應(yīng)的詞條,如果沒有,則到金山詞霸實現(xiàn)在線翻譯,并將翻譯的結(jié)果加入詞表中。這樣,完整的中英文搜索引擎流程可以用下圖表示:查找存在匹輸入中文配項查詢詞word.dic翻譯結(jié)不存在果加入匹配項詞典金山詞霸在線翻譯返回英文中英文查詢詞網(wǎng)頁查找四、性能評測中英文翻譯搜索引擎的開發(fā)已經(jīng)基本完成,我們選取了部分查詢詞進行測試,測試集包括計算機,醫(yī)學,經(jīng)濟,人名,地名等常用詞匯。測試結(jié)果:類別測試詞數(shù)正確結(jié)果數(shù)準確率計算機181583醫(yī)學262180人名201050地名574070經(jīng)濟211571其他252392測試中可以發(fā)現(xiàn),受金山詞霸的影響,人名

6、、地名等翻譯支持的不是很好,我們在查詢中維護查詢記錄, 可以在詞典中增加常用查詢詞的翻譯。我們的中英文翻譯搜索引擎在金山詞霸可以正確翻譯的情況下,基本上可以正確的獲取查詢結(jié)果。可以通過更強大的翻譯支持,或者本地詞典,增加搜索引擎的性能。五、項目總結(jié)從該搜索引擎項目的提出到開發(fā)完成,歷時一個月左右,小組內(nèi)成員分工如下:調(diào)研階段:施澍網(wǎng)絡(luò)連接與網(wǎng)頁抓取劉姝 網(wǎng)頁中單詞和短語的提取黃嘉露 網(wǎng)頁查詢返回結(jié)果的選取趙雅測試集或者詞典的選取開發(fā)階段:施澍、劉姝基本平臺的構(gòu)建,網(wǎng)頁中單詞短語的提取測試階段:趙雅計算機和人名黃嘉露地名和其他常用詞匯劉姝經(jīng)濟和醫(yī)學施澍根據(jù)測試中發(fā)現(xiàn)的不足修改程序文檔:黃嘉露、劉

7、姝商業(yè)計劃劉姝項目開發(fā)報告施澍PPT 及報告六、附錄測試原始數(shù)據(jù)關(guān)鍵字翻譯結(jié)果中文有效頁面英文有效頁面異常情況愛滋病AIDS10很好非典SARS癌癥cancer10很好霍亂cholera7(另外 3 個相關(guān) )酵母yeast7(另外3 個相關(guān))干燥病xerosis82冠心病Coronary heart10很好disease冠周炎pericoronits91肝炎Hepatitis10很好白血病leucocythemia6百日咳Whooping cough10很好哮喘Asthma and6dyspnea結(jié)核病tuberculosis10痛風gout10炭疽病anthracnose無糖尿病Diabe

8、tes mellitus10很好紅斑性肢痛病erythromelalgia10很好肝硬化hepatocirrhosis10很好支氣管炎bronchitis10很好類風濕性關(guān)節(jié)炎0無骨質(zhì)疏松癥osteoporosis10很好精神分類癥schizophrenia10很好血吸蟲病schistosomiasis10很好咽炎pharyngitis10很好寄生蟲病Parasitic disease73資本主義經(jīng)濟Capitalist10很好economy混合經(jīng)濟Mixed economy10很好固定資產(chǎn)Fixed assets10很好浮動匯率Floating rate10很好證券公司stockjobber

9、9證券交易所Stock exchange7利息interest7短期貸款無估稅標準無稅制Tax system7國際商會無萬國郵政聯(lián)盟Universal postal10union聯(lián)合國貿(mào)易與發(fā)United nations3展理事會trade anddevelopmentboard歐洲自由貿(mào)易區(qū)無中國銀行Bank of china23世界銀行World bank9大通銀行The chase bank8國際開發(fā)協(xié)會IDA7國際結(jié)算銀行BIS控股公司Holdingcompany爾菲爾鐵塔無凱旋門Triumphal arch金字塔Pyramid比薩斜塔Leaning Tower迪斯尼樂園Disneyl

10、and萊茵河Rhine多瑙河Danube天壇無中國國家圖書館無清華大學QinghuaUniversity關(guān)公廟無大雄寶殿無東方明珠無莫斯科紅場西湖金 soft 軟件king山太湖kikngXsoft唐人街無雅魯藏布江Brahmaputra喜馬拉雅山錯誤!珠穆朗瑪峰Everest獅身人面像Sphinx三峽錯誤!神農(nóng)架無泰山Taishan Mountain九寨溝未知加勒比海Caribbean Sea富士山Fuji好萊塢Hollywood洞庭湖錯誤!圓明園無長江Yangtse Rive蘇伊士運河Suez Canal安第斯山ANDES黃河Yellow River長城Great Wall亞馬遜雨林無地中

11、海Mediterranean9146100無英文81057101091055310107錯誤!3錯誤!5錯誤!101010只有一個網(wǎng)站101變成富士了831010101010Sea.死海THE DEAD SEA曼徹斯特Manchester北海道Hokkaido沖繩Okinawa瑪雅Mayan伊斯坦布爾Istanbul阿根廷Argentina布拉格Prague夏威夷Hawaii舊金山San Francisco馬賽Marseilles開羅Cairo鹽湖城Salt Lake City威尼斯Venice柏林Berlin好望角kingXsoft馬六甲Malacca尼日利亞Nigeria莫斯科Moscow

12、馬爾代夫Maldive杯子CUP顯示器Display Unit書籍Liber打字機typewriter公寓Rooming House手套Gloves獅子LION日光燈Fluorescent Lamp演講Make a Speech女孩RAGAZZA星座Constellation雪花Snowflake報警器Annunciator自信Self-Trust紳士Signior走廊Corridor烏賊SEPIA神化Mythos宙斯Zeus耳機Earphone豆腐Bean Curd1078935,其他非英語3,除去非英語97657553錯誤!101081010101010101010101010101010

13、101010無中文結(jié)果都是英文網(wǎng)站但是其他意思10101010水母jellyfish10緩存Buffer memory1010無高速緩存Cache107無電路electrocircuit105無芯片Chip1010無鍵盤Keyboard1010無電源Power1010無主板Mainborad108無只讀存儲器Read-only10Rom :2;Read-only無memory/rommemory : 8聲卡Sound card108無選擇器Selector1010無界面Interface1010無模板Template1010無漫游Vagabondize1010無口令Password1010無協(xié)議Protocol108無防火墻無10無沒有英文結(jié)果搜索引擎無10無沒有英文結(jié)果多媒體Multimedia109無克林頓Bushmeetsclinton104無布什N100無大仲馬Dumas1010雨果無10無列夫 .托爾斯泰Leo Tolstoy1010馬克 吐溫10沒有英文結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論