




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、.,1,基于規(guī)則的中文地址分詞與匹配方法,計(jì)算機(jī)技術(shù),.,2,研究背景及意義 隨著地理信息系統(tǒng)(GIS)的不斷發(fā)展和其在各行業(yè)的廣泛應(yīng)用,人們對信息共享 的要求也越來越迫切。例如在城市管網(wǎng)、交通導(dǎo)航、工商管理、公共衛(wèi)生、災(zāi)害管理等 領(lǐng)域,地理信息系統(tǒng)作為信息共享的平臺,其應(yīng)用越來越廣泛。城市各行業(yè)的數(shù)據(jù)庫都 保存著大量和地理位置有關(guān)的非空間數(shù)據(jù)。但是這些行業(yè)建設(shè)的 GIS 系統(tǒng)并沒有足夠的 空間位置數(shù)據(jù)進(jìn)行支撐,因?yàn)榈刂窋?shù)據(jù)并不能夠批量、準(zhǔn)確地轉(zhuǎn)化為空間化的信息。這 些數(shù)據(jù)大多都沒有空間位置坐標(biāo),無法對應(yīng)到電子地圖上,也就無法進(jìn)行空間分析和管 理決策。 地址匹配技術(shù)正是這一問題的解決方法。地址
2、匹配技術(shù)就是把自然語言描述的地理 位置信息轉(zhuǎn)換成地理坐標(biāo)的過程。通過地址匹配技術(shù),可以把城市各個行業(yè)的非空間 信息數(shù)據(jù)進(jìn)行空間化,進(jìn)而運(yùn)用到 GIS 實(shí)際應(yīng)用中,實(shí)現(xiàn)信息的集成與數(shù)據(jù)共享。 GIS 例如,百度地圖,.,3,引入一些地址組成的基本概念: (1)地址串:就是一般的地址,日常的通信地址。例如:青島市黃島區(qū)前灣港路 579 號。 (2)地址要素:組成地址串的若干詞組,如上面的地址就是由 4 個地址要素組成的,分別是“青島市”、“黃島區(qū)”、“前灣港路”和“579 號”,每個地址要素相對獨(dú)立。 (3)地址通名:顧名思義,就是地址要素中通用的那些字段。例如:地址要素 “黃島區(qū)”中“區(qū)”為地址
3、通名, “前灣港路”中“路”為地址通名。 (4)地址專名:例如:“黃島區(qū)”中“黃島”為地址專名。地址要素中去掉地址通名后剩余的部分就稱為地址專名。,.,4,Key technologies on Address matching,.,5,Standard address model,.,6,標(biāo)準(zhǔn)地址模型舉例,.,7,中文分詞方法: 1.基于字典的分詞方法 (1)正向最大匹配法 (2)逆向最大匹配法 (3)最少切分詞方法 (4)逐詞遍歷法 2.基于理解的分詞方法 3.基于統(tǒng)計(jì)的分詞方法 在人工智能的自然語言處理(NLP)領(lǐng)域也會用到中文分詞技術(shù)。,.,8,正向最大匹配法: 它的基本思想是:首先創(chuàng)
4、建一個用于自動分詞的中文詞典,可以得知詞典中的最長詞條的漢字個數(shù),假設(shè)個數(shù)為 n。然后,取待切分句子的前 n 個字符作為匹配字段,在分詞詞典中進(jìn)行字段的查詢匹配。如果詞典中有這樣的字段,則匹配成功。這樣,由 n個字符組成的字段被切分出來,作為一個詞。如果詞典中不存在這樣的字段,則匹配失敗,將字段末尾去一個漢字,剩下的 n-1 個字符作為新的字段,再進(jìn)行匹配,如此重復(fù),直到匹配成功為止。 例如句子“我們是中華人民共和國的公民”,假設(shè)字典的最長詞長為 7,它的正向最 大匹配法的分詞流程如下表 所示。,.,9,分詞過程實(shí)例 Process of segmentation,.,10,標(biāo)準(zhǔn)數(shù)據(jù)庫的創(chuàng)建:
5、 建立地址標(biāo)準(zhǔn)數(shù)據(jù)庫系統(tǒng)是地址匹配的前提工作,需要將采集的城市地址按照確定 的標(biāo)準(zhǔn)地址模型進(jìn)行標(biāo)準(zhǔn)化。 在創(chuàng)建的標(biāo)準(zhǔn)地址庫中,分別存儲地址的行政區(qū)劃部分和詳細(xì)街道地址部分。,.,11,中文地址的組成復(fù)雜多樣,對比標(biāo)準(zhǔn)地址模型,可能存在地址表達(dá)不完整、殘缺的情況。(設(shè)定:1道路名,2門牌號,3住宅小區(qū),4樓牌號,5建筑物。)例如地址址武漢市青山區(qū)工業(yè)一路21號,是1(道路名)+2(門牌號)的模式,沒有3、4、5三種地址要素。因此需要定義規(guī)則以便于后面地址匹配的進(jìn)行。如下表所示。,.,12,地址匹配規(guī)則樹 Geocoding rule tree,.,13,對于存在語義歧義的模糊地址,可以利用棧存儲
6、所有歧義情況,并構(gòu)建一棵歧義地址樹,按照深度優(yōu)先原則遍歷該樹,直至查詢到滿足規(guī)則的地址記錄為止。當(dāng)查詢失敗時,可以讀取棧中上一層的歧義地址繼續(xù)查詢。雖然一定程度上加大了查詢的復(fù)雜度,但可以比較好的應(yīng)對歧義模糊地址的匹配問題。,.,14,例如,地址“江漢墨水湖東側(cè)12號樓B座301室”,首先,行政區(qū)劃部分應(yīng)該是“江漢區(qū)”,缺少地址通名“區(qū)”;“墨水湖”表述有歧義,可能是墨水湖路,也可能是墨水湖小區(qū);另外,“東側(cè)、B座301室”為多余信息,應(yīng)該去掉。以此地址為例,算法的具體步驟如下: (1)判斷字符串中是否存在行政區(qū)劃。通過搜索標(biāo)準(zhǔn)地址庫中行政區(qū)劃表,查找到“江漢”一詞與記錄“江漢區(qū)”模糊匹配,將
7、其分割出來。 (2)對剩余字符串“墨水湖東側(cè)12號樓B座301室”進(jìn)行地址分詞匹配。通過匹配規(guī)則樹,限定了搜索字段為1(道路名)、3(住宅小區(qū)名)、5(建筑物)。調(diào)用最大正向匹配算法,查詢到“墨水湖”分別與1墨水湖路和3墨水湖小區(qū)兩個字段模糊匹配,因此產(chǎn)生語義歧義。并將1與3先后入棧,棧頂為3,故先將“墨水湖”匹配到3,查詢規(guī)則庫,沒有滿足條件的規(guī)則,故對“東側(cè)12號樓B座301室”繼續(xù)進(jìn)行分詞匹配。通過規(guī)則樹,3后面只有4。繼續(xù)調(diào)用最大匹配算法,在標(biāo)準(zhǔn)地址庫中的4字段中查詢剩余子串 “東側(cè)12號樓B座301室”,無匹配結(jié)果。,.,15,故重新選取棧頂元素,將“墨水湖”匹配到1,查詢規(guī)則庫無滿足的規(guī)則,故繼續(xù)分詞匹配。查詢規(guī)則樹并確定備選字段為2、3、4、5。搜尋字符串“東側(cè)12號樓B座301室”,查找到“12號樓”,與4字段有一條匹配記錄,將該詞記入分詞結(jié)果詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年企業(yè)食堂糧油采購配送合同范本
- 2025年兼職勞動者合同書標(biāo)準(zhǔn)模板
- 2025年個人消費(fèi)借款合同規(guī)范
- 2025年企業(yè)員工商務(wù)出行汽車租賃合同洽談
- 仁果類果樹種植園農(nóng)業(yè)科技創(chuàng)新考核試卷
- 影視特效制作與合成技術(shù)考核試卷
- 意外傷害保險理賠標(biāo)準(zhǔn)化流程制定考核試卷
- 有色金屬礦選礦新技術(shù)研究與應(yīng)用考核試卷
- 第一單元第二節(jié) 改造家庭網(wǎng)絡(luò) 教學(xué)設(shè)計(jì) 2024-2025學(xué)年川教版(2024)信息科技 七年級上冊
- 旅游地理與地域文化考核試卷
- 五金公司KPI績效考核全套
- DB12-595-2015醫(yī)院安全防范系統(tǒng)技術(shù)規(guī)范
- 五年級下冊英語課件-Unit 2 My favourite season B Let's learn 人教PEP版(共15張PPT)
- GB∕T 7260.40-2020 不間斷電源系統(tǒng) UPS 第4部分:環(huán)境 要求及報(bào)告
- 中學(xué)生心理健康診斷測驗(yàn)-MHT量表
- 高邊坡施工危險源辨識及分析
- 【李建西醫(yī)案鑒賞系列】三當(dāng)歸四逆湯治療頸腫案
- 安全文明施工管理(EHS)方案(24頁)
- 結(jié)構(gòu)化思維PPT通用課件
- 劉姥姥進(jìn)大觀園課本劇劇本3篇
- 產(chǎn)品承認(rèn)書客(精)
評論
0/150
提交評論