



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
phpes短語精確搜索,Elasticsearch:在搜索引擎中如何實(shí)現(xiàn)完全匹配(內(nèi)容精確。。。本?地址:在有搜索引擎之前,我們查?檔常使?順序匹配。?如要搜索"我的祖國是花園",需要在?檔中順序掃描,找到完全匹配的?句。在有了搜索引擎后,我們對查詢語句做的處理就不?樣了。我們通常會先分詞,然后查找對應(yīng)的詞條索引,最后得到評分由?到低的?檔列表。我?度以為沒法實(shí)現(xiàn)完全匹配了,直到?個硬需求的出現(xiàn)?;?天時間,把完全匹配?搜索引擎的思維整理出來。簡要描述實(shí)現(xiàn)思路,字段按?字?詞的形式分詞,再利?短語查詢來搜索。ES中,可以實(shí)現(xiàn)?字?詞的的分詞器是NGram。它其實(shí)是?個上下?相連續(xù)字符的分詞?具,可以看官??檔中的例?。當(dāng)我們將它min_gram和max_gram都設(shè)為1時,它會按?字?詞的形式分詞。?如“shinyke@189.cn”,分詞的結(jié)果是["s","h","i","n","y","k","e","@","1","8","9",".","c","n"]。/index_name/{"settings":{"analysis":{"analyzer":{"charSplit":{"type":"custom","tokenizer":"ngram_tokenizer"}},"tokenizer":{"ngram_tokenizer":{"type":"nGram","min_gram":"1","max_gram":"1","token_chars":["letter","digit","punctuation"]}}}
}}以上語句中,構(gòu)建了?個名為“charSplit”的分析器。它使??個名為“ngram_tokenizer”的Ngram分詞器??梢?如下語句測試charSplit分析器,可以看到?字?詞的效果:"測試語句"把這個分析器在mapping??起來:..."sender":{"type":"string","store":"yes","analyzer":"charSplit","fields":{"raw":{"type":"string","index":"not_analyzed"}},...接下來就可以?match_phrase來實(shí)現(xiàn)完全匹配查詢。/{index_name}/{type_name}/_search{"query":{"multi_match":{"query":"@189.cn","type":"phrase",//type指定為phrase"slop":0,//slop指定每個相鄰詞之間允許相隔多遠(yuǎn)。此處設(shè)置為0,以實(shí)現(xiàn)完全匹配。"fields":["sender"],"analyzer":"charSplit",//分析器指定為charSplit"max_expansions":1}},
"highlight":{//測試?亮是否正常"pre_tags":[""],"post_tags":[""],"fragment_size":100,"number_of_fragments":2,"require_field_match":true,"fields":{"sender":{}}}}phrase查詢原始的作?是?來做短語查詢,它有?個重要的特點(diǎn):有順序。我們利?了它匹配的有序性,限制slop為0,則可實(shí)現(xiàn)完全匹配查詢。以上語句返回的結(jié)果是:{"took":18,"timed_out":false,"_shards":{"total":9,"successful":9,"failed":0},"hits":{"total":1,"max_score":0.40239456,"hits":[{"_index":"index_name","_type":"type_name","_id":"AU9OLIGOZN4dLecgyoKp","_score":0.40239456,
"_source":{"sender":lt189.cn>,李X<189.cn>,秦X<189.cn>,劉X<189.cn>"},"highlight":{"sender":[lt@189.cn>,李X<@189.cn>,秦純X<@189.cn>,劉X<189773140"]}}]}}到此,就實(shí)現(xiàn)了完全匹配查詢。實(shí)際環(huán)境中?NGram做?字?詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國手提式工作燈市場調(diào)查研究報(bào)告
- 2025年中國全毛強(qiáng)縮絨布市場調(diào)查研究報(bào)告
- 2025年中國休閑茶臺市場調(diào)查研究報(bào)告
- 鄉(xiāng)村振興視角下復(fù)合型人才培養(yǎng)路徑研究
- 雙十一直播帶貨玩法
- 圣誕營銷消費(fèi)解析
- 貴州省地質(zhì)博物館兒童教育提升路徑研究
- 超冷23Na40K Feshbach分子激發(fā)譜的研究
- 服裝經(jīng)理的述職報(bào)告
- 2024年曲靖市會澤縣人民醫(yī)院招聘員筆試真題
- 新課程標(biāo)準(zhǔn)2022版綜合實(shí)踐
- 40篇英語短文搞定高考3500個單詞
- 【企業(yè)會計(jì)信息化存在的問題及解決對策開題報(bào)告】
- 痘痘肌膚的各種類型
- 衛(wèi)生事業(yè)管理 第十八章 衛(wèi)生應(yīng)急管理
- 皮膚性病學(xué) 14皮炎和濕疹
- GB/T 3403.2-2013塑料粉狀脲-甲醛和脲/三聚氰胺-甲醛模塑料(UF-和UF/MF-PMCs)第2部分:試樣制備和性能測定
- GB/T 21835-2008焊接鋼管尺寸及單位長度重量
- 知識管理控制程序
- 積極情緒的力量
- DSP原理及應(yīng)用教程-第二章 DSP芯片結(jié)構(gòu)和CPU外圍電路
評論
0/150
提交評論