phpes短語精確搜索,Elasticsearch:在搜索引擎中如何實(shí)現(xiàn)完全匹配內(nèi)容精確_第1頁
phpes短語精確搜索,Elasticsearch:在搜索引擎中如何實(shí)現(xiàn)完全匹配內(nèi)容精確_第2頁
phpes短語精確搜索,Elasticsearch:在搜索引擎中如何實(shí)現(xiàn)完全匹配內(nèi)容精確_第3頁
phpes短語精確搜索,Elasticsearch:在搜索引擎中如何實(shí)現(xiàn)完全匹配內(nèi)容精確_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

phpes短語精確搜索,Elasticsearch:在搜索引擎中如何實(shí)現(xiàn)完全匹配(內(nèi)容精確。。。本?地址:在有搜索引擎之前,我們查?檔常使?順序匹配。?如要搜索"我的祖國是花園",需要在?檔中順序掃描,找到完全匹配的?句。在有了搜索引擎后,我們對查詢語句做的處理就不?樣了。我們通常會先分詞,然后查找對應(yīng)的詞條索引,最后得到評分由?到低的?檔列表。我?度以為沒法實(shí)現(xiàn)完全匹配了,直到?個硬需求的出現(xiàn)?;?天時間,把完全匹配?搜索引擎的思維整理出來。簡要描述實(shí)現(xiàn)思路,字段按?字?詞的形式分詞,再利?短語查詢來搜索。ES中,可以實(shí)現(xiàn)?字?詞的的分詞器是NGram。它其實(shí)是?個上下?相連續(xù)字符的分詞?具,可以看官??檔中的例?。當(dāng)我們將它min_gram和max_gram都設(shè)為1時,它會按?字?詞的形式分詞。?如“shinyke@189.cn”,分詞的結(jié)果是["s","h","i","n","y","k","e","@","1","8","9",".","c","n"]。/index_name/{"settings":{"analysis":{"analyzer":{"charSplit":{"type":"custom","tokenizer":"ngram_tokenizer"}},"tokenizer":{"ngram_tokenizer":{"type":"nGram","min_gram":"1","max_gram":"1","token_chars":["letter","digit","punctuation"]}}}

}}以上語句中,構(gòu)建了?個名為“charSplit”的分析器。它使??個名為“ngram_tokenizer”的Ngram分詞器??梢?如下語句測試charSplit分析器,可以看到?字?詞的效果:"測試語句"把這個分析器在mapping??起來:..."sender":{"type":"string","store":"yes","analyzer":"charSplit","fields":{"raw":{"type":"string","index":"not_analyzed"}},...接下來就可以?match_phrase來實(shí)現(xiàn)完全匹配查詢。/{index_name}/{type_name}/_search{"query":{"multi_match":{"query":"@189.cn","type":"phrase",//type指定為phrase"slop":0,//slop指定每個相鄰詞之間允許相隔多遠(yuǎn)。此處設(shè)置為0,以實(shí)現(xiàn)完全匹配。"fields":["sender"],"analyzer":"charSplit",//分析器指定為charSplit"max_expansions":1}},

"highlight":{//測試?亮是否正常"pre_tags":[""],"post_tags":[""],"fragment_size":100,"number_of_fragments":2,"require_field_match":true,"fields":{"sender":{}}}}phrase查詢原始的作?是?來做短語查詢,它有?個重要的特點(diǎn):有順序。我們利?了它匹配的有序性,限制slop為0,則可實(shí)現(xiàn)完全匹配查詢。以上語句返回的結(jié)果是:{"took":18,"timed_out":false,"_shards":{"total":9,"successful":9,"failed":0},"hits":{"total":1,"max_score":0.40239456,"hits":[{"_index":"index_name","_type":"type_name","_id":"AU9OLIGOZN4dLecgyoKp","_score":0.40239456,

"_source":{"sender":lt189.cn>,李X<189.cn>,秦X<189.cn>,劉X<189.cn>"},"highlight":{"sender":[lt@189.cn>,李X<@189.cn>,秦純X<@189.cn>,劉X<189773140"]}}]}}到此,就實(shí)現(xiàn)了完全匹配查詢。實(shí)際環(huán)境中?NGram做?字?詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論