




已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
彩鈴智能搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 摘要 彩鈴業(yè)務(wù)是一項(xiàng)由被叫( 或主叫) 用戶定制,為主叫用戶提供一 段悅耳的音樂或一句問候語(yǔ)來(lái)替代普通回鈴音的業(yè)務(wù)。用戶申請(qǐng)開通 彩鈴業(yè)務(wù)之后,可以自行設(shè)定個(gè)性化回鈴音,在其做被叫時(shí),為主叫 用戶播放個(gè)性化定制的音樂或錄音,來(lái)代替普通的回鈴音。 近幾年來(lái),隨著彩鈴業(yè)務(wù)的迅猛發(fā)展,彩鈴平臺(tái)中的鈴音數(shù)量與 日俱增,數(shù)以萬(wàn)計(jì)的鈴音出現(xiàn)在用戶的眼前,各家鈴音制作商創(chuàng)作的 千奇百怪的彩鈴使用戶越發(fā)不知所從,難以挑選,現(xiàn)有的各種接入方 式中的傳統(tǒng)鈴音查找方式已經(jīng)不能滿足用戶的需要。另一方面,由搜 索巨頭g o o g l e 公司所引領(lǐng)的搜索技術(shù)革新使得搜索領(lǐng)域有了突飛猛 進(jìn)的發(fā)展,各種分詞、索引、排序等算法不斷涌現(xiàn),并出現(xiàn)了以l u c e n e 、 n u t c h 等為代表的開源搜索引擎工具,搜索技術(shù)已經(jīng)日趨成熟。 垂直搜索是目前搜索領(lǐng)域的重點(diǎn)發(fā)展方向之一它是搜索引擎的 細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合,定向分 字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶垂直搜 索引擎和普通的網(wǎng)頁(yè)搜索引擎的最大區(qū)別是對(duì)網(wǎng)頁(yè)信息進(jìn)行了結(jié)構(gòu) 化信息抽取,將非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),網(wǎng)頁(yè)搜 索是以網(wǎng)頁(yè)為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然 后將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù),進(jìn)行進(jìn)一步的加工處理。 本文所介紹的彩鈴智能搜索引擎正是利用現(xiàn)有的搜索技術(shù),針對(duì) 彩鈴平臺(tái)所開發(fā)的一套高效、智能的垂直搜索引擎。第一章引言簡(jiǎn)單 介紹了目前垂直搜索引擎的發(fā)展現(xiàn)狀。第二章對(duì)彩鈴平臺(tái)做了一個(gè)總 體的介紹,從組網(wǎng)、數(shù)據(jù)、接入方式等方面分析了彩鈴平臺(tái)的特點(diǎn)。 第三章介紹了目前搜索引擎領(lǐng)域中所用到的關(guān)鍵技術(shù),以及今后的發(fā) 展趨勢(shì)。第四章是本文的重點(diǎn)之一,在對(duì)彩鈴平臺(tái)中各項(xiàng)數(shù)據(jù)進(jìn)行了 統(tǒng)計(jì)分析后,研究了在彩鈴平臺(tái)中應(yīng)用搜索引擎技術(shù)的可行性,并提 出了目標(biāo)系統(tǒng)所應(yīng)具備的能力,隨后對(duì)各種不同搜索方式的搜索流程 進(jìn)行了設(shè)計(jì),在全面分析了系統(tǒng)功能后,提出了一套較詳細(xì)的系統(tǒng)框 架設(shè)計(jì)方案,并定義了與外部功能實(shí)體間的交互協(xié)議。在第五章中, 重點(diǎn)說(shuō)明了彩鈴智能搜索中所用到的分詞、模糊匹配、權(quán)值算法等關(guān) 鍵技術(shù);其中s k m 算法是針對(duì)彩鈴平臺(tái)的數(shù)據(jù)特點(diǎn)開發(fā)出的模糊匹 配算法,在本章中做了詳細(xì)論述;本章第三節(jié)則重點(diǎn)討論了在搜索結(jié) 果排序過程中所使用的一套獨(dú)特的權(quán)值算法,對(duì)單字、關(guān)鍵詞、鈴音 等對(duì)象的權(quán)重計(jì)算方法做了詳細(xì)的闡述。第六章貝, w j n 用現(xiàn)有測(cè)試數(shù)據(jù) 對(duì)算法的效率與已知算法進(jìn)行比較,并對(duì)算法性能做了詳細(xì)討論。 關(guān)鍵字:彩鈴搜索引擎分詞算法模糊匹配 d e s i g na n di m p l e m e n t a t i o no f c r b ts e r v i c ed o 心no r i e n t e di n t e l l i g e n t s e a r c he n g i n e a b s t r a c t c o l o rr i n gb a c kt o n e ( c r b t ) i sab u s i n e s ss e r v i c et h a tc u s t o m e dl a y r e c i p i e n tu s e r , p r o v i d i n gap l e a s a n tm u s i co ras a l u t a t i o nt or e p l a c e o r d i n a r yr i n gt o n e s a f t e rr e g i s t e r i n gc r b ts e r v i c e ,c u s t o m e r sc a l ls e t t h e i ro w np e r s o n a l i z e dr i n gt o n e s ,w h i c hw i l lb ep l a y e dt ot h ec a l l e rt o r e p l a c et h eo r d i n a r yr i n gt o n e sw h e nt h e ya r ec a l l e d , i nr e c e n ty e a r s ,w i t ht h er a p i dd e v e l o p m e n to fc r b t s e r v i c e ,c r b t p l a t f o r mi nt h eg r o w i n gn u m b e ro fr i n gt o n e s ,t e n so ft h o u s a n d so fr i n g t o n e si nt h eu s e r si m m e d i a t e ,t h ev a r i o u sk i n d so fr i n gt o n e sm a d eb y i n d i v i d u a lr i n gt o n e sp r o d u c e r sm a k ec u s t o m e r sf e e li t s g e t t i n gm o r e d i f f i c u l tt om a k es e l e c t i o n a l le x i s t i n ga c c e s si nt h es e a r c ha p p r o a c hh a s b e e nu n a b l et om e e tt h en e e d so fu s e r s o nt h eo t h e rh a n d ,s e a r c hg i a n t g o o g l e ss e a r c ht e c h n o l o g yh a v em a d er a p i dd e v e l o p m e n to fv a r i o u s s e a r c hi n n o v a t i o n s ,s u b t e r m ,i n d e x i n g ,s o r t i n ga l g o r i t h m sa r ec o n s t a n t l y e m e r g i n g ,a n dt h e r et ol u c e n e ,n u t c ha st h er e p r e s e n t a t i v eo ft h eo p e n s o u r c es e a r c he n g i n et o o l s ,s e a r c ht e c h n o l o g ym a t u r e s v e r t i c a ls e a r c hi so n eo ft h ek e yd e v e l o p m e n td i r e c t i o nf o rs e a r c h i n g t e c h n o l o g y i t s ak i n do fd e t a i l e da n de x t e n d e ds e a r c he n g i n e ,a n i n t e g r a t i o nf o rt h ew e b s i t e so fc e r t a i nt y p e so fs p e c i a l i z e di n f o r m a t i o n , t a r g e t i n ga tt h en e e d so ff i e l dd a t ae x t r a c t e da f t e rt r e a t m e n ti ns o m ef o r m b a c kt ot h eu s e r t h eb i g g e s td i f f e r e n c eb e t w e e nv e r t i c a ls e a r c he n g i n e s a n dt h eg e n e r a lw e bs e a r c he n g i n e si st h ei n f o r m a t i o no nt h ew e b s i t eo f s t r u c t u r e di n f o r m a t i o nc o l l e c t e d ,u n s t r u c t u r e dd a t aw i l lb ec o l l e c t e di n t oa s p e c i f i cs t r u c t u r eo f t h ei n f o r m a t i o na n dd a t a f o rt h ew e bs e a r c he n g i n e , w e bp a g ei st h es m a l l e s tu n i t ,w h i l ef o rt h ev e r t i c a ls e a r c hi ss t r u c t u r e d d a t a t h e s ed a t aa r et h e ns t o r e dt ot h ed a t a b a s e ,f o rf u r t h e rp r o c e s s i n g t h i sp a p e ri n t r o d u c e st h ec r b t i n t e l l i g e n ts e a r c he n g i n e ,w h i c hi sa v e r t i c a ls e a r c he n g i n et h a tu s e se x i s t i n gs e a r c ht e c h n o l o g y , o r i e n t e dt o c r b t p l a t f o r mf o rt h ed e v e l o p m e n to fah i g h l ye f f i c i e n ta n di n t e l l i g e n t d a t as e a r c h i n g c h a p t e ro n eb r i e f l yi l l u s t r a t e sv e r t i c a ls e a r c he n g i n eo ft h e c u r r e n ts t a t u so fd e v e l o p m e n t ;i nc h a p t e rt w o ,t h ec r b tp l a t f o r mi s d e s c r i b e da saw h o l e ,i nt h ev i e wo fn e t w o r k , d a t at y p ea n da c c e s sw a y c h a p t e rt h r e es h o w st h ek e yt e c h n o l o g i e si nt h ea r e ao fs e a r c he n g i n e ,a s w e l la st h ed e v e l o p m e n t 仃e n do ft h ef u t u r e c h a p t e rf o u ri so n eo ft h e e m p h a s e so ft h i sa r t i c l e ,a f t e rs t a t i s t i c i a na n da n a l y s i so nc r b td a t a , i t s t u d i e st h ef e a s i b i l i t yt ou s es e a r c he n g i n et e c h n o l o g yo nc r b t p l a t f o r m , a n dp u t sf o r w a r dt h et a r g e ts y s t e ms h o u l dh a v et h ea b i l i t yt o ,a n dt h e n d e s i g n ss e a r c hp r o c e s s e sf o ra l ld i f f e r e n ta c c e s sw a y s ,i nac o m p r e h e n s i v e a n a l y s i so ft h es y s t e m ,s e t sf o r t haf r a m e w o r kf o rm o r ed e t a i l e ds y s t e m d e s i g n ,a n dt h ed e f i n i t i o no ff u n c t i o n sa n de x t e r n a li n t e r a c t i o na g r e e m e n t b e t w e e nt h ee n t i t i e s i nt h ef i f t h c h a p t e r , i tf o c u s e so nt h ec r b t i n t e l l i g e n t s e a r c hi nt h e s u b t e r m ,f u z z ym a t c h i n ga l g o r i t h ma n d k e y - w e i g h t sa l g o r i t h mt e c h n o l o g i e s t h es k ma l g o r i t h mi se x p o u n d e d v e r b o s e l y , w h i c hi sak i n do ff u z z y - m a t c h i n ga l g o r i t h md e v e l o p e da i m i n g t ot h ed a t at y p eo fc i 淝t t h et h i r ds e c t i o no ft h i sc h a p t e ri sf o c u s e do n t h er a n k i n gi nt h es e a r c hr e s u l t si nt h ec o u r s eo ft h eu s eo fau n i q u e a l g o r i t h mw e i g h t so ft h ew o r d ,k e y w o r d ,r i n gi t e m sa n do t h e ro b j e c t s c a l c u l a t i o no ft h ew e i g h to fad e t a i l e de x p o s i t i o n c h a p t e rs i xu s e s e x i s t i n gt e s t d a t at o c o m p a r et h ee f f i c i e n c y w i t ht h ew e l lk n o w n a l g o r i t h m s ,m o r e o v e rd i s c u s s e dt h ep e r f o r m a n c eo fa l g o r i t h m si nd e t a i l k e yw o r d s :c r b ts e a r c he n g i n e s e g m e n t a t i o na l g o r i t h mf u z z ym a t c h i n g 縮略語(yǔ) a p p l i c a t i o np r o g r a m m i n gi n t e r f a c e a u t o m a t e ds p e e c hr e c o g n i t i o n c o l o rr i n gb a c k t o n e c o n t r o ln o d e i n t e m e te n g i n e e r i n gt a s kf o r c e i n d e p e n d e n ti n t e l l i g e n tp e r i p h e r a l i n t e m e tp r o t o c o l i n t e l l i g e n ts e a r c he n g i n e i n t e r a c t i v ev o i c er e s p o n s e r e q u e s tf o rc o m m e n t s r e s o u r c el i s ts e r v e r r e s o u r c en o d e s e r v i c ea c c e s sp o i n t s e r v i c ec o n t r o lp o i n t s u b s e q u e n c e - b a s e dk e y w o r dm a t c h i n g s e s s i o ni n i t i a t i o np r o t o c o l s t , 曩- v i c em a n a g e m e n tp o i m s e r v e r - s e r v e rp r o t o c o l t e x tt os p e e c h u s e ri n t e r a c t i o ns c r i p t x m ld o c u m e n tm a n a g e m e n t x m ld o c u m e n tm a n a g e m e n ts e r v e r e x t e n s i b l em a r k u pl a n g u a g e e x t e n s i b l em e s s a g i n ga n dp r e s e n c ep r o t o c o l 應(yīng)用編程接口 自動(dòng)語(yǔ)音識(shí)別技術(shù) 多彩回鈴音業(yè)務(wù) 控制節(jié)點(diǎn) i n t e m e t 工程組 獨(dú)立智能外設(shè) 因特網(wǎng)協(xié)議 智能搜索引擎 即互動(dòng)式語(yǔ)音應(yīng)答 請(qǐng)求注解 資源列表服務(wù)器 資源節(jié)點(diǎn) 服務(wù)接入點(diǎn) 業(yè)務(wù)控制點(diǎn) 基于子序列的關(guān)鍵字匹配 會(huì)話起始協(xié)議 業(yè)務(wù)管理點(diǎn) 服務(wù)器一服務(wù)器協(xié)議 文本語(yǔ)音轉(zhuǎn)換 用戶交互腳本 舭文檔管理 x m l 文檔管理服務(wù)器 可擴(kuò)展標(biāo)記語(yǔ)言 可擴(kuò)展的消息和p r e s e n c e 協(xié)議 魍 搬 一 叫 | 耋 肼 m 髓 胍 哦 雌 心 沁 孵 喜| e i 暑| 卿 | 蘭 一 一 一 舭 一 獨(dú)創(chuàng)性( 或創(chuàng)新性) 聲明 本人聲明所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所 知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰 寫過的研究成果,也不包含為獲得北京郵電大學(xué)或其他教育 機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已 在論文中作了明確的說(shuō)明并表示了謝意 申請(qǐng)學(xué)位論文與資料若有不實(shí)之處, 本人簽名:二犟豸l 本人承擔(dān)一切相關(guān)責(zé)任 日期:塑蜂母里 關(guān)于論文使用授權(quán)的說(shuō)明 學(xué)位論文作者完全了解北京郵電大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即: 研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬北京郵電大學(xué)。學(xué)校有 權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許學(xué)位論文被 查閱和借閱:學(xué)??梢怨紝W(xué)位論文的全部或部分內(nèi)容,可以允許采用影印、 縮印或其它復(fù)制手段保存、匯編學(xué)位論文。( 保密的學(xué)位論文在解密后遵守 此規(guī)定) 保密論文注釋:本學(xué)位論文屬于保密在年解密后適用本授權(quán)書。非保密論文注釋:本 本人簽名:j 蔑整 日期: 導(dǎo)師簽名:他日期: 北京郵電人學(xué)碩i j 學(xué)位論義彩鈴智能搜索f j l 擎的設(shè)計(jì)與實(shí)現(xiàn) 第一章引言弟一早ji 百 在互聯(lián)網(wǎng)絡(luò)日益滲入我們?nèi)粘I畹慕裉欤A康馁A存和科學(xué)的搜索是人們 信息行為中兩樣最重要的能力【l 】搜索引擎以一定的策略搜集、發(fā)現(xiàn)信息,對(duì)信 息進(jìn)行理解、提取、組織和處理【2 翔,并為用戶提供檢索服務(wù),從而起到信息導(dǎo) 航的目的。在搜索引擎領(lǐng)域中,基于字符串匹配的分詞算法( 也稱機(jī)械分詞算法) 眇】是一種常用的可以從用戶的輸入串中分離出關(guān)鍵字的算法,其發(fā)展已經(jīng)較為 成熟,并已經(jīng)出現(xiàn)了以l u c e n d 6 1 、n u t c h 刀等開源項(xiàng)目為代表的開源項(xiàng)目。 垂直搜索是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是 對(duì)某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以 某種形式返回給用戶嘲垂直搜索引擎和普通的搜索引擎的最大區(qū)別是對(duì)信息進(jìn) 行了結(jié)構(gòu)化抽取,然后將這些數(shù)據(jù)進(jìn)行進(jìn)一步的加工處理,最后再以搜索的方式 滿足用戶的需求。關(guān)于垂直搜索,已經(jīng)有不少研究理論【9 】,但由于垂直搜索是面 向領(lǐng)域的搜索技術(shù),在應(yīng)用時(shí)要針對(duì)所在領(lǐng)域的數(shù)據(jù)格式特點(diǎn)采用不同的搜索算 法,不同領(lǐng)域的搜索方式之間缺少互通性,因此其發(fā)展并不像傳統(tǒng)搜索引擎技術(shù) 那樣成熟。 針對(duì)彩鈴平臺(tái)【l o 】的數(shù)據(jù)特點(diǎn),彩鈴領(lǐng)域的搜索引擎應(yīng)滿足如下幾個(gè)要求: 應(yīng)包含歌名、歌手名、歌曲類型等信息; 與網(wǎng)頁(yè)搜索相比數(shù)據(jù)量較少,對(duì)搜索速度要求不高。為保證用戶體驗(yàn)感 和系統(tǒng)效率,搜索耗時(shí)在秒級(jí)以下即可; 由于很多歌名、歌手名包含非常用字,為提高命中率,對(duì)算法的糾錯(cuò)能 力要求較高。 對(duì)于糾錯(cuò)能力的實(shí)現(xiàn),較常見的方法是采用編輯距離算法f n , 1 2 1 ,在l u c e n t 中的模糊查詢功能也是使用此算法實(shí)現(xiàn)的【1 3 】。但由于其計(jì)算的是兩個(gè)字符串之間 的相似程度,算法難以將用戶輸入的搜索信息與冗余信息加以區(qū)分,當(dāng)用戶輸入 的冗余信息過多時(shí),編輯距離算法的搜索命中率將大幅降低,難以符合彩鈴搜索 的要求。 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京郵1 1 1 人學(xué)碩l :學(xué)位論文彩鈴智能搜索引擎的設(shè)計(jì)j 實(shí)現(xiàn) 同時(shí),智能搜索系統(tǒng)中采用了一種符合彩鈴數(shù)據(jù)特點(diǎn)的關(guān)鍵字權(quán)重算法以及 鈴音權(quán)重算法。算法融合了自然語(yǔ)言文字使用頻度、模糊分詞算法、鈴音使用頻 度,以及用戶個(gè)人喜好等多個(gè)因素,使得搜索結(jié)果更加合理,更加人性化。 彩鈴智能搜索是一種彩鈴使用方式人性化新型業(yè)務(wù)。用戶只要使用自然語(yǔ)言 即可與彩鈴系統(tǒng)進(jìn)行交互并下載到想要的鈴音,可以提高用戶對(duì)彩鈴的體驗(yàn)度, 從而提高彩鈴平臺(tái)鈴音定制的成功率和定制總量。 2北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京郵電人學(xué)碩上學(xué)位論文彩鈴智能搜索引擎的設(shè)計(jì)0 實(shí)現(xiàn) 2 1 業(yè)務(wù)簡(jiǎn)介 第二章彩鈴平臺(tái)介紹 彩鈴業(yè)務(wù)是一項(xiàng)由被叫( 或主叫) 用戶定制,為主叫用戶提供一段悅耳的音 樂或一句問候語(yǔ)來(lái)替代普通回鈴音的業(yè)務(wù)【1 4 1 。用戶申請(qǐng)開通彩鈴業(yè)務(wù)之后,可以 自行設(shè)定個(gè)性化回鈴音,在其做被叫時(shí),為主叫用戶播放個(gè)性化定制的音樂或錄 音,來(lái)代替普通的回鈴音。當(dāng)被叫用戶處于忙、不在服務(wù)區(qū)、關(guān)機(jī)等非空閑狀態(tài) 情況下時(shí),仍播放原網(wǎng)絡(luò)系統(tǒng)提供的語(yǔ)音通知。 2 2 組網(wǎng)結(jié)構(gòu) h $ 為 曠酋溽7 一移 圖2 。1 彩鈴平臺(tái)組網(wǎng)結(jié)構(gòu) 智能外設(shè)( i i p :i n d e p e n d e n ti n t e l l i g e n tp e r i p h e r a l ) 是智能網(wǎng)體系結(jié)構(gòu)中韻 一個(gè)重要功能實(shí)體,完成特殊資源功能( s l 江) ,向智能網(wǎng)的終端用戶提供各種 專用資源服務(wù),例如向用戶發(fā)布提示音,接受用戶撥號(hào)等等。 在智能網(wǎng)發(fā)展初期,由于智能業(yè)務(wù)對(duì)專用資源功能的需求比較簡(jiǎn)單i i5 1 ,s r f 的功能往往被集成在s s p 中,由交換機(jī)向網(wǎng)絡(luò)提供發(fā)提示音和收集用戶信息的 設(shè)備。 隨著智能業(yè)務(wù)不斷發(fā)展,業(yè)務(wù)功能日趨復(fù)雜,要求s r f 具有更靈活的對(duì)用戶 交互的控制能力以及特殊資源的提供和處理能力;因此這部分功能逐漸從s s p 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 1 蕊睡 鰳 申信 艟 由 北京郵電人學(xué)碩i :學(xué)位論文彩鈴智能搜索引擎的砹計(jì)。j 實(shí)現(xiàn) 中獨(dú)立出來(lái)。 彩鈴業(yè)務(wù)是在原有的i i p 平臺(tái)上開發(fā)的,其所基于的i i p 平臺(tái)已經(jīng)是按照中 國(guó)移動(dòng)集團(tuán)要求改造的增強(qiáng)型獨(dú)立i p ;其具有業(yè)務(wù)邏輯執(zhí)行功能,具有主動(dòng)戶 出被叫用戶功能【1 6 1 ,即:既能夠處理如局呼叫,同時(shí)也可以發(fā)起出局呼叫;其具 備s s p 的一些基本呼叫控制功能;與此同時(shí)增強(qiáng)型i i p 還具備和b o s s 、s m s c 相連的功能,同時(shí)增加w e bp o r t a l 作為業(yè)務(wù)受理平臺(tái)界面。 2 3 彩鈴數(shù)據(jù)特點(diǎn) 彩鈴平臺(tái)中的數(shù)據(jù)具有如下特點(diǎn): 1 數(shù)據(jù)平臺(tái)封閉,數(shù)據(jù)量不大。 與普通的互聯(lián)網(wǎng)搜索不同的是,彩鈴平臺(tái)中的數(shù)據(jù)均屬于內(nèi)部數(shù)據(jù),數(shù) 據(jù)集中,易于管理,省去了傳統(tǒng)搜索引擎中的數(shù)據(jù)收集過程。同時(shí),由于彩 鈴數(shù)據(jù)在制作和上傳過程中都是需要經(jīng)過嚴(yán)格審核,也就造成了彩鈴數(shù)據(jù)量 不會(huì)很大,通常情況下一個(gè)省的彩鈴平臺(tái)鈴音數(shù)據(jù)量為十萬(wàn)級(jí)別。 2 多條鈴音對(duì)應(yīng)于同一首歌曲。 對(duì)于一首當(dāng)前非?;鸬母枨?,通常有多家s p ( s e r v i c ep r o v i d e r ) 同時(shí)為 其制作彩鈴,因此就造成了彩鈴平臺(tái)中一首歌曲對(duì)應(yīng)多條鈴音的情況非常普 遍,在此情況下通常是以擴(kuò)展名的方式將不同的鈴音加以區(qū)別。例如,“童 話( 高潮版) 一、“童話( 深情版) 一、“童話( 龍騰陽(yáng)光板) 一等等。 3 鈴音數(shù)據(jù)錯(cuò)誤以及不一致的情況多。 。在s p 進(jìn)行鈴音上傳時(shí),由于人為的原因,經(jīng)常會(huì)造成一些信息填寫錯(cuò)誤 的情況。例如將鈴音名稱和歌手名稱填反,或者某些信息空缺等等。同時(shí), 更多的情況是鈴音信息的彼此不一致,例如,有的鈴音的歌手名是“蔡依林 , 也有的是“蔡依琳”;有的是“陶拮,也有的是“陶哲,這些情況都會(huì)對(duì) 用戶搜索和查找產(chǎn)生困難。 2 4 各種接入方式及其現(xiàn)有的查找方式 4 目前彩鈴平臺(tái)提供給用戶的接入方式有以下四種:短信方式、語(yǔ)音方式、網(wǎng) 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京郵電人學(xué)碩上學(xué)位論文彩鈴智能搜索引擎的設(shè)計(jì)j 實(shí)現(xiàn) 站方式、s t k 接入方式。其中s t k 方式屬于彩鈴平臺(tái)對(duì)外開放接口,本文內(nèi)暫 不對(duì)此進(jìn)行討論。 在短信方式下,用戶可以將鈴音的短編號(hào)通過短信方式發(fā)送到1 2 5 3 0 進(jìn)行鈴 音查找,在系統(tǒng)返回提示的幫助下進(jìn)行鈴音各種相關(guān)操作。使用短編號(hào)進(jìn)行鈴音 查找的缺點(diǎn)在于,用戶必須先獲得鈴音的短編號(hào)信息,而一首普通鈴音的短編號(hào) 通常在6 至1 0 位之間,不便于用戶記憶;同時(shí),此種查找方式的宣傳廣告通常 出現(xiàn)在電視廣告或樓宇廣告中,宣傳成本較高,且獲益鈴音數(shù)量有限。在對(duì)實(shí)際 現(xiàn)網(wǎng)中的數(shù)據(jù)統(tǒng)計(jì)表名,與其他幾種查找方式相比,使用短信查找業(yè)務(wù)的用戶所 占的比例較低。 在語(yǔ)音方式下,用戶使用手機(jī)撥打接入號(hào)( 歸屬地區(qū)號(hào)+ ) 1 2 5 3 0 可根據(jù)語(yǔ) 音提示,選擇各種音樂排行榜的鈴音進(jìn)行試聽和下載。與其他查找方式相比,語(yǔ) 音查找方式的最大特點(diǎn)在于可以直接對(duì)鈴音進(jìn)行試聽,提高用戶體驗(yàn)度;但其缺 點(diǎn)在于難以對(duì)所要查找的鈴音進(jìn)行定位,除了與短信方式類似的輸入鈴音短編號(hào) 外,只能通過各種排行榜及鈴音分類信息進(jìn)行線性查找,給用戶帶來(lái)很大不便, 不適合下載目標(biāo)性強(qiáng)的用戶使用。 在網(wǎng)站中,用戶可以在頁(yè)面的搜索欄中輸入自己想要的鈴音名稱或者歌手名 進(jìn)行查找。目前彩鈴網(wǎng)站中的鈴音查找是一種基于數(shù)據(jù)庫(kù)的字段匹配查找,對(duì)數(shù) 據(jù)庫(kù)系統(tǒng)的負(fù)荷壓力較大。同時(shí),此種查找方式只支持單關(guān)鍵字查找,無(wú)法對(duì)多 關(guān)鍵字進(jìn)行匹配,例如用戶輸入“周杰倫菊花臺(tái)一無(wú)法找到期望的結(jié)果。 從業(yè)務(wù)的需求來(lái)看,僅僅以上進(jìn)行的鈴音定制已經(jīng)不能滿足用戶的需要,彩 鈴平臺(tái)必須提供一種更加直觀、更加方便的鈴音查詢方式。智能搜索平臺(tái)所要完 成的目標(biāo)就是實(shí)現(xiàn)與用戶之間的自然語(yǔ)言交互,能夠理解用戶的意圖并引導(dǎo)用戶 完成相應(yīng)的操作。 2 5 本章小結(jié) 本章對(duì)彩鈴平臺(tái)系統(tǒng)作了簡(jiǎn)要的介紹。彩鈴業(yè)務(wù)是一種時(shí)尚的、以增強(qiáng)趣味 性為目的的業(yè)務(wù),以年輕人為主要使用群體。其數(shù)據(jù)特點(diǎn)主要有數(shù)據(jù)量小、擴(kuò)展 名較多、數(shù)據(jù)不一致等,在日益增長(zhǎng)的鈴音數(shù)量面前,各種接入方式的傳統(tǒng)鈴音 查找方式均具有不可忽略的局限性,不能滿足用戶對(duì)鈴音搜索的需要,有必要針 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 5 北京郵電人學(xué)碩:學(xué)位論文彩鈴智能搜索0 l 擎的設(shè)計(jì)與實(shí)現(xiàn) 對(duì)彩鈴平臺(tái)的數(shù)據(jù)開發(fā)一套獨(dú)立的、智能化的搜索平臺(tái)。 6北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京郵電人學(xué)頌l :學(xué)位論文彩鈴智能搜索弓l 擎的設(shè)計(jì)與實(shí)現(xiàn) 第三章搜索引擎技術(shù)現(xiàn)狀介紹 3 1 基于l u c e n e 的全文搜索技術(shù) 搜索引擎( s e a r c he n g i n e ) 是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集 互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。 搜索引擎是一個(gè)為你提供信息“檢索”服務(wù)的網(wǎng)站,它使用某些程序把互聯(lián)網(wǎng) 上的所有信息歸類,以幫助人們?cè)诿C>W(wǎng)海中搜尋到所需要的信息。 早期的搜索引擎是把互聯(lián)網(wǎng)中的資源服務(wù)器的地址收集起來(lái),由其提供的資 源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信 息可按他們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這 其實(shí)是最原始的方式,只適用于互聯(lián)網(wǎng)信息并不多的時(shí)候。隨著互聯(lián)網(wǎng)信息按 幾何式增長(zhǎng),出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁(yè)的 開始,隨后搜索互聯(lián)網(wǎng)上的所有超級(jí)鏈接,把代表超級(jí)鏈接的所有詞匯放入一個(gè) 數(shù)據(jù)庫(kù)。這就是現(xiàn)在搜索引擎的原型【1 7 】。 隨著y a h o o ! 的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代,相比以前其性能更 加優(yōu)越?,F(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁(yè)的信息了,它們已經(jīng)變得更 加綜合化,完美化了以搜索引擎權(quán)威y a h o o ! 為例,從1 9 9 5 年3 月由美籍華裔 楊致遠(yuǎn)等人創(chuàng)辦y a h o o ! 開始,到現(xiàn)在,他們從一個(gè)單一的搜索引擎發(fā)展到現(xiàn)在 有電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù),充分說(shuō)明 了搜索引擎的發(fā)展從單一到綜合的過程。 l u c e n e 是一個(gè)基于j a v a 的全文索引工具包它可以方便的嵌入到各種應(yīng)用 中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引檢索功能。l u c e n e 最核心的特征是通過特殊的索引 結(jié)構(gòu)實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)不擅長(zhǎng)的全文索引機(jī)制,并提供了擴(kuò)展接口,以方便針對(duì) 不同應(yīng)用的定制。 基于自動(dòng)切分的最大優(yōu)點(diǎn)是沒有詞表維護(hù)成本,實(shí)現(xiàn)簡(jiǎn)單,缺點(diǎn)是索引效率 低,但對(duì)于中小型應(yīng)用來(lái)說(shuō),基于2 元語(yǔ)法的切分還是夠用的?;? 元切分后 的索引一般大小和源文件差不多,而對(duì)于英文,索引文件一般只有原文件的 3 0 - 4 0 不同。 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 7 北京郵電人學(xué)碩 :學(xué)位論文彩鈴智能搜索弓i 擎的設(shè)計(jì)j 實(shí)現(xiàn) 自動(dòng)切分詞表切分 實(shí)現(xiàn)實(shí)現(xiàn)非常簡(jiǎn)單實(shí)現(xiàn)復(fù)雜 查詢?cè)黾恿瞬樵兎治龅膹?fù)雜程度, 適于實(shí)現(xiàn)比較復(fù)雜的查詢語(yǔ)法規(guī)則 索引冗余大,索引幾乎和原文一樣 存儲(chǔ)效率索引效率高,為原文大小的3 0 左右 大 詞表維護(hù)成本非常高:中日韓等語(yǔ)言需要分 維護(hù)成本無(wú)詞表維護(hù)成本別維護(hù)。 還需要包括詞頻統(tǒng)計(jì)等內(nèi)容 嵌入式系統(tǒng):運(yùn)行環(huán)境資源有限 適用領(lǐng)域分布式系統(tǒng):無(wú)詞表同步問題 對(duì)查詢和存儲(chǔ)效率要求高的專業(yè)搜索引擎 多語(yǔ)言環(huán)境:無(wú)詞表維護(hù)成本 表3 - 1 分詞機(jī)制對(duì)比 目前比較大的搜索引擎的語(yǔ)言分析算法一般是基于以上兩個(gè)機(jī)制的結(jié)合。 3 2 垂直搜索技術(shù)的應(yīng)用 垂直搜索是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是 對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行 處理后再以某種形式返回給用戶。 垂直搜索引擎和普通的網(wǎng)頁(yè)搜索引擎的最大區(qū)別是對(duì)網(wǎng)頁(yè)信息進(jìn)行了結(jié)構(gòu) 化信息抽取,也就是將網(wǎng)頁(yè)的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比 網(wǎng)頁(yè)搜索是以網(wǎng)頁(yè)為最小單位,基于視覺的網(wǎng)頁(yè)塊分析是以網(wǎng)頁(yè)塊為最小單位, 而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù),進(jìn)行進(jìn) 一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶 的需求【1 引。 整個(gè)過程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深度加工處理后 以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶 垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫(kù)搜索、供求信息搜索引擎、購(gòu)物 搜索、房產(chǎn)搜索、人才搜索、地圖搜索、m p 3 搜索、圖片搜索幾乎各行各 業(yè)各類信息都可以進(jìn)一步細(xì)化成各類的垂直搜索引擎。 8 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京郵電人學(xué)碩士學(xué)位論文彩鈴智能搜索引擎的- 歧計(jì)與實(shí)現(xiàn) 3 3 搜索引擎技術(shù)的發(fā)展趨勢(shì) 搜索引擎經(jīng)過幾年的發(fā)展和摸索,越來(lái)越貼近人們的需求,搜索引擎的技術(shù) 也得到了很大的發(fā)展。搜索引擎的最新技術(shù)發(fā)展包括以下幾個(gè)方面: 、 一、提高搜索引擎對(duì)用戶檢索提問的理解 為了提高搜索引擎對(duì)用戶檢索提問的理解,就必須有一個(gè)好的檢索提問語(yǔ) 言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語(yǔ)言智能答詢。 用戶可以輸入簡(jiǎn)單的疑問句,搜索引擎在對(duì)提問進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或 直接給出提問的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問題中進(jìn)行再選擇。自然語(yǔ)言 的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有 效,搜索引擎會(huì)將更有意義的信息提供給用戶,提高了檢索效率。 二、對(duì)檢索結(jié)果進(jìn)行處理 1 ) 基于鏈接評(píng)價(jià)的搜索引擎 基于鏈接評(píng)價(jià)的搜索引擎的優(yōu)秀代表是g o o g l e ( h t t p :w w w g o o g l e t o m ) ,它獨(dú) 創(chuàng)的“鏈接評(píng)價(jià)體系 是基于這樣一種認(rèn)識(shí),一個(gè)網(wǎng)頁(yè)的重要性取決于它被其它 網(wǎng)頁(yè)鏈接的數(shù)量,特別是一些已經(jīng)被認(rèn)定是“重要的網(wǎng)頁(yè)的鏈接數(shù)量。這種評(píng) 價(jià)體制與科技引文索引的思路非常相似,但是由于互聯(lián)網(wǎng)是在一個(gè)商業(yè)化的 環(huán)境中發(fā)展起來(lái)的,一個(gè)網(wǎng)站的被鏈接數(shù)量還與它的商業(yè)推廣有著密切的聯(lián)系, 因此這種評(píng)價(jià)體制在某種程度上缺乏客觀性。 2 ) 基于訪問大眾性的搜索引擘 基于訪問大眾性的搜索引擎的代表是d i r e c th i t ,它的基本理念是多數(shù)人選擇 訪問的網(wǎng)站就是最重要的網(wǎng)站。根據(jù)以前成千上萬(wàn)的網(wǎng)絡(luò)用戶在檢索結(jié)果中實(shí)際 所挑選并訪問的網(wǎng)站和他們?cè)谶@些網(wǎng)站上花費(fèi)的時(shí)間來(lái)統(tǒng)計(jì)確定有關(guān)網(wǎng)站的重 要性排名,并以此來(lái)確定哪些網(wǎng)站最符合用戶的檢索要求。因此具有典型的趨眾 性特點(diǎn)。這種評(píng)價(jià)體制與基于鏈接評(píng)價(jià)的搜索引擎有著同樣的缺點(diǎn)。 3 ) 去掉檢索結(jié)果中附加的多余信息 有調(diào)查指出,過多的附加信息加重了用戶的信息負(fù)擔(dān),為了去掉這些過多的 附加信息,可以采用用戶定制、內(nèi)容過濾等檢索技術(shù)。 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室9 北京郵電人學(xué)碩上學(xué)位論文彩鈴智能搜嗦弓i 擎的設(shè)計(jì)與實(shí)現(xiàn) 三、垂直主題搜索引擎 網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以十倍速的增長(zhǎng),一個(gè)搜索引擎很難收集全 所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難 將各主題都做得精確而又專業(yè),使得檢索結(jié)果垃圾太多。這樣以來(lái),垂直主題的 搜索引擎以其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一系席之地,比如 象股票、天氣、新聞等類的搜索引擎,具有很高的針對(duì)性,用戶對(duì)查詢結(jié)果的滿 意度較高。 3 4 本章小結(jié) 本章簡(jiǎn)單介紹了搜索引擎技術(shù)的歷史及發(fā)展趨勢(shì)。從未來(lái)的趨勢(shì)可以看出, 基于人工智能的自然語(yǔ)言理解、垂直領(lǐng)域搜索將是今后搜索引擎發(fā)展的一個(gè)方 向。 對(duì)于彩鈴平臺(tái)而言,開發(fā)出一個(gè)面向彩鈴領(lǐng)域的智能搜索引擎十分適合技術(shù) 發(fā)展的需要。 1 0北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京郵電人學(xué)碩上學(xué)位論文彩鈴智能搜索f j | 擎的 歧計(jì)與實(shí)現(xiàn) 第四章彩鈴智能搜索的研究與設(shè)計(jì) 4 1 彩鈴平臺(tái)的數(shù)據(jù)建模 4 1 1鈴音名稱統(tǒng)計(jì)與詞匯頻率分析 彩鈴鈴音庫(kù)中包含普通鈴音、集團(tuán)鈴音和用戶d i y 鈴音三大類別,其中集團(tuán) 鈴音與用戶d i y 鈴音只允許有特定權(quán)限的用戶使用,其他用戶無(wú)法瀏覽、下載。 因此,本文中所討論的彩鈴鈴音搜索的范圍只包含普通鈴音范疇。 彩鈴庫(kù)中的鈴音具有如下特點(diǎn):鈴音名稱的命名通常為“x x x ( y y 版) , 其中x x x 為對(duì)應(yīng)的流行歌曲名稱,在下文中稱為“鈴音精確名稱 ,y y 為鈴音 制作方為其添加的版本信息,以與其他類似鈴音區(qū)別,在下文中稱為“鈴音擴(kuò)展 名稱一。 。 對(duì)于鈴音精確名稱相同的鈴音,將其定義為“重復(fù)歌曲。對(duì)全國(guó)八個(gè)省份 彩鈴鈴音庫(kù)中的數(shù)據(jù)做出的鈴音名稱統(tǒng)計(jì)如圖4 _ 1 所示: 圖4 - l 彩鈴鈴音數(shù)量統(tǒng)計(jì) 從此圖中可以看出,在合并了重復(fù)歌曲后,鈴音的總數(shù)下降了一半以上,也 即平均每個(gè)鈴音精確名稱對(duì)應(yīng)于2 首鈴音??梢哉J(rèn)為在對(duì)歌曲的標(biāo)識(shí)中,鈴音擴(kuò) 展名也起到了很重要的作用,因此在下面的建模過程中,將會(huì)對(duì)鈴音精確名稱和 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 i i 北京郵i u 人學(xué)碩i :學(xué)位論文 彩鈴智能搜索引擎的設(shè)計(jì);實(shí)現(xiàn) 鈴音擴(kuò)展名稱單獨(dú)作討論。 圖4 2 是鈴音精確名稱長(zhǎng)度分布統(tǒng)計(jì)圖: r 1 一r r 黲ll 鋤 隧綴纘貔勃緩黝戮繳紱緩綴緩緩繃緩綴綴綴綴繕綴綴黝緩繳緩綴綴籀貔綴緩凝黝黝鞘糍綴戮貓麴渤嬲戮緞燃a l i 一i 一一 豸 宦緩荔磊轆澎蕊蕊罐l 瓣籀贛搿黝籀蕊荔魏镕魏。主。箍,i 镕荔;紜施i 絡(luò)l !鑊 翰緩緩綴黼溯繃嬲繃糍獬鰳緩糍糊 ” 罐 湊 鐾二二 莛 , ,緩 0 圖4 2 鈴音精確名稱長(zhǎng)度分布統(tǒng)計(jì) 4 0 0 0 0 從統(tǒng)計(jì)圖可以看出,字符長(zhǎng)度為3 的鈴音精確名稱最多,長(zhǎng)度為2 _ 4 的名稱 數(shù)量占全部歌曲總數(shù)的7 0 以上。在進(jìn)行鈴音搜索的過程中,我們可以按照此表 的數(shù)據(jù)來(lái)判斷用戶所要搜索的內(nèi)容??梢哉J(rèn)為,用戶搜索一首鈴音名稱長(zhǎng)度為3 個(gè)字符的可能性更大一些,可以適當(dāng)增加此長(zhǎng)度范圍鈴音名稱的權(quán)重,使得系統(tǒng) 更傾向于幫助用戶選擇一首名字在此長(zhǎng)度范圍內(nèi)的鈴音。 同時(shí),在統(tǒng)計(jì)過程中會(huì)發(fā)現(xiàn),鈴音名稱的特點(diǎn)是“單字遠(yuǎn)遠(yuǎn)多于單詞一所 謂單字,就是一個(gè)中文字符;所謂單詞,就是一個(gè)中文的詞語(yǔ)( 這里暫時(shí)只對(duì)中 文進(jìn)行分析,不考慮英文及數(shù)字等) 例如,“秋天不回來(lái) 中包含5 個(gè)單字,而 按照普通的單詞分詞技術(shù)則會(huì)被分成“秋天,不,回來(lái) 共3 個(gè)單詞。但是對(duì)于 更多的其他歌名,例如“死了都要愛、“愛你一萬(wàn)年 這些歌名而言,幾乎每一 個(gè)單詞與單字等同,已經(jīng)沒有按照單詞分詞的需要。并且,為了提高模糊匹配時(shí) 的搜索精確度,按照單字分詞反而比按照單詞分詞更具有優(yōu)勢(shì)。對(duì)于歌曲“秋天 不回來(lái),如果用戶a 誤輸入為“冬天不回來(lái) ,用戶b 輸入“我們不回來(lái),在 按照單詞分詞的處理方式中,系統(tǒng)對(duì)二者均會(huì)處理為匹配“不,回來(lái) 兩個(gè)單詞, 匹配度沒有差別;而在按照丹迪分詞的處理方式中,系統(tǒng)會(huì)認(rèn)為用戶a 匹配到 了“天不回來(lái) 四個(gè)單字,而用戶b 匹配到了“不回來(lái)三個(gè)單字,相比之下 1 2 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 1 2 3 4 5 6 7 8 9 0 北京郵電人學(xué)碩卜學(xué)位論文 彩鈴智能搜索引擎的設(shè)計(jì)j 實(shí)現(xiàn) 用戶a 與該歌曲名的匹配度更高,匹配度信息就有了明顯的區(qū)分。 圖4 - 3 是鈴音擴(kuò)展名稱長(zhǎng)度分布統(tǒng)計(jì)圖: 圖4 3 鈴音擴(kuò)展名稱長(zhǎng)度分布統(tǒng)計(jì) 這里的長(zhǎng)度統(tǒng)計(jì)都是將符號(hào)信息與“w 版 中的“版字去掉之后統(tǒng)計(jì)的, 例如蟣匿你( 無(wú)限深情版) 一中的鈴音擴(kuò)展名計(jì)為4 個(gè)字符。 從對(duì)鈴音擴(kuò)展名的統(tǒng)計(jì)看出,通常情況下,鈴音擴(kuò)展名為一到兩個(gè)2 至3 字 的形容詞,而且絕大部分的鈴音擴(kuò)展名都有重復(fù)。例如,出現(xiàn)頻率最高的擴(kuò)展名 有“高潮版一、“經(jīng)典版一、“懷舊版一等等。而4 字以上的擴(kuò)展名,通常是兩 個(gè)( 甚至更多) 形容詞的組合,例如“純美高潮版力、“網(wǎng)絡(luò)開篇版 、“情歌 王子招牌主打版一等等。 鈴音擴(kuò)展名的特點(diǎn)是,幾乎所有名稱都是以單詞的形式出現(xiàn),而且重復(fù)頻率 較高,相比之下單字的出現(xiàn)率較低。例如,在參加統(tǒng)計(jì)的2 7 6 8 1 3 首鈴音中,包 含“高潮版一擴(kuò)展名的鈴音達(dá)到3 1 8 2 首,見圖4 - 4 。 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 1 3 北京郵電大學(xué)碩,i :學(xué)位論文彩鈴智能搜索引擎的設(shè)計(jì)o j 實(shí)現(xiàn) 圖“鈴音擴(kuò)展名單詞出現(xiàn)頻率統(tǒng)計(jì) 因此對(duì)于鈴音擴(kuò)展名稱,在分詞過程中適合采用按照單詞分詞的方式。 4 1 2 歌手名稱統(tǒng)計(jì)與詞匯頻率分析 對(duì)于鈴音歌手名長(zhǎng)度所做的統(tǒng)計(jì)如圖4 5 : 圖4 - 5 歌手名長(zhǎng)度分布統(tǒng)計(jì) 對(duì)于歌手名而言,長(zhǎng)度為l 的關(guān)鍵字基本不存在,主要以2 至3 字的人名為 主。四字以上的名稱,主要以演唱組合為主,例如“動(dòng)力火車、“鳳凰傳奇 等等。 1 4 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京郵電人學(xué)碩士學(xué)位論文彩鈴智能搜索引擎的設(shè)計(jì)j 實(shí)現(xiàn) 需要注意的是,在以上的統(tǒng)計(jì)過程中,如果一首歌曲包含兩個(gè)或以上歌手, 則將其分開進(jìn)行處理,而并非每首歌曲只對(duì)應(yīng)一個(gè)歌手。例如,某首歌曲的歌手 名為“林俊杰、金莎等,則統(tǒng)計(jì)時(shí)將其分為“林俊杰和“金莎兩個(gè)關(guān)鍵字。 同理,在建立搜索索引時(shí),也許要做同樣的處理,兩個(gè)關(guān)鍵字彼此獨(dú)立,每個(gè)關(guān) 鍵字所對(duì)應(yīng)的鈴音列表中均包含此首鈴音,這樣可以保證用戶對(duì)任意關(guān)鍵字進(jìn)行 搜索時(shí)均可搜索到此首鈴音。 與鈴音精確名稱相類似的,歌手名稱也是屬于“單字遠(yuǎn)遠(yuǎn)多于單詞 的情 況,使用詞庫(kù)對(duì)歌手名稱進(jìn)行分詞的效果不是很好,同時(shí)考慮到今后會(huì)對(duì)關(guān)鍵字 進(jìn)行模糊匹配的需要,例如用戶輸入“張少涵系統(tǒng)可以找到“張韶涵,此處 使用單字分詞方式為宜。 4 1 3 歌詞統(tǒng)計(jì)與詞匯頻率分析 在彩鈴搜索所涉及的各種關(guān)鍵詞中,歌詞搜索屬于最特殊的一個(gè)相比于鈴 音名稱、歌手名稱等其他關(guān)鍵詞,歌詞信息通常都長(zhǎng)度較長(zhǎng)。對(duì)于歌詞的搜索過 程更加接近普通的搜索引擎的全文檢索。 歌詞搜索中的一條關(guān)鍵字,即一首歌曲的全部歌詞,相當(dāng)于普通全文檢索中 的一篇文章。在搜索過程之前,使用詞庫(kù)對(duì)全部歌詞信息進(jìn)行索引,于其他關(guān)鍵 字相比,歌詞關(guān)鍵字所包含的信息較多,索引時(shí)占用的系統(tǒng)資源也相對(duì)較多。 下面是對(duì)歌詞庫(kù)進(jìn)行的一些統(tǒng)計(jì)需要說(shuō)明的是,彩鈴平臺(tái)系統(tǒng)中本身不包 含歌詞信息,這里所統(tǒng)計(jì)的歌詞庫(kù)是從互聯(lián)網(wǎng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 消化內(nèi)科晨間護(hù)理規(guī)范
- 肺纖維化病人護(hù)理常規(guī)
- 頤和園英文介紹課件
- 頰癌護(hù)理課件
- 頸椎病中醫(yī)理論課件
- 小兒重癥肺炎的護(hù)理要點(diǎn)
- 顱骨骨折護(hù)理
- 預(yù)防職業(yè)危害課件
- 國(guó)家2030健康規(guī)劃實(shí)施綱要
- 預(yù)防小學(xué)生沉溺網(wǎng)絡(luò)課件
- DBJ50T-098-2019 城市綠化養(yǎng)護(hù)質(zhì)量標(biāo)準(zhǔn)
- 消防接警調(diào)度(一級(jí))理論考試題庫(kù)(含答案)
- 教材教法基礎(chǔ)培訓(xùn)
- DB3301T 0410-2023 城市河道生態(tài)清淤管理規(guī)范
- 9.1 浮力(課件)2024-2025學(xué)年滬粵版物理八年級(jí)下冊(cè)
- 《蔬菜嫁接技術(shù)》課件
- GB/T 2982-2024工業(yè)車輛充氣輪胎規(guī)格、尺寸、氣壓與負(fù)荷
- DB52T 046-2018 貴州省建筑巖土工程技術(shù)規(guī)范
- 《義務(wù)教育語(yǔ)文課程標(biāo)準(zhǔn)》(2022年版)
- DB11T 211-2017 園林綠化用植物材料 木本苗
- 第九章和第十章+靜電場(chǎng)+單元測(cè)試卷- 高二上學(xué)期物理人教版(2019)必修第三冊(cè)
評(píng)論
0/150
提交評(píng)論