智慧校園背景下校內搜索引擎研究,搜索引擎論文_第1頁
智慧校園背景下校內搜索引擎研究,搜索引擎論文_第2頁
智慧校園背景下校內搜索引擎研究,搜索引擎論文_第3頁
智慧校園背景下校內搜索引擎研究,搜索引擎論文_第4頁
智慧校園背景下校內搜索引擎研究,搜索引擎論文_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

智慧校園背景下校內搜索引擎研究,搜索引擎論文內容摘要:為解決傳統(tǒng)校內搜索的完好性和準確性不高、性能較差等問題,文中借助智慧校園基礎平臺建設優(yōu)勢,構建面向校內資源的垂直搜索引擎。首先,以通用的開發(fā)框架為基礎,融合校內領域特征,優(yōu)化搜索引擎技術中的信息采集、數據索引、信息檢索模塊;然后,結合資源整合和爬蟲兩種方式進行信息采集,并在數據索引中引入全量數據平臺的語義知識庫進行信息抽取、語義優(yōu)化,增加擴展查詢、統(tǒng)一身份認證等信息檢索因素;最后,在超融合數據中心的硬件基礎上,以跨平臺門戶為入口,提出覆蓋率、準確率、檢索速度更為優(yōu)化的校內智能搜索方案。以江蘇師范大學校內搜索平臺為例驗證該方案的可行性,得出建立個性化、精到準確化、智能化的校內垂直搜索服務,能夠提升智慧校園進程中教學、科研和管理工作的效率。本文關鍵詞語:搜索引擎;智慧校園;信息采集;信息檢索;垂直搜索;智能搜索;隨著信息技術的迅猛發(fā)展,互聯(lián)網上的各種信息也呈爆炸式的增長,怎樣快速的從海量的網絡數據中獲取到用戶所需要的信息成為一個迫切需要解決的問題,而搜索引擎的出現則為這一需求提供了一種可能。通用的搜索引擎如百度、谷歌等更注重資源的廣度,往往難以知足專業(yè)用戶對于目的化、特定化資源的需求,因而,面向某一特定領域的垂直搜索引擎應運而生[1]。高校作為人才培養(yǎng)的重要基地,在從數字校園向智慧校園發(fā)展的經過中也積累了大量的網絡資源[2],這些資源分散在學校的各個部門,卻又無法被通用的搜索引擎獲取。相比網絡上大量的淺資源,對于師生用戶來講,校內的資源才更為準確和精細,缺少的是一個快速定位所需信息的入口,面向校內資源建立垂直搜索引擎為這一問題的解決提供了有效途徑。本文將以高校為范圍,對校內搜索展開研究。1研究現在狀況1.1垂直搜索引擎技術研究現在狀況垂直搜索引擎也稱專業(yè)搜索引擎,主要針對于某個特定的領域進行搜索,相對傳統(tǒng)搜索引擎覆蓋率低、信息不準確、信息數量過大等問題,垂直搜索引擎具有專、精、深的特點,同時帶有一定的領域性,更多地面向特定人群。國外的購物類垂直搜索引擎如:eBay、亞馬遜,旅游垂直搜索引擎如:Momondo、SkyScanner,科技類的有Scirus等,國內應用較廣的垂直搜索引擎如:淘寶、京東、智聯(lián)、途牛等,牽涉招聘、購物、電子商務、房地產等多個行業(yè)。國外對垂直搜索引擎的研究相對成熟,自第四代搜索引擎技術出現后,大量面向某一領域的垂直搜索引擎應運而生。Woo等通過社交搜索分析預測疫情[3];Mller等對藥品垂直搜索引擎進行探尋求索[4];Pirouz等研究搜索引擎相關算法[5]。國內對垂直搜索引擎的研究也從未止步,張弘弦等探究搜索引擎實現經過[6];李全等設計并實現了面向MOOC領域的垂直搜索引擎系統(tǒng)[7];張會清等以水環(huán)境為范圍展開垂直搜索引擎研究[8];閆機超利用RFID技術對搜索引擎進行優(yōu)化[9]。1.2校內搜索引擎存在的問題校內搜索引擎作為垂直搜索技術在高校的重要應用,是師生查找校內資源,進行辦公、科研等活動的重要手段。(教育信息化2.0行動計劃〕中提到:全面推進各級各類學校智慧校園建設與應用。作為重要的發(fā)展任務,各個高校都加快了從數字校園向智慧校園的轉型步伐[10]。然而實際的困難是當下的校內搜索大多基于數字校園的大環(huán)境而建,存在完好性、準確性、安全性等多方面存在的問題。1〕完好性問題。數字校園的發(fā)展使得校內各個部門愈加注重信息化與業(yè)務的融合,各種各樣的平臺系統(tǒng)被快速引入上線,質量和功能也參差不齊,針對檢索方面,有內置系統(tǒng)檢索、目錄導航或模塊檢索。數字校園以業(yè)務為主導的形式很難使搜索全面覆蓋校內資源,缺少一個面向全校的企業(yè)級搜索引擎。2〕準確性問題。師生使用校內搜索引擎的目的就是為了準確定位校內信息,由于校內搜索技術限制,當下搜索引擎存在返回無用信息太多、重復率高、信息失效等現象。這也是所有搜索引擎不斷改良的目的。3〕安全性問題。當下國內有相當一部分高校的搜索引擎引入了Google、Baidu等商用引擎,而高校內部也存在一些敏感信息、文件資源等僅僅希望被校內的師生用戶訪問,商用搜索引擎的引入增加了校內信息安全的不確定性。4〕性能問題。搜索引擎的檢索速度也是用戶的重要體驗之一,傳統(tǒng)的數據中心主要通過虛擬化技術實現高可用的服務和動態(tài)的資源分配,面對搜索引擎處理數據量的驟增,數據中心存儲、網絡以及硬件性能等瓶頸也越發(fā)凸顯。2智慧校園中校內搜索新考慮智慧校園作為當下高校的熱門工作,是指以促進信息技術與教育教學融合、提高學與教的效果為目的,以物聯(lián)網、云計算、大數據分析等新技術為核心技術,提供一種環(huán)境全面感悟、智慧型、數據化、網絡化、協(xié)作型一體化的教學、科研、管理和生活服務[11]。智能化是智慧校園的一項重要目的,當下的校內搜索大多是以本文關鍵詞語為根據的機械搜索,校內搜索也亟需向智能搜索邁進[12]。2.1全量數據平臺全量數據平臺能夠理解為智能化、知識化的分享庫。不同于傳統(tǒng)的分享數據平臺,全量數據平臺中融合了大量的校內實體與實體間的互相關系,是一個全方位的校內語義知識庫,作為全校的數據中樞,具有數據收集、數據治理、數據分析、數據輸出的能力,是各類數據事務的底層平臺。全量數據平臺的數據經過治理重構,已經相當的準確,假如能夠應用到校內搜索中,將會大大提高搜索的準確度。利用平臺底層的語義知識還能夠感悟用戶意圖,探究智能搜索[13]。2.2超融合數據中心高校智慧校園建設形式的改變,使集中分享式的傳統(tǒng)虛擬化架構在可靠性、擴展性、高可用性等方面已經無法知足需求。各個高校開場利用計算與存儲集中控制的超融合架構來提升數據中心的性能,快速地實現資源橫向和縱向擴展,降低數據中心建設維護成本的同時也大大提升了運行質量[14]。這些基礎環(huán)境的升級改造為校內搜索性能的提升提供了強有力的硬件支撐。2.3桌面端與移動端的互通智能手機的普及使得移動應用的作用到達甚至超越了桌面端應用[15],而智慧校園中新型應用的核心優(yōu)勢就是實現應用層的跨平臺融合。以新型的移動門戶、PC門戶為基礎,打通應用在各種終端和各種場景下的跨平臺使用,為用戶提供更為便利和友好的搜索體驗,實現掌上搜索和桌面搜索的無縫對接。2.4統(tǒng)一身份認證作為數字校園的支撐平臺之一,統(tǒng)一身份認證在智慧校園的建設中仍然扮演著重要的角色。傳統(tǒng)的校內搜索主要使用單點登錄功能,避免重復登錄的同時保證校內資源安全;而在智慧校園的背景下需要充分挖掘用戶的身份信息,及時捕捉角色轉換、崗位變動等對搜索期許的影響,動態(tài)追蹤用戶意圖,優(yōu)化提升智慧搜索[16]。3概要設計3.1系統(tǒng)構造智慧校園環(huán)境中軟硬件的不斷發(fā)展為優(yōu)化傳統(tǒng)的搜索引擎問題帶來了機遇,本文借助基礎平臺的建設優(yōu)勢,構建智慧校園背景下的校內垂直搜索引擎,構成由基礎層、數據層、平臺層到應用層自下向上的一體化層次構造。系統(tǒng)構造如此圖1所示。圖1系統(tǒng)構造基礎層是校內搜索引擎構建的硬件平臺,包括主機、網絡、存儲等多種資源在內的超融合數據中心建設。數據層是全量數據平臺、認證數據庫等校內底層的分享數據平臺,與搜索需要的整合數據庫一起向上層提供數據服務。平臺層有面向全校師生的PC門戶、移動門戶、統(tǒng)一身份認證等。應用層主要對接各種校內應用系統(tǒng),針對本文的校內搜索引擎應用,包括從信息抽取到用戶接口的整個經過。3.2系統(tǒng)流程為提升校內師生用戶體驗,本文結合當下智慧校園的基礎設施建設,在研究垂直搜索引擎技術的基礎上,設計校內搜索引擎原型系統(tǒng)。該系統(tǒng)總體能夠分為信息采集、建立索引、信息檢索和用戶接口四大模塊,系統(tǒng)的總體流程如此圖2所示。信息采集是一個信息收集的經過,主要是對校內未整合的各種網頁資源進行查找、下載、解析并存儲在本地,結合校內地址特征構建主題爬蟲;采集到的信息以網頁的形式存儲在本地,在用戶搜索前必須對這些內容進行清洗并建立索引,即詞與文檔之間的映射關系,利用全量數據平臺知識庫提高頁面抽取和分詞精度;信息檢索需要分析用戶輸入,匹配相關聯(lián)的文檔,融合擴展查詢和角色分配模塊,提升搜索結果的全面性和準確性;用戶接口以新型的融合門戶為依托,構建PC端和移動端融會互通的校內搜索平臺,接收用戶查詢輸入并將最可能的查詢結果倒排輸出。圖2總體流程4模塊設計4.1信息采集分析校內現有的資源分布,高校對內部的網絡資源都進行了一定程度的整合,但是隨著智慧校園的發(fā)展,網絡資源整合的速度遠遠小于資源系統(tǒng)上新速度。而作為面向全校的搜索引擎,信息的覆蓋率是搜索引擎優(yōu)劣的重要指標,因而對校內的信息采集主要采用兩種方式:一種為資源整合形式,一種為主題爬蟲形式。資源整合形式是指部分校內的分散資源以及獨立資源系統(tǒng)已經通過數據、功能、關系、服務等方式進行了融合重組。這些網絡資源的內容以數據庫的形式存儲在服務器中,有序準確,無需治理操作,可直接利用API接口獲取。主題爬蟲形式主要針對那些沒有整合或者整合存在一定困難的網絡資源,通過網絡爬蟲技術進行網頁內容采集。本文選用網絡爬蟲工具Heritrix,通過限制爬取規(guī)則設計校內主題爬蟲。各個高校都有自個的域名和校內地址庫,通過對提取URL的判定決定能否爬取該網頁。Heritrix中的Frontier〔鏈接制造工廠〕組件負責所有鏈接的處理,通過擴展FrontierScheduler類定制爬蟲,詳細算法流程如下:4.2索引模塊索引是一種特殊的數據構造,是特征詞向文檔的映射,任何搜索引擎在搜索之前都需要對被搜索內容進行索引。本文選取開源的搜索引擎框架Lucene研究索引和檢索模塊,其豐富的API接口為后續(xù)的研究提供了技術基礎。索引模塊詳細流程如此圖3所示。圖3索引流程主題爬蟲爬取到本地的網頁包含有正文信息、噪聲信息,這些信息未經處理還不能直接用于搜索。經過網頁預處理、抽取有用信息、語義優(yōu)化等前期操作后才能建立索引。而全量數據平臺作為一個全方位的校內語義知識庫,將其應用到索引的關鍵技術中會有效提升系統(tǒng)準確性。4.2.1頁面提取頁面提取模塊使用網頁解析工具Jsoup,它有豐富的API功能。去除網頁噪聲如script標簽、style標簽、!--標簽等,利用DOM方式方法解析URL地址、文本并存儲在數據庫中。抽取的構造化信息有:URL、作者、發(fā)布時間、標題、正文等,詳細數據庫設計如表1所示。表1中:發(fā)文單位抽取利用全量數據平臺中的全校單位名稱知識庫;來源主要用于后續(xù)師生搜索權限的判定;文號由發(fā)文機關代字、年份、發(fā)文順序號組成。整理全校的(發(fā)文機關代字表〕,以發(fā)文機關代字Dep為觸發(fā)關鍵字,匹配文號的正則表示出式抽取文號,校內發(fā)文文號正則表示出式為:表1數據庫設計4.2.2語義優(yōu)化中文分詞就是將連續(xù)的字序列根據一定的規(guī)范重新組合成詞序列的經過,分詞的優(yōu)劣會直接影響搜索結果的好壞。對抽取出的構造化信息,如標題、內容、作者等,進行分詞處理,并根據倒排索引的策略建立索引數據庫,索引構造為:本文關鍵詞語-本文關鍵詞語頻-出現的網頁。整理學校常用簡稱、固定稱謂表等信息,同時將全量數據平臺中的知識如:姓名、課程、單位、職務、教室、樓宇等信息以自定義的形式參加分詞系統(tǒng),提高分詞的準確性。然后,利用全量數據平臺中互相之間的語義關系提升智能查詢效率。如:化工學院的老師檢索學術報告,在得知老師的專業(yè)為化學時,應判定該老師更傾向于獲取化學專業(yè)的學術報告信息;計算機學院的學生檢索計算機網絡課程資源時,應更傾向于獲取該學生當下任課老師的視頻、教案、PPT等教學資源。全量數據平臺中的部分知識構造如此圖4所示。圖4部分知識構造4.3信息檢索信息檢索主要是根據用戶輸入的查詢詞,計算相關的文檔得分,并倒序返回查詢結果。這一經過中,要在Lucene默認評分的基礎上,結合語義知識庫,綜合考慮用戶的查詢意圖,同時,通過擴展查詢、對接統(tǒng)一身份認證等,進一步明確權限,獲取角色化數據。默認的評分公式[17]為:式中:coord(q,d〕為評分因子,文檔中出現查詢項個數越多,講明文檔的匹配程度越高;t(ftind〕指項t在文檔d中出現的次數frequency;id(ft〕為反轉文檔頻率,出現項t的文檔數docFreq。4.3.1擴展查詢詞校內的師生在查詢輸入時,極易使用簡稱、縮寫等進行檢索,如以簡稱公管學院來搜索公共管理學院;同時由于歷史的沿革,用舊稱來代替修改后的新稱謂,如以化工學院來搜索化學與材料科學學院。假如以字為檢索項將會返回大量無關的信息,假如以詞為檢索項則無法準確匹配,此時,就需要對查詢詞進行預擴展,將簡稱轉變?yōu)檎7Q謂進行查詢,構建校內(簡稱-規(guī)范稱謂對應表〕規(guī)范用戶查詢,詳細如表2所示。表2分詞對照表與通用的搜索引擎不同,校內的資源規(guī)模有限,同時主要集中在教學、科研、工作、生活等與師生相關的方面。受領域的限制,由上述評分公式可知,假如本文關鍵詞語沒有匹配到內容,詞頻為0,則最后的評分也為0,就出現無返回結果的情況。為了提高查詢的覆蓋率,利用(哈工大信息檢索研究室同義詞詞林擴展版〕對查詢詞進行擴展,并以推薦搜索的形式引導用戶規(guī)范查詢。詳細算法流程如下:4.3.2結合認證的分角色檢索校內檢索主要面向校內師生,需要與統(tǒng)一身份認證系統(tǒng)對接,默認有認證賬號的校內師生才有權限使用。利用教師和學生的不同身份信息,按角色劃分搜索范圍,并根據角色變化動態(tài)調整搜索權限。如:老師能夠檢索到OA系統(tǒng)中的文件,本科平臺發(fā)布的信息給本科生檢索用,研究生檢索將不提供本科平臺的檢索結果,從本科生升為研究生之后搜索的范圍就從本科平臺轉變?yōu)檠芯可脚_等。此處利用索引模塊的來源字段判定資源屬于哪一系統(tǒng)平臺,對學生和老師的檢索權限分類管理,根據用戶角色提供更精準的搜索服務,與當下檢索角色無關的系統(tǒng),將不提供檢索結果。4.4用戶接口建設一個集中的校內搜索入口,接受用戶的查詢輸入請求,并發(fā)送至搜索引擎服務器,經過后臺處理將與用戶搜索有關的結果數據集中展示,向用戶提供一站式查詢服務。校園門戶是集校內信息資源、應用系統(tǒng)于一身的校內分享平臺,作為師生日常工作、生活、學習訪問最多的系統(tǒng),為校內搜索引擎的使用提供了良好的平臺基礎和用戶基礎。利用智慧校園跨平臺融合的優(yōu)勢,以新型的PC門戶和移動門戶為基礎,構建面向校內師生的垂直搜索應用。智慧校園建設為校內搜索引擎問題的解決提供了良好的契機。本文所設計的校內搜索引擎以超融合數據中心作為硬件基礎,能夠提升搜索性能;構建校內主題爬蟲與資源整合數據庫結合增加搜索的完好性;引入全量數據平臺、擴展查詢詞等優(yōu)化搜索準確性;結合統(tǒng)一身份認證進行搜索權限分配,保障搜索的安全性;最終借助用戶接口向校內師生提供全方位、跨平臺、高效率、規(guī)范化的搜索服務。結合本研究提出的校內搜索引擎方案,搭建江蘇師范大學校內搜索平臺,當前對接業(yè)務系統(tǒng)23個,平臺在校內資源的查全率和查準率上較之前的校內搜索都有所提升,系統(tǒng)截圖如此圖5所示。圖5校內搜索引擎系統(tǒng)界面5結束語信息技術的發(fā)展為校園環(huán)境帶來了宏大的變革,高校信息技術經歷了從網絡到系統(tǒng)再到數據的經過,環(huán)境也從基礎網絡發(fā)展到數字校園再到今天的智慧校園。智慧校園建設的推進,讓校內的軟硬件基礎設施發(fā)生了改變,同時師生對校內搜索的需求也從最初的機械式轉變?yōu)橹悄苁剑脩敉Mㄟ^簡單的檢索詞讓系統(tǒng)了解自個的真正意圖,盡可能返回期望的結果。本文以垂直搜索引擎技術為基礎,借助智慧校園建設的優(yōu)勢,結合全量數據平臺、統(tǒng)一身份認證、新型融合門戶、超融合數據中心等,構建面向校內資源的垂直搜索引擎,在提升搜索效率和質量的同時為師生的智能檢索提供了一種可能的途徑,但是對搜索引擎覆蓋率、準確率、響應時間等的優(yōu)化探尋求索仍需深切進入。以下為參考文獻[1]楊和平,陳瑜,張志強網站簡約本體垂直搜索系統(tǒng)的設計與實現[J].計算機工程與應用,2021,53(19):257-264.[2]蔣東興,付小龍,袁芳,等.大數據背景下的高校智慧校園建設討論[J]華東師范大學學報(自然科學版),2021(21):119-125.[3]WOOHY,CHOYT,SHIMEY,etal.EstimatinginfluenzaoutbreaksusingbothsearchenginequerydataandsocialmediadatainSouthKorea[J].Journalofmedicalinternetresearch,2021,18(7):e177.[4]MULLERB,POLEYC,POSSELJ,etal.LIVIVO-theverticalsearchengineforlifesciences[J].Datenbank,2021,17(1):29-34.[5]PIROUZM,ZHANJ.Towardefficienthub-lessrealtimepersonalizedpagerank[J].IEEEaccess,2021,5:26364-26375.[6]張弘弦,田玉玲.Web垂直搜索引擎實現經過的研究[J]當代電子技術,2021,39(8)-55-59.[7]李全,林松,田俊,等.面向MOOC的垂直搜索引擎[J].計算機與當代化,2021.12(4):32-37.[8]張會清,張樂基于Elasticsearch的京津冀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論