



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
一種多代理模式的數(shù)字圖書館定題情報服務(wù)模型
1sdi服務(wù)機制信息服務(wù)(sdi)是滿足文獻信息個性化需求的重要服務(wù)形式,由ibm于20世紀(jì)50年代首次提出。SDI服務(wù)有兩種方式:一種是提供文獻跟蹤服務(wù),同時對課題研究進程,根據(jù)國內(nèi)外相關(guān)文獻進行關(guān)注;另一種是文獻跟蹤與專題情報研究相結(jié)合,對收集的資料進行加工,生成進展、動態(tài)等研究報告,指導(dǎo)課題的研究。本文分析了一個基于模糊語義建模技術(shù)的多代理模式的數(shù)字圖書館SDI模型,旨在幫助情報工作人員更好的進行文獻信息管理,方便地與用戶溝通,及時為使用者提供準(zhǔn)確的信息。2相關(guān)技術(shù)介紹2.1信息篩選和推薦系統(tǒng)數(shù)字圖書館為了滿足不同用戶對信息的需求,需要對文獻信息進行篩選和推薦。通常的做法是使用多代理系統(tǒng),根據(jù)已注冊用戶的信息偏好,對XML或Html形式的文本信息進行評估篩選,并把結(jié)果推薦給用戶,以提高檢索信息的精確性。當(dāng)前對信息過濾和推薦的系統(tǒng)有兩種:一種是基于內(nèi)容的信息過濾推薦系統(tǒng),通過比較一組由某用戶定義的表示所需文獻的關(guān)鍵詞,對文獻進行過濾,而忽略其他用戶的需求。另一種是聯(lián)合過濾系統(tǒng),同時分析多個用戶提供的請求信息的關(guān)鍵詞,生成推薦信息,而不考慮文獻內(nèi)容的特征。目前的研發(fā)趨勢是結(jié)合兩種方式的優(yōu)點,開發(fā)混合型的信息過濾推薦系統(tǒng)。2.2語義技術(shù)網(wǎng)絡(luò)語義指的是文本的含義,也就是文本的意思和結(jié)構(gòu),語義網(wǎng)是一種能夠理解人類語言的智能化的計算機網(wǎng)絡(luò),使得人機交流變得非常容易。語義技術(shù)通過在信息中加入表示語義的內(nèi)容,改變目前網(wǎng)絡(luò)僅靠文字來共享資源的模式,提高網(wǎng)絡(luò)智能化的程度。語義網(wǎng)主要有兩個技術(shù)解決方案:一個是對資源進行語義標(biāo)引,使信息可以同時被人類和計算機識別;另一個是發(fā)展智能代理,對資源進行語義層次的開發(fā),推導(dǎo)出新的知識。將語義網(wǎng)技術(shù)應(yīng)用于數(shù)字圖書館,可以提高文獻信息檢索的精度和質(zhì)量,有利于信息的共享和交流。2.3模糊的語義模式語義網(wǎng)使用的是自然語言編寫的能被機器識別的結(jié)構(gòu)化的程序,因此最有效的方法是使用模糊語言技術(shù)建模。模糊語言建模需要用到模糊集技術(shù)處理方法,通常的做法是通過一系列奇數(shù)的標(biāo)簽集來定義標(biāo)簽的標(biāo)度值。每個語言標(biāo)度的語義根據(jù)事先定義的標(biāo)度集來確定,一般分配0-1之間的模糊值。為了對語義信息進行綜合,還需要使用元加權(quán)平局(LWA)算法。本模型采用了詞庫作為輔助工具,來實現(xiàn)對敘詞表半自動化的自然語言處理。2.4自動建立敘詞表技術(shù)自然語言處理技術(shù),包含了語言技術(shù)、統(tǒng)計方法和機器學(xué)習(xí)算法(主要是群集技術(shù)),可以實現(xiàn)對文本文件自動翻譯、語音識別,并建立語音識別庫等功能。自動建立敘詞表技術(shù),是自然語言處理技術(shù)的典型應(yīng)用,可以自動對文本中的字詞進行管理,提取更有代表性的表示文獻具體領(lǐng)域的詞。WordNet是一個功能強大的多語種詞匯數(shù)據(jù)庫。可以很好的支持群集技術(shù),方便地通過相似性分析從很多文獻中提取一組同義詞,或根據(jù)相似性收集特征詞相近的文獻。3圖書館文獻綜述基于語義的SDI服務(wù)模型主要由兩個代理組成:界面代理和任務(wù)代理,共分成四層結(jié)構(gòu):用戶層、界面層、任務(wù)層和資源層。模型的核心組件是數(shù)字圖書館的文獻全文數(shù)據(jù)庫和一系列基于RDF詞匯的基本元素。下面將系統(tǒng)介紹模型的主要組件和功能模塊。構(gòu)成SDI服務(wù)模型的主要模塊有四個,分別是詞庫管理模塊、用戶配置文件管理模塊、RSS發(fā)布管理模塊和文獻推薦管理模塊。3.1文本預(yù)處理階段作為SDI服務(wù)必不可少的組件,詞庫在傳統(tǒng)圖書館中起到了對專業(yè)領(lǐng)域概念的組織及定義它們的語義關(guān)系的作用。本模型中對詞庫進行定義的作用是,建立RSS接口詞語索引和產(chǎn)生推薦信息。模型使用語義相似性計量和處理詞典,代替?zhèn)鹘y(tǒng)的詞匯匹配(如兩個字符串進行比較)作為知識組織的工具。創(chuàng)建詞庫的技術(shù)分為四個步驟:對文本進行預(yù)處理,進行參數(shù)化,對詞匯進行概念化,最后是對已經(jīng)確定的概念之間的關(guān)系通過圖標(biāo)進行顯示。文本預(yù)處理階段的目標(biāo)是對文本進行標(biāo)準(zhǔn)化并刪除多余元素。首先,將所收集文檔(HTML、XML等)的標(biāo)簽,然后將文檔進行標(biāo)準(zhǔn)化,方便進行參數(shù)化。所有文檔中出現(xiàn)的的首字母縮寫詞將被顯示在排除列表中,而其余符合規(guī)則的文本已經(jīng)被標(biāo)準(zhǔn)化了,日期和數(shù)值被替換為腳本標(biāo)識,所有的字詞都被變成小寫,標(biāo)簽被刪除。然后,自動刪除文檔中所有的虛詞,如限定詞、助動詞、連接詞、介詞、代詞、感嘆詞、副詞等。在參數(shù)化過程中,為了提高運算速度,模型將所有的詞詞干化。模型采用了墨菲算法,利用了基于認(rèn)知語言的詞典。算法提供了一組函數(shù)檢測,是否文檔中有無需處理的詞,然后將剩下的所有詞轉(zhuǎn)換為基本詞性。為了定義各組詞語之間的關(guān)系,模型運用了網(wǎng)格理論確定。一旦文件被參數(shù)化,就可以通過簡單知識組織系統(tǒng)(SKOS)對每個詞之間的聯(lián)系進行提取。3.2生成相似性估計用戶配置文件是對用戶信息結(jié)構(gòu)化的描述,隨著用戶注冊完成便自動產(chǎn)生。用戶配置文件一般包含用戶公開的信息,包括用戶身份、特性和屬性以及用戶隱私信息,如興趣、愛好,訂閱的文獻提醒、圖書推薦等。用戶輸入喜好信息的關(guān)鍵詞之后,系統(tǒng)自動把這些詞與系統(tǒng)詞典自動比對,生成相似性估計算法樹,然后提供一些參考詞給用戶。如果用戶對提供的代表他們偏好的關(guān)鍵詞不滿意,可以進行修改。模型允許用戶選擇對不同類型文獻的偏好程度,對文獻瀏覽量的模糊語言變量取值范圍為:總是、幾乎總是、經(jīng)常、偶爾、很少、幾乎不、從不,偶爾作為中間值也是默認(rèn)值。由于SDI服務(wù)功能的實現(xiàn),必須從儲存的用戶配置文件中獲取偏好信息,所以必須經(jīng)常對系統(tǒng)進行升級。雖然用戶的偏好短時間不會發(fā)生大的變化,但系統(tǒng)也必須對微小變化產(chǎn)生響應(yīng),提供準(zhǔn)確的信息。模型既采用了使用模糊語言技術(shù)對用戶隱含的偏好進行分析,也考慮了用戶提供的反饋信息。用戶對提供文獻推薦的滿意度有5個標(biāo)度:非常滿意、滿意、中等滿意、不太滿意、很不滿意。隨著用戶訪問資源的增加,系統(tǒng)會更精確。3.3通過半自動化技術(shù)實現(xiàn)個性化信息貿(mào)易RSS發(fā)布也叫聚合RSS,是在線共享內(nèi)容的一種簡易方式(也叫聚合內(nèi)容,ReallySimpleSyndication)。一個RSS文件就是一段規(guī)范的XML數(shù)據(jù),該文件一般以RSS、XML或者RDF作為后綴。通常在時效性比較強的內(nèi)容上使用RSS訂閱能更快速獲取信息,數(shù)字圖書館提供RSS發(fā)布,有利于讓用戶獲取文獻內(nèi)容的最新信息。而且隨著RSS文件發(fā)布,其中包含的信息可以被其他的數(shù)字圖書館調(diào)用,不同服務(wù)器相互交換彼此的RSS信息,會導(dǎo)致站內(nèi)信息更新加快,形成良性互動。由于模塊的配置文件中有關(guān)于用戶偏好的信息,因此系統(tǒng)會顯示滿足用戶需求的個性化信息提醒。這個過程包括4個步驟:(1)用戶通過用戶名、密碼登錄系統(tǒng)。(2)任務(wù)代理系統(tǒng)自動呈現(xiàn)給用戶符合他們偏好的資源的列表(如果存在超過一個RSS接口,所有的接口獲得的信息會累積成總的列表。如果沒有發(fā)現(xiàn)相關(guān)文獻,系統(tǒng)將及時告知用戶)。(3)界面代理系統(tǒng)在網(wǎng)站首頁產(chǎn)生提醒,告知使用者他或她喜歡的新的文檔的存在。(4)用戶通過訪問列表,獲得自己所需的文獻的全文信息。模型使用RSS1.0技術(shù)建立信息發(fā)布公告欄,方便用戶及時得到需要的信息。為了加強對超鏈接的管理,采用RDF/XML語法和數(shù)據(jù)模型,易于擴展和管理此表,能夠擴展詞匯,不需要每次添加新詞匯都修改整個數(shù)據(jù)庫。模型中數(shù)字圖書館的RSS發(fā)布模塊(可能多于一個,具體根據(jù)數(shù)字圖書館需求而定)采用半自動化技術(shù)生成和升級。因此,系統(tǒng)管理員只需要通過輸入界面定義描述每個RSS發(fā)布內(nèi)容的簡單信息和本地或網(wǎng)絡(luò)數(shù)據(jù)庫的文獻的特征,系統(tǒng)會先自動對文獻進行分析,產(chǎn)生一些對文獻的描述,如標(biāo)題、摘要、關(guān)鍵詞、語言數(shù)據(jù)等,然后由管理員對信息主題進行核對,如果不正確,便手動進行修改。3.4文獻推薦和被推薦的信息文獻推薦是對數(shù)據(jù)庫中的文獻進行分析,找出符合用戶研究興趣的文章的過程。模塊通過使用一種基于數(shù)字圖書館用戶偏好和文獻信息相似度比較的文獻聯(lián)合推薦系統(tǒng),除了提供用戶的偏好之外還能顯示關(guān)于被推薦資源的其它信息。任務(wù)代理系統(tǒng)首先檢索每個文獻的摘要和相關(guān)的推薦,然后比較每個用戶的配置文件和當(dāng)前用戶的配置文件,類似于信息推送的過程(但只與偏好匹配而不是主題和偏好同時匹配)。最
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年福建中職電商試題及答案
- 岳陽市2024-2025學(xué)年高一上學(xué)期期末考試 生物試卷(含答案)
- 2025年獨立能力測試題及答案
- 2025年川師審計復(fù)試試題及答案
- 2025年軟件工程應(yīng)聘試題及答案
- 2025年小學(xué)語文課程試題及答案
- 家庭照護員2023練習(xí)測試卷
- 鉗工學(xué)習(xí)資料練習(xí)測試卷
- 2025年駕考禮讓行人試題及答案
- 2025年關(guān)于前端面試題及答案
- 《中國傳統(tǒng)民居建筑》課件
- 影視作品的療愈效能與構(gòu)建路徑
- 電子公章申請請示范文2
- 2024-2030年中國合同能源管理(EMC)行業(yè)發(fā)展前景規(guī)劃分析報告
- 《中華人民共和國文物保護法》知識專題培訓(xùn)
- 2024年高考全國甲卷英語試卷(含答案)
- 四年級數(shù)學(xué)(四則混合運算)計算題專項練習(xí)與答案匯編
- 8年級上冊(人教版)物理電子教材-初中8~9年級物理電子課本
- 從業(yè)人員健康檢查 衛(wèi)生知識培訓(xùn)考核及個人衛(wèi)生制度
- 人教版高中英語新教材必修2單詞默寫表
- 中金公司在線測評真題
評論
0/150
提交評論