版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘在學(xué)校圖書(shū)館的應(yīng)用廖志平(上海海事大學(xué)高等技術(shù)學(xué)院 上海 200129)摘 要:在當(dāng)前信息量急速增長(zhǎng)的情況下學(xué)校圖書(shū)館迫切需要數(shù)據(jù)挖掘的技術(shù)手段對(duì)文獻(xiàn)管 理系統(tǒng)產(chǎn)生的數(shù)據(jù)及大量 Web 信息進(jìn)行統(tǒng)計(jì)和分析工,為讀者提供個(gè)性化服務(wù),以推動(dòng)學(xué)校圖書(shū) 館現(xiàn)代化信息服務(wù)水平的不斷提高。關(guān)鍵詞:圖書(shū)館 數(shù)據(jù)挖掘 Web 數(shù)據(jù)挖掘中圖分類號(hào):G256 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2012)04(c)-0211-021 數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù) 據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的
2、信息和知識(shí)的過(guò)程 1。它可 以幫助人們對(duì)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并進(jìn)行微觀、 中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,從而利用已有數(shù)據(jù)預(yù)測(cè)未來(lái),從中提取輔助決策的信 息和數(shù)據(jù),幫助提高決策的科學(xué)性和針對(duì)性。數(shù)據(jù)挖掘是一個(gè)從已知數(shù)據(jù)集合中發(fā)現(xiàn)各種模型、概要和導(dǎo)出值的過(guò)程 2。為了取得良好 的數(shù)據(jù)挖掘的效果,在數(shù)據(jù)挖掘過(guò)程中我們首先要注意避免出現(xiàn)不好的數(shù)據(jù)格式、各個(gè)系統(tǒng)中數(shù) 據(jù)含義的不一致、缺少相應(yīng)可以實(shí)施的功能、挖掘出的結(jié)果缺乏充分的理由等情況。數(shù)據(jù)挖掘 不是用于驗(yàn)證某個(gè)假定的模型的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型,也就是說(shuō)數(shù)據(jù)挖掘過(guò)程 是一個(gè)歸納的過(guò)程。它主
3、要包括確定業(yè)務(wù)對(duì)象、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果分析和知識(shí)的同化 當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在金融(信用分析、客戶欺詐)、電信(客戶分析、客戶欺詐)、 零售(銷售預(yù)測(cè))、電子商務(wù)(營(yíng)銷分析)、電力(系統(tǒng)優(yōu)化)、生物(基因分析)、天體(星體分類) 等方面。近年來(lái),數(shù)據(jù)挖掘也開(kāi)始被廣泛應(yīng)用于圖書(shū)館信息處理,與一系列的信息檢索、文獻(xiàn)加 工、數(shù)據(jù)庫(kù)等方法實(shí)現(xiàn)了緊密結(jié)合3。比如美國(guó)科學(xué)家 Sweason 運(yùn)用知識(shí)發(fā)現(xiàn)法,創(chuàng)建了 Arrowsmith 軟件系統(tǒng),用于對(duì) Medline、Biosis、Embase 等數(shù)據(jù)庫(kù)中的文獻(xiàn)資料進(jìn)行處理,并且 在醫(yī)學(xué)科學(xué)研究當(dāng)中取得了巨大的成效,為情報(bào)學(xué)界所瞻目。2 數(shù)據(jù)挖
4、掘主要技術(shù)數(shù)據(jù)挖掘經(jīng)常采用的技術(shù)包括:統(tǒng)計(jì)技術(shù)、關(guān)聯(lián)規(guī)則方法、基于歷史的分析 MBR 方法、聚集 檢測(cè)、連接分析、決策樹(shù)和規(guī)則推理、神經(jīng)元網(wǎng)絡(luò)、遺傳算法等 2,其性能評(píng)價(jià)如(表 1)。3 數(shù)據(jù)挖掘在圖書(shū)館的應(yīng)用圖書(shū)館作為學(xué)校信息的聚集地,文獻(xiàn)資源、數(shù)字資源和網(wǎng)絡(luò)資源不斷增加;而目前 Internet 已經(jīng)發(fā)展成為一個(gè)分布廣泛的全球性信息服務(wù)中心。如何從海量數(shù)據(jù)中發(fā)現(xiàn)對(duì)讀者有價(jià)值的信 息或知識(shí),成為一項(xiàng)非常艱巨的任務(wù)。通過(guò)對(duì)圖書(shū)館文獻(xiàn)管理集成系統(tǒng)及 Internet 網(wǎng)絡(luò)資源的數(shù)據(jù)挖掘可以從海量的數(shù)據(jù)中提取讀者所需的顯性知識(shí)和隱性知識(shí),提升圖書(shū)館知識(shí)管理服務(wù)水 3.1 對(duì)圖書(shū)館文獻(xiàn)管理集成系統(tǒng)的
5、挖掘文獻(xiàn)管理集成系統(tǒng)主要對(duì)文獻(xiàn)信息資源進(jìn)行科學(xué)的管理、有效的開(kāi)發(fā)、實(shí)現(xiàn)資源共享,是圖 書(shū)館實(shí)現(xiàn)現(xiàn)代化管理的重要內(nèi)容之一。以文獻(xiàn)管理集成系統(tǒng)中的流通管理數(shù)據(jù)為研究主體 ,利用 數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則、決策樹(shù)和聚類分析等方法對(duì)其中的讀者信息、書(shū)目信息及借閱歷史信 息進(jìn)行分析研究,掌握讀者的借閱規(guī)律,了解讀者的借閱需求,可以為圖書(shū)館的館藏建設(shè)和圖書(shū)推 薦服務(wù)等工作提供幫助。3.1.1 館藏建設(shè)圖書(shū)館館藏建設(shè)主要包括信息采集和館藏布局。傳統(tǒng)圖書(shū)館信息采集多由專門采訪人員獨(dú) 自確定或與少數(shù)專家商討決定,不可避免的帶有極大的主觀性以及個(gè)人喜好;而且圖書(shū)館每年的 文獻(xiàn)購(gòu)置費(fèi)是有限的,各門學(xué)科之間如何分配,各種
6、文獻(xiàn)載體形式如何均衡才能使這此經(jīng)費(fèi)最好 地發(fā)揮效益,這是一件令人頭疼的事。而運(yùn)用數(shù)據(jù)挖掘技術(shù)可以通過(guò)對(duì)圖書(shū)館的借閱流通記錄、 檢索請(qǐng)求進(jìn)行分析、挖掘,按類統(tǒng)計(jì)文獻(xiàn)拒借集和頻繁借閱集,從而有針對(duì)性的補(bǔ)充和豐富信息 資源,并可以籍此分析出文獻(xiàn)的利用率,及時(shí)剔除過(guò)時(shí)、老化的文獻(xiàn)信息。通過(guò)對(duì)用戶每次借閱 的文獻(xiàn)進(jìn)行關(guān)聯(lián)分析,從中發(fā)現(xiàn)出各類文獻(xiàn)之間的關(guān)聯(lián)規(guī)則或比例關(guān)系 ,進(jìn)而合理進(jìn)行館藏布局。3.1.2 圖書(shū)推薦服務(wù)運(yùn)用數(shù)據(jù)挖掘技術(shù),根據(jù)讀者的興趣愛(ài)好、研究方向,向讀者推薦相關(guān)專題信息,或主動(dòng)將相 關(guān)信息提供給他們;同時(shí)通過(guò)總結(jié)各類用戶的特征,挖掘出圖書(shū)館的潛在讀者,逐漸將他們發(fā)展為 圖書(shū)館的???運(yùn)用
7、關(guān)聯(lián)規(guī)則對(duì)圖書(shū)館借閱數(shù)據(jù)進(jìn)行處理,得到各專業(yè)圖書(shū)及資料之間的聯(lián)系,從 而不僅給讀者提供信息,還提供包含著大量用用于解決問(wèn)題的知識(shí),提供的信息或知識(shí)可能是利 用挖掘出的數(shù)據(jù)組織成的報(bào)表或繪制成的直觀圖形。Web 數(shù)據(jù)挖掘是以 Internet 的數(shù)據(jù)為分析對(duì)象,以抽取有用知識(shí)為目標(biāo),把傳統(tǒng)數(shù)據(jù)挖掘技 術(shù)和 Internet 相結(jié)合的數(shù)據(jù)挖掘的一個(gè)重要分支。 Web 數(shù)據(jù)挖掘是一門交叉性學(xué)科,涉及數(shù)據(jù) 挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)語(yǔ)言學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、信息學(xué)等 Web 數(shù)據(jù)挖掘主要包含 Web 內(nèi)容挖掘(Web Content Mining)、Web 結(jié)構(gòu)挖掘(Web St
8、ructure Mining)和Web 日志挖掘(Web Usage Mining)。在實(shí)際應(yīng)用中這三個(gè)研究方向并不是孤立的,而 是相互交叉、相互滲透和相互聯(lián)系的。3.2.1 Web 內(nèi)容挖掘Web 內(nèi)容挖掘主要是針對(duì)網(wǎng)頁(yè)中非結(jié)構(gòu)化的數(shù)據(jù),如文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖形 圖像數(shù)據(jù)等多種數(shù)據(jù)相融合的多媒體數(shù)據(jù)挖掘。它是一種基于網(wǎng)頁(yè)內(nèi)容的 Web 挖掘,是從大量的 Web 數(shù)據(jù)中發(fā)現(xiàn)信息、抽取有用知識(shí)的過(guò)程。Web 內(nèi)容挖掘的任務(wù)是從用戶的角度出發(fā),主要解決怎樣提高信息質(zhì)量和幫助用戶過(guò)濾信息 的問(wèn)題。學(xué)校圖書(shū)館可以通過(guò) Web 內(nèi)容挖掘建立 Web 站點(diǎn)的數(shù)據(jù)模型并加以集成,為讀者提供復(fù) 雜
9、查詢的支持,而不只是簡(jiǎn)單的基于關(guān)鍵詞的搜索 ,大大提升圖書(shū)館信息服務(wù)的針對(duì)性和專業(yè)性。3.2.2 Web 結(jié)構(gòu)挖掘Web 結(jié)構(gòu)挖掘是指通過(guò)分析不同 Web 頁(yè)面之間的超鏈接結(jié)構(gòu),發(fā)現(xiàn)許多蘊(yùn)含在 Web 頁(yè)面之外 的對(duì)用戶有潛在價(jià)值的模式和知識(shí)的過(guò)程。從站點(diǎn)的組織結(jié)構(gòu)和頁(yè)面結(jié)構(gòu)中推導(dǎo)出知識(shí) ,對(duì) Web 頁(yè)面間的結(jié)構(gòu)進(jìn)行挖掘,找出數(shù)據(jù)鏈的結(jié)構(gòu)進(jìn)行分類、聚類,從而發(fā)現(xiàn)頁(yè)面間的關(guān)系,進(jìn)而提高圖 書(shū)館為讀者提供隱性知識(shí)的能力。3.2.3 Web 日志挖掘Web 日志挖掘是對(duì)用戶訪問(wèn) Web 時(shí)在服務(wù)器留下的訪問(wèn)記錄進(jìn)行挖掘,來(lái)發(fā)現(xiàn)用戶訪問(wèn) Web 頁(yè)面的模式,通過(guò)分析日志記錄中的規(guī)律,可以識(shí)別用戶對(duì)于
10、各類網(wǎng)頁(yè)信息的喜好。通過(guò) Web 數(shù)據(jù)挖掘,圖書(shū)館可將 Web 上的文檔進(jìn)行分類、尋找文檔主題、匯總搜索結(jié)果,為 讀者提供更加全面準(zhǔn)確的網(wǎng)絡(luò)信息;利用Web 數(shù)據(jù)挖掘可以對(duì)網(wǎng)上大量文本進(jìn)行表示、特征提取、 內(nèi)容總結(jié)、分類、聚類、關(guān)聯(lián)分析、語(yǔ)義分析以及利用網(wǎng)絡(luò)文本進(jìn)行趨勢(shì)預(yù)測(cè),提高信息檢索的 精度和效率,改善檢索結(jié)果的組織,使圖書(shū)館信息推送服務(wù)更符合讀者的需求。4 結(jié)語(yǔ)在互聯(lián)網(wǎng)時(shí)代的今天,各種信息如海潮般涌向我們,從紛繁復(fù)雜信息中收集對(duì)讀者有用信息 的準(zhǔn)確性,是學(xué)校圖書(shū)館現(xiàn)代化信息服務(wù)工作水平的體現(xiàn)。時(shí)代的發(fā)展要求我們將以往拉取式獲 取信息改變?yōu)橥扑褪叫畔⒎?wù),數(shù)據(jù)挖掘技術(shù)成功地解決了在主動(dòng)式信息服務(wù)過(guò)程中的各種難題, 這在圖書(shū)館現(xiàn)代化信息服務(wù)將成為趨勢(shì)的今天,有非?,F(xiàn)實(shí)的意義。參考文獻(xiàn)JiaweiHanMichelineKamber譯.數(shù)據(jù)挖掘概念與技術(shù).北京 : 機(jī)械工業(yè)出版社 2001.8.2Mehmed Kant
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年海北客運(yùn)從業(yè)資格證模擬考試練習(xí)題
- 2024年巢湖煙臺(tái)客運(yùn)上崗證考試題
- 2024年蘇州客運(yùn)從業(yè)資格證考試題庫(kù)
- 2024年拉薩客運(yùn)員考試題庫(kù)
- 名人紀(jì)念館南門雕塑征集
- 兒童安全座椅租賃合同
- 農(nóng)業(yè)園區(qū)標(biāo)識(shí)標(biāo)牌招投標(biāo)函范本
- 電梯零部件招投標(biāo)注意事項(xiàng)
- 城市燃?xì)夤艿离娮诱型稑?biāo)規(guī)劃
- 體育館工程建設(shè)項(xiàng)目施工合同樣本
- 封閉校園管理班會(huì)
- 機(jī)械制造基礎(chǔ)說(shuō)課市公開(kāi)課一等獎(jiǎng)省賽課微課金獎(jiǎng)?wù)n件
- 2019年1月自考00804金融法二試題及答案含解析
- 河北中鹽龍祥鹽化有限公司寧晉鹽礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 2017年10月自考00258保險(xiǎn)法試題及答案含解析
- 放射人員輻射安全培訓(xùn)課件
- 社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估 投標(biāo)方案(技術(shù)標(biāo))
- 第21屆WMO初賽3年級(jí)A卷(含答案)
- 中級(jí)會(huì)計(jì)課程設(shè)計(jì)
- 中心靜脈深靜脈導(dǎo)管維護(hù)操作評(píng)分標(biāo)準(zhǔn)
- 上消化道出血臨床指南
評(píng)論
0/150
提交評(píng)論