淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究_第1頁
淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究_第2頁
淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、論文關(guān)鍵詞:數(shù)字化圖書管理檔案化論文摘要:隨著社會主義現(xiàn)代化的發(fā)展,計算機(jī)技術(shù)的進(jìn)步,信息技術(shù)在社會發(fā)展的各個領(lǐng)域都扮演著極其重要的角色。信息化建設(shè)更是被我國列為經(jīng)濟(jì)社會發(fā)展的首要內(nèi)容。網(wǎng)頁檔案化管理包括文檔、文字翻譯轉(zhuǎn)換、圖片資料、聲像資料、多媒體遠(yuǎn)程會議等。尤其是大學(xué)檔案館更側(cè)重教學(xué)與科研,網(wǎng)頁檔案化管理是必然的趨勢。在信息化發(fā)展的今天,圖書館,特別是大學(xué)圖書館不僅要對信息進(jìn)行簡單的數(shù)字轉(zhuǎn)換和管理,更要對新興事物網(wǎng)絡(luò)進(jìn)行檔案化管理和歸檔,包括文檔、文字翻譯轉(zhuǎn)換、圖片資料、聲像資料、多媒體遠(yuǎn)程會議等。所以網(wǎng)絡(luò)檔案化管理,成為當(dāng)今圖書管理的必然趨勢,這就必須對檔案化管理的技術(shù)和法律相關(guān)問題進(jìn)行

2、深入闡述和探討。所謂數(shù)據(jù)挖掘(Data Mining),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。這些數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本,圖形,圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以進(jìn)行數(shù)據(jù)自身的維護(hù)。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計技術(shù)和人工智能以及知識工程等領(lǐng)域的研究成果構(gòu)建自己的理論體系,是涉及數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、機(jī)械學(xué)、

3、人工神經(jīng)網(wǎng)絡(luò)、可視化、并行計算等的交叉學(xué)科,是目前國際上數(shù)據(jù)庫和決策支持領(lǐng)域的最前沿的研究方向之一。一、數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出預(yù)測性的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,按其功能可分為以下幾類。1、關(guān)聯(lián)分析關(guān)聯(lián)分析能尋找到數(shù)據(jù)庫中大量數(shù)據(jù)的相關(guān)聯(lián)系,常用的一種技術(shù)為關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。2、聚類輸入的數(shù)據(jù)并無任何類型標(biāo)記,聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合,即將對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強(qiáng)了人們

4、對客觀現(xiàn)實的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。3、自動預(yù)測趨勢和行為數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中進(jìn)行分類和預(yù)測,尋找預(yù)測性信息,自動地提出描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢,這樣以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。4、概念描述對于數(shù)據(jù)庫中龐雜的數(shù)據(jù),人們期望以簡潔的描述形式來描述匯集的數(shù)據(jù)集。概念描述就是對某類對象的內(nèi)涵進(jìn)行描述并概括出這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,論文來源前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性只涉及該類對象中所有對象的共性。生成

5、區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。5、偏差檢測數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找觀測結(jié)果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測欺詐行為,或市場分析中分析特殊消費者的消費習(xí)慣。二、數(shù)據(jù)挖掘在建設(shè)現(xiàn)代化高校檔案館中的應(yīng)用1、資源類數(shù)據(jù)包括館藏檔案經(jīng)過數(shù)字化加工而產(chǎn)生的各類電子檔案、電子文件中心中存儲的各類電子檔案、檔案軟件收集的信息、檔案信息網(wǎng)建設(shè)和維護(hù)信息。我們從研究大學(xué)檔案用戶的信息需求出發(fā),數(shù)據(jù)挖掘為大學(xué)

6、檔案館全面掌握和準(zhǔn)確理解檔案用戶的信息需求提供了方法。(1) 利用Web訪問信息挖掘技術(shù)發(fā)現(xiàn)其中的關(guān)聯(lián)模式、序列模式和Web訪問趨勢等,構(gòu)建多維視圖的用戶興趣模型。從而可以確定檔案信息或服務(wù)受歡迎的程度,發(fā)現(xiàn)用戶訪問模式和用戶需求的趨勢,從不同側(cè)面來研究用戶的信息需求,為優(yōu)化檔案館的檔案信息資源建設(shè)提供了科學(xué)依據(jù)。(2) 收集大學(xué)檔案網(wǎng)web服務(wù)器保留的用戶注冊信息、訪問記錄,以及有關(guān)用戶與系統(tǒng)交互的信息等原始數(shù)據(jù),經(jīng)過清洗、濃縮和轉(zhuǎn)換形成便于統(tǒng)計分析的用戶查閱數(shù)據(jù)庫、日志數(shù)據(jù)庫、用戶定制信息庫、用戶反饋信息等各種數(shù)據(jù)集合。2、從建設(shè)大學(xué)檔案館館藏信息資源出發(fā),數(shù)據(jù)挖掘為大學(xué)檔案館提供了選擇一

7、條科學(xué)發(fā)展道路的重要依據(jù)。(1) 利用檔案網(wǎng)和檔案管理軟件訪問信息的挖掘分析出檔案資源的利用率,將利用率高、需求量大的傳統(tǒng)載體檔案優(yōu)先數(shù)字化。例如:通過對檔案信息的訪問記錄、檢索請求中用戶請求失敗的數(shù)據(jù)進(jìn)行分析,按類統(tǒng)計檔案拒用集和頻繁利用集,結(jié)合聚集算法發(fā)現(xiàn)館藏資源的缺漏,有針對性地補(bǔ)充和豐富檔案信息資源。(2) 在大學(xué)檔案館藏管理過程中利用文本挖掘,運用關(guān)聯(lián)、分類、聚類等方法,從海量檔案信息中按照相關(guān)專題進(jìn)行挖掘、分類、加工、整理和有序化重組,構(gòu)建特色檔案信息庫及各類專題檔案信息庫等。3、從做好大學(xué)檔案館信息管理工作的角度出發(fā),數(shù)據(jù)挖掘為優(yōu)化館藏信息和對未來工作的預(yù)測發(fā)揮重要作用。(1)

8、在提供利用環(huán)節(jié)中,對用戶每次借閱的信息進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)各類檔案信息之間的關(guān)聯(lián)規(guī)則或比例關(guān)系,這樣可以進(jìn)一步優(yōu)化館藏信息。(2) 開展大學(xué)檔案館館藏信息文本特征的建立、特征提取、特征匹配、特征集縮減和模型評價工作,實現(xiàn)對大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析、分布分析,通過歸納與總結(jié),發(fā)現(xiàn)的知識可以為未來檔案工作的趨勢進(jìn)行預(yù)測。三、數(shù)據(jù)挖掘在管理類數(shù)據(jù)中的應(yīng)用大學(xué)檔案館的管理類數(shù)據(jù)包括:智能監(jiān)控系統(tǒng)、消防系統(tǒng)、溫濕度控制系統(tǒng)、智能密集架、數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)利用系統(tǒng)等在日常工作產(chǎn)生大量的管理類數(shù)據(jù)。我們得用數(shù)據(jù)挖掘工具在這類看似無用的數(shù)據(jù)中提取有價值的知識并運用到大學(xué)檔案館工作中,并在

9、大學(xué)檔案館的現(xiàn)代化建設(shè)中發(fā)揮作用。大學(xué)檔案館檔案工作的重點是為師生服務(wù),以服務(wù)為中心開展各項工作,如何使用先進(jìn)的工具,提高服務(wù)的質(zhì)量是一直困擾我們的難題。數(shù)據(jù)挖掘為大學(xué)檔案館檔案工作的智能化、個性化、精品化提供了行之有效的方法。在智能檢索系統(tǒng)可調(diào)用用戶興趣模型,自動修正檢索策略并可依用戶興趣將檢索結(jié)果迅速聚類和分類,并條理化地排序出來;對于設(shè)計院、社科院等科研型檔案用戶,可借助數(shù)據(jù)挖掘開展針對性的檔案信息挖掘,并將研究成果以概述、成果報告等形式提供給用戶。這樣不光實現(xiàn)了大學(xué)檔案的二次開發(fā),也會給用戶帶來意外的驚喜。網(wǎng)絡(luò)最初只是科學(xué)家與研究人員之間交換文件的軟件,把因特網(wǎng)用于教育和研究可以得到政

10、府的補(bǔ)貼。在中國,大學(xué)有撥款,圖書館有大學(xué)支持,數(shù)字圖書館的網(wǎng)絡(luò)檔案館是不贏利的,產(chǎn)出是教學(xué)和科研的長期社會效益。今天,因特網(wǎng)已經(jīng)越來越商業(yè)化了,網(wǎng)絡(luò)在數(shù)字經(jīng)濟(jì)中已成為極具潛力的技術(shù)投資對象。大學(xué)數(shù)字圖書館也可以考慮建立以贏利為目的的網(wǎng)絡(luò)檔案庫,采用網(wǎng)絡(luò)商務(wù)中的一些商務(wù)模式,例如網(wǎng)絡(luò)廣告、旗幟廣告、贊助廣告、訂閱、B2C等。收入可用于大學(xué)數(shù)字圖書館網(wǎng)絡(luò)檔案館建設(shè)的滾動發(fā)展。目前人們對這些處于萌芽中的經(jīng)濟(jì)模式認(rèn)識甚少。管理網(wǎng)絡(luò)的公共政策制定主體是政府部門,推行電子政務(wù),開發(fā)網(wǎng)絡(luò)資源,促進(jìn)從文字印刷向網(wǎng)絡(luò)出版的轉(zhuǎn)移是當(dāng)前相關(guān)政府部門的重要任務(wù)。大學(xué)的政策、態(tài)度和措施對數(shù)字圖書館的發(fā)展至關(guān)重要。市場

11、手段和政策平衡是網(wǎng)絡(luò)檔案館建設(shè),網(wǎng)絡(luò)檔案庫運行,網(wǎng)上內(nèi)容傳遞和保存應(yīng)該和必須考慮的。參考文獻(xiàn):1Peer to peer Networking and Digital Right Management,by Michael A. Einhorn, Bill Rosenblatt, Policy Analysis No.534, CATO Institute. Fabruary 17,20052What Every Citizen Should Know About DRM, aka Digital Right Management, by Mike Godwin Seuitoo Technology Counsel At Public Knowledge, 30 January, 2008, Ebook-Computer & Internet, 3彼得·萊曼.把萬維網(wǎng)檔案化.信息化參考,2004

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論