



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、利用數(shù)據(jù)挖掘技術(shù)做好檔案編研選題 隨著 計(jì)算 機(jī)技術(shù)和信息技術(shù)的 發(fā)展 ,信息產(chǎn)生的渠道越來(lái)越多,信息更新的頻率日益加快,在“數(shù)據(jù)過(guò)剩”和“信息爆炸”的同時(shí),人們正被信息淹沒(méi),卻饑渴于有用信息的提取。面對(duì)浩渺無(wú)際的數(shù)據(jù)海洋,人們迫切需要一種能夠從海量的數(shù)據(jù)中提取有價(jià)值知識(shí)和信息的技術(shù),基于人工智能的數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生,并被廣泛應(yīng)用。一、數(shù)據(jù)挖掘技術(shù)1、數(shù)據(jù)挖掘所謂數(shù)據(jù)挖掘(data mining,簡(jiǎn)稱dm),是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、 規(guī)律 及模式等。數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(knowledgedicoveryindt
2、abases,簡(jiǎn)稱kdd)中的重要技術(shù),它通過(guò)對(duì)查詢內(nèi)容進(jìn)行模式的 總結(jié) 和內(nèi)在規(guī)律的搜索,幫助決策者分析 歷史 數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為,從而為決策行為提供有利的支持,很多人又將其稱為數(shù)據(jù)淘金。數(shù)據(jù)挖掘是面向數(shù)值數(shù)據(jù)的挖掘,其功能主要有:(1)自動(dòng)預(yù)測(cè)趨勢(shì)和行為。數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問(wèn)題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。(2)關(guān)聯(lián)分析。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí),若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。(3)聚類。數(shù)據(jù)庫(kù)中
3、的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。(4)概念描述。概念描述就是對(duì)某對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征,分為特征性描述和區(qū)別性描述。(5)偏差檢測(cè)。數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的知識(shí),偏差檢測(cè)的基本方法是尋找觀測(cè)結(jié)果與參照值之間有意義的差別。2、web挖掘web挖掘是一項(xiàng)綜合技術(shù),涉及web、數(shù)據(jù)挖掘、計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多個(gè)領(lǐng)域。web挖掘就是從web文檔、web活動(dòng)中抽取感興趣的、潛在的有用模式和隱藏信息。它反復(fù)使用多種數(shù)據(jù)挖掘算法,從觀測(cè)數(shù)據(jù)中確定模式或
4、合理模型,也是將數(shù)據(jù)挖掘技術(shù)和理論應(yīng)用于對(duì)web資源進(jìn)行挖掘的一個(gè)新興的研究領(lǐng)域。web挖掘的處理流程為查找資源、信息選擇和預(yù)處理、模式發(fā)現(xiàn)、模式分析。web挖掘可以分為三類0:(1)web內(nèi)容挖掘。web內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取知識(shí)的過(guò)程。web內(nèi)容挖掘有兩種策略:一種是直接挖掘文件的內(nèi)容,另一種是在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。(2)web結(jié)構(gòu)挖掘。web結(jié)構(gòu)挖掘是從web的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。由于文檔之間的互連web能夠提供除文檔內(nèi)容之外的有用信息,利用這些信息,可以對(duì)頁(yè)面進(jìn)行排序發(fā)現(xiàn)重要頁(yè)面。(3)web使用記錄的挖掘。web使用挖掘就是對(duì)用戶訪問(wèn)web時(shí)在服務(wù)器留
5、下的訪問(wèn)記錄進(jìn)行挖掘,其主要目標(biāo)是從web的訪問(wèn)記錄中抽取感興趣的模式。web中每個(gè)服務(wù)器保留了訪問(wèn)日志,記錄關(guān)于用戶訪問(wèn)和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。二、數(shù)據(jù)挖掘技術(shù)在檔案編研選題中的應(yīng)用選題是依據(jù)編纂的材料基礎(chǔ)和用戶的利用需求來(lái)確定編纂題目的工作。在數(shù)據(jù)挖掘技術(shù)出現(xiàn)之前,檔案編研部門(mén)要了解社會(huì)用戶對(duì)檔案 文獻(xiàn) 信息的現(xiàn)實(shí)的與潛在的需求,只有通過(guò)用戶抽樣調(diào)查或者借閱數(shù)據(jù)的抽樣統(tǒng)計(jì)來(lái)進(jìn)行,既費(fèi)時(shí)費(fèi)力,也分析的不夠全面具體。有了數(shù)據(jù)挖掘技術(shù)以后,可以利用檔案館的信息管理系統(tǒng)中的用戶借閱數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),可以利用用戶經(jīng)常訪問(wèn)的網(wǎng)頁(yè)進(jìn)行
6、分析、挖掘,了解到用戶的興趣愛(ài)好、研究方向,預(yù)測(cè)用戶需求,從而確定檔案編研的選題。1、用戶利用檔案的數(shù)據(jù)挖掘檔案用戶需求調(diào)研是檔案編研選題成功與否的關(guān)鍵因素之一。它是指通過(guò)一定的方式與方法,在深入調(diào)查、掌握檔案用戶利用需求情況的基礎(chǔ)上,揭示各類用戶的需求特點(diǎn)與規(guī)律的一項(xiàng)業(yè)務(wù)活動(dòng)。一般而言,檔案館在日常的檔案利用服務(wù)中所積累的利用統(tǒng)計(jì)數(shù)據(jù),可比較準(zhǔn)確地揭示某一時(shí)期社會(huì)檔案信息需求的動(dòng)向。檔案利用統(tǒng)計(jì)的具體指標(biāo)主要包括檔案調(diào)卷數(shù)量、檔案利用次數(shù)、復(fù)制檔案數(shù)量、制發(fā)檔案證明數(shù)量等。數(shù)據(jù)挖掘自動(dòng)在檔案館的信息數(shù)據(jù)庫(kù)中尋找用戶利用檔案的所有數(shù)據(jù),對(duì)搜集到的數(shù)據(jù)進(jìn)行聚類,利用聚類結(jié)果對(duì)不同的用戶賦以不同的
7、類標(biāo)記,然后利用分類功能,對(duì)用戶特征進(jìn)行建模,挖掘出不同類的用戶的不同特征。檔案編研部門(mén)可以針對(duì)不同用戶提供個(gè)性化服務(wù),按需確定不同類型的編研題目。只有這樣,檔案編研選題才能貼近社會(huì)、貼近公眾,編研產(chǎn)品才會(huì)被廣大用戶所認(rèn)可和歡迎,檔案編研的效果與價(jià)值才能真正的以用戶利用的效益方式體現(xiàn)出來(lái)。轉(zhuǎn)貼于 2、用戶訪問(wèn)記錄的web使用挖掘由于 網(wǎng)絡(luò) 速度和 計(jì)算 機(jī)軟硬件處理能力的大大提高,使得服務(wù)器可以在檔案用戶訪問(wèn)網(wǎng)站的同時(shí)記錄用戶訪問(wèn)信息。具體做法是:在檔案館網(wǎng)頁(yè)設(shè)計(jì)時(shí),對(duì)各鏈接對(duì)象進(jìn)行設(shè)置,當(dāng)用戶訪問(wèn)該鏈接對(duì)象時(shí),系統(tǒng)自動(dòng)將用戶的信息和訪問(wèn)對(duì)象的信息實(shí)時(shí)傳遞到服務(wù)器端的用戶訪問(wèn)記錄文件中,然后結(jié)
8、合 歷史 數(shù)據(jù)和客戶實(shí)時(shí)訪問(wèn)的信息進(jìn)行數(shù)據(jù)挖掘,采用分析網(wǎng)頁(yè)關(guān)鍵字、下載記錄、檢索詞、用戶對(duì)網(wǎng)頁(yè)利用時(shí)間和頻度等方式獲取用戶需求信息。用戶使用記錄挖掘主要是對(duì)服務(wù)器日志、cookie、用戶注冊(cè)數(shù)據(jù)、 電子 郵件查詢響應(yīng)數(shù)據(jù)及web購(gòu)買(mǎi)數(shù)據(jù)的挖掘。目前,使用記錄挖掘可分為兩大類:訪問(wèn)模式的追蹤和個(gè)性化使用記錄的追蹤。其中個(gè)性化的使用記錄追蹤傾向于分析個(gè)別用戶的偏好,其目的是根據(jù)不同用戶的訪問(wèn)模式,提供相應(yīng)的定制服務(wù)。檔案編研部門(mén)通過(guò)對(duì)用戶訪問(wèn)記錄的挖掘,在數(shù)字對(duì)象和用戶、對(duì)象分類和主題之間進(jìn)行模式匹配,采用不同挖掘技術(shù)如基于業(yè)務(wù)聚類、使用聚類和聯(lián)合規(guī)則來(lái)自動(dòng)提取信息,通過(guò)數(shù)據(jù)分析,了解和掌握檔案
9、用戶需求的特點(diǎn),預(yù)測(cè)其未來(lái)趨向,結(jié)合社會(huì)熱點(diǎn)選定檔案編研題目。3、建立檔案編研選題的用戶模型(1)問(wèn)題定義問(wèn)題定義是數(shù)據(jù)挖掘中的第一步,也是最重要的的一步,即對(duì)挖掘的目標(biāo)作一個(gè)清楚的定義。具體來(lái)說(shuō),就是通過(guò)分析檔案館服務(wù)器的日志數(shù)據(jù)、用戶檢索結(jié)果等,來(lái)挖掘出檔案用戶的使用模式和興趣模式,從而使檔案編研部門(mén)可以利用這些搜集到的信息有針對(duì)性地、有目的性地組織選題,進(jìn)行編研工作,推出用戶滿意的編研成果。這樣即可以有效地克服出版發(fā)行者的盲目性,改變目前存在的某種程度的供需失調(diào)的狀況,真正根據(jù)用戶的需求來(lái)出版檔案 文獻(xiàn) 編纂成果,從而避免了因?yàn)椴涣私馍鐣?huì)的實(shí)際需要而造成的過(guò)量出版和需求短缺。(2)建立挖
10、掘數(shù)據(jù)庫(kù)挖掘數(shù)據(jù)庫(kù)是一個(gè)儲(chǔ)存待挖掘數(shù)據(jù)的數(shù)據(jù)庫(kù)。檔案館的服務(wù)器日志數(shù)據(jù)和檔案用戶的注冊(cè)信息等,都是挖掘數(shù)據(jù)庫(kù)的數(shù)據(jù)源。在數(shù)據(jù)寫(xiě)人挖掘數(shù)據(jù)庫(kù)前,要先對(duì)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行篩選和整合,包括修改錯(cuò)誤的記錄、刪除不相關(guān)的記錄等;通過(guò)處理后的數(shù)據(jù)就成為挖掘的數(shù)據(jù)了。同時(shí),數(shù)據(jù)庫(kù)的數(shù)據(jù)需要不斷地進(jìn)行新增、修改和刪除,以求得到更好的數(shù)據(jù)效果。(3)分析數(shù)據(jù)在挖掘數(shù)據(jù)庫(kù)建立之后,就要對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析處理:首先根據(jù)檔案用戶id劃分?jǐn)?shù)據(jù),找到每個(gè)用戶的訪問(wèn)記錄集;然后將該用戶的訪問(wèn)記錄集以一個(gè)固定的時(shí)間間隔進(jìn)行分割,找到該用戶的每一次訪問(wèn)記錄集(我們稱這個(gè)每一次訪問(wèn)記錄集為一個(gè)“訪問(wèn)事務(wù)”);最后,將所有的訪
11、問(wèn)事務(wù)按時(shí)間排序,構(gòu)成進(jìn)行挖掘的事務(wù)集。每一個(gè)訪問(wèn)事務(wù)相當(dāng)于訪問(wèn)者對(duì)站點(diǎn)的一條訪問(wèn)路徑。另外,還需把網(wǎng)頁(yè)中的文本、圖片及其他文件轉(zhuǎn)換成數(shù)據(jù)挖掘算法的可用形式。(4)建立模型建立模型之前需要進(jìn)行數(shù)據(jù)準(zhǔn)備工作,包括選擇預(yù)測(cè)變量、記錄,創(chuàng)建新變量和轉(zhuǎn)換變量。選擇適當(dāng)?shù)淖兞亢陀涗浤艽蟠筇岣吣P偷慕⑿?。在多?shù)情況下,我們還需創(chuàng)建一些新的預(yù)測(cè)變量(比如一些比值),以增加預(yù)測(cè)模型的準(zhǔn)確性;根據(jù)選擇的算法和工具需對(duì)變量進(jìn)行轉(zhuǎn)換。在數(shù)據(jù)挖掘中采用比較多的算法主要有神經(jīng)網(wǎng)絡(luò)和決策數(shù)算法。建立模型是個(gè)反復(fù)尋求最佳模型的過(guò)程。我們把挖掘數(shù)據(jù)庫(kù)分成兩部分:一部分用來(lái)進(jìn)行模型訓(xùn)練,另一部分用來(lái)測(cè)試模型。我們首先利用訓(xùn)練集建立一個(gè)用戶模型,然后用測(cè)試集對(duì)模型進(jìn)行測(cè)試;根據(jù)測(cè)試結(jié)果,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行一些修改或新建預(yù)測(cè)變量,再生成新的用戶模型。建立新的用戶模型可以使用與上次一樣的算法,也可以取用其他算法建模。最后,從建立的幾個(gè)用戶模型
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 63453:2025 EN Railway applications - Current collection systems - Validation of simulation of the dynamic interaction between pantograph and overhead contact line
- 詳盡多條款單項(xiàng)勞務(wù)分包合同
- 保險(xiǎn)服務(wù)居間合同
- 工業(yè)廠房租賃合同
- 建筑工程款轉(zhuǎn)讓協(xié)議書(shū)
- 裝卸運(yùn)輸服務(wù)合同
- 智能科技產(chǎn)品開(kāi)發(fā)合作合同
- 個(gè)人果樹(shù)承包合同
- 管理軟件系統(tǒng)買(mǎi)賣(mài)合同書(shū)
- 美術(shù)老師教學(xué)成果保護(hù)協(xié)議
- 信息技術(shù)與學(xué)科融合教案(初中數(shù)學(xué)學(xué)科模板)
- 2021年新大象版四年級(jí)科學(xué)下冊(cè)全冊(cè)教案(附板書(shū)設(shè)計(jì)、教學(xué)反思、總結(jié)點(diǎn)評(píng))
- PI形式發(fā)票范文模板
- 城市地理學(xué)第二章城鄉(xiāng)劃分和城市地域
- 對(duì)健康體檢異常者開(kāi)展健康管理干預(yù)的效果評(píng)價(jià)
- 2016年輸電線路評(píng)價(jià)與分析報(bào)告
- 全名校初二物理期末沖刺30題:力與運(yùn)動(dòng)、壓強(qiáng)和浮力
- 因公出國(guó)(境)管理辦法
- 別讓心態(tài)毀了你:受益一生的情緒掌控法
- 電梯控制技術(shù)PPT完整全套教學(xué)課件
- 甲狀腺旁腺分泌的激素及功能
評(píng)論
0/150
提交評(píng)論