競賽網站用戶行為分析及服務推薦_第1頁
競賽網站用戶行為分析及服務推薦_第2頁
競賽網站用戶行為分析及服務推薦_第3頁
競賽網站用戶行為分析及服務推薦_第4頁
競賽網站用戶行為分析及服務推薦_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

專業(yè)綜合設計說明書題目:競賽網站用戶行為分析及服務推薦姓名: 學院:—專業(yè)班級:—學號:課程: 指導教師:成績: 時間:2年L月?日至2年月2日說明1、專業(yè)綜合設計進行期間,學生應按教學計劃,將每天的學習情況(包括學習內容、遇到問題及解決辦法、心得體會等)如實進行記錄。2、結束時,根據專業(yè)綜合設計內容和學習記錄書寫報告。3、指導教師應綜合考慮學生的學習態(tài)度、報告內容和實際操作情況等,給出評語和成績。專業(yè)綜合設計報告撰寫格式1、專業(yè)綜合設計說明書用紙一律采用A4紙。打印正文用宋體小四號字;版面頁邊距:上2.5cm,下2.5cm,左3cm,右2cm;頁碼用小五號字底端居中;左邊裝訂。2、專業(yè)綜合設計報告一般由以下幾部分組成:A.任務書;B.目錄;C.正文;D.參考文獻;E.附錄。3、報告正文撰寫的題序層次格式:第一種第二種第一章(居中、小二號黑體字)1.(居中、小二號黑體字、)第一節(jié)(頂格、小三號黑體字)1.1(頂格、小三號黑體字)一(頂格、四號黑體字)1.1.1(頂格、四號黑體字)(一)(頂格、小四號黑體字)專業(yè)綜合設計任務書題目 競賽網站用戶行為分析及服務推薦 專業(yè)班級—學號」姓名主要內容、基本要求、主要參考資料等:主要內容:Python編程基礎Python數(shù)據分析與應用Python數(shù)據分析實訓Python數(shù)據可視化案例:汽車銷量數(shù)據可視化分析案例:電子商務網站用戶行為分析及服務推薦競賽網站用戶行為分析及服務推薦項目基本要求:.掌握Python編程基礎,熟練編輯代碼,有良好的代碼編寫習慣.掌握Python常用庫分析核心思路,可以利用Python常用庫對數(shù)據進行清洗與預處理.掌握常見的可視化分析圖表,從數(shù)據中找到可分析內容并繪制圖表.掌握項目開發(fā)流程,能夠獨立完成完整分析項目.了解Python進行人工智能推薦的流程.了解企業(yè)項目開發(fā)、分析思路、文檔編寫匯報流程競賽網站用戶行為分析及服務推薦

摘要隨著計算機技術與通信技術的日益成熟和廣泛應用,互聯(lián)網自90年代初開始得到迅猛發(fā)展,隨之而來的是網上信息資源越來越豐富,人們要在浩如煙海的互聯(lián)網信息世界中找到自己真正感興趣信息卻存在很大的困難,具體表現(xiàn)在:用戶不知道如何貼切表達真正想要的網上資源的需求,也不知道如何去更準確有效地尋找,即所謂“信息迷失”,對收集到的大量無關的信息難以消化,即所謂“信息過載”。雖然我們可以借助于搜索引擎來檢索Web上的信息,但仍不能滿足不同背景、不同目的和不同時期的查詢要求,因為大多數(shù)搜索引擎缺少主動性,沒有考慮用戶的興趣偏好和用戶的不同,無法有效地解決信息過載和信息迷失的問題。關鍵詞個性化推薦;相似度矩陣;函數(shù)構建摘要 項目介紹..1項目背景.2項目目標項目內容..項目模型..錯誤!未定義書簽。錯誤!未定義書簽。錯誤摘要 項目介紹..1項目背景.2項目目標項目內容..項目模型..數(shù)據探索與分析數(shù)據預處理數(shù)據探索與分析數(shù)據預處理.…?…網址分類 模型構建 錯誤!未定義書簽。錯誤!未定義書簽。錯誤!未定義書簽。錯誤!未定義書簽。小結 錯誤!未定義書簽參考文獻 錯誤!未定義書簽1項目介紹項目背景隨著計算機技術與通信技術的日益成熟和廣泛應用,互聯(lián)網自90年代初開始得到迅猛發(fā)展,隨之而來的是網上信息資源越來越豐富,人們要在浩如煙海的互聯(lián)網信息世界中找到自己真正感興趣信息卻存在很大的困難,具體表現(xiàn)在:用戶不知道如何貼切表達真正想要的網上資源的需求,也不知道如何去更準確有效地尋找,即所謂“信息迷失”;,對收集到的大量無關的信息難以消化,即所謂“信息過載”。雖然我們可以借助于搜索引擎來檢索Web上的信息,但仍不能滿足不同背景、不同目的和不同時期的查詢要求,因為大多數(shù)搜索引擎缺少主動性,沒有考慮用戶的興趣偏好和用戶的不同,無法有效地解決信息過載和信息迷失的問題⑴。為了適應用戶不斷增長的信息需求,有效地解決信息過載和信息迷失給人們帶來的種種問題,研究人員紛紛從人工智能中尋找突破口⑶。在許多探索性研究中,個性化推薦服務作為一種嶄新的智能信息服務方式,應用前景廣泛,十分引人注目。與搜索引擎不同,推薦系統(tǒng)并不需要用戶提供明確的需求,而是通過分析用戶的歷史行為,根據用戶的行為主動推薦能夠滿足他們興趣和需求的信息。因此,對于用戶而言推薦系統(tǒng)和搜索引擎是兩個互補的工具,搜索引擎滿足有明確目的的用戶需求,而推薦系統(tǒng)能夠幫助用戶發(fā)現(xiàn)感興趣的內容。因此,在電子商務領域中推薦技術可以起到以下作用:第一,幫助用戶發(fā)現(xiàn)其感興趣的物品,節(jié)省用戶時間、提升用戶體驗;第二,提高用戶對電子商務網站的忠誠度,如果推薦系統(tǒng)能夠準確地發(fā)現(xiàn)用戶的興趣點,并將合適的資源推薦給用戶,用戶就會對該電子商務網站產生依賴,從而建立穩(wěn)定的企業(yè)忠實顧客群,提高用戶滿意度。本案例研究的對象是泰迪智能科技有限公司的泰迪杯競賽網站,泰迪智能科技是一家專門從事大數(shù)據挖掘研發(fā)、咨詢和培訓服務的高科技企業(yè)。泰迪杯競賽網致力于為用戶提供豐富的泰迪杯競賽信息、數(shù)據挖掘培訓咨詢,為參賽者提供了往屆優(yōu)秀作品作為參考,為高校提供了豐富的教學資源,如:案例教程、教學視頻、教學書籍、建模工具等。隨著網站訪問量的增大,數(shù)據信息量也在大幅度增長。用戶在面對大量信息時無法及時從中獲取自己需要的信息,對信息的使用效率越來越低。這種瀏覽大量無關信息的過程,造成了用戶需要花費大量的時間才能找到自己需要的信息。為了能更好地滿足用戶需求,依據其網站海量的數(shù)據,研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點。引導用戶發(fā)現(xiàn)自己的信息需求,將網頁精準推薦給所需用戶,幫助用戶發(fā)現(xiàn)他們感興趣但很難發(fā)現(xiàn)的網頁信息。目前,該競賽網站已經存在部分推薦,如當點擊教學資源時可以在網頁的左邊欄目發(fā)現(xiàn)如下的推薦。但這樣的推薦是比較粗放的,目前還不能根據用戶的瀏覽行為精準的推薦,不能滿足用戶的個性化需求,基于此背景下,本案例采用協(xié)同過濾和關聯(lián)規(guī)則算法建立推薦模型3給用戶提供精準的智能推薦服務。項目目標.借助大量用戶的訪問記錄,發(fā)現(xiàn)用戶的訪問行為習慣,對不同需求的用戶進行相關服務頁面的推薦。.根據用戶訪問內容、訪問次數(shù)等屬性特征,深入了解用戶對訪問網站的行為和目的及關心的內容。2項目內容任務清單:TASK1:數(shù)據探索與分析TASK1.1讀取用戶訪問數(shù)據TASK1.2提取所需要的字段以及以jhtml結尾的網址TASK1.3網址規(guī)整化(將網址補充完整、去除含有“%”的網址去除主頁類網址)TASK1.4刪除content_id的取值既不是NA,也不在100^999之間的記錄TASK2:數(shù)據預處理TASK2.1將網址中"〃"改成TASK2.2將網頁中的"/.jhtml"改成”.jhtml”TASK2.3將網址中的"jmg/"改成"jmgj/"TASK2.4將網址與內容——對應TASK3網址分類TASK3.1對網址進行處理,以!符合劃分網址,獲得其類別TASK3.2對每個list型的數(shù)據,將其組合成數(shù)據框的格式TASK3.3構造新的屬性labelTASK3.4對各類網址進行分類TASK4模型構建TASK4.1建模前數(shù)據準備TASK4.2模型構建一一物品相似度矩陣TASK4.3模型推薦TASK4.4模型性能評價3項目模型數(shù)據探索與分析(1)讀取用戶訪問數(shù)據讀取用戶訪問數(shù)據代碼如下:setwd(nE:\\smartn)user_cluster<-read.csv(nE:/smart/user_cluster.csvn,header=T)tipdm.data<-user_cluster[,c("content_id,,,',page_path,,,,,useridu,,,sessionidn)運行結果如圖3-1、3-2>3?3所示▲idcontent.idpagej)athusernameuserid11/zytj/index.jhtml22NA/zytj/irdex.;htmlNA33NA/xtxnn/ind?GjhtrrNA44614/not'ce/^U.jhtm;AM55626ZstRj/626jhtml66NA/thirdtipdm/indexjhtmlNA77/zytj/irdex.jhtmlNA

圖3-1讀取用戶訪問數(shù)據的結果sessionidipDE80E709835F8AB1A3819€185B05=DBC37ED095CA37DB28DM04124B49&8CAFB9::37773F9B491EF1027B76698C489DEB9D3918S.165.225.224E32?44406C1DEAB298F54677846A449D180.153.214,152FBD4EB0F3E€39-3A49399732230D=51AD180.153.20620O430EF'387E5CD8A3831E7829-ODD2CED3111.20636.19CDAFE54767E2AAEFEE5*3F43B161CCA421828.23.137圖3-2讀取用戶訪問數(shù)據的結果▲content_idpage_pathuseridsessionid1NA/zytj/irdexjhtmlNADE80E709835F8AB1A381961S5305FDBC2NA/zytj/irdexjhtmlNAED095CA37D828D1404124B498SCAFB9F3NA/xtxrr/:ncex.jhtmNA773F9B491EF1027B76698C489DEB9DB94614/notice/614.jhtmlNAE32-44406C1DEAB298F=4€77846A449D5626/stp^/626JhtmlNAFBD4EB0F3E639OA493997B22BODE51AD6NAAt';ret:pdm/index.jhtmiNA0430EF087E5CD8A3831E7829ODD2CED37NA/zytj/irdex.jhtnniNACDAFE54767E2AAEFEE513F48B161CCA48NANACDAFE54767E2AAEFtE5-53F48B161CCA49667/jxsp/667.,htmCDAFE54767E2AAEFEE513F48B161CCA410667/jxsp/667JhtmlNACDAFE54767E2AAEFEE513F48B161CCA411NA/NAD934F705D6F30C2F4C9CF5X4AB4319912758/notice/758.jhtmlNAD934F705D6F3X2F4C9CF5X4AB4819313758/notice/758.;htmlNAD934F705D6F30C2F4C9CF50C4AB4519314NA4szz/indexjhtn''NAD934F705D6F30C2F4C9CF5X4A343193AMirmam圖3-3讀取用戶訪問數(shù)據的結果(2)提取所需要的字段以及以jhtml結尾的網址提取的代碼如下:jhtml.page<-tipdm.data[grep("jhtml",user_clusterf,"page_path"],value=F),]運行結果如圖3-4所示

▲content_idpage_pathuseridsessionid1/zytj/index.;htmlDES0£709835F8AB1A3819€185BO5FDBC2/zytj/irdex>tmlNAED095CA37DB28D1404124B4988CAFB9F3NA/xtxrr/indgMrrNA773F9B491EF1027B76698C489DEB9D394614/not!ce/614..;htmlNAE32144406C1DEAB298FE4677846A449D5626/stpj/626.jhtfr!NAFBD4EB0F3E639-0M93997B22B0DE51AD6NA/thirdtipdm/irdex.jhtml0430EF067E5CD8A3831E78290DD2CED37/zytj/irdex.jhtmlCDAFE54767E2AAEFEE513F48B161CCA48/zytj/irdex.jhtmlCDAFE54767E2AAEFEE513F48B161CCA49667/jxsp/667JhtmiNACDAFE54767E2AAEFEE513C48B161CCA410667^jxsp/667yhtmlNACDAFE54767E2AA5FEE513P48B161CCA412758/notice/758.jhtmlNAD934F705D6F30C2F4C9CF5X4A34B19313758/notice/758.jhtmlNAD934P705D6F30C2F4C9CF50C4AB4319314NA/jszz//index./trrNAD934F705D6F30C2F4C9CF5X4AB4B19316758/not;ce/758.jhtmlDCD64€D8C7EC4A6B04A4C56881BB190317NA/irdex.jhtmlCDAFE54767E2AAEFEE513C4SB161CCA4圖3-4提取所需要的字段以及以jhtml結尾的網址的結果(3)網址規(guī)整化(將網址補充完整、去除含有“獷的網址、去除主頁類網址)規(guī)整化代碼如下:jhtml.page[,Mpage_pathn]<-pasteO(K,jhtml.page[,npage_pathn])jhtml.page<-jhtml.page[-grep(',/index.jhtmr,,jhtml.page[,,,page_path',],value=F),]jhtml.page<-jhtml.page[-grep(',%n,jhtml.page[,',page_path,,],value=F),]運行結果如圖3-5所示一contentJdpage_pathuseridsessionid1t:/zytj/irdex.jhtrr(iDES0E709835F8AB1A38196185B05FDBC2t;/zytj/irdexjhtmED095CA37DB28D1404124B49&8CAFB9F3/xtxrr/indexjhtrrNA773F9B491EF1027B76698C489DEB9D394614/notice/614,jhtmE32:44406C1DEAB298FE4677846A449D5626tpdm.oro/stpj/626.jrtrriFBD4EB0F3E639*3A493997B22B0Df51AD6/thirdtpdnn/irdexjhtmlNA0430EF087E5CD8A3831E78290DD2CED37NAt/zytj/irdexjhtmCDAFE54767E2AAEFEE513F48B161CCA48/zytj/irdex.jhtmCDAFE54767E2AAEFEE5'3F48B161CCA49667t/jxsp/667.,htmlCDAFES4767E2AAEFEE513F48B161CCA410667/ixsp/667JhtmCDAFE54767E2AAEFEE513F48B161CCA412758t/nctice/758,,htmD934F705D6F30C2F4C9CF50C4AB4319813758/notce>z758,JhtmD934F705D6F30C2F4C9CF50C4AB4319B14NA3/jszz/Coex=htrrD934F705D6F30C2F4C9CF50C4AB4319316758t/notice/75S^htmDCD646D8C7EC4A6B04A4C56381BB19034,― _ ,—▲: — ——/ ?

圖3-5網址規(guī)整化的結果(4)刪除content_id的取值既不是NA,也不在100~999之間的記錄刪除的代碼如下:content_id.nona<-jhtmLpage[which(is.na(jhtml.page[,ucontent_id',])==F),]content_id.isna<-jhtml.page[which(is.na(jhtml.page[,ncontent_idn])==T),]num<-which(content_id.nona[,ncontent_idnl<100|content_id.nona[,ncontent_idn]>1000)contentjd.nona<-content_id.nonaf-num,]jhtml.page<-rbind(content_id.nona,content_id.isna)運行結果如圖34、3-7所示一contentjdpage_pathuseridsessionid4614t:/notce/614,htm:E32144406C1DEAB298FE4677846A449D5626/stpj/626.jhtmlNAFBD4EBOF3E639-OA493997B22BODE51AD9667/jxsp/667JhtmINACDAFE54767E2AAEFEE513F48B161CCA410667t;/jxsp/667.;htmiNACDAFE54767E2AAEFEE513M8B161CCA412758t:/nct;ce/758vhtmiNAD934F705D6F30C2F4C9CF50C4AB4B19813758t;/rt。告ce/758.,htmINAD934F705D6F30C2F4C9CF50C4AB4S19B16758t^/not<e/TSS^htmiNADCD646D8C7EC4A6^34A4C56881BB190320572/jtrgj/572.jbtnniCDAFE54767E2AAfFEE513F48B161CCA423464t;pdE.org/;rfonratoc/464JtrrNAD3D7D5C752792CD64E84W7A3BODF27F26690/tbirotpdm/690vbtrr479ODF7212E716E9AFF46D18D485C44028690t>pdm.ofgAhirdt;pdm/690vbtrr479O0F7212E716E9AFF46D18D485C44029614t:/notce/614^htmiNA0BE14E27EO2EB96372A3E59A0B67877E30614/nct;ce/614vhtmi0BE14E27E02EB96372A3E59A0B67877E31758/notjce/756^htmNA75D879OAFFE8E3FDBCADA76508E8AAEE32762/sj/762JhtfrlNA47900F7212E716E9AFF46D18D485C44033623/ts/623jhtm!NAW583EB6EB230F492F0711424424BC4F34649t>/notice/649t;htr-i:NAAD2C8F5A383E3D764E5CE?6BF950A3FD36654tpcrr>.org/zts/654JhtrrNAB13E81E6FC8938737B2984C4E75EDODO37737t'/not'ce./737JhtmiNAD6CO955EF5C3237E9EC3CF7AD1CD7SC9圖3-6刪除contentid的取值的結果

一content_i<lpage_pathuseridsessionid1NAt:/zytj/index.jhtmiNADE80E709835F8AB1A38196185B05FDBC2NA/zytj/irdexjntm?NAED095CA37DB28D1404124B4988CAFB9F3/xtxm/indexjhtmtNA773F9B491EF1027B76698C489DEB9DS96NAt/tt*w<KipdE/mdexgtmiNAO43OEFO67E5CD8A3831E7829ODD2CED37NA/zytj/index.jhtmlNACDAFE54767E2AAEFEE513F-48B161CCA48NAt/zytj/index.JhtmlNACDAFE54767E2AAEFEE5,J3FA8B161CCA414t'/jszz/:ndexjbtrrD934F705D6F30C2FXC9CF50C4AB4819S18t:/zytj/ir<jex.JhtmHACDAFE54767E2AAEFEE513F-48B161CCA419tipdm.orQ/jmQj/indexjhtrrNACDAFE54767E2AAEFEE513F48B161CCA421NA/stpj/irflex^html78E04B27E87953CFFEF7E60BE3CCE5CC22tipdm.orQZjszz/indexjbtmlD934F705D6F30C2F4C9CF50C4AB4319S24ttpdm.arg/xlxm/;noexjhtm:BCD22EF36233586DDAF09FD74B4943O225t;/yxzp/irdex.jhtmINA479O0F7212E716E9AFF46O18D485C44035NA/xtxrr/inoexjbtrr,NAD5B23F626A47A977DC34457B215EB9FD39NA/zytj/irdex.jhtmf4ACDAFE54767E2AAEFEE513F48B161CCA440NA/ts/indexJhtrrCDAFE54767E2AAEFEE5^3p48B161CCA443NAt;/zytj/in-JhtEi8738CDAFE54767E2AAEFEE513F48B161CCA444NAt'pdm.orQ/lrforrration/irdex.Jhtrnl8738CDAFE54767E2AAEFEE513F^8B161CCA448NA/xtxm/inoexjbtrr8738CDAFE54767E2AAEFEE513F-t8B161CCA454AMt;pdm.ong/zytj/inctex.Jhtml8738CDAFE547e7E2AAEFEE513F4sBi61CCA464NAt'/zytj/index.jhtmI8738CDAFE54767E2AAEFEE513F48B161CCA466NA^^ts/index^htrr8738CDAFE54767E2AAEFEE513F-iSB161CCA467NA/zytj/irdex.jhtmNADFDFF2464D61345CF23A1EA98FOBC3D8圖3-7刪除contentid的取值的結果數(shù)據預處理(1)將網址中"〃"改成代碼如下:jhtml.page[,"page_pathn]<-gsub('7/",7njhtml.page[,Hpage_pathn])結果如圖4-1所不\Zar.373NN3V-*333*75143-761537^163"7S27:37918380193^21.O3S31■,1.238S1:33^61.A3ST1圖4-1將網址中〃〃〃改成〃/”的結果(2)將網頁中的〃/.jhtml〃改成〃.jhtmr代碼如下:jhtml.page[,"page_path"]<-gsub('7.jhtml",".jhtml",jhtml.page[,"page_path"])結果如圖4-2所示▲content_idpage.path4614t/nctice/614,;htm5626t;/stpj/626.jbtrr9667t/jxsp/667JhtmI12758t/nctce/75Svhtr?20572t:ZJrrgj/572./irforrrator/464.jhtmi2669。t:/*tbirdt;pdm/690.;htrr32762t/sj/762Jbtml33623t/ts/623/nctce/649^htm;36654t /ts/654JMrrI37737/nctce/737vhtm:38578t/ts/578JhtnN47638todm.ora/si/638.:t,tnn圖4-2將網頁中的".jhtml"改成jhtml”的結果(3)將網址中的"jmg/"改成"jmgj/"代碼如下:jhtml.page[,"page_path"]<-gsub("jmg/","jmgj/",jhtml.page[,"page_path"])運行結果如圖4-3所示一ccMitent.idpage.pathuseridsessionid4614tipdm.ory/natice/6l4jhtmNAE32144406C1DEAB29SFE4677846A449D562€tpcm6g/stpj/626.jMfrNAF8D4EB0F3E63WA493997B2280DE51AD9667/jxsp/667uhtmlNACDAFE54767E2AAEFIE513F48B161CCA410667tM/jxsp/6671MmiNACDAFE54767E2AAEF5E5.3F48B161CCA412758t/not:ce/756.;htmNAD934F705D6F30C2F4C9CF5X4A84319S13758t/nct<e/758.jhtmHAD934f705D6F30C2F4C9CF50C4AB4519916758/n0tice/758JhtmNADCD646D8C7EC4A6B04A4C56381BB190320572t/jfra7572.jhtmiNACDAFE54767E2AAEFEE5-3F48B161CCA423464t5pdm.Org/irfonraton/464./tTrNAD3D7D5C752792CD64E84^37A3BODF27F26690/tbrdt:pdm/690.^htmNA47900F7212E716E9AFF46D18D465C4402869。/tbrdtpdm/690./tmNA47900F7212E716E9AFF46D18D485C44029614t'/notice/614JhtmNA0BE14E27E02EB96372A3E59A0867877E30614/notice/614JhtmNA0BE14E27E02EB96372A3E59A0867877E圖4-3將網址中的"jmg/"改成"jmgj/”的結果8(4)將網址與內容 對應代碼如下:##對content_id.nona提取內容id,網址這兩個屬性并去重content.pagev?unique(content_id.nonaLc("content_id”Jpage_path")])#對content.page按content.id統(tǒng)計,并將統(tǒng)計結果轉化數(shù)據框content.count<-as.data.frame(table(content.page[,ncontent_idn]))#找對計數(shù)大于1對應的content.id,并轉化成數(shù)值型morethanl.id<-as.numeric(as.vector(content.count[which(content.count[,2]>l),l]))#使content_id與page_path 對應fbr(iin1:length(morethan1.id))(numl<-which(content_id.nona$content_id==morethan1.id[i])content_id.nona[num1,2]<-content_id.nona[num1[1],2])model.initdatal<-content_id.nona運行結果如圖4-4所示▲content.idpage.pathuseridsessionid1t/zytj/lndex.jhtmlDE80E709835F8AB1A38196185BC5cDBC2t/zytj/irdex.jhtmED095CA37D328D1404124B498SCAFB9c3t'/xtxrr/:ndexjhtrr773F9B491EF1027B76698C489DEB9DB96t:pdm.crg/tbirdtipdm/irdexjhtml3430EF037E5CD8A3831E782WDO2CED37t:pdm.crg/zytj/index.;htmlCDAFE54767E2AAEFEE513C48B161CCA48NA/zytj/irdex.JhtmNACDAFE54767E2AAEFEE513F48B161CCA414NAtpcm.ofg/jszz/incexjbtrrD934F705D6F30C2F4C9CF50C4AB4B19318NAt/zytj/irdex.jhtmCDAFE54767E2AAEFEE513F48B161CCA419t/jmgj^ndexybtfrCDAFE54767E2AAEFEE513P48B161CCA421t/stpj/irdexvhtml78E04B27E87953CFFEF7E60BE3CCE3CC22/jszz/:ndexjt'tfrD934F705D6F30C2F4C9CF50C4AB4B19B圖4-4將網址與內容——對應的結果3.3網址分類(1)對網址進行處理,以!符合劃分網址,獲得其類別web<-strsplit(model.initdatal[,"page_path"l,"/",fixed=T)運行結果如圖5-1所示Oweblist[46515]listoflength46515[iwcharacter[3]'''notice[[2]]character[3],''stpj''626.jhtmr[[3]]character[3],''jxsp'667.jhtml,IW]character[3],''jxsp667jhtml'[15]]character[3],''notice758jhtml,〃叨character[3]'''notice758jhtm:[[7]]character[3],''notice'758jhtnii[[8]]character[3],'jmgj''572.jhtml'[[9]]character[3]'''information'464.jhtml'[HO]]character[3]'''thirdtipdm69O.jhtml'inwcharacter[3],''thirdtipdm69O.jhtml'ID2Hcharacter[3]'''notice614jhtml[[13]]character[3],''notice614jhtml,〃即character[3],''notice,758jhtmr圖5T對網址進行處理的結果(2)對每個list型的數(shù)據,將其組合成數(shù)據框的格式代碼如下:bine<-ldply(web,rbind)⑶構造新的屬性label代碼如下:bine$"laber*<-rep(0,nrow(bine))(4)對各類網址進行分類代碼如下:competition.label<-c("jszz","stpj","qk","yxzp","cgal","firsttipdm","sm","td","secondtipdm","thirdtipdm","fourthtipdm","jingsa","kjxm","sdfasf)#競賽類teaching.label<-c("zytj","jmgj","yxsp","ts","information","asdf',"dsjkf,"jiao",ts","sjfxs","sjsdf')#教學資源類enterprise.label<-c("xtxm","wjxq","zxns","qyal","zzszl")#企業(yè)合作類notice<-c("notices","sj","news","notice")#新聞動態(tài)類bine$"label"[which(bine[,2]%in%competition.label)]<-"K;W'bine$"Jabel"[which(bine[,2]%in%teaching.label)] "教學資源"bine$,'laber,[which(bine[,2]%in%enterprise.label)]v-"企業(yè)合作”bine$,'labelH[which(bine[,2]%in%notice)]v-"新聞動態(tài)”model.data<-modeLinitdatal[,c("sessionicTJpage_path")]model.data$user.id<-as.numeric(model.data$sessionid)#用戶編號(user.id)model.data$label<-bine[,"label"]#類標號(label)##提取各類的記錄competition.input<-model.datafwhich(model.dataf,"label"]==MW”),c("user.id”,“page_path")]teaching.input<-model.data[which(model.dataL"label"]=="教學資源M),c(nuser.id,,,npage_pathn)]enterprise.input<-modeLdata[which(modeLdata[Jlabel”]=="企業(yè)合作"),c(nuser.id,,,,,page_pathn)]notice.input<-model.data[which(model.dataL”label"]=="新聞動態(tài)n),c(Muser.idn,npage_path'*)]##導出樣本表write.csv(competition.input,nE:/smart/competition.input.csvn,s=F)write.csv(teaching.input,"E:/smart/teaching.input.csvn,s=F)write.csv(enterprise.input,ME:/smart/enterprise.input.csvn,s=F)write.csv(notice.input,,,E:/smart/notice.input.csv,,,s=F)運行結果如圖5-2所示us?r.?ds51O―261-4662281-4662tpxJm.o r<3t:Q<3rn/69O.“LtE78t>o<5m.orQ/T^ires6041tip<3nn_org/tU/465jntE16041t;pO/smZ736.jbtfm11232O6aOtiQOE-org/tU/465JCtm16041/tU/465JCtE1133-45697t;/Wirot?odm/671“八£nr15526830tipOrrt.orq/3/6 118437O&Ot;qcm-org/nrsttgdmJntE1■90<453-43tip<5/rirstttpcfm/3S3Jhtml23-4N-tipO/stpJ/626Jt'trr*12356912tToom.oFQ/qk/729Jhtm———.....-圖5-2對各類網址進行分類的結果3.4模型構建(1)建模前數(shù)據準備代碼如下:setwd('^E:\\smart^^)library(recommenderlab)competition.input<-read.csv(nE:/smart/competition.input.csvn)teaching.input<-read.csv(nE:/smart/teaching.input.csvM)competition.model<-unique(competition.input)teaching.model<-unique(teaching.input)competition.input.data<-as(competition.model,nbinaryRatingMatrixn)teaching.input.data<-asCteaching.modeh^binaryRatingMatrix")##采用基于物品的協(xié)同過濾算法對模型進行建模,形成數(shù)據模型competition_re<-Recommender(competition.input.data,method=,^IBCF^^)teaching_re<-Recommender(teaching.input.data,method=',IBCFn)##利用模型對原始數(shù)據集進行預測并獲得推薦長度分別為4、6的結果competition_p<-predict(competition_re,competition.input.data,n=4)teaching_p<-predict(teaching_re,teaching.input.data,n=6)運行結果如圖6-1、6-2、6-3、6-4所示

0competitionj)0items0ratingsitemLabelsS4(recommenderlab::topMist)S4objectofclasstopNListlist[9867] Listoflength9867list[9867] Listoflength9867character[142] '/firsttipdm/382.jhtmr'/firsttipdm/SSS.jhtmr'tipdninteger[1] 4圖6T建模前數(shù)據準備的結果0competitionjemethodS4(recommenderlaboRecommerS4objectofclassRecommendercharacter[1] 1BCF'dataTypentrain0model0predictcharacter[1] 'binaryRatingMatrix'integer[1] 9867list[7] Listoflength7function function(modelnewdata,n=10,data二,type=cf^topNList""ratine圖6-2建模前數(shù)據準備的結果0teachingj)OitemsS4(recommenderlab:lopMist)S4objectofclasstopMistlist[8119] Listoflength8119ratingsitemLabelslist[8119] Listoflength8119character[57] '/dsjkf/709.jhtmr'/information/ninteger[1] 6圖6-3建模前數(shù)據準備的結果0teachingjemethodS4(recommenderlab::Recommer54objectofclassRecommendercharacter[1] ,IBCFdataTypentrain0model0predictcharacter[1] ,binaryRatingMatrix'integer[1] 8119list[7] Listoflength7function function(modelnewdata,n=10,data=,type=crtopNList*"ratings"圖6-4建模前數(shù)據準備的結果(2)模型推薦setwd("D:\\001")library(recommenderlab)competition.input<-read.csv("D:/001/competition.input.csvM)teaching.input<-read.csv(nD:/001/teaching.input.csvn)##unique主要是返回一個把重復元素或行給刪除的向量、數(shù)據框或數(shù)組competition.model<-unique(competition.input)teaching.model<-unique(teaching.input)##將數(shù)據轉化為二元數(shù)據以參與推薦算法competition.input.data<-as(competition.model,"binaryRatingMatrix")teaching.input.data<-as(teaching.model,"binaryRatingMatrix”)#算法建listalgorithms<-list("隨機推薦"二list(name="RANDOM”,param二NULL),”基于流行度推薦”=list(name="POPULAR”,param=NULL),”基于網頁的推薦”=list(name="IBCF”,param=NULL))#將數(shù)據以交叉驗證劃分成K=20份,19份訓練,1份測試teaching.data_es<-evaluationScheme(teaching.input.data,method=ucross-validationn,k=20,given=1)competition.data_es<-evaluationScheme(competition.input.data,method="cross-validationn,k=20,given=l)運行結果如圖6?5、6-6、6?7所示

▲user.klpage_path151064tipcJ/stpJ/626J/thiratipdm/6^3J/thirctip<lm/6^D.JAbiratIpdm/693.;htm56041tip<J/td/465./srr/736.jhtml7206&3tipO/td/-465.jhtml86041tip<3/td/-465./tbir<3tipdm/671Jbtrr1O26850/td/636.jhtm111370&D/frsttipdrr/394Jhtm11245343/frsttipdrr/SSSjhtml圖6-5模型推薦的結果Ocompetition.input.dataOdatanormalizeS4[9867x142](recommenderlaS4objectofclassbinaryRatingMatrixS4[9867x142](arules::itemMatrS4objectofclassitemMatrixNULL Pairlistoflength0圖6-6模型推薦的結果Oteaching.input.dataOdatanormalizeS4(8119x57](recommenderiabS4objectofclassbinaryRatingMatrixS4[8119x57](arules::itemMatri)S4objectofclassitemMatrixNULL Pairlistoflength0圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論