數(shù)據(jù)挖掘-畢業(yè)論文.docx_第1頁(yè)
數(shù)據(jù)挖掘-畢業(yè)論文.docx_第2頁(yè)
數(shù)據(jù)挖掘-畢業(yè)論文.docx_第3頁(yè)
數(shù)據(jù)挖掘-畢業(yè)論文.docx_第4頁(yè)
數(shù)據(jù)挖掘-畢業(yè)論文.docx_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

論文封面畢業(yè)論文(設(shè)計(jì))題目:學(xué)生姓名:_學(xué) 號(hào):_專業(yè)班級(jí):XXXXXX專業(yè) 09?班 指導(dǎo)教師:_職稱_指導(dǎo)教師:_職稱_起止時(shí)間: 2013.92014.5誠(chéng) 信 聲 明我聲明,所呈交的畢業(yè)設(shè)計(jì)作品和論文是本人經(jīng)過(guò)近四年的基礎(chǔ)課程與專業(yè)課程學(xué)習(xí)的基礎(chǔ)上,在指導(dǎo)老師的指導(dǎo)下,經(jīng)過(guò)幾個(gè)月集中的畢業(yè)設(shè)計(jì)學(xué)習(xí)、實(shí)踐和努力工作所取得的成果。據(jù)本人查證,除了文中特別加以標(biāo)注和致謝的地方外,設(shè)計(jì)作品和論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果。我承諾,設(shè)計(jì)作品和論文中的所有內(nèi)容均真實(shí)、可信。學(xué)生簽名: 簽名日期:2014年月 日一級(jí)標(biāo)題:三號(hào)宋體,居中,加粗,1.5倍行間距,段前后0.5行間距計(jì)算機(jī)與信息學(xué)院本科畢業(yè)論文(設(shè)計(jì))選題審批表畢業(yè)設(shè)計(jì)(論文)題目指 導(dǎo) 教 師職 稱指 導(dǎo) 教 師職 稱題 目 來(lái) 源(科學(xué)研究項(xiàng)目、教學(xué)改革項(xiàng)目名稱或企事業(yè)合作單位名稱)選題的依據(jù): (題目背景及可行性分析,要求具體指出該課題所對(duì)應(yīng)的相應(yīng)知識(shí)點(diǎn)) 150字左右教研室審核意見(jiàn)教研室主任簽字: 2013年9月15日系審批意見(jiàn)系主任簽字: 2013年9月20日四號(hào)宋體字,加粗,單倍行間距。計(jì)算機(jī)與信息學(xué)院一級(jí)標(biāo)題:三號(hào)宋體,居中,加粗,1.5倍行間距,段前后0.5行間距本科畢業(yè)論文(設(shè)計(jì))任務(wù)書題目:天貓用戶對(duì)其品牌的行為分析1主要內(nèi)容及基本要求任務(wù)書要求填滿兩頁(yè),行間距可根據(jù)字?jǐn)?shù)調(diào)整,一定要使頁(yè)面飽滿,不要出現(xiàn)半頁(yè)紙的現(xiàn)象。1、圖書館及上網(wǎng)搜集相關(guān)數(shù)據(jù)挖掘的書籍文獻(xiàn)作為研究參考及一些思路的借鑒;2、從聚類和關(guān)聯(lián)分析幾個(gè)方面探索天貓用戶購(gòu)物數(shù)據(jù)的信息,先用excel做簡(jiǎn)單的初步分析,再用sas做進(jìn)一步的數(shù)據(jù)挖掘工作及檢驗(yàn)結(jié)果,以及寫下每個(gè)研究階段過(guò)程中的日志;3、得出一個(gè)具有意義的結(jié)論,在18w條數(shù)據(jù)中挖掘出有用的信息,并做出簡(jiǎn)要的分析和解釋。2進(jìn)度計(jì)劃2014年11月初,完成在上述內(nèi)容要求中的數(shù)據(jù)搜集及開(kāi)題報(bào)告;2014年12月初,重點(diǎn)參考相關(guān)文獻(xiàn),初步擬定論文框架;2014年12月底之前完成論文初稿;2015年2月底之前完成外文翻譯和文獻(xiàn)綜述;2015年3月-2015年5月,完善作品,修改論文;2015年5月初-2013年5月中旬,論文打??;2015年5月30 日以前答辯完畢并提交所有電子材料。3主要參考文獻(xiàn)1彭劍芳.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)購(gòu)物行為的分析D.云南:云南大學(xué),2011.5.1. 2毛國(guó)君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究D.北京:北京工業(yè)大學(xué),2003.5.1.3李菁菁,邵培基,黃亦瀟,等.數(shù)據(jù)挖掘在中國(guó)的現(xiàn)狀和發(fā)展研究J.管理工程學(xué)報(bào),2004(03):1015.4毛國(guó)君,等.數(shù)據(jù)挖掘原理與算法M.北京:清華大學(xué)出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.數(shù)據(jù)挖掘?qū)д揗北京:人民郵電出版社,2010.12.106David Hand,Helkki Mannila,Padhraic Smyth. 數(shù)據(jù)挖掘原理J 北京:機(jī)械工業(yè)出版社,2009,09(12):1721-1741.指導(dǎo)教師簽名:_ 2013年9月29日學(xué) 生 簽 名:_2013年9月30日(此表為教師填寫,內(nèi)容打印,簽名必須手寫。學(xué)生要保存好該任務(wù)書,與開(kāi)題報(bào)告一同上交指導(dǎo)教師,以備裝訂。)40裝訂 線 浙江萬(wàn)里學(xué)院 畢業(yè)論文(設(shè)計(jì))報(bào)告紙計(jì)算機(jī)與信息學(xué)院一級(jí)標(biāo)題:三號(hào)宋體,居中,加粗,1.5倍行間距,段前后0.5行間距凡是學(xué)生所寫東西的頁(yè)面,必須有此頁(yè)眉。四號(hào)宋體字,加粗,單倍行間距。本科畢業(yè)論文(設(shè)計(jì))開(kāi)題報(bào)告論文中文題目天貓用戶對(duì)其品牌的行為分析論文英文題目Analysis Tmall users to its brand behavior學(xué)生姓名沈哲培專業(yè)班級(jí)信息與計(jì)算科學(xué)專業(yè)112班1 題的背景和意義阿里巴巴是中國(guó)最大和世界第二大網(wǎng)絡(luò)公司,并在2014年9月9日赴美上市,馬云凈財(cái)富達(dá)219美元成為中國(guó)大陸首富,在2013年的雙十一節(jié)日中,1小時(shí)67億,6小時(shí)不到突破100億;13小時(shí)實(shí)現(xiàn)191億,追平去年成績(jī);21小時(shí)達(dá)到300億,超過(guò)阿里巴巴官方預(yù)期,在2014年的雙十一再創(chuàng)新高,達(dá)到了571億元,如此大的交易數(shù)據(jù)正是我們研究分析的最好對(duì)象。阿里巴巴如此大的交易,肯定會(huì)有不小的回頭客,而我們做數(shù)據(jù)挖掘可以挖掘潛在客戶,以及做出一定的預(yù)測(cè),在一定的時(shí)期或者時(shí)間段,進(jìn)行及時(shí)的促銷活動(dòng),挽留住潛在客戶,挖掘出新的客戶,并在其中分析出他們的購(gòu)物規(guī)律,偏好,需求并根據(jù)這個(gè)做出相應(yīng)的預(yù)測(cè),使得未來(lái)的利益達(dá)到更大化,也更加從容的應(yīng)對(duì)客戶需求的變化。針對(duì)品牌企業(yè),通過(guò)對(duì)用戶行為監(jiān)測(cè)獲得的數(shù)據(jù)進(jìn)行分析,可以讓企業(yè)更加詳細(xì)、清楚地了解用戶的行為習(xí)慣,從而找出網(wǎng)站、推廣渠道等企業(yè)營(yíng)銷環(huán)境存在的問(wèn)題,有助于企業(yè)發(fā)掘高轉(zhuǎn)化率頁(yè)面,讓企業(yè)的營(yíng)銷更加精準(zhǔn)、有效,提高業(yè)務(wù)轉(zhuǎn)化率,從而提升企業(yè)的廣告收益。小標(biāo)題是小四號(hào)加粗宋體字,表格內(nèi)文字要求:小四號(hào)仿宋體,首行縮進(jìn)2字符。2 題基本內(nèi)容,擬解決的主要問(wèn)題課題基本內(nèi)容是:通過(guò)對(duì)用戶行為監(jiān)測(cè)獲得的數(shù)據(jù)進(jìn)行分析,可以讓企業(yè)更加詳細(xì)、清楚地了解用戶的行為習(xí)慣,從而找出網(wǎng)站、推廣渠道等企業(yè)營(yíng)銷環(huán)境存在的問(wèn)題,有助于企業(yè)發(fā)掘高轉(zhuǎn)化率頁(yè)面,讓企業(yè)的營(yíng)銷更加精準(zhǔn)、有效,提高業(yè)務(wù)轉(zhuǎn)化率,從而提升企業(yè)的廣告收益。擬解決的主要問(wèn)題:前期主要通過(guò)excel等統(tǒng)計(jì)分析軟件,對(duì)源數(shù)據(jù)進(jìn)行初步的統(tǒng)計(jì)及分析,去除一些不必要的數(shù)據(jù)項(xiàng),對(duì)有關(guān)聯(lián)的數(shù)據(jù)項(xiàng)進(jìn)行簡(jiǎn)單的分析他們的幾何關(guān)系,之后主要通過(guò)sas軟件進(jìn)行數(shù)據(jù)挖掘分析,數(shù)據(jù)導(dǎo)入,關(guān)聯(lián)分析,建立模型,分析預(yù)測(cè),得出結(jié)論,主要解決的問(wèn)題就是針對(duì)于天貓官方的,分析用戶購(gòu)物的心理及相應(yīng)規(guī)律后,可以快速的反應(yīng)出每位客戶的需求,我們就可以根據(jù)這些需求,相對(duì)應(yīng)的插入相關(guān)的購(gòu)物鏈接(類似廣告性質(zhì)),達(dá)到利益更大化。開(kāi)題報(bào)告字?jǐn)?shù)不少2000字,行間距可根據(jù)字?jǐn)?shù)調(diào)整,一定要使頁(yè)面飽滿,不要出現(xiàn)半頁(yè)紙的現(xiàn)象。寫作方法參見(jiàn)附錄。3 題研究方法及技術(shù)路線課題研究方法:1、圖書館及上網(wǎng)搜集相關(guān)數(shù)據(jù)挖掘的書籍文獻(xiàn)作為研究參考及一些思路的借鑒;2、從聚類和關(guān)聯(lián)分析幾個(gè)方面探索天貓用戶購(gòu)物數(shù)據(jù)的信息,先用excel做簡(jiǎn)單的初步分析,再用sas做進(jìn)一步的數(shù)據(jù)挖掘工作及檢驗(yàn)結(jié)果,以及寫下每個(gè)研究階段過(guò)程中的日志;3、得出一個(gè)具有意義的結(jié)論,在18萬(wàn)條數(shù)據(jù)中挖掘出有用的信息,并做出簡(jiǎn)要的分析和解釋。技術(shù)路線:通過(guò)對(duì)數(shù)據(jù)的研究,我們可以找到數(shù)據(jù)之間的聯(lián)系。比如,我們可以通過(guò)用戶ID和對(duì)品牌ID之間的關(guān)系,可以預(yù)測(cè)用戶下次會(huì)不會(huì)購(gòu)買這個(gè)品牌的東西。通過(guò)對(duì)淘寶海量的數(shù)據(jù)研究,可以挖掘其中的一些關(guān)聯(lián),從而使我們對(duì)用戶推送一些更有針對(duì)性的廣告,使用戶在淘寶上更方便的找到自己想要的商品。同樣,也能使商家更方便的找到自己的用戶。這樣能使用戶和商家之間更有效率。4.研究的總體安排和進(jìn)度計(jì)劃小標(biāo)題加粗仿宋體小四號(hào)。總體安排:我寫的論文題目是天貓用戶對(duì)其品牌的行為分析所以在空余時(shí)間去收集相關(guān)資料,并努力完善論文,在專業(yè)中積極跟上全班的總體論文進(jìn)度,積極與輔導(dǎo)員及相關(guān)輔導(dǎo)老師溝通,不拖拉,在規(guī)定時(shí)間完成相應(yīng)的任務(wù),并在最后交上讓老師滿意的作品。進(jìn)度計(jì)劃:2014年11月初,完成在上述內(nèi)容要求中的數(shù)據(jù)搜集及開(kāi)題報(bào)告;2014年12月初,重點(diǎn)參考相關(guān)文獻(xiàn),初步擬定論文框架;2014年12月底之前完成論文初稿;2015年2月底之前完成外文翻譯和文獻(xiàn)綜述;2015年3月-2015年5月,完善作品,修改論文;2015年5月初-2013年5月中旬,論文打?。?015年5月30 日以前答辯完畢并提交所有電子材料。5.主要參考文獻(xiàn)不少于10個(gè),具體要求同文獻(xiàn)綜述。1彭劍芳.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)購(gòu)物行為的分析D.云南:云南大學(xué),2011.5.1. 2毛國(guó)君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究D.北京:北京工業(yè)大學(xué),2003.5.1.3李菁菁,邵培基,黃亦瀟,等.數(shù)據(jù)挖掘在中國(guó)的現(xiàn)狀和發(fā)展研究J.管理工程學(xué)報(bào),2004(03):1015.4毛國(guó)君,等.數(shù)據(jù)挖掘原理與算法M.北京:清華大學(xué)出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.數(shù)據(jù)挖掘?qū)д揗.北京:人民郵電出版社,2010.12.10.6David Hand,Helkki Mannila,Padhraic Smyth. 數(shù)據(jù)挖掘原理J.北京:機(jī)械工業(yè)出版社,2009,09(12):1721-1741.7李嶶,李宛州.基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的進(jìn)銷存系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)J.2001(10):93-948Jiawei Han.數(shù)據(jù)挖掘概念與技術(shù)M.機(jī)械工業(yè)出版社2001,8 9W.H.Inmon.數(shù)據(jù)倉(cāng)庫(kù)M.機(jī)械工業(yè)出版社2000,510林字等編著.數(shù)據(jù)倉(cāng)庫(kù)原理與實(shí)踐M.北京:人民郵電出版社,200311張春陽(yáng),周繼恩,劉貴全,蔡慶生.基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)的構(gòu)建,計(jì)算機(jī)工程J.2002(4):249-25212陳德軍,盛翊智,陳綿云.基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP在DSS中的應(yīng)用研究J.2003(1):30-3113朱明,數(shù)據(jù)挖掘M.合肥:中國(guó)科技大學(xué)出版社2002,514 陳京民等.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)M.北京:電子工業(yè)出版社,2002.15 陳文偉等.數(shù)據(jù)挖掘技術(shù)M.北京:北京工業(yè)大學(xué)出版社,2002.指導(dǎo)教師意見(jiàn)指導(dǎo)教師簽名: 2013年 11月 1日系(教研室)評(píng)議意見(jiàn)系(教研室)主任簽名: 2013年 11月 2 日注:開(kāi)題報(bào)告內(nèi)容可以打印,但導(dǎo)師和系(教研室)意見(jiàn)及簽名必須手寫。計(jì)算機(jī)與信息學(xué)院四號(hào)宋體字,加粗,單倍行間距。一級(jí)標(biāo)題:三號(hào)宋體,居中,加粗,1.5倍行間距,段前后0.5行間距本科畢業(yè)論文(設(shè)計(jì))文獻(xiàn)綜述 四號(hào)宋體字,加粗,1.5倍行間距,段前段后各0.5行間距。淺談數(shù)據(jù)挖掘0前言隨著網(wǎng)絡(luò)的迅猛發(fā)展,依托于網(wǎng)絡(luò)的網(wǎng)絡(luò)購(gòu)物做為一種新型的消費(fèi)方式脫穎而出,在全國(guó)乃至全球范圍內(nèi)都在迅猛的發(fā)展。網(wǎng)絡(luò)購(gòu)物行業(yè)也越來(lái)越得到更多人的關(guān)注,與此同時(shí),各種研究方法、數(shù)據(jù)分析方法也被運(yùn)用到了關(guān)于網(wǎng)絡(luò)購(gòu)物的研究當(dāng)中。數(shù)據(jù)挖掘技術(shù)作為一種新的數(shù)據(jù)分析方法逐步應(yīng)用到網(wǎng)絡(luò)購(gòu)物的分析中,獲取數(shù)據(jù)、抽取規(guī)律、預(yù)測(cè)趨勢(shì)、建立模式,這對(duì)促進(jìn)網(wǎng)絡(luò)購(gòu)物行業(yè)的健康、有序發(fā)展是十分有益的。本研究使用數(shù)據(jù)挖掘的方法,借助SAS工具,以阿里巴巴大數(shù)據(jù)競(jìng)賽的真實(shí)數(shù)據(jù)為基礎(chǔ),對(duì)天貓用戶購(gòu)物行為進(jìn)行了研究分析。1什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘(英語(yǔ):Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。在較淺的層次上,它利用現(xiàn)有數(shù)據(jù)庫(kù)管理系統(tǒng)的查詢、檢索及數(shù)據(jù)挖掘功能,與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行聯(lián)機(jī)運(yùn)算分析處理,從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)的一個(gè)有商業(yè)意義的結(jié)果,這個(gè)結(jié)果可以出售給需要的賣家,這就是所謂的大數(shù)據(jù)分析。在深層次上,則從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)前所未有的、隱含的知識(shí)。例如:在大街上川流不息的車流量,在普通人眼里,當(dāng)你通過(guò)一個(gè)十字路口時(shí),可能會(huì)看到除了塞車就是車禍,亦或者沒(méi)有事的安全通行,沒(méi)有其他的信息可能會(huì)有,如果是一個(gè)數(shù)據(jù)挖掘人員就會(huì)發(fā)現(xiàn)其中的數(shù)據(jù)信息,一小時(shí)會(huì)有橫向會(huì)有多少車流量,豎向會(huì)有多少車流量,這樣可以得到一組數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘分析后得到更有的結(jié)果,十字路口的紅綠燈就可以根據(jù)車流量設(shè)置時(shí)間長(zhǎng)短。而從另一個(gè)角度,如果在十字路口進(jìn)行路線測(cè)繪的話,就可以得到類似地圖的數(shù)據(jù),手機(jī)中的導(dǎo)航軟件就是通過(guò)這樣實(shí)現(xiàn)的,所以我們生活中數(shù)據(jù)挖掘無(wú)處不在,只是在我們不認(rèn)識(shí)數(shù)據(jù)挖掘時(shí),不會(huì)去發(fā)現(xiàn)。2數(shù)據(jù)挖掘的任務(wù) 數(shù)據(jù)挖掘的兩個(gè)高層目標(biāo)是建立模型和預(yù)測(cè)。前者指用一些變量或數(shù)據(jù)庫(kù)的若干已知字段通過(guò)相應(yīng)的數(shù)據(jù)挖掘分析軟件,以及某些情況下需要實(shí)地考察,再結(jié)合團(tuán)隊(duì)間的分析,結(jié)合數(shù)據(jù)挖掘的相應(yīng)模塊導(dǎo)出一個(gè)比較合理性、可行性、具有預(yù)測(cè)性的模型,而后者是建立在前面的分析好后,通常,預(yù)測(cè)是通過(guò)分類或估值起作用的,也就是說(shuō),通過(guò)分類或估值得出模型,該模型用于對(duì)未知變量的預(yù)測(cè)。從這種意義上說(shuō),預(yù)測(cè)的目的就是對(duì)未來(lái)未知變量的預(yù)測(cè),這種預(yù)測(cè)需要時(shí)間來(lái)驗(yàn)證,所以他需要更加具體化的分析出一些較為能大眾接受的信息,分析出相應(yīng)的規(guī)律,總結(jié)出相關(guān)的報(bào)告,來(lái)確認(rèn)驗(yàn)證這一預(yù)測(cè)。 3數(shù)據(jù)挖掘的特點(diǎn) 數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):(1)數(shù)據(jù)挖掘基本分為3步驟:數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示。 (2)數(shù)據(jù)的主要分析方法有:關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。(3)需要處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級(jí),甚至更大,所以數(shù)據(jù)挖掘常被較為“大數(shù)據(jù)挖掘”。 (4)在許多些應(yīng)用(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時(shí)提供決策支持。(5)數(shù)據(jù)挖掘往往需要把一些無(wú)規(guī)律,大數(shù)量級(jí)的,含有偏離點(diǎn)的(因特殊因素而導(dǎo)致的不正常的數(shù)值),在有效的時(shí)間內(nèi)轉(zhuǎn)換成有規(guī)律,無(wú)瑕疵的,主要預(yù)測(cè)動(dòng)向的模型。(6)在某種角度上,數(shù)據(jù)挖掘也是可以與用戶知識(shí)庫(kù)交互,從用戶的數(shù)據(jù)中尋找規(guī)律,并且規(guī)律是可視化的。4 數(shù)據(jù)挖掘的過(guò)程 數(shù)據(jù)挖掘的步驟會(huì)隨不同領(lǐng)域的應(yīng)用可能有所變化,每一種數(shù)據(jù)挖掘技術(shù)也會(huì)有各自的特性和使用步驟,所以首先需要明確業(yè)務(wù)對(duì)象清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)同樣是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)得到理想的結(jié)果的。(1)數(shù)據(jù)的準(zhǔn)備與選擇。搜索所有與研究對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。(例:在中國(guó)統(tǒng)計(jì)局官網(wǎng)上就可以搜索到往年的與國(guó)家經(jīng)濟(jì)有關(guān)的數(shù)據(jù)資料)官方的數(shù)據(jù)也較為真實(shí)可靠,具有挖掘價(jià)值。(2)數(shù)據(jù)的預(yù)處理。主要是分析并提高數(shù)據(jù)的質(zhì)量,排除一些因某些特殊因素而引起的特殊值,會(huì)影響整個(gè)數(shù)據(jù)組的最后預(yù)測(cè)效果。 (3)模型的建立。通過(guò)數(shù)據(jù)挖掘軟件(例如:SAS)將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對(duì)挖掘算法建立的,建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。(4)數(shù)據(jù)的預(yù)測(cè)。建立模型之后,在模型上會(huì)有一些本來(lái)用于分析的數(shù)據(jù),也會(huì)有未來(lái)的一些經(jīng)過(guò)分析后預(yù)測(cè)的數(shù)據(jù),通過(guò)這些數(shù)據(jù),我們就可以知道一些即將發(fā)生的現(xiàn)象或者問(wèn)題,并對(duì)其進(jìn)行提前預(yù)防,或其他措施。(5)數(shù)據(jù)預(yù)測(cè)的結(jié)論整理。數(shù)據(jù)挖掘這項(xiàng)任務(wù)的工作者,往往不是最后的執(zhí)行者,所以我們需要將預(yù)測(cè)的結(jié)果整理成一份通俗易懂的報(bào)告,最好附上圖表,讓上司或領(lǐng)導(dǎo)更易理解,這也是十分關(guān)鍵的一步,一個(gè)好的結(jié)論沒(méi)有表述好,可能就會(huì)被拋棄。5天貓用戶數(shù)據(jù)挖掘的分析及作用 數(shù)據(jù)挖掘如果運(yùn)用到天貓、淘寶上,那么他就目的只有一個(gè)就是盈利。我們都知道雙十一網(wǎng)購(gòu)狂歡節(jié),今年2014年1分鐘就交易額突破了1億,如此巨大的交易額,不光需要他龐大的用戶量,還需要就是分析他們的需求信息。天貓用戶那么多,首先一點(diǎn)就是需要明確每一個(gè)用戶需要買什么東西,這就是我們數(shù)據(jù)挖掘需要做的,在我們上網(wǎng)點(diǎn)擊的過(guò)程,其實(shí)就是他們數(shù)據(jù)采集的過(guò)程,他們通過(guò)你點(diǎn)擊瀏覽的網(wǎng)站就預(yù)測(cè)你的喜好及可能還會(huì)去點(diǎn)擊的網(wǎng)站,并在一個(gè)欄目對(duì)你播放相對(duì)應(yīng)的廣告,促使你更有欲望去購(gòu)買這些東西。 6數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域及前景 與國(guó)外相比,國(guó)內(nèi)對(duì)DMKD的研究稍晚,1993年國(guó)家自然科學(xué)基金首次開(kāi)始支持對(duì)該領(lǐng)域的研究項(xiàng)目。近年來(lái)發(fā)展迅速,進(jìn)行的大多數(shù)研究項(xiàng)目是由政府資助進(jìn)行的,如國(guó)家自然科學(xué)基金、863計(jì)劃、“九五”計(jì)劃等。所涉及的研究領(lǐng)域很多,一般集中于學(xué)習(xí)算法的研究、數(shù)據(jù)挖掘的實(shí)際應(yīng)用以及有關(guān)數(shù)據(jù)挖掘理論方面的研究。國(guó)內(nèi)從事數(shù)據(jù)挖掘研究的機(jī)構(gòu)主要在大學(xué),也有部分在研究所或公司。當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。 5 結(jié)論 數(shù)據(jù)挖掘技術(shù)是一個(gè)讓你從無(wú)知到有知的探索,商業(yè)利益的強(qiáng)大驅(qū)動(dòng)力將會(huì)不停地促進(jìn)它的發(fā)展,每年都有新的數(shù)據(jù)挖掘方法和模型問(wèn)世,人們對(duì)它的研究正日益廣泛和深入,他也將變得更加具有交互性、可視性。 參考文獻(xiàn)1彭劍芳.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)購(gòu)物行為的分析D.云南:云南大學(xué),2011.5.1. 2毛國(guó)君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究D.北京:北京工業(yè)大學(xué),2003.5.1.3李菁菁,邵培基,黃亦瀟,等.數(shù)據(jù)挖掘在中國(guó)的現(xiàn)狀和發(fā)展研究J.管理工程學(xué)報(bào),2004(03):1015.4毛國(guó)君,等.數(shù)據(jù)挖掘原理與算法M.北京:清華大學(xué)出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.數(shù)據(jù)挖掘?qū)д揗北京:人民郵電出版社,2010.12.106David Hand,Helkki Mannila,Padhraic Smyth. 數(shù)據(jù)挖掘原理J 北京:機(jī)械工業(yè)出版社,2009,09(12):1721-1741.7陳京民,等.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)M.北京:電子工業(yè)出版社,2002.8陳文偉,等.數(shù)據(jù)挖掘技術(shù)M.北京:北京工業(yè)大學(xué)出版社,2002.9史忠植.知識(shí)發(fā)現(xiàn)D. 北京:清華大學(xué)出版社,2002 10蔡元龍.模式識(shí)別D.西安:西北電訊工程學(xué)院出版社,1986.6通過(guò)系統(tǒng)地查閱與所選課題相關(guān)的國(guó)內(nèi)外文獻(xiàn),進(jìn)行收集、整理和加工,從而制定的綜合性敘述和評(píng)價(jià)的文章(見(jiàn)P42)。字?jǐn)?shù):20003000字。五號(hào)宋體字,1.5倍行間距,除了參考文獻(xiàn)是頂格以外,其余都是首行縮進(jìn)2字符。參考文獻(xiàn)不少于10個(gè),具體要求同P19正文一致。計(jì)算機(jī)與信息學(xué)院一級(jí)標(biāo)題:三號(hào)宋體,居中,加粗,1.5倍行間距,段前后0.5行間距凡是學(xué)生所寫東西的頁(yè)面,必須有此頁(yè)眉。四號(hào)宋體字,加粗,單倍行間距。本科畢業(yè)論文(設(shè)計(jì))外文文獻(xiàn)翻譯外文文獻(xiàn)譯文數(shù)據(jù)挖掘2應(yīng)用領(lǐng)域數(shù)據(jù)挖掘是廣泛用于一系列科學(xué)學(xué)科和業(yè)務(wù)場(chǎng)景。一些值得注意的例子:管理、機(jī)器學(xué)習(xí)貝葉斯-伊恩推理、知識(shí)獲得專家系統(tǒng)、模糊邏輯、神經(jīng)網(wǎng)絡(luò)和遺傳算法。在日常業(yè)務(wù)場(chǎng)景的例子:包括航空公司、數(shù)據(jù)庫(kù)營(yíng)銷面板數(shù)據(jù)的研究和創(chuàng)造,基于定制的貿(mào)易出版物為數(shù)百種不同的用戶數(shù)據(jù)用戶組。Piatetsky-Shapiro與相關(guān)學(xué)術(shù)人員在99年提供一個(gè)詳細(xì)的進(jìn)一步的使用領(lǐng)域的概述。是另一個(gè)國(guó)際米蘭毛利分析美國(guó)東部時(shí)間在數(shù)據(jù)挖掘領(lǐng)域的研究?,F(xiàn)代成本會(huì)計(jì)的幫助下軟件公司可以對(duì)個(gè)人所得稅進(jìn)行多維分析物品。由于大量引用(e.g.產(chǎn)品客戶托馬、銷售渠道、區(qū)域)和需要的對(duì)象的數(shù)量檢查控制器需要方法自動(dòng)識(shí)別數(shù)據(jù)模式。在這種情況下,這些模式的組合屬性值(e . g。“DIY商店”和“力量訓(xùn)練”)以及(e . g .毛利率)措施。一個(gè)公司,開(kāi)發(fā)數(shù)據(jù)挖掘程序必須也考慮到大量數(shù)據(jù)參與。即使在一個(gè)中型公司是很常見(jiàn)的,成百上千項(xiàng)流入每月?lián)p益表。基于案例的推理(CBR)是其中之一數(shù)據(jù)最小的有趣的例子荷蘭國(guó)際集團(tuán)(ING)和機(jī)器學(xué)習(xí)在一起。CBR組件嘗試跟蹤當(dāng)前問(wèn)題的問(wèn)題已經(jīng)解決了過(guò)去。幫助桌子,協(xié)助澄清的問(wèn)題客戶有購(gòu)買產(chǎn)品,是一個(gè)實(shí)際的使用類型的過(guò)程。盡管一些公司使用幫助臺(tái)支持他們的電信電話熱線,其他人給他們定制-人通過(guò)遠(yuǎn)程數(shù)據(jù)的直接訪問(wèn)轉(zhuǎn)移??梢苑浅r(jià)值數(shù)據(jù)挖掘在這種情況下,因?yàn)樗柟叹奂诔汕先f(wàn)的信息關(guān)鍵的發(fā)現(xiàn)個(gè)人歷史病例老年男性。這種方法的優(yōu)點(diǎn)是較短的過(guò)程,尋找先例可以用來(lái)回答當(dāng)前客戶的問(wèn)題。3方法有許多不同類型的方法分析和分類數(shù)據(jù)。一些常見(jiàn)的方法包括聚類分析、貝葉斯推理和歸納學(xué)習(xí)。可以使用聚類分析基于數(shù)值以及措施概念聚類的形式。數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)天生是非常不同的,當(dāng)然這些都很常見(jiàn)的:因?yàn)榉治龇椒?識(shí)別和分析模式,是系統(tǒng)的核心。因?yàn)檩斎肟梢园ńM件原始數(shù)據(jù)等信息數(shù)據(jù)字典、知識(shí)的使用場(chǎng)景中,或縮小用戶條目搜索過(guò)程。因?yàn)檩敵霭l(fā)現(xiàn)措施,規(guī)則或信息在一個(gè)適當(dāng)?shù)男问匠尸F(xiàn)給用戶,納入系統(tǒng)作為新知識(shí)或集成成一個(gè)專家系統(tǒng)。3.1聚類分析不論在其傳統(tǒng)的形式還是概念聚類,聚類分析試圖分裂或合并一組數(shù)字基于誤碼率的對(duì)象組接近這些對(duì)象之間的存在。集群分組以便有大的對(duì)象之間的相似之處類以及大型之間的異同不同的類的對(duì)象。3.1.1傳統(tǒng)聚類分析不管的縮放級(jí)別對(duì)象變量,有多種方法衡量相似性和區(qū)別的距離?;镜睦影W幾里得(即平方根總平方差異)和曼哈頓差異(即絕對(duì)的總和個(gè)體差異變量)。在我們可以檢查指標(biāo),名義以及不同數(shù)據(jù)集的混合距離測(cè)量。當(dāng)對(duì)象有不同的類型的屬性,例如,考夫曼和Rousseeuw推薦計(jì)算個(gè)人名義的差異為0屬性值是相同的,和不同的是不同的。指標(biāo)變量,我們第一次需要建立之間的區(qū)別對(duì)象的值。然后我們標(biāo)準(zhǔn)化把他們的最大區(qū)別。結(jié)果是一個(gè)0和之間的差異。然后我們計(jì)算總差異兩個(gè)對(duì)象之間的向量的總和個(gè)體差異(考夫曼和Rousseeuw 990)。我們可以使用這種類型的測(cè)量(最終延長(zhǎng)individ的重量性屬性)集群生產(chǎn)總值(gdp)數(shù)據(jù)集邊際分析。這些包含名義屬性(如產(chǎn)品、客戶、地區(qū))以及數(shù)值(收入或措施毛利率)。有一個(gè)普遍的分化在劃分和層次之間分類方法。簡(jiǎn)而言之,合適的婚姻對(duì)象一對(duì)迭代方法試圖最小化一個(gè)給定的初始分配的異質(zhì)性表示“狀態(tài)”的對(duì)象到集群。分層方法,這幾乎是重要的,采取一種完全不同的方法。最初,每一個(gè)對(duì)象都位于自己的俱樂(lè)部怪獸。然而,對(duì)象,然后結(jié)合先后,因此只有最小程度的同質(zhì)性是迷失在每一個(gè)步驟。我們可以很容易地生成的層次結(jié)構(gòu)嵌套的集群在一個(gè)所謂的系統(tǒng)樹圖。3.3歸納學(xué)習(xí)讓我們假設(shè)有一個(gè)給定的一組對(duì)象(即一個(gè)訓(xùn)練集)類。歸納學(xué)習(xí)試圖定義一個(gè)規(guī)則,基于其組織一個(gè)新對(duì)象屬性到一個(gè)現(xiàn)有的類。一個(gè)常見(jiàn)的方法是可視化作為一個(gè)決策樹學(xué)習(xí)規(guī)則。樹葉而樹的代表類主要降低分支機(jī)構(gòu)代表測(cè)試分別檢查一個(gè)屬性值。每個(gè)測(cè)試接收的可能的結(jié)果自己的分公司,反過(guò)來(lái),導(dǎo)致到另一個(gè)分支或熊一片葉子。的ID算法,一個(gè)著名的例子這種方法,從這一段開(kāi)始訓(xùn)練集,我們可以在幾個(gè)迭代建立一個(gè)樹與0000集對(duì)象和50屬性。ID子結(jié)果把剩下的對(duì)象的訓(xùn)練集,如果分類不正確,算法將重啟一個(gè)訓(xùn)練集的擴(kuò)展部分的對(duì)象是不正確的分類(昆蘭986)。銀行,例如,可以使用一個(gè)方法構(gòu)建和維護(hù)這樣一個(gè)專業(yè)的系統(tǒng)檢查的信用評(píng)級(jí)個(gè)人客戶。如果一個(gè)訓(xùn)練集包含一個(gè)大客戶群體高或低信用評(píng)級(jí),該算法可以使用規(guī)則來(lái)評(píng)估未來(lái)的貸款申請(qǐng),銀行員工可以處理在系統(tǒng)中。4關(guān)鍵因素以下部分概述了一些與數(shù)據(jù)挖掘相關(guān)的問(wèn)題。在我們認(rèn)為,這些關(guān)鍵因素的成功將為未來(lái)打下堅(jiān)實(shí)的基礎(chǔ)研究和發(fā)展。4.1算法的效率關(guān)于數(shù)據(jù)挖掘的效率算法,我們應(yīng)該考慮以下方面。jCalculation時(shí)期是一個(gè)關(guān)鍵因素。如果算法的計(jì)算時(shí)間增長(zhǎng)速度比線性依賴關(guān)系的平方數(shù)的數(shù)據(jù)記錄搜索,我們可以假設(shè)他們不會(huì)適合更大應(yīng)用程序。我們可以提高計(jì)算時(shí)間通過(guò)限制搜索區(qū)域通過(guò)用戶輸入或減少通過(guò)有針對(duì)性的搜索數(shù)據(jù)量(如基于用戶)選擇和壓縮。最近的進(jìn)展顯示,算法的計(jì)算時(shí)間將變得不那么相關(guān)了由于技術(shù)發(fā)展(e . g .更快的過(guò)程-傳感器、并行計(jì)算機(jī))。因?yàn)樗惴ū仨氉銐蚪烟幚聿煌暾?或有缺陷的數(shù)據(jù)。這里的問(wèn)題是有缺陷的數(shù)據(jù)產(chǎn)生明顯的模式。如果一個(gè)銷售區(qū)域有不小心遺忘了計(jì)劃收入的一系列文章,該系統(tǒng)應(yīng)診斷極高budget-actual方差。然而,系統(tǒng)不應(yīng)該呈現(xiàn)這些類型的語(yǔ)句的一部分正常的分析結(jié)果,而是檢測(cè)真實(shí)性檢查和報(bào)告在一個(gè)單獨(dú)的不完整的部分報(bào)告。1、字?jǐn)?shù)要求:2000漢字,可以是2篇文檔。2、五號(hào)宋體字,首行縮進(jìn)2字,1.5倍行間距。外文文獻(xiàn)原文Data Mining四號(hào)宋體,加粗,居中。一定要指明出處,作者名。翻譯的外文文獻(xiàn)應(yīng)主要選自學(xué)術(shù)期刊、學(xué)術(shù)會(huì)議的文章、有關(guān)著作及其他相關(guān)材料,應(yīng)與畢業(yè)論文(設(shè)計(jì))主題相關(guān),由指導(dǎo)教師對(duì)外文文獻(xiàn)的選擇把關(guān),可直接復(fù)印。格式要求:(1)打印稿:五號(hào)羅馬字體(Times New Roman),首行縮進(jìn)4英文字符,1.5倍行間距。(2)復(fù)印稿:用A4紙復(fù)印,要清晰,并留出裝訂線。2 Usage scenariosData mining is widely used in a range of scientific disciplines and business scenarios. Some noteworthy examples include findings in the areas of database management, machine learning, Bayesian inference, knowledge gain for expert systems, fuzzy logic, neural networks, and genetic algorithms.Examples in everyday business scenarios include database marketing for airlines,panel data research as well as the creation of customized trade publications based on subscriber data for hundreds of different user groups. Frawley and Piatetsky-Shapiro (Frawley et al. 99) offer a detailed overview of further areas of usage.Gross margin analysis is another interesting field of research in data mining.With the help of modern cost accounting software, companies can perform multidimensional analysis on individual income items. Fig. 2 lists a few sample questions related to this topic. Due to the numer-ous reference objects (e. g. products, customers, sales channels, regions) and the resulting number of objects that need to be examined, controllers require methods that automatically identify data patterns.In this case, these patterns are a combination of attribute values (e. g. “DIY stores” and “power drills” in Fig. 1) as well as measures (e. g. gross margin). A company that develops a data mining program must also consider the large volumes of data involved. Even in a midsize company, for example, it is common that several hundred-thousand items flow into a monthly income statement.Case Based Reasoning (CBR) is one interesting example of how data mining and machine learning could work together. CBR components attempt to trace current questions to problems that have already been solved in the past. Help desks, which assist in clarifying the questions a customer has about purchased products, are one practical usage of this type of procedure. While some companies use help desks to support their telephone hotlines, others give their customers direct access through a remote data transfer. Data mining can be very valuable in this context because it consolidates the information gathered in thousands of individual historical cases into key findings. The advantage of this procedure is the shorter process of searching for precedents which can be used to answer the current customers question.3 MethodsThere are many different types of methods to analyze and classify data. Some common methods include cluster analysis,Bayesian inference as well as inductive learning. Cluster analysis can be used based on numerical measures as well as in the form of conceptual clustering.The structures of data mining systems are very different by nature. The following configuration, however, is very common:jThe analysis method, which identifies and analyzes patterns, forms the core of the system.jThe input can include components such as raw data, information from adata dictionary, knowledge of the usage scenario, or user entries to narrow the search process.jThe output encompasses the found measures, rules or information which are presented to the user in an appropriate form, incorporated into the system as new knowledge or integrated into an expert system.3.1 Cluster analysisWhether in its traditional form or as conceptual clustering, cluster analysis attempts to divide or combine a set number of objects into groups based on the proximity that exists among these objects.The clusters are grouped so that there are large similarities among the objects of a class as well as large dissimilarities among the objects of different classes.3.1.1 Traditional cluster analysisRegardless of the scaling level of the object variables, there are multiple ways to measure the similarity and difference of the proximity. Basic examples include the Euclidean (i. e. the square root of the total squared difference) and Manhattan differences (i. e. the sum of the absolute differences of individual variables). In general, we can examine metric, nominal as well as mixed data sets by varying the proximity measure.When objects have different types of attributes, for example, Kaufman and Rousseeuw recommend calculating a difference of 0 for the individual nominal attributes when the values are the same,and a difference of when they are different. In the case of metric variables, we first need to establish the difference among the object values.To standardize them we then divide them by the maximum difference.The result is a difference between 0 and.We then calculate the total difference between two object vectors as the sum of the individual differences (Kaufman and Rousseeuw 990).We can use this type of measure (eventually extended by the weight of an individual attribute) to cluster data sets in grossmargin analysis. These contain nominal attributes (e. g. product, customer, region)as well as numerical measures (revenues or gross margin).There is a general differentiation between the partitional and hierarchical classification methods. Simply put, partitional methods try to iteratively minimize the heterogeneity of a given initial allotment of objects into clusters. Hierarchical methods, which are practically significant,take a completely different approach. Initially, each object is located in its own cluster. The objects, however, are then combined successively so that only the smallest level of homogeneity is lost in each step.We can easily present the resulting hierar- chy of nested clusters in a so-called dendrogram.3.1.2 Conceptual clusteringAs described above, traditional forms of cluster analysis can identify groups of similar objects but cannot describe these classes beyond a simple list of the individual objects. The objective of many usage scenarios, however, is to characterize the existing structures that are buried among the volumes of data. Instead of representing object classes through simply listing their objects, conceptual clusters intentionally describe them using terms which classify the individual objects through rules. A group of these rules forms a so-called concept.A basic example of a concept is a program that automatically and logically links individual attribute values. Advanced systems can even establish concepts and concept hierarchies with classification rules.The different concepts in partitional methods of conceptual clustering compete with each other. Ultimately, we have to choose the clustering concept that best meets the performance criteria for a specific method. Some performance criteria include the simplicity of the concept (based on the number of attributes involved) or the discriminatory power (as the number of variables that have values do not overlap beyond the different object classes.)Similar to traditional cluster analysis, there are also hierarchical techniques that form classification trees in a topdown approach. As described

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論