下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
I《大數(shù)據(jù)分析》課程作業(yè):分析一家企業(yè)運用的數(shù)據(jù)挖掘方法目錄TOC\o"1-2"\h\u18391《大數(shù)據(jù)分析》課程作業(yè):分析一家企業(yè)運用的數(shù)據(jù)挖掘方法 1197101大數(shù)據(jù)概述 1230601.1大數(shù)據(jù) 1187231.2大數(shù)據(jù)的特點 2136172三只松鼠運用的大數(shù)據(jù)挖掘方法 242922.1預(yù)測 3318802.2關(guān)聯(lián)分析 3257822.3聚類 3299362.4偏差檢測 4185323結(jié)語 426196參考文獻(xiàn) 4摘要:在現(xiàn)在這樣一個互聯(lián)網(wǎng)的時代,不僅是數(shù)據(jù)的數(shù)量量和種類多,而且每時每刻還在產(chǎn)生著大量的新數(shù)據(jù)。三只松鼠利用大數(shù)據(jù)和新技術(shù),洞察新生代消費行為變化,通過精準(zhǔn)的數(shù)據(jù)分析,比消費者更“懂”消費者。本文歲了三只松鼠運用的大數(shù)據(jù)挖掘方法展開了分析。關(guān)鍵詞:大數(shù)據(jù);三只松鼠;數(shù)據(jù)挖掘1大數(shù)據(jù)概述1.1大數(shù)據(jù)大數(shù)據(jù)并非最近才出現(xiàn)的新概念,早在20世紀(jì)就有人提出大數(shù)據(jù)的概念,但直到21世紀(jì),它才逐漸從純粹的信息技術(shù)中突破,并在我們的日常生活中起到各種作用。信息高速項目誕生于1993年,這是人類歷史上濃墨重彩的一筆,它改變了世界各地信息的產(chǎn)生和傳輸,極大地促進(jìn)了互聯(lián)網(wǎng)的發(fā)展。2012年,一項旨在改善人民服務(wù),快速準(zhǔn)確定位信息的大數(shù)據(jù)研究項目被美國政府提出。數(shù)據(jù)分析的原料就是大數(shù)據(jù);先要將所有的信息匯總才能得到大數(shù)據(jù),然后才能建立數(shù)據(jù)倉庫;有了數(shù)據(jù)倉庫才能進(jìn)行下一步的數(shù)據(jù)篩選,清洗掉冗余的數(shù)據(jù);最后利用得到的有價值信息進(jìn)行數(shù)據(jù)挖掘才能為企業(yè)做出有用的貢獻(xiàn)。所以大數(shù)據(jù)是一切和大數(shù)據(jù)有關(guān)技術(shù)的基礎(chǔ)所在。對于大數(shù)據(jù)的定義,主要有以下幾種詮釋:(1)高德納公司:在加工后能產(chǎn)生數(shù)量更少且價值更高的數(shù)據(jù)就是大數(shù)據(jù)。(2)維克托.邁爾-舍恩伯格:大數(shù)據(jù)是一種方法,這種方法需要對所有的數(shù)據(jù)進(jìn)行處理,而不是對部分的隨機(jī)數(shù)據(jù)進(jìn)行處理。(3)維基百科:大數(shù)據(jù)具有非常龐大的數(shù)據(jù)量,并且需要使用專門的工具對其進(jìn)行加工。以上多個定義從各個維度解釋了“大數(shù)據(jù)”的含義。盡管他們對大數(shù)據(jù)具體的詮釋各異,但也有相同的一個點,那就是對大數(shù)據(jù)“大”的特點的解釋,即它是指所有的。但當(dāng)數(shù)據(jù)過大的時候,人們已經(jīng)很難使用傳統(tǒng)的一般數(shù)據(jù)統(tǒng)計方法對其進(jìn)行處理,但實際生活中我們往往又需要在某個時間段內(nèi)對其進(jìn)行有效處理。1.2大數(shù)據(jù)的特點雖然大數(shù)據(jù)很大但并非不能計量,接下來我們將從各個角度去分析大數(shù)據(jù)的各種特征。1.2.1從數(shù)據(jù)變動的角度來看第一、大數(shù)據(jù)的數(shù)據(jù)量巨大,數(shù)據(jù)每天都在呈指數(shù)級的增長。第二、快速的輸入和輸出速率。第三、大數(shù)據(jù)的類型多。不僅有文本類數(shù)據(jù)(以結(jié)構(gòu)形式存在的數(shù)據(jù)),還包非結(jié)構(gòu)形式存在的數(shù)據(jù)比如圖形、照片和聲音等。1.2.2從大數(shù)據(jù)的將來走勢和外部特征的角度來看第一、完整性。盡量從更多的源數(shù)據(jù)中提取有用和相關(guān)的數(shù)據(jù),最重要的是“完整”,只有當(dāng)數(shù)據(jù)源完整時有價值的數(shù)據(jù)信息才不會遺漏,有價值的信息才能被挖掘出來進(jìn)行分析和研究。因此相關(guān)數(shù)據(jù)源必須要是全部的。第二、復(fù)雜性。大數(shù)據(jù)的原始數(shù)據(jù)是充滿了各種冗余信息的,只有通過一些方法手段并投入一定的時間和精力才能將這些冗余信息給消除,獲得我們真正需要的有價值的信息。第三、數(shù)據(jù)之間的相關(guān)性。由于大數(shù)據(jù)的復(fù)雜性,因此人們需要找到一種數(shù)據(jù)之間的關(guān)聯(lián)性,用以清洗大數(shù)據(jù),這也是人們在大數(shù)據(jù)領(lǐng)域需要重點研究的課題。1.2.3從大數(shù)據(jù)概念的角度來看第一、動態(tài)性。大數(shù)據(jù)時刻都在變化著,這個變化是內(nèi)容和數(shù)量上的雙重變動。第二、非結(jié)構(gòu)化。非結(jié)構(gòu)化是大數(shù)據(jù)的特征之一,隨著互聯(lián)網(wǎng)的普及和互聯(lián)網(wǎng)技術(shù)的發(fā)展,出現(xiàn)了各式各樣的非結(jié)構(gòu)化數(shù)據(jù),例如圖形、圖片、電子郵件等,都是非結(jié)構(gòu)化的數(shù)據(jù)。第三、及時性。由于大數(shù)據(jù)是動態(tài)變化的,因此這個瞬間和上個瞬間以及下個瞬間的數(shù)據(jù)都是不同的。2三只松鼠運用的大數(shù)據(jù)挖掘方法從技術(shù)角度上看,數(shù)據(jù)挖掘就是從海量的、不完整的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中提取隱藏的、未知、但具有潛在價值信息的過程。從商業(yè)角度上看,數(shù)據(jù)挖掘又是一種先進(jìn)的處理信息的技術(shù)。以往,收集數(shù)據(jù)的目的主要用在科學(xué)研究上面,同時,當(dāng)時的計算能力也很薄弱,對于海量數(shù)據(jù)的分析能力十分有限?,F(xiàn)在,計算能力的提升使得數(shù)據(jù)分析不再是局限于科學(xué)研究方面,對于企業(yè)而言,利用數(shù)據(jù)挖掘技術(shù)處理客戶數(shù)據(jù),分析出有價值的東西,進(jìn)而提升企業(yè)效益。通過數(shù)據(jù)挖掘的技術(shù),可以對還未發(fā)生的行為作出預(yù)測,做出具有科學(xué)依據(jù)的決定。其主要的目標(biāo)是從海量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的,具有價值的信息,其主要功能分為五類:2.1預(yù)測通過數(shù)據(jù)挖掘技術(shù),我們可以在龐大數(shù)據(jù)庫中發(fā)現(xiàn)有價值的信息,找出發(fā)展的規(guī)律,進(jìn)而對未來事物的發(fā)展做出的預(yù)測。預(yù)測通常需要借助一些方法才能實施,例如分類方法或估計方法。換句話說,需要使用這些方法來推導(dǎo)預(yù)測不確定變量的模型。而與之相關(guān)的預(yù)測是對未來的預(yù)測,這是不確定的,并且結(jié)果存在多種可能性。只有經(jīng)過一段時間,我們才能知道真實結(jié)果和原始預(yù)測的準(zhǔn)確性。2.2關(guān)聯(lián)分析尋找海量數(shù)據(jù)中的相關(guān)性,假如幾個數(shù)據(jù)之間存在某種規(guī)律,那么就可以說這幾個數(shù)據(jù)之間有關(guān)聯(lián)。關(guān)聯(lián)分析中常用的技術(shù)是關(guān)聯(lián)規(guī)則和列序模式。前者是找出在同一個事情中出現(xiàn)不同項目的相關(guān)性;后者則是尋找出事件之間時間上的相關(guān)性。關(guān)聯(lián)規(guī)則用于尋找數(shù)據(jù)值之間可能的關(guān)聯(lián),即事務(wù)與其他事務(wù)之間的相互依賴和關(guān)聯(lián)。簡單來說,由于是對“什么和什么會同時出現(xiàn)”的研究,所以在實體店或在線電商的產(chǎn)品推薦系統(tǒng)中經(jīng)常會用到關(guān)聯(lián)規(guī)則,通過用戶消費記錄來分析關(guān)聯(lián)規(guī)則.用戶群體的共同消費特征,最具代表性的案例就是沃爾瑪?shù)摹捌【坪图埬蜓潯?。關(guān)聯(lián)規(guī)則分析可以在零售、快消品、電子商務(wù)、金融、搜索引擎、智能推薦和超市捆綁營銷、銀行客戶交叉銷售分析、搜索詞推薦或其他異常等領(lǐng)域產(chǎn)生很大的影響。等待識別、基于興趣的實時新聞推薦。通過分析交易數(shù)據(jù)庫中不同產(chǎn)品之間的關(guān)系,企業(yè)可以識別特定用戶的購買行為特征和用戶的消費偏好,然后進(jìn)行有針對性的營銷活動,例如選擇合適的頁面布局、產(chǎn)品推薦等。大多數(shù)現(xiàn)有研究提供個性化推薦,以挖掘用戶購買的產(chǎn)品和用戶可能喜歡的產(chǎn)品之間的規(guī)則。根據(jù)用戶的網(wǎng)購行為分析指標(biāo),可以將購買用戶購買的品牌(產(chǎn)品)與品牌(產(chǎn)品)關(guān)聯(lián)起來,或者通過選擇優(yōu)質(zhì)用戶來研究品牌與探索的品牌之間的相關(guān)性。我們從品牌的角度研究品牌關(guān)系,推薦用戶喜歡的品牌,進(jìn)行個性化營銷,幫助電商進(jìn)行精準(zhǔn)營銷活動。關(guān)聯(lián)規(guī)則不受聚類、神經(jīng)網(wǎng)絡(luò)等算法的影響,有自己獨立的分析系統(tǒng),可以通過一些對聚類或神經(jīng)網(wǎng)絡(luò)沒有意義的變量來挖掘相關(guān)性,如品牌、品類等。關(guān)聯(lián)規(guī)則算法。2.3聚類是指將數(shù)據(jù)依據(jù)一定的規(guī)則分為若干個不同的群組。組與組之間存在很大的區(qū)別,而組內(nèi)的數(shù)據(jù)差別不大。這種方法主要在客戶細(xì)分方面應(yīng)用。通過細(xì)分可以將具有相似特征的客戶分為一個群體,例如性別、年齡等。并根據(jù)結(jié)果制定針對性的營銷方案。近年來,隨著數(shù)據(jù)集的日益龐大,相比于硬件方面提升已經(jīng)趨近極限外,不斷的修改完善我們的聚類算法成為新的研究重點,不同側(cè)重點的算法被不斷地提出改進(jìn),以適應(yīng)不同形勢下的需求。聚類分析算法主要分為四個方面:基于劃分的聚類算法、基于層次聚類算法、基于密度的聚類算法、基于網(wǎng)絡(luò)的聚類算法。2.3.1基于劃分的聚類算法基于劃分的聚類算法,常見于機(jī)器學(xué)習(xí)應(yīng)用上,它的原理是通過將設(shè)置微分函數(shù),首先將輸入數(shù)據(jù)集進(jìn)行劃分,其次在使用這個結(jié)果通過不斷的循環(huán)迭代,持續(xù)的改進(jìn),最終對目標(biāo)函數(shù)進(jìn)行優(yōu)化。2.3.2基于層次的聚類算法這類算法首先計算每個樣本之間的距離,并對類中最近的點進(jìn)行分類,然后計算類之間的距離,將最近的類分類為一個大類,繼續(xù)合并,直到它成為一個類。其主要方法有,計算最短距離,最長距離,中間距離等。這類算法的優(yōu)點在于可以不用設(shè)置分組數(shù)量,組與組之間的關(guān)系能夠清楚的表述。但是自身也有一定的局限性。其一是在分析的過程中,形成上一層次的組后,在其后的分析過程中不能自己調(diào)試;其二是該算法在分析大量繁多的數(shù)據(jù)時候效率不高。2.3.3基于密度的聚類算法主要是根據(jù)密度來對數(shù)據(jù)進(jìn)行判斷,與基于相似度的算法不同,這類算法可以通過對數(shù)據(jù)分布的不同密度,將其分割成不同的組類并將其分成不同的形狀,同時也能夠很好的清除噪聲。2.3.4基于網(wǎng)格的聚類算法這類算法最重要的功能是可以將計算的效率大幅度的提升,將網(wǎng)絡(luò)單元的數(shù)量大小作為時間復(fù)雜度的計算,但由于自身的局限性,無法對于斜側(cè)邊界聚類進(jìn)行檢測。2.4偏差檢測偏差檢測是指對異常的數(shù)據(jù)進(jìn)行檢測,發(fā)現(xiàn)其內(nèi)在的問題,進(jìn)而解決問題。例如在銀行的交易數(shù)據(jù)中發(fā)現(xiàn)異常的交易記錄,可能是存在犯罪行為,所以銀行為了安全起見,就要去研究產(chǎn)生這些異常記錄的內(nèi)在原因,減小風(fēng)險。3結(jié)語現(xiàn)在是大數(shù)據(jù)的時代,三只松鼠在這樣的時代背景下被迫也要轉(zhuǎn)型。三只松鼠如果想要繼續(xù)存活下去保持自身的競爭能力,就必須擁抱互聯(lián)網(wǎng)融合大數(shù)據(jù)技術(shù),這時未來企業(yè)生存發(fā)展的必然之路。參考文獻(xiàn)[1]金加衛(wèi),苗慧勇.大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 羽絨服的防水防風(fēng)性能提升-洞察分析
- 2025年仁愛科普版七年級物理上冊月考試卷含答案
- 2025年人教新課標(biāo)七年級地理下冊階段測試試卷含答案
- 二零二五年法院執(zhí)行擔(dān)保書制作流程3篇
- 二零二五年度親子教育門面商鋪租賃合同4篇
- 二零二五年度旅游項目承兌擔(dān)保合同4篇
- 2025年冀教新版九年級生物下冊月考試卷含答案
- 2025年仁愛科普版八年級生物下冊月考試卷
- 二零二五年度新能源行業(yè)臨時工勞動合同范本3篇
- 用戶畫像在教育行業(yè)精準(zhǔn)營銷中的應(yīng)用研究-洞察分析
- 供應(yīng)室技能考核操作標(biāo)準(zhǔn)
- 公共政策學(xué)-陳振明課件
- SHSG0522023年石油化工裝置工藝設(shè)計包(成套技術(shù))內(nèi)容規(guī)定
- 《運營管理》案例庫
- 醫(yī)院安全保衛(wèi)部署方案和管理制度
- 我的自我針灸記錄摘錄
- 中醫(yī)學(xué)-五臟-心-課件
- 《駱駝祥子》閱讀記錄卡
- 教育學(xué)原理完整版課件全套ppt教程(最新)
- 醫(yī)療安全不良事件報告培訓(xùn)PPT培訓(xùn)課件
- 膽管癌的護(hù)理查房
評論
0/150
提交評論