大數(shù)據(jù)專業(yè)英語教程 課件 Unit 6 A Data Mining_第1頁
大數(shù)據(jù)專業(yè)英語教程 課件 Unit 6 A Data Mining_第2頁
大數(shù)據(jù)專業(yè)英語教程 課件 Unit 6 A Data Mining_第3頁
大數(shù)據(jù)專業(yè)英語教程 課件 Unit 6 A Data Mining_第4頁
大數(shù)據(jù)專業(yè)英語教程 課件 Unit 6 A Data Mining_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DataMining

Unit

6TextAContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA數(shù)據(jù)挖掘1.什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘是一種實(shí)踐活動,它對大量數(shù)據(jù)進(jìn)行自動搜索,目的在于發(fā)現(xiàn)用簡單分析不能找到的模式和趨勢。數(shù)據(jù)挖掘使用復(fù)雜的數(shù)學(xué)算法來分割數(shù)據(jù)并評估未來事件的可能性。數(shù)據(jù)挖掘也稱為數(shù)據(jù)知識發(fā)現(xiàn)(KDD)。1.1自動發(fā)現(xiàn)數(shù)據(jù)挖掘是通過構(gòu)建模型來完成的。模型把算法用于一組數(shù)據(jù)。自動發(fā)現(xiàn)的概念是指執(zhí)行數(shù)據(jù)挖掘模型。數(shù)據(jù)挖掘模型可用于挖掘構(gòu)建它們的數(shù)據(jù),但是大多數(shù)類型的模型均可泛化到新數(shù)據(jù)。將模型應(yīng)用于新數(shù)據(jù)的過程被稱為評分。1.2預(yù)測許多形式的數(shù)據(jù)挖掘都是可預(yù)測的。例如,模型可以根據(jù)教育程度和其他人口統(tǒng)計(jì)因素預(yù)測收入。預(yù)測具有關(guān)聯(lián)的概率(此預(yù)測為真的可能性有多大?)。預(yù)測概率也稱為置信度(我對這個(gè)預(yù)測有多少信心?)。參考譯文某些形式的預(yù)測性數(shù)據(jù)挖掘會生成規(guī)則,它們是顯示給定結(jié)果的條件。例如,一條規(guī)則可能會指定擁有學(xué)士學(xué)位并且居住在某個(gè)社區(qū)中的人的收入可能會高于該區(qū)域平均水平。規(guī)則具有相關(guān)的支持(滿足規(guī)則的人口百分比是多少?)。1.3分組其他形式的數(shù)據(jù)挖掘可識別數(shù)據(jù)中的自然分組。例如,模型可能會確定收入在指定范圍內(nèi),具有良好駕駛記錄并每年租賃新車的人群。1.4可行信息數(shù)據(jù)挖掘可以從大量數(shù)據(jù)中獲取可操作的信息。例如,城鎮(zhèn)規(guī)劃人員可能會使用基于人口統(tǒng)計(jì)數(shù)字預(yù)測收入的模型來制定低收入住房計(jì)劃。汽車租賃公司可能會使用一種識別客戶細(xì)分的模型,以設(shè)計(jì)針對高價(jià)值客戶的促銷活動。2.數(shù)據(jù)挖掘的步驟2.1理解業(yè)務(wù)在數(shù)據(jù)挖掘簡介中,我們將了解業(yè)務(wù)目標(biāo)和需求的各個(gè)方面。通過查找資源、假設(shè)和其他重要因素來評估當(dāng)前狀況。因此,建立良好的數(shù)據(jù)挖掘計(jì)劃將有助于實(shí)現(xiàn)業(yè)務(wù)和數(shù)據(jù)挖掘目標(biāo)。參考譯文參考譯文2.2理解數(shù)據(jù)最初,從所有現(xiàn)有來源收集數(shù)據(jù)。然后,我們從中提取最佳數(shù)據(jù)集,從中提取可能更有益的數(shù)據(jù)。2.3準(zhǔn)備數(shù)據(jù)識別出數(shù)據(jù)集后,將以所需的形式對其進(jìn)行選擇、清理、構(gòu)建和格式化。2.4數(shù)據(jù)建模這是根據(jù)用戶要求重新構(gòu)建給定數(shù)據(jù)的過程??梢愿鶕?jù)準(zhǔn)備好的數(shù)據(jù)集創(chuàng)建一個(gè)或多個(gè)模型,最后,利益相關(guān)者需要仔細(xì)評估模型,以確保創(chuàng)建的模型符合業(yè)務(wù)計(jì)劃。2.5評估這是數(shù)據(jù)挖掘中最必要的過程之一。它包括遍歷過程的各個(gè)方面,以檢查過程中是否存在任何可能的故障或數(shù)據(jù)泄漏。此外,由于發(fā)現(xiàn)了新的模式,可能會提出新的業(yè)務(wù)需求。2.6部署它意味著只呈現(xiàn)知識,以使利益相關(guān)者可以在需要時(shí)使用它。例如,發(fā)現(xiàn)星期三的國際電話較少。當(dāng)將這些信息提供給利益相關(guān)者時(shí),他們反過來可以利用這些信息使自己受益,并增加他們的利潤。3.數(shù)據(jù)挖掘的類型3.1平滑數(shù)據(jù)挖掘技術(shù)的這種特定方法屬于準(zhǔn)備數(shù)據(jù)的范疇。該技術(shù)的主要目的是消除數(shù)據(jù)中的噪聲。這里使用簡單指數(shù)、移動平均值之類的算法來消除噪聲。在探索性分析中,此技術(shù)非常便于可視化趨勢/情感。3.2聚合顧名思義,就是聚合一組數(shù)據(jù)以獲得更多信息。該技術(shù)用于總覽業(yè)務(wù)目標(biāo),可以手動執(zhí)行,也可以使用專用軟件執(zhí)行。這種技術(shù)通常用于大數(shù)據(jù),因?yàn)榇髷?shù)據(jù)不能提供整體所需的信息。3.3泛化再次,顧名思義,這種技術(shù)被用來整體上泛化數(shù)據(jù)。這與聚合不同,因?yàn)榉夯^程中的數(shù)據(jù)不是為了獲取更多信息而組合在一起,而是對整個(gè)數(shù)據(jù)集進(jìn)行了泛化。這將使數(shù)據(jù)科學(xué)模型能夠適應(yīng)更新的數(shù)據(jù)點(diǎn)。參考譯文3.4歸一化在此技術(shù)中,對數(shù)據(jù)點(diǎn)采取了特殊的措施,以便將它們置于相同的范圍下進(jìn)行分析。例如,一個(gè)人的年齡和薪水屬于不同的度量標(biāo)準(zhǔn),因此將其繪制在一個(gè)圖表上并不會幫助我們獲得有關(guān)作為整體特征呈現(xiàn)的趨勢的任何有用信息。使用歸一化,我們可以將它們放到同等類別,以便可以進(jìn)行逐一比較。3.5屬性/功能選擇在這項(xiàng)技術(shù)中,我們采用一些方法來執(zhí)行特征選擇,以便用于訓(xùn)練數(shù)據(jù)集的模型可以表明價(jià)值以預(yù)測未看到的數(shù)據(jù)。這非常類似于從裝滿衣服的衣柜中選擇與自己的活動相匹配的衣服。不相關(guān)的功能可能會對模型性能產(chǎn)生負(fù)面影響,更不用說提高性能了。3.6分類在這種數(shù)據(jù)挖掘技術(shù)中,我們處理稱為“類”的組。在此技術(shù)中,我們將選擇的共同特征應(yīng)用于組/類別。例如,在一家商店中,如果我們必須評估一個(gè)人是否會購買某種產(chǎn)品,那么我們可以集體使用“n”個(gè)特征來獲得對/錯的結(jié)果。參考譯文3.7模式跟蹤這是數(shù)據(jù)挖掘中所用的基本技術(shù)之一,用來獲取有關(guān)可能由數(shù)據(jù)點(diǎn)顯示的趨勢/模式信息。例如,我們可以確定在周末或節(jié)假日銷售有增加的趨勢而不是在平日或工作日。3.8離群分析或異常檢測此技術(shù)用于查找或分析離群值或異常值。離群值或異常值不是負(fù)數(shù)據(jù)點(diǎn),它們只是與整個(gè)數(shù)據(jù)集的總體趨勢不同的東西。在識別異常值時(shí),我們可以將它們從數(shù)據(jù)集中完全刪除,這在完成數(shù)據(jù)準(zhǔn)備時(shí)會發(fā)生?;蛘甙言摷夹g(shù)廣泛用于模型數(shù)據(jù)集中以預(yù)測離群值。3.9聚類該技術(shù)與分類非常相似,但唯一的區(qū)別是我們不知道數(shù)據(jù)點(diǎn)所屬的組。此方法通常用于對人員進(jìn)行分組以針對相似的產(chǎn)品推薦。參考譯文參考譯文3.10回歸該技術(shù)用于預(yù)測存在其他特征時(shí)某個(gè)特征的可能性。例如,我們可以根據(jù)需求、競爭和其他一些特征來規(guī)劃商品可能的價(jià)格。3.11神經(jīng)網(wǎng)絡(luò)該技術(shù)基于生物神經(jīng)元的工作原理。與人體神經(jīng)元的原理相似,數(shù)據(jù)挖掘工作中的神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元也充當(dāng)處理單元,并連接另一個(gè)神經(jīng)元以便沿著鏈路傳遞信息。3.12關(guān)聯(lián)在這種數(shù)據(jù)挖掘方法中,確定不同特征之間的關(guān)系,然后根據(jù)業(yè)務(wù)需求將其用于查找隱藏模式或進(jìn)行相關(guān)分析。例如,使用關(guān)聯(lián),我們可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論