大數(shù)據(jù)專業(yè)英語教程 課件全套 張強華 Unit 1 A Big Data Basics -Unit 10 B Big Data Privacy_第1頁
大數(shù)據(jù)專業(yè)英語教程 課件全套 張強華 Unit 1 A Big Data Basics -Unit 10 B Big Data Privacy_第2頁
大數(shù)據(jù)專業(yè)英語教程 課件全套 張強華 Unit 1 A Big Data Basics -Unit 10 B Big Data Privacy_第3頁
大數(shù)據(jù)專業(yè)英語教程 課件全套 張強華 Unit 1 A Big Data Basics -Unit 10 B Big Data Privacy_第4頁
大數(shù)據(jù)專業(yè)英語教程 課件全套 張強華 Unit 1 A Big Data Basics -Unit 10 B Big Data Privacy_第5頁
已閱讀5頁,還剩324頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

BigDataBasics

Unit

1TextAContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA大數(shù)據(jù)基礎(chǔ)1.什么是大數(shù)據(jù)?根據(jù)Gartner的說法,大數(shù)據(jù)是大容量、快速和多樣的信息資產(chǎn),它們需要經(jīng)濟高效的創(chuàng)新的信息處理形式,以增強洞察力和決策能力。這個定義清楚地回答了“什么是大數(shù)據(jù)?”這一問題。大數(shù)據(jù)是指必須處理和分析的復(fù)雜和巨大的數(shù)據(jù)集,以發(fā)現(xiàn)可以使企業(yè)和組織受益的有價值的信息。但是,大數(shù)據(jù)有一些基本原則,這使得回答什么是大數(shù)據(jù)變得更加簡單:?它是指大量數(shù)據(jù),其隨著時間呈指數(shù)增長。?它是如此龐大,以至于無法使用常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行處理或分析。?它包括數(shù)據(jù)存儲、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)共享和數(shù)據(jù)可視化。?該術(shù)語是一個全面的術(shù)語,包括數(shù)據(jù)、數(shù)據(jù)框架以及用于處理和分析數(shù)據(jù)的工具和技術(shù)。參考譯文1.大數(shù)據(jù)的特征2.1數(shù)據(jù)量大大數(shù)據(jù)意味著海量數(shù)據(jù)。它曾經(jīng)是員工創(chuàng)建的數(shù)據(jù)。現(xiàn)在,因為數(shù)據(jù)是由機器、網(wǎng)絡(luò)和諸如社交媒體之類的系統(tǒng)上的人員交互生成的,因此要分析的數(shù)據(jù)量很大。2.2多樣性多樣性指結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)有許多來源和類型。我們曾經(jīng)存儲來自電子表格和數(shù)據(jù)庫等來源的數(shù)據(jù)。現(xiàn)在,數(shù)據(jù)以電子郵件、照片、視頻、音頻、監(jiān)視設(shè)備、PDF等形式出現(xiàn)。各種各樣的非結(jié)構(gòu)化數(shù)據(jù)給存儲、挖掘和分析數(shù)據(jù)帶來了麻煩。2.3高速性大數(shù)據(jù)速度處理數(shù)據(jù)從業(yè)務(wù)流程、機器、網(wǎng)絡(luò)以及人類與社交媒體站點交互、移動設(shè)備等流入的速度。數(shù)據(jù)流很大而且是連續(xù)的。這些實時數(shù)據(jù)可以幫助研究人員和企業(yè)做出有價值的決策,如果您能夠掌握數(shù)據(jù)流入的速度,則可以提供戰(zhàn)略競爭優(yōu)勢和投資回報率。參考譯文參考譯文2.4真實性大數(shù)據(jù)真實性是指數(shù)據(jù)中的偏差、噪聲和異常。存儲和挖掘的數(shù)據(jù)是否對正在分析的問題有意義?在制定大數(shù)據(jù)策略時,你需要團(tuán)隊和合作伙伴共同努力,以保持?jǐn)?shù)據(jù)干凈并防止“臟數(shù)據(jù)”在系統(tǒng)中累積。2.5有效性就像大數(shù)據(jù)的真實性一樣,有效性的問題也意味著數(shù)據(jù)對于預(yù)期用途而言是正確且準(zhǔn)確的。明確有效的數(shù)據(jù)是做出正確決策的關(guān)鍵。2.6易變性大數(shù)據(jù)易變性是指數(shù)據(jù)有效期為多長時間以及數(shù)據(jù)應(yīng)存儲多長時間。在實時數(shù)據(jù)的世界中,需要確定數(shù)據(jù)在什么時候不再與當(dāng)前分析相關(guān)。大數(shù)據(jù)顯然涉及的問題不僅限于數(shù)量、多樣和速度,還涉及其他問題,如真實性、有效性和易變性。3.大數(shù)據(jù)如何工作?大數(shù)據(jù)背后的主要思想是:對某一事情了解得越多就越能獲得洞察力,更能做出決定或找到解決方案。在大多數(shù)情況下,此過程是完全自動化的。但要在分析工具、機器學(xué)習(xí)甚至人工智能的幫助下實現(xiàn)這一目標(biāo),需要了解大數(shù)據(jù)的工作原理并正確設(shè)置一切。處理大量數(shù)據(jù)需要一個真正穩(wěn)定且結(jié)構(gòu)良好的基礎(chǔ)架構(gòu)。它將快速處理海量和不同類型的數(shù)據(jù),這可能會使單個服務(wù)器或群集過載。這就是為什么需要在大數(shù)據(jù)背后擁有一個經(jīng)過深思熟慮的系統(tǒng)。應(yīng)該根據(jù)系統(tǒng)容量考慮所有過程。對于大型公司來說,這可能需要成百上千的服務(wù)器。你可以想象,這可能要花費大量的資金。當(dāng)你添加所需的所有工具時,費用就多了。因此,你需要了解大數(shù)據(jù)三個主要操作,以便可以事先計劃預(yù)算,并構(gòu)建最佳的系統(tǒng)。

參考譯文3.1整合大數(shù)據(jù)總是從許多來源收集的,因此需要找到處理巨量信息的新策略和技術(shù)。在某些情況下,我們正在談?wù)摿魅肽阆到y(tǒng)的PB級信息,因此將如此大量的信息集成到你的系統(tǒng)中將是一個挑戰(zhàn)。你必須按照業(yè)務(wù)需要和客戶可以理解的正確格式來接收、處理和格式化數(shù)據(jù)。3.2管理如此大量的信息,還需要什么?需要一個存放它的地方??梢源鎯υ谠浦小⒈镜鼗蛲瑫r在兩者中。還可以選擇以什么形式存儲數(shù)據(jù),以便可以按需實時提供數(shù)據(jù)。這就是越來越多的人選擇云存儲解決方案的原因,因為它支持當(dāng)前的計算要求。3.3分析好的,你已經(jīng)接收并存儲了數(shù)據(jù),但是需要對其進(jìn)行分析以便使用。探索你的數(shù)據(jù)并使用它來做出任何重要的決定,例如了解客戶主要研究了哪些功能,或使用它來共享研究。使用它來做你想做的和需要的一切。參考譯文4.大數(shù)據(jù)的優(yōu)勢4.1改善業(yè)務(wù)流程大數(shù)據(jù)的最大優(yōu)勢可能是它可以幫助企業(yè)獲得巨大的競爭優(yōu)勢。除了能夠更好地了解和定位目標(biāo)客戶之外,分析大數(shù)據(jù)還可以改善和優(yōu)化業(yè)務(wù)運營的某些方面,例如通過挖掘大數(shù)據(jù),零售商不僅可以探索消費和生產(chǎn)方式,還可以促進(jìn)庫存管理、改善供應(yīng)鏈、優(yōu)化分銷渠道等。4.2檢測欺詐使用大數(shù)據(jù)的這個優(yōu)勢來自實施機器學(xué)習(xí)技術(shù)。它可以幫助銀行和其他金融機構(gòu)經(jīng)常在持卡人都不知道的情況下,檢測出像用信用卡欺詐購買等欺詐行為。4.3改善客戶服務(wù)大數(shù)據(jù)分析程序中最常見的目標(biāo)之一就是改善客戶服務(wù)。當(dāng)今的企業(yè)從不同的來源(例如客戶關(guān)系管理(CRM)系統(tǒng)、社交媒體以及其他客戶聯(lián)系點)捕獲大量信息。通過分析大量信息,他們可以了解用戶的口味和喜好。在大數(shù)據(jù)技術(shù)的幫助下,他們能夠創(chuàng)造比以往任何時候都更加響應(yīng)靈敏、個性化和準(zhǔn)確的客戶體驗。參考譯文參考譯文5.大數(shù)據(jù)的缺點盡管大數(shù)據(jù)有很多優(yōu)勢,但它仍然面臨一些嚴(yán)峻的挑戰(zhàn),這些挑戰(zhàn)使其實施變得困難或冒險。5.1隱私和安全問題大數(shù)據(jù)的最大缺點可能是它會使企業(yè)成為網(wǎng)絡(luò)攻擊者的軟目標(biāo)。甚至大型企業(yè)也經(jīng)歷過大規(guī)模數(shù)據(jù)泄露的事件。但是,隨著GDPR的實施,企業(yè)越來越多地嘗試在流程、協(xié)議和基礎(chǔ)架構(gòu)上進(jìn)行投資,以能夠維護(hù)大數(shù)據(jù)。5.2對技術(shù)專業(yè)知識的需求處理大數(shù)據(jù)需要大量的技術(shù)能力,這是大數(shù)據(jù)專家和數(shù)據(jù)科學(xué)家成為IT領(lǐng)域收入豐厚且令人垂涎的團(tuán)隊的主要原因之一。培訓(xùn)員工或雇用專家來處理大數(shù)據(jù)可能會輕易地顯著增加企業(yè)成本。6.大數(shù)據(jù)未來的發(fā)展方向在哪?大數(shù)據(jù)已經(jīng)在許多領(lǐng)域改變了游戲規(guī)則,而且無疑將繼續(xù)增長。一旦我們周圍的一切都開始使用互聯(lián)網(wǎng)(物聯(lián)網(wǎng)),那么使用大數(shù)據(jù)的可能性將是巨大的。我們可得到的數(shù)據(jù)量只會增加,而分析技術(shù)將變得更加先進(jìn)。用于大數(shù)據(jù)的所有工具也將不斷發(fā)展。基礎(chǔ)架構(gòu)要求也將發(fā)生變化。也許將來我們將能夠?qū)⑺璧乃袛?shù)據(jù)存儲在一臺機器上。這可能會使一切變得更便宜和更容易使用。

參考譯文更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!ApplicationsofBigData

Unit

1Text

BContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsPhrasesListeningtoTextA大數(shù)據(jù)的應(yīng)用在當(dāng)今世界上,有很多數(shù)據(jù)。大公司利用這些數(shù)據(jù)促進(jìn)業(yè)務(wù)增長。通過分析這些數(shù)據(jù),他們可以在各種情況下做出明智的決策。1.跟蹤客戶的消費習(xí)慣和購物行為在像亞馬遜、沃爾瑪及BigBazar等大型零售商店中,管理團(tuán)隊必須保存客戶消費習(xí)慣(客戶消費哪種產(chǎn)品、他希望消費的價值范圍及消費頻率)、購物行為、最喜歡的產(chǎn)品以及最頻繁搜索/銷售的產(chǎn)品。根據(jù)該數(shù)據(jù),他們可以修訂該產(chǎn)品的生產(chǎn)率/賬款回收率。銀行部門使用與其客戶的消費行為相關(guān)的數(shù)據(jù),能夠向特定客戶提供他喜歡的產(chǎn)品報價,客戶可以使用帶有折扣或現(xiàn)金返還的銀行信用卡或借記卡購買。這樣,他們可以在合適的時間向適當(dāng)?shù)娜税l(fā)送正確的報價。參考譯文2.推薦通過跟蹤客戶的消費習(xí)慣及購物行為,大型零售商店向客戶提供建議。像亞馬遜、沃爾瑪及Flipkart等這樣的電子商務(wù)網(wǎng)站會推薦產(chǎn)品。他們跟蹤客戶正在搜索的產(chǎn)品,并根據(jù)這些數(shù)據(jù)向該客戶推薦該類型的產(chǎn)品。假設(shè)有一位顧客在亞馬遜上搜索了床罩。亞馬遜得到的數(shù)據(jù)表明,該客戶可能有興趣購買床罩。下次當(dāng)該客戶訪問任何Google頁面時,將看到各種床罩的廣告。這樣適當(dāng)?shù)漠a(chǎn)品的廣告就發(fā)送給了合適的顧客。YouTube還根據(jù)用戶以前喜歡或觀看的視頻來推薦視頻。根據(jù)用戶正在觀看的視頻內(nèi)容,在視頻播放過程中會顯示相關(guān)的廣告。例如,當(dāng)某人觀看大數(shù)據(jù)課程的視頻時,在該視頻播放期間將顯示一些其他大數(shù)據(jù)課程的廣告。參考譯文參考譯文3.智能交通系統(tǒng)有關(guān)不同道路交通狀況的數(shù)據(jù)、通過道路旁的攝像頭收集的數(shù)據(jù)、城市出入口處的數(shù)據(jù),以及放置在車輛中的GPS設(shè)備(Ola,Uber出租車等)的數(shù)據(jù)。如果對所有這些數(shù)據(jù)進(jìn)行分析,就能給人們提供無阻塞或較少阻塞的交通方式,從而節(jié)省時間。通過大數(shù)據(jù)分析,可以在城市中建立智能交通系統(tǒng)。另一個好處是可以減少燃油消耗。4.安全的空中交通系統(tǒng)傳感器存在于飛機的各個位置(例如螺旋槳等)。這些傳感器捕獲數(shù)據(jù),例如飛行速度、濕度、溫度及其他環(huán)境條件?;趯Υ祟悢?shù)據(jù)的分析,建立并改變飛行中的環(huán)境參數(shù)。通過分析飛行器的機器生成的數(shù)據(jù),可以估算飛機再無誤運行多長時間,就需要更換/維修。5.自動駕駛汽車大數(shù)據(jù)分析有助于駕駛汽車而無需人工解釋。在汽車攝像頭的各個位置,都放置了一個傳感器。它收集諸如周圍汽車的大小、障礙物、與他們之間的距離等數(shù)據(jù)。如果對這些數(shù)據(jù)進(jìn)行分析,就能進(jìn)行各種計算(例如旋轉(zhuǎn)多少角度、應(yīng)該多少速度、何時停止等)。這些計算有助于自動采取措施。6.虛擬個人助理工具大數(shù)據(jù)分析可幫助虛擬個人助理工具(例如AppleDevice中的Siri、Windows中的Cortana、Android中的GoogleAssistant)為用戶提出的各種問題提供答案。這個虛擬的個人助理工具可以跟蹤用戶的位置、他們的本地時間、季節(jié)、與所問問題相關(guān)的其他數(shù)據(jù)等。通過分析所有此類數(shù)據(jù),它可以提供答案。例如,一個用戶問“我需要帶雨傘嗎?”,該工具收集用戶位置、季節(jié)和該位置的天氣狀況等數(shù)據(jù),然后分析這些數(shù)據(jù)以得出是否有會下雨,最后提供答案。

參考譯文7.物聯(lián)網(wǎng)制造公司將物聯(lián)網(wǎng)傳感器安裝到機器中以收集運行數(shù)據(jù)。通過分析這些數(shù)據(jù),公司可以預(yù)測機器可以正常工作多長時間、何時需要維修,以便公司可以在機器面臨很多問題或完全癱瘓之前采取行動。這樣可以節(jié)省更換整個機器的成本。在醫(yī)療保健領(lǐng)域,大數(shù)據(jù)正在發(fā)揮重要作用。放置在患者附近的物聯(lián)網(wǎng)傳感器可不斷跟蹤病人的各種健康狀況(例如心跳速率、血壓等)。只要任何參數(shù)超過安全極限,就會向醫(yī)生發(fā)送警報,這樣他們可以很快遠(yuǎn)程采取措施。8.教育領(lǐng)域在線教育課程組織機構(gòu)利用大數(shù)據(jù)來搜索對該課程感興趣的人員。如果有人搜索有關(guān)某個主題的YouTube教程視頻,則有關(guān)該主題的在線或離線課程提供商將在線向該人發(fā)送有關(guān)其課程的廣告。參考譯文9.能源領(lǐng)域智能電表每15分鐘讀取一次用電量,并將讀取的數(shù)據(jù)發(fā)送到服務(wù)器,服務(wù)器對數(shù)據(jù)進(jìn)行分析,然后可以估算出一天中整個城市的用電負(fù)荷較少的時間。該系統(tǒng)建議制造廠或管家在夜間使用重型機器,這時電力負(fù)荷較小,他們要交的電費也少。10.媒體和娛樂領(lǐng)域Netflix、AmazonPrime、Spotify等媒體和娛樂服務(wù)提供公司會對從其用戶那里收集的數(shù)據(jù)進(jìn)行分析。他們收集并分析用戶觀看的視頻類型、最常聽的音樂、用戶在網(wǎng)站上花費的時間等數(shù)據(jù),以設(shè)置下一個業(yè)務(wù)策略。參考譯文更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!StructuredData,UnstructuredDataandSemi-structuredData

Unit

2TextAContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)1.結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是符合數(shù)據(jù)模型、具有定義明確的結(jié)構(gòu)、遵循一致順序并且可以由人或計算機程序輕松訪問和使用的數(shù)據(jù)。它通常存儲在定義明確的架構(gòu)(例如數(shù)據(jù)庫)中。它通常是表格形式,具有明確定義其屬性的列和行。SQL通常用于管理存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)。1.1結(jié)構(gòu)化數(shù)據(jù)的特征?數(shù)據(jù)符合數(shù)據(jù)模型,并具有易于識別的結(jié)構(gòu)。?數(shù)據(jù)以行和列的形式存儲。?數(shù)據(jù)井井有條,因此具有明確的定義、格式和含義。?數(shù)據(jù)位于記錄或文件的固定字段中。?將相似的實體組合在一起以形成關(guān)系或類。?同一組中的實體具有相同的屬性。?數(shù)據(jù)易于訪問和查詢,因此其他程序可以輕松使用。參考譯文1.2結(jié)構(gòu)化數(shù)據(jù)的來源?SQL數(shù)據(jù)庫?電子表格,例如Excel?OLTP系統(tǒng)?在線表格?傳感器,例如GPS或RFID標(biāo)簽?網(wǎng)絡(luò)和Web服務(wù)器日志?醫(yī)療設(shè)備1.3結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢?結(jié)構(gòu)化數(shù)據(jù)具有定義明確的結(jié)構(gòu),有助于輕松存儲和訪問數(shù)據(jù)。?可以基于文本字符串和屬性為數(shù)據(jù)建立索引。這使搜索操作變得輕松自如。?數(shù)據(jù)挖掘很容易,即可以輕松地從數(shù)據(jù)中提取知識。?由于具有結(jié)構(gòu)良好的數(shù)據(jù)形式,因此更新和刪除等操作很容易。?可以輕松進(jìn)行諸如數(shù)據(jù)倉庫之類的商業(yè)智能操作。?如果數(shù)據(jù)有增加,則可以輕松擴展。?很容易確保數(shù)據(jù)的安全性。注意:結(jié)構(gòu)化數(shù)據(jù)僅占數(shù)據(jù)的20%,但其高度的組織性和性能使其成為大數(shù)據(jù)的基礎(chǔ)。參考譯文參考譯文2.非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是不符合數(shù)據(jù)模型并且沒有易于識別的結(jié)構(gòu)的數(shù)據(jù),因此不易被計算機程序所使用。非結(jié)構(gòu)化數(shù)據(jù)不是以預(yù)定義的方式組織的,也不具有預(yù)定義的數(shù)據(jù)模型,因此它不適用于主流的關(guān)系數(shù)據(jù)庫。2.1非結(jié)構(gòu)化數(shù)據(jù)的特征?數(shù)據(jù)既不符合數(shù)據(jù)模型也不具有任何結(jié)構(gòu)。?數(shù)據(jù)不能以行和列的形式存儲。?數(shù)據(jù)不遵循任何語義或規(guī)則。?數(shù)據(jù)缺少任何特定的格式或序列。?數(shù)據(jù)沒有易于識別的結(jié)構(gòu)。?由于缺乏可識別的結(jié)構(gòu),不易被計算機程序使用。2.2非結(jié)構(gòu)化數(shù)據(jù)的來源?網(wǎng)頁?圖像(JPEG、GIF、PNG等)?視頻?備忘?報告?Word文檔和PowerPoint演示文件?調(diào)查2.3非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢?它支持缺少正確格式或序列的數(shù)據(jù)。?數(shù)據(jù)不受固定模式的約束。?由于沒有模式,因此非常靈活。?數(shù)據(jù)是可移植的。?它具有很好的可擴展性。?它可以輕松處理數(shù)據(jù)源的異構(gòu)性。?它可以應(yīng)用于具有各種商業(yè)智能和分析。2.4非結(jié)構(gòu)化數(shù)據(jù)的缺點?由于缺乏模式和結(jié)構(gòu),非結(jié)構(gòu)化數(shù)據(jù)很難存儲和管理。?索引數(shù)據(jù)很困難,并且由于結(jié)構(gòu)不清晰且沒有預(yù)定義的屬性而導(dǎo)致錯誤,因此搜索結(jié)果不太準(zhǔn)確。?確保數(shù)據(jù)的安全性是一項艱巨的任務(wù)。

參考譯文2.5存儲非結(jié)構(gòu)化數(shù)據(jù)時面臨的問題?需要大量存儲空間來存儲非結(jié)構(gòu)化數(shù)據(jù)。?很難存儲視頻、圖像、音頻等。?由于結(jié)構(gòu)不清楚,因此更新、刪除和搜索等操作非常困難。?與結(jié)構(gòu)化數(shù)據(jù)相比,存儲成本很高。?索引非結(jié)構(gòu)化數(shù)據(jù)很困難。2.6用于存儲非結(jié)構(gòu)化數(shù)據(jù)的可能解決方案?非結(jié)構(gòu)化數(shù)據(jù)可以轉(zhuǎn)換為易于管理的格式。?使用內(nèi)容可尋址存儲系統(tǒng)存儲非結(jié)構(gòu)化數(shù)據(jù)。?根據(jù)其元數(shù)據(jù)存儲數(shù)據(jù),并且為存儲在其中的每個對象分配唯一的名稱。根據(jù)內(nèi)容而不是其位置檢索對象。?非結(jié)構(gòu)化數(shù)據(jù)可以XML格式存儲。?非結(jié)構(gòu)化數(shù)據(jù)可以存儲在支持BLOB的RDBMS中。參考譯文2.7從非結(jié)構(gòu)化數(shù)據(jù)中提取信息非結(jié)構(gòu)化數(shù)據(jù)沒有任何結(jié)構(gòu)。因此,傳統(tǒng)算法不能輕易解釋它。標(biāo)記和索引非結(jié)構(gòu)化數(shù)據(jù)也很困難。因此,從中提取信息是一項艱巨的工作。這里是一些可能的解決方案。?分類法或數(shù)據(jù)分類有助于按層次結(jié)構(gòu)組織數(shù)據(jù),這將使搜索過程變得容易。?數(shù)據(jù)可以存儲在虛擬存儲庫中并被自動標(biāo)記。?使用XOLAP之類的應(yīng)用程序平臺。XOLAP幫助從電子郵件和基于XML的文檔中提取信息。?使用各種數(shù)據(jù)挖掘工具。參考譯文參考譯文3.半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是不符合數(shù)據(jù)模型但具有某種結(jié)構(gòu)的數(shù)據(jù)。它缺乏固定或嚴(yán)格的模式。數(shù)據(jù)不是駐留在合理數(shù)據(jù)庫中,但具有一些使其更易于分析的組織屬性。通過一些方法,我們可以將它們存儲在關(guān)系數(shù)據(jù)庫中。3.1半結(jié)構(gòu)化數(shù)據(jù)的特征?數(shù)據(jù)不符合數(shù)據(jù)模型,但具有某種結(jié)構(gòu)。?不能以行和列的形式存儲數(shù)據(jù)。?半結(jié)構(gòu)化數(shù)據(jù)包含標(biāo)簽和元素(元數(shù)據(jù)),這些標(biāo)簽和元素可用來對數(shù)據(jù)進(jìn)行分組并描述數(shù)據(jù)的存儲方式。?將相似的實體組合在一起并按層次結(jié)構(gòu)進(jìn)行組織。?同一組中的實體可能有也可能沒有相同的屬性。?它沒有足夠的元數(shù)據(jù),這使得數(shù)據(jù)的自動化和管理變得困難。?屬性相同的一組數(shù)據(jù)其大小和類型可能不同。?由于缺乏明確定義的結(jié)構(gòu),無法容易地被計算機程序使用。3.2半結(jié)構(gòu)化數(shù)據(jù)的來源?電子郵件?XML和其他標(biāo)記語言?二進(jìn)制可執(zhí)行文件?TCP/IP數(shù)據(jù)包?壓縮文件?來自不同來源的整合數(shù)據(jù)?網(wǎng)頁3.3半結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢?數(shù)據(jù)不受固定模式的約束。?靈活,即可以輕松更改架構(gòu)。?數(shù)據(jù)是可移植的。?可以將結(jié)構(gòu)化數(shù)據(jù)視為半結(jié)構(gòu)化數(shù)據(jù)。?它為無法用SQL表達(dá)需求的用戶提供支持。?它可以輕松處理數(shù)據(jù)源的異構(gòu)性。

參考譯文3.4半結(jié)構(gòu)化數(shù)據(jù)的缺點?缺乏固定的和嚴(yán)格的架構(gòu),因此存儲數(shù)據(jù)困難。?因為架構(gòu)和數(shù)據(jù)沒有分離,很難解釋數(shù)據(jù)之間的關(guān)系。?與結(jié)構(gòu)化數(shù)據(jù)相比,查詢效率較低。3.5存儲半結(jié)構(gòu)化數(shù)據(jù)時面臨的問題?數(shù)據(jù)通常具有不規(guī)則的部分結(jié)構(gòu)。一些源具有隱式的數(shù)據(jù)結(jié)構(gòu),這使解釋數(shù)據(jù)之間的關(guān)系很困難。?模式和數(shù)據(jù)通常緊密耦合,即它們不僅鏈接在一起,而且彼此依賴。同一查詢可能會同時更新架構(gòu)和數(shù)據(jù),而架構(gòu)會經(jīng)常更新。?模式和數(shù)據(jù)之間的區(qū)別非常不確定或不清楚。這使數(shù)據(jù)結(jié)構(gòu)的設(shè)計復(fù)雜化。?與結(jié)構(gòu)化數(shù)據(jù)相比,存儲成本很高。參考譯文參考譯文3.6存儲半結(jié)構(gòu)化數(shù)據(jù)的可能解決方案?數(shù)據(jù)可以存儲在專門為存儲半結(jié)構(gòu)化數(shù)據(jù)而設(shè)計的DBMS中。?XML被廣泛用于存儲和交換半結(jié)構(gòu)化數(shù)據(jù)。它允許用戶定義標(biāo)簽和屬性,以分層形式存儲數(shù)據(jù)。模式和數(shù)據(jù)在XML中并沒有緊密耦合。?對象交換模型(OEM)可用于存儲和交換半結(jié)構(gòu)化數(shù)據(jù)。OEM以圖形形式構(gòu)造數(shù)據(jù)。?通過將數(shù)據(jù)映射到關(guān)系模式,然后將其映射到表,可以使用RDBMS來存儲數(shù)據(jù)。3.7從半結(jié)構(gòu)化數(shù)據(jù)中提取信息由于數(shù)據(jù)源的異構(gòu)性,半結(jié)構(gòu)化數(shù)據(jù)具有不同的結(jié)構(gòu)。有時它根本不包含任何結(jié)構(gòu)。這使標(biāo)記和索引數(shù)據(jù)很困難。因此,從中提取信息是一項艱巨的工作。這里是一些可能的解決方案。?基于圖形模型(例如OEM)可用于索引半結(jié)構(gòu)化數(shù)據(jù)。?OEM中的數(shù)據(jù)建模技術(shù)允許將數(shù)據(jù)存儲在基于圖形模型中。基于圖形模型中的數(shù)據(jù)更易于搜索和索引。?XML允許按層次結(jié)構(gòu)排列數(shù)據(jù),從而可以對數(shù)據(jù)進(jìn)行索引和搜索。?使用各種數(shù)據(jù)挖掘工具。

參考譯文更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!DataModeling

Unit

2TextBContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA數(shù)據(jù)建模數(shù)據(jù)建模是將復(fù)雜的軟件系統(tǒng)設(shè)計記錄為易于理解的圖的過程,該圖使用文本和符號來表示數(shù)據(jù)需求流動的方式。該圖可用于確保有效利用數(shù)據(jù),作為構(gòu)建新軟件或重新設(shè)計舊版應(yīng)用程序的藍(lán)圖。數(shù)據(jù)建模是數(shù)據(jù)科學(xué)家或其他參與數(shù)據(jù)分析的人員的一項重要技能。傳統(tǒng)上,數(shù)據(jù)模型在項目的分析和設(shè)計階段建立,以確保充分理解新應(yīng)用程序的需求。數(shù)據(jù)模型也可以在數(shù)據(jù)生命周期的稍后階段調(diào)用,以使程序員最初在臨時基礎(chǔ)上創(chuàng)建的數(shù)據(jù)設(shè)計更合理。1.數(shù)據(jù)建模方法數(shù)據(jù)建模可能是一個艱苦的前期過程,有時被視為與快速開發(fā)方法不符。隨著敏捷編程已被更廣泛用于加速開發(fā)項目,在某些情況下正在采用事后建模的數(shù)據(jù)建模方法。通常,數(shù)據(jù)模型可以看作是流程圖,它說明了數(shù)據(jù)之間的關(guān)系。它使利益相關(guān)者能夠在編寫任何編程代碼之前識別錯誤并進(jìn)行更改?;蛘?,可以將模型作為逆向工程工作的一部分引入,以從現(xiàn)有系統(tǒng)中提取模型,如NoSQL數(shù)據(jù)所示。參考譯文數(shù)據(jù)建模人員經(jīng)常使用多個模型來查看相同的數(shù)據(jù),并確保已識別所有流程、實體、關(guān)系和數(shù)據(jù)流。他們通過收集業(yè)務(wù)利益相關(guān)者的需求來啟動新項目。數(shù)據(jù)建模階段大致分成創(chuàng)建多種邏輯數(shù)據(jù)模型,這些邏輯數(shù)據(jù)模型顯示特定的屬性、實體以及實體與物理數(shù)據(jù)模型之間的關(guān)系。邏輯數(shù)據(jù)模型用作創(chuàng)建物理數(shù)據(jù)模型的基礎(chǔ),該物理數(shù)據(jù)模型針對要實現(xiàn)的應(yīng)用程序和數(shù)據(jù)庫。數(shù)據(jù)模型可以成為構(gòu)建更詳細(xì)的數(shù)據(jù)架構(gòu)的基礎(chǔ)。2.分層數(shù)據(jù)建模隨著數(shù)據(jù)庫管理系統(tǒng)(DBMS)的使用興起,數(shù)據(jù)建模作為一門學(xué)科于1960年代開始出現(xiàn)。數(shù)據(jù)建模使組織能夠使數(shù)據(jù)處理具有一致性、可重復(fù)性和有序開發(fā)。應(yīng)用程序的最終用戶和程序員能夠?qū)?shù)據(jù)模型用作與數(shù)據(jù)設(shè)計人員進(jìn)行溝通的參考。參考譯文參考譯文以樹狀、一對多的方式排列數(shù)據(jù)的分層數(shù)據(jù)模型標(biāo)記了這些早期工作,并在許多流行的用例中取代了基于文件的系統(tǒng)。IBM的信息管理系統(tǒng)(IMS)是分層方法的主要示例,該方法在企業(yè)(尤其是銀行業(yè)務(wù))中得到了廣泛的應(yīng)用。盡管從1980年代開始,分層數(shù)據(jù)模型在很大程度上被關(guān)系數(shù)據(jù)模型所取代,但是分層方法在當(dāng)今的XML(可擴展標(biāo)記語言)和地理信息系統(tǒng)(GIS)中仍然很普遍。在DBMS的早期,網(wǎng)絡(luò)數(shù)據(jù)模型也應(yīng)運而生,它是一種為數(shù)據(jù)設(shè)計人員提供其系統(tǒng)的廣泛概念視圖的方法。這樣的例子之一是數(shù)據(jù)系統(tǒng)語言會議(CODASYL),該會議成立于1950年代后期,旨在指導(dǎo)可在各種類型的計算機上使用的標(biāo)準(zhǔn)編程語言的開發(fā)。3.關(guān)系數(shù)據(jù)建模盡管與基于文件的系統(tǒng)相比,它降低了程序的復(fù)雜性,但分層模型仍然需要詳細(xì)了解所采用的特定物理數(shù)據(jù)存儲。作為替代分層數(shù)據(jù)模型的提議,關(guān)系數(shù)據(jù)模型不需要開發(fā)人員定義數(shù)據(jù)路徑。關(guān)系數(shù)據(jù)建模最早是在1970年由IBM研究人員E.F.Codd撰寫的技術(shù)論文中描述的。Codd的關(guān)系模型為行業(yè)使用關(guān)系數(shù)據(jù)庫奠定了基礎(chǔ),與將數(shù)據(jù)隱式連接在一起的分層模型不同,它通過使用表將數(shù)據(jù)段顯式地連接在一起。關(guān)系數(shù)據(jù)模型一經(jīng)問世便與結(jié)構(gòu)化查詢語言(SQL)結(jié)合使用,并在企業(yè)計算中立足日益穩(wěn)固,成為處理數(shù)據(jù)的有效手段。4.實體關(guān)系模型關(guān)系數(shù)據(jù)建模在1970年代中期又向前邁出了一步,因為實體關(guān)系(ER)模型的使用變得越來越普遍。實體關(guān)系模型與關(guān)系數(shù)據(jù)模型緊密集成,使用圖表以圖形方式描述數(shù)據(jù)庫中的元素并簡化對基礎(chǔ)模型的理解。通過關(guān)系建模,可以確定數(shù)據(jù)類型,并且數(shù)據(jù)類型很少隨時間變化。實體包括屬性;例如,員工實體的屬性可以包括姓、名、受雇年限等。關(guān)系被可視化地映射,為將數(shù)據(jù)設(shè)計目標(biāo)傳達(dá)給數(shù)據(jù)開發(fā)和維護(hù)中的各個參與者提供了現(xiàn)成的手段。隨著時間的流逝,系統(tǒng)的數(shù)據(jù)架構(gòu)師都廣泛使用包括Idera的ER/Studio、ErwinDataModeler和SAPPowerDesigner在內(nèi)的建模工具。

參考譯文5.面向?qū)ο竽P碗S著1990年代面向?qū)ο缶幊痰陌l(fā)展,面向?qū)ο蟮慕W鳛樵O(shè)計系統(tǒng)的另一種方式受到了廣泛的關(guān)注。面向?qū)ο蟮姆椒m然與實體關(guān)系方法有些相似,但區(qū)別在于它們專注于現(xiàn)實世界實體的對象抽象。對象按類層次結(jié)構(gòu)分組,此類類層次結(jié)構(gòu)中的對象可以從父類繼承屬性和方法。由于具有這種繼承特性,在確保數(shù)據(jù)完整性和支持更復(fù)雜的數(shù)據(jù)關(guān)系方面,面向?qū)ο蟮臄?shù)據(jù)模型相對于實體關(guān)系建模具有一些優(yōu)勢。在1990年代還出現(xiàn)了專門針對數(shù)據(jù)倉庫需求的數(shù)據(jù)模型。值得注意的示例是雪花模式和星型維度模型。6.圖形數(shù)據(jù)模型層次圖和網(wǎng)絡(luò)數(shù)據(jù)建模的一個分支是屬性圖模型,它與圖數(shù)據(jù)庫一起已越來越多地用于描述數(shù)據(jù)集內(nèi)的復(fù)雜關(guān)系,尤其是在社交媒體、推薦器和欺詐檢測應(yīng)用程序中。設(shè)計人員使用圖數(shù)據(jù)模型將其系統(tǒng)描述為節(jié)點和關(guān)系的連接圖,這與他們對實體關(guān)系或?qū)ο髷?shù)據(jù)建模所做的工作很相似。圖形數(shù)據(jù)模型可用于文本分析,創(chuàng)建可揭示文檔內(nèi)數(shù)據(jù)點之間關(guān)系的模型。參考譯文更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!DataCollection

Unit

3TextAContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA數(shù)據(jù)收集1.如何收集數(shù)據(jù)1.1確定要收集的信息你需要做的第一件事是選擇要收集的詳細(xì)信息。你需要確定信息將涉及哪些主題、希望從誰那里收集信息以及需要多少數(shù)據(jù)。你的目標(biāo)——希望使用數(shù)據(jù)完成的目標(biāo)——將決定這些問題的答案。例如,你可能決定收集在你的網(wǎng)站上哪種類型的文章最受18至34歲訪問者歡迎的數(shù)據(jù)。你還可以收集上個月內(nèi)從你的公司購買了產(chǎn)品的訪問者平均年齡的信息。1.2設(shè)置數(shù)據(jù)收集時間表接下來,你可以開始制定如何收集數(shù)據(jù)的計劃。在計劃過程的早期階段,你應(yīng)該為數(shù)據(jù)收集建立時間表。你可能需要連續(xù)收集某些類型的數(shù)據(jù)。例如,當(dāng)涉及交易數(shù)據(jù)和網(wǎng)站訪問者數(shù)據(jù)時,可能希望建立一種長期跟蹤該數(shù)據(jù)的方法。但是,如果你要跟蹤特定商業(yè)活動的數(shù)據(jù),則會在定義的時間內(nèi)進(jìn)行跟蹤。在這些情況下,你應(yīng)制定數(shù)據(jù)收集開始和結(jié)束的時間表。參考譯文1.3確定你的數(shù)據(jù)收集方法在此步驟中,你將選擇構(gòu)成數(shù)據(jù)收集策略核心的數(shù)據(jù)收集方法。要選擇正確的收集方式,需要考慮要收集的信息類型、獲取信息的時間范圍以及確定其他方面。1.4收集數(shù)據(jù)最終確定計劃后,你可以實施數(shù)據(jù)收集策略并開始收集數(shù)據(jù)。你可以在DMP(數(shù)據(jù)管理平臺)中存儲和組織數(shù)據(jù)。確保遵守你的計劃并定期檢查其進(jìn)度。創(chuàng)建一個計劃,確定檢查數(shù)據(jù)收集進(jìn)展情況的時間,尤其是連續(xù)收集數(shù)據(jù)時,這可能會很有用。隨著條件的變化和獲得的新信息,你可能希望對計劃進(jìn)行更新。2.數(shù)據(jù)收集方式因此,你如何收集實現(xiàn)目標(biāo)所需的數(shù)據(jù)?有多種收集原始定量數(shù)據(jù)的方法。有些涉及直接向客戶詢問信息,有些涉及監(jiān)管你與客戶的互動,而其他涉及觀察客戶的行為。合適的方法取決于你的目標(biāo)和收集的數(shù)據(jù)類型。以下是當(dāng)今使用的一些最常見的數(shù)據(jù)收集類型。參考譯文參考譯文2.1調(diào)查調(diào)查是你可以直接請求客戶提供信息的一種方式。可以使用它們來收集定量或定性數(shù)據(jù),或兩者兼而有之。一項調(diào)查由受訪者僅用一個或兩個詞回答的查詢列表組成,通常會為參與者提供可供選擇的答案列表。你可以在線、通過電子郵件、通過電話或親臨現(xiàn)場進(jìn)行調(diào)查。一種最簡單的方法是在你的網(wǎng)站或第三方托管的網(wǎng)站上創(chuàng)建在線調(diào)查。然后,你可以在社交媒體上、通過電子郵件和網(wǎng)站上的彈出窗口共享該調(diào)查的鏈接。2.2在線跟蹤你公司的網(wǎng)站以及你的應(yīng)用程序(如果你有的話)都是收集客戶數(shù)據(jù)的絕佳工具。有人訪問你的網(wǎng)站時,他們會創(chuàng)建多達(dá)40個數(shù)據(jù)點。訪問此數(shù)據(jù),你可以查看有多少人訪問過你的網(wǎng)站、他們在網(wǎng)站上停留了多長時間、點擊了什么等等。你的網(wǎng)站托管提供商可能會收集此類信息,并且你也可以使用分析軟件。你還可以放置和讀取Cookie來幫助跟蹤用戶行為。Lotame可以幫助你完成此在線數(shù)據(jù)收集過程。2.3交易數(shù)據(jù)跟蹤無論你是在實體店、在線商店還是同時在線和在線銷售商品,交易數(shù)據(jù)都可以為你提供有關(guān)客戶和業(yè)務(wù)的寶貴見解。你可以將交易記錄存儲在客戶關(guān)系管理系統(tǒng)中。這些數(shù)據(jù)可能來自你的網(wǎng)上商店、與你簽約進(jìn)行電子商務(wù)的第三方或你的店內(nèi)銷售點系統(tǒng)。這些信息可以為你提供有關(guān)銷售多少產(chǎn)品、最受歡迎的產(chǎn)品類型、人們通常從你那里購買的頻率以及更多的見解。2.4在線營銷分析你還可以通過市場營銷活動收集有價值的數(shù)據(jù),無論是在搜索、網(wǎng)頁、電子郵件還是其他任何地方運行它們。你甚至可以從你運行的離線營銷活動中導(dǎo)入信息。你用來放置廣告的軟件可能會為你提供有關(guān)誰點擊了你的廣告、他們什么時間點擊的、他們使用什么設(shè)備等數(shù)據(jù)。LotameInsights還可以幫助你收集營銷活動的數(shù)據(jù)。例如,如果想通過詢問客戶了解你的品牌的方式來跟蹤離線廣告的效果,則可以將該數(shù)據(jù)導(dǎo)入DMP。

參考譯文2.5社交媒體監(jiān)控社交媒體是另一個極好的客戶數(shù)據(jù)來源。你可以瀏覽你的關(guān)注者列表,以了解誰關(guān)注你以及他們的共同特征,以加深你對目標(biāo)受眾的了解。還可以通過定期搜索品牌名稱、設(shè)置提醒或使用第三方社交媒體監(jiān)控軟件來監(jiān)控社交媒體上對你品牌的提及。許多社交媒體網(wǎng)站還為你提供有關(guān)帖子效果的分析。第三方工具也許能夠為你提供更深入的見解。2.6收集訂閱和注冊數(shù)據(jù)給客戶一些東西,讓他們提供自身的信息,可以幫助你收集有價值的客戶數(shù)據(jù)。你可以要求那些要注冊電子郵件列表、獎勵計劃或其他類似計劃的客戶或網(wǎng)站訪問者提供一些基本信息。這種方法的一個好處是,你獲得的潛在客戶很可能會轉(zhuǎn)化,因為他們已經(jīng)積極展示了對你品牌的興趣。創(chuàng)建用于收集此信息的表格時,必須在所需的數(shù)據(jù)量之間找到適當(dāng)?shù)钠胶狻K魅∵^多可能會阻止人們參與,而索取不足意味著你的數(shù)據(jù)將無法發(fā)揮應(yīng)有的作用。參考譯文2.7店內(nèi)流量監(jiān)控如果你有實體商店,還可以通過監(jiān)視那里的人流來收集見解。最簡單的方法是在門上設(shè)一個人流量計數(shù)器,以幫助你跟蹤一天中有多少人進(jìn)入你的商店。此數(shù)據(jù)將顯示你最忙的日子和時間。它還可以幫助你了解在特定時間吸引顧客到你商店的原因。你還可以安裝帶有運動傳感器的安全系統(tǒng),以幫助你跟蹤整個商店中客戶的移動方式。該傳感器可以為你提供商店里哪個部門最受歡迎的數(shù)據(jù)。參考譯文更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!CloudStorage

Unit

3TextBContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA云儲存1.什么是云存儲?云存儲允許你可以將數(shù)據(jù)和文件在異地保存,你可以通過公共互聯(lián)網(wǎng)或?qū)S玫乃接芯W(wǎng)絡(luò)連接進(jìn)行訪問。第三方云提供商負(fù)責(zé)把存儲在異地的數(shù)據(jù)傳輸給你。提供者負(fù)責(zé)托管、保護(hù)、管理和維護(hù)服務(wù)器及相關(guān)基礎(chǔ)結(jié)構(gòu),并確保你可以隨時訪問數(shù)據(jù)。云存儲提供了一種經(jīng)濟高效、可擴展的替代方案,可以將文件存儲在本地硬盤驅(qū)動器或者存儲在網(wǎng)絡(luò)上。計算機硬盤驅(qū)動器只能存儲有限數(shù)量的數(shù)據(jù)。當(dāng)用戶的存儲空間用完時,他們需要將文件傳輸?shù)酵獠看鎯υO(shè)備。傳統(tǒng)上,組織會建立和維護(hù)存儲區(qū)域網(wǎng)絡(luò)(SAN)來存檔數(shù)據(jù)和文件。SAN的維護(hù)成本很高,因為隨著存儲數(shù)據(jù)的增長,公司必須增加服務(wù)器和基礎(chǔ)架構(gòu)的投資來適應(yīng)不斷增長的需求。云存儲服務(wù)提供了彈性,這意味著你可以在數(shù)據(jù)量增加時擴展容量,或者在必要時降低容量。通過將數(shù)據(jù)存儲在云中,你的組織可以通過為存儲技術(shù)和容量即服務(wù)付費來節(jié)省資金,而不是投資建設(shè)和維護(hù)內(nèi)部存儲網(wǎng)絡(luò)。你只需為使用的容量付費。盡管隨著時間的流逝,成本可能會增加,以容納更大的數(shù)據(jù)量,但不必為預(yù)計增加的數(shù)據(jù)量超前投資。參考譯文2.云存儲如何運作?像本地存儲網(wǎng)絡(luò)一樣,云存儲使用服務(wù)器來保存數(shù)據(jù)。但是,數(shù)據(jù)將發(fā)送到異地服務(wù)器。你使用的大多數(shù)服務(wù)器是托管在物理服務(wù)器上的虛擬機。隨著存儲需求的增加,提供商將創(chuàng)建新的虛擬服務(wù)器來滿足需求。通常,你可以使用網(wǎng)絡(luò)門戶、網(wǎng)站或移動應(yīng)用程序通過互聯(lián)網(wǎng)或?qū)S盟接芯W(wǎng)連接到存儲云。你所連接的服務(wù)器會將你的數(shù)據(jù)轉(zhuǎn)發(fā)到位于一個或多個數(shù)據(jù)中心的服務(wù)器池中,具體取決于云提供商的運營規(guī)模。作為服務(wù)的一部分,提供商通常將相同的數(shù)據(jù)存儲在多臺計算機上以實現(xiàn)冗余。這樣,如果進(jìn)行維護(hù)或發(fā)生故障而關(guān)閉服務(wù)器時,你仍然可以訪問數(shù)據(jù)。云存儲可在私有云、公共云和混合云中使用。?公共云存儲:在這種模式下,你可以通過互聯(lián)網(wǎng)連接到由云提供商維護(hù)并由其他公司使用的存儲云。提供商通常提供幾乎可以從任何設(shè)備(包括智能手機和臺式機)訪問的服務(wù),并讓你根據(jù)需要進(jìn)行擴展和縮小。?私有云存儲:私有云存儲設(shè)置通常復(fù)制云模型,但它們駐留在你的網(wǎng)絡(luò)中,這樣就可以利用物理服務(wù)器創(chuàng)建虛擬服務(wù)器實例以增加容量。你可以選擇完全控制本地私有云,也可以聘用云存儲提供商來構(gòu)建可以通過私有連接訪問的專用私有云。由于處理和存儲的數(shù)據(jù)具有私有性,因此更喜歡私有云存儲的組織可能包括銀行或零售公司。參考譯文參考譯文?混合云存儲:此模型結(jié)合了私有云和公共云的元素,使組織可以選擇將哪些數(shù)據(jù)存儲在哪個云中。例如,對歸檔和復(fù)制有嚴(yán)格控制要求的數(shù)據(jù)通常更適合私有云環(huán)境,而敏感度較低的數(shù)據(jù)(例如不包含商業(yè)機密的電子郵件)可以存儲在公共云中。一些組織使用混合云,用公共云存儲來補充其內(nèi)部存儲網(wǎng)絡(luò)。3.云存儲的利弊與任何其他基于云的技術(shù)一樣,云存儲具有一些明顯的優(yōu)勢。但這也給公司帶來了一些擔(dān)憂,主要是在安全性和管理控制方面。云存儲的優(yōu)點包括:?異地管理:你的云提供商負(fù)責(zé)維護(hù)和保護(hù)存儲的數(shù)據(jù)。這使你的員工擺脫了與存儲相關(guān)的任務(wù),例如采購、安裝、管理和維護(hù)。因此,你的員工可以專注于其他優(yōu)先事項。?快速實施:使用云服務(wù)可加快設(shè)置和添加存儲功能的過程。借助云存儲,你可以根據(jù)所涉及的容量在幾小時或幾天內(nèi)配置服務(wù)并開始使用它。?經(jīng)濟高效:如上所述,你需要為使用的容量付費。這使你的組織可以將云存儲成本視為持續(xù)的運營支出,而不是將資本支出與相關(guān)的前期投資和稅費相關(guān)聯(lián)。?可擴展性:增長限制是本地存儲的最嚴(yán)重限制之一。借助云存儲,你可以根據(jù)需要進(jìn)行擴展。容量實際上是無限的。?業(yè)務(wù)連續(xù)性:遇到自然災(zāi)害或因為攻擊而不能訪問你的場所時,存儲在異地的數(shù)據(jù)可支持業(yè)務(wù)連續(xù)性。云存儲的缺點包括:?安全性:安全問題在基于云的服務(wù)中很常見。云存儲提供商嘗試使用最新的技術(shù)和實踐來保護(hù)其基礎(chǔ)架構(gòu),但是偶爾會發(fā)生違規(guī)行為,給用戶帶來不便。?管理控制:能夠查看、訪問和隨意移動數(shù)據(jù)是云資源的另一個常見問題。將維護(hù)和管理工作轉(zhuǎn)移給第三方可以帶來好處,但同時也可能限制你對數(shù)據(jù)的控制。?延遲:由于流量擁塞,尤其是在使用共享的公共互聯(lián)網(wǎng)連接時,往返云的數(shù)據(jù)傳輸可能會發(fā)生延遲。但是,公司可以通過增加連接帶寬來最大程度地減少延遲。?合規(guī)性:某些行業(yè)(例如醫(yī)療保健和金融業(yè))必須遵守嚴(yán)格的數(shù)據(jù)隱私和檔案法規(guī),這可能會阻止公司將云存儲用于某些類型的文件(例如醫(yī)療和投資記錄)。如果可以,請選擇支持符合你業(yè)務(wù)的各種行業(yè)法規(guī)的云存儲提供商。參考譯文4.安全性云存儲安全是一個嚴(yán)重的問題,當(dāng)你的組織處理諸如信用卡信息和病歷之類的敏感數(shù)據(jù)時尤其重要。你需要使用最新的方法來確保數(shù)據(jù)免受網(wǎng)絡(luò)威脅。你需要分層的安全解決方案,其中包括端點保護(hù)、內(nèi)容和電子郵件過濾以及威脅分析和定期更新和打補丁。你需要定義明確的訪問和身份驗證策略。大多數(shù)云存儲提供商都提供基準(zhǔn)安全措施,包括訪問控制、用戶身份驗證和數(shù)據(jù)加密。當(dāng)所涉及的數(shù)據(jù)涉及機密業(yè)務(wù)檔案、人員記錄和知識產(chǎn)權(quán)時,確保采取適當(dāng)措施尤其重要。符合法規(guī)要求的數(shù)據(jù)可能需要進(jìn)一步的保護(hù),因此你需要核實所選的提供商是否符合所有適用法規(guī)。每當(dāng)數(shù)據(jù)傳輸時,它都容易受到安全風(fēng)險的影響。你的責(zé)任是確保前往存儲云的數(shù)據(jù)是安全的。公司可以通過加密動態(tài)數(shù)據(jù)并使用專用的私有連接(而不是公共互聯(lián)網(wǎng))與云存儲提供商進(jìn)行連接,從而將風(fēng)險降到最低。參考譯文參考譯文5.備份數(shù)據(jù)備份與安全同等重要。企業(yè)需要備份其數(shù)據(jù),以便他們可以訪問文件和應(yīng)用程序的副本,并防止由于網(wǎng)絡(luò)攻擊、自然災(zāi)害或人為錯誤而導(dǎo)致數(shù)據(jù)丟失的情況下業(yè)務(wù)中斷。從早期的基于云的解決方案開始,基于云的數(shù)據(jù)備份和恢復(fù)服務(wù)就很受歡迎。就像云存儲本身一樣,你可以通過公共互聯(lián)網(wǎng)或?qū)S眠B接訪問該服務(wù)。云備份和恢復(fù)服務(wù)使組織免于定期復(fù)制關(guān)鍵業(yè)務(wù)數(shù)據(jù)以使其隨時可用的任務(wù),以防因自然災(zāi)害、網(wǎng)絡(luò)攻擊或意外用戶錯誤而導(dǎo)致數(shù)據(jù)丟失。云備份為企業(yè)提供與存儲相同的優(yōu)勢——經(jīng)濟高效、可擴展性和易于訪問。云備份最吸引人的特點之一就是自動化。由于某些用戶總是拖延或忘記這樣做,因此要求用戶不斷備份自己的數(shù)據(jù)會產(chǎn)生不同的結(jié)果。這造成了數(shù)據(jù)丟失的不可避免。使用自動備份,你可以決定備份數(shù)據(jù)的頻率,是每天、每小時或每當(dāng)將新數(shù)據(jù)引入網(wǎng)絡(luò)時備份。在云中異地備份數(shù)據(jù)具有一個額外的優(yōu)勢:距離。受自然災(zāi)害、攻擊或其他災(zāi)難襲擊的建筑物可能會丟失其內(nèi)部備份系統(tǒng),從而無法恢復(fù)丟失的數(shù)據(jù)。異地備份為此類事件提供了保障。更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!Database

Unit

4TextAContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA數(shù)據(jù)庫數(shù)據(jù)庫是結(jié)構(gòu)化信息或數(shù)據(jù)的有組織的集合,它通常以電子方式存儲在計算機系統(tǒng)中。數(shù)據(jù)庫通常由數(shù)據(jù)庫管理系統(tǒng)(DBMS)管理。數(shù)據(jù)和DBMS以及與之關(guān)聯(lián)的應(yīng)用程序一起被稱為數(shù)據(jù)庫系統(tǒng),經(jīng)常簡稱為數(shù)據(jù)庫。當(dāng)前,最常見的數(shù)據(jù)庫中的數(shù)據(jù)通常以行和列建模,以有效處理和查詢數(shù)據(jù)。然后可以輕松地訪問、管理、修改、更新、控制和組織數(shù)據(jù)。大多數(shù)數(shù)據(jù)庫使用結(jié)構(gòu)化查詢語言(SQL)來編寫和查詢數(shù)據(jù)。1.什么是結(jié)構(gòu)化查詢語言(SQL)?SQL(結(jié)構(gòu)化查詢語言)是一種專用的編程語言,已標(biāo)準(zhǔn)化,可用于管理關(guān)系數(shù)據(jù)庫和對數(shù)據(jù)執(zhí)行各種操作。SQL有多種用途,包括修改數(shù)據(jù)庫表和索引結(jié)構(gòu)。添加、更新和刪除數(shù)據(jù)行;從數(shù)據(jù)庫中檢索各種信息子集,以用于事務(wù)處理和分析應(yīng)用程序。有一些專門的查詢和操作,它們以命令的形式進(jìn)行操作,通常稱為SQL語句,例如選擇、添加、插入、更新、刪除、創(chuàng)建、更改和截斷。SQL還是一種特定區(qū)域的語言,用于對關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)中保存的數(shù)據(jù)進(jìn)行編程和設(shè)計。它在處理結(jié)構(gòu)化數(shù)據(jù)時特別有用,其中數(shù)據(jù)的不同實體/變量之間存在關(guān)系。參考譯文SQL來自基于關(guān)系代數(shù)和元組關(guān)系運算,SQL由多種類型的語句組成,通常稱為數(shù)據(jù)查詢語言(DQL)、數(shù)據(jù)定義語言(DDL)、數(shù)據(jù)控制語言(DCL)和數(shù)據(jù)操作語言(DML)。SQL的范圍包括數(shù)據(jù)查詢、數(shù)據(jù)操作(插入、更新和刪除)、數(shù)據(jù)定義(模式創(chuàng)建和修改)以及數(shù)據(jù)訪問控制。SQL也被描述為一種聲明性語言(4GL),因為它還包含過程元素。2.數(shù)據(jù)庫類型有許多不同類型的數(shù)據(jù)庫。對于特定組織哪種數(shù)據(jù)庫最好,這取決于組織打算如何使用數(shù)據(jù)。?關(guān)系數(shù)據(jù)庫。關(guān)系數(shù)據(jù)庫在上世紀(jì)八十年代占主導(dǎo)地位。關(guān)系數(shù)據(jù)庫中的項目被組織為一組具有列和行的表。關(guān)系數(shù)據(jù)庫技術(shù)提供了訪問結(jié)構(gòu)化信息最有效和最靈活的方法。?面向?qū)ο蟮臄?shù)據(jù)庫。像面向?qū)ο蟮木幊桃粯樱嫦驅(qū)ο蟮臄?shù)據(jù)庫中的信息以對象的形式表示。?分布式數(shù)據(jù)庫。分布式數(shù)據(jù)庫由位于不同站點中的兩個或多個文件組成。該數(shù)據(jù)庫可以存儲在位于相同物理位置的多臺計算機上,也可以分散存儲在不同的網(wǎng)絡(luò)上。參考譯文參考譯文?數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是數(shù)據(jù)的中央存儲庫,是專門為快速查詢和分析而設(shè)計的一種數(shù)據(jù)庫。?NoSQL數(shù)據(jù)庫。NoSQL或非關(guān)系數(shù)據(jù)庫允許存儲和處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)(與關(guān)系數(shù)據(jù)庫相反,關(guān)系數(shù)據(jù)庫定義了插入數(shù)據(jù)庫的所有數(shù)據(jù)的必須組成方式)。隨著網(wǎng)絡(luò)應(yīng)用程序越來越普遍和復(fù)雜,NoSQL數(shù)據(jù)庫越來越流行。?圖形數(shù)據(jù)庫。圖形數(shù)據(jù)庫根據(jù)實體以及實體之間的關(guān)系存儲數(shù)據(jù)。?OLTP數(shù)據(jù)庫。OLTP數(shù)據(jù)庫是一種快速的分析數(shù)據(jù)庫,設(shè)計用于由多個用戶執(zhí)行的大量事務(wù)。這些只是當(dāng)今使用的幾十種數(shù)據(jù)庫中的幾種。一些不太常見的數(shù)據(jù)庫則針對非常具體的科學(xué)、財務(wù)或其他功能進(jìn)行了定制。除了不同的數(shù)據(jù)庫類型之外,技術(shù)開發(fā)方法的變化以及諸如云和自動化之類的顯著進(jìn)步正在推動數(shù)據(jù)庫朝著全新的方向發(fā)展。一些最新的數(shù)據(jù)庫包括:?開源數(shù)據(jù)庫。開源數(shù)據(jù)庫系統(tǒng)是指其源代碼為開源的系統(tǒng),這樣的數(shù)據(jù)庫可以是SQL也可以是NoSQL數(shù)據(jù)庫。?云數(shù)據(jù)庫。云數(shù)據(jù)庫是結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的集合。它駐留于私有、公共或混合云計算平臺上。云數(shù)據(jù)庫模型有兩種類型:傳統(tǒng)模型和數(shù)據(jù)庫即服務(wù)(DBaaS)模型。使用DBaaS,管理任務(wù)和維護(hù)由服務(wù)提供商執(zhí)行。?多模型數(shù)據(jù)庫。多模型數(shù)據(jù)庫將不同類型的數(shù)據(jù)庫模型組合到單個集成的后端中。這意味著它們可以容納各種數(shù)據(jù)類型。?文檔/JSON數(shù)據(jù)庫。專為存儲、檢索和管理面向文檔的信息而設(shè)計,文檔數(shù)據(jù)庫是一種以JSON格式而不是行和列存儲數(shù)據(jù)的現(xiàn)代方法。?自動駕駛數(shù)據(jù)庫。自動駕駛數(shù)據(jù)庫(也稱為自治數(shù)據(jù)庫)是最新、最有突破性的數(shù)據(jù)庫類型,它基于云,并使用機器學(xué)習(xí)來自動執(zhí)行數(shù)據(jù)庫調(diào)整、安全性、備份、更新和其他傳統(tǒng)上由數(shù)據(jù)庫管理員執(zhí)行的日常管理任務(wù)。

參考譯文3.什么是數(shù)據(jù)庫管理系統(tǒng)?DBMS軟件的主要功能是充當(dāng)最終用戶和數(shù)據(jù)庫之間的接口,同時管理數(shù)據(jù)、數(shù)據(jù)庫引擎和數(shù)據(jù)庫模式,以幫助組織和管理數(shù)據(jù)。盡管DBMS的功能差異很大,但DBMS的通用功能應(yīng)包括:描述元數(shù)據(jù)的用戶可訪問目錄、DBMS庫管理系統(tǒng)、數(shù)據(jù)抽象和獨立性、數(shù)據(jù)安全性、活動的日志記錄和審計、支持并發(fā)和事務(wù)、支持訪問授權(quán)、支持遠(yuǎn)程訪問,數(shù)據(jù)損壞時支持DBMS恢復(fù)數(shù)據(jù)以及強制執(zhí)行約束以確保數(shù)據(jù)遵循某些規(guī)則。數(shù)據(jù)庫管理系統(tǒng)通過使用系統(tǒng)命令來運行,首先從DBMS中的數(shù)據(jù)庫管理員那里接收指令,然后相應(yīng)地指令系統(tǒng)從數(shù)據(jù)庫中檢索數(shù)據(jù)、修改數(shù)據(jù)或加載現(xiàn)有數(shù)據(jù)。流行的DBMS示例包括基于云的數(shù)據(jù)庫管理系統(tǒng)、內(nèi)存數(shù)據(jù)庫管理系統(tǒng)(IMDBMS)、列式數(shù)據(jù)庫管理系統(tǒng)(CDBMS)和DBMS中的NoSQL。參考譯文4.什么是MySQL數(shù)據(jù)庫?MySQL是基于SQL的開源關(guān)系數(shù)據(jù)庫管理系統(tǒng)。它曾經(jīng)是為網(wǎng)絡(luò)應(yīng)用程序而設(shè)計和優(yōu)化的,可以在任何平臺上運行。隨著互聯(lián)網(wǎng)出現(xiàn)了新的不同需求,MySQL成為網(wǎng)絡(luò)開發(fā)人員和基于網(wǎng)絡(luò)的應(yīng)用程序的首選平臺。由于MySQL是為處理數(shù)百萬查詢和數(shù)千事務(wù)而設(shè)計的,因此它是需要管理多個轉(zhuǎn)賬的電子商務(wù)企業(yè)的流行選擇。按需靈活性是MySQL的主要功能。參考譯文5.數(shù)據(jù)庫挑戰(zhàn)當(dāng)今的大型企業(yè)數(shù)據(jù)庫通常支持非常復(fù)雜的查詢,并且有望對這些查詢提供幾乎即時的響應(yīng)。結(jié)果,就不斷地要求數(shù)據(jù)庫管理員采用各種各樣的方法來幫助提高性能。他們面臨的一些常見挑戰(zhàn)包括:?吸收的數(shù)據(jù)量急劇增加。來自傳感器、連接的機器以及許多其他來源的數(shù)據(jù)激增,使數(shù)據(jù)庫管理員有效管理和組織公司的數(shù)據(jù)很困難。?確保數(shù)據(jù)安全。如今,數(shù)據(jù)泄露無處不在,黑客正變得越來越有創(chuàng)造力。確保數(shù)據(jù)安全并讓用戶輕松訪問比以往任何時候都更為重要。?跟上需求。在當(dāng)今瞬息萬變的業(yè)務(wù)環(huán)境中,公司需要實時訪問其數(shù)據(jù)以支持及時的決策并利用新的機會。?管理和維護(hù)數(shù)據(jù)庫和基礎(chǔ)架構(gòu)。數(shù)據(jù)庫管理員必須持續(xù)觀察數(shù)據(jù)庫、發(fā)現(xiàn)其中的問題并執(zhí)行預(yù)防性維護(hù),也要對應(yīng)用軟件升級和給程序打補丁。隨著數(shù)據(jù)庫變得越來越復(fù)雜且數(shù)據(jù)量不斷增長,公司面臨聘請更多人才來監(jiān)管和調(diào)整數(shù)據(jù)庫的開銷。?消除對擴展性的限制。企業(yè)要生存就必須發(fā)展,其數(shù)據(jù)管理也必須隨之發(fā)展。但是,數(shù)據(jù)庫管理員很難預(yù)測公司將需要多少容量,尤其是對于本地數(shù)據(jù)庫而言。解決所有這些挑戰(zhàn)可能很耗時,并且可能阻止數(shù)據(jù)庫管理員執(zhí)行更具戰(zhàn)略意義的任務(wù)。參考譯文更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!DataWarehouse

Unit

4TextBContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsPhrasesAbbreviationsListeningtoTextA數(shù)據(jù)倉庫1.什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫是一種系統(tǒng),它將不同來源的數(shù)據(jù)聚合到單一的、集中的、一致的數(shù)據(jù)存儲中,以支持業(yè)務(wù)分析、數(shù)據(jù)挖掘、人工智能(AI)和機器學(xué)習(xí)。數(shù)據(jù)倉庫使組織能夠以標(biāo)準(zhǔn)數(shù)據(jù)庫無法實現(xiàn)的方式對大量歷史數(shù)據(jù)(數(shù)拍字節(jié))運行強大的分析。數(shù)據(jù)倉庫成為商業(yè)智能(BI)解決方案的一部分,已經(jīng)有三十多年的歷史了,但是近年來有了巨大的發(fā)展。傳統(tǒng)上,數(shù)據(jù)倉庫部署在本地——通常在大型主機上,其功能主要集中在從其他來源提取數(shù)據(jù)、清理和準(zhǔn)備數(shù)據(jù)以及在關(guān)系存儲中加載和維護(hù)數(shù)據(jù)。最近,數(shù)據(jù)倉庫可能托管在專用設(shè)備上或云中,并且大多數(shù)數(shù)據(jù)倉庫都已經(jīng)添加了分析功能以及數(shù)據(jù)可視化和演示工具。2.數(shù)據(jù)倉庫的好處數(shù)據(jù)倉庫為以下各項提供了基礎(chǔ):?更一致、更高質(zhì)量的數(shù)據(jù):數(shù)據(jù)倉庫將來自多個不同來源的數(shù)據(jù)匯集在一起,然后對其進(jìn)行清理、消除重復(fù)并對其進(jìn)行標(biāo)準(zhǔn)化以創(chuàng)建單一可信數(shù)據(jù)源。參考譯文?更快、無限的洞察力:不同的數(shù)據(jù)源限制了可用于支持任何給定決策的數(shù)據(jù)。數(shù)據(jù)倉庫讓使用公司所有數(shù)據(jù)來支持每個決策變得更加容易。?尖端工具支持更明智的決策:數(shù)據(jù)倉庫支持大規(guī)模的商業(yè)智能功能,例如數(shù)據(jù)挖掘(發(fā)現(xiàn)數(shù)據(jù)中看不見的模式和關(guān)系)、人工智能和機器學(xué)習(xí)——數(shù)據(jù)專業(yè)人員和業(yè)務(wù)領(lǐng)導(dǎo)者可以使用的工具來獲得可靠的證據(jù)以做出更明智的決策,其范圍覆蓋從企業(yè)流程到財務(wù)管理和庫存管理的每個領(lǐng)域。?獲得并增強競爭優(yōu)勢:結(jié)合以上所有優(yōu)勢,可以幫助組織更快地從數(shù)據(jù)中找到更多的機會,優(yōu)于來自分散存儲的數(shù)據(jù)。參考譯文參考譯文3.數(shù)據(jù)倉庫結(jié)構(gòu)一般來說,數(shù)據(jù)倉庫具有三層結(jié)構(gòu):?提取層使用稱為ETL(提取、轉(zhuǎn)換和加載)的過程或稱為ELT(提取、加載和轉(zhuǎn)換)的過程來收集、清理和規(guī)范化/轉(zhuǎn)換來自多個源的數(shù)據(jù)。?數(shù)據(jù)存儲層通常是一個關(guān)系數(shù)據(jù)存儲庫,但是具有支持分析處理的模式。?分析層(或客戶層)可以包括從標(biāo)準(zhǔn)查詢工具到分析、數(shù)據(jù)挖掘、人工智能或機器學(xué)習(xí)功能以及演示可視化工具的所有內(nèi)容。ETL和ELT是從原始來源提取數(shù)據(jù)并將其集成到數(shù)據(jù)倉庫中的方法。兩者之間的區(qū)別在于數(shù)據(jù)轉(zhuǎn)換的位置。ETL從各種數(shù)據(jù)源系統(tǒng)中提取數(shù)據(jù),使用中間轉(zhuǎn)換引擎對其進(jìn)行轉(zhuǎn)換,然后將其加載到數(shù)據(jù)倉庫系統(tǒng)中。因為ETL在將數(shù)據(jù)寫入倉庫之前先進(jìn)行數(shù)據(jù)轉(zhuǎn)換,所以它是加載較小數(shù)據(jù)量和本地數(shù)據(jù)倉庫解決方案的更好選擇。ELT從一個或多個遠(yuǎn)程源提取數(shù)據(jù),然后將其加載到目標(biāo)數(shù)據(jù)倉庫中,而無需進(jìn)行任何格式轉(zhuǎn)換。ELT流程中的數(shù)據(jù)轉(zhuǎn)換發(fā)生在目標(biāo)數(shù)據(jù)庫中。因此,ELT可以更快地將數(shù)據(jù)移至倉庫,從而使其成為較大數(shù)據(jù)量或基于云的數(shù)據(jù)倉庫解決方案的更好選擇。此外,由于ELT不會轉(zhuǎn)換傳輸中的數(shù)據(jù),因此它是唯一適合加載數(shù)據(jù)湖的方法。4.數(shù)據(jù)倉庫與數(shù)據(jù)庫、數(shù)據(jù)湖和數(shù)據(jù)集市在數(shù)據(jù)倉庫、數(shù)據(jù)庫、數(shù)據(jù)湖和數(shù)據(jù)集市之間經(jīng)常會產(chǎn)生混淆。雖然術(shù)語相似,但存在重要區(qū)別。4.1數(shù)據(jù)倉庫與數(shù)據(jù)湖數(shù)據(jù)倉庫將來自多個源的數(shù)據(jù)收集到一個中央存儲庫中,該存儲庫使用為數(shù)據(jù)分析設(shè)計的預(yù)定義模式進(jìn)行了結(jié)構(gòu)化。數(shù)據(jù)湖基本上是沒有預(yù)定義模式的數(shù)據(jù)倉庫。因此,與數(shù)據(jù)倉庫相比,它支持更多類型的分析。數(shù)據(jù)湖通常建立在像ApacheHadoop這樣的大數(shù)據(jù)平臺之上。4.2數(shù)據(jù)倉庫與數(shù)據(jù)集市數(shù)據(jù)集市是數(shù)據(jù)倉庫的子集,其中包含針對特定業(yè)務(wù)線或部門的數(shù)據(jù)。因為它們包含較小的數(shù)據(jù)子集,所以數(shù)據(jù)集市使部門或業(yè)務(wù)線能夠比使用更廣泛的數(shù)據(jù)倉庫數(shù)據(jù)集時更快地發(fā)現(xiàn)更側(cè)重的見解。

參考譯文4.3數(shù)據(jù)倉庫與數(shù)據(jù)庫建立數(shù)據(jù)庫主要是為了快速查詢和事務(wù)處理,而不是分析。數(shù)據(jù)庫通常用作特定應(yīng)用程序的重點數(shù)據(jù)存儲,而數(shù)據(jù)倉庫則存儲組織中任意數(shù)量(甚至所有)應(yīng)用程序的數(shù)據(jù)。同樣重要的是:數(shù)據(jù)庫從單個(通常是當(dāng)前)時間點捕獲并存儲數(shù)據(jù),而數(shù)據(jù)倉庫包含預(yù)測分析、機器學(xué)習(xí)和其他高級分析所需的當(dāng)前和歷史數(shù)據(jù)。4.4云數(shù)據(jù)倉庫云數(shù)據(jù)倉庫是專門為在云中運行而構(gòu)建的數(shù)據(jù)倉庫,它作為托管服務(wù)提供給客戶。在過去的五到七年中,隨著越來越多的公司使用云服務(wù)并尋求減少其內(nèi)部數(shù)據(jù)中心的占用空間,基于云的數(shù)據(jù)倉庫變得越來越流行。使用云數(shù)據(jù)倉庫,物理數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)由云公司管理,這意味著客戶不必在硬件或軟件上進(jìn)行前期投資,也不必管理或維護(hù)數(shù)據(jù)倉庫解決方案。參考譯文參考譯文5.數(shù)據(jù)倉庫軟件(本地/許可證)企業(yè)可以購買數(shù)據(jù)倉庫許可證,然后在自己的本地基礎(chǔ)結(jié)構(gòu)上部署數(shù)據(jù)倉庫。盡管這通常比云數(shù)據(jù)倉庫服務(wù)貴,但對于希望對數(shù)據(jù)進(jìn)行更多控制或需要遵守嚴(yán)格的安全性或數(shù)據(jù)隱私標(biāo)準(zhǔn)或法規(guī)的政府實體、金融機構(gòu)或其他組織,這可能是一個更好的選擇。6.數(shù)據(jù)倉庫設(shè)備數(shù)據(jù)倉庫設(shè)備是硬件和軟件(CPU、存儲、操作系統(tǒng)和數(shù)據(jù)倉庫軟件)的預(yù)集成捆綁包,企業(yè)可以將其連接到其網(wǎng)絡(luò)并按原樣使用。就前期成本、部署速度、易擴展性和管理控制而言,數(shù)據(jù)倉庫設(shè)備介于云和本地實施之間。更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!ETL

Unit

5TextAContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA提取、轉(zhuǎn)換和加載1.什么是ETL?ETL是一個從不同源系統(tǒng)提取數(shù)據(jù),然后轉(zhuǎn)換數(shù)據(jù)(例如應(yīng)用計算、連接等),最后將數(shù)據(jù)加載到數(shù)據(jù)倉庫系統(tǒng)的過程。ETL的完整形式是提取、轉(zhuǎn)換和加載。你會認(rèn)為創(chuàng)建數(shù)據(jù)倉庫就只是從多個來源提取數(shù)據(jù)并將其加載到數(shù)據(jù)倉庫的數(shù)據(jù)庫中。這遠(yuǎn)非事實,它需要復(fù)雜的ETL過程。ETL流程需要包括開發(fā)人員、分析師、測試人員、高層管理人員在內(nèi)的各種利益相關(guān)者的積極投入,這在技術(shù)上具有挑戰(zhàn)性。為了保持其作為決策者工具的價值,數(shù)據(jù)倉庫系統(tǒng)需要隨業(yè)務(wù)變化而變化。ETL是數(shù)據(jù)倉庫系統(tǒng)的經(jīng)常性活動(每天、每周、每月),并且需要敏捷、自動并且文檔完備。2.為什么需要ETL?在組織中采用ETL的原因很多:?它可以幫助公司分析其業(yè)務(wù)數(shù)據(jù)以做出關(guān)鍵的業(yè)務(wù)決策。?它可以回答事務(wù)數(shù)據(jù)庫無法回答的復(fù)雜業(yè)務(wù)問題。參考譯文?它提供了一種將數(shù)據(jù)從各種來源移到數(shù)據(jù)倉庫中的方法。?設(shè)計良好且文檔完備的ETL系統(tǒng)對于數(shù)據(jù)倉庫項目的成功至關(guān)重要。?它允許驗證數(shù)據(jù)轉(zhuǎn)換、聚合和計算規(guī)則。?ETL過程允許在源系統(tǒng)和目標(biāo)系統(tǒng)之間進(jìn)行樣本數(shù)據(jù)比較。?ETL過程可能執(zhí)行復(fù)雜的轉(zhuǎn)換,并且需要額外的區(qū)域來存儲數(shù)據(jù)。?它有助于將數(shù)據(jù)遷移到數(shù)據(jù)倉庫中并將其轉(zhuǎn)換為各種格式和類型以保持系統(tǒng)的一致性。2.數(shù)據(jù)倉庫中的ETL過程步驟1.提取在此步驟中,從源系統(tǒng)提取數(shù)據(jù)并存儲到暫存區(qū)域中。(如果有的話)轉(zhuǎn)換在暫存區(qū)域中進(jìn)行,因此源系統(tǒng)的性能不會降低。此外,如果將損壞的數(shù)據(jù)直接從源復(fù)制到數(shù)據(jù)倉庫中,回滾將是一個挑戰(zhàn)。暫存區(qū)提供了在提取的數(shù)據(jù)移入數(shù)據(jù)倉庫之前對其進(jìn)行驗證的機會。參考譯文參考譯文數(shù)據(jù)倉庫需要集成具有不同DBMS、硬件、操作系統(tǒng)和通信協(xié)議的系統(tǒng)。數(shù)據(jù)來源可能包括傳統(tǒng)應(yīng)用程序(例如大型機)、定制應(yīng)用程序、接觸點設(shè)備(例如ATM)、呼叫交換、文本文件、電子表格、ERP以及來自供應(yīng)商及合作伙伴等的數(shù)據(jù)。因此,在物理上提取和加載數(shù)據(jù)之前,需要一個邏輯數(shù)據(jù)映射。該數(shù)據(jù)圖描述了源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的關(guān)系。共有三種數(shù)據(jù)提取方法:?全提取?部分提取——沒有更新通知?部分提取——有更新通知無論使用哪種方法,提取都不應(yīng)影響源系統(tǒng)的性能和響應(yīng)時間。這些源系統(tǒng)實時產(chǎn)生數(shù)據(jù)庫。任何放緩或鎖定都可能影響公司的最終盈利。在提取過程中會進(jìn)行一些驗證:?使記錄與源數(shù)據(jù)一致。?確保沒有垃圾郵件/不需要的數(shù)據(jù)被加載。?檢查數(shù)據(jù)類型。?刪除所有類型的重復(fù)數(shù)據(jù)。?檢查所有關(guān)鍵數(shù)據(jù)到位與否。步驟2.轉(zhuǎn)換從源服務(wù)器提取的數(shù)據(jù)是原始數(shù)據(jù),不能以其原始形式使用。因此,需要對其進(jìn)行清理、映射和轉(zhuǎn)換。實際上,這是ETL流程的關(guān)鍵步驟,它增加了數(shù)據(jù)的價值,而且改變數(shù)據(jù)可以生成具有洞察力的商務(wù)智能報告。在此步驟中,你對提取的數(shù)據(jù)進(jìn)行了一些處理。不需要任何轉(zhuǎn)換的數(shù)據(jù)稱為直接移動。在轉(zhuǎn)換步驟中,你可以對數(shù)據(jù)執(zhí)行定制的操作。例如,如果用戶想要銷售總額的收入,而該收入不在數(shù)據(jù)庫中。或者,如果表中的名字和姓氏在不同的列中??梢栽诩虞d之前將它們關(guān)聯(lián)起來。以下是數(shù)據(jù)完整性問題:?同一個人,名字Jon、John拼寫不同。?有多種表示公司名稱的方法,例如Google、GoogleInc.。?有不同的名稱,例如Cleaveland、Cleveland。?可能會有不同的應(yīng)用程序為同一位客戶生成不同的帳號的情況。?所需文件中的某些數(shù)據(jù)是空的。參考譯文驗證在此階段完成:?過濾——僅選擇某些列來加載。?使用規(guī)則和查找表進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。?字符集轉(zhuǎn)換和編碼處理。?度量單位的轉(zhuǎn)換,例如日期時間轉(zhuǎn)換、貨幣轉(zhuǎn)換、數(shù)字轉(zhuǎn)換等。?數(shù)據(jù)閾值驗證檢查。例如,年齡不能超過兩位數(shù)。?從暫存區(qū)域到中間表的數(shù)據(jù)流驗證。?必填字段不應(yīng)留為空白。?清理(例如,將NULL映射為0或?qū)ⅰ癎enderMale”映射為“M”,將“GenderMale”映射為“F”等)?將一列拆分為多列以及將多個列合并為一列。?轉(zhuǎn)置行和列?使用查找合并數(shù)據(jù)?使用任何復(fù)雜的數(shù)據(jù)驗證(例如,如果一行中的前兩列為空,那么自動拒絕對該行進(jìn)行處理)參考譯文步驟3.加載將數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉庫是ETL過程的最后一步。在典型的數(shù)據(jù)倉庫中,需要在相對較短的時間內(nèi)加載大量數(shù)據(jù)。因此,應(yīng)優(yōu)化加載過程。如果發(fā)生加載故障,應(yīng)將恢復(fù)機制配置為從故障點重新啟動而不會丟失數(shù)據(jù)完整性。數(shù)據(jù)倉庫管理員需要根據(jù)當(dāng)前服務(wù)器的性能來監(jiān)管、恢復(fù)或取消加載。加載類型:?初始加載——填充所有數(shù)據(jù)倉庫表。?增量加載——當(dāng)需要時定期進(jìn)行持續(xù)更改。?完全刷新——擦除一個或多個表的內(nèi)容并重新加載新數(shù)據(jù)。加載驗證:?確保關(guān)鍵字段數(shù)據(jù)不丟失也不為空。?根據(jù)目標(biāo)表測試建模視圖。?檢查組合值和計算結(jié)果。?檢查維度表和歷史記錄表中的數(shù)據(jù)。?檢查BI報告中已加載的事實和維度表。參考譯文參考譯文4.ETL工具市場上有許多可用的數(shù)據(jù)倉庫工具。此處羅列了其中一些最著名的。4.1MarkLogicMarkLogic是一種數(shù)據(jù)倉庫解決方案,可使用一系列企業(yè)功能使數(shù)據(jù)集成變得更加輕松快捷。它可以查詢不同類型的數(shù)據(jù),例如文檔、關(guān)系和元數(shù)據(jù)。4.2甲骨文甲骨文是行業(yè)領(lǐng)先的數(shù)據(jù)庫。它為本地和云提供了廣泛的數(shù)據(jù)倉庫解決方案。它通過提高運營效率來幫助優(yōu)化客戶體驗。4.3亞馬遜RedShift亞馬遜Redshift是數(shù)據(jù)倉庫工具。它是使用標(biāo)準(zhǔn)SQL和現(xiàn)有商務(wù)智能工具分析所有類型數(shù)據(jù),是簡單且經(jīng)濟高效的工具。它還允許對拍字節(jié)級結(jié)構(gòu)化數(shù)據(jù)運行復(fù)雜的查詢。5.ETL過程的最佳實踐5.1永遠(yuǎn)不要嘗試清理所有數(shù)據(jù)每個組織都希望所有數(shù)據(jù)都是干凈的,但是大多數(shù)組織不原意支付等待的費用或不想等待。清理全部數(shù)據(jù)將花費很長時間,因此最好不要嘗試清理所有數(shù)據(jù)。5.2計劃清理內(nèi)容始終制定清理內(nèi)容計劃,因為構(gòu)建數(shù)據(jù)倉庫的最大原因是提供更干凈、更可靠的數(shù)據(jù)。5.3確定清理數(shù)據(jù)的成本在清理所有臟數(shù)據(jù)之前,確定每個臟數(shù)據(jù)元素的清理成本非常重要。5.4將匯總數(shù)據(jù)存儲到磁盤磁帶中為了降低存儲成本,請將摘要數(shù)據(jù)存儲到磁盤磁帶中。而且,需要在要存儲的數(shù)據(jù)量及其詳細(xì)用法之間進(jìn)行權(quán)衡。在數(shù)據(jù)的粒度級別上進(jìn)行權(quán)衡以降低存儲成本。

參考譯文6.總結(jié)?ETL代表提取、轉(zhuǎn)換和加載。?ETL提供了一種將數(shù)據(jù)從各種來源移到數(shù)據(jù)倉庫中的方法。?在提取步驟中,將數(shù)據(jù)從源系統(tǒng)提取到暫存區(qū)中。?在轉(zhuǎn)換步驟中,將從源中提取的數(shù)據(jù)進(jìn)行清理和轉(zhuǎn)換。?將數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉庫是ETL過程的最后一步。參考譯文更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!BigDataAnalyticsToolsandTheirKeyFeatures

Unit

5TextBContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA大數(shù)據(jù)分析工具及其主要功能隨著大數(shù)據(jù)量的增加和云計算的巨大增長,尖端的大數(shù)據(jù)分析工具已成為實現(xiàn)有意義的數(shù)據(jù)分析的關(guān)鍵。在本文中,我們將討論頂級的大數(shù)據(jù)分析工具及其主要功能。1.ApacheStormApacheStorm是一個開源的免費大數(shù)據(jù)計算系統(tǒng)。它也是具有實時框架的Apache產(chǎn)品,用于支持任何編程語言的數(shù)據(jù)流處理。它提供一個具有實時計算功能的分布式實時、容錯處理系統(tǒng)。Storm調(diào)度程序通過參考拓?fù)渑渲脕砉芾砭哂卸鄠€節(jié)點的工作負(fù)載,并且可以與Hadoop分布式文件系統(tǒng)(HDFS)很好地配合使用。功能:?以每個節(jié)點每秒處理一百萬條100字節(jié)消息為基準(zhǔn)。?Storm確保數(shù)據(jù)單元至少被處理一次。?具有出色的水平可擴展性。?具有內(nèi)置的容錯功能。?崩潰時自動重新啟動。?它是用clojure語言編寫的。?它與有向無環(huán)圖(DAG)拓?fù)湟黄鹗褂谩?輸出文件為JSON格式。?它具有多個用例——實時分析、日志處理、ETL、連續(xù)計算、分布式RPC、機器學(xué)習(xí)。參考譯文2.TalendTalend是一個大數(shù)據(jù)工具,可簡化和自動化執(zhí)行大數(shù)據(jù)集成。它的圖形向?qū)Э缮杀緳C代碼。它還允許進(jìn)行大數(shù)據(jù)集成、主數(shù)據(jù)管理并檢查數(shù)據(jù)質(zhì)量。功能:?簡化大數(shù)據(jù)的ETL和ELT。?實現(xiàn)Spark的速度和規(guī)模。?加快你的實時性。?處理多個數(shù)據(jù)源。?提供大量連接器,這又使你可以根據(jù)需要自定義解決方案。?Talend大數(shù)據(jù)平臺通過生成本機代碼簡化了MapReduce和Spark的使用。?通過機器學(xué)習(xí)和自然語言處理提高數(shù)據(jù)質(zhì)量。?其敏捷DevOps可加速大數(shù)據(jù)項目。?簡化所有DevOps流程。參考譯文參考譯文3.ApacheCouchDBApacheCouchDB是一個開放源代碼、跨平臺、面向文檔的NoSQL數(shù)據(jù)庫,旨在易于使用并擁有可擴展的體系結(jié)構(gòu)。它是用面向并發(fā)的語言Erlang編寫的。CouchDB將數(shù)據(jù)存儲在JSON文檔中,可以通過網(wǎng)絡(luò)進(jìn)行訪問或使用JavaScript查詢。它提供帶有容錯存儲的分布式擴展性能。功能:?CouchDB是一個單節(jié)點數(shù)據(jù)庫,其工作方式與任何其他數(shù)據(jù)庫一樣。?它允許在任意數(shù)量的服務(wù)器上運行單個邏輯數(shù)據(jù)庫服務(wù)器。?它使用了無處不在的HTTP協(xié)議和JSON數(shù)據(jù)格式。?文檔插入、更新、檢索和刪除非常容易。?可以在不同語言之間轉(zhuǎn)移JSON格式。4.ApacheSparkApacheSpark也是一個非常流行的開源大數(shù)據(jù)分析工具。Spark擁有80多個運行器,可輕松構(gòu)建并行應(yīng)用程序。它被廣泛用于組織中以處理大型數(shù)據(jù)集。功能:?它有助于在Hadoop集群中運行應(yīng)用程序,把內(nèi)存速度提高多達(dá)100倍、磁盤速度提高10倍。?提供快速處理。?它支持復(fù)雜的分析。?它可以與Hadoop和現(xiàn)有Hadoop數(shù)據(jù)集成。?它提供Java、Scala或Python的內(nèi)置API。?Spark提供了內(nèi)存中數(shù)據(jù)處理功能,該速度比MapReduce利用的磁盤處理要快得多。?此外,Spark可在云和本地與HDFS、OpenStack和ApacheCassandra配合使用,為企業(yè)的大數(shù)據(jù)操作增加了另一層多功能性。

參考譯文5.SpliceMachineSpliceMachine是一個大數(shù)據(jù)分析工具。其架構(gòu)可跨AWS、Azure和Google等公共云進(jìn)行移植。功能:?它可以動態(tài)地從幾個節(jié)點擴展到數(shù)千個節(jié)點,以支持各種規(guī)模的應(yīng)用程序。?SpliceMachine優(yōu)化器自動評估分布式HBase區(qū)域的每個查詢。?減少管理、更快地部署并降低風(fēng)險。?它能應(yīng)對快速的流數(shù)據(jù)、開發(fā)、測試和部署機器學(xué)習(xí)模型。6.PlotlyPlotly是一種分析工具,可讓用戶創(chuàng)建圖表和儀表板以進(jìn)行在線共享。功能:?它可以輕松地將任何數(shù)據(jù)變成醒目的且信息豐富的圖形。?它為被審核行業(yè)提供有關(guān)數(shù)據(jù)來源的詳細(xì)信息。?它通過免費的社區(qū)計劃提供不受限制的公共文件托管。參考譯文7.AzureHDInsightAzureHDInsight是云中的Spark和Hadoop服務(wù)。它提供標(biāo)準(zhǔn)和高級兩類大數(shù)據(jù)云產(chǎn)品。它為組織提供了企業(yè)規(guī)模的集群來運行其大數(shù)據(jù)工作負(fù)載。功能:?它通過行業(yè)領(lǐng)先的SLA提供可靠的分析。?提供企業(yè)級安全性和監(jiān)管。?它保護(hù)數(shù)據(jù)資產(chǎn),并將本地安全性和治理控制擴展到云。?對于開發(fā)人員和科學(xué)家來說,這是一個高生產(chǎn)率的平臺。?它與領(lǐng)先的生產(chǎn)力應(yīng)用程序集成在一起。?無需購買新硬件或支付其他前期費用即可在云中部署Hadoop。參考譯文參考譯文8.SkytreeSkytree是一個大數(shù)據(jù)分析工具,可讓數(shù)據(jù)科學(xué)家更快地構(gòu)建更準(zhǔn)確的模型。它提供了易于使用的準(zhǔn)確的預(yù)測性機器學(xué)習(xí)模型。功能:?它具有高度可擴展的算法。?它是數(shù)據(jù)科學(xué)家的人工智能。?它使數(shù)據(jù)科學(xué)家能夠可視化地呈現(xiàn)并了解機器學(xué)習(xí)決策背后的邏輯。?通過Skytree輕松使用GUI或用Java自動編程。?具有模型可解釋性。?它旨在通過數(shù)據(jù)準(zhǔn)備功能解決魯棒預(yù)測問題。?它是程序化的并允許GUI訪問。9.LumifyLumify被認(rèn)為是可視化平臺、大數(shù)據(jù)融合和分析工具。它通過一系列分析選項幫助用戶發(fā)現(xiàn)連接并探索其數(shù)據(jù)中的關(guān)系。功能:?它提供具有各種自動布局的2D和3D圖形可視化。?它提供了圖實體之間的鏈接分析、與地圖系統(tǒng)的集成、地理空間分析、多媒體分析以及對一組項目或工作空間的實時協(xié)作。?它具有針對文本內(nèi)容、圖像和視頻的特定處理和界面元素。?其空間功能使你可以將工作組織到一組項目或工作區(qū)中。?它基于成熟的、可擴展的大數(shù)據(jù)技術(shù)。?它支持基于云的環(huán)境。它可以與Amazon的AWS完美配合。

參考譯文10.HadoopHadoop在大數(shù)據(jù)處理領(lǐng)域的久居榜首。它以其大規(guī)模數(shù)據(jù)處理能力而聞名。由于開源的大數(shù)據(jù)框架可以在本地或云中運行,因此對硬件的要求較低。功能:?使用HTTP代理服務(wù)器時,它改進(jìn)了身份驗證。?它支持POSIX樣式的文件系統(tǒng)擴展屬性。?它提供了一個強大的生態(tài)系統(tǒng),完全滿足開發(fā)人員的分析需求。?它帶來了數(shù)據(jù)處理的靈活性。?它讓數(shù)據(jù)處理更快。參考譯文更多內(nèi)容,請訪問

機械工業(yè)出版社網(wǎng)站:

ThankYou!DataMining

Unit

6TextAContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA數(shù)據(jù)挖掘1.什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘是一種實踐活動,它對大量數(shù)據(jù)進(jìn)行自動搜索,目的在于發(fā)現(xiàn)用簡單分析不能找到的模式和趨勢。數(shù)據(jù)挖掘使用復(fù)雜的數(shù)學(xué)算法來分割數(shù)據(jù)并評估未來事件的可能性。數(shù)據(jù)挖掘也稱為數(shù)據(jù)知識發(fā)現(xiàn)(KDD)。1.1自動發(fā)現(xiàn)數(shù)據(jù)挖掘是通過構(gòu)建模型來完成的。模型把算法用于一組數(shù)據(jù)。自動發(fā)現(xiàn)的概念是指執(zhí)行數(shù)據(jù)挖掘模型。數(shù)據(jù)挖掘模型可用于挖掘構(gòu)建它們的數(shù)據(jù),但是大多數(shù)類型的模型均可泛化到新數(shù)據(jù)。將模型應(yīng)用于新數(shù)據(jù)的過程被稱為評分。1.2預(yù)測許多形式的數(shù)據(jù)挖掘都是可預(yù)測的。例如,模型可以根據(jù)教育程度和其他人口統(tǒng)計因素預(yù)測收入。預(yù)測具有關(guān)聯(lián)的概率(此預(yù)測為真的可能性有多大?)。預(yù)測概率也稱為置信度(我對這個預(yù)測有多少信心?)。參考譯文某些形式的預(yù)測性數(shù)據(jù)挖掘會生成規(guī)則,它們是顯示給定結(jié)果的條件。例如,一條規(guī)則可能會指定擁有學(xué)士學(xué)位并且居住在某個社區(qū)中的人的收入可能會高于該區(qū)域平均水平。規(guī)則具有相關(guān)的支持(滿足規(guī)則的人口百分比是多少?)。1.3分組其他形式的數(shù)據(jù)挖掘可識別數(shù)據(jù)中的自然分組。例如,模型可能會確定收入在指定范圍內(nèi),具有良好駕駛記錄并每年租賃新車的人群。1.4可行信息數(shù)據(jù)挖掘可以從大量數(shù)據(jù)中獲取可操作的信息。例如,城鎮(zhèn)規(guī)劃人員可能會使用基于人口統(tǒng)計數(shù)字預(yù)測收入的模型來制定低收入住房計劃。汽車租賃公司可能會使用一種識別客戶細(xì)分的模型,以設(shè)計針對高價值客戶的促銷活動。2.數(shù)據(jù)挖掘的步驟2.1理解業(yè)務(wù)在數(shù)據(jù)挖掘簡介中,我們將了解業(yè)務(wù)目標(biāo)和需求的各個方面。通過查找資源、假設(shè)和其他重要因素來評估當(dāng)前狀況。因此,建立良好的數(shù)據(jù)挖掘計劃將有助于實現(xiàn)業(yè)務(wù)和數(shù)據(jù)挖掘目標(biāo)。參考譯文參考譯文2.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論