大數(shù)據(jù)財務(wù)分析入門(第2版)大數(shù)據(jù)平臺及操作工具_第1頁
大數(shù)據(jù)財務(wù)分析入門(第2版)大數(shù)據(jù)平臺及操作工具_第2頁
大數(shù)據(jù)財務(wù)分析入門(第2版)大數(shù)據(jù)平臺及操作工具_第3頁
大數(shù)據(jù)財務(wù)分析入門(第2版)大數(shù)據(jù)平臺及操作工具_第4頁
大數(shù)據(jù)財務(wù)分析入門(第2版)大數(shù)據(jù)平臺及操作工具_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)財務(wù)分析入門

大數(shù)據(jù)平臺及操作工具大數(shù)據(jù)的功能哪些平臺可以用于大數(shù)據(jù)一流商用數(shù)據(jù)分析工具Hadoop究竟是什么學(xué)習(xí)目標(biāo)●認識可用的大數(shù)據(jù)軟件工具。●認識名為Hadoop的開源軟件?!窳私釳apReduce和R這兩個軟件的作用。導(dǎo)語本章將介紹各種大數(shù)據(jù)平臺以及可在這些平臺上使用的操作工具。這些工具中最重要的是名為Hadoop的操作系統(tǒng)。Hadoop是一個開源框架,許多組織機構(gòu)選擇用它來支持大數(shù)據(jù)工作。本章將集中討論IT術(shù)語,會計師要想對大數(shù)據(jù)應(yīng)用有個基本了解,必須學(xué)習(xí)這些術(shù)語。大數(shù)據(jù)的功能數(shù)據(jù)分析(dataanalytics,DA)是對原始信息進行分析的一項研究,目的是對數(shù)據(jù)進行推斷。大數(shù)據(jù)的功能可以在機構(gòu)的特定部門內(nèi)部使用的業(yè)務(wù)分析有哪些?營銷分析:●競爭對手?!穸▋r。●品牌。●市場趨勢?!袷袌鲆?guī)模??蛻舴治觯骸窠K身價值?!皲N售渠道?!窦毞诸悇e。●滿意度。●忠誠度?!窨蛻袅魇?情緒。財務(wù)分析:●現(xiàn)金流量?!皲N售預(yù)測。●股東價值?!癞a(chǎn)品盈利能力?!窨蛻粲芰?。員工分析:●潛力?!衲芰Α!耦I(lǐng)導(dǎo)力。●招聘渠道?!駟T工績效?!駟T工流失/情緒。運營分析:●供應(yīng)鏈?!衿墼p檢測?!耥椖靠冃??!駥Νh(huán)境的影響?!衿髽I(yè)責(zé)任。核心分析:●數(shù)據(jù)挖掘?!耦A(yù)測?!窨梢暬治??!裣嚓P(guān)分析?!窕貧w分析。大數(shù)據(jù)的功能數(shù)據(jù)分析包括檢查、清理、修改和建模,目的是發(fā)現(xiàn)有價值的數(shù)據(jù)、提出結(jié)論、為做出明智的選擇提供支持。數(shù)據(jù)挖掘的關(guān)注點在于建模和發(fā)現(xiàn),目的是進行預(yù)測。商業(yè)智能側(cè)重于聚集企業(yè)數(shù)據(jù)。在統(tǒng)計應(yīng)用中,有描述性統(tǒng)計和以下幾個類型的數(shù)據(jù)分析:●探索性分析:在數(shù)據(jù)中發(fā)現(xiàn)新特征?!翊_認性分析:確認或否認現(xiàn)有的認知?!耦A(yù)測性分析:專注于統(tǒng)計模型,進行預(yù)測?!裎谋拘苑治觯菏褂媒y(tǒng)計、結(jié)構(gòu)和語言技術(shù)從非結(jié)構(gòu)化數(shù)據(jù)(如電子郵件)中提取信息并分類。大數(shù)據(jù)的功能預(yù)測性分析側(cè)重于根據(jù)從現(xiàn)有數(shù)據(jù)集中提取的數(shù)據(jù),對未來的結(jié)果或模式進行預(yù)測。它不能保證結(jié)果,只能就可能發(fā)生的情況做出具有一定可靠性的預(yù)測,并與假設(shè)情景和風(fēng)險分析或敏感性分析相結(jié)合。預(yù)測性分析包括數(shù)據(jù)挖掘、統(tǒng)計建模和機器學(xué)習(xí)等操作。大數(shù)據(jù)的功能上述概念與商業(yè)智能有何關(guān)系?小測驗1.什么是探索性分析?a.使用統(tǒng)計模型進行預(yù)測。b.確認現(xiàn)有認知。c.在數(shù)據(jù)中發(fā)現(xiàn)新特征。d.規(guī)定要采取的行動。哪些平臺可以用于大數(shù)據(jù)?哪些平臺可以用于大數(shù)據(jù)?硬件和操作系統(tǒng)(OS)的選擇硬件的選擇是大數(shù)據(jù)系統(tǒng)的核心。大多數(shù)機構(gòu)會建立IT結(jié)構(gòu)。軟件的選擇系統(tǒng)程序直接控制計算機并執(zhí)行I/O(輸入/輸出)存儲器操作。DeviceDrivers(設(shè)備驅(qū)動)、BIOS(基本輸入輸出系統(tǒng))軟件、硬盤引導(dǎo)扇區(qū)(HDSectorBoot)軟件、匯編程序和編譯程序都是系統(tǒng)程序。小測驗2.以下哪項不屬于大數(shù)據(jù)的基礎(chǔ)資源?a.SAPb.Oraclec.IBMd.惠普哪些平臺可以用于大數(shù)據(jù)?供應(yīng)商的選擇1.ActianVector擁有從Hadoop中實現(xiàn)商業(yè)價值的能力。2.AWS(AmazonWebServices,亞馬遜網(wǎng)絡(luò)服務(wù))于2006年開始通過云計算向企業(yè)提供IT基礎(chǔ)設(shè)施服務(wù)。3.Cloudera提供了一個統(tǒng)一的大數(shù)據(jù)平臺——企業(yè)數(shù)據(jù)中心。4.惠普大數(shù)據(jù)服務(wù)可以幫助IT基礎(chǔ)設(shè)施處理電子郵件、社交媒體和網(wǎng)站下載中不斷增加的字節(jié),并將它們轉(zhuǎn)換為有益的信息。5.HortonworksHadoop數(shù)據(jù)平臺(HDP)是唯一一個完全開放的HDP。6.IBM包括以下類型的信息管理數(shù)據(jù)和分析功能。7.Infobright是一個分析數(shù)據(jù)庫平臺,用于存儲和分析機器生成的數(shù)據(jù)。8.Kognitio軟件可與現(xiàn)有的商業(yè)集成、分析報告工具、“數(shù)據(jù)湖”(大型對象存儲庫,可一直以本機格式保存數(shù)據(jù))及Hadoop存儲無縫交互。9.MapR是唯一一個為重大商業(yè)生產(chǎn)應(yīng)用構(gòu)建的分布系統(tǒng)。哪些平臺可以用于大數(shù)據(jù)?供應(yīng)商的選擇(續(xù))10.微軟的愿景是讓所有用戶都能從數(shù)據(jù)(不管什么數(shù)據(jù))中獲得可操作的洞見,包括隱藏在非結(jié)構(gòu)化數(shù)據(jù)中的洞見。11.Oracle是一套完整的基礎(chǔ)設(shè)施和軟件工具,可以滿足組織機構(gòu)的大數(shù)據(jù)需求。12.Pivotal大數(shù)據(jù)套件為敏捷數(shù)據(jù)提供了廣泛的基礎(chǔ)。13.SAPHANA等軟件可以簡化IT結(jié)構(gòu)。14.TeradataAster有一個分析引擎,這是一個本地圖表處理引擎,用于跨大數(shù)據(jù)集進行圖表分析。15.新一代的數(shù)據(jù)分析師使R成為當(dāng)今市場上最受歡迎的分析軟件。小測驗3.什么是MapR?a.一種減少大數(shù)據(jù)分析量的程序。b.ApacheHadoop的不完全發(fā)行版本。c.ApacheHadoop的完全發(fā)行版本,囊括十幾個項目。d.大數(shù)據(jù)的關(guān)系數(shù)據(jù)庫。4.什么是Teradata?a.大數(shù)據(jù)農(nóng)業(yè)應(yīng)用。b.數(shù)據(jù)分析軟件。c.用于圖表分析的本地圖表處理引擎。d.關(guān)系數(shù)據(jù)庫。一流商用數(shù)據(jù)分析工具基于來自KDNuggets(一個商業(yè)分析網(wǎng)站)的亞歷克斯·瓊斯(AlexJones)所設(shè)置的指導(dǎo)原則,作者列出以下一流商用數(shù)據(jù)分析工具。他的推薦基于工具的免費可用性(供個人使用)、易用性(無須編碼、設(shè)計直觀)、強大功能(超出基本的Excel)和資源存檔完好(如支持商業(yè)需求的簡單的谷歌搜索)。16.Tableau是數(shù)據(jù)可視化軟件,旨在將大量原始數(shù)據(jù)轉(zhuǎn)換為更易于解釋的格式,可用于決策。17.KNIME可以使用可視化編程來操作、分析數(shù)據(jù)并建模。18.RapidMiner是一個數(shù)據(jù)科學(xué)平臺,它將數(shù)據(jù)準(zhǔn)備、機器學(xué)習(xí)和預(yù)測模型部署結(jié)合在一起。19.Google的FusionTables已停產(chǎn),但用戶仍可以通過更高版本的Excel使用GoogleMaps進行相同的分析。20.NodeXL是一個用于網(wǎng)絡(luò)和關(guān)系的可視化和分析軟件。21.Import.io可快速訪問網(wǎng)絡(luò)數(shù)據(jù)。22.谷歌搜索引擎并未得到充分利用。23.Solver是Excel中一個優(yōu)化和線性規(guī)劃工具,允許用戶設(shè)置限制條件。24.WolframAlpha的搜索引擎是網(wǎng)絡(luò)中隱藏的寶貝,它幫助推動了蘋果Siri(語音助手)的發(fā)展。 小測驗5.WolframAlpha是什么?a.數(shù)據(jù)分析軟件b.書呆子版谷歌c.預(yù)測分析軟件d.MapR框架中的子程序6.文中用(

)對谷歌地圖進行說明。a.咨詢服務(wù)b.犯罪統(tǒng)計c.供應(yīng)商離差d.美國各地的郵局Hadoop究竟是什么?Hadoop是一個能夠存儲大型數(shù)據(jù)集的框架。這些數(shù)據(jù)集使用簡單的編程模型分布在多個計算機集群中,并用Java編寫,從而可在單個計算機或大型商用硬件計算機集群上運行。Hadoop術(shù)語:●開源軟件:在創(chuàng)建和管理程序的開發(fā)人員的開放網(wǎng)絡(luò)上運行。●框架:能讓用戶開發(fā)和運行軟件應(yīng)用程序的一切,通過程序、工具箱、連接等完成?!穹植际綌?shù)據(jù):分布并存儲在多臺計算機上,并且可以在多臺相連的計算機上同時進行計算?!翊笠?guī)模存儲:Hadoop框架可以將大量數(shù)據(jù)以塊的形式存儲在低成本的商品硬件集群上。●更快的處理:在緊密連接的低成本計算機集群中并行處理大量數(shù)據(jù),以快速得出結(jié)果。小測驗7.下面哪項是對Hadoop的描述?a.專有的。b.開源的。c.私有的,但可用以降低非營利組織的成本。d.專有的,必須在Unix環(huán)境中運行。Hadoop究竟是什么?Hadoop的歷史更大的數(shù)據(jù)需求使得用戶需要更快的搜索和處理功能。為了應(yīng)對這一需求,道格·卡廷(DougCutting)和邁克·卡菲瑞拉(MikeCaferella)著手進行了Nutch項目——一個開源網(wǎng)絡(luò)搜索引擎項目。他們在低成本的計算機上使用分布式數(shù)據(jù)和計算來同時完成多個任務(wù)。同一時期,谷歌也在進行類似的項目,以分布式方式實現(xiàn)數(shù)據(jù)存儲和處理,更快得出更相關(guān)的搜索結(jié)果。2006年,卡廷跳槽到雅虎,繼續(xù)進行Nutch項目,該項目分為兩部分:網(wǎng)絡(luò)爬蟲和分布式處理(也就是后來的Hadoop)。2008年Hadoop作為開源項目發(fā)布,由非營利機構(gòu)ASF進行管理和維護。由軟件開發(fā)人員和貢獻者組成的全

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論