版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)在金融行業(yè)中的應(yīng)用精品文檔數(shù)據(jù)掘金-大數(shù)據(jù)在金融行業(yè)中的應(yīng)用在當(dāng)前大數(shù)據(jù)技術(shù)潮流中,各行各業(yè)都在不斷的探索如何應(yīng)用大數(shù)據(jù)技術(shù) 以解決企業(yè)面臨的問(wèn)題。目前國(guó)內(nèi)已有不少金融機(jī)構(gòu)開始嘗試通過(guò)大數(shù)據(jù)來(lái)驅(qū) 動(dòng)相關(guān)金融業(yè)務(wù)運(yùn)營(yíng)。如下是百分點(diǎn)就金融行業(yè)如何應(yīng)用大數(shù)據(jù)技術(shù)提出我們 的見解。按照我們的經(jīng)驗(yàn),企業(yè)面向消費(fèi)者的應(yīng)用大致可以分為運(yùn)營(yíng)、服務(wù)和營(yíng)銷 三大類,在金融行業(yè)中這三類應(yīng)用的典型例子有:? 運(yùn)營(yíng)類:歷史記錄管理、多渠道數(shù)據(jù)整合分析、產(chǎn)品定位分析、客戶洞察分析、客戶全生命周期分析等。? 服務(wù)類:個(gè)性化坐席分配、個(gè)性化產(chǎn)品推薦、個(gè)性化權(quán)益匹配、個(gè)性化產(chǎn)品定價(jià)、客戶體驗(yàn)優(yōu)化、客戶挽留等。? 營(yíng)銷類:
2、互聯(lián)網(wǎng)獲客、產(chǎn)品推廣、交叉銷售、社會(huì)化營(yíng)銷、渠道效果分析等。大數(shù)據(jù)技術(shù)在這些應(yīng)用中都可以發(fā)揮價(jià)值,其核心是通過(guò)一系列的技術(shù)手 段,采集、整合和挖掘用戶全方位的數(shù)據(jù),為每個(gè)用戶建立數(shù)據(jù)檔案,也就是 常說(shuō)的“用戶畫像”。大數(shù)據(jù)可應(yīng)用于金融行業(yè)實(shí)時(shí)數(shù)據(jù)分析,場(chǎng)景包括:? 在風(fēng)險(xiǎn)管理領(lǐng)域,可以應(yīng)用于實(shí)時(shí)反欺詐、反洗錢,實(shí)時(shí)風(fēng)險(xiǎn)識(shí)別、在線授信等場(chǎng)景;? 在渠道方面,可以應(yīng)用于全渠道實(shí)時(shí)監(jiān)測(cè)、資源動(dòng)態(tài)優(yōu)化配置等場(chǎng)景;? 在用戶管理和服務(wù)領(lǐng)域,可以應(yīng)用于在線和柜面服務(wù)優(yōu)化、客戶流失預(yù)警及挽留、個(gè)性化推薦、個(gè)性化定價(jià)等場(chǎng)景;? 在營(yíng)銷領(lǐng)域,可以應(yīng)用于(基于互聯(lián)網(wǎng)用戶行為的)事件式營(yíng)銷、差異化廣告投放與推廣等場(chǎng)
3、景。大數(shù)據(jù)在金融業(yè)統(tǒng)計(jì)分析類應(yīng)用中的優(yōu)勢(shì)大數(shù)據(jù)在數(shù)據(jù)量、多種數(shù)據(jù)源、多種數(shù)據(jù)結(jié)構(gòu)、復(fù)雜計(jì)算任務(wù)方面都優(yōu)于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù),這里僅舉兩個(gè)例子:a)大量數(shù)據(jù)的運(yùn)算,例如:兩張 Oracle里面表數(shù)據(jù)分別是1000多萬(wàn)和800多萬(wàn)做8層join,放在大數(shù)據(jù)平臺(tái)運(yùn)算比在 Oracle里面運(yùn)算至少快2倍多;b)對(duì)于跨數(shù)據(jù)庫(kù)類型的表之間的join,例如一張Oracle的表和一張 sqlserver的表,在傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)中是沒(méi)有辦法 join的??梢詫?shù) 據(jù)通過(guò)sqoop等工具放到HDFS上面。利用hive,pig, impala,spark等 進(jìn)行更快的處理。大數(shù)據(jù)協(xié)助銀行實(shí)現(xiàn)其對(duì)客戶的多維度分析有人指
4、出,目前銀行自身的數(shù)據(jù)難以完成客戶全維度分析,那么應(yīng)用 大數(shù)據(jù)又能如何?首先,有幾個(gè)問(wèn)題我們需要仔細(xì)思考:什么叫客戶“全 維度”?有沒(méi)有可能做到“全維度”?按照百分點(diǎn)的理解,不存在對(duì)一個(gè) 人的“全維度”的刻畫,因?yàn)槲覀儸F(xiàn)實(shí)中都做不到。您可以想象,一個(gè)人 的DNA可以代表他的“全維度”嗎?或者他的所有言論可以代表他的“全 維度”嗎?都不可以。我們期望的“全維度”實(shí)際上是想說(shuō)最大可能的利 用和挖掘手上的數(shù)據(jù)資源!基于上面的理解,我們認(rèn)為銀行在大數(shù)據(jù)平臺(tái) 建設(shè)過(guò)程中最需要考慮的是如何最大程度的整合所有數(shù)據(jù)源,特別是行內(nèi) 自有數(shù)據(jù)源,并且針對(duì)業(yè)務(wù)需求做出有價(jià)值的分析應(yīng)用。其次,假設(shè)銀行要引入第三方數(shù)據(jù)
5、,這些數(shù)據(jù)怎么利用?這些數(shù)據(jù)如 何和行內(nèi)數(shù)據(jù)整合發(fā)揮價(jià)值?這些數(shù)據(jù)又如何轉(zhuǎn)化為客戶“全維度”分 析?顯然的,第三方數(shù)據(jù)也不是直接就能“全維度”的,還是要經(jīng)過(guò)一系 列的數(shù)據(jù)分析和挖掘。對(duì)銀行客戶了解、并且契合銀行業(yè)務(wù)的數(shù)據(jù)一定來(lái) 自于銀行業(yè)內(nèi)!任何外部的數(shù)據(jù)都需要經(jīng)過(guò)大量的轉(zhuǎn)換和業(yè)務(wù)解讀才能直 接在銀行中使用。如果需要第三方數(shù)據(jù)支撐,銀行必須找到對(duì)金融業(yè)務(wù)有 相當(dāng)理解,并且已經(jīng)按照銀行業(yè)務(wù)訴求分析好的數(shù)據(jù)才是有價(jià)值的。最后,按照我們的理解和實(shí)踐經(jīng)驗(yàn),銀行只需要把第三方數(shù)據(jù)看做一 個(gè)數(shù)據(jù)源即可,“全維度”的關(guān)鍵還是如何整合所有數(shù)據(jù)源并進(jìn)行深度挖 掘。在百分點(diǎn)的實(shí)際案例中,我們有一套自己的方法論,包
6、括數(shù)據(jù)的集 成、清洗、脫敏、多渠道整合、用戶畫像標(biāo)簽建模、用戶畫像整合、用戶 畫像服務(wù)等幾個(gè)步驟。第三方數(shù)據(jù)是在集成階段就解決的問(wèn)題,后面各階 段關(guān)注點(diǎn)都在如何整合、挖掘和應(yīng)用這些數(shù)據(jù)。相比傳統(tǒng)技術(shù),大數(shù)據(jù)技術(shù)的優(yōu)勢(shì)如下:a)大數(shù)據(jù)技術(shù)更關(guān)注過(guò)程數(shù)據(jù)、行為數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),可以真正做到“全方位”;b)大數(shù)據(jù)技術(shù)在實(shí)時(shí)性、數(shù)據(jù)量和并發(fā)量上有明顯優(yōu)勢(shì),因?yàn)檫@些技 術(shù)一開始就是為互聯(lián)網(wǎng)、海量數(shù)據(jù)和高并發(fā)設(shè)計(jì)的;c)大數(shù)據(jù)技術(shù)在組件化、水平擴(kuò)展方面有明顯優(yōu)勢(shì),對(duì)業(yè)務(wù)升級(jí)和擴(kuò) 展支持更加平滑。如何選擇大數(shù)據(jù)技術(shù)產(chǎn)品選擇大數(shù)據(jù)技術(shù)產(chǎn)品最優(yōu)先考慮的原則是什么?大家選擇某一款大數(shù) 據(jù)技術(shù)產(chǎn)品時(shí),不能只關(guān)注某
7、款產(chǎn)品有什么“高端”的功能,而應(yīng)該關(guān)心 是這款產(chǎn)品是否能給我們帶來(lái)價(jià)值,能解決我們的業(yè)務(wù)痛點(diǎn)。所以大數(shù)據(jù) 產(chǎn)品的關(guān)鍵不在于建一個(gè)大數(shù)據(jù)的平臺(tái),然后把數(shù)據(jù)進(jìn)行采集和存儲(chǔ),而 在于這些大數(shù)據(jù)產(chǎn)品能在哪些方面支撐我們的應(yīng)用場(chǎng)景、能從數(shù)據(jù)中分析 出哪些有價(jià)值的觀點(diǎn)、能基于數(shù)據(jù)產(chǎn)生哪些數(shù)據(jù)應(yīng)用、如何為企業(yè)提供增 值變現(xiàn)的能力。這一點(diǎn),我們需要向互聯(lián)網(wǎng)公司學(xué)習(xí)。大數(shù)據(jù)能夠蓬勃發(fā) 展正是因?yàn)榛ヂ?lián)網(wǎng)行業(yè)真正讓大數(shù)據(jù)產(chǎn)生豐富的價(jià)值,如Google的精準(zhǔn)廣告,亞馬遜的“千人千面”推薦等。金融是極度依賴信息化技術(shù)的行業(yè),在這個(gè)行業(yè)中,業(yè)務(wù)場(chǎng)景可以分 為下面幾大類:1)支撐類。例如海量數(shù)據(jù)的存儲(chǔ)和查詢等。2)操作類。
8、例如受眾人群篩選、營(yíng)銷活動(dòng)策劃等。3)戰(zhàn)術(shù)類。人群分析洞察、產(chǎn)品輿情分析等。4)戰(zhàn)略類。運(yùn)營(yíng)分析報(bào)告、新業(yè)務(wù)拓展等。不存在一款產(chǎn)品可以支撐以上所有場(chǎng)景,我們?cè)诋a(chǎn)品選型時(shí)應(yīng)該盡量 考慮那些可以支撐更多場(chǎng)景的產(chǎn)品,至少應(yīng)該了解:1)該產(chǎn)品適合的直接場(chǎng)景是什么?2)該產(chǎn)品上已經(jīng)提供的應(yīng)用有哪些,支撐了哪些場(chǎng)景?3)該產(chǎn)品上可以衍生出哪些應(yīng)用,能夠支撐哪些場(chǎng)景?正是基于上述考慮,百分點(diǎn)才推出了大數(shù)據(jù)技術(shù)、大數(shù)據(jù)管理和大數(shù)據(jù)應(yīng) 用三層產(chǎn)品,每一層解決特定的業(yè)務(wù)問(wèn)題,但這些產(chǎn)品可以像搭積木那樣輕松 整合在一起。大數(shù)據(jù)平臺(tái)建設(shè)1.1 大數(shù)據(jù)平臺(tái)硬件選型大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大但往往價(jià)值稀疏,從大數(shù)據(jù)里提取價(jià)值
9、就像是從 大海里撈針,要想完成大海撈針的工作就必須提供性價(jià)比可接受的軟硬件解決 方案,開源Hadoop解決方案就是典型的代表,通過(guò)基于廉價(jià) x86架構(gòu)服務(wù)器之 上提供海量數(shù)據(jù)存儲(chǔ)和分析解決方案贏得互聯(lián)網(wǎng)界的青睞,所以,這種通過(guò)軟 件層面來(lái)保證數(shù)據(jù)安全和穩(wěn)定,硬件基于標(biāo)準(zhǔn) x86標(biāo)準(zhǔn)服務(wù)器的解決方案是未 來(lái)的主要方式。另外對(duì)于x86服務(wù)器的硬件選型也是需要考慮的,從實(shí)踐經(jīng)驗(yàn)來(lái)看,我們 往往會(huì)綜合數(shù)據(jù)量、數(shù)據(jù)應(yīng)用和成本提供一個(gè)平衡性的硬件配置,然后基于平 衡型的硬件配置依據(jù)任務(wù)作業(yè)情況,調(diào)整硬件配置,如IO密集型可能會(huì)使用SSD&內(nèi)存,CPU密集型任務(wù)則會(huì)選擇高端 CPU等。1.2 大數(shù)據(jù)平臺(tái)建設(shè)
10、最佳實(shí)踐大數(shù)據(jù)平臺(tái)建設(shè)中,Hadoop體系所包含的生態(tài)系統(tǒng),如:Hbase,Hive,snoop,pig,spar底子系統(tǒng),那么如何根據(jù)各自的特性,通過(guò)組合方式 來(lái)適應(yīng)實(shí)際需求并應(yīng)用到具體場(chǎng)景中呢?我們的最佳實(shí)踐是利用互聯(lián)網(wǎng)十大數(shù)據(jù)的技術(shù)架構(gòu),構(gòu)建Lamda架構(gòu),如圖所示:數(shù)據(jù)采集、離線數(shù)據(jù)存儲(chǔ)及處理V (Hfldoop)數(shù)據(jù)分發(fā)想曰始觸堂MFIP對(duì)外服務(wù)存儲(chǔ)口拈門療wsgr數(shù)據(jù)服務(wù)Rl ;s r API分實(shí)時(shí)數(shù)據(jù)姐I1)數(shù)據(jù)采集a)傳統(tǒng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)和數(shù)據(jù)集市、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),均可以通過(guò) Sqoop等數(shù)據(jù)橋接的方式接入大數(shù)據(jù)平臺(tái),同時(shí)可以將數(shù)據(jù)庫(kù)日 志、系統(tǒng)日志等非結(jié)構(gòu)化文本數(shù)據(jù)通過(guò) Flu
11、me等組件接入大數(shù)據(jù)平 臺(tái)。b)銀行線上渠道(網(wǎng)站、APP應(yīng)用、微信公眾號(hào)等)中的用戶行為可以通過(guò)數(shù)據(jù)探頭技術(shù), Web端及H5通過(guò)JS移動(dòng)端通過(guò)SDK部 碼,采集用戶行為數(shù)據(jù);銀行線下渠道(柜面、 ATM等)的用戶行 為數(shù)據(jù),需從線下接入的系統(tǒng)數(shù)據(jù)中解構(gòu)分析。c)互聯(lián)網(wǎng)公開數(shù)據(jù),如論壇、微博、媒體資訊等,通過(guò)數(shù)據(jù)爬取技術(shù) 進(jìn)行數(shù)據(jù)采集。d)也可以利用各種API接口接入其他合作方、第三方等的在線或離線 數(shù)據(jù)。2)數(shù)據(jù)分發(fā)通過(guò)FTP或Kafka消息隊(duì)列將數(shù)據(jù)實(shí)時(shí)分發(fā),分發(fā)后分開實(shí)時(shí)數(shù)據(jù)處理和離線數(shù)據(jù)存儲(chǔ)和處理兩條線,形成“人”字型的Lamda架構(gòu)。3)離線數(shù)據(jù)存儲(chǔ)及處理基于Hadoop平臺(tái)和Mp
12、Reduce技術(shù)的離線數(shù)據(jù)處理,常用的是 HBase 列式數(shù)據(jù)庫(kù)。4)實(shí)時(shí)數(shù)據(jù)處理利用Storm或Spark技術(shù)的實(shí)時(shí)數(shù)據(jù)處理,例如 Storm是事實(shí)流式處理,Spark (Spark Streamin。是基于內(nèi)存的實(shí)時(shí)批處理。5)數(shù)據(jù)存儲(chǔ)不同的數(shù)據(jù)類型、不同的業(yè)務(wù)場(chǎng)景,需要的不同的數(shù)據(jù)存儲(chǔ)服務(wù),在我們的產(chǎn)品中應(yīng)用了 Redis MongoDB、MySQL ElasticSearchl多種存 儲(chǔ)服務(wù)。百分點(diǎn)基于此架構(gòu)為銀行提供服務(wù)的典型應(yīng)用場(chǎng)景包括:1)用戶行為采集分析:利用數(shù)據(jù)探頭(JS SDK Nginx、ICE)、數(shù)據(jù)分發(fā) (Kafka、離線數(shù)據(jù)存儲(chǔ)及處理(HBase、運(yùn)營(yíng)分析結(jié)果展現(xiàn)
13、(MySQD 。2)跨部門數(shù)據(jù)整合:利用數(shù)據(jù)橋接(Sqoop)、日志接入(Flume)、數(shù)據(jù) 分發(fā)(FTB、離線數(shù)據(jù)存儲(chǔ)存儲(chǔ)及處理(HBasa ES。3)離線用戶畫像和用戶洞察(支持營(yíng)銷):利用離線數(shù)據(jù)存儲(chǔ)存儲(chǔ)及處理 (HBase ES 。4)實(shí)時(shí)用戶畫像及推薦:利用實(shí)時(shí)數(shù)據(jù)處理(Storm、Spark)、數(shù)據(jù)存儲(chǔ)(Redis MongoDB)。5)實(shí)時(shí)反欺詐:利用數(shù)據(jù)接口( API)、數(shù)據(jù)分發(fā)(MQ)、實(shí)時(shí)數(shù)據(jù)處理 (Storm)。1.3 大數(shù)據(jù)平臺(tái)和現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的有效整合目前各行都有自己的數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市平臺(tái),而大數(shù)據(jù)平臺(tái)的引入又往 往獨(dú)立于數(shù)據(jù)倉(cāng)庫(kù),對(duì)于某些場(chǎng)景,將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化
14、數(shù)據(jù)進(jìn)行整體結(jié) 合往往能夠起到更好的效果,如何能夠?qū)⒋髷?shù)據(jù)平臺(tái)和現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行有效 整合?1)非結(jié)構(gòu)化數(shù)據(jù)處理與大數(shù)據(jù)應(yīng)用的關(guān)系首先分享一下我們對(duì)“結(jié)構(gòu)化”和“非結(jié)構(gòu)化”的理解:狹義的理解:結(jié)構(gòu)化就是指關(guān)系型數(shù)據(jù),其余都是非結(jié)構(gòu)化數(shù)據(jù)。廣義的理解:結(jié)構(gòu)化是相對(duì)于某一個(gè)程序來(lái)講的,例如視頻對(duì)于播放器來(lái) 說(shuō)顯然是結(jié)構(gòu)化的,但是對(duì)于文本編輯器來(lái)說(shuō)就是非結(jié)構(gòu)化的。事實(shí)上,即使是人腦,處理的也都是“廣義的”結(jié)構(gòu)化數(shù)據(jù)。你可以想 象,自己在注視一張照片時(shí),腦海中形成的一定不是一個(gè)一個(gè)像素點(diǎn),而是抽 象過(guò)的一些屬性!按照我們上面的理解,無(wú)論是語(yǔ)音、影像還是其它“狹義”的非結(jié)構(gòu)化數(shù) 據(jù),只要我們有工具可以將
15、這些數(shù)據(jù)轉(zhuǎn)化成我們關(guān)心數(shù)據(jù)結(jié)構(gòu),那就可以作為 大數(shù)據(jù)應(yīng)用的一個(gè)數(shù)據(jù)源,后續(xù)由針對(duì)這類數(shù)據(jù)的的特定工具處理即可。這里 舉一個(gè)例子:通常我們認(rèn)為 HTML網(wǎng)頁(yè),例如電商的單品頁(yè)面,是非結(jié)構(gòu)化 我,因?yàn)槲液茈y從中提取出結(jié)構(gòu)化字段,例如商品名稱、價(jià)格等。但通過(guò)互聯(lián) 網(wǎng)抓取系統(tǒng),我們可以將這些頁(yè)面轉(zhuǎn)化為結(jié)構(gòu)化字段,那么后續(xù)按照結(jié)構(gòu)化數(shù) 據(jù)處理即可。語(yǔ)音、影響也是一樣,關(guān)鍵是我們期望從中提取什么信息,用什 么工具提取,一旦提取成功,即可整合到大數(shù)據(jù)應(yīng)用中。在百分點(diǎn)的實(shí)踐中,我們已經(jīng)完全整合了網(wǎng)頁(yè)、文本、JSON、XML等非結(jié)構(gòu)化數(shù)據(jù),部分整合了圖像和語(yǔ)音數(shù)據(jù),這些內(nèi)容都已經(jīng)應(yīng)用到了業(yè)務(wù)中。2)大數(shù)據(jù)平臺(tái)和
16、現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的整合現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)完全可以和大數(shù)據(jù)平臺(tái)進(jìn)行整合,現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)可以作為 大數(shù)據(jù)平臺(tái)的一個(gè)數(shù)據(jù)源和數(shù)據(jù)應(yīng)用。對(duì)于金融銀行業(yè),往往已經(jīng)實(shí)施有數(shù)據(jù)倉(cāng)庫(kù),這個(gè)時(shí)候如果盲目上大數(shù)據(jù) 平臺(tái)進(jìn)行平臺(tái)替換往往容易造成數(shù)據(jù)混亂,所以我們提供的建議是混搭先行, 逐步替換,先替換那些傳統(tǒng)手段不能解決的問(wèn)題,再替換那些數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)存在的應(yīng)用?,F(xiàn)階段數(shù)據(jù)倉(cāng)庫(kù)上下游生態(tài)圈豐富程度遠(yuǎn)遠(yuǎn)大于大數(shù)據(jù)生態(tài)圈,我 們應(yīng)該充分利用現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)上下游豐富的解決方案充分發(fā)揮傳統(tǒng)數(shù)倉(cāng)的價(jià) 值,然后通過(guò)Hadoop等大數(shù)據(jù)產(chǎn)品來(lái)補(bǔ)充傳統(tǒng)數(shù)倉(cāng)對(duì)于非結(jié)構(gòu)化數(shù)據(jù)處理不 足的缺陷。隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)產(chǎn)品(Hadoop等)各項(xiàng)功
17、能和性能 不斷完善,再逐步把數(shù)倉(cāng)之上已有業(yè)務(wù)應(yīng)用遷移到大數(shù)據(jù)平臺(tái)。常見技術(shù)問(wèn)題解答1)在Hadoop中導(dǎo)入Oracle的數(shù)據(jù)后,數(shù)據(jù)怎么備份?在數(shù)據(jù)導(dǎo)入到Hadoop中之后,數(shù)據(jù)的備份數(shù)就已經(jīng)根據(jù) Hadoop的HDFSE置做了多備份(默認(rèn)是3備份)。2) Oracle關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)怎么部署 Hadoop環(huán)境中使用?Oracle數(shù)據(jù)庫(kù)中的數(shù)據(jù)可以直接導(dǎo)入到 Hadoop中,而后利用一些工具進(jìn)行處理:a) Hadoop生態(tài)中有一系列的工具和組件可以在 RDBMS?口 Hadoop問(wèn)導(dǎo)入導(dǎo)出數(shù)據(jù),例如Sqoop,這些工具或多或少會(huì)有一些坑,需要使用者注意或者找有經(jīng)驗(yàn)的專家指導(dǎo)。b)數(shù)據(jù)處理方面,
18、Hive、SparkSQLF口 Impala都是很好的SQL onHadoop工具,它們可以滿足大部分的數(shù)據(jù)處理需求,但它們對(duì)SQL的支持不盡相同,目前也沒(méi)有任何組件能完美支持Oracle的PL/SQL這些SQL組件無(wú)法滿足數(shù)據(jù)處理需求,一般的做法是利用其它工具,例如 Pigj原生MapReduce等。3)HDF或據(jù)怎么入 HbaseHDF漱據(jù)導(dǎo)入到HBase有三種方式:a)可以通過(guò)普通的MR程序,在Map或者Reduce里面通過(guò)HTable的對(duì)象來(lái)寫入到HBaseb) 直接通過(guò) MR 程序,用 HBase的 TableMapper 和 TableReduceg法,然后用TableMapReduceUtil類來(lái)執(zhí)行MR,和1類似。如果數(shù)據(jù)量大,建議使用bulkload的方式,通過(guò)HfileOutputFormat 方法生成 HFile 格式的數(shù)據(jù),再通過(guò) LoadIncrementalHfile 的方法把結(jié)果加載到Hbase出師表兩漢:諸葛亮先帝創(chuàng)業(yè)未平而中道崩殂,今天下三分,益州疲弊,此誠(chéng)危急存亡之 秋也。然侍衛(wèi)之臣不懈于內(nèi),忠志之士忘身于外者,蓋追先帝之殊遇,欲報(bào)之 于陛下也。誠(chéng)宜開張圣聽,以光先帝遺德,恢弘志士之氣,不宜妄自菲薄,引 喻失義,以塞忠諫之路也。宮中府中,俱為一體;陟罰臧否,不宜異同。若有作奸犯科及為忠善 者,宜付有
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025個(gè)人公司轉(zhuǎn)讓合同范本:股權(quán)價(jià)值評(píng)估與交易條件3篇
- 臨時(shí)用工合同范本:機(jī)關(guān)事業(yè)單位2024年專用
- 2025年度綠色能源項(xiàng)目融資民間抵押借款合同4篇
- 2025年度鋼廠承包合同-自動(dòng)化生產(chǎn)線升級(jí)版
- 2025年度個(gè)人獨(dú)資企業(yè)股權(quán)轉(zhuǎn)讓與業(yè)務(wù)拓展合同
- 2025年城市綠化管理合同
- 2025年土地轉(zhuǎn)讓擔(dān)保合同
- 2025年加盟裝修集成公司合同
- 2025年度智能電梯安全使用管理與維護(hù)服務(wù)合同4篇
- 2025年個(gè)人住宅置換合同示范文本
- 二零二五隱名股東合作協(xié)議書及公司股權(quán)代持及回購(gòu)協(xié)議
- 四川省成都市武侯區(qū)2023-2024學(xué)年九年級(jí)上學(xué)期期末考試化學(xué)試題
- 教育部《中小學(xué)校園食品安全和膳食經(jīng)費(fèi)管理工作指引》知識(shí)培訓(xùn)
- 碎屑巖油藏注水水質(zhì)指標(biāo)及分析方法
- 【S洲際酒店婚禮策劃方案設(shè)計(jì)6800字(論文)】
- 鐵路項(xiàng)目征地拆遷工作體會(huì)課件
- 醫(yī)院死亡報(bào)告年終分析報(bào)告
- 中國(guó)教育史(第四版)全套教學(xué)課件
- 2023年11月英語(yǔ)二級(jí)筆譯真題及答案(筆譯實(shí)務(wù))
- 上海民辦楊浦實(shí)驗(yàn)學(xué)校初一新生分班(摸底)語(yǔ)文考試模擬試卷(10套試卷帶答案解析)
- 元明時(shí)期左江上思州黃姓土司問(wèn)題研究
評(píng)論
0/150
提交評(píng)論