版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
關(guān)于大數(shù)據(jù)技術(shù)與思路的介紹從大數(shù)據(jù)思維談起功能的價(jià)值VS數(shù)據(jù)的價(jià)值功能的價(jià)值數(shù)據(jù)的價(jià)值產(chǎn)品或服務(wù)靜態(tài)的被動(dòng)的價(jià)值遞減的動(dòng)態(tài)的主動(dòng)的價(jià)值遞增的創(chuàng)新與發(fā)現(xiàn)傳統(tǒng)與經(jīng)驗(yàn)用戶使用中留下了實(shí)用的信息痕跡產(chǎn)生了數(shù)據(jù),能告訴我們,每一個(gè)客戶的消費(fèi)傾向,他們想要什么,喜歡什么,每個(gè)人的需求有哪些區(qū)別,哪些又可以被集合到一起來進(jìn)行分類。大數(shù)據(jù)思維重要特征是相關(guān)性思維一些看起來不相關(guān)的東西,其實(shí)它們有其內(nèi)在相關(guān)性。大數(shù)據(jù)沒有必要找到原因,不需要證明這個(gè)事件和那個(gè)事件之間有一個(gè)必然,不需要找到先后關(guān)聯(lián)發(fā)生的一個(gè)因果規(guī)律。傳統(tǒng)的思維方式習(xí)慣于“因果”大數(shù)據(jù)的思維是“相關(guān)性”思維往往只能夠想到“前應(yīng)后果”“多因一果”“一因多果”。數(shù)據(jù)的分析按照我們既定的目標(biāo)進(jìn)行,一切以業(yè)務(wù)驅(qū)動(dòng)為主。從“人找信息”到“信息找人”人找信息信息找人從人找信息到信息找人,是交互時(shí)代的一個(gè)轉(zhuǎn)變,也是智能時(shí)代的要求,你需要什么信息,企業(yè)和機(jī)器提前知道,而且主動(dòng)給你提供你所需要的信息。大數(shù)據(jù)應(yīng)用需要大數(shù)據(jù)技術(shù)需要具備海量存儲(chǔ)的能力磁盤陣列分布式存儲(chǔ)海量歷史數(shù)據(jù)事務(wù)數(shù)據(jù)容量可擴(kuò)展單位存儲(chǔ)成本低適用于海量存儲(chǔ)容量擴(kuò)展有限單位存儲(chǔ)成本高適用于關(guān)鍵交易系統(tǒng)需要兼容全類別格式的數(shù)據(jù)關(guān)系型數(shù)據(jù)文本數(shù)據(jù)二進(jìn)制數(shù)據(jù)大數(shù)據(jù)平臺(tái)需要具備分布式處理能力計(jì)算節(jié)點(diǎn)大規(guī)模計(jì)算和處理任務(wù)計(jì)算任務(wù)拆分隨著節(jié)點(diǎn)數(shù)的增加,其處理能力線性提升。需要支持開放式的數(shù)據(jù)結(jié)構(gòu)Key-ValueJSon索引向量空間矩陣鄰接表關(guān)系模型GIS大數(shù)據(jù)技術(shù)需要具備多種數(shù)據(jù)處理的技術(shù)數(shù)據(jù)檢索(精確、模糊)數(shù)據(jù)統(tǒng)計(jì)流式處理內(nèi)存計(jì)算批量處理圖計(jì)算機(jī)器學(xué)習(xí)自然語言識(shí)別大數(shù)據(jù)技術(shù)Hadoop技術(shù)是支撐大數(shù)據(jù)的最佳實(shí)踐從Apache軟件基金會(huì)講起專門為運(yùn)作一個(gè)開源軟件項(xiàng)目的Apache的團(tuán)體提供支持的非盈利性組織。這個(gè)開源軟件項(xiàng)目就是Apache項(xiàng)目。Apache軟件基金會(huì)榮獲了著名IT雜志SDTimes頒發(fā)的2013SDTimes100獎(jiǎng)項(xiàng),位于“極大影響力”分類第二位,僅次于亞馬遜。Apache軟件基金會(huì)自成立15年來,已經(jīng)擁有超過150個(gè)世界頂級(jí)項(xiàng)目。Hadoop生態(tài)體系Hadoop由Apache基金會(huì)于2005年秋天作為Lucene的子項(xiàng)目Nutch的一部分正式引入。Hadoop的意義不僅在于其自身,而且它具備豐富的生態(tài)技術(shù)體系。HDFS為分布式文件系統(tǒng),為海量數(shù)據(jù)提供了存儲(chǔ)服務(wù)。為海量數(shù)據(jù)提供了分布式處理.Hadoop數(shù)據(jù)庫,提供海量結(jié)構(gòu)化存儲(chǔ)。.分布式內(nèi)存計(jì)算技術(shù),提供高性能數(shù)據(jù)計(jì)算。高性能的全文搜索服務(wù).數(shù)據(jù)實(shí)時(shí)計(jì)算,流式數(shù)據(jù)處理技術(shù)??蓴U(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)??缮炜s的分布式迭代圖處理系統(tǒng)提供類SQL交互接口。Hadoop與關(guān)系型數(shù)據(jù)庫交互大規(guī)??茖W(xué)的計(jì)算……Hadoop開源生態(tài)發(fā)展法則批處理數(shù)據(jù)庫消息傳遞內(nèi)存計(jì)算索引技術(shù)流處理圖計(jì)算Tez?Impala?Storm?Kafka?Spark?Ooize?Hbase?Solr?任務(wù)調(diào)度框架:YARN數(shù)據(jù)存儲(chǔ)框架:HDFSHadoopCoreFalcon?Databus?Pregel?Hive?MapReduce?MPI?1:計(jì)算框架多樣性在分布式計(jì)算環(huán)境中成為事實(shí),沒有一種框架適合所有計(jì)算,不同的場景使用多種的計(jì)算框架組合。Google,Facebook等獲得巨大商業(yè)化成功的公司,將研發(fā)的部分計(jì)算框架開源回饋社區(qū);分享與迭代創(chuàng)新精神,推動(dòng)社區(qū)不斷出現(xiàn)新的計(jì)算框架;2:Hadoopcore開源核心成為一種標(biāo)準(zhǔn),成為眾多計(jì)算框架彼此合作的基礎(chǔ).沒有任何商業(yè)實(shí)體能夠擁有hadoop核心;任何對(duì)hadoopcore的優(yōu)化改進(jìn),如果采用商業(yè)形式的封裝,都是對(duì)行業(yè)sayNO;數(shù)據(jù)處理技術(shù)豐富的生態(tài)體系滿足專業(yè)化的需求用戶選擇視角互聯(lián)網(wǎng)程序猿視角i7處理器光驅(qū)主板至強(qiáng)處理器內(nèi)存顯示器顯卡不同的應(yīng)用場景,對(duì)組件的選擇要求不同,豐富的生態(tài)技術(shù)滿足專業(yè)化需求服務(wù)器游戲主機(jī)辦公電腦移動(dòng)設(shè)備數(shù)據(jù)治理,日志分析,歷史數(shù)據(jù)查詢,關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)分析,機(jī)器學(xué)習(xí),統(tǒng)計(jì)分析,自然語言識(shí)別Tez?Impala?Storm?Kafka?Spark?Ooize?Solr?Falcon?Databus?Pregel?Hive?MR?MPI?與似類技術(shù)對(duì)比MPP數(shù)據(jù)庫分布式存儲(chǔ)分布式處理數(shù)據(jù)庫內(nèi)存計(jì)算流式處理數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)挖掘統(tǒng)計(jì)計(jì)算是是是是是是nosqlsql數(shù)據(jù)處理技術(shù)(包括nosql)否否是否否是單一單一豐富否否是是是是數(shù)據(jù)采集OracleDB2Mysql。。。HDFSFlume日志系統(tǒng)console(控制臺(tái))、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等Hadoop導(dǎo)入實(shí)時(shí)關(guān)系型二進(jìn)制Hadoop支持所有類型數(shù)據(jù)的導(dǎo)入與存儲(chǔ)數(shù)據(jù)存儲(chǔ)(分布式)HDFS節(jié)點(diǎn)HDFS節(jié)點(diǎn)HDFS節(jié)點(diǎn)HDFS節(jié)點(diǎn)HDFS節(jié)點(diǎn)。。。Oracle實(shí)時(shí)日志數(shù)據(jù)Hadoop分布式存儲(chǔ)系統(tǒng)滿足大規(guī)模的全數(shù)據(jù)數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)擴(kuò)展數(shù)據(jù)處理(分布式)清洗、歸整、轉(zhuǎn)換、計(jì)算、建模。。。。。。MPP關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)提取數(shù)據(jù)模型創(chuàng)建查詢統(tǒng)計(jì)科學(xué)計(jì)算備份歸檔數(shù)據(jù)應(yīng)用(分布式)HadoopYARNHadoopCore數(shù)據(jù)結(jié)構(gòu)、模型Key-Value文本JSon全文索引向量空間矩陣鄰接表數(shù)據(jù)應(yīng)用查詢、統(tǒng)計(jì)報(bào)表、機(jī)器學(xué)習(xí)、自然語言識(shí)別、復(fù)雜網(wǎng)絡(luò)如何組建大數(shù)據(jù)團(tuán)隊(duì)大數(shù)據(jù)團(tuán)隊(duì)的組成算法研究開發(fā)測(cè)試實(shí)施維護(hù)大數(shù)據(jù)團(tuán)隊(duì)業(yè)務(wù)分析團(tuán)隊(duì)組織業(yè)務(wù)分析算法研究業(yè)務(wù)專家理解業(yè)務(wù)梳理數(shù)據(jù)開發(fā)模型構(gòu)建算法編碼算法訓(xùn)練測(cè)試挖掘分析場景確定分析目標(biāo)場景抽象算法研究匹配功能開發(fā)功能測(cè)試功能驗(yàn)證應(yīng)用場景溝通規(guī)劃功能點(diǎn)制定開發(fā)計(jì)劃算法實(shí)現(xiàn)驗(yàn)證業(yè)務(wù)驗(yàn)證實(shí)施代碼交付實(shí)施培訓(xùn)業(yè)務(wù)驗(yàn)證用戶系統(tǒng)實(shí)施系統(tǒng)交付使用培訓(xùn)崗位角色總經(jīng)理主管業(yè)務(wù)分析師業(yè)務(wù)分析師主管算法工程師算法工程師主管后端開發(fā)工程師后端開發(fā)工程師前端開發(fā)工程師前端開發(fā)工程師主管測(cè)試工程師測(cè)試分析師主管實(shí)施運(yùn)維工程師實(shí)施運(yùn)維分析師關(guān)于大數(shù)據(jù)平臺(tái)規(guī)劃大數(shù)據(jù)典型場景分類查詢查詢統(tǒng)計(jì)類處理離線批量處理類計(jì)算挖掘計(jì)算類不同的場景對(duì)硬件資源的要求查詢統(tǒng)計(jì)類應(yīng)用CPU磁盤網(wǎng)絡(luò)離線批量處理類應(yīng)用科學(xué)計(jì)算類應(yīng)用內(nèi)存不同類大數(shù)據(jù)應(yīng)用場景,對(duì)硬件資源的偏好有所不同。不同的場景對(duì)軟件資源的要求查詢統(tǒng)計(jì)類應(yīng)用離線批量處理類應(yīng)用科學(xué)計(jì)算類應(yīng)用不同類大數(shù)據(jù)應(yīng)用場景,對(duì)生態(tài)技術(shù)資源的偏好有所不同。YARN大獨(dú)立,小集中配置適合的硬件資源,資源充分利用。計(jì)算框架專業(yè),避免部署大而全的臃腫計(jì)算框架。維護(hù)難度低,節(jié)點(diǎn)數(shù)量不是很大,降低了運(yùn)維的技術(shù)難度。技術(shù)風(fēng)險(xiǎn)小,獨(dú)立資源,物理隔離,不會(huì)出現(xiàn)大面積事故。Hadoop集群(查詢統(tǒng)計(jì)類)Hadoop集群(批處理類)Hadoop集群(挖掘計(jì)算類)小集中VS大集中小集中大集中成本較高低硬件資源利用充分低計(jì)算組件專業(yè)大而全運(yùn)維難度低高運(yùn)維量高低技術(shù)風(fēng)險(xiǎn)低較高Hadoop技術(shù)為什么要企業(yè)化企業(yè)就緒大數(shù)據(jù)能力所面臨的問題陡峭的學(xué)習(xí)曲線計(jì)算框架的豐富性,帶來眾多的編程接口(API)、操作、部署以及維護(hù)管理方式,增加了學(xué)習(xí)成本,抬高了技術(shù)人員入行的門檻。SQLJAVAOracleJDBCHadoop技能不能快速就緒企業(yè)就緒大數(shù)據(jù)能力所面臨的問題不具有企業(yè)友好性及通用性例如,黑屏命令行操作維護(hù)方式,增加了運(yùn)維開發(fā)人員的工作難度、操作量,降低的工具的友好性。企業(yè)就緒大數(shù)據(jù)能力所面臨的問題分析算法或模型的不足決策樹貝葉斯邏輯回歸協(xié)同過濾聚類最短路徑DFSBFSK-殼K-核度值統(tǒng)計(jì)PageRank分詞標(biāo)注詞頻統(tǒng)計(jì)文本分類語義圖譜摘要提取語義提取情感分析機(jī)器學(xué)習(xí)復(fù)雜網(wǎng)絡(luò)自然語言。。。自己編互聯(lián)網(wǎng)開源社區(qū)正確性時(shí)間成本支持與服務(wù)企業(yè)就緒大數(shù)據(jù)能力所面臨的問題運(yùn)維難度大數(shù)據(jù)集群數(shù)量眾多的服務(wù)器不便于整體的部署與管理。資源監(jiān)控組件部署資源分配輔助工具…企業(yè)就緒大數(shù)據(jù)能力所面臨的問題版本的選擇支持與服務(wù)HBasev0.98.17、HBasev1.1.3、
Hbase
v1.2.0、Hbase
v1.0.3。。。哪個(gè)框架最適合,需要分析。哪個(gè)版本最穩(wěn)定,需要測(cè)試??蚣苌?jí)是否兼容,需要研究。優(yōu)化與故障處理。專業(yè)的運(yùn)維培訓(xùn)。組件選型的方案級(jí)建議。公司的主要大數(shù)據(jù)產(chǎn)品天云大數(shù)據(jù)平臺(tái)(簡稱BDP)解決了企業(yè)使用Hadoop遇到的困境自然語言處理引擎機(jī)器學(xué)習(xí)引擎復(fù)雜網(wǎng)絡(luò)引擎天云大數(shù)據(jù)產(chǎn)品BDP介紹天云BDP產(chǎn)品簡介天云大數(shù)據(jù)的BDP企業(yè)級(jí)平臺(tái)產(chǎn)品是業(yè)界第一個(gè)實(shí)現(xiàn)了Hadoop技術(shù)落地的商業(yè)版產(chǎn)品。在體系架構(gòu)、功能組件、外圍工具、科學(xué)算法、客戶友好、運(yùn)維管理、應(yīng)用開發(fā)支撐等多方面都在與國內(nèi)外友商的競爭中占據(jù)明顯強(qiáng)勢(shì)地位。在大量落地項(xiàng)目中展現(xiàn)了產(chǎn)品、服務(wù)、交付能力、經(jīng)驗(yàn)知識(shí)儲(chǔ)備和技術(shù)發(fā)展前瞻性的優(yōu)勢(shì)。在產(chǎn)品創(chuàng)新、技術(shù)融合、業(yè)務(wù)完善等多方面有效解決了客戶所面臨的各種問題。天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)OpensourceInfrastructureHadoopMiddlewareHadoopApplications天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)Hadoop
CoreLinuxSystemRedhatCentOSSuseDebian紅旗UbuntuMandrivaApacheClouderaCDHHortonworksHDPComputing
Template數(shù)據(jù)管理Ingress/egress/compression/schemaseriaiization/retention/dual-activecluster數(shù)據(jù)處理DataPipeline/Consistence/ResidenceFramework&
InstanceBATCHNoSQLIndexStreamNLPGraphMLIn-memoryAd-HocQuerySecurityGovernanceDeploymentOrchestrationProvisioning結(jié)構(gòu)檢索機(jī)器日志語義分析流數(shù)據(jù)模糊查詢文檔檢索關(guān)聯(lián)計(jì)算HadoopApplications行為分析/規(guī)律發(fā)現(xiàn)日志處理及分析預(yù)警目標(biāo)市場分析(預(yù)測(cè))機(jī)器學(xué)習(xí)精準(zhǔn)推薦BDP產(chǎn)品的價(jià)值降低了學(xué)習(xí)和維護(hù)成本統(tǒng)一的編程接口、操作、部署以及維護(hù)管理和狀態(tài)監(jiān)控。圖形化操作界面決策樹、聚類、貝葉斯、邏輯回歸、最短路、PageRank。豐富的企業(yè)版算法包穩(wěn)定可靠的Hadoop組件版本每個(gè)組件在出廠之前會(huì)進(jìn)行嚴(yán)格測(cè)試,保證其兼容穩(wěn)定。靈活組件升級(jí)局部組件升級(jí),而不用整體大的版本升級(jí)。模板化實(shí)施提供豐富的場景技術(shù)模板,幫助用戶快速平臺(tái)就緒。安全訪問控制安全授權(quán)、細(xì)粒度訪問控制、基于角色的管理、多租戶管理、機(jī)器級(jí)別的安全認(rèn)證。REST接口資源與權(quán)限管理硬件資源服務(wù)插件模版策略&流程Hadoop框架服務(wù)實(shí)例配置部署監(jiān)控管理插件管理模塊Plugin1Plugin4Plugin2Plugin3…計(jì)算模版架構(gòu)LogFilesNoSQL流采集分布式消息隊(duì)列分布式流引擎模版實(shí)例:實(shí)時(shí)數(shù)據(jù)服務(wù)模版實(shí)例:模糊查詢數(shù)據(jù)服務(wù)多元計(jì)算框架模板公司的主要大數(shù)據(jù)產(chǎn)品備注復(fù)雜網(wǎng)絡(luò)引擎(BDCN)什么是復(fù)雜網(wǎng)絡(luò)錢學(xué)森給出了復(fù)雜網(wǎng)絡(luò)的一個(gè)較嚴(yán)格的定義:具有自組織、自相似、吸引子、小世界、無標(biāo)度中部分或全部性質(zhì)的網(wǎng)絡(luò)稱為復(fù)雜網(wǎng)絡(luò)。結(jié)構(gòu)復(fù)雜節(jié)點(diǎn)數(shù)目巨大,網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)多種不同特征。網(wǎng)絡(luò)進(jìn)化節(jié)點(diǎn)或連接的產(chǎn)生與消失。連接多樣性節(jié)點(diǎn)之間的連接權(quán)重存在差異,且有可能存在方向性。節(jié)點(diǎn)多樣性節(jié)點(diǎn)可以代表任何事物.多重復(fù)雜性融合多重復(fù)雜性相互影響,導(dǎo)致更為難以預(yù)料的結(jié)果.動(dòng)力學(xué)復(fù)雜性節(jié)點(diǎn)集可能屬于非線性動(dòng)力學(xué)系統(tǒng)。由節(jié)點(diǎn)和邊構(gòu)成的圖。復(fù)雜網(wǎng)絡(luò)研究的領(lǐng)域城市公共交通網(wǎng)經(jīng)濟(jì)物理學(xué)科學(xué)家合作網(wǎng)航空網(wǎng)朋友關(guān)系網(wǎng)神經(jīng)網(wǎng)絡(luò)道路交通網(wǎng)只要能抽象出網(wǎng)絡(luò)結(jié)構(gòu)的客觀事務(wù),都可以作為復(fù)雜網(wǎng)絡(luò)的研究的對(duì)象。天云復(fù)雜網(wǎng)絡(luò)引擎簡介天云大數(shù)據(jù)的復(fù)雜網(wǎng)絡(luò)引擎(BDCN)是一款對(duì)網(wǎng)絡(luò)科學(xué)研究及應(yīng)用的專業(yè)數(shù)據(jù)處理引擎。用戶可以快速方便的實(shí)現(xiàn)對(duì)關(guān)聯(lián)數(shù)據(jù)的加載、建模、存儲(chǔ)、計(jì)算以及可視化展示。在實(shí)現(xiàn)數(shù)據(jù)分布式存儲(chǔ)的同時(shí)提供了如最短路徑、Ranking、隨機(jī)游走、子圖發(fā)現(xiàn)等諸多復(fù)雜網(wǎng)絡(luò)的算法實(shí)現(xiàn)。復(fù)雜網(wǎng)絡(luò)理論的豐富算法分析能力節(jié)點(diǎn)重要性分析中心性權(quán)威性樞紐性PR值分析相似性分析關(guān)系性分析BFSDFS最短路徑閉環(huán)發(fā)現(xiàn)社團(tuán)分析網(wǎng)絡(luò)特征分析連通性度分布稀疏與稠密平均路徑聚類系數(shù)冪率分布基于復(fù)雜網(wǎng)絡(luò)算法幫助我們從新的視角觀察分析事物的本質(zhì)規(guī)律。某金融機(jī)構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢商業(yè)銀行A企業(yè)1放貸擔(dān)保企業(yè)1企業(yè)2擔(dān)保商業(yè)銀行B放貸企業(yè)1擔(dān)保擔(dān)保商業(yè)銀行C放貸商業(yè)銀行D放貸擔(dān)保圈形成商業(yè)銀行不能看到擔(dān)保鏈條全部。單純的財(cái)務(wù)報(bào)表,企業(yè)經(jīng)營狀況檢查很難揭示企業(yè)風(fēng)險(xiǎn),需要更深一步的信息挖掘,才能發(fā)現(xiàn)潛在的金融風(fēng)險(xiǎn),保證金融市場的安全?;谄髽I(yè)之間的各種關(guān)聯(lián)關(guān)系構(gòu)建出來的復(fù)雜關(guān)系網(wǎng)絡(luò),從新的分析視角分析金融風(fēng)險(xiǎn)。某金融機(jī)構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢關(guān)系型數(shù)據(jù)庫(核心系統(tǒng))結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)互聯(lián)網(wǎng)網(wǎng)絡(luò)爬取某金融機(jī)構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢文本數(shù)據(jù)擔(dān)保關(guān)系對(duì)家族關(guān)系對(duì)投資關(guān)系對(duì)集團(tuán)關(guān)系對(duì)0
1
0
1
0
1
01
1
0
1
0
1
10
1
0
1
1
1
01
1
0
1
0
1
11
1
0
1
1
1
11
1
0
1
1
1
11
1
0
1
1
1
1鄰接矩陣復(fù)雜網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)匯總構(gòu)建模型企業(yè)關(guān)系網(wǎng)絡(luò)某金融機(jī)構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢BDCN計(jì)算引擎BDCN復(fù)雜網(wǎng)絡(luò)Warshall算法Breath-First
Search,BFS算法Deep-First
Search,DFS算法擔(dān)保圈發(fā)現(xiàn)企業(yè)關(guān)聯(lián)關(guān)系查找技術(shù)與算法支撐企業(yè)關(guān)聯(lián)關(guān)系查詢系統(tǒng)企業(yè)名稱:山東東方伊特廣告有限責(zé)任公司投資總額:
¥1,000,000被投資額:¥300,000投資企業(yè)數(shù):10家被投資企業(yè)數(shù):6家投資總額:¥38,234,532投資企業(yè)被投資企業(yè)投資額度所查企業(yè)企業(yè)1¥3,000,000所查企業(yè)北京市京東林元養(yǎng)殖場¥2,300,000企業(yè)5企業(yè)6¥1,000,000所查企業(yè)北京東豪德利經(jīng)貿(mào)…¥500,000投資額排名:按投資關(guān)系展示查詢結(jié)果機(jī)器學(xué)習(xí)引擎(BDML)什么是機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí)有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)對(duì)具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測(cè)。這里,所有的標(biāo)記(分類)是已知的。對(duì)沒有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)。這里,所有的標(biāo)記(分類)是未知的。因此,訓(xùn)練樣本的岐義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)介于有監(jiān)督和無監(jiān)督之間。天云機(jī)器學(xué)習(xí)引擎簡介機(jī)器學(xué)習(xí)是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,包括分類、協(xié)同過濾、聚類分析、統(tǒng)計(jì)分析等理論方法。天云大數(shù)據(jù)的機(jī)器學(xué)習(xí)引擎基于分布式平臺(tái),為數(shù)據(jù)挖掘提供了算法支撐,能夠處理海量數(shù)據(jù)深度挖掘?;谟斜O(jiān)督機(jī)器學(xué)習(xí)技術(shù)的客戶流失分析客戶1客戶2客戶3客戶4……基本信息購買數(shù)據(jù)理賠數(shù)據(jù)健康數(shù)據(jù)繳費(fèi)數(shù)據(jù)呼叫數(shù)據(jù)HDFS已流失客戶清洗、轉(zhuǎn)換規(guī)整、建模有監(jiān)督學(xué)習(xí)算法模型訓(xùn)練成熟的算法模型基于有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)的客戶流失分析成熟的算法模型客戶1客戶2客戶3客戶4……基本信息購買數(shù)據(jù)理賠數(shù)據(jù)健康數(shù)據(jù)繳費(fèi)數(shù)據(jù)呼叫數(shù)據(jù)現(xiàn)有客戶客戶1客戶2客戶3客戶4流失預(yù)警穩(wěn)定客戶客戶經(jīng)理基于無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)的客戶流失分析年收入2.9萬,總標(biāo)保1.5萬以上,高達(dá)9萬的兩全產(chǎn)品,產(chǎn)品覆蓋面齊全年收入高達(dá)18萬,總標(biāo)保只有1萬,壽險(xiǎn)和年金金額較高,無投連產(chǎn)品年收入2.9萬,高達(dá)6.3萬的萬能產(chǎn)品,產(chǎn)品覆蓋面齊全年收入只有0.3萬,高達(dá)7.7萬的投連產(chǎn)品年收入9.7萬,標(biāo)保只有0.5萬年收入只有0.8萬,高達(dá)2.9萬的年金產(chǎn)品年收入4.8萬,總標(biāo)保2.6萬以上,高達(dá)7.6萬的年金產(chǎn)品,產(chǎn)品覆蓋面齊全自然語言處理引擎(BDNLP)什么是自然語言處理自然語言處理在海量文本數(shù)據(jù)之上進(jìn)行處理,通過機(jī)器實(shí)現(xiàn)了文本分類、情感分析、主題模型、摘要抽取等多個(gè)模型。分詞標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、新詞識(shí)別、文本分類、情感分析、關(guān)鍵詞抽取、詞向量、依存文法、簡繁轉(zhuǎn)換、自動(dòng)注音、摘要提取、文本聚類湯森路透上市公司公告處理湯森路透(ThomsonReuters)成立于2008年4月17日,是由加拿大湯姆森公司(TheThomsonCorporation)與英國路透集團(tuán)(ReutersGroupPLC)合并組成的商務(wù)和專業(yè)智能信息提供商。主要為專業(yè)企業(yè)、金融機(jī)構(gòu)和消費(fèi)者提供財(cái)經(jīng)信息服務(wù),例如電子交易系統(tǒng)、企業(yè)管理系統(tǒng)和風(fēng)險(xiǎn)管理系統(tǒng)、桌面系統(tǒng)、新聞,以及為在法律、稅務(wù)和會(huì)計(jì)、科學(xué)、醫(yī)療保健和媒體市場的專業(yè)人員提供智能信息及解決方案。上市公司公告內(nèi)容抓取自然語言分類和摘要提取并購、公開募股、私募股權(quán)、可轉(zhuǎn)債、其它分類……分詞湯森路透上市公司公告處理通用詞庫專業(yè)詞庫新詞發(fā)現(xiàn)有監(jiān)督機(jī)器學(xué)習(xí)算法模型上市公司公告并購公開募股私募股權(quán)可轉(zhuǎn)債其它分類湯森路透上市公司公告處理并購公開募股私募股權(quán)可轉(zhuǎn)債其它分類基于復(fù)雜網(wǎng)絡(luò)技術(shù)的文章摘要提取摘要信息(涵蓋70%信息量)自然語言處理之文章摘要隨著信息時(shí)代的發(fā)展,大量文本涌現(xiàn)出來,包括新聞、咨詢、論文、小說等,面對(duì)如此大的信息量,如何快速提取文本中心思想并評(píng)價(jià)文本內(nèi)容,是當(dāng)今信息處理領(lǐng)域的關(guān)鍵研究領(lǐng)域。本場景主要介紹的是如何基于復(fù)雜網(wǎng)絡(luò)技術(shù)對(duì)文本進(jìn)行摘要信息的提取。復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)邊文章句子句子間共有詞自然語言處理之文章摘要0
1
0
1
0
1
01
1
0
1
0
1
10
1
0
1
1
1
01
1
0
1
0
1
11
1
0
1
1
1
11
1
0
1
1
1
11
1
0
1
1
1
1句子1句子2句子3句子5句子6句子7句子4句子1句子4句子2句子3句子5句子6句子70
6
0
1
0
1
01
1
0
7
0
1
10
1
0
1
1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025護(hù)理學(xué)院學(xué)生工作計(jì)劃樣文
- 幼兒中班教師工作計(jì)劃范文模板
- 吳建旭“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽項(xiàng)目計(jì)劃書
- 2025白酒銷售月工作計(jì)劃范文
- 切實(shí)加強(qiáng)行風(fēng)建設(shè)努力做好計(jì)劃生育工作的講話
- 城管科科長述職報(bào)告總結(jié)計(jì)劃
- 2025關(guān)于小學(xué)班主任工作計(jì)劃
- 《機(jī)械制圖與CAD含習(xí)題集》課件-第5章3
- 合伙種植沃柑合同模板
- 鐵路客運(yùn)合同案例簡短
- 《汽車傳感器》課件
- 中醫(yī)內(nèi)科學(xué)課件-癲狂
- 分享會(huì)之蹲馬步管理工坊
- 水土保持監(jiān)理實(shí)施細(xì)則
- 第9課小測(cè)-2023-2024學(xué)年初中日語人教版第三冊(cè)(含答案)
- 2023年諸暨市重點(diǎn)高中提前招生選拔考試科學(xué)試卷
- 學(xué)術(shù)規(guī)范與學(xué)術(shù)倫理學(xué)習(xí)通超星課后章節(jié)答案期末考試題庫2023年
- 部編版三年級(jí)上冊(cè)道德與法治期末測(cè)試卷(全優(yōu))
- 2022年北京語言大學(xué)教師招聘考試真題
- 不良資產(chǎn)清收處置手段及流程
評(píng)論
0/150
提交評(píng)論