2019人工智能開源與標(biāo)準(zhǔn)化研究報(bào)告_第1頁
2019人工智能開源與標(biāo)準(zhǔn)化研究報(bào)告_第2頁
2019人工智能開源與標(biāo)準(zhǔn)化研究報(bào)告_第3頁
2019人工智能開源與標(biāo)準(zhǔn)化研究報(bào)告_第4頁
2019人工智能開源與標(biāo)準(zhǔn)化研究報(bào)告_第5頁
已閱讀5頁,還剩121頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能開源與標(biāo)準(zhǔn)化研究報(bào)告二零一九年四月PAGE\*ROMANPAGE\*ROMAN目錄第一章概述 1背景及目的 1本報(bào)告的價(jià)值 2本報(bào)告的脈絡(luò)梳理與導(dǎo)讀 3第二章AI產(chǎn)業(yè)現(xiàn)狀及開源面臨的宏觀問題 4AI產(chǎn)業(yè)現(xiàn)狀及產(chǎn)業(yè)鏈 4基礎(chǔ)層 5技術(shù)層 6行業(yè)應(yīng)用層 7AI開源所存在的問題 9法律道德問題 9潛在鎖定風(fēng)險(xiǎn) 10安全問題 10標(biāo)準(zhǔn)統(tǒng)一問題 10版本兼容性問題 11行業(yè)問題 11第三章AI開源生態(tài)現(xiàn)狀 123.1AI開源全棧(聚焦機(jī)器學(xué)習(xí)及深度學(xué)習(xí)) 123.1.1芯片使能 133.1.2分布式集群 153.1.3大數(shù)據(jù)支撐 163.1.4數(shù)據(jù)管理 173.1.5模型格式 183.1.6深度學(xué)習(xí)框架 183.1.7機(jī)器學(xué)習(xí)框架 193.1.8知識圖譜(知識庫) 203.1.9強(qiáng)化學(xué)習(xí) 203.1.10模型中間表示層IR 213.1.11端側(cè)推理框架 223.1.12高級API 233.1.13開放數(shù)據(jù)集 243.1.14分布式調(diào)度 263.1.15可視化工具 273.1.16模型市場 273.1.17應(yīng)用類項(xiàng)目 283.2開源組織 323.2.1開源中國 323.2.2開源社 333.2.3OpenI啟智開源開放平臺 353.2.4Linux基金會 363.2.5OpenStack基金會 373.2.6Apache基金會 38組織/機(jī)構(gòu)參與開源的角色及目的 39第四章AI開源技術(shù)目前在落地中存在的問題與差距 404.1AI在應(yīng)用時(shí)的總體工作流 414.1.1概述 414.1.2經(jīng)過抽象的工作流實(shí)現(xiàn) 444.1.3實(shí)際應(yīng)用的AI工作流應(yīng)具備的特點(diǎn) 474.2當(dāng)前AI技術(shù)在行業(yè)應(yīng)用中的現(xiàn)狀及問題 484.2.1交通領(lǐng)域 484.2.2油氣領(lǐng)域 504.2.3公共安全領(lǐng)域 524.2.4工業(yè)領(lǐng)域 554.2.5電力領(lǐng)域 584.2.6金融領(lǐng)域 604.2.7醫(yī)療領(lǐng)域 62PAGE\*ROMANPAGE\*ROMAN4.3問題總結(jié)及應(yīng)對思路 644.3.1AI開源軟件的數(shù)據(jù)支持 654.3.2AI開源軟件的算法 664.3.3AI開源軟件的分布式基礎(chǔ)設(shè)施 67第五章AI數(shù)據(jù)開放及協(xié)同 695.1AI數(shù)據(jù)的關(guān)系和需求 695.1.1面對的挑戰(zhàn) 695.1.2AI數(shù)據(jù)開放和協(xié)同中的相關(guān)方 715.2AI數(shù)據(jù)開放和協(xié)同中相關(guān)行業(yè)分析 725.2.1政府角度分析 735.2.2醫(yī)療行業(yè)分析 745.2.3金融行業(yè)分析 765.2.4交通行業(yè)分析 775.2.5物流行業(yè)分析 785.2.6制造行業(yè)分析 805.2.7教育行業(yè)分析 815.2.8石油行業(yè)分析 825.3AI數(shù)據(jù)開放和協(xié)同的可行性 835.3.1頂層設(shè)計(jì) 835.3.2法律法規(guī) 845.3.3數(shù)據(jù)治理 855.3.4開源數(shù)據(jù)平臺建設(shè) 855.4潛在解決方案 865.4.1中心化模式 875.4.2混合型模式 895.4.3去中心化模式 905.4.4沒有初始數(shù)據(jù)的模式 92第六章AI領(lǐng)域開源與標(biāo)準(zhǔn)的關(guān)系 936.1開源與標(biāo)準(zhǔn)聯(lián)動的案例 93PAGE\*ROMANPAGE\*ROMAN6.1.1容器 936.1.2大數(shù)據(jù)文件格式 946.1.3OPNFV(網(wǎng)絡(luò)功能虛擬化) 956.2AI領(lǐng)域開源與標(biāo)準(zhǔn)聯(lián)動的思考 966.3本次標(biāo)準(zhǔn)機(jī)遇研究的范圍與內(nèi)容 97行業(yè)應(yīng)用標(biāo)準(zhǔn) 98AI平臺標(biāo)準(zhǔn) 98安全標(biāo)準(zhǔn) 104應(yīng)用智能化水平評估 105制定人工智能標(biāo)準(zhǔn)中要考慮的因素 106倫理與社會關(guān)注 106監(jiān)管與治理因素 107把握開源與標(biāo)準(zhǔn)平衡,促進(jìn)創(chuàng)新與產(chǎn)業(yè)發(fā)展 108結(jié)語 109附錄A 110表A.1AI開源項(xiàng)目社區(qū)活躍度指標(biāo)統(tǒng)計(jì) 110附錄B 113表B.1第五章技術(shù)術(shù)語表 113表B.2第六章技術(shù)術(shù)語表 115PAGEPAGE第一章概述背景及目的2013年以來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,引發(fā)了新一輪人工智能熱潮,諸如:AlphaGo、刷臉支付、無人駕駛、AR、無人超市等應(yīng)用層出不窮。大intelligence,AI)是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、JohnMcCarthy19562017年國務(wù)院印發(fā)《新一代人工智能發(fā)平臺架構(gòu)等)的公開。近年來開源技術(shù)蓬勃發(fā)展,諸如計(jì)算機(jī)視覺開源社區(qū)OpenCVImageNetAndroid和其他大量開第三,人工智能開源有助于推動人工智能廣泛應(yīng)用,加快推動人工智能與各行業(yè)的融合創(chuàng)新和賦能。本報(bào)告的價(jià)值本報(bào)告旨在為政府及行業(yè)的政策制定者、企業(yè)業(yè)務(wù)決策者、技術(shù)決策者提供參考,促進(jìn)經(jīng)濟(jì)社會各領(lǐng)域智能化轉(zhuǎn)型,加速人工智能技術(shù)在全行業(yè)應(yīng)用落地。(1)促進(jìn)人工智能產(chǎn)業(yè)的發(fā)展提升(包括實(shí)現(xiàn)方法和風(fēng)險(xiǎn)評估(2)加速人工智能技術(shù)的應(yīng)用落地(3)推動人工智能生態(tài)圈建設(shè)報(bào)告所描述的人工智能領(lǐng)域的經(jīng)驗(yàn)和需求能夠促進(jìn)人工智能生態(tài)圈的良性發(fā)展,促進(jìn)企業(yè)的技術(shù)創(chuàng)新。標(biāo)準(zhǔn)與開源的聯(lián)動能使產(chǎn)業(yè)發(fā)展更加健康。(4)推動產(chǎn)業(yè)以更開放的心態(tài)進(jìn)行協(xié)同創(chuàng)新報(bào)告所倡導(dǎo)的開源開放的業(yè)態(tài)有助于推動中國人工智能開源走向更深層次,例如數(shù)據(jù)開放協(xié)同的文化及平臺建設(shè)、開源分享思維和隱私保密需求的平衡等。報(bào)告會給出開放數(shù)據(jù)平臺的構(gòu)建思路及四種可供參考的方案。圖1本報(bào)告的四大價(jià)值本報(bào)告的脈絡(luò)梳理與導(dǎo)讀本次報(bào)告分為如下幾個部分:第二章對AI的產(chǎn)業(yè)現(xiàn)狀及人工智能開源落地行業(yè)的宏觀問題進(jìn)行描述。首先分析了國際國內(nèi)當(dāng)前AI產(chǎn)業(yè)集聚情況,從基礎(chǔ)層、技術(shù)層和行業(yè)應(yīng)用層等三個層次深入描述了AI產(chǎn)業(yè)鏈現(xiàn)狀,提及了工業(yè)、醫(yī)療、電商等典型領(lǐng)域的應(yīng)用場景,然后對AI開源面對的法律道德、壟斷風(fēng)險(xiǎn)、標(biāo)準(zhǔn)統(tǒng)一等系列問題進(jìn)行了深入探討。(LinuxApache軟件基金會,然后分析各組織、公司在重要開源項(xiàng)目中的角色及目的。AI在應(yīng)用時(shí)的總體工作流,然后系統(tǒng)化地分析當(dāng)前基于開源的人工智能技術(shù)在解決行業(yè)具體問題時(shí)還有哪些不足、開源起了什么作用、第五章主要闡述新一代數(shù)據(jù)驅(qū)動的人工智能將給傳統(tǒng)以代碼為核心的開源理念帶來哪些挑戰(zhàn),從政府角度以及一些典型行業(yè)出發(fā)分析AI數(shù)據(jù)開放和協(xié)同中存在的問題,從頂層設(shè)計(jì)、法律規(guī)范、數(shù)據(jù)治理、開源數(shù)據(jù)平臺建設(shè)說明AI數(shù)據(jù)開放和協(xié)同的可行性,最后給出四種可行性技術(shù)架構(gòu)推動新一代開源運(yùn)動(OpenSourceMovement)的升級,實(shí)現(xiàn)“開放生態(tài)圈平臺”(OpenEcosystemPlatform)的愿景。第二章AI產(chǎn)業(yè)現(xiàn)狀及開源面臨的宏觀問題AI產(chǎn)業(yè)現(xiàn)狀及產(chǎn)業(yè)鏈AIAI應(yīng)用開放平臺,提供語音引擎、視覺引擎、自然語言處理引擎等眾AI基礎(chǔ)技術(shù);圍繞開放平臺,構(gòu)建人才生態(tài)和行業(yè)生態(tài),全面覆蓋教育、金23是人工智能領(lǐng)域目前在產(chǎn)業(yè)界應(yīng)用的全景圖。在產(chǎn)業(yè)全景圖中的“基礎(chǔ)設(shè)施”層對應(yīng)了參考框架中的“數(shù)據(jù)”業(yè)全景圖中的“智能系統(tǒng)”及“行業(yè)應(yīng)用”對應(yīng)了參考框架中的“產(chǎn)品與服務(wù)”。圖2人工智能參考框架圖圖3人工智能產(chǎn)業(yè)生態(tài)圈全景圖基礎(chǔ)層(CPUGPU等(FPGA等、全定制化芯片(ASIC等)GPU是深度學(xué)習(xí)訓(xùn)練平臺的FPGA的靈活可編程特點(diǎn)可以使得在算法未完全成熟時(shí)切入市場,2016GoogleTPU芯片后,這一市場熱潮不斷。國內(nèi)如寒武紀(jì)、地平線、華為海思等公司也紛紛研發(fā)出可規(guī)模商用的人工智能專用計(jì)算芯片。AI等功能的集成變得尤為AMD、ARM和三星等公司組成的全球異構(gòu)系統(tǒng)架構(gòu)(HSA)2017年成立了中國區(qū)域委員會(CRC)。CRCHSA生態(tài)系統(tǒng)為側(cè)重點(diǎn),提高對異構(gòu)計(jì)算的意識認(rèn)知,并促進(jìn)HSA在中國的標(biāo)準(zhǔn)化進(jìn)程。新一代人工智能依賴于海量數(shù)據(jù)的處理、存儲、傳輸,因此離不開云計(jì)算。IT資源池,用于創(chuàng)建高度虛擬化的資源IT投資的利用率最大化,IT技術(shù)層目前技術(shù)層中的核心技術(shù)主要由科技巨頭企業(yè)掌控,如微軟、亞馬遜、GoogleFacebookAI技術(shù)的發(fā)展,催生PaddlePaddle、CNTK、Deeplearning4j、Mahout、MLlibAIVR、無人駕駛汽車、人臉識別系統(tǒng)、智能客服等。行業(yè)應(yīng)用層AI應(yīng)用中訴求比較明確的領(lǐng)域。工業(yè)AR/VR醫(yī)療電商在電商領(lǐng)域,無人店、無人貨架紛紛引入人臉識別、貨物識別等先進(jìn)技術(shù),公共安全罪預(yù)警、案件偵破和網(wǎng)絡(luò)音視頻監(jiān)管等領(lǐng)域具有重要應(yīng)用價(jià)值和廣泛的應(yīng)用前景。金融智能終端/個人助理APP連接,實(shí)現(xiàn)硬件控制、日程管理、信息查詢、生活服務(wù)、情感陪伴等。交通物流航空AR/VR可以實(shí)現(xiàn)人與機(jī)器智能的結(jié)合,全面提升觀察-調(diào)整-決策-行動(OODA)環(huán)的運(yùn)行速度和運(yùn)行質(zhì)量。AI開源所存在的問題法律道德問題隨著人工智能的發(fā)展,其已經(jīng)逐漸涉及到違法犯罪的黑色領(lǐng)域,被大肆用于PAGEPAGE潛在鎖定風(fēng)險(xiǎn)目前雖然有大量的開源技術(shù)和軟件可以使用,但是背后的廠商如谷歌、Facebook安全問題AIAI開源技術(shù)形成的軟件,其最終使用開源代碼在社區(qū)中一AI開源技術(shù)及產(chǎn)品的推廣使用。標(biāo)準(zhǔn)統(tǒng)一問題不同于其他開源軟件,當(dāng)前AI開源模式不夠充分,僅限于開源AI框架,數(shù)AI已開源框架、X86GPUAI算法,僅在所限定版本兼容性問Caffe、MxNet、、等AIAIAI開發(fā)行業(yè)問題AI已開始逐步應(yīng)用,但各行業(yè)因?yàn)樽陨淼膶傩裕媾R一些棘手AI朝更深入、更廣泛的方向應(yīng)用。由于前期研發(fā)周期較長,相AI技術(shù);金融性;既懂金融業(yè)務(wù)、又懂開源AI技術(shù)的人才也極度稀缺。AI框架少,技術(shù)架構(gòu)不明晰,且軍事領(lǐng)域由于出于安全問題考慮,第三章AI開源生態(tài)現(xiàn)狀A(yù)I開源全棧(聚焦機(jī)器學(xué)習(xí)及深度學(xué)習(xí))(2018版AIAI領(lǐng)域開源主要是在機(jī)器學(xué)習(xí),AI技術(shù)創(chuàng)新與落地的主要領(lǐng)域,本報(bào)告主要對應(yīng)的是機(jī)器學(xué)習(xí)/深度學(xué)習(xí)這一領(lǐng)域。圖4 AI開源全棧示意圖上圖是目前比較活躍的機(jī)器學(xué)習(xí)及深度學(xué)習(xí)的開源社區(qū)及項(xiàng)目所形成的開源全棧示意圖,整個開源全棧被分為四個層次:(1)基礎(chǔ)設(shè)施AIAIAIAI工作負(fù)載(訓(xùn)練、推理、數(shù)據(jù)準(zhǔn)備與治理、生命周期管理等AI框架的基礎(chǔ)設(shè)施層。(2)深度學(xué)習(xí)/機(jī)器學(xué)習(xí)(DL/ML)引擎深度學(xué)習(xí)/機(jī)器學(xué)習(xí)(DL/ML)引擎主要指深度學(xué)習(xí)/機(jī)器學(xué)習(xí)框架,包括訓(xùn)(3)應(yīng)用使能AI算法工程師在準(zhǔn)備數(shù)據(jù)與使用訓(xùn)練框架之外的(4)AI業(yè)務(wù)AIAIAI服務(wù),涵蓋視頻、語音、圖像文本等。以下是各組成部分的主要分類、描述和相關(guān)項(xiàng)目(按圖中數(shù)字標(biāo)識順序):芯片使能深度學(xué)習(xí)需要大量重復(fù)執(zhí)行矩陣乘法、激活函數(shù)(sigmoid、tanh)等計(jì)CPU執(zhí)行上述計(jì)算的性價(jià)比較低,需要采用專用的計(jì)算芯片。適AIGPU、FPGAASICAI中常用函數(shù)計(jì)DLA是NVIDIA基于XavierSoCSoC。DLA(訓(xùn)練)CPU和內(nèi)存單元才能完整驅(qū)動整個加速器,CPU通過中斷和CSB總線控制NVDLA加速器。RISC-V是基于精簡指令集計(jì)算(RISC)原理建立的開放指令集架構(gòu)(ISA)RISC-VRISC-VRISC-V指令集架構(gòu)可以設(shè)計(jì)服務(wù)器計(jì)算芯片、家用電器計(jì)算芯片、工控計(jì)算芯片和比指頭小的傳感器計(jì)算芯片。鏈接:/是構(gòu)架編譯器(compiler)C++2000UIUC已經(jīng)被蘋IOS開發(fā)工具、XilinxVivado、Facebook、Google等各大公司采用。鏈接:/OpenCLKhronos集團(tuán)管理,是一個為異構(gòu)平臺編寫程序的框架。此CPU、GPU或其它類型的處理器組成。OpenCL由一種用于編寫kernels(OpenCL設(shè)備上運(yùn)行的函數(shù))的語言(C99)和一組用于定義并API組成。鏈接:https:///opencl/Vulkan?也由Khronos集團(tuán)開發(fā),使軟件開發(fā)人員能夠全面獲取Radeon?GPU與多核CPUCPU在提供重要特性、性APIOpenGL無法訪問的GPU硬件特性。鏈接:https://www.k/vulkan/CyborgOpenStackCyborg提供面向異構(gòu)加速硬件的基礎(chǔ)生命周期管理能力(CRUD操作),API,為用戶提供統(tǒng)一的異構(gòu)計(jì)算資Cyborg提供了如下標(biāo)準(zhǔn)化接口:掛載與卸載異構(gòu)計(jì)算設(shè)備創(chuàng)建異構(gòu)計(jì)算設(shè)備刪除異構(gòu)計(jì)算設(shè)備更改異構(gòu)計(jì)算設(shè)備查詢異構(gòu)計(jì)算設(shè)備可編程異構(gòu)計(jì)算設(shè)備的燒寫異構(gòu)計(jì)算設(shè)備的租戶配額控制AI業(yè)務(wù)分GPU(ASIC等)接入困難等平臺相關(guān)的難題。鏈接:/wiki/Cyborg分布式集群云計(jì)算平臺對人工智能的基礎(chǔ)支撐包括異構(gòu)計(jì)算的部署和開發(fā)工具兩個方面。在異構(gòu)計(jì)算方面,GPU已成為深度學(xué)習(xí)訓(xùn)練平臺的主流配置;FPGA的靈活GoogleTPU訓(xùn)練平臺的部署已經(jīng)形成以容器技術(shù)為基礎(chǔ)的自動化部署趨勢。各種AI公司或者互聯(lián)網(wǎng)公司的AI部門都在嘗試如何在Kubernetes(K8s)上運(yùn)行、、MXNetAI平GoogleKubeFlowK8s集群上的部署、運(yùn)維、參數(shù)調(diào)優(yōu)等功能支持,并且已經(jīng)有TNN等公司向KubeFlow貢獻(xiàn)特性。鏈接:/kubeflow/kubeflowIBMFfDLCaffeAIK8SPaddleK8SAI平臺的部署,PaddleEDLK8SOpenStack社區(qū)也加強(qiáng)對GPU等硬件的支持,同時(shí)也出現(xiàn)了一些支持AI平臺部署的項(xiàng)目。鏈接:https:///大數(shù)據(jù)支撐ApacheHadoop已經(jīng)成為大數(shù)據(jù)處理領(lǐng)域事實(shí)上的標(biāo)準(zhǔn)。Hadoop作為一個完整的大數(shù)據(jù)處理生態(tài)圈,包括多個組件:分布式文件系統(tǒng)HDFS、并行化計(jì)算MapReduceHBaseZookeeperITHadoop集PB級別的數(shù)據(jù)。鏈接:/Hadoop技術(shù)為大數(shù)據(jù)技術(shù)的應(yīng)用提供了很好的支撐環(huán)境,優(yōu)勢主要體現(xiàn)在以下幾處:Hadoop本身是開源社區(qū),方便定制;擴(kuò)展性好,安全性高;社區(qū)活躍,得到多個大公司的支持;成本低,開發(fā)周期短,技術(shù)成熟。ApacheSparkJava、Scala、Python、RAPI,能夠高SparkSQL、結(jié)構(gòu)數(shù)據(jù)處理、機(jī)器學(xué)習(xí)、圖計(jì)算、流SparkHadoop集HadoopHDFSHBaseCassandraHiveHadoopInputFormatSparkApaheadoop(tAnthreoeNeoio,Hadoop的基本思想是將資源管理、任務(wù)調(diào)度與監(jiān)測分散到不同應(yīng)用要么是單獨(dú)作業(yè),要么是有向無環(huán)圖作業(yè)。Hadoop的擴(kuò)展,它不MapReduceHive、Hbase、Pig、Spark/Shark等Hadoop/數(shù)據(jù)管理AIAI過程中消耗資源最為巨大的部分。DataCatalog作為解決數(shù)據(jù)發(fā)現(xiàn)難題的手段,被主流廠商和社區(qū)所重視。DataCatalog旨在通過對復(fù)雜場景下的多數(shù)據(jù)中心、多種數(shù)據(jù)源進(jìn)行元數(shù)據(jù)(MetaData)統(tǒng)一管理來解決數(shù)據(jù)邏輯統(tǒng)一、物理分布的數(shù)據(jù)共享問題。元數(shù)據(jù)治理統(tǒng)一數(shù)據(jù)交換格式RISELabGround項(xiàng)目也BigMetaData管理,通過管理數(shù)據(jù)上下文,解決數(shù)據(jù)使用效率低下、治理困難等問題。ApacheAtlas(元數(shù)據(jù)治理)是一個可擴(kuò)展核心數(shù)據(jù)治理服務(wù)集,&ApacheAvro可以將數(shù)據(jù)結(jié)構(gòu)或?qū)ο筠D(zhuǎn)化成便于存儲或傳輸?shù)母袷健vro設(shè)計(jì)之初就用來支持?jǐn)?shù)據(jù)密集型應(yīng)用,適合于遠(yuǎn)程或本地大規(guī)模數(shù)據(jù)的存儲和交avro(C,C++,PythonPHP)avro依賴RISELabGround是一個數(shù)據(jù)湖(datalake)context管理系統(tǒng)。它提供了一個RESTful解決數(shù)據(jù)使用效率低下、治理困難等問題。GroundAPI和追蹤模型格式ONNX是微軟、Facebook為聯(lián)手打造AIOpenNeuralNetworkONNX是邁向開放生態(tài)系統(tǒng)在支持ONNX的框架有Caffe2、、Cognitive、MXNet。谷歌的ONNX。鏈接:/onnx/onnxNNEFKhronos集團(tuán)主導(dǎo)的跨廠商神經(jīng)網(wǎng)絡(luò)文件格式,定義了壓縮網(wǎng)絡(luò)(、、、Theano、Chainer、Caffe2、PyTorch、MXNet等幾乎所有AI框架的模型格式轉(zhuǎn)換。目前,已經(jīng)有30多家芯片企業(yè)參與其中。鏈接:https:///nnef深度學(xué)習(xí)框架在GoogleBrainGPU上運(yùn)行深度學(xué)習(xí)模型,為高效的數(shù)據(jù)流水線提供使用程序,并具有用今年對生態(tài)系統(tǒng)進(jìn)行了大APIMXNetApache孵化器項(xiàng)目。MXNet可以在任何硬件上運(yùn)行(包括手機(jī)),支持多種編程語言:PythonRJuliaC++ScalaMatlabJavascriptGluonAPI封裝。鏈接:/Facebook進(jìn)作為一AI圖像MXNet作為其主要工作平臺。鏈接:/dledledl(lllDiribdDep2013年自主研發(fā)的深度學(xué)PaddlePaddle是一個功能相對全面、(VGG、ResNet、LSTM、GRU等),那么直接執(zhí)行命令,替換數(shù)據(jù)進(jìn)行訓(xùn)練。PaddlePaddleCaffeC++Kubernetes的部署。鏈接:/BigDL是一種面向ApacheSparkBigDL將SparkSparksheduHadoopBigDLMKL和多線程應(yīng)用,因此有極高的性能,可以實(shí)現(xiàn)高效的橫向擴(kuò)展,執(zhí)行大規(guī)模數(shù)據(jù)分析。鏈接:https://bigdl-project.github.io/0.6.0/AnalyticsZooSparkBigDL的端到端智能分析流水線,通過提APISpark和BigDL機(jī)器學(xué)習(xí)框架Scikit-learnBSDPythonNumPy(n維數(shù)組包)、SciPy(科學(xué)計(jì)算基礎(chǔ)包)、matplotlib(2D/3D畫圖)、IPython(加強(qiáng)的交互解釋器)、Sympy(Symbolicmathematics)、Pandas(數(shù)據(jù)結(jié)構(gòu)和分析)之上,做了易用性的封裝。Scikit-learn提供一系列特征工程能力:降維(DimensionalityReduction)(Featureextraction)(Featureselection)ML領(lǐng)域。PAGEPAGE鏈接:/Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項(xiàng)目,主要關(guān)注協(xié)同過濾(CollaborativeFiltering,簡稱CF)領(lǐng)域的推薦引擎(協(xié)同過濾)、聚類和分類支持。MahoutHadoopMapReduce作為計(jì)算框架實(shí)現(xiàn),SparkFlik:/maotapaeog/知識圖譜(知識庫)Freebase,Yago2作為CuratedKBs(CuratedKBs知識庫是由結(jié)構(gòu)化的三元組relation/propertyentity)等知識庫中抽取大量的實(shí)體及實(shí)體關(guān)系,可以把它們理解為是googleFreebase中包含了上千萬個實(shí)體,共19tripleOpenInformationExtraction(OpenIE),Never-EndingLanguageLearning(NELL)作為ExtractedKBs的代表,直接從上億個網(wǎng)頁中抽取實(shí)體關(guān)系三元組,涉及到entitylinking和relationextraction兩大關(guān)鍵技術(shù)。與Freebase相比,這樣得到的知識更加具有多樣性,而它們的實(shí)體關(guān)系和實(shí)體更多的則是自然語言的形式,當(dāng)然,直接從網(wǎng)頁中抽取出來的知識,其精確度要低于CuratedKBs。強(qiáng)化學(xué)習(xí)其他許多機(jī)器學(xué)習(xí)算法中學(xué)習(xí)器都是學(xué)怎樣做,而強(qiáng)化學(xué)習(xí)(RL,ReinforcementLearning)是在嘗試的過程中學(xué)習(xí)到在特定的情境下選擇哪種行動可以得到最大的回報(bào)。RL最重要的3個特點(diǎn)在于:基本是以一種閉環(huán)的形式;不會直接指示選擇哪種行動;一系列的行動和獎勵信號都會影響之后較長的時(shí)間。(MarvDeiionPee,MMs就是一個智能體采取行動從而改變自己的狀態(tài)獲得獎勵與環(huán)境發(fā)生交互的循環(huán)過程。OpenAIGymOpenAIOpenAI2015AGI的福利被AGI的諸多問題之外,OpenAI對機(jī)GymUniverse軟件平臺。Gym是為測試RL算法而設(shè)計(jì)的環(huán)境/任務(wù)的集合。Gym讓用戶不必再創(chuàng)建復(fù)雜的環(huán)境,GymPythonAtari游戲。Gym還OpenAIGymBaseline。鏈接:/DeepMindLab3DDeepMind2PySC2,封裝了暴雪提供的機(jī)器APDepindabDeeMidControlSuiteMoJoCo物理引擎設(shè)計(jì)了一組有著標(biāo)準(zhǔn)化結(jié)構(gòu)、可AgentIR在深度神經(jīng)網(wǎng)絡(luò)中,中間層IR的覆蓋范圍比較廣泛,其核心思想借鑒了。IR是為解決在不同硬件平臺編譯運(yùn)行而產(chǎn)生的中間層表示形式,它是解決模型推理側(cè)運(yùn)行在不同硬件平臺的重要描述方法,主要包括NNVM/TVM和XLAONNX、NNEF,模型交換格式的核心是IR是打通在深度學(xué)習(xí)中多種不同前端訓(xùn)前業(yè)界的中間表示層都一致地采用了GraphIR+IR兩層優(yōu)化結(jié)構(gòu),IntelnGraph、ApacheSystemML等都是如此。按照目前業(yè)界的共識,“IR”的競爭將是未來Framework之爭的重要一環(huán)。端側(cè)推理框架Caffe2go是最早出現(xiàn)的移動端推理框架,讓深層神經(jīng)網(wǎng)絡(luò)在手機(jī)上高效運(yùn)CPUCPU的優(yōu)化進(jìn)行設(shè)計(jì)。鏈接:/caffe2LiteAndroidiOSAndroid生態(tài)NNRuntimeAI移動端應(yīng)用速度,支持根據(jù)硬件情況自CPUGPU。鏈接:https:///lite/NCNNAICaffeMXNetONNXNCNNCPUAI方依賴,因此具有較高的通用性。在CPUAI模型運(yùn)行速度明顯強(qiáng)于LiteAICoreML是蘋果公司的iOSAI組件,能夠?qū)覥affe、PyTorch、MXNet、AIAI模型組件。鏈接:/machine-learning/paddle-mobile是百度自研的移動端深度學(xué)習(xí)框架,將paddle模型部署在手機(jī)端。目前,在iOS系統(tǒng)中支持GPU計(jì)算,在Android系統(tǒng)中僅支持CPU計(jì)算。從社區(qū)的整體評價(jià)來看,功能比較單一,支持比較有限。鏈接:/PaddlePaddle/paddle-mobileFP32位權(quán)值數(shù)FP16INT8NVIDIACaffe、Caffe2、、MXNet、等主流深度學(xué)習(xí)庫。NVIDIACUDACODECSDK結(jié)合使用。獨(dú)立于深度學(xué)習(xí)框架,通過解析框架文件來實(shí)現(xiàn),不需要額外安裝DL庫。圖5 C++或PythonAPI運(yùn)行界面如果模型在ONNX格式或其它流行框架上訓(xùn)練如和Matlab,則很容易導(dǎo)入模型到 中進(jìn)行推理。鏈接:/tensorrtAPIAICaffe/2、MXNet等主流框架封裝成高級API,也稱為AI前端框架。在設(shè)計(jì)上,此類高級API的實(shí)現(xiàn)方式、風(fēng)格都很類似,支持不同領(lǐng)域的差異性。PythonTheanoGluon是Amazon開源以易用性為主的可以同時(shí)支持靜態(tài)圖和動態(tài)圖AI平臺,在靈活性和速度上都有優(yōu)勢,彌補(bǔ)了MXNet難于使用的短板。鏈接:/gluon-api/gluon-apiFacebookAIAPICaffe/2進(jìn)行合并。同時(shí)由于其強(qiáng)大的可調(diào)試性和易于開發(fā)性,以及對caffe/2的良好支持,PyTorch在AI圖像視頻領(lǐng)域一直有很高的占有率。鏈接:/Sonnet是被google收購的deepmind團(tuán)隊(duì)開源、支持?jǐn)?shù)據(jù)科學(xué)家基于TensorFlow搭建復(fù)雜的神經(jīng)網(wǎng)絡(luò)。鏈接:/deepmind/sonnet用角度出發(fā),的常規(guī)神經(jīng)網(wǎng)絡(luò)各部分實(shí)際功處理、強(qiáng)化學(xué)習(xí)、文件、可視化、激活函數(shù)、預(yù)訓(xùn)練模型、分布式),獲得了2017ACMMultimedia年度最佳開源軟件獎。鏈接:/tensorlayer/tensorlayer開放數(shù)據(jù)集90年代NLP3NLP研究的基礎(chǔ)語料。其最早的對外發(fā)布版本是195PB2EnlihbbakPropbank(2017年),它在原先基于網(wǎng)絡(luò)語料PTB基礎(chǔ)上添加了論元標(biāo)記,便于進(jìn)行語義角色標(biāo)注。CTB(PennChineseTreebank,賓州中文樹庫)是由美國賓夕法尼亞大學(xué)在1999NLP3PTB2001CTBCTB9.0(2017年)。NLP(JoakimNivre、MariedeMarneffe、FilipGinter等)2013年發(fā)起的項(xiàng)目UniversalDependency2013年6種語言的標(biāo)記體系,201411種,201430種,目(UD2.2)711224PUDHKCFLUDNLP語義分析的重要基礎(chǔ)材料。UD開放語料的重要性已經(jīng)得到學(xué)術(shù)界認(rèn)可,UD2.0UD2.2NLPCONLL2017和CONLL2018的指定語料,評測全球?qū)W術(shù)和產(chǎn)業(yè)界在NLP領(lǐng)域最新產(chǎn)品的性能。TimGill基金的贊助。詞網(wǎng)、形容詞網(wǎng)、副詞網(wǎng))cross-POS(partofSpeech)指針連接語義形態(tài)相似的詞匯,從而形成全網(wǎng)。鏈接:/ImageNet是谷歌公司2016年發(fā)布的數(shù)據(jù)集,包含900多萬張圖像鏈接,包括訓(xùn)練集(約900萬張)、驗(yàn)證集(約4萬張)、測試集(約12萬張)三部分。6000多類,每張圖像都標(biāo)注了圖像級標(biāo)簽和邊64CSVCSV文件中,URLLicense信息。鏈接:30THCHS-30AMILibriSpeech是霍普斯金大960AMI100小時(shí)左右。另外還有:演講、語言公共數(shù)據(jù)集/resources.phpSQuAD斯坦福問答數(shù)據(jù)集/cn/public-datasets/UCIrvineMachineLearningRepository/ml/index.phpKaggle/competitionsKDnuggets/datasets/index.html持續(xù)更新的數(shù)據(jù)集清單/awesomedata/awesome-public-datasets語音合成方面目前公開的數(shù)據(jù)集還比較少,一個典型的公開數(shù)據(jù)集是卡內(nèi)基2003Arctic31個女性發(fā)音人,1150/cmu_arctic。分布式調(diào)度AI模型的規(guī)模不斷擴(kuò)大,與之相伴的是模型越來越復(fù)雜,參數(shù)量netion325millioet15260millio,VGG16140Speech23001billionGPU節(jié)點(diǎn)擁有一份完整RayRISELab開源的高性能分布式執(zhí)行框架,用于解決類似增強(qiáng)學(xué)習(xí)(ReinforcementLearning)Billions級別數(shù)據(jù)資源調(diào)度,AIAIApache內(nèi)存數(shù)據(jù)交換格式RayAngel是由騰訊與香港科技大學(xué)、北京大學(xué)聯(lián)合研發(fā)的第三代計(jì)算平臺,使JavaScala語言開發(fā),是一個面向機(jī)器學(xué)習(xí)的高性能分布式開源計(jì)算框架。還采用了多種業(yè)界最新SSP(StalesynchronousParallel)、SGDHogWildAngelSpark提供豐富的機(jī)器學(xué)習(xí)算法庫及MRSparkAngel還支持深HorovodUberFacebookRingAllreduce的優(yōu)點(diǎn),可以幫助用戶實(shí)現(xiàn)分布式訓(xùn)練。當(dāng)處理數(shù)據(jù)較多時(shí),分布式GPU超過一定數(shù)量時(shí),硬件利用率明顯下HorovodMPIRingAllreduceTensorFlow,HorovodGPU可以使算力的發(fā)揮提升了近一倍。鏈接:/uber/horovod可視化工具AIAI訓(xùn)練過程中的統(tǒng)計(jì)數(shù)據(jù)(最值、均值等)變化情況和數(shù)據(jù)的分布圖等。目前,提供最強(qiáng)的可視化工具支持,其它AI平臺通過社區(qū)貢獻(xiàn)對接VisualDLPaddlePaddleMXNetCaffe2DNN模型市場AcumosAIAIAI領(lǐng)域AI能力封裝成接口,服務(wù)更多AI技術(shù)公司之間搭建起一套標(biāo)準(zhǔn)交付流程。鏈接:https:///AlgorithmiaAppStore作為服務(wù)協(xié)調(diào)者提供部署服務(wù),解決數(shù)據(jù)+模型應(yīng)用的“最后一公里”的難題。2017Algorithmia獲得了GoogleAI基金的投資。鏈接:/MAX(ModelAssetExchange)IBMAI開發(fā)者建立的一個發(fā)布、尋找和使用免費(fèi)或開源模型的一站式市場,能夠支持包括、Caffee2應(yīng)用類項(xiàng)目推薦系統(tǒng)SVDFeature是由上海交通大學(xué)Apex實(shí)驗(yàn)室開發(fā)的Feature-based協(xié)同過濾和C++KDDCup2012中獲得第一名,KDDCup20112012JMLR中。它包含一個Matrix矩陣分解SVDSVD++等方法,SVDFeature對較少的內(nèi)存實(shí)現(xiàn)較大規(guī)模的單機(jī)版矩陣分解運(yùn)算。此外,它還含有Logisticregressionensemble集成學(xué)習(xí)是由奧地利國家研究中心(ResearchStudiosAustriaForschungsgesellschafttenant就能方便集成。API收集網(wǎng)站的用戶行為,通過離線分析就能產(chǎn)生推薦信息。自下而上包括三層:持久層、業(yè)務(wù)層和展現(xiàn)層。橫向采用模智能問答AIMLArtificialIntelligenceMarkup人工智能標(biāo)記語言XMLRichardWallaceAlicebot開源1995-2002年間發(fā)明創(chuàng)造。AIMLXML標(biāo)準(zhǔn)定義的一種服務(wù)于AIML對象的一組數(shù)據(jù)對象,并AIMLALICE”的聊3Loebner2004ChatterboxChallengeAIML的最初意圖就是為了能夠用最簡單的方式來創(chuàng)建人HTML語法。AIML定義了一套具AIML為核心的聊天系統(tǒng)具有強(qiáng)大的功能,此外,用AIML具有很好的擴(kuò)展性。DrQA是FaceBook在2017年7月開源的開放域問答系統(tǒng),對應(yīng)文章發(fā)表在ACL2017。DrQA是基于閱讀理解的OpenQA系統(tǒng),執(zhí)行過程包括先后兩部分:RetriverReader;Retriever5篇候選文章,核心算法是二元語法哈希(BigramHashing)TF-IDF;Reader從候5RNNDrQA專注于回答IBMDeepQA語音識別/機(jī)器翻譯KaldiDanielPovey開發(fā)和維護(hù)。GMM-HMM、SGMM-HMM、DNN-HMM等多種語音識別的模型的訓(xùn)練DNN-HMM中的神經(jīng)網(wǎng)絡(luò)還可以由配置文件自定義,DNN、CNN、TDNNLSTMBidirectional-LSTM/是亞馬遜在20177ApacheMXNet的機(jī)器翻譯框架,Python-神經(jīng)翻譯架構(gòu):注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(AttentionRNN)、自注意力變換器(Self-attentionalTransformer)、全卷積網(wǎng)絡(luò)(FullyCNN),可以進(jìn)行訓(xùn)練和擴(kuò)展。此外,Sockeye還支持多種優(yōu)化器以及歸一化、正則化技術(shù),并利用當(dāng)前的NMT文獻(xiàn)提升了推斷能力。用戶可以很輕松地運(yùn)行標(biāo)準(zhǔn)的訓(xùn)練流程,探索不同PAGEPAGE的模型設(shè)置,驗(yàn)證新的想法。鏈接:/awslabs/sockeyeFairSeqFaceBook20175月開源的機(jī)器翻譯項(xiàng)目,它通過多跳注意GPU(RNN)系9()人臉識別DeepFaceFaceBook2014Python研發(fā),CVPR2014,它是采用深度學(xué)習(xí)技術(shù)進(jìn)行人臉識別的奠基之作,DeepFace->對齊->表示->人臉比對數(shù)據(jù)集97.25%,97.5%。此外,F(xiàn)acebook還開源了三款人工智能圖像分割軟件,將能夠識別一種圖FaceNet是由谷歌在2015年開源的基于TensorFlow的人臉識別項(xiàng)目,由PythonCVPR2015。FaceNet的原理是直接將人臉圖像映SoftMax(采用兩CNN網(wǎng)絡(luò)(Zeiler&Fergus架構(gòu)、GoogleNet架構(gòu))提取圖像特征向量。2015LFWFace95.12%SeetaFace2016年開源的人臉識別項(xiàng)目,C++SeetaFaceDetection(結(jié)合傳統(tǒng)人造特征和多層感知機(jī)檢測人臉SeetaFaceAlignment(級聯(lián)多個深度模型來回歸人臉5個關(guān)鍵特征點(diǎn)的位置)以及人臉特征提取與比對模塊SeetaFaceIdentification(9CNN提取人臉特征)。2016LFW上的正120FaceBook其它應(yīng)用類開源項(xiàng)目Detectron是FacebookAI研究院(簡稱FAIR)開源的物體圖像識別平臺,該項(xiàng)目自2016年7月啟動,遵循Apache2.0開源許可證。(CLiPS)研究中心所50350多項(xiàng)單元測試。GitHub用戶為其給出了超過6000個星評,fork次數(shù)亦超過1100次。鏈接:/facebookresearch/DetectronAerosolve是由愛彼迎創(chuàng)建的一款人工智能工具,特別擅長處理地理數(shù)據(jù)。Scala支持以及圖像GitHub4200個星評、550fork。鏈接:http://airbnb.io/aerosolve/DSSTNEAmazon公司打造的推薦引擎原型,代表著“深層可擴(kuò)展稀疏GitHub4000多個星660。鏈接:/amzn/amazon-dsstneCaffeOnSpark最初由雅虎開發(fā)而成,可以將Caffe深度學(xué)習(xí)框架引入到Hadoop和Spark集群,主要用于圖像搜索和內(nèi)容分類以及其它使用場合。鏈接:/yahoo/CaffeOnSparkDeepDetectCaffe、XGBoost的開源深度學(xué)習(xí)服務(wù)器系統(tǒng),被空中客車和微軟之類的企業(yè)組織所使用,它為圖像分類、對象檢測、文本API。鏈接:/DeepMindLabDeepMind3D游戲環(huán)境,適用于深度強(qiáng)化學(xué)習(xí)研究。鏈接:/research/publications/deepmind-lab/II》APIDeepMind和暴雪娛樂公司在共同開展一IIAIC++庫,可用于構(gòu)建腳本化的機(jī)器人程序。鏈接:/forums/en/sc2/topic/20758616786Numenta這些項(xiàng)目試圖基于生物界對于人類新大腦皮層的了解來生成機(jī)器智能。鏈接:/OpenCog(AGI)如深度學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)開源組織AIAILinux基金會、OpenStackApache基金會。本節(jié)就一些比較著名的國內(nèi)國際開源組織進(jìn)行介紹。開源中國開源中國(OSCHINA.NET)成立于2008年8月,目前已建立了一個全球內(nèi)容最5500萬700。2011年,開源中國舉辦了首場名為源創(chuàng)會的線下開源技術(shù)交流活動,秉承著“開源和創(chuàng)新”IT公司、100參會人數(shù)超過5萬人。源創(chuàng)會不止于分享技術(shù),還努力傳播開源精神和理念。2013年,開源中國推出碼云代碼托管平臺(/),成為國內(nèi)首500萬個,其中開源項(xiàng)目超過1506萬家企業(yè)的選擇,在碼云上開展項(xiàng)目管理和開發(fā)工作。在推動開源的發(fā)展GVP精選開源項(xiàng)目欄目,為廣大的開發(fā)者推薦值得信賴的開源項(xiàng)目。同時(shí),碼云還專門為高校計(jì)算機(jī)老師打造了“高校版”,目前已經(jīng)成為國1000個高校的老師通過碼云高2018年,碼云推出了開源項(xiàng)目抄襲檢測工具,開源軟件作者可以通過使用該工具來檢查目前國內(nèi)存在比較嚴(yán)重的項(xiàng)目抄襲現(xiàn)象;推出了“項(xiàng)目指數(shù)”工具,對開源項(xiàng)目各項(xiàng)指標(biāo)進(jìn)行量化,對開源項(xiàng)目的長期、全方位發(fā)展提供了很好的視角和完善建議。開源社開源社于2014年成立,是由國內(nèi)外支持開開源軟件的積極參與及貢獻(xiàn)者。2017(GNOMESoftware2017年底由全體正式個人成員選舉7(9/翻譯/由企業(yè)及社區(qū)開源專家組成的顧問委員會,以及法律咨詢委員會。在開源治理方面,開源社與歐洲最知名的開源治理社區(qū)OSS合作,20152016201820161月,開源社作為中國首家開源組織加入OpenSourceInitiative(OSI)成為聯(lián)盟成員,為推動開源治理與合規(guī)OSI攜手合作。20多場線上與線下的編程馬拉松。201510ApacheSoftwareFoundation2015阿帕奇中國路演】,201610月聯(lián)合國內(nèi)多家開源社區(qū)/企業(yè)/聯(lián)盟共同籌辦首屆【2016中國開源年會-COSCon'1611月舉辦了國內(nèi)首次以開源社區(qū)運(yùn)營以及項(xiàng)目貢獻(xiàn)為主題的盛會-【2017中國開源年會-COSCon’17】,201810月舉辦了包括開源硬件與開源教育論壇的【2018中國開源年會-COSCon’18】。SourceInitiative(OSI)OpenInnovationNetworks流與合作,同時(shí)為國內(nèi)諸多高質(zhì)量的開源項(xiàng)目進(jìn)入國際頂級基金會如ApacheSoftwareFoundation孵化器搭橋鋪路。KCoin開源貢獻(xiàn)激勵平臺2018年正式捐贈給開源社,是第一個由國際頂級企業(yè)捐贈給中國開源社區(qū)的項(xiàng)目),并期盼未來有更多更好的開源項(xiàng)目以及貢獻(xiàn)者加入開源社。OpenI啟智開源開放平臺OpenI啟智平臺是新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟(AITISA)組織產(chǎn)OpenI。OpenIOpenIOIL1.0,前期主要參與發(fā)IntelNVIDIAOpenIAIVisualDLCLAOpenIOpenIAIAI啟智深圳基地,OpenI北京智源社區(qū),新一代人工智能產(chǎn)業(yè)創(chuàng)新聯(lián)盟“啟智空間”O(jiān)penI核心成員北京智源研究院曠視智能模型設(shè)計(jì)與圖像感知聯(lián)合實(shí)驗(yàn)室(孫劍博士團(tuán)隊(duì)),新發(fā)布并開放世界最大物體檢測數(shù)據(jù)集Object365,積極貢獻(xiàn)自動訓(xùn)練算法及Brain++框架部分功能;成員微眾銀行(楊強(qiáng)教授團(tuán)隊(duì))貢獻(xiàn)“OpenI縱橫”聯(lián)邦數(shù)據(jù)學(xué)習(xí)系統(tǒng);數(shù)據(jù)堂計(jì)劃貢獻(xiàn)大量語音開放數(shù)據(jù)集;相關(guān)項(xiàng)目簽署CLA后即將進(jìn)入立項(xiàng)管道,加入社區(qū)步道。同時(shí),OpenI組建了國內(nèi)及國際頂級OIL2.0、以及新一代人工智能科技產(chǎn)權(quán)與治理策略;OpenIOpenI生態(tài)環(huán)境開放數(shù)據(jù)社區(qū)。被譽(yù)為AI黃埔軍校的微軟研究院作為OpenI最早的發(fā)起參與成員之一,正與中國最大開發(fā)者社區(qū)CSDN合作,基于鵬城云腦發(fā)起AI教育項(xiàng)目,精心設(shè)計(jì)AIOpenITrustie”群體化協(xié)同創(chuàng)新環(huán)境以及AIOpenI學(xué)習(xí)社區(qū)和開發(fā)者社區(qū)。Linux基金會Linux2000LinuxKernelOpenSourceDevelopmentLab(OSDL)FreeSoftwareFoundation(FSF)Linux系統(tǒng)的發(fā)展、保護(hù)其成LinuxLinus等重要角色參與項(xiàng)目的開發(fā)管理,和來自世界各地的開發(fā)人員開展合作。截止201715,600名開發(fā)者以及大量個人開發(fā)者貢獻(xiàn)了內(nèi)核代Linux使用、系統(tǒng)管理、虛擬化技術(shù)等在線培訓(xùn)課程Linux隨著開源項(xiàng)目的不斷發(fā)展,Linux基金會開始致力于圍繞更多開源項(xiàng)目構(gòu)建OpenDayLightOPNFVCNCFopenSDSMeegoTizenHyperledgerACRN等。20183月,LinuxLFDL(LinuxFoundationDeepLearning)AcumosAI。目前比較重量級的項(xiàng)目包括百度貢獻(xiàn)的EDL項(xiàng)目,騰訊貢獻(xiàn)的Angel項(xiàng)目、Uber貢獻(xiàn)的Horovod等。目前,已有10多家企業(yè)參與,包括華為、百度、騰訊、中興等中國公司。Linux基金會和這些合作項(xiàng)目的關(guān)系可以總結(jié)為:LinuxLinux(3)每個合作項(xiàng)目都可以根據(jù)自己的情況邀請各自的會員。合作項(xiàng)目的會(4)LinuxLinuxLinux基金Linux基金會采用的是企業(yè)會員+個人會員制。50、思科、富士通、谷歌、日立、華為、IBM、英特爾、、甲骨文、高通、三星、騰訊、和微軟。OpenStack基金會OpenStack2012OpenStack云操作系統(tǒng)在全球的發(fā)展、傳播和使用。OpenStack基金會的目標(biāo)是在全球范圍OpenStack公的云軟件。OpenStackLinux的第二大活躍開源社區(qū),也是全球成OpenStack17631894了555家公司的支持,已經(jīng)擁有94項(xiàng)產(chǎn)品及服務(wù)。OpenStack201724個黃金會員席(OpenStackOpenStack社區(qū)中。根據(jù)201836日,OpenStack17個版本-Queens200RedhatIBMIntelRackspaceSUSEQueens代碼貢獻(xiàn),OpenStack技術(shù)的中堅(jiān)力量。Apache基金會Apache軟件基金會(ApacheSoftwareFoundation,ASF)正式創(chuàng)建于1999年7月,是專門為支持開源軟件項(xiàng)目而辦的一個非盈利組織。ASFApache的項(xiàng)目可以在沒有個人志愿者參與的情況Apache,需要證明自己能夠在開源軟898位銀牌贊助商和147316700Google、Microsoft、Facebook等。2018年9月,騰訊成為基金會白金會員,這也是中國首家成為AFS白金會員的公司。AFS目前為超過350個開源項(xiàng)目提供支持,涵蓋人工智能和深度學(xué)習(xí)、大數(shù)據(jù)、構(gòu)建管理、云計(jì)算、內(nèi)容管理、DevOps、物聯(lián)網(wǎng)和邊緣計(jì)算、移動、服務(wù)器和Web框架等眾多領(lǐng)域。ApachePredictionIO可以幫助開發(fā)人員和數(shù)據(jù)Apache捐贈開源JStorm,并在ApacheStormApache?CarbonDataApacheApacheSINGAASF(神經(jīng)網(wǎng)絡(luò)層構(gòu)建深MLIBM發(fā)起和捐贈,該工具可幫助電腦從海量數(shù)據(jù)中找到相同的形態(tài),用于預(yù)MXNETApache基金會中的頂級項(xiàng)目。3.3 組織/機(jī)構(gòu)參與開源的角色及目的開源的價(jià)值是多方面的,不同組織/機(jī)構(gòu)投入到開源中來的價(jià)值取向和價(jià)值獲得也是多樣的,主要包括六個方面:(1)開放選擇:開源減少了廠商和特定實(shí)現(xiàn)技術(shù)的鎖定,組織/機(jī)構(gòu)今天做出的決定,不會限制其未來的選擇。(2)靈活便捷:組織/機(jī)構(gòu)無論對內(nèi)對外,不論其技術(shù)選擇如何,都能容易地實(shí)現(xiàn)互聯(lián)互通。(3)敏捷開發(fā):開源技術(shù)依托來源廣泛的開源社區(qū),通常采用更靈活的開發(fā)、測試、集成方法。(4)快速適應(yīng)變化:外部環(huán)境、可用資源、適用場景的變化,容易反饋至多社區(qū)驅(qū)動的項(xiàng)目開發(fā),使得其具備新能力,快速迭代以適應(yīng)新形勢。(5)技能普及:由于開源社區(qū)的普遍性、廣泛性和跨地域特性,所需技能不局限于一地,容易獲得。(6)公平公開:開源使得生態(tài)系統(tǒng)的利益相關(guān)方能夠處在一個更加公開公正、平等互利的環(huán)境中。PAGEPAGE對于行業(yè)引領(lǐng)者,他們往往要從戰(zhàn)略的角度,更多地考慮生態(tài)系統(tǒng)的建設(shè),(無論這個技術(shù)來自組織內(nèi)部還是組織外部(尤其是基金會制度下的開源社區(qū)HTTPApache基金會進(jìn)行管理。這一舉措使HTTPMozillaEclipse集成開發(fā)環(huán)境。LinuxLinux開發(fā)中間件和應(yīng)用,隨著生態(tài)的以及上面的應(yīng)用已經(jīng)成為主流。綜上,組織/機(jī)構(gòu)依據(jù)自身戰(zhàn)略需求,可以以不同形式參與到開源社區(qū)中,(CICD)第四章AI開源技術(shù)目前在落地中存在的問題與差距AI開源技術(shù)打破了建立專利技術(shù)公司的壁壘,大大提高了AI技術(shù)的迭代速度,同時(shí)也由于AI開源技術(shù)產(chǎn)出者對應(yīng)用環(huán)境背景不了解,導(dǎo)致開源代碼的魯AI開源技術(shù)消費(fèi)者使用需求。AI開源技AI在應(yīng)用時(shí)的總體工作流概述在二十世紀(jì)八十年代一度興起的專家系統(tǒng)就是基于人工定義的規(guī)則來回答80年代傳統(tǒng)專家系統(tǒng)和近年基于深度學(xué)習(xí)的人工智能系統(tǒng)工作流對比示意圖。圖6基于深度學(xué)習(xí)的人工智能系統(tǒng)工作流對比示意圖當(dāng)前的人工智能普遍通過基于深度學(xué)習(xí)的機(jī)器學(xué)習(xí)來獲得進(jìn)行預(yù)測和判斷/半監(jiān)督學(xué)習(xí)/7工作流基于機(jī)器學(xué)習(xí)及深度學(xué)習(xí)的AI工作流主要包含數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)特征、模型訓(xùn)練、模型評估和優(yōu)化以及模型應(yīng)用和部署。(1)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備階段包含數(shù)據(jù)管理、數(shù)據(jù)導(dǎo)入、數(shù)據(jù)加工、數(shù)據(jù)選擇等步驟,這是AI(2)數(shù)據(jù)特征建立新的特征,根據(jù)特征對已知數(shù)據(jù)進(jìn)行歸類,對未知類別的數(shù)據(jù)進(jìn)行預(yù)測。(3)模型訓(xùn)練(4)模型評估和優(yōu)化AI的主要目標(biāo)是精確預(yù)測,可以通過修改訪問數(shù)據(jù)和模型來改進(jìn)和優(yōu)化模各個優(yōu)化方法優(yōu)化模型,在數(shù)據(jù)沒有改變和新增的情況下可以通過改變模型參數(shù),更換模型底層算法,模型融合等方式來優(yōu)化模型。(5)模型應(yīng)用和部署AI的最終目的,建模是為了增加更多有關(guān)數(shù)據(jù)的規(guī)律,但算法、算力、數(shù)據(jù)是支撐基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的人工智能系統(tǒng)的基礎(chǔ),(包括算法引擎圖8三個子系統(tǒng)經(jīng)過抽象的工作流實(shí)現(xiàn)(1)根據(jù)業(yè)務(wù)應(yīng)用感知數(shù)據(jù)等輸入,并將其輸入到算法引擎進(jìn)行判斷和推理;(2)如果是新建系統(tǒng),或者新類型數(shù)據(jù),則優(yōu)先對接數(shù)據(jù)系統(tǒng)和深度學(xué)習(xí)系統(tǒng),進(jìn)行新模型訓(xùn)練和部署;(3)如果是已有類型數(shù)據(jù),則優(yōu)先根據(jù)現(xiàn)有算法引擎里面的模型進(jìn)行推測;(4)根據(jù)算法模型和輸入數(shù)據(jù)推理出的機(jī)器預(yù)測或決策返回給上層業(yè)務(wù)。業(yè)務(wù)系統(tǒng)及算法引擎工作流/GPU業(yè)務(wù)系統(tǒng)及算法引擎主要工作流如下:(1)作為整個生態(tài)系統(tǒng)的初始入口,感知原始數(shù)據(jù),并接入到數(shù)據(jù)系統(tǒng)進(jìn)行存儲、計(jì)算和管理;(2)判斷數(shù)據(jù)是否符合已知知識體系的結(jié)構(gòu)特征數(shù)據(jù);(3)如果是,根據(jù)現(xiàn)有部署的算法模型進(jìn)行推理和分析,并返回結(jié)果;(4)如果非已知知識特征數(shù)據(jù)并判斷需要進(jìn)行重新訓(xùn)練,則經(jīng)數(shù)據(jù)系統(tǒng)和訓(xùn)練系統(tǒng)進(jìn)行機(jī)器學(xué)習(xí),部署新模型。圖9業(yè)務(wù)系統(tǒng)及算法引擎主要工作流數(shù)據(jù)系統(tǒng)工作流數(shù)據(jù)系統(tǒng)可基于Hadoop等通用大數(shù)據(jù)架構(gòu)實(shí)現(xiàn)。數(shù)據(jù)系統(tǒng)主要工作流如下:(1)數(shù)據(jù)接入:從業(yè)務(wù)應(yīng)用等對接系統(tǒng)接入數(shù)據(jù),兼容多種形式與多種格(2)(3)數(shù)據(jù)標(biāo)注:對數(shù)據(jù)進(jìn)行標(biāo)注,給數(shù)據(jù)增添豐富的結(jié)構(gòu)化信息,形成供研究人員使用的訓(xùn)練集或測試集;(4)數(shù)據(jù)計(jì)算:給數(shù)據(jù)增添豐富的結(jié)構(gòu)化信息,包括機(jī)器學(xué)習(xí)所需的特征(5)數(shù)據(jù)管理:對數(shù)據(jù)進(jìn)行訪問授權(quán)與分類管理,根據(jù)租戶和業(yè)務(wù)進(jìn)行數(shù)據(jù)隔離,保障數(shù)據(jù)安全;(6)經(jīng)過上述工作流處理的數(shù)據(jù),分類為業(yè)務(wù)數(shù)據(jù)和機(jī)器學(xué)習(xí)數(shù)據(jù):APIAPI,輕松實(shí)現(xiàn)分布式的數(shù)據(jù)計(jì)算。圖10數(shù)據(jù)系統(tǒng)主要工作流深度學(xué)習(xí)訓(xùn)練系統(tǒng)工作流深度學(xué)習(xí)訓(xùn)練系統(tǒng)主要工作流如下:(1)資源分配:深度學(xué)習(xí)訓(xùn)練過程需要大規(guī)模的高性能計(jì)算硬件支撐,而(2)任務(wù)調(diào)度:同一個訓(xùn)練系統(tǒng)可能存在多個不同的訓(xùn)練任務(wù),成熟的大(3)神經(jīng)網(wǎng)絡(luò)解釋:目前深度學(xué)習(xí)訓(xùn)練主要針對的是人工神經(jīng)網(wǎng)絡(luò)模型,需要對復(fù)雜的算法模型進(jìn)行降維;(4)模型訓(xùn)練:機(jī)器學(xué)習(xí)可以分為從數(shù)據(jù)進(jìn)行的監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和CPUGPUTPUNPU等異構(gòu)高性能硬件的計(jì)算能力。(5)模型測試:經(jīng)過訓(xùn)練的模型,在生產(chǎn)業(yè)務(wù)系統(tǒng)上進(jìn)行部署之前,需要最終,完成上述步驟之后,輸出符合生產(chǎn)的算法模型,將會部署到算法引擎。深度學(xué)習(xí)訓(xùn)練系統(tǒng)主要工作流4.1.3AI工作流應(yīng)具備的特點(diǎn)AI應(yīng)用工作流應(yīng)該支持但不僅限于以下特點(diǎn):(1)生態(tài)開放(2)API接口API(3)可視化管理支持所有子系統(tǒng)的工作流程,兼容開源可視化框架,易于部署和運(yùn)維管理,并且具備完善的日志系統(tǒng)進(jìn)行記錄用戶操作行為和系統(tǒng)告警。(4)強(qiáng)擴(kuò)展性能進(jìn)行大規(guī)模多節(jié)點(diǎn)的集群運(yùn)行,支持彈性伸縮,可進(jìn)行節(jié)點(diǎn)擴(kuò)容減容。(5)安全可靠支持權(quán)限控制和資源訪問安全控制,支持用戶數(shù)據(jù)隔離等安全機(jī)制。AI技術(shù)在行業(yè)應(yīng)用中的現(xiàn)狀及問題借助數(shù)據(jù)存儲、處理和分析技術(shù),算法與分布式基礎(chǔ)設(shè)施,AIAI交通領(lǐng)域圖12 AI開源技術(shù)在交通行業(yè)的應(yīng)用開源技術(shù)在交通行業(yè)的應(yīng)AI輛安全與輔助駕駛等交通領(lǐng)域,給人們的生產(chǎn)和生活帶來諸多便利。但是,AI開源技術(shù)在交通行業(yè)的應(yīng)用仍然存在一些問題。AI開源和數(shù)據(jù)技術(shù)的差距(1)數(shù)據(jù)系統(tǒng)可靠性與穩(wěn)定性有待提高(2)數(shù)據(jù)存儲與交換同步不成熟OracleDB2Neo4jMongoDBGISNoSQL數(shù)據(jù)組件,這些組件之間的數(shù)據(jù)采集、實(shí)時(shí)同步等數(shù)據(jù)傳輸與交互難以實(shí)現(xiàn)。(3)異構(gòu)數(shù)據(jù)協(xié)同整合挖掘復(fù)雜度高GPSAI技術(shù)實(shí)現(xiàn)難度較高。將不同組件的現(xiàn)有開源框架(Hadoop、Spark、TensorFlow)直接整合AI數(shù)據(jù)挖掘技術(shù)對分析空間、軌跡、視頻圖像組成的混合數(shù)據(jù)尚未有成熟的算法。PAGEPAGEAI開源的算法實(shí)現(xiàn)和應(yīng)用的差距AI開源的算法實(shí)現(xiàn)和應(yīng)用的差距主要表現(xiàn)在交通信息系統(tǒng)中的信號控制系統(tǒng)中的優(yōu)化技術(shù)以及智能車輛中的智能控制技術(shù)。(1)信號控制系統(tǒng)中的優(yōu)化技術(shù)還需完善AI開源算法在自適應(yīng)信號控制(2)智能車輛中的智能控制技術(shù)仍待優(yōu)化智能車輛涉及人工智能中的模糊控制、神經(jīng)網(wǎng)絡(luò)控制和自適應(yīng)控制等技術(shù),AI開源算法在智能車輛中的智能控制技術(shù)還面臨三大核心問題:一是對變AI開源對分布式基礎(chǔ)設(shè)施的需求與差距油氣領(lǐng)域AIPB級以上,人工智能、大數(shù)據(jù)分析已經(jīng)率先成功應(yīng)用在圖13 AI開源技術(shù)在油氣領(lǐng)域應(yīng)用HadoopAIAI開源和數(shù)據(jù)技術(shù)的差距AI分析的數(shù)據(jù)技術(shù)基礎(chǔ)和環(huán)境還不夠成熟,PLCAI開源的算法實(shí)現(xiàn)和應(yīng)用的差距AI(1)油氣生成的優(yōu)化和安全。(2)油氣配送的優(yōu)化和安全AI開源對分布式基礎(chǔ)設(shè)施的需求與差距公共安全領(lǐng)域隨著公共安全立體化和信息化的社會治安防控體系建設(shè),金盾工程、天網(wǎng)工ITDTAI服務(wù)能力從海量復(fù)雜的數(shù)據(jù)中鎖定軌跡,實(shí)現(xiàn)目標(biāo)精確定位、線索智能檢索和事件預(yù)測預(yù)警,在一定程度上具有重大意義。圖14 AI開源技術(shù)在公共安全領(lǐng)域應(yīng)用AIAI開源的安全開源技術(shù)在公共安全行業(yè)的應(yīng)用仍然存在大量問題亟待解決。AI開源和數(shù)據(jù)技術(shù)的差距AI開源技術(shù)的數(shù)據(jù)安全問題AI開源技術(shù)的推廣,AI開源技術(shù)的使用效率提高,學(xué)習(xí)成本也大大降A(chǔ)IAI開源框架構(gòu)建的智慧公安體系一AI開源框架的不兼容性AI開源框架構(gòu)建行業(yè)業(yè)務(wù)分析系統(tǒng),采用單一的開源框架往往不能滿AISparkMLlib等算法框架的交互和模型(3)數(shù)據(jù)形態(tài)多樣化AIPGIS、GIS、Orale、MySQL等關(guān)系Hive、Hbase、HDFS等分布式數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)、同步傳輸、交互與整合。AI開源的算法實(shí)現(xiàn)和應(yīng)用的差距AIAIAI(如Standford、Hanlp、IRSTLM等)的功能,但是對語料、詞性的標(biāo)注目前還沒有統(tǒng)一的標(biāo)準(zhǔn),不同的開源框架趨向于運(yùn)用不同的知識庫、分詞詞典、情感詞典等,AI開源對分布式基礎(chǔ)設(shè)施的需求與差距AI開源技術(shù)在公共安全領(lǐng)域的分布式計(jì)算主要體現(xiàn)在圖像處理和高并發(fā)的以智能手機(jī)為依托的移動互聯(lián)網(wǎng)時(shí)代,尤其是新一代通信技術(shù)的蓬勃發(fā)展,AI開源技AIAI開源技術(shù)仍工業(yè)領(lǐng)域AISystems)的智能制造技術(shù)仍在探索研發(fā)階段,且相關(guān)代碼及數(shù)AI開源項(xiàng)目較少,AI開源主要以離散點(diǎn)的形式在智能制造中展開,其所涉及的共性技術(shù)主要并為企業(yè)管理者或車間運(yùn)維人員提供輔助優(yōu)化、輔助決策以提升企業(yè)的生產(chǎn)效率,減小人員的工作強(qiáng)度。AI開源和數(shù)據(jù)技術(shù)的差距AI開源算法得以充分發(fā)揮作用的關(guān)鍵場景,AI開源應(yīng)用具有重要作用,其兩者之間的差距主要表現(xiàn)為:(1)工業(yè)數(shù)據(jù)采集及通信方面ERP(2)工業(yè)數(shù)據(jù)挖掘AI開源框架用于大數(shù)據(jù)挖掘,但用于工業(yè)大數(shù)據(jù)AI開源框架較少,且均是針對某一方面的工業(yè)數(shù)據(jù)挖掘。(3)工業(yè)數(shù)據(jù)信息轉(zhuǎn)化AI在工業(yè)界落地的難度。AI開源的算法實(shí)現(xiàn)和應(yīng)用的差距AI算法應(yīng)用于智能制造的各個環(huán)節(jié),其中主要包括:(1)基于增強(qiáng)現(xiàn)實(shí)(AR)的人員培訓(xùn)AR設(shè)備能夠?yàn)閷W(xué)員提供實(shí)時(shí)可見、現(xiàn)場分步驟的指導(dǎo),尤其是在產(chǎn)品組裝等領(lǐng)域,通過將圖紙轉(zhuǎn)換為可視三維模型,指導(dǎo)操作人員完成所需的步驟。(2)預(yù)測性維護(hù)預(yù)測性維護(hù)依據(jù)實(shí)時(shí)采集的設(shè)備運(yùn)行數(shù)據(jù),通過機(jī)器學(xué)習(xí)算法辨識故障信(3)動態(tài)智能排產(chǎn)(4)智能在線檢測然而面對有監(jiān)督學(xué)習(xí)在工業(yè)中的應(yīng)用,數(shù)據(jù)采集、數(shù)據(jù)格式以及采用哪種AIARARAI開源對分布式基礎(chǔ)設(shè)施的需求與差距智能制造采用各類標(biāo)識技術(shù)自動識別零部件、在制品、工序、產(chǎn)品等對象,系統(tǒng)對接,實(shí)現(xiàn)對產(chǎn)品全生命周期管理。同時(shí)要求工廠采用工業(yè)以太網(wǎng)、工業(yè)PON((PassiveOpticalNetwork)、工業(yè)無線、IPv6等技術(shù),實(shí)現(xiàn)生產(chǎn)裝備、傳感器、控制系統(tǒng)與管理系統(tǒng)等互聯(lián),以推動數(shù)據(jù)的采集、流轉(zhuǎn)和處理。進(jìn)一步利用IPv6AI框架與平臺的處理能力參差不齊,面對不同的工業(yè)大數(shù)據(jù),還沒有形成統(tǒng)一的公共能力或事實(shí)標(biāo)準(zhǔn)。電力領(lǐng)域圖15 AI開源技術(shù)在電力領(lǐng)域應(yīng)用AI開源和數(shù)據(jù)技術(shù)的差距(1)存儲多樣性,缺乏統(tǒng)一標(biāo)準(zhǔn)MPPNoSQL(2)軟件跨版本升級難度大HadoopHBaseHive等開源組件同步升級到高版本的時(shí)候,復(fù)雜度高而且周期很長,無法實(shí)現(xiàn)快速跨版本的快速平滑升級。(3)缺少開源組件評測標(biāo)準(zhǔn)缺少對存儲組件NoSQL數(shù)據(jù)庫、MPP數(shù)據(jù)庫、分布式文件系統(tǒng)等,計(jì)算組件Storm、Spark、Mapreduce、Impala等功能與性能的基準(zhǔn)測試及評測標(biāo)準(zhǔn)。AI開源的算法實(shí)現(xiàn)和應(yīng)用的差距AI開源技術(shù)來進(jìn)一步提升電力資產(chǎn)管理和智能AIAIPAGEPAGEAI開源對分布式基礎(chǔ)設(shè)施的需求與差距并需要實(shí)現(xiàn)物理設(shè)備與信息感知終端耦合,以及網(wǎng)絡(luò)基礎(chǔ)設(shè)施的大范圍空間部圖16 AI開源對分布式基礎(chǔ)設(shè)施的需求與差距金融領(lǐng)域AI(開源技術(shù)在金融行業(yè)的應(yīng)用仍然存在大量問題亟待解決。AI開源和數(shù)據(jù)技術(shù)的差距金融行業(yè)具有牽涉面廣、高度信息化和高頻交易的特點(diǎn),沉淀了海量數(shù)據(jù),開源的算法實(shí)現(xiàn)和應(yīng)用的差距AI開源算法與應(yīng)用的主要差距在于AI開源對分布式基礎(chǔ)設(shè)施的需求與差距醫(yī)療領(lǐng)域隨著中國現(xiàn)代化高速發(fā)展,城鎮(zhèn)化建設(shè)穩(wěn)步提高,越來越多的人口涌入一、水平日趨成熟,(包(xCTMRIUltrasound等AI開源技術(shù)在醫(yī)療行業(yè)的應(yīng)用仍然存在大量問題亟待解決。AI開源和數(shù)據(jù)技術(shù)的差距與其他領(lǐng)域所面臨的數(shù)據(jù)問題類似,醫(yī)療領(lǐng)域數(shù)據(jù)也存在著諸如標(biāo)準(zhǔn)不統(tǒng)5章節(jié)。本節(jié)主要探討醫(yī)療數(shù)據(jù)自身幾點(diǎn)值得思考的問題:(1)數(shù)據(jù)的分布偏差I(lǐng)BM在國內(nèi)的測試結(jié)AI預(yù)測帶來極大挑戰(zhàn),尤其在與醫(yī)療機(jī)構(gòu)的首次合作時(shí)。(2)數(shù)據(jù)的采樣偏差醫(yī)療影像數(shù)據(jù)本身信息量十分龐大,通常單個三維影像會有上百M(fèi)b甚至Gb級的數(shù)據(jù)。為了提高病例檢出的敏感性,在訓(xùn)練過程中通常會調(diào)低健康患者AI的訓(xùn)練數(shù)據(jù)分布與真實(shí)場景嚴(yán)重失衡。如何平衡病癥的檢出與誤報(bào)也是一個值得深刻思考的問題。(3)精標(biāo)注的定義與缺失AI從一個開源項(xiàng)目延伸到一個實(shí)際解決方案過程中亟待解決的問題。開源的算法實(shí)現(xiàn)和應(yīng)用的差距在醫(yī)療領(lǐng)關(guān)于模型的可解釋性也是AI在醫(yī)療領(lǐng)域推行過程中很值得探討的一個問題。結(jié)果的置信度就會降低。怎樣去融合傳統(tǒng)方法與深度學(xué)習(xí)的優(yōu)點(diǎn),減少甚至杜絕意外狀況的發(fā)生,增強(qiáng)算法模型的魯棒性,也是從開源到實(shí)際應(yīng)用中需要解決的問題。AI開源對分布式基礎(chǔ)設(shè)施的需求與差距AI在醫(yī)療領(lǐng)域的運(yùn)用逐漸成熟,安全、可靠的分布式運(yùn)算必將是其最終的發(fā)展方向。問題總結(jié)及應(yīng)對思路AI開源技術(shù)的實(shí)際情況看,在數(shù)據(jù)、算法、(基礎(chǔ)設(shè)施平臺或硬件平臺AI開源軟件的數(shù)據(jù)支持?jǐn)?shù)據(jù)支持問題AI開源軟件的數(shù)據(jù)支持匱乏問題,主要表現(xiàn)在以下幾個方面:(1)某些開源軟件只提供算法,不提供數(shù)據(jù),從而很難模擬訓(xùn)練過程。(2)數(shù)據(jù)來自于不同的組織,數(shù)據(jù)需要滿足格式要求才能被統(tǒng)一使用。(3)數(shù)據(jù)在不同組織間共享和交換缺乏權(quán)威的數(shù)據(jù)共享許可協(xié)議。(4)開源軟件使用的數(shù)據(jù)或者語料的標(biāo)注標(biāo)準(zhǔn)多樣化,不便對語料進(jìn)行擴(kuò)展和完善。(5)AI開源軟件對接的數(shù)據(jù)來源無法訪問,或部署后無法使用。(6)AI開源軟件缺乏數(shù)據(jù)收集和選擇標(biāo)準(zhǔn),不利于構(gòu)建實(shí)際環(huán)境下的語料。(7)更多的數(shù)據(jù)就意味著更精準(zhǔn)的模型,并且數(shù)據(jù)是有產(chǎn)權(quán)的,當(dāng)前還缺乏不同組織間的數(shù)據(jù)匯聚、應(yīng)用和保護(hù)機(jī)制。(8)AI數(shù)據(jù)量大,數(shù)據(jù)的有效處理需要建立從數(shù)據(jù)產(chǎn)生、保存和一次處理入手。AI開放數(shù)據(jù)治理及數(shù)據(jù)格式標(biāo)準(zhǔn)化AI一個重要特點(diǎn)就是數(shù)據(jù)驅(qū)動,數(shù)據(jù)的來源、數(shù)量及覆蓋度直接影響AIAIAI的模型訓(xùn)練是一個不斷重復(fù)、迭代的過程,在開發(fā)過程中快速有效AI訓(xùn)練的必然需求。統(tǒng)一的數(shù)據(jù)格式有利于各種存儲平臺有AI訓(xùn)練平臺的訓(xùn)練(AI數(shù)據(jù)處理的重要因素,今年來為解決大數(shù)據(jù)實(shí)施后的數(shù)據(jù)穩(wěn)定性問題提出了凍結(jié)副本copy)(datalake)平臺AI提供穩(wěn)定的數(shù)據(jù)支持。AIAIAI數(shù)據(jù)格式標(biāo)準(zhǔn)化的建議。AI開源軟件的算法算法問題AI開源軟件的算法難以滿足實(shí)際應(yīng)用問題,主要表現(xiàn)在以下幾個方面:(1)大多數(shù)AI開源軟件缺少足夠的技術(shù)支持,有些沒有技術(shù)支持,和作者溝通十分困難,不利于解決實(shí)際中的問題,影響實(shí)用效果。(2)AI開源軟件數(shù)量多,且對模型和算法的標(biāo)識方式不一,相互間的成果AI模型的部署;不同訓(xùn)練框架軟件的模型進(jìn)行遷AIAI產(chǎn)業(yè)發(fā)展。(3)某些AI開源軟件自身存在Bug,沒有在測試中發(fā)現(xiàn),如果用于實(shí)際項(xiàng)目的核心模塊,可能會造成比較嚴(yán)重的后果。AIAI開源軟件給后端芯片提供不同的接入方式,接入成本高,也難以發(fā)揮出芯片的優(yōu)勢。算法&模型格式標(biāo)準(zhǔn)化算法的持續(xù)創(chuàng)新必然是一個永不停止的過程,上述各行業(yè)內(nèi)關(guān)于算法質(zhì)量、精度及適用性的問題還會靠學(xué)術(shù)界及產(chǎn)業(yè)界共同探索解決。但同時(shí)也應(yīng)看到還有一些算法的問題是由于各種AI平臺的分散造成基礎(chǔ)算法實(shí)現(xiàn)不夠統(tǒng)一所引起的,AI的應(yīng)用與落地以及持續(xù)迭代。建議從整個人工智能AIAI領(lǐng)域各行業(yè)的經(jīng)典AI模型形,(ONNXTF模型格式的支持)AI產(chǎn)品從開發(fā)到部署過程中實(shí)現(xiàn)可升級、可管理、可測試的重要基礎(chǔ)。在本文第六章將給出相關(guān)的標(biāo)準(zhǔn)化建議。AI開源軟件的分布式基礎(chǔ)設(shè)施分布式基礎(chǔ)設(shè)施支持問題AI開源軟件對分布式基礎(chǔ)設(shè)施支持不足,主要表現(xiàn)在以下幾個方面:(1)AI開源軟件來自高校、研究所等科研機(jī)構(gòu),其實(shí)驗(yàn)環(huán)境是單機(jī)、小規(guī)模物理或模擬集群,對于實(shí)際的分布式云計(jì)算環(huán)境支持不足。(2)AI開源軟件和傳統(tǒng)軟件存在差異,目前僅有的大型公共分布式集AI開源軟件在發(fā)布前缺少在大型分布式環(huán)境中的測試,因此對于分布式基礎(chǔ)設(shè)施的支持不佳。AI開源軟件框架對分布式支持自身存在不足,不能發(fā)揮分布式集群環(huán)境在訓(xùn)練上的優(yōu)勢。AI開源軟件需要更多的分布式計(jì)算資源的支撐,然而成本以及基礎(chǔ)建設(shè)方面的困難導(dǎo)致很多算法模型無法得到及時(shí)有效的驗(yàn)證和演進(jìn)。AI框架的標(biāo)準(zhǔn)化及構(gòu)建分布式數(shù)據(jù)管理平臺的思考AI(框架AI落地實(shí)施過AI框架與平臺在這些方面能力參差不齊,沒有形成統(tǒng)一的公共能力或AIAI模型AIAI模型輸入、AIPipelineAI訓(xùn)AI公司或者互聯(lián)網(wǎng)公司的AI部門都會嘗試在Kubernetes上運(yùn)行分布式訓(xùn)練平臺。但不同AIAI框架AI框架的相關(guān)標(biāo)準(zhǔn)化之外,高效的數(shù)據(jù)管理同樣是痛點(diǎn)。之AI數(shù)據(jù)管理則是如何在分(步AI的海量數(shù)據(jù),AI基礎(chǔ)能力的重要組成部分。目前在開源界還沒有系統(tǒng)化、綜合性的此類項(xiàng)的數(shù)AI/MLAI領(lǐng)域數(shù)據(jù)特征質(zhì)量是訓(xùn)練模型質(zhì)AI快速實(shí)施的限制也越來越明顯。AIAI所用是當(dāng)前面臨的重要問題。第五章AI數(shù)據(jù)開放及協(xié)同AI數(shù)據(jù)的關(guān)系和需求面對的挑戰(zhàn)AIAI技術(shù)有效性的重要環(huán)節(jié),當(dāng)前在數(shù)據(jù)層面的關(guān)鍵挑戰(zhàn)有如下多個方面:(1)(2)可訪問性(Accessibility):即使數(shù)據(jù)可用,如果它們存在加密或權(quán)限受限,無權(quán)便捷獲取,則等同于沒有數(shù)據(jù)。(3)規(guī)范性(Standardability)(4)兼容性(Compatibility)AI(5)質(zhì)量(Quality):準(zhǔn)確標(biāo)注有代表性的數(shù)據(jù)是高質(zhì)量數(shù)據(jù)集的特征,數(shù)PAGEPAGE(6)關(guān)聯(lián)性(Relevancy):訓(xùn)練過程的數(shù)據(jù)相關(guān)性是高度主觀的,并且可以在不同的行業(yè)部門和使用的上下文中有不同的解釋和定義。(7)完備性(Completeness):沒有足夠大小和覆蓋范圍的樣本可能會導(dǎo)致(8)機(jī)密性(Confidentiality):需要有法律框架和其他機(jī)制來保證數(shù)據(jù)不會被非法使用,以保護(hù)數(shù)據(jù)機(jī)密及其隱私。(9)安全性(Security)(10)所有權(quán)(Ownership):一旦數(shù)據(jù)由數(shù)據(jù)提供者提供,數(shù)據(jù)的所有權(quán)歸(11)可復(fù)制性(Reproducibility):數(shù)據(jù)和模型都是軟件產(chǎn)品,通過復(fù)制(12)可轉(zhuǎn)換性(Convertibility):對于已經(jīng)清洗和標(biāo)注的數(shù)據(jù),依然面臨AI(13)可融合性(Integration):在實(shí)際應(yīng)用中,各行業(yè)都已經(jīng)形成了結(jié)構(gòu)(14)散在各業(yè)務(wù)系統(tǒng)的“生數(shù)據(jù)”轉(zhuǎn)變?yōu)榭蔀锳I所用的“熟數(shù)據(jù)”,需要建立邏輯統(tǒng)一的數(shù)據(jù)交換標(biāo)準(zhǔn)。(15)(16)成本效益(Cost-Effectiveness):為了保證數(shù)據(jù)可用,使用者需要進(jìn)90%AI過程中消耗資源最為巨大的部分。(17)(RewardingMechanism)(JD..AI數(shù)據(jù)中的相關(guān)方是指自然人或法人,可以是一人或多人組成的實(shí)體,是AI數(shù)據(jù)開放生態(tài)中的利益相關(guān)方,一般可分為客戶方、提供方和關(guān)聯(lián)方??蛻舴紸IAI數(shù)據(jù)的相關(guān)方,關(guān)聯(lián)方是指為客戶方和提供方提供相關(guān)支持的相關(guān)方。(1)客戶方AIAI產(chǎn)出與成果,其目(2)提供方AI開放數(shù)據(jù)提供技術(shù)支持,提供的數(shù)據(jù)主要包含有償數(shù)據(jù)和無償數(shù)據(jù)。(3)關(guān)聯(lián)方法AI開放數(shù)據(jù)的流通和交易等需求,其內(nèi)容包AI數(shù)據(jù)開放方針政策和總AI開放數(shù)據(jù)產(chǎn)業(yè)與技術(shù)發(fā)展政策、技術(shù)體制和技術(shù)標(biāo)準(zhǔn)等,推動AI開放數(shù)據(jù)產(chǎn)業(yè)鏈中的投資,促進(jìn)上下游協(xié)調(diào)發(fā)展。AI數(shù)據(jù)開放和協(xié)同中相關(guān)行業(yè)分析60%1/3的企業(yè)使用外部互聯(lián)網(wǎng)數(shù)據(jù)或其他行業(yè)企業(yè)數(shù)平有待進(jìn)一步提高。以下將從政府角度以及一些典型行業(yè)出發(fā),分析AI數(shù)據(jù)開放和協(xié)同中存在的問題。政府角度分析在政府開放數(shù)據(jù)領(lǐng)域,主要存在下述問題:(1)地方政府缺乏“開放”授權(quán)意識(2)地方政府對“開放”的定義不統(tǒng)一(3)地方政府開放數(shù)據(jù)缺乏統(tǒng)一頂層設(shè)計(jì)(4)各地政府的數(shù)據(jù)開放平臺難以互聯(lián)互通(5)開放數(shù)據(jù)格式混亂部分地方政府對于開放數(shù)據(jù)的管理比較混亂,各部門并未對開放數(shù)據(jù)的采(6)缺乏政府?dāng)?shù)據(jù)開放的應(yīng)用支撐(7)地方政府未區(qū)分開放數(shù)據(jù)和開放信息的關(guān)系給出公共部門數(shù)據(jù)的一個通用定義并制定出不能公開數(shù)據(jù)部分的準(zhǔn)則;在數(shù)據(jù)采集和處理的所有步驟中默認(rèn)數(shù)字化信息;支持下游數(shù)據(jù)使用的信息生命周期;確保不能公開數(shù)據(jù)的安全性、隱私和機(jī)密性。(1)可用性:所有公共部門的數(shù)據(jù),包括公共部門企業(yè)的數(shù)據(jù),都應(yīng)該可以重新使用。但是,出于國家安全原因,涉及執(zhí)法、商業(yè)機(jī)密、個人數(shù)據(jù)保護(hù)、法律禁止披露信息、第三方擁有知識產(chǎn)權(quán)時(shí),可能會限制訪問某些數(shù)據(jù)。(2)可負(fù)擔(dān)性:公共部門的數(shù)據(jù)應(yīng)該可以重復(fù)使用而不收費(fèi)。如果有必要的話,原則上應(yīng)該限于邊際成本。(3)透明度:重新使用公共部門數(shù)據(jù)的條件應(yīng)該公開,不得歧視。作為規(guī)范,不應(yīng)該允許排他性安排。如果需要的話,應(yīng)該定期審查安排的原因。醫(yī)療行業(yè)分析健康數(shù)據(jù)一般是指民眾在院外自行測量的數(shù)據(jù),其準(zhǔn)確性和可追溯性較差,大的戰(zhàn)略意義。目前,醫(yī)療領(lǐng)域開放大數(shù)據(jù)存在如下的問題:(1)健康醫(yī)療大數(shù)據(jù)的共享和開放程度不高程度的數(shù)據(jù)壁壘。數(shù)據(jù)孤島效應(yīng)一方面造成了患者數(shù)據(jù)重復(fù)采集和醫(yī)療資源浪費(fèi),另一方面也阻礙了健康醫(yī)療大數(shù)據(jù)的系統(tǒng)性開

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論