版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第8章
大數(shù)據(jù)技術(shù)與應(yīng)用第8章
大數(shù)據(jù)技術(shù)與應(yīng)用目錄大數(shù)據(jù)概論大數(shù)據(jù)采集大數(shù)據(jù)采集實(shí)訓(xùn)8.18.28.38.1大數(shù)據(jù)概論大數(shù)據(jù)是“海量數(shù)據(jù)”,是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要采用新處理模式才能獲得更多智能的、深入的、有價(jià)值的信息,以期得到更強(qiáng)的決策力、洞察力。8.1大數(shù)據(jù)概論8.1.1大數(shù)據(jù)的特點(diǎn)Volume(大量)Variety(多樣)Value(價(jià)值)Velocity(高速)Veracity(真實(shí)性)大數(shù)據(jù)是以容量大、類型多、存儲(chǔ)速度快、應(yīng)用價(jià)值高為特征的數(shù)據(jù)集合。
8.1.2大數(shù)據(jù)的價(jià)值與應(yīng)用大數(shù)據(jù):樣本=全部數(shù)據(jù)。不是精確性,而是復(fù)雜性?!皵?shù)據(jù)之和的價(jià)值遠(yuǎn)遠(yuǎn)大于各數(shù)據(jù)價(jià)值的和”(GOOGLE的大數(shù)據(jù)翻譯器)大數(shù)據(jù)研究,重關(guān)聯(lián)大于重因果,預(yù)測(cè)是核心(亞馬遜圖書推薦?GOOGLE與流感預(yù)測(cè))大數(shù)據(jù)的戰(zhàn)略意義是實(shí)現(xiàn)數(shù)據(jù)的增值,數(shù)據(jù)就像一個(gè)神奇的鉆石礦(阿里、騰訊與銀行)8.2大數(shù)據(jù)采集什么是大數(shù)據(jù)采集技術(shù)?大數(shù)據(jù)采集技術(shù)就是對(duì)數(shù)據(jù)進(jìn)行ETL操作,通過(guò)對(duì)數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換、加載,最終挖掘數(shù)據(jù)的潛在價(jià)值。然后提供給用戶解決方案或者決策參考。
ETL,是英文Extract-Transform-Load的縮寫,數(shù)據(jù)從數(shù)據(jù)來(lái)源端經(jīng)過(guò)抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)到目的端,然后進(jìn)行處理分析的過(guò)程。用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去,最后對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和處理。8.2.1數(shù)據(jù)采集器介紹當(dāng)下運(yùn)用最廣泛的是八爪魚采集器,八爪魚采集器是深圳視界信息技術(shù)有限公司開發(fā),它具有以下優(yōu)勢(shì):(1)1分鐘獲得數(shù)據(jù):操作簡(jiǎn)單,無(wú)需代碼,30秒上手,1分鐘拿到98%以上互聯(lián)網(wǎng)數(shù)據(jù);(2)1千萬(wàn)數(shù)據(jù)采集:分布于云服務(wù)器,可以實(shí)現(xiàn)每日千萬(wàn)級(jí)別數(shù)據(jù)量的采集;(3)全場(chǎng)景解決方案:內(nèi)置增量數(shù)據(jù)采集、防采集破解、驗(yàn)證碼識(shí)別、模擬登陸、切換代理IP及切換瀏覽器版本功能,滿足多種采集需求(4)數(shù)據(jù)處理能力:內(nèi)置正則表達(dá)式格式化功能,可對(duì)提取內(nèi)容進(jìn)行針對(duì)性調(diào)整;內(nèi)置分支判斷及觸發(fā)器功能,可對(duì)不同形式的內(nèi)容做判斷,根據(jù)判斷結(jié)果做不同的提取操作,實(shí)現(xiàn)智能采集。1是什么?2怎么用?3簡(jiǎn)易采集模式4練習(xí)題8.2.1數(shù)據(jù)采集器是什么?一、功能散亂數(shù)據(jù)數(shù)據(jù)庫(kù)ExcelBI平臺(tái)八爪魚結(jié)構(gòu)化數(shù)據(jù)是什么?二、優(yōu)勢(shì)
電商數(shù)據(jù)例如:/list.html?cat=9987,653,655適用場(chǎng)景:競(jìng)品分析銷售分析用戶評(píng)論分析是什么?二、優(yōu)勢(shì)
復(fù)制粘貼:工作效率低爬蟲編寫:學(xué)習(xí)成本高是什么?二、優(yōu)勢(shì)
電商數(shù)據(jù)適用場(chǎng)景:競(jìng)品分析銷售分析用戶評(píng)論分析1.輸入網(wǎng)址2.保存并啟動(dòng)1是什么?2怎么用?3簡(jiǎn)易采集模式4練習(xí)題目錄怎么用?采集模式
智能采集:智能識(shí)別,無(wú)需配置簡(jiǎn)易采集:內(nèi)置模板,即點(diǎn)即用向?qū)J剑嘿N心指引,規(guī)則配置自定義采集:自由配置,隨心采集1是什么?2怎么用?3簡(jiǎn)易采集模式4練習(xí)題目錄
簡(jiǎn)易采集模式1是什么?2怎么用?3簡(jiǎn)易采集模式4練習(xí)題目錄練習(xí)題選擇本地生活、電子商務(wù)、媒體閱讀三個(gè)板塊各一個(gè)簡(jiǎn)易采集模板進(jìn)行數(shù)據(jù)采集并導(dǎo)出結(jié)果1自定義采集模式演示2如何復(fù)制3如何粘貼4練習(xí)題自定義采集模式自定義采集模式演示1自定義采集模式演示2如何復(fù)制3如何粘貼目錄如何復(fù)制一、案例例如:/omn/20180607/20180607A05ZM3.html/omn/20180606/20180606A1UE30.html/omn/20180607/20180607A07333.html適用場(chǎng)景:輿情監(jiān)控品牌分析如何復(fù)制如何復(fù)制1自定義采集模式演示2如何復(fù)制3如何粘貼目錄
如何粘貼1自定義采集模式演示2如何復(fù)制3如何粘貼目錄練習(xí)題/6946599.html/6773561.html/7479912.html將左側(cè)三個(gè)京東商品的頁(yè)面打開,采集商品名稱、價(jià)格、采集時(shí)間及頁(yè)面網(wǎng)址謝謝!信息技術(shù)是溝通現(xiàn)實(shí)世界的橋梁。
第9章人工智能應(yīng)用
信息技術(shù)與人工智能第9章
人工智能應(yīng)用目錄人工智能的發(fā)展歷程新一代人工智能的核心技術(shù)人工智能的應(yīng)用領(lǐng)域任務(wù)拓展:百度AI體驗(yàn)9.19.29.39.49.1人工智能的發(fā)展歷程人工智能技術(shù)發(fā)展的三生三世:9.1.1第一次浪潮
偉大的首航:1956-19749.1.2第二次浪潮
專家系統(tǒng)的興衰:1980-19909.1.3第三次浪潮
厚積薄發(fā),再造輝煌:2011年至今9.2新一代人工智能的核心技術(shù)9.2.1模式識(shí)別與感知交流9.2.2機(jī)器學(xué)習(xí)與知識(shí)發(fā)現(xiàn)9.2.3機(jī)器推理與知識(shí)圖譜9.2.1模式識(shí)別與感知交流1.圖像識(shí)別2.語(yǔ)音識(shí)別3.自然語(yǔ)言處理9.2.1模式識(shí)別與感知交流1.圖像識(shí)別圖片識(shí)別AI體驗(yàn):/?fr=shitu9.2.1模式識(shí)別與感知交流1.圖像識(shí)別基本原理人工神經(jīng)網(wǎng)絡(luò)的作用卷積計(jì)算的作用9.2.1模式識(shí)別與感知交流2.語(yǔ)音識(shí)別語(yǔ)音識(shí)別AI體驗(yàn):/tech/speech/9.2.1模式識(shí)別與感知交流3.自然語(yǔ)音處理自然語(yǔ)音處理AI體驗(yàn):/逐字翻譯→基于規(guī)則的句法分析翻譯→基于實(shí)例的統(tǒng)計(jì)機(jī)器翻譯9.2.2機(jī)器學(xué)習(xí)與知識(shí)發(fā)現(xiàn)1.監(jiān)督式學(xué)習(xí)(Supervisedlearning)2.非監(jiān)督式學(xué)習(xí)(Unsupervisedlearning)3.半監(jiān)督式學(xué)習(xí)(Semi-SupervisedLearning)4.強(qiáng)化學(xué)習(xí)(reinforcementlearning)參考學(xué)習(xí)資料:/p/682c88cee5a8小白都看得懂的監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)9.2.2機(jī)器學(xué)習(xí)與知識(shí)發(fā)現(xiàn)1.監(jiān)督式學(xué)習(xí)監(jiān)督式學(xué)習(xí)舉例:機(jī)器學(xué)習(xí)識(shí)別鳶尾花的種類(樣本文件)定義:根據(jù)已有的數(shù)據(jù)集,知道輸入和輸出結(jié)果之間的關(guān)系。根據(jù)這種已知的關(guān)系,訓(xùn)練得到一個(gè)最優(yōu)的模型。也就是說(shuō),在監(jiān)督學(xué)習(xí)中訓(xùn)練的數(shù)據(jù)既有特征(feature)又有標(biāo)簽(label),通過(guò)訓(xùn)練,讓機(jī)器可以自己找到特征和標(biāo)簽之間的聯(lián)系,在面對(duì)只有特征沒有標(biāo)簽的數(shù)據(jù)時(shí),可以判斷出標(biāo)簽。9.2.2機(jī)器學(xué)習(xí)與知識(shí)發(fā)現(xiàn)監(jiān)督式學(xué)習(xí)過(guò)程:機(jī)器學(xué)習(xí)識(shí)別鳶尾花的過(guò)程9.2.2機(jī)器學(xué)習(xí)與知識(shí)發(fā)現(xiàn)2.非監(jiān)督式學(xué)習(xí)非監(jiān)督式學(xué)習(xí)舉例:Google新聞按照內(nèi)容結(jié)構(gòu)的不同分成財(cái)經(jīng),娛樂(lè),體育等不同的標(biāo)簽,這就是無(wú)監(jiān)督學(xué)習(xí)中的聚類。
定義:我們不知道數(shù)據(jù)集中數(shù)據(jù)、特征之間的關(guān)系,而是要根據(jù)聚類或一定的模型得到數(shù)據(jù)之間的關(guān)系。可以這么說(shuō),比起監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)更像是自學(xué),讓機(jī)器學(xué)會(huì)自己做事情,是沒有標(biāo)簽(label)的。9.2.2機(jī)器學(xué)習(xí)與知識(shí)發(fā)現(xiàn)3.半監(jiān)督式學(xué)習(xí)定義:是一種監(jiān)督式學(xué)習(xí)與非監(jiān)督式學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。擁有大部分的輸入數(shù)據(jù)(自變量)和少部分的有標(biāo)簽數(shù)據(jù)(因變量)。可以使用非監(jiān)督式學(xué)習(xí)發(fā)現(xiàn)和學(xué)習(xí)輸入變量的結(jié)構(gòu);使用監(jiān)督式學(xué)習(xí)技術(shù)對(duì)無(wú)標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽的預(yù)測(cè),并將這些數(shù)據(jù)傳遞給監(jiān)督式學(xué)習(xí)算法作為訓(xùn)練數(shù)據(jù),然后使用這個(gè)模型在新的數(shù)據(jù)上進(jìn)行預(yù)測(cè)。9.2.2機(jī)器學(xué)習(xí)與知識(shí)發(fā)現(xiàn)4.強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)舉例:2016年擊敗世界冠軍李世石九段的阿爾法狗定義:程序在某一情況下嘗試所有可能的行動(dòng),記錄不同行動(dòng)的結(jié)果并試著找出最好的一次嘗試來(lái)做決定。強(qiáng)化學(xué)習(xí)可以自動(dòng)進(jìn)行決策制定,并且可以做連續(xù)決策。即訓(xùn)練程序作出某一決定,獲得一個(gè)策略去指導(dǎo)行動(dòng)。9.2.3機(jī)器推理與知識(shí)圖譜1.知識(shí)表示與機(jī)器推理2.知識(shí)圖譜3.知識(shí)圖譜技術(shù)案例9.2.3機(jī)器推理與知識(shí)圖譜知識(shí)表示是指面向計(jì)算機(jī)的知識(shí)描述或表達(dá)形式和方法。具體來(lái)講,就是要用某種約定的(外部)形式結(jié)構(gòu)來(lái)描述知識(shí),而且這種形式結(jié)構(gòu)還要能轉(zhuǎn)換為機(jī)器的內(nèi)部形式,使得計(jì)算機(jī)能方便地存儲(chǔ)、處理和運(yùn)用。機(jī)器推理與知識(shí)表示密切相關(guān)。邏輯形式的知識(shí)表示需要用程序語(yǔ)言轉(zhuǎn)化為機(jī)器能理解的內(nèi)部形式。1.知識(shí)表示與機(jī)器推理9.2.3機(jī)器推理與知識(shí)圖譜9.2.3機(jī)器推理與知識(shí)圖譜9.2.3機(jī)器推理與知識(shí)圖譜定義:“知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò)(SemanticNetwork)的知識(shí)庫(kù)”,可以簡(jiǎn)單地把知識(shí)圖譜理解成多關(guān)系圖(Multi-relationalGraph)。2.知識(shí)圖譜9.2.3機(jī)器推理與知識(shí)圖譜百度知識(shí)圖譜:/kg/case3.知識(shí)圖譜技術(shù)案例9.2.3機(jī)器推理與知識(shí)圖譜微云知識(shí)圖譜:
:10010/browser//index.php/blog/demo-72.html3.知識(shí)圖譜技術(shù)案例9.3人工智能的應(yīng)用領(lǐng)域9.3.1智慧生活1.智能聊天助理2.智慧出行推薦3.智能圖像處理智能搜索引擎智能機(jī)器翻譯9.3人工智能的應(yīng)用領(lǐng)域9.3.2智慧醫(yī)療1.一站式就診服務(wù)2.個(gè)人健康檔案管理服務(wù)3.移動(dòng)的醫(yī)學(xué)圖書館參考學(xué)習(xí)網(wǎng)站:/watson/cn-zh/health/9.3人工智能的應(yīng)用領(lǐng)域9.3.3智慧金融1.量化交易與智能投顧2.風(fēng)險(xiǎn)防控3.智能客服精準(zhǔn)營(yíng)銷參考學(xué)習(xí)網(wǎng)站:/cn/solutions/ind
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年砂石銷售的合同
- 三七產(chǎn)地購(gòu)銷合同模板2024年
- 股權(quán)分配合作協(xié)議書
- 手機(jī)品牌售后服務(wù)承諾書
- 固定期限勞動(dòng)合同樣式
- 定向培育及就業(yè)協(xié)議
- 保險(xiǎn)合同:航空貨物運(yùn)輸保險(xiǎn)協(xié)議-合同范本
- 建筑工程項(xiàng)目招標(biāo)代理合同
- 國(guó)家基礎(chǔ)地理信息授權(quán)書
- 合伙協(xié)議合同范文
- 辦公樓物業(yè)保潔服務(wù)人員配備方案
- 設(shè)備維護(hù)保養(yǎng)流程
- 【教學(xué)課件】海陸變遷示范課件
- 冷彎薄壁型鋼房屋結(jié)構(gòu)介紹(PPT19)
- 寶石的分類及命名課件
- 九江市都昌縣鄉(xiāng)鎮(zhèn)街道社區(qū)行政村統(tǒng)計(jì)表
- 二甲醫(yī)院麻醉科相關(guān)工作制度匯編
- 農(nóng)業(yè)生產(chǎn)統(tǒng)計(jì)pp課件
- 車間每月安全隱患排查記錄表(車間每月)
- 特種設(shè)備作業(yè)人員資格復(fù)審申請(qǐng)表
- 醫(yī)院創(chuàng)新思維的幾種基本形式與作用
評(píng)論
0/150
提交評(píng)論