機(jī)器學(xué)習(xí) Chap01緒論課件_第1頁
機(jī)器學(xué)習(xí) Chap01緒論課件_第2頁
機(jī)器學(xué)習(xí) Chap01緒論課件_第3頁
機(jī)器學(xué)習(xí) Chap01緒論課件_第4頁
機(jī)器學(xué)習(xí) Chap01緒論課件_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)導(dǎo)論(2016春季學(xué)期)一、緒論

機(jī)器學(xué)習(xí)Chap01緒論機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是從人工智能中產(chǎn)生的一個(gè)重要學(xué)科分支,是實(shí)現(xiàn)智能化的關(guān)鍵機(jī)器學(xué)習(xí)Chap01緒論機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)(MachineLearning)究竟是什么東東?看個(gè)例子機(jī)器學(xué)習(xí)Chap01緒論“文獻(xiàn)篩選”的故事[C.Brodleyetal.,AIMagazine2012]在“循證醫(yī)學(xué)”(evidence-basedmedicine)中,針對特定的臨床問題,先要對相關(guān)研究報(bào)告進(jìn)行詳盡評估查詢PubMed以獲取候選摘要人工找出值得全文審讀的文章機(jī)器學(xué)習(xí)Chap01緒論“文獻(xiàn)篩選”的故事

在一項(xiàng)關(guān)于嬰兒和兒童殘疾的研 究中,美國Tufts醫(yī)學(xué)中心篩選 了約33,000篇摘要 盡管Tufts醫(yī)學(xué)中心的專家效率 很高,對每篇摘要只需30秒鐘,但該工作仍花費(fèi)了250小時(shí)每項(xiàng)新的研究都要重復(fù)

這個(gè)麻煩的過程!需篩選的文章數(shù)在不斷顯著增長!機(jī)器學(xué)習(xí)Chap01緒論“文獻(xiàn)篩選”的故事為了降低昂貴的成本,Tufts醫(yī)學(xué)中心引入了機(jī)器學(xué)習(xí)技術(shù)邀請專家閱讀少量摘要,標(biāo)記為“有關(guān)”或“無關(guān)”分類模型對是否“有關(guān)”進(jìn)行預(yù)測人類專家只需閱讀50篇摘要,系統(tǒng)的自動篩選精度就達(dá)到93%人類專家閱讀1,000篇摘要,則系統(tǒng)的自動篩選敏感度達(dá)到95%(人類專家以前需閱讀33,000篇摘要才能獲得此效果)機(jī)器學(xué)習(xí)Chap01緒論色澤根蒂敲聲好瓜青綠蜷縮濁響是烏黑蜷縮濁響是青綠硬挺清脆否烏黑稍蜷沉悶否決策樹,神經(jīng)網(wǎng)絡(luò),支持向量機(jī),

Boosting,貝葉斯網(wǎng),……模型訓(xùn)練數(shù)據(jù)(label)訓(xùn)練

新數(shù)據(jù)樣本(淺白,蜷縮,濁響,?)

?=是類別標(biāo)記 未知典型的機(jī)器學(xué)習(xí)過程

使用學(xué)習(xí)算法(learningalgorithm)

類別標(biāo)記機(jī)器學(xué)習(xí)Chap01緒論機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)Chap01緒論機(jī)器學(xué)習(xí)能做什么?我們可能每天都在用機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)Chap01緒論權(quán)16南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有20保留

機(jī)器 學(xué)習(xí)

模型

搜索引擎機(jī)器學(xué)習(xí)技術(shù)正在支撐著各種搜索引擎

搜索:南京大學(xué)例如:互聯(lián)網(wǎng)搜索

……機(jī)器學(xué)習(xí)Chap01緒論有器學(xué)習(xí)導(dǎo)論課程專保留權(quán)用所2016南京大學(xué)機(jī)例如:自動汽車駕駛(即將改變?nèi)祟惿睿C(jī)器學(xué)習(xí)模型方向盤旋 轉(zhuǎn)幅度油門幅度剎車幅度車載攝像頭

車載雷達(dá) 控制汽車

美國在20世紀(jì)

80年代就開始 研究基于機(jī)器 學(xué)習(xí)的汽車自 動駕駛技術(shù)DARPAGrandChallenge–2004機(jī)器學(xué)習(xí)Chap01緒論2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留機(jī)器學(xué)習(xí)能做什么?小數(shù)據(jù)上就已經(jīng)很有用機(jī)器學(xué)習(xí)Chap01緒論2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留例如:畫作鑒別(藝術(shù))

畫作鑒別(paintingauthentication):確定作品的真?zhèn)?/p>

勃魯蓋爾(1525-1569) 的作品?

出自[J.Hughesetal.,PNAS2009]梵高(1853-1890)的作品?

出自[C.Johnsonetal.,IEEE-SP,2008]機(jī)器學(xué)習(xí)Chap01緒論機(jī)器學(xué)習(xí)導(dǎo)論2016南京大學(xué)課程專用所有權(quán)保留例如:畫作鑒別(藝術(shù))除專用技術(shù)手段外,筆觸分析(brushstrokeanalysis)是畫作鑒定的重要工具;它旨在從視覺上判斷畫作中是否具有藝術(shù)家的特有“筆跡”。該工作對專業(yè)知識要求極高-具有較高的繪畫藝術(shù)修養(yǎng)-掌握畫家的特定繪畫習(xí)慣只有少數(shù)專家花費(fèi)很大精力才能完成分析工作!

很難同時(shí)掌握不同時(shí)期、不同流派多位畫家的繪畫風(fēng)格![C.Johnsonetal.,IEEE-SP,2008]機(jī)器學(xué)習(xí)Chap01緒論論課程專用所有權(quán)16南京大學(xué)20機(jī)器學(xué)習(xí)導(dǎo)保留例如:畫作鑒別(藝術(shù))真跡+贗品特有“筆跡”待鑒定畫作為了降低分析成本,機(jī)器學(xué)習(xí)技術(shù)被引入

自動鑒定

分類模型Kr?llerMüller美術(shù)館與Cornell等大學(xué)的學(xué)者對82幅梵高真跡和6幅贗品進(jìn)行分析,自動鑒別精度達(dá)95%[C.Johnsonetal.,IEEE-SP,2008]Dartmouth學(xué)院、巴黎高師的學(xué)者對8幅勃魯蓋爾真跡和5幅贗品進(jìn)行分析,自動鑒別精度達(dá)100%[J.Hughesetal.,PNAS2009][J.Mairaletal.,PAMI’12](對用戶要求低、準(zhǔn)確高效、適用范圍廣)機(jī)器學(xué)習(xí)Chap01緒論2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留例如:古文獻(xiàn)修復(fù)(文化)

古文獻(xiàn)是進(jìn)行歷史研究的重要素材,但是其中很多損毀嚴(yán)重

DeadSeaScrolls(死海古卷)

-1947年出土

-超過30,000個(gè)羊皮紙片段

CairoGenizah -19世紀(jì)末被發(fā)現(xiàn)

-超過300,000個(gè)片段

-散布于全球多家博物館

高水平專家的大量精力 被用于古文獻(xiàn)修復(fù)[L.Wolfetal.,IJCV2011]機(jī)器學(xué)習(xí)Chap01緒論2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留例如:古文獻(xiàn)修復(fù)(文化)一個(gè)重要問題:

原書籍已經(jīng)變成分散且混雜的多個(gè)書頁,如何拼接相鄰的書頁?

人工完成書頁拼接十分困難

-書頁數(shù)量大,且分布在多處

-部分損毀較嚴(yán)重,字跡模糊

-需要大量掌握古文字的專業(yè)人才

近年來,古文獻(xiàn)的數(shù)字化浪潮給自動文學(xué)修復(fù)提供了機(jī)會機(jī)器學(xué)習(xí)Chap01緒論所有權(quán)保留2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用例如:古文獻(xiàn)修復(fù)(文化)以色列特拉維夫大學(xué)的學(xué)者將機(jī)器學(xué)習(xí)用于自動的書頁拼接已確定相鄰已確定不相鄰分類模型

判斷是否相鄰專家確認(rèn)相鄰在CairoGenizah測試數(shù)據(jù)上,系統(tǒng)的自動判斷精度超過93%新完成約1,000篇CairoGenizah文章的拼接(對比:過去整個(gè)世紀(jì),數(shù)百人類專家只完成了幾千篇文章拼接)機(jī)器學(xué)習(xí)Chap01緒論2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留機(jī)器學(xué)習(xí)能做什么?大數(shù)據(jù)上更驚人機(jī)器學(xué)習(xí)Chap01緒論2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留例如:幫助奧巴馬勝選(政治)《時(shí)代》周刊機(jī)器學(xué)習(xí)Chap01緒論2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留例如:幫助奧巴馬勝選(政治)通過機(jī)器學(xué)習(xí)模型:

在總統(tǒng)候選人第一次辯論后,分析出哪些選民將倒戈,為每位選民找出一 個(gè)最能說服他的理由

精準(zhǔn)定位不同選民群體,建議購買冷門廣告時(shí)段,廣告資金效率比2008年 提高14%

向奧巴馬推薦,競選后期應(yīng)當(dāng)在什么地方展開活動——那里有很多爭取 對象

借助模型幫助奧巴馬籌集到創(chuàng)紀(jì)錄的10億美元

例如:利用模型分析出,明星喬治克魯尼(GeorgeClooney)對于年齡在40- 49歲的美西地區(qū)女性頗具吸引力,而她們恰是最愿意為和克魯尼/奧巴馬共 進(jìn)晚餐而掏錢的人……

喬治克魯尼為奧巴馬舉辦的競選籌資晚宴成功募集 到1500萬美元

……機(jī)器學(xué)習(xí)Chap01緒論導(dǎo)論課程專用學(xué)習(xí)2016南京大學(xué)機(jī)器所有權(quán)保留例如:幫助奧巴馬勝選(政治)

隊(duì)長:RayidGhani

卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系 首任系主任TomMitchell

教授的博士生

這個(gè)團(tuán)隊(duì)行動保密,定期向奧巴馬報(bào)送結(jié)果; 被奧巴馬公開稱為總統(tǒng)競選的“核武器按鈕”(“Theyareournuclearcodes”)機(jī)器學(xué)習(xí)Chap01緒論權(quán)專用所有2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程保留

約翰麥卡錫

(1927-2011)“人工智能之父”1971年圖靈獎1956年夏美國達(dá)特茅斯學(xué)院J.McCarthy,M.Minsky,N.Lochester,C.E.Shannon,H.A.Simon,A.Newell,A.L.Samuel等10余人達(dá)特茅斯會議標(biāo)志著人工智能這一學(xué)科的誕生JohnMcCarthy(1927-2011): 1971年獲圖靈獎,1985年獲IJCAI終身成就獎。人工智能之父。他提出了“人工智能”的概念,設(shè)計(jì)出函數(shù)型程序設(shè)計(jì)語言Lisp,發(fā)展了遞歸的概念,提出常識推理和情境演算。出生于共產(chǎn)黨家庭,從小閱讀《10萬個(gè)為什么》,中學(xué)時(shí)自修CalTech的數(shù)學(xué)課程,17歲進(jìn)入CalTech時(shí)免修兩年數(shù)學(xué),22歲在Princeton獲博士學(xué)位,37歲擔(dān)任Stanford大學(xué)AI實(shí)驗(yàn)室主任。機(jī)器學(xué)習(xí)源自“人工智能”

ArtificialIntelligence(AI),1956-機(jī)器學(xué)習(xí)Chap01緒論權(quán)程專用所有保16南京大20學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課留赫伯特西蒙

(1916-2001)1975年圖靈獎第一階段:推理期

1956-1960s:LogicReasoning

出發(fā)點(diǎn):“數(shù)學(xué)家真聰明!”

主要成就:自動定理證明系統(tǒng)(例如, 西蒙與紐厄爾的“LogicTheorist”

系統(tǒng))漸漸地,研究者們意識到,僅有邏輯推理能力是不夠的…

阿倫紐厄爾

(1927-1992) 1975年圖靈獎機(jī)器學(xué)習(xí)Chap01緒論用所有權(quán)保留2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專

出發(fā)點(diǎn):“知識就是力量!”愛德華費(fèi)根鮑姆

(1936-)

1994年圖靈獎

主要成就:專家系統(tǒng)(例如,費(fèi)根鮑 姆等人的“DENDRAL”系統(tǒng))

漸漸地,研究者們發(fā)現(xiàn),要總結(jié)出知識再“教”給 系統(tǒng),實(shí)在太難了…第二階段:知識期

1970s-1980s:KnowledgeEngineering機(jī)器學(xué)習(xí)Chap01緒論2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留

出發(fā)點(diǎn):“讓系統(tǒng)自己學(xué)!”第三階段:學(xué)習(xí)期

1990s-now:MachineLearning

主要成就:……

機(jī)器學(xué)習(xí)是作為“突破知識工程瓶頸” 之利器而出現(xiàn)的恰好在20世紀(jì)90年代中后期,人類發(fā)現(xiàn)自己淹沒在數(shù)據(jù)的汪洋中,對自動數(shù)據(jù)分析技術(shù)——機(jī)器學(xué)習(xí)的需求日益迫切機(jī)器學(xué)習(xí)Chap01緒論權(quán)專用所有16南京大學(xué)機(jī)器學(xué)保習(xí)導(dǎo)論留課程20

汽車自動駕駛(DARPAGrandChallenge)機(jī)器學(xué)習(xí)已經(jīng)“無處不在”

入侵檢測

Web搜索 生物信息學(xué) 決策助手(DARPA)火星機(jī)器人(JPL)機(jī)器學(xué)習(xí)Chap01緒論2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留今天的“機(jī)器學(xué)習(xí)”已經(jīng)是一個(gè)廣袤的學(xué)科領(lǐng)域經(jīng)常被談到的“深度學(xué)習(xí)”

(DeepLearning)僅是

機(jī)器學(xué)習(xí)中的一個(gè)小分支 例如,這是第32屆 國際機(jī)器學(xué)習(xí)大會 的“主題領(lǐng)域”

2006年,美國CMU (卡內(nèi)基梅隆大學(xué))成立“機(jī)器學(xué)習(xí)系”機(jī)器學(xué)習(xí)Chap01緒論導(dǎo)論課程專用所2016南京大學(xué)機(jī)器學(xué)習(xí)有權(quán)保留大數(shù)據(jù)時(shí)代的關(guān)鍵技術(shù)奧巴馬提出“大數(shù)據(jù)計(jì)劃”后,美國NSF進(jìn)一步加強(qiáng)資助UCBerkeley研究如何整合將”數(shù)據(jù)”轉(zhuǎn)變?yōu)椤毙畔ⅰ钡娜箨P(guān)鍵技術(shù)——機(jī)器學(xué)習(xí)、云計(jì)算、眾包(crowdsourcing)整合三大關(guān)鍵技術(shù)機(jī)器學(xué)習(xí)Chap01緒論權(quán)保2016南京留大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)必不可少收集、傳輸、存儲大數(shù)據(jù)的目的,是為了“利用”大數(shù)據(jù)沒有機(jī)器學(xué)習(xí)技術(shù)分析大數(shù)據(jù),“利用”無從談起機(jī)器學(xué)習(xí)Chap01緒論權(quán)有所習(xí)導(dǎo)論課程專用保2016南京大學(xué)機(jī)器學(xué)留基本術(shù)語???????數(shù)據(jù)集;訓(xùn)練,測試示例(instance),樣例(example)樣本(sample)屬性(attribute),特征(feature);屬性值屬性空間,樣本空間,輸入空間特征向量(featurevector)標(biāo)記空間,輸出空間??監(jiān)督學(xué)習(xí)(supervisedlearning)無監(jiān)督學(xué)習(xí)(unsupervisedlearning)???假設(shè)(hypothesis)真相(ground-truth)學(xué)習(xí)器(learner)????

?

分類,回歸

?

二分類,多分類

?

正類,反類未見樣本(unseeninstance)未知“分布”獨(dú)立同分布(i.i.d.)泛化(generalization)機(jī)器學(xué)習(xí)Chap01緒論權(quán)2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有保留假設(shè)空間(色澤=?)?(根蒂=?)?(敲聲=?)?好瓜學(xué)習(xí)過程

在所有假設(shè)(hypothesis)組成的空間中進(jìn)行搜索的過程目標(biāo):找到與訓(xùn)練集“匹配”(fit)的假設(shè)假設(shè)空間的大?。簄1xn2xn3+1機(jī)器學(xué)習(xí)Chap01緒論權(quán)用所有保留論課程專機(jī)器學(xué)習(xí)導(dǎo)2016南京大學(xué)例如:(青綠;蜷縮;沉悶)應(yīng)該采用哪一個(gè) 模型(假設(shè))?版本空間

版本空間(versionspace):與訓(xùn)練集一致的假設(shè)集合

濁響 濁響

在面臨新樣本時(shí),會產(chǎn)生不同的輸出機(jī)器學(xué)習(xí)Chap01緒論課程專用所有2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論權(quán)保留歸納偏好(inductivebias)機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好A更好?B更好?一般原則:奧卡姆剃刀

(Oca

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論