金融科技工具箱-pub course6.1機(jī)器學(xué)習(xí)_第1頁(yè)
金融科技工具箱-pub course6.1機(jī)器學(xué)習(xí)_第2頁(yè)
金融科技工具箱-pub course6.1機(jī)器學(xué)習(xí)_第3頁(yè)
金融科技工具箱-pub course6.1機(jī)器學(xué)習(xí)_第4頁(yè)
金融科技工具箱-pub course6.1機(jī)器學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

201

9機(jī)器學(xué)習(xí):緒論CONTENT01機(jī)器學(xué)習(xí)02機(jī)器學(xué)習(xí)簡(jiǎn)單分類(lèi)03界線噪音目標(biāo)與樣本04Part01機(jī)器學(xué)習(xí)從人的學(xué)習(xí)到機(jī)器的學(xué)習(xí)機(jī)器學(xué)習(xí)的公式表達(dá)機(jī)器學(xué)習(xí)與其他概念1.1人是如何學(xué)習(xí)的1.1機(jī)器如何學(xué)習(xí)機(jī)器學(xué)習(xí):基于數(shù)據(jù),通過(guò)計(jì)算的結(jié)果,提升部分的表現(xiàn)MLdataPerformance

measure存在生成的規(guī)律:使得表現(xiàn)可以提升,且這種提升是有意義的計(jì)算適中:一方面不存在簡(jiǎn)單規(guī)律(物理),另一方面在計(jì)算能力以內(nèi)存在數(shù)據(jù):有足夠的數(shù)據(jù)來(lái)描述pattern。(N,b,data)含義:幫助

決策是否應(yīng)當(dāng)使用機(jī)器學(xué)習(xí)1.2機(jī)器學(xué)習(xí)的公式表達(dá)MLdataPerformance

measure定義如下:輸入:

x

??

一系列特征,(例如

,職位,信用歷史)輸出:

y

??

指標(biāo),

(是否發(fā)生違約)數(shù)據(jù)生成過(guò)程,即存在目標(biāo)函數(shù)

??:

?? →

??

(現(xiàn)實(shí)世界如何)數(shù)據(jù),即存在一些已觀測(cè)值,

??

=

{

??

-

,

??-

,

??0,

??0

,

,

(??3,

??3)}

(已發(fā)生的事實(shí))假設(shè),那些能夠模擬數(shù)據(jù)生成過(guò)程的算法

??:

?? →

??

(學(xué)到的,執(zhí)行的

算法){(??3,

??3)}

from

??

ML

??1.2機(jī)器學(xué)習(xí)的抽象未知目標(biāo)函數(shù)??:

??

??部分?jǐn)?shù)據(jù)=訓(xùn)練集??

=

{

????,

????

,

,

(????,

????)}學(xué)習(xí)算法集合??計(jì)算結(jié)果??

??假設(shè)集合??機(jī)器學(xué)習(xí):使用數(shù)據(jù),通過(guò)計(jì)算尋找假設(shè)??使其接近目標(biāo)函數(shù)??1.3機(jī)器學(xué)習(xí)與其他概念對(duì)比機(jī)器學(xué)習(xí)vs大數(shù)據(jù)大數(shù)據(jù)在

時(shí)候是商業(yè)概念,是宣傳所用,不應(yīng)成為學(xué)術(shù)用語(yǔ)大數(shù)據(jù)有的大,數(shù)據(jù)量大為復(fù)雜算法帶來(lái)可能,b>N使得部分算法得到重視機(jī)器學(xué)習(xí)vs人工智能人工智能的概念范疇要比機(jī)器學(xué)習(xí)更大,機(jī)器學(xué)習(xí)只是一種實(shí)現(xiàn)方式類(lèi)似的“實(shí)踐經(jīng)驗(yàn)”,靠譜的人工智能都有了更

的名字機(jī)器學(xué)習(xí)vs統(tǒng)計(jì)學(xué)二者關(guān)系相當(dāng)復(fù)雜,這里面又有頻率學(xué)派、

學(xué)派的恩怨糾葛機(jī)器學(xué)習(xí)相當(dāng)多的理論基礎(chǔ)、算法基于統(tǒng)計(jì)學(xué),但機(jī)器學(xué)習(xí)始終在統(tǒng)計(jì)學(xué)的繩子上起伏機(jī)器學(xué)習(xí)vs計(jì)量經(jīng)濟(jì)學(xué)從技術(shù)而言,計(jì)量經(jīng)濟(jì)學(xué)大部分方法是機(jī)器學(xué)習(xí)中的一小部分從目的上講,機(jī)器學(xué)習(xí)的終極目標(biāo)在于模擬數(shù)據(jù)生成模式,做出,實(shí)現(xiàn)操作上的“

”。計(jì)量經(jīng)濟(jì)學(xué)的目的在于衡量因果、衡量影響,單純的

不足以滿足。計(jì)量應(yīng)是對(duì)理論結(jié)果的驗(yàn)證而非DMPart02機(jī)器學(xué)習(xí)的簡(jiǎn)單分類(lèi)結(jié)果的類(lèi)型標(biāo)的的類(lèi)型訓(xùn)練過(guò)程輸入類(lèi)型2.1輸出結(jié)果的類(lèi)型輸出空間為離散:二分類(lèi)、多分類(lèi)輸出空間為連續(xù):回歸輸出結(jié)果為結(jié)構(gòu)化:結(jié)構(gòu)學(xué)習(xí)(文本樹(shù))輸出結(jié)果為輸入2.2標(biāo)的的類(lèi)型有

的數(shù)據(jù):有監(jiān)督學(xué)習(xí)無(wú)

的數(shù)據(jù):無(wú)監(jiān)督數(shù)據(jù)理論上無(wú)法給出

&

實(shí)踐上無(wú)法給出聚類(lèi)問(wèn)題;密度估計(jì);異常檢測(cè)有部分?jǐn)?shù)據(jù)帶

:半監(jiān)督學(xué)習(xí)有部分/隱含的:強(qiáng)化學(xué)習(xí)2.3按照訓(xùn)練過(guò)程喂所有數(shù)據(jù):Batch批處理一個(gè)個(gè)喂數(shù)據(jù):online上面二者的結(jié)合:mini-batch讓算法自己吃自助:Active

Learning2.4按照數(shù)據(jù)類(lèi)型特征數(shù)據(jù):有具體的含義原始數(shù)據(jù):圖像、聲音本身抽象(

)數(shù)據(jù):無(wú)意義的uid,主成分,其他中間結(jié)果Part03機(jī)器學(xué)習(xí)的界限失效標(biāo)的的類(lèi)型訓(xùn)練過(guò)程輸入類(lèi)型3.1一道題3.1說(shuō)一些

熟悉的東西一個(gè)熟悉的問(wèn)題:R2高的回歸結(jié)果就一定好么一個(gè)熟悉的定理:大數(shù)定律Hoeffding不等式?? ??

?

?? >

?? ≤

2exp(?2??0??)3.1回到機(jī)器學(xué)習(xí)未知目標(biāo)函數(shù)??:

??

??部分?jǐn)?shù)據(jù)=訓(xùn)練集??

=

{

????,

????

,

,

(????,

????)}學(xué)習(xí)算法集合??計(jì)算結(jié)果??

??假設(shè)集合??未知的一部分?jǐn)?shù)據(jù)P

on

??3.1回到機(jī)器學(xué)習(xí)3.1如果無(wú)法數(shù)據(jù)抽樣的影響“壞數(shù)據(jù)”對(duì)于部分算法,樣本內(nèi)外誤差偏差極大3.1壞數(shù)據(jù)上限即,如果 的假設(shè)集的大小M是有限的,當(dāng)N足夠大時(shí)樣本內(nèi)誤差與樣本外誤差的差距就會(huì)足夠小訓(xùn)練方法能夠保證??MN差距夠小,那么??MN做的足夠小,如果又能保證??OPQ與也就完成了真正的機(jī)器學(xué)習(xí)3.1為什么如此關(guān)心這件事兒未知目標(biāo)函數(shù)??:

??

??部分?jǐn)?shù)據(jù)=訓(xùn)練集??

=

{

????,

????

,

,

(????,

????)}學(xué)習(xí)算法集合??計(jì)算結(jié)果??

??假設(shè)集合??未知的一部分?jǐn)?shù)據(jù)P

on

????MN與??RST差距是否足夠小??MN是不是能夠做的足夠小??MN(??)

0??OPQ(??)

03.1關(guān)于M:假設(shè)集的大小M實(shí)際上包含兩部分信息:納入分析的變量

變量間的組合關(guān)系M小的時(shí)候,很容易保證樣本內(nèi)誤差與樣本外誤差差距很小,但是很難使樣本內(nèi)誤差足夠小M大的時(shí)候,很容獲得高的樣本內(nèi)誤差,但是壞數(shù)據(jù)帶來(lái)的影響會(huì)非常大3.1再議M,從何而來(lái)3.1真實(shí)情況下,M如何3.1M的增長(zhǎng):Breaking

point3.1M的增長(zhǎng):Breaking

point之后如果k=2

N=3,會(huì)怎樣?3.1M的增長(zhǎng):一個(gè)更合適的表達(dá)

B(N,k)B(N,k)123456123344563.1M的增長(zhǎng):一個(gè)更合適的表達(dá)

B(N,k)B(N,k)123456112222228841151633.1M的增長(zhǎng):B(N,k)的推導(dǎo):B(4,3)3.1M的增長(zhǎng):B(N,k)的推導(dǎo):B(4,3)3.1M的增長(zhǎng):VC定理3.1VC定理的含義??WX

?

??????????????

??

??.

??.

??b?? =

2

c3.1VC

dimension??WX

?

??????????????

??

??.

??.

??b?? =

2

c3.1VC

線性可分3.1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論