




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、機(jī)器學(xué)習(xí)的算法陳勇定義: . 機(jī)器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科,涉及概 率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。 它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。揭開神秘的機(jī)器學(xué)習(xí)算法 我們?cè)絹碓蕉嗟乜吹綑C(jī)器學(xué)習(xí)算法在實(shí)用和可實(shí)現(xiàn)的目標(biāo)上的價(jià)值,例如針對(duì)數(shù)據(jù)尋找可用的模式然后進(jìn)行預(yù)測(cè)的機(jī)器學(xué)習(xí)算法。通常,這些機(jī)器學(xué)習(xí)算法預(yù)測(cè)模型用于操作流程以優(yōu)化決策過程,但同時(shí)它們
2、也可以提供關(guān)鍵的洞察力和信息來報(bào)告戰(zhàn)略決策。 機(jī)器學(xué)習(xí)算法的基本前提是算法訓(xùn)練,提供特定的輸入數(shù)據(jù)時(shí)預(yù)測(cè)某一概率區(qū)間內(nèi)的輸出值。請(qǐng)記住機(jī)器學(xué)習(xí)算法的技巧是歸納而非推斷與概率相關(guān),并非最終結(jié)論。 . 構(gòu)建這些機(jī)器學(xué)習(xí)算法的過程被稱之為機(jī)器學(xué)習(xí)算法預(yù)測(cè)建模。一旦掌握了這一機(jī)器學(xué)習(xí)算法模型,有時(shí)就可以直接對(duì)原始數(shù)據(jù)機(jī)器學(xué)習(xí)算法進(jìn)行分析,并在新數(shù)據(jù)中應(yīng)用該機(jī)器學(xué)習(xí)算法模型以預(yù)測(cè)某些重要的信息。模型的輸出可以是機(jī)器學(xué)習(xí)算法分類、機(jī)器學(xué)習(xí)算法可能的結(jié)果、機(jī)器學(xué)習(xí)算法隱藏的關(guān)系、機(jī)器學(xué)習(xí)算法屬性或者機(jī)器學(xué)習(xí)算法估計(jì)值。 機(jī)器學(xué)習(xí)算法技術(shù)通常預(yù)測(cè)的是絕對(duì)值,比如標(biāo)簽、顏色、身份或者質(zhì)量。比如,某個(gè)機(jī)器學(xué)習(xí)算法
3、主題是否屬于我們?cè)噲D保留的用戶?用戶會(huì)付費(fèi)購(gòu)買嗎?用戶會(huì)積極響應(yīng)邀約嗎? . 如果我們關(guān)心的是機(jī)器學(xué)習(xí)算法估算值或者連續(xù)值,機(jī)器學(xué)習(xí)算法預(yù)測(cè)也可以用數(shù)字表示。輸出類型決定了最佳的學(xué)習(xí)方法,并會(huì)影響我們用于判斷模型質(zhì)量的尺度。誰對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行監(jiān)督? 機(jī)器學(xué)習(xí)算法可以是有人監(jiān)督也或者是無人干預(yù)的。機(jī)器學(xué)習(xí)算法區(qū)別不在于算法是否可以為所欲為,而是是否要從具備真實(shí)結(jié)果的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)機(jī)器學(xué)習(xí)算法預(yù)先確定并添加到數(shù)據(jù)集中以提供監(jiān)管或者嘗試發(fā)現(xiàn)給定數(shù)據(jù)集中的任何自然形態(tài)。大多數(shù)企業(yè)使用機(jī)器學(xué)習(xí)算法預(yù)測(cè)模型,對(duì)機(jī)器學(xué)習(xí)算法訓(xùn)練數(shù)據(jù)使用監(jiān)督方式,而且通常旨在預(yù)測(cè)給定實(shí)例郵件、人員、公司或者交易是否屬于某個(gè)
4、有趣的分類垃圾郵件、潛在買家、信用良好或者獲得后續(xù)報(bào)價(jià)。 如果在機(jī)器學(xué)習(xí)算法開始之前你不是很清楚在尋找什么,那么無人干預(yù)的機(jī)器學(xué)習(xí)算法能夠提供全新的洞察力。無人干預(yù)的機(jī)器學(xué)習(xí)算法還能夠生成集群與層次結(jié)構(gòu)圖,機(jī)器學(xué)習(xí)算法顯示數(shù)據(jù)的內(nèi)在聯(lián)系,機(jī)器學(xué)習(xí)算法還能夠發(fā)現(xiàn)哪些數(shù)據(jù)字段看起來是獨(dú)立的,哪些是規(guī)則描述、總結(jié)或者概括。反過來,機(jī)器學(xué)習(xí)算法這些洞察能夠?yàn)闃?gòu)建更好的預(yù)測(cè)方法提供幫助。 構(gòu)建機(jī)器學(xué)習(xí)算法模型是一項(xiàng)反復(fù)練習(xí)的過程,需要機(jī)器學(xué)習(xí)算法清理數(shù)據(jù)和動(dòng)手實(shí)驗(yàn)。目前市場(chǎng)上正在涌現(xiàn)一些自動(dòng)和有向?qū)У臋C(jī)器學(xué)習(xí)算法模型工具,它們承諾降低對(duì)數(shù)據(jù)科學(xué)家的依賴性,同時(shí)在常見領(lǐng)域獲得最高的投資回報(bào)率。然而這里面真
5、正的差別很可能需要你自己去發(fā)現(xiàn)。機(jī)器學(xué)習(xí)算法走起來 盡管機(jī)器學(xué)習(xí)算法能夠提供多種好處,但是在使用機(jī)器學(xué)習(xí)算法過程中也有可能導(dǎo)致嚴(yán)重問題。機(jī)器學(xué)習(xí)算法初學(xué)者需要理解所輸入數(shù)據(jù)、項(xiàng)目范圍和目標(biāo),以及工作中使用的機(jī)器學(xué)習(xí)算法。 機(jī)器學(xué)習(xí)是很多大數(shù)據(jù)項(xiàng)目背后的重要推動(dòng)力量,但是即便IT部門投入大量精力,在機(jī)器學(xué)習(xí)算法具體實(shí)施過程當(dāng)中事情也有可能朝著錯(cuò)誤的方向發(fā)展。 不幸的是,如果你沒有牢固掌握機(jī)器學(xué)習(xí)算法所輸入數(shù)據(jù)的質(zhì)量和準(zhǔn)確性、實(shí)際的業(yè)務(wù)目標(biāo)以及真實(shí)環(huán)境限制,那么機(jī)器學(xué)習(xí)算法預(yù)測(cè)模型很有可能具有嚴(yán)重的潛在風(fēng)險(xiǎn)(比如無法避免黑天鵝效應(yīng))。 對(duì)于機(jī)器學(xué)習(xí)算法和大數(shù)據(jù)初學(xué)者來說,很容易編寫出效率低下的機(jī)器
6、學(xué)習(xí)算法復(fù)雜模型或者對(duì)特定數(shù)據(jù)進(jìn)行重復(fù)分析。事實(shí)上,在將這種機(jī)器學(xué)習(xí)算法“廣義”模型應(yīng)用到生產(chǎn)環(huán)境之前,很難判定哪種才算是最佳方式。 另外一種機(jī)器學(xué)習(xí)算法挑戰(zhàn)是成功的定義會(huì)隨著不同的使用情況而出現(xiàn)巨大差異。針對(duì)特定機(jī)器學(xué)習(xí)算法測(cè)試數(shù)據(jù),可以使用數(shù)十種機(jī)器學(xué)習(xí)算法指標(biāo)來描述機(jī)器學(xué)習(xí)算法模型數(shù)據(jù)輸出結(jié)果的質(zhì)量和準(zhǔn)確性。即機(jī)器學(xué)習(xí)算法便對(duì)于IT專家來說,其至少需要熟悉機(jī)器學(xué)習(xí)算法輸出結(jié)果的相關(guān)指標(biāo),并且了解各種機(jī)器學(xué)習(xí)算法象限知識(shí),比如真正(True Positive)被模型預(yù)測(cè)為正的正樣本、真負(fù)(True Negative)被模型預(yù)測(cè)為負(fù)的負(fù)樣本、假正(False Positive )被模型預(yù)測(cè)為
7、正的負(fù)樣本、假負(fù)(False Negative)被模型預(yù)測(cè)為負(fù)的正樣本等。 在機(jī)器學(xué)習(xí)算法和大數(shù)據(jù)領(lǐng)域,許多關(guān)鍵機(jī)器學(xué)習(xí)算法指標(biāo)都是根據(jù)這四種基本機(jī)器學(xué)習(xí)算法測(cè)量結(jié)果推導(dǎo)而來。比如,通常會(huì)使用正確標(biāo)記(真正+真負(fù))的實(shí)例數(shù)量除以總實(shí)例數(shù)量來定義機(jī)器學(xué)習(xí)算法整體準(zhǔn)確性。如果想要了解究竟有多少個(gè)正確的機(jī)器學(xué)習(xí)算法正實(shí)例,敏感性(或者召回率)就是真正的機(jī)器學(xué)習(xí)算法數(shù)量除以實(shí)際正數(shù)量(真正+假正)所得到的比例。 通常機(jī)器學(xué)習(xí)算法精確度也是十分重要的,也就是真正(True Positive)的數(shù)量除以所有被標(biāo)記為正(真正+假正)的項(xiàng)目之和。機(jī)器學(xué)習(xí)算法將所有都標(biāo)記為正的簡(jiǎn)化模型將會(huì)有100%的召回率,但
8、是機(jī)器學(xué)習(xí)算法精確度和準(zhǔn)確性會(huì)非常差這種機(jī)器學(xué)習(xí)算法模型能夠找到一切,但是機(jī)器學(xué)習(xí)算法卻不能將小麥從谷殼當(dāng)中挑選出來。因此通常需要機(jī)器學(xué)習(xí)算法從這些指標(biāo)當(dāng)中進(jìn)行抉擇以尋找最佳平衡點(diǎn)。 在一些基于機(jī)器學(xué)習(xí)算法的大數(shù)據(jù)應(yīng)用領(lǐng)域當(dāng)中,比如機(jī)器學(xué)習(xí)算法針對(duì)性營(yíng)銷,機(jī)器學(xué)習(xí)算法相比于隨機(jī)選擇目標(biāo)客戶這種傳統(tǒng)方式來說能夠提高20%的效率。在其他領(lǐng)域當(dāng)中,比如對(duì)100萬人進(jìn)行癌癥檢查時(shí),即便是99%的準(zhǔn)確率也會(huì)導(dǎo)致極其嚴(yán)重的后果:假設(shè)癌癥的發(fā)病率非常低,那么這1%當(dāng)中的大部分就是假正,從而導(dǎo)致需要對(duì)將近1萬人進(jìn)行不必要的治療。 這種情況促使我們開始思考機(jī)器學(xué)習(xí)算法對(duì)于IT領(lǐng)域的影響。首先,主機(jī)存儲(chǔ)和計(jì)算平臺(tái)
9、應(yīng)該和嘗試學(xué)習(xí)的種類相匹配。有時(shí)候應(yīng)該進(jìn)行離線機(jī)器學(xué)習(xí)算法,機(jī)器學(xué)習(xí)算法將結(jié)果模型應(yīng)用在生產(chǎn)環(huán)境的簡(jiǎn)單計(jì)算步驟當(dāng)中。而在其他時(shí)間機(jī)器學(xué)習(xí)算法是持續(xù)或者反復(fù)出現(xiàn)的(比如強(qiáng)化機(jī)器學(xué)習(xí)算法),需要更加靠近當(dāng)前的數(shù)據(jù)流。 相比于使用其他大數(shù)據(jù)擴(kuò)展集群(比如Apache Mahout、MLlib和Madlib)的可分區(qū)庫(kù)來說,一些機(jī)器學(xué)習(xí)算法能夠?qū)崿F(xiàn)更好可擴(kuò)展性,然而其他方式可能需要更高速的計(jì)算互聯(lián)通道以及讀寫事務(wù)存儲(chǔ)架構(gòu)以提高計(jì)算效率。 機(jī)器學(xué)習(xí)算法可以使用一些內(nèi)存工具來完成大型交付式數(shù)據(jù)挖掘或者預(yù)測(cè)工作,并且機(jī)器學(xué)習(xí)算法降低延遲。還有一些根據(jù)生產(chǎn)環(huán)境當(dāng)中API調(diào)用情況進(jìn)行收費(fèi)的云主機(jī)機(jī)器學(xué)習(xí)算法服務(wù)
10、,對(duì)于存儲(chǔ)在云中的數(shù)據(jù)來說這種方式能提升成本效率。 如果你已經(jīng)擁有固定的程序業(yè)務(wù)領(lǐng)域, 只是想要隨意探索一下或者剛剛開始研究機(jī)器學(xué)習(xí)算法,那么機(jī)器學(xué)習(xí)算法可以使用Python和其他語言當(dāng)中提供的相關(guān)免費(fèi)包。你甚至可以在微軟Azure當(dāng)中注冊(cè)一個(gè)免費(fèi)開發(fā)、基于云的主機(jī)學(xué)習(xí)工作室。這些機(jī)器學(xué)習(xí)算法產(chǎn)品當(dāng)中的大多數(shù)都可以運(yùn)行在本地主機(jī)的小型數(shù)據(jù)集合上,或者機(jī)器學(xué)習(xí)算法針對(duì)生產(chǎn)環(huán)境擴(kuò)展為大型數(shù)據(jù)集合。機(jī)器學(xué)習(xí)算法是一個(gè)十分熱門的領(lǐng)域,每天我們都能聽到廠商保證自己的特定機(jī)器學(xué)習(xí)算法產(chǎn)品能夠簡(jiǎn)化平均業(yè)務(wù)分析過程。 所有這些機(jī)器學(xué)習(xí)算法預(yù)測(cè)模型都不具有人工智能。是的,通過尋找和探索數(shù)據(jù)方面的更深層次模型,其能夠提供真實(shí)和多種業(yè)務(wù)優(yōu)勢(shì),但是通過這種機(jī)器學(xué)習(xí)算法方式建立的一切都是相關(guān)性。就像學(xué)校經(jīng)常告訴我們的一樣,相關(guān)性不代表明確的因果關(guān)系。 但是,考慮到現(xiàn)在應(yīng)用機(jī)器學(xué)習(xí)算法技術(shù)已經(jīng)變得非常容易只需要研究感興趣的機(jī)器學(xué)習(xí)算法數(shù)據(jù)集合,因此
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度健康體檢勞務(wù)合同解除標(biāo)準(zhǔn)指南
- 2025年度無人機(jī)技術(shù)研發(fā)與應(yīng)用合作資源協(xié)議書
- 二零二五年度藝術(shù)衍生品市場(chǎng)正規(guī)藝術(shù)家合作協(xié)議
- 二零二五年度塔吊安裝與吊裝作業(yè)安全保障協(xié)議
- 二零二五年度特色商業(yè)街車位包銷及夜間經(jīng)濟(jì)合同
- 2025年度智慧城市安防系統(tǒng)服務(wù)合同
- 二零二五年度會(huì)議室租賃及茶歇服務(wù)協(xié)議
- 水暖消防工程承包合同
- 小學(xué)生感恩教育故事感悟
- 超市日常運(yùn)營(yíng)管理服務(wù)合同
- 10.1溶液的酸堿性教學(xué)設(shè)計(jì)-2024-2025學(xué)年九年級(jí)化學(xué)人教版下冊(cè)
- 2024年房地產(chǎn)經(jīng)紀(jì)人《房地產(chǎn)經(jīng)紀(jì)專業(yè)基礎(chǔ)》考前沖刺必會(huì)試題庫(kù)300題(含詳解)
- 2024解析:第九章液體壓強(qiáng)-講核心(原卷版)
- 2024解析:第二十章電與磁-基礎(chǔ)練(解析版)
- 躲避球運(yùn)動(dòng)用球項(xiàng)目評(píng)價(jià)分析報(bào)告
- 2024年度委托創(chuàng)作合同:原創(chuàng)美術(shù)作品設(shè)計(jì)與委托制作3篇
- 建設(shè)工程招標(biāo)代理合同(GF-2005-0215)(標(biāo)準(zhǔn)版)
- 膽結(jié)石并急性膽囊炎護(hù)理查房
- 公司新建電源及大用戶并網(wǎng)管理辦法
- 新材料在管道施工中的應(yīng)用方案
- 滑膜炎課件教學(xué)課件
評(píng)論
0/150
提交評(píng)論