實(shí)戰(zhàn):時(shí)下產(chǎn)品經(jīng)理入行AI的技術(shù)分解_第1頁(yè)
實(shí)戰(zhàn):時(shí)下產(chǎn)品經(jīng)理入行AI的技術(shù)分解_第2頁(yè)
實(shí)戰(zhàn):時(shí)下產(chǎn)品經(jīng)理入行AI的技術(shù)分解_第3頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余8頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

【計(jì)算機(jī)論文】實(shí)戰(zhàn):時(shí)下產(chǎn)品經(jīng)理入行AI的技術(shù)分解

(電子商務(wù)研究中心訊)本文著重講解:AI的技術(shù)范圍?時(shí)下有哪些落地的AI技術(shù)?各自的優(yōu)缺點(diǎn)是什么?產(chǎn)品經(jīng)理視角應(yīng)該知道的技術(shù)和切入的角度?隨著大數(shù)據(jù)的累積,AI迅猛發(fā)展,希望了解AI的人,期待從事AI產(chǎn)品經(jīng)理工作的人也越來越多。但是擺在希望從事AI產(chǎn)品經(jīng)理工作的人面前的第一件事是:AI的技術(shù)范圍?時(shí)下有哪些落地的AI技術(shù)?各自的優(yōu)缺點(diǎn)是什么?產(chǎn)品經(jīng)理視角應(yīng)該知道的技術(shù)和切入的角度?本篇重點(diǎn)解答以上問題。一、產(chǎn)品經(jīng)理對(duì)AI技術(shù)理解AI的發(fā)展已有近七十年的歷史,AI在技術(shù)實(shí)現(xiàn)上可歸類為六種途徑,即符號(hào)主義、連接主義、學(xué)習(xí)主義、行為主義、進(jìn)化主義和群體主義。六種途徑并非涇渭分明,它們只是從不同的角度提出了解決方案,如學(xué)習(xí)主義就用到了人工神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。產(chǎn)品經(jīng)理理解的AI應(yīng)該是廣義范疇。目前今日頭條估值高達(dá)350億美金,今日頭條系產(chǎn)品的快速發(fā)展主要特征是對(duì)AI和機(jī)器學(xué)習(xí)的應(yīng)用。時(shí)下流行的機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)算法,實(shí)際上是符號(hào)主義、連接主義以及行為主義理論的進(jìn)一步拓展。對(duì)于機(jī)器學(xué)習(xí)的理解,筆者認(rèn)為:產(chǎn)品經(jīng)理可以從三個(gè)問題入手——即機(jī)器學(xué)什么、機(jī)器怎么學(xué)、機(jī)器做什么?首先,機(jī)器學(xué)習(xí)需要學(xué)習(xí)的內(nèi)容是能夠表征此項(xiàng)任務(wù)的函數(shù),即能夠?qū)崿F(xiàn)人們需要的輸入和輸出的映射關(guān)系。從信息論的角度來看,其學(xué)習(xí)的目標(biāo)是確定兩個(gè)狀態(tài)空間內(nèi)所有可能取值之間的關(guān)系,使得熵盡可能最低。熵越低信息越有序。其次,機(jī)器怎么學(xué)。要實(shí)現(xiàn)學(xué)習(xí)目標(biāo),就要教給機(jī)器一套評(píng)判的方法,而不同于告訴機(jī)器每個(gè)具體步驟如何操作的傳統(tǒng)方法,這需要對(duì)機(jī)器描述過程演進(jìn)為對(duì)機(jī)器描述結(jié)果。從數(shù)學(xué)角度來看,就是為機(jī)器定義一個(gè)合適的損失函數(shù),能夠合理量化真實(shí)結(jié)果和訓(xùn)練結(jié)果的誤差,并將之反饋給機(jī)器繼續(xù)作迭代訓(xùn)練。最后,機(jī)器學(xué)習(xí)究竟要做什么,其實(shí)主要做三件事——即分類(Classification)、回歸(Regression)和聚類(Clustering)。其中分類和回歸屬于監(jiān)督學(xué)習(xí)的范疇,而聚類則屬于非監(jiān)督學(xué)習(xí)的范疇。目前多數(shù)人工智能落地應(yīng)用的背后,都是通過對(duì)現(xiàn)實(shí)問題抽象成相應(yīng)的數(shù)學(xué)模型,分解為這三類基本任務(wù)的有機(jī)組合,并對(duì)其進(jìn)行建模求解的過程。機(jī)器學(xué)習(xí)的產(chǎn)品過程演示:二、時(shí)下AI熱點(diǎn)算法分類這里,我們首先討論當(dāng)前的三大最常見的機(jī)器學(xué)習(xí)任務(wù)及其常用算法。1.回歸回歸是一種用于連續(xù)型數(shù)值變量預(yù)測(cè)和建模的監(jiān)督學(xué)習(xí)算法,回歸任務(wù)的特征是具有數(shù)值型目標(biāo)變量的標(biāo)注數(shù)據(jù)集?;貧w算法有很多種,其中最為常用的算法主要有四種:2.分類分類算法用于分類變量建模及預(yù)測(cè)的監(jiān)督學(xué)習(xí)算法,許多回歸算法都有其對(duì)應(yīng)的分類形式,分類算法往往適用于類別(或其可能性)的預(yù)測(cè),而非數(shù)值。其中最為常用的算法主要有五種:3.聚類聚類算法基于數(shù)據(jù)內(nèi)部結(jié)構(gòu)來尋找樣本自然族群(集群)的無(wú)監(jiān)督學(xué)習(xí)任務(wù),使用案例包括用戶畫像、電商物品聚類、社交網(wǎng)絡(luò)分析等。用戶電商物品需求聚類分析圖:其中最為常用的算法主要有四種:在機(jī)器學(xué)習(xí)領(lǐng)域內(nèi),兩個(gè)最為重要的概念是維度及特征選取。其中“維(Dimensionality)”通常指數(shù)據(jù)集中的特征數(shù)量(即輸入變量的個(gè)數(shù)),而特征選取是從你的數(shù)據(jù)集中過濾掉不相關(guān)或冗余的特征。特征選?。‵eatureSelection)主要包括四種方法:特征選取與特征提取不同,其關(guān)鍵區(qū)別在于:特征選取是從原特征集中選取一個(gè)子特征集,而特征提取則是在原特征集的基礎(chǔ)上重新構(gòu)造出一些(一個(gè)或多個(gè))全新的特征。特征提取(FeatureExtraction)主要用來創(chuàng)造一個(gè)新的、較小的特征集,但仍能保留絕大部分有用的信息。主要包括三種方法:(1)主成分分析:非監(jiān)督式算法,它用來創(chuàng)造原始特征的線性組合。新創(chuàng)造出來的特征他們之間都是正交的,也就是沒有關(guān)聯(lián)性。具體來說,這些新特征是按它們本身變化程度的大小來進(jìn)行排列的。第一個(gè)主成分代表了你的數(shù)據(jù)集中變化最為劇烈的特征,第二個(gè)主成分代表了變化程度排在第二位的特征,以此類推。(2)線性判別分析:監(jiān)督式學(xué)習(xí)方式,它必須使用有標(biāo)記的數(shù)據(jù)集。(3)自編碼機(jī):人工神經(jīng)網(wǎng)絡(luò),它是用來重新構(gòu)建原始輸入的,關(guān)鍵是在隱含層搭建比輸入層和輸出層更少數(shù)量的神經(jīng)元。這樣,隱含層就會(huì)不斷學(xué)習(xí)如何用更少的特征來表征原始圖像。機(jī)器學(xué)習(xí)還包括密度估計(jì)(DensityEstimation)和異常檢測(cè)(AbnormalDetection)的任務(wù),在此略過??偟膩碚f歸類機(jī)器學(xué)習(xí)算法一向都非常棘手,由于其背后實(shí)現(xiàn)原理、數(shù)學(xué)原理等存在差異,其分類標(biāo)準(zhǔn)存在多個(gè)維度,而常見的分類標(biāo)準(zhǔn)主要包括:生成/判別、參數(shù)/非參數(shù)、監(jiān)督/非監(jiān)督等。三、深度學(xué)習(xí)大熱的背后力量筆者認(rèn)為:時(shí)下深度學(xué)習(xí)大熱,是因?yàn)镈L(DeepLearning)在機(jī)器學(xué)習(xí)算法中主要有以下三點(diǎn)。1.深度學(xué)習(xí)與傳統(tǒng)產(chǎn)品之間的區(qū)別傳統(tǒng)產(chǎn)品在語(yǔ)音識(shí)別、物體識(shí)別方面無(wú)法有效展開應(yīng)用,其重要原因之一就是:這類算法無(wú)法使用語(yǔ)音及圖像的高維度數(shù)據(jù)(High-dimensionalData)在高維空間學(xué)習(xí)復(fù)雜的函數(shù),這類高維空間通常也意味著對(duì)算力的極大消耗,即使算力極為豐富的現(xiàn)階段也無(wú)法有效滿足其算力需求。因此,深度學(xué)習(xí)方法應(yīng)運(yùn)而生。傳統(tǒng)產(chǎn)品算法所面臨的問題被稱作維度詛咒(CurseofDimensionality),高維度數(shù)據(jù)的參數(shù)設(shè)置需求隨著變量的增加呈指數(shù)型增長(zhǎng),對(duì)計(jì)算能力提出了極大挑戰(zhàn),近乎無(wú)法完成。而深度學(xué)習(xí)采用多層調(diào)參,層層收斂的方式,將參數(shù)數(shù)量始終控制在一個(gè)較為合理的水平,使得原本不可計(jì)算的模型可運(yùn)算了。其理解如圖所示:2.深度神經(jīng)網(wǎng)絡(luò)具有完備性從理論上來說,深度神經(jīng)網(wǎng)絡(luò)可以表征任何函數(shù),因此深度神經(jīng)網(wǎng)絡(luò)可以通過不同的參數(shù)及網(wǎng)絡(luò)結(jié)構(gòu),對(duì)任意函數(shù)進(jìn)行擬合,排除了其無(wú)法學(xué)習(xí)到復(fù)雜函數(shù)的可能性。3.深度學(xué)習(xí)的特征選取完備深度學(xué)習(xí)具有自動(dòng)學(xué)習(xí)特征的能力,這也是深度學(xué)習(xí)又叫無(wú)監(jiān)督特征學(xué)習(xí)(UnsupervisedFeatureLearning)的原因。從深度學(xué)習(xí)模型中選擇某一神經(jīng)層的特征后,就可以用來進(jìn)行最終目標(biāo)模型的訓(xùn)練,而不需要人為參與特征選取。四、產(chǎn)品經(jīng)理應(yīng)該了解的深度學(xué)習(xí)算法應(yīng)用首先:算法AI算法從專家系統(tǒng)至特征工程到深度學(xué)習(xí)這個(gè)過程中,人工參與在逐漸減少,而機(jī)器工作在逐漸增加,深度學(xué)習(xí)算法主要包括兩個(gè)方面。(1)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)卷積神經(jīng)網(wǎng)絡(luò)是近年發(fā)展起來,并引起廣泛重視的一種高效識(shí)別方法。時(shí)下CNN已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一。K.Fukushima在1980年提出的新識(shí)別機(jī)是卷積神經(jīng)網(wǎng)絡(luò)的第一個(gè)實(shí)現(xiàn)網(wǎng)絡(luò),隨后,具有代表性的研究成果是Alexander和Taylor提出的“改進(jìn)認(rèn)知機(jī)”,該方法綜合了各種改進(jìn)方法的優(yōu)點(diǎn)并避免了耗時(shí)的誤差反向傳播。一般CNN的基本結(jié)構(gòu)包括兩層:1)特征提取層:每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其它特征間的位置關(guān)系也隨之確定下來。2)特征映射層:網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)卷積層都緊跟著一個(gè)用來求局部平均與二次提取的計(jì)算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。CNN主要用來識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測(cè)層通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時(shí),避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)。再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對(duì)于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu),在語(yǔ)音識(shí)別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò)。權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像,可以直接輸入網(wǎng)絡(luò)這一特點(diǎn),避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。(2)遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)在實(shí)際應(yīng)用中,我們會(huì)遇到很多的多序列形數(shù)據(jù),如:自然語(yǔ)言處理問題中的單詞、語(yǔ)音處理中每幀的聲音信號(hào)、每天股票價(jià)格的時(shí)間序列數(shù)據(jù)等。以某自然語(yǔ)言處理公司產(chǎn)品為例:為了建模序列問題,RNN引入了隱狀h(hiddenstate)的概念。一個(gè)RNN網(wǎng)絡(luò)中可以存在一個(gè)或多個(gè)隱狀態(tài),計(jì)算時(shí)每一步使用的參數(shù)都是一樣的,即每個(gè)步驟的參數(shù)都是共享的,這是RNN的重要特點(diǎn)之一。同時(shí)需要注意的是:RNN網(wǎng)絡(luò)的輸入和輸出序列必須是等長(zhǎng)的。由于這個(gè)限制的存在,經(jīng)典RNN的試用范圍比較小,但也有一些問題適合經(jīng)典的RNN結(jié)構(gòu)建模,如:計(jì)算視頻中每一幀的分類標(biāo)簽。因?yàn)橐獙?duì)每一幀進(jìn)行機(jī)選,一次輸入和輸出序列等長(zhǎng),又如:輸入為字符,輸出為下一個(gè)字符的概率,著名的用于生成文章、詩(shī)歌甚至是代碼的CharRNN(TheUnreasonableEffectivenessofRecurrentNeuralNetworks)就是一個(gè)很好的例子。當(dāng)我們要處理的問題輸入是一個(gè)序列,輸出是一個(gè)單獨(dú)的值而不是序列的時(shí)候,需要對(duì)RNN網(wǎng)絡(luò)中最后一個(gè)h進(jìn)行輸出變化即可完成,這種結(jié)構(gòu)通常用來處理序列分類問題。如:輸入一段文字判別它所屬的類別;輸入一個(gè)句子判斷其情感傾向;輸入一段視頻并判斷它的類別等等。對(duì)于輸入不是序列而輸出為序列的情況,只需要在序列開始時(shí)進(jìn)行輸入計(jì)算或把輸入信息作為每個(gè)階段的輸入即可。這種網(wǎng)絡(luò)結(jié)構(gòu)可以處理的問題包括兩方面:RNN最重要的一個(gè)變種是N輸入M輸出,這種結(jié)構(gòu)又叫做Encoder-Decoder模型,也可稱之為Seq2Seq模型。實(shí)際生產(chǎn)生活中我們遇到的大部分問題序列都是不等長(zhǎng)的,如:機(jī)器翻譯中源語(yǔ)言和目標(biāo)語(yǔ)言中的句子往往沒有相同的長(zhǎng)度。為此Encoder-Decoder結(jié)構(gòu)會(huì)先將輸入數(shù)據(jù)編碼成一個(gè)上下文向量C,得到C的方式有多種,最簡(jiǎn)單的方法就是把Encoder的最后一個(gè)隱狀態(tài)賦值給C,還可以對(duì)最后的隱狀態(tài)做一個(gè)變換得到C,也可以對(duì)所有的隱狀態(tài)做變換。在得到C后,就用另一個(gè)RNN網(wǎng)絡(luò)對(duì)其解碼,這部分RNN網(wǎng)絡(luò)被稱為Decoder,具體做法就是將C當(dāng)做之前的初始狀態(tài)輸入到Decoder網(wǎng)絡(luò)中。由于這種Encoder-Decoder結(jié)構(gòu)不限制輸入和輸出的序列長(zhǎng)度,因此應(yīng)用范圍廣泛,常見應(yīng)用包括:在Encoder-Decoder結(jié)構(gòu)中,Encoder把所有的輸入序列都編碼成一個(gè)統(tǒng)一的語(yǔ)義特征C再解碼。因此,C中必須包含原始序列中的所有信息,它的長(zhǎng)度就成了限制模型性能的瓶頸。如:機(jī)器翻譯問題,當(dāng)需要翻譯的句子較長(zhǎng)時(shí),一個(gè)C可能存不下那么多信息,就會(huì)造成翻譯精度的下降。而Attention機(jī)制通過在每個(gè)時(shí)間輸入不同的C來解決這個(gè)問題,每一個(gè)C會(huì)自動(dòng)去選取與當(dāng)前所要輸出的結(jié)果最合適的上下文信息。其次:深度學(xué)習(xí)(DL)有其不足之處以上從一名入行AI產(chǎn)品經(jīng)理的視角,簡(jiǎn)要介紹了深度學(xué)習(xí)CNN及RNN兩類網(wǎng)絡(luò)的基本原理及應(yīng)用場(chǎng)景,雖然其在多種識(shí)別、感知任務(wù)中表現(xiàn)優(yōu)異。但筆者實(shí)踐中發(fā)現(xiàn)DL也存在著以下三方面的不足:(1)數(shù)據(jù)基礎(chǔ)問題:我們?cè)趯?shí)際生產(chǎn)生活中所收集到的數(shù)據(jù)往往都是小數(shù)據(jù),而不是大數(shù)據(jù)。比如說:我們手機(jī)上的個(gè)人數(shù)據(jù),在教育、醫(yī)療、基因的檢測(cè)與實(shí)驗(yàn)、學(xué)生測(cè)驗(yàn)、客服問答上的數(shù)據(jù),都是小數(shù)據(jù)。所以只有實(shí)現(xiàn)從大數(shù)據(jù)向小數(shù)據(jù)遷移的通用模型,才能真正幫助更多的領(lǐng)域用上人工智能,這是人工智能的普及性問題,但基于大數(shù)據(jù)迭代的深度學(xué)習(xí)模型無(wú)法勝任小數(shù)據(jù)場(chǎng)景業(yè)務(wù)。例如:當(dāng)筆者在給AI+領(lǐng)域做AI賦能產(chǎn)品咨詢?cè)O(shè)計(jì)的時(shí)候,搭建的Callout機(jī)器人構(gòu)建完Fintech領(lǐng)域,這個(gè)架構(gòu)的知識(shí)庫(kù)到互聯(lián)網(wǎng)教育領(lǐng)域需要重新搭建。(2)模型可靠性問題:深度學(xué)習(xí)模型非常脆弱,稍加移動(dòng)、離開現(xiàn)有的場(chǎng)景數(shù)據(jù),它的效果就會(huì)降低,因此深度學(xué)習(xí)模型的可靠性是一個(gè)重要問題。對(duì)機(jī)器學(xué)習(xí)來說,由于訓(xùn)練數(shù)據(jù)和實(shí)際應(yīng)用數(shù)據(jù)存在區(qū)別,訓(xùn)練出來的模型被用于處理它沒有見過的數(shù)據(jù)時(shí),效果就會(huì)大打折扣。而緩解這一問題的辦法,正是遷移學(xué)習(xí),它能把可靠性提升一個(gè)臺(tái)階。(3)應(yīng)用上的問題:特別是機(jī)器學(xué)習(xí)模型在應(yīng)用個(gè)性化方面的問題。比如:在手機(jī)上,在推薦信息、服務(wù)的時(shí)候,它要適用于個(gè)人的行為。因?yàn)槿魏蝹€(gè)人的數(shù)據(jù)都是小數(shù)據(jù),個(gè)性化的問題就是如何把云端的通用模型適配到終端的小數(shù)據(jù)上,讓它也能工作。這就是遷移學(xué)習(xí)比較適合的事情,幫助機(jī)器學(xué)習(xí)從云端往移動(dòng)端遷移。例如:Siri是一款云端通用型軟體機(jī)器人,但是Siri并不能完全基于筆者本人的工作、生活提供工作生活的個(gè)性化建議,這里需要解決的問題是——如何把云端大數(shù)據(jù)情況下的場(chǎng)景,切換到個(gè)性化的本地落地產(chǎn)品。五、AI技術(shù)產(chǎn)品經(jīng)理落地的角度AI領(lǐng)域的機(jī)器學(xué)習(xí)、深

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論