智能推薦算法課件_第1頁(yè)
智能推薦算法課件_第2頁(yè)
智能推薦算法課件_第3頁(yè)
智能推薦算法課件_第4頁(yè)
智能推薦算法課件_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

算法新聞AlgorithmicJournalism算法新聞AlgorithmicJournalism智能推薦算法本章要點(diǎn)關(guān)鍵詞第5章本章圍繞智能推薦算法的起源、發(fā)展、應(yīng)用和評(píng)估展開(kāi)。首先介紹智能推薦系統(tǒng)的發(fā)端,即智能推薦系統(tǒng)得以發(fā)源和發(fā)展的多種前置技術(shù)條件和準(zhǔn)備,包括大數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)算法、移動(dòng)互聯(lián)網(wǎng)的發(fā)展以及用戶(hù)特點(diǎn)的變化。接下來(lái),以關(guān)聯(lián)規(guī)則推薦算法為例,具體介紹智能推薦算法的原理和過(guò)程、可能的改進(jìn)及其演進(jìn)方向。最后介紹如何對(duì)推薦算法進(jìn)行評(píng)估,幫助算法推薦系統(tǒng)篩選最合適的算法。智能推薦系統(tǒng)、大數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)算法、關(guān)聯(lián)規(guī)則推薦算法智能推薦算法本章要點(diǎn)關(guān)鍵詞第5章本章圍繞智能推薦算法的起源、第1節(jié)智能推薦系統(tǒng)的發(fā)端目前,接入互聯(lián)網(wǎng)的設(shè)備特別是通過(guò)移動(dòng)互聯(lián)網(wǎng)接入的移動(dòng)終端設(shè)備之上,各種各樣的應(yīng)用軟件層出不窮。其中一個(gè)不容忽視的趨勢(shì)就是智能推薦系統(tǒng)正在熱火朝天地發(fā)展和壯大,越來(lái)越多的應(yīng)用軟件系統(tǒng)引入智能推薦算法,用以實(shí)現(xiàn)更好的個(gè)性化內(nèi)容呈現(xiàn)和精準(zhǔn)送達(dá)。存在怎樣的技術(shù)準(zhǔn)備和前置條件來(lái)支持這些智能推薦算法以及智能推薦系統(tǒng)呢?有四個(gè)主要條件:(1)大數(shù)據(jù)技術(shù)的發(fā)展以及開(kāi)源大數(shù)據(jù)處理平臺(tái)的普及。(2)機(jī)器學(xué)習(xí)算法的突破。(3)移動(dòng)互聯(lián)網(wǎng)的繁榮發(fā)展。(4)用戶(hù)習(xí)慣的改變。第1節(jié)智能推薦系統(tǒng)的發(fā)端目前,接入互聯(lián)網(wǎng)的設(shè)備特別是通過(guò)移在當(dāng)前的時(shí)間節(jié)點(diǎn)上,大數(shù)據(jù)不論是對(duì)于自然科學(xué)及人文社會(huì)科學(xué),還是對(duì)于工業(yè)界,均具有重要意義。從數(shù)據(jù)的產(chǎn)生來(lái)看,每一個(gè)個(gè)體用戶(hù),都是大數(shù)據(jù)的貢獻(xiàn)者,都為海量數(shù)據(jù)的生成提供了源數(shù)據(jù)。一、開(kāi)源大數(shù)據(jù)處理平臺(tái)的普及“大數(shù)據(jù)”從數(shù)據(jù)量級(jí)的角度來(lái)說(shuō)到底有多“大”?在辦公領(lǐng)域,以電子郵件系統(tǒng)為例,全球范圍內(nèi)每秒會(huì)發(fā)出數(shù)百萬(wàn)封電子郵件。在視頻分享和推薦領(lǐng)域,YouTube網(wǎng)站的流量數(shù)據(jù)總量超過(guò)百億,每天新增總播放時(shí)長(zhǎng)達(dá)數(shù)萬(wàn)小時(shí)的視頻,并且其單日瀏覽量也達(dá)數(shù)億甚至數(shù)十億。在社交媒體領(lǐng)域,截至2017年底,新浪微博月閱讀量超百億的垂直領(lǐng)域達(dá)25個(gè),微博內(nèi)容存量已超過(guò)千億,微博搜索月活躍用戶(hù)近1億(參見(jiàn)微博數(shù)據(jù)中心《2017微博用戶(hù)發(fā)展報(bào)告》)。在電子商務(wù)領(lǐng)域,2018年“雙11”電商購(gòu)物節(jié)期間,來(lái)自商務(wù)部的數(shù)據(jù)顯示,全國(guó)網(wǎng)絡(luò)零售交易額超過(guò)3000億元。在網(wǎng)絡(luò)應(yīng)用領(lǐng)域,谷歌搜索引擎每天需要處理24PB級(jí)別的數(shù)據(jù)。在算法智能推薦系統(tǒng)領(lǐng)域,截至2017年12月,今日頭條系統(tǒng)一共有3億用戶(hù),日活躍用戶(hù)量超過(guò)3000萬(wàn),系統(tǒng)的日均點(diǎn)擊量大概是5億次,每個(gè)用戶(hù)的平均使用時(shí)長(zhǎng)為47分鐘。在當(dāng)前的時(shí)間節(jié)點(diǎn)上,大數(shù)據(jù)不論是對(duì)于自然科學(xué)及人文社會(huì)科學(xué),支撐大數(shù)據(jù)的硬件平臺(tái)針對(duì)海量的數(shù)據(jù),需要相應(yīng)的硬件來(lái)完成這些數(shù)據(jù)的采集、存儲(chǔ)和計(jì)算。從數(shù)據(jù)體量的角度,目前的大數(shù)據(jù)量級(jí)已經(jīng)達(dá)到了PB級(jí)別。補(bǔ)充:PB是英文Pega

Byte的縮寫(xiě),其中B是英文byte的縮寫(xiě),即“字節(jié)”。通常,個(gè)人電腦硬盤(pán)的存儲(chǔ)容量是GB(Giga

Byte,吉字節(jié),又稱(chēng)“千兆”)級(jí)別的,如256GB、512GB等。此處,1GB=1024MB,1MB(Mega

Byte,兆字節(jié),簡(jiǎn)稱(chēng)“兆”)=1024kb,1kb(Kilobyte,千字節(jié))=1024B。由于大數(shù)據(jù)的量級(jí)呈現(xiàn)幾何方式的增長(zhǎng),傳統(tǒng)的硬件架構(gòu)已經(jīng)很難滿(mǎn)足需求。巨大的PB級(jí)別數(shù)據(jù)量級(jí)對(duì)于數(shù)據(jù)的采集和存儲(chǔ)都提出了新的要求,通俗地講,就是要求大數(shù)據(jù)系統(tǒng)既能存得下數(shù)據(jù)又能快速讀寫(xiě),并且在足夠短的時(shí)間里完成計(jì)算。通常,存儲(chǔ)系統(tǒng)的升級(jí)并不僅僅指存儲(chǔ)容量升級(jí),系統(tǒng)對(duì)其他資源也有額外的需求,如I/O帶寬和計(jì)算能力。也就是說(shuō),為了支持海量數(shù)據(jù)的存儲(chǔ)和計(jì)算,需要高性能的計(jì)算和存儲(chǔ)設(shè)備完成大數(shù)據(jù)上的分析和計(jì)算任務(wù),因此,大數(shù)據(jù)計(jì)算系統(tǒng)的硬件會(huì)體現(xiàn)出大存儲(chǔ)容量、多主機(jī)、多CPU、高速運(yùn)算、高速I(mǎi)/O、數(shù)百GB內(nèi)存等特點(diǎn)。為了應(yīng)對(duì)不斷增長(zhǎng)的數(shù)據(jù),目前常見(jiàn)的大數(shù)據(jù)系統(tǒng)擴(kuò)展方式有縱向擴(kuò)展和橫向擴(kuò)展兩種??v向擴(kuò)展:主要是利用已有的存儲(chǔ)系統(tǒng)架構(gòu),通過(guò)不斷增加存儲(chǔ)容量來(lái)滿(mǎn)足數(shù)據(jù)增長(zhǎng)的需求。橫向擴(kuò)展:進(jìn)行系統(tǒng)升級(jí),通過(guò)增加獨(dú)立的設(shè)備來(lái)提高系統(tǒng)的運(yùn)算能力。支撐大數(shù)據(jù)的硬件平臺(tái)針對(duì)海量的數(shù)據(jù),需要相應(yīng)的硬件來(lái)完成這些大數(shù)據(jù)的軟件計(jì)算框架從軟件方面來(lái)說(shuō),大數(shù)據(jù)系統(tǒng)還需要實(shí)現(xiàn)大數(shù)據(jù)的計(jì)算框架。從軟件功能的角度,存在存儲(chǔ)”和“計(jì)算”這兩種類(lèi)型的大數(shù)據(jù)計(jì)算框架。大數(shù)據(jù)存儲(chǔ)框架(Hadoop+HDFS)目前,開(kāi)源的大數(shù)據(jù)存儲(chǔ)平臺(tái)主要是基于Hadoop平臺(tái)實(shí)現(xiàn)的。Hadoop是一種分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,充分利用集群的計(jì)算能力進(jìn)行高速運(yùn)算和存儲(chǔ)?;贖adoop技術(shù)的大數(shù)據(jù)存儲(chǔ)平臺(tái)實(shí)現(xiàn)了海量數(shù)據(jù)的分布式存儲(chǔ),在存儲(chǔ)方面實(shí)現(xiàn)了一個(gè)分布式的文件存儲(chǔ)系統(tǒng)HDFS,即Hadoop分布式文件系統(tǒng)(Hadoop

distribute

file

system)。針對(duì)海量數(shù)據(jù)的分布存儲(chǔ),可以降低存儲(chǔ)設(shè)備的單點(diǎn)壓力,提高存儲(chǔ)的容錯(cuò)能力。因此,大數(shù)據(jù)系統(tǒng)的內(nèi)部實(shí)現(xiàn)可以由Hadoop平臺(tái)加上分布式文件系統(tǒng)來(lái)支撐存儲(chǔ)功能。2.大數(shù)據(jù)計(jì)算框架(1)離線(xiàn)計(jì)算(MapReduce)早期的大數(shù)據(jù)計(jì)算框架技術(shù)主要采取離線(xiàn)計(jì)算的方式。在運(yùn)算過(guò)程中,首先通過(guò)對(duì)計(jì)算任務(wù)的分解,把數(shù)據(jù)集切分為多個(gè)分片;隨后,每一次運(yùn)算從硬盤(pán)加載一部分?jǐn)?shù)據(jù)分片并分配到集群中不同的機(jī)器上進(jìn)行計(jì)算,其中,需要把一些必要的中間結(jié)果保存到硬盤(pán)上(HDFS);然后再由后續(xù)的運(yùn)算模塊把中間結(jié)果讀到內(nèi)存,再進(jìn)行合并計(jì)算,求出結(jié)果后,將其寫(xiě)到硬盤(pán),完成一次離線(xiàn)的分布式計(jì)算。離線(xiàn)計(jì)算適用于單次計(jì)算任務(wù)對(duì)完成時(shí)間的要求不高并且單次計(jì)算任務(wù)通常不需要反復(fù)執(zhí)行的計(jì)算場(chǎng)景,如機(jī)器學(xué)習(xí)模型的訓(xùn)練。大數(shù)據(jù)的軟件計(jì)算框架從軟件方面來(lái)說(shuō),大數(shù)據(jù)系統(tǒng)還需要實(shí)現(xiàn)大數(shù)大數(shù)據(jù)的軟件計(jì)算框架(2)在線(xiàn)計(jì)算(Spark)隨著對(duì)計(jì)算性能要求的提高,某些在大數(shù)據(jù)集合上的計(jì)算也需要達(dá)到實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)的標(biāo)準(zhǔn)。為了實(shí)現(xiàn)在線(xiàn)級(jí)別的大數(shù)據(jù)計(jì)算,可以在Hadoop和HDFS平臺(tái)的基礎(chǔ)上搭建Spark計(jì)算平臺(tái)。Spark是快速通用的大規(guī)模數(shù)據(jù)計(jì)算引擎。與離線(xiàn)計(jì)算不同的是,在線(xiàn)計(jì)算的中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫(xiě)HDFS,有效地減少I(mǎi)/O,提高系統(tǒng)效率,因此Spark能更好地適用于需要重復(fù)進(jìn)行的計(jì)算場(chǎng)景。從底層存儲(chǔ)來(lái)看,以上離線(xiàn)計(jì)算和在線(xiàn)計(jì)算的大數(shù)據(jù)框架在存儲(chǔ)層面,都是在Hadoop分布式文件系統(tǒng)上存儲(chǔ)的。二者的區(qū)別在于計(jì)算過(guò)程是否需要反復(fù)讀取硬盤(pán)數(shù)據(jù),從而區(qū)分出在線(xiàn)計(jì)算和離線(xiàn)計(jì)算兩種情況。提要:為了處理和計(jì)算來(lái)自各行各業(yè)的大數(shù)據(jù),大數(shù)據(jù)的硬件、軟件技術(shù)手段應(yīng)運(yùn)而生并不斷向前演進(jìn),服務(wù)于大數(shù)據(jù)的存儲(chǔ)、分析和價(jià)值發(fā)現(xiàn)。大數(shù)據(jù)的軟件計(jì)算框架(2)在線(xiàn)計(jì)算(Spark)二、機(jī)器學(xué)習(xí)算法的突破機(jī)器學(xué)習(xí)算法的基本原理:機(jī)器學(xué)習(xí)是一門(mén)研究算法的學(xué)科,簡(jiǎn)單地講就是研究如何讓計(jì)算機(jī)根據(jù)以往的經(jīng)驗(yàn)去適應(yīng)新的環(huán)境。這里“以往的經(jīng)驗(yàn)”指的是歷史數(shù)據(jù);“適應(yīng)”指的是通過(guò)對(duì)歷史數(shù)據(jù)的研究分析,建立一種映射關(guān)系;“新的環(huán)境”是指新產(chǎn)生的需要計(jì)算的數(shù)據(jù)。當(dāng)新數(shù)據(jù)輸入機(jī)器學(xué)習(xí)建立的函數(shù)中時(shí),會(huì)產(chǎn)生符合歷史數(shù)據(jù)規(guī)律的新輸出。機(jī)器學(xué)習(xí)本質(zhì)上是研究自學(xué)習(xí)算法的科學(xué),這些算法用于幫助機(jī)器進(jìn)行自我學(xué)習(xí)來(lái)解決問(wèn)題。二、機(jī)器學(xué)習(xí)算法的突破機(jī)器學(xué)習(xí)算法的基本原理:案例:假設(shè)我們想訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型識(shí)別出貓。于是,我們可以提供給機(jī)器學(xué)習(xí)算法一定數(shù)量的已經(jīng)標(biāo)注為“貓”的圖片,需要盡可能包括正面、側(cè)面、背面等多種角度。對(duì)于機(jī)器學(xué)習(xí)算法來(lái)說(shuō),這些圖片就是已有數(shù)據(jù)中的輸入數(shù)據(jù),我們使用這樣的一些數(shù)據(jù)來(lái)訓(xùn)練動(dòng)物識(shí)別器,而其對(duì)應(yīng)的已知輸出數(shù)據(jù)則是對(duì)這些圖片所含動(dòng)物類(lèi)別的標(biāo)記,對(duì)應(yīng)于此類(lèi)輸入圖片,機(jī)器學(xué)習(xí)算法已知其標(biāo)記均為“貓”。機(jī)器學(xué)習(xí)算法會(huì)從多張貓的圖片中學(xué)習(xí)其共性特征,如兩只尖耳朵,兩只眼睛,有毛,有尾巴等等(“尖耳朵”“眼睛”“毛”“尾巴”是為了文字表述方便而闡述的特征,實(shí)際上在機(jī)器學(xué)習(xí)算法中它們對(duì)應(yīng)的是若干個(gè)維度的數(shù)值屬性)。機(jī)器學(xué)習(xí)算法把“貓”的這些特征識(shí)別出來(lái),認(rèn)為滿(mǎn)足這些特征的圖片都是含有貓的圖片,就完成了模擬人類(lèi)進(jìn)行歸納總結(jié)的過(guò)程。模型訓(xùn)練好之后,算法再遇到滿(mǎn)足此類(lèi)特征的圖片,即可識(shí)別其為含有貓的圖片,就完成了演繹推理的過(guò)程。對(duì)于機(jī)器學(xué)習(xí)算法來(lái)說(shuō),為了提高模型的準(zhǔn)確度,需要提供足夠的訓(xùn)練數(shù)據(jù)。所謂“足夠”,一方面是數(shù)據(jù)量大,另一方面是能覆蓋盡量多的可能性。例如圖中所示三張圖中的貓都是尖耳朵并且有毛的貓,如果全部訓(xùn)練數(shù)據(jù)都是類(lèi)似品種的貓的圖片,那么訓(xùn)練完成后,如果識(shí)別算法遇到了折耳貓或是無(wú)毛貓的圖片,識(shí)別的準(zhǔn)確度就會(huì)受到影響,不一定能將其正確標(biāo)注。案例:常見(jiàn)的機(jī)器學(xué)習(xí)算法:下面以一個(gè)文本分類(lèi)的任務(wù)為例,簡(jiǎn)要介紹這些機(jī)器學(xué)習(xí)算法。文本分類(lèi)任務(wù)的已有數(shù)據(jù)是一個(gè)新聞?wù)Z料文檔集,包括多篇多種類(lèi)別的新聞,如體育新聞、財(cái)經(jīng)新聞等。(1)無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法(“聚類(lèi)”算法)針對(duì)新聞文本分類(lèi)任務(wù),算法事先并不知道每一篇新聞文檔的類(lèi)別是什么,以及共有多少種類(lèi)別,此時(shí)把語(yǔ)料庫(kù)的文檔全部送到機(jī)器學(xué)習(xí)算法中,讓它對(duì)輸入數(shù)據(jù)進(jìn)行自學(xué)習(xí),區(qū)分并生成若干種可能的新聞文檔類(lèi)別,這種情況下的機(jī)器學(xué)習(xí)算法就是無(wú)監(jiān)督的機(jī)器學(xué)習(xí)。(2)有監(jiān)督的機(jī)器學(xué)習(xí)算法(“分類(lèi)”算法)與無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法相對(duì)。所謂有監(jiān)督的學(xué)習(xí)是指給算法提供一定數(shù)量的訓(xùn)練數(shù)據(jù)。此時(shí)需要事先標(biāo)記好一定數(shù)量的新聞文本,即每一篇新聞是什么類(lèi)型的。在這種情況下,文檔庫(kù)中共有多少種新聞?lì)悇e以及每種新聞的分類(lèi)是什么都是預(yù)先指定好的。因此,這類(lèi)機(jī)器學(xué)習(xí)算法也稱(chēng)為“分類(lèi)”算法,對(duì)應(yīng)的模型稱(chēng)為“分類(lèi)器”。利用已經(jīng)標(biāo)記好的新聞文檔及其所屬分類(lèi)數(shù)據(jù),就可以對(duì)分類(lèi)器進(jìn)行訓(xùn)練。在訓(xùn)練過(guò)程中分類(lèi)器會(huì)學(xué)習(xí)每個(gè)類(lèi)別新聞的特征。當(dāng)分類(lèi)器把每一種新聞?lì)悇e的特征都學(xué)習(xí)好之后,即完成了對(duì)分類(lèi)器的訓(xùn)練。隨后,對(duì)于新的輸入數(shù)據(jù),即類(lèi)別未知的新聞文檔,就不需要進(jìn)行人工的新聞分類(lèi)了,分類(lèi)器就可以自動(dòng)地給新的文檔找到相應(yīng)的類(lèi)別并對(duì)文檔進(jìn)行類(lèi)別標(biāo)記。常見(jiàn)的機(jī)器學(xué)習(xí)算法:(3)基于對(duì)抗生成網(wǎng)絡(luò)的算法其原理是,對(duì)于已經(jīng)訓(xùn)練到一定程度的模型,實(shí)現(xiàn)者會(huì)嘗試輸入一些反例。例如故意標(biāo)記一篇社會(huì)新聞文檔D為國(guó)際新聞,如果模型已經(jīng)訓(xùn)練到足夠準(zhǔn)確,那么模型就可以直接識(shí)別出文檔D并不是標(biāo)記的那種類(lèi)型(國(guó)際新聞)。這時(shí)候算法模型可以更加專(zhuān)注于了解文檔D為什么不是國(guó)際新聞?lì)惖男侣?,把相關(guān)的特點(diǎn)抽出來(lái),放到對(duì)抗生成網(wǎng)絡(luò)里,就能更好地幫助算法模型認(rèn)識(shí)到文檔的哪些特征能更好地表征所屬類(lèi)別的特點(diǎn)。所以在模型訓(xùn)練過(guò)程中,把一些反例輸入模型,讓算法在反例輸入的情況下,對(duì)抗反例數(shù)據(jù),提高自己的學(xué)習(xí)能力。(4)基于卷積神經(jīng)網(wǎng)絡(luò)的算法基于卷積神經(jīng)網(wǎng)絡(luò)的算法可以實(shí)現(xiàn)對(duì)圖像數(shù)據(jù)的有效分析和處理。對(duì)于一幅圖像來(lái)說(shuō),可以將其分成m×n個(gè)像素或者m×n個(gè)小格子。最簡(jiǎn)單的方法就是認(rèn)為這幅圖像一共有m×n個(gè)特征(每個(gè)像素或小格子是一個(gè)特征)。如果圖像比較大,圖像就被建模為高維特征對(duì)象,相應(yīng)的處理算法需要面對(duì)高維數(shù)據(jù),運(yùn)算量大,對(duì)算力的要求高,導(dǎo)致效率受到限制。因此,考慮如何對(duì)高維數(shù)據(jù)進(jìn)行抽象,使用一個(gè)比較小的矩陣,來(lái)表述這幅圖的特征??梢圆捎玫姆椒ㄊ牵盐恢门R近的若干個(gè)格子聚合起來(lái),例如將每k×k個(gè)格子提煉為一個(gè)特征(k小于m和n)。通過(guò)這樣的處理,就可以把數(shù)據(jù)特征的維度降低,從而在較低維度數(shù)據(jù)上進(jìn)行機(jī)器學(xué)習(xí)模型的訓(xùn)練。提要:目前已知的多種機(jī)器學(xué)習(xí)算法(如有監(jiān)督的學(xué)習(xí)、無(wú)監(jiān)督的學(xué)習(xí)、對(duì)抗生成網(wǎng)絡(luò)算法以及卷積神經(jīng)網(wǎng)絡(luò)算法等)在算法推薦系統(tǒng)均有一定程度的應(yīng)用。在真實(shí)系統(tǒng)中,往往是綜合考慮具體的情況和應(yīng)用場(chǎng)景,綜合使用幾種算法,以達(dá)到更好的效果。(3)基于對(duì)抗生成網(wǎng)絡(luò)的算法三、移動(dòng)互聯(lián)網(wǎng)的繁榮2018年8月,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心在北京發(fā)布第42次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》。截至2018年6月30日,中國(guó)網(wǎng)民規(guī)模達(dá)8.02億,其中手機(jī)網(wǎng)民規(guī)模已達(dá)7.88億,網(wǎng)民通過(guò)手機(jī)接入互聯(lián)網(wǎng)的比例高達(dá)98.3%。移動(dòng)互聯(lián)網(wǎng)及其上承載的應(yīng)用已經(jīng)廣泛地深入人們衣食住行的方方面面?;ヂ?lián)網(wǎng)以及移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展脈絡(luò):1980年到1990年的個(gè)人電腦時(shí)代,互聯(lián)網(wǎng)上開(kāi)始出現(xiàn)一些簡(jiǎn)單的搜索引擎,回應(yīng)用戶(hù)的網(wǎng)絡(luò)導(dǎo)航需求,如雅虎等搜索引擎可以提供靜態(tài)的導(dǎo)航信息。Web1.0時(shí)代:1990年到2000年,針對(duì)互聯(lián)網(wǎng)上的應(yīng)用需求,谷歌公司發(fā)布了谷歌搜索引擎,通過(guò)分析用戶(hù)搜索的信息更好地滿(mǎn)足用戶(hù)需求。Web2.0時(shí)代:2000年到2010年,基于Web2.0技術(shù)出現(xiàn)了語(yǔ)義網(wǎng)絡(luò)以及其上的語(yǔ)義搜索技術(shù)。臉書(shū)等在線(xiàn)社交媒體逐漸興起,用戶(hù)可以創(chuàng)造內(nèi)容并上傳,給互聯(lián)網(wǎng)用戶(hù)創(chuàng)造了自我表達(dá)和在線(xiàn)連接等新需求。在中國(guó),也出現(xiàn)了微博、微信等新的社交媒體平臺(tái)。因此,有人將2010年至2020年階段稱(chēng)為Web3.0時(shí)代。在這一階段,移動(dòng)互聯(lián)網(wǎng)的業(yè)務(wù)品類(lèi)和流量均呈現(xiàn)大爆發(fā)。大數(shù)據(jù)及大數(shù)據(jù)技術(shù)平臺(tái)提供了對(duì)移動(dòng)互聯(lián)網(wǎng)各種新業(yè)務(wù)的有效支持,多種個(gè)性化的算法推薦系統(tǒng)也應(yīng)運(yùn)而生并廣泛流傳。三、移動(dòng)互聯(lián)網(wǎng)的繁榮2018年8月,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心在北四、用戶(hù)習(xí)慣的改變從用戶(hù)的角度看,智能推薦系統(tǒng)迅速發(fā)展的一個(gè)重要原因在于用戶(hù)習(xí)慣的改變。用戶(hù)習(xí)慣變化的原因:內(nèi)容分發(fā)的去中心化。在以往中心化內(nèi)容分發(fā)的模式下,用戶(hù)可見(jiàn)可讀的內(nèi)容是由數(shù)量有限的內(nèi)容提供方呈現(xiàn)的,用戶(hù)可選擇的余地較小,因此,智能推薦系統(tǒng)產(chǎn)生的基礎(chǔ)條件并不具備,也就不存在智能的個(gè)性化推薦。大數(shù)據(jù)基礎(chǔ)上的個(gè)性化內(nèi)容需求。隨著內(nèi)容非中心分發(fā)形式的發(fā)展,呈獻(xiàn)給用戶(hù)的內(nèi)容品類(lèi)和數(shù)量均在快速增長(zhǎng)。由于每個(gè)用戶(hù)的興趣和關(guān)注點(diǎn)各不相同,因此在海量?jī)?nèi)容池基礎(chǔ)上對(duì)內(nèi)容提出個(gè)性化需求具有了數(shù)據(jù)準(zhǔn)備。內(nèi)容獲取方式的改變。以往的閱讀和觀看習(xí)慣通常是用戶(hù)主動(dòng)尋找感興趣的內(nèi)容,這也被稱(chēng)為“拉”(pull)模式,即用戶(hù)尋找內(nèi)容。面對(duì)海量的內(nèi)容數(shù)據(jù),用戶(hù)很難從中選出真正滿(mǎn)足自己興趣和需求的內(nèi)容,因此出現(xiàn)了算法推薦系統(tǒng),它主動(dòng)從海量?jī)?nèi)容中進(jìn)行過(guò)濾篩選,為用戶(hù)推送其感興趣的內(nèi)容,因此也被稱(chēng)為“推”(push)模式,即系統(tǒng)推送內(nèi)容給用戶(hù)。智能推薦系統(tǒng)和用戶(hù)在不斷改變和“馴化”對(duì)方,用戶(hù)習(xí)慣的改變既是這個(gè)過(guò)程的一個(gè)原因,也是其中一個(gè)結(jié)果。四、用戶(hù)習(xí)慣的改變從用戶(hù)的角度看,智能推薦系統(tǒng)迅速發(fā)展的一個(gè)第2節(jié)關(guān)聯(lián)規(guī)則推薦算法一、關(guān)聯(lián)規(guī)則推薦算法的起源、應(yīng)用和發(fā)展關(guān)聯(lián)規(guī)則推薦算法的起源:關(guān)于關(guān)聯(lián)規(guī)則算法的起源,人們普遍認(rèn)為它源于“啤酒和紙尿褲”的故事。在物質(zhì)條件、技術(shù)條件、用戶(hù)群體形成和用戶(hù)習(xí)慣養(yǎng)成的基礎(chǔ)上,想要真正搭建一個(gè)算法推薦平臺(tái),需要實(shí)現(xiàn)具體的推薦算法。在20世紀(jì)80年代,美國(guó)連鎖超市沃爾瑪公司有一些銷(xiāo)售人員想對(duì)銷(xiāo)售記錄進(jìn)行分析,以改進(jìn)商品的銷(xiāo)量。經(jīng)過(guò)數(shù)據(jù)分析,他們發(fā)現(xiàn)很多銷(xiāo)售小票上都同時(shí)出現(xiàn)了“啤酒”和“紙尿褲”這兩樣商品。而直觀上看,“啤酒”和“紙尿褲”是兩種完全不同的商品,其屬性、受眾和使用場(chǎng)景都非常不一樣,其共現(xiàn)似乎與一般的消費(fèi)行為是相悖的。那么,它們?yōu)槭裁磿?huì)頻繁地出現(xiàn)在同一次購(gòu)買(mǎi)記錄里呢?分析人員推論認(rèn)為,對(duì)于有嬰幼兒的家庭,如果由父親去超市進(jìn)行日用品采購(gòu),則紙尿褲通常是列在采購(gòu)清單的;同時(shí),父親們也順便給自己購(gòu)買(mǎi)了啤酒,因此導(dǎo)致這兩種看起來(lái)不相關(guān)的商品能頻繁出現(xiàn)在同一次購(gòu)買(mǎi)中。針對(duì)這樣的發(fā)現(xiàn),超市排貨架的人員可以進(jìn)行貨品擺放的調(diào)整,把啤酒和紙尿褲放到靠近的位置,來(lái)提高兩種商品的銷(xiāo)售額度。“啤酒和紙尿褲”的故事是典型的關(guān)聯(lián)規(guī)則應(yīng)用的例子。通過(guò)計(jì)算,對(duì)于存在較高關(guān)聯(lián)性的若干類(lèi)產(chǎn)品、項(xiàng)目或內(nèi)容,可以給相關(guān)用戶(hù)或者受眾進(jìn)行推薦,以達(dá)到更好的推薦效果。其中,“共同出現(xiàn)”就是一種關(guān)聯(lián)規(guī)則。第2節(jié)關(guān)聯(lián)規(guī)則推薦算法一、關(guān)聯(lián)規(guī)則推薦算法的起源、應(yīng)用和發(fā)關(guān)聯(lián)規(guī)則推薦算法的應(yīng)用:關(guān)聯(lián)規(guī)則推薦(關(guān)聯(lián)規(guī)則發(fā)現(xiàn))也稱(chēng)“購(gòu)物籃分析”。購(gòu)物籃分析的名字沿用了“啤酒和紙尿褲”的案例,目的是想了解用戶(hù)究竟會(huì)把哪些商品放入自己的購(gòu)物籃,也就是哪些商品之間更具有相關(guān)性。從廣義上講,“購(gòu)物籃分析”的目的就是研究事物之間的關(guān)聯(lián)性和依存性。關(guān)聯(lián)規(guī)則分析在金融、搜索引擎算法優(yōu)化以及智能推薦等多個(gè)領(lǐng)域均有廣泛的應(yīng)用。在金融行業(yè)可以考慮理財(cái)產(chǎn)品與銀行零售客戶(hù)的交叉銷(xiāo)售分析。研究向銀行的哪些零售客戶(hù)推薦哪些理財(cái)產(chǎn)品能達(dá)到產(chǎn)品推薦的最優(yōu)化,這就需要進(jìn)行銀行零售產(chǎn)品與理財(cái)產(chǎn)品的關(guān)聯(lián)分析。在搜索引擎算法優(yōu)化領(lǐng)域,用戶(hù)在搜索框輸入部分搜索關(guān)鍵詞時(shí),搜索引擎即可推薦可能的完整搜索關(guān)鍵詞,這樣的過(guò)程稱(chēng)為“搜索詞推薦”。它正是利用了關(guān)聯(lián)規(guī)則,在系統(tǒng)中檢索與用戶(hù)已經(jīng)輸入的關(guān)鍵詞存在關(guān)聯(lián)性的詞語(yǔ)進(jìn)行搜索關(guān)鍵詞補(bǔ)齊。例如,在搜索引擎中輸入“算法”時(shí),因?yàn)椤肮こ處煛薄皩?dǎo)論”等詞與“算法”關(guān)聯(lián)性高,搜索引擎會(huì)嘗試將輸入的搜索關(guān)鍵詞補(bǔ)齊為“算法工程師”“算法導(dǎo)論”“算法推薦”等。在算法推薦系統(tǒng)的領(lǐng)域,例如,基于用戶(hù)興趣的實(shí)時(shí)新聞推薦系統(tǒng)就可以應(yīng)用關(guān)聯(lián)規(guī)則的技術(shù)對(duì)用戶(hù)實(shí)時(shí)推薦其可能感興趣的新聞。即哪些新聞與用戶(hù)已讀新聞的關(guān)聯(lián)性更高,就將其推送給用戶(hù)。因此關(guān)聯(lián)規(guī)則推薦的應(yīng)用場(chǎng)景為,算法試圖發(fā)現(xiàn)不同的商品或者內(nèi)容之間的關(guān)聯(lián)關(guān)系,并且根據(jù)用戶(hù)的喜好,利用這些關(guān)系來(lái)對(duì)這些內(nèi)容和產(chǎn)品進(jìn)行打包推薦。關(guān)聯(lián)規(guī)則推薦算法的應(yīng)用:關(guān)聯(lián)規(guī)則分析在金融、搜索引擎算法優(yōu)化關(guān)聯(lián)規(guī)則推薦算法的發(fā)展:1993年計(jì)算機(jī)科學(xué)家拉凱什·阿格拉瓦(RakeshAgrawal)等人首先提出了關(guān)聯(lián)規(guī)則的概念并給出了一個(gè)相應(yīng)的關(guān)聯(lián)規(guī)則挖掘算法。由于該算法的性能并不太好,在1994年阿格拉瓦等人提出了著名的Apriori算法,該算法是一個(gè)經(jīng)典的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法。隨后在學(xué)界也有很多研究人員投入對(duì)關(guān)聯(lián)規(guī)則推薦算法的研究中,提出Apriori算法的改進(jìn)版本以及其他新的關(guān)聯(lián)規(guī)則挖掘算法。著名的華人計(jì)算機(jī)科學(xué)家韓家煒教授也在數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)則推薦等相關(guān)領(lǐng)域做出了杰出貢獻(xiàn)。提要:關(guān)聯(lián)規(guī)則推薦算法起源于業(yè)界對(duì)于商品銷(xiāo)售相關(guān)性的分析研究,其基本原理是,有一定關(guān)聯(lián)性(相關(guān)性)的商品更容易被消費(fèi)者同時(shí)購(gòu)買(mǎi)。當(dāng)前,關(guān)聯(lián)規(guī)則分析在算法推薦、搜索引擎乃至金融行業(yè)等多個(gè)領(lǐng)域都有廣泛應(yīng)用。關(guān)聯(lián)規(guī)則推薦算法的發(fā)展:1993年計(jì)算機(jī)科學(xué)家拉凱什·阿格拉支持度(Support):在一定時(shí)間段內(nèi),A和B兩條內(nèi)容在用戶(hù)使用系統(tǒng)閱讀內(nèi)容時(shí)同時(shí)出現(xiàn)的概率,即A與B同時(shí)被閱讀的概率。以A表示內(nèi)容A的閱讀數(shù),B表示內(nèi)容B的閱讀數(shù),計(jì)算支持度的公式為:由于用戶(hù)的閱讀行為是線(xiàn)性的,即每個(gè)用戶(hù)在同一時(shí)間點(diǎn)只能閱讀一篇文章,因此將總閱讀數(shù)N理解為一段時(shí)間內(nèi)所有用戶(hù)使用算法推薦系統(tǒng)次數(shù)的總和。支持度計(jì)算公式中,A∩B表示內(nèi)容A和B在用戶(hù)使用一次算法推薦系統(tǒng)的過(guò)程中被閱讀,(A∩B)表示N次總閱讀數(shù)中,A和B同時(shí)被閱讀的次數(shù)。支持度的概念表示兩種內(nèi)容有多大的可能性被同時(shí)閱讀,與集合論中“交集”的概念有相似之處。計(jì)算A、B兩個(gè)內(nèi)容同時(shí)被閱讀的情況在總體的閱讀量中占多少,就相當(dāng)于計(jì)算集合A(內(nèi)容A的閱讀次數(shù))與集合B(內(nèi)容B的閱讀次數(shù))交集部分占總共閱讀量的比例。二、關(guān)聯(lián)規(guī)則推薦算法的概念和原理支持度(Support):二、關(guān)聯(lián)規(guī)則推薦算法的概念和原理置信度(confidence):用戶(hù)讀完內(nèi)容A之后再讀內(nèi)容B的條件概率會(huì)有多大。計(jì)算置信度的公式為:其中,F(xiàn)req(A∩B)的含義與支持度公式中的相同,表示內(nèi)容A和B同時(shí)被閱讀的次數(shù),F(xiàn)req(A)則表示內(nèi)容A被閱讀的次數(shù)。從集合的角度理解,圓形A表示閱讀內(nèi)容A的用戶(hù)集合(以及次數(shù)),圓形B表示閱讀內(nèi)容B的用戶(hù)集合(以及次數(shù)),則置信度考慮的是圖中交集部分C在集合A里的占比有多大,即用戶(hù)先讀A再讀B的概率有多大。因此,計(jì)算置信度公式的分母就不再是整體的閱讀量而是內(nèi)容A的閱讀量。如果A和B之間的置信度較大,則表示讀過(guò)A內(nèi)容的用戶(hù)會(huì)有較大可能去讀B內(nèi)容,這就是置信度的含義。置信度(confidence):提升度(Lift):用戶(hù)先閱讀內(nèi)容A對(duì)用戶(hù)閱讀內(nèi)容B的概率的提升作用。計(jì)算公式如下:對(duì)公式進(jìn)行變形,得到Lift=Support(A∩B)/Support(A)/Support(B),改寫(xiě)后公式的含義為A和B交集的支持度先除以A的支持度再除以B的支持度。Support(A∩B)/Support(A)的含義是讀了內(nèi)容A之后用戶(hù)有多大可能讀內(nèi)容B(即A對(duì)B的影響),于是A對(duì)B的影響占內(nèi)容B的所有閱讀量的比例,即為A對(duì)B的提升。提升度用于判斷規(guī)則是否真的有實(shí)際價(jià)值。即使用規(guī)則后(給閱讀A的用戶(hù)推薦B),被推薦內(nèi)容(B)在其實(shí)際閱讀中的次數(shù)是否高于內(nèi)容(B)單獨(dú)被閱讀的次數(shù)。通俗地講,就是讀了A的用戶(hù)去接受推薦閱讀B,占據(jù)全部閱讀內(nèi)容B用戶(hù)的比例。相當(dāng)于在系統(tǒng)中,先給用戶(hù)推薦內(nèi)容A,再為其推薦內(nèi)容B,是否會(huì)對(duì)閱讀B的總體用戶(hù)數(shù)有提升。如果使用規(guī)則導(dǎo)致B的閱讀次數(shù)增多,則A與B的關(guān)聯(lián)規(guī)則對(duì)推薦效果有提升作用。一般來(lái)說(shuō)大于1表明關(guān)聯(lián)規(guī)則有效,小于1則說(shuō)明關(guān)聯(lián)規(guī)則的效果不好,這就是提升度這個(gè)指標(biāo)的含義。因此,對(duì)于關(guān)聯(lián)規(guī)則推薦算法,可以使用支持度、置信度和提升度來(lái)衡量關(guān)聯(lián)規(guī)則的效果。提升度(Lift):對(duì)公式進(jìn)行變形,得到Lift=Suppo三、關(guān)聯(lián)規(guī)則挖掘:Apriori算法使用算法求得關(guān)聯(lián)規(guī)則之后,可以用支持度、置信度和提升度來(lái)量化地衡量這些規(guī)則。那么如何挖掘出這些規(guī)則呢?下面介紹一個(gè)“兩階段”式關(guān)聯(lián)規(guī)則挖掘算法。第一階段:從原始資料集中找出所有的高頻項(xiàng)目集合。所以第一步我們要從我們所有已知的資料集合中找出所有的高頻項(xiàng)目。仍然使用支持度來(lái)衡量一個(gè)由若干項(xiàng)目組成的集合出現(xiàn)的頻率,以一個(gè)包含A、B兩個(gè)項(xiàng)目的集合S為例,若S的支持度大于等于所設(shè)定的最小支持度門(mén)檻值,則S就是高頻項(xiàng)目集。算法逐個(gè)查找并產(chǎn)生包含1、2、3乃至更多個(gè)項(xiàng)目的高頻項(xiàng)目集合,直到無(wú)法再找到更長(zhǎng)的高頻項(xiàng)目集合為止。第二階段:產(chǎn)生關(guān)聯(lián)規(guī)則。例如,高頻項(xiàng)目集合{A,B}產(chǎn)生規(guī)則AB,如果項(xiàng)目A、B之間的置信度大于系統(tǒng)要求的最小置信度,則稱(chēng)AB為關(guān)聯(lián)規(guī)則。所以?xún)呻A段算法的過(guò)程是,第一步尋找經(jīng)常一起出現(xiàn)的項(xiàng)目,第二步驗(yàn)證項(xiàng)目之間的置信度并確認(rèn)關(guān)聯(lián)規(guī)則。三、關(guān)聯(lián)規(guī)則挖掘:Apriori算法使用算法求得關(guān)聯(lián)規(guī)則之后Apriori算法:基于兩階段算法的思路,阿格拉瓦等人提出了Apriori算法,它是目前最有影響力的關(guān)聯(lián)規(guī)則挖掘算法。第一步算法產(chǎn)生頻繁的項(xiàng)集,第二步會(huì)產(chǎn)生只包含頻繁項(xiàng)的關(guān)聯(lián)規(guī)則,因此重點(diǎn)是頻繁項(xiàng)集和規(guī)則。對(duì)于用戶(hù)某一次打開(kāi)算法推薦系統(tǒng)應(yīng)用的行為,系統(tǒng)記錄如表5-1所示的用戶(hù)閱讀數(shù)據(jù)。例如,用戶(hù)閱讀行為001中,相應(yīng)用戶(hù)在本次使用系統(tǒng)時(shí)閱讀了編號(hào)為1、3、4的這三篇文章;用戶(hù)閱讀行為002中,相應(yīng)用戶(hù)閱讀了編號(hào)為、3、5的這三篇文章。假設(shè)最小支持度定為2。首先檢查長(zhǎng)度為1的頻繁項(xiàng)目集合(即包含一個(gè)元素的頻繁項(xiàng)目集合)。把表5-1改造為表5-2所示的長(zhǎng)度為1的閱讀項(xiàng)目集合。Apriori算法:基于兩階段算法的思路,阿格拉瓦等人提出了集合{1},{2},{3},{5}出現(xiàn)的次數(shù)都大于等于最小支持度2。也就是說(shuō)在表5-1的數(shù)據(jù)集上,這些文章被閱讀的次數(shù)不少于兩次。而集合{4}僅在編號(hào)為001的用戶(hù)閱讀中出現(xiàn)一次,因此將其排除出頻繁項(xiàng)目,今后長(zhǎng)度大于1的集合也不可能包含文章4了。于是生成了長(zhǎng)度為1的頻繁項(xiàng)目集合,也就是,只考察一個(gè)項(xiàng)目時(shí),哪些長(zhǎng)度為1的集合能滿(mǎn)足最小支持度的要求,參見(jiàn)表5-3。對(duì)于集合{{1},{2},{3},{5}},在其基礎(chǔ)上可以進(jìn)一步組合出來(lái)長(zhǎng)度為2即包含兩個(gè)項(xiàng)目的頻繁項(xiàng)目集合。使用組合的方式得出如表5-4所示的可能的長(zhǎng)度為2的候選頻繁項(xiàng)目集合。集合{1},{2},{3},{5}出現(xiàn)的次數(shù)都大于等于最小對(duì)于項(xiàng)目集合{1,2}和{1,5},文章1和2只在003這次閱讀里面共同出現(xiàn)過(guò),文章1和5也只在003這次閱讀里面出現(xiàn)過(guò),兩組的支持度都小于2,因此不可能作為頻繁項(xiàng)目集合,舍棄之。后續(xù)擴(kuò)展出的長(zhǎng)度為3、4、5乃至更多的頻繁項(xiàng)目集合也不可能包含文章1和2或者文章1和5同時(shí)出現(xiàn)的情況。及時(shí)舍棄不滿(mǎn)足要求的候選頻繁項(xiàng)目集合對(duì)于提升算法效率是一個(gè)有效的方法。由表5-4長(zhǎng)度為2的候選頻繁項(xiàng)目集合,得出包括兩個(gè)項(xiàng)目的頻繁項(xiàng)目集合,如表5-5所示。最小支持度為2的前提下,它們是頻繁的。對(duì)于項(xiàng)目集合{1,2}和{1,5},文章1和2只在003接下來(lái)嘗試生成長(zhǎng)度為3的頻繁項(xiàng)集了。把表5-5左列四組數(shù)據(jù)進(jìn)行組合,組合出不重復(fù)的包含三個(gè)元素的集合。例如{1,2,3}、{1,3,5},由于{1,2}和{1,5}的支持度小于2,在它們的基礎(chǔ)上再擴(kuò)展不可能擴(kuò)展出頻繁項(xiàng)目集合,因此舍棄之。只有{2,3,5}這三項(xiàng)滿(mǎn)足同時(shí)被閱讀的關(guān)聯(lián)支持度不小于2,即閱讀行為002和003。因此{2,3,5}是一個(gè)頻繁項(xiàng)集。再往后擴(kuò)展,表5-1示例數(shù)據(jù)中,不存在長(zhǎng)度為4的頻繁項(xiàng)集。只有003這次閱讀涉及4篇文章,編號(hào)為1、2、3、5,但是{1,2,3,5}這個(gè)集合的支持度僅為1,所以包含4個(gè)條目的頻繁項(xiàng)集是不存在的。因此文章2、3、5是頻繁共現(xiàn)的,基于這一規(guī)則,系統(tǒng)就可以進(jìn)行關(guān)聯(lián)推薦。譬如可以給讀了文章2和3的用戶(hù)推薦文章5,或者給讀了文章2和5的用戶(hù)推薦文章3,等等。在歷史數(shù)據(jù)的基礎(chǔ)上,Apriori算法按照指定的最小支持度,逐步擴(kuò)展出長(zhǎng)度為1、2、3乃至更多的頻繁項(xiàng)集,直至無(wú)法擴(kuò)展。也就是,首先考察哪些文章會(huì)被頻繁地閱讀,然后考察哪兩篇文章在一起會(huì)被頻繁地閱讀,再考察哪三篇文章在一起會(huì)被頻繁地閱讀,依此類(lèi)推,逐漸挖掘出同時(shí)頻繁出現(xiàn)的數(shù)篇文章。在此基礎(chǔ)上,得出關(guān)聯(lián)規(guī)則。接下來(lái)嘗試生成長(zhǎng)度為3的頻繁項(xiàng)集了。把表5-5左列四組數(shù)據(jù)進(jìn)關(guān)聯(lián)規(guī)則在推薦系統(tǒng)的應(yīng)用:關(guān)聯(lián)規(guī)則挖掘的應(yīng)用過(guò)程是這樣的:首先需要積累用戶(hù)的行為數(shù)據(jù),否則一切無(wú)從談起。在用戶(hù)行為數(shù)據(jù)的基礎(chǔ)上,進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。使用的算法包括Apriori或者其他改進(jìn)的算法。使用提升度來(lái)衡量挖掘出的關(guān)聯(lián)規(guī)則是否有用。形成有效規(guī)則之后,即可將其應(yīng)用到推薦過(guò)程中。根據(jù)不同用戶(hù)的標(biāo)簽,推薦與他們的標(biāo)簽存在關(guān)聯(lián)關(guān)系的內(nèi)容。由于不同用戶(hù)的標(biāo)簽是不一樣的,因此其被關(guān)聯(lián)規(guī)則推薦的內(nèi)容也是不一樣的,這就實(shí)現(xiàn)了個(gè)性化推薦。關(guān)聯(lián)規(guī)則在推薦系統(tǒng)的應(yīng)用:關(guān)聯(lián)規(guī)則挖掘的應(yīng)用過(guò)程是這樣的:關(guān)聯(lián)規(guī)則推薦算法再討論:首先,關(guān)聯(lián)規(guī)則推薦算法是從大量數(shù)據(jù)上進(jìn)行相關(guān)挖掘,因此其計(jì)算量較大。但是可以使用離線(xiàn)計(jì)算的方式挖掘關(guān)聯(lián)規(guī)則,因此計(jì)算量大的問(wèn)題不會(huì)對(duì)算法的應(yīng)用造成太大影響。其次,關(guān)聯(lián)規(guī)則推薦算法需要采集用戶(hù)數(shù)據(jù),所以不可避免地就會(huì)存在冷啟動(dòng)和用戶(hù)數(shù)據(jù)稀疏性的問(wèn)題。對(duì)于新用戶(hù)或者行為數(shù)據(jù)較少的用戶(hù),如果想對(duì)此類(lèi)用戶(hù)進(jìn)行關(guān)聯(lián)推薦,就會(huì)存在數(shù)據(jù)量不足的問(wèn)題。另外,系統(tǒng)中的熱門(mén)項(xiàng)目,容易存在被過(guò)度推薦的問(wèn)題,這是因?yàn)殛P(guān)聯(lián)規(guī)則的挖掘是基于項(xiàng)目的頻繁程度生成的。熱門(mén)項(xiàng)目往往會(huì)出現(xiàn)在頻繁項(xiàng)目集合中,如果進(jìn)行調(diào)配的話(huà),就會(huì)存在熱門(mén)項(xiàng)目被過(guò)度推薦的“強(qiáng)者愈強(qiáng)”的現(xiàn)象。在真實(shí)系統(tǒng)中,通過(guò)對(duì)熱門(mén)項(xiàng)目降低權(quán)重,可以一定程度上緩解關(guān)聯(lián)規(guī)則推薦中熱門(mén)項(xiàng)目被過(guò)度推薦的問(wèn)題。關(guān)聯(lián)規(guī)則推薦算法再討論:第3節(jié)推薦算法的評(píng)估對(duì)于推薦算法來(lái)說(shuō),存在一些對(duì)其進(jìn)行評(píng)估的方法,包括在線(xiàn)評(píng)估和離線(xiàn)評(píng)估兩種。一、推薦算法的在線(xiàn)評(píng)估:AB測(cè)試在線(xiàn)評(píng)估:在推薦算法系統(tǒng)運(yùn)行(“在線(xiàn)”)時(shí)對(duì)系統(tǒng)進(jìn)行質(zhì)量的評(píng)測(cè)。AB測(cè)試的方法和目的:AB測(cè)試是一種真實(shí)的線(xiàn)上測(cè)試。在同一時(shí)間段內(nèi)在系統(tǒng)中運(yùn)行多種被測(cè)試方案,這些方案之間只有一個(gè)變量不同,因此可以對(duì)比這一個(gè)變量對(duì)于系統(tǒng)的作用。在AB測(cè)試中,需要提前設(shè)定明確的評(píng)價(jià)指標(biāo)體系。AB測(cè)試將真實(shí)的線(xiàn)上用戶(hù)進(jìn)行隨機(jī)分組,對(duì)不同分組提供不同的被測(cè)試方案。在一次實(shí)驗(yàn)之中,特定用戶(hù)只能接觸一個(gè)方案。AB測(cè)試的目的是通過(guò)科學(xué)的實(shí)驗(yàn)設(shè)計(jì),把用戶(hù)分成不同的樣本,通過(guò)導(dǎo)流把用戶(hù)導(dǎo)向不同的流量中去,通過(guò)每一個(gè)小流量的測(cè)試來(lái)獲得具有代表性的實(shí)驗(yàn)結(jié)果,然后再試圖把實(shí)驗(yàn)結(jié)果推廣到全網(wǎng)運(yùn)行。第3節(jié)推薦算法的評(píng)估對(duì)于推薦算法來(lái)說(shuō),存在一些對(duì)其進(jìn)行評(píng)估AB測(cè)試應(yīng)用場(chǎng)景:1.優(yōu)化用戶(hù)體驗(yàn)計(jì)算機(jī)系統(tǒng)與用戶(hù)交互的中介稱(chēng)為“用戶(hù)接口”或“用戶(hù)界面”,目前多以圖形用戶(hù)界面為主。對(duì)于用戶(hù)來(lái)說(shuō),對(duì)系統(tǒng)功能最直觀的體驗(yàn)就是用戶(hù)界面是否好用。為了優(yōu)化用戶(hù)體驗(yàn),可以根據(jù)既往的用戶(hù)體驗(yàn)數(shù)據(jù)構(gòu)建界面優(yōu)化的假設(shè),并使用AB測(cè)試進(jìn)行驗(yàn)證,了解界面元素如何影響用戶(hù)行為。2.優(yōu)化轉(zhuǎn)化率在電子商務(wù)領(lǐng)域有一個(gè)重要的概念“轉(zhuǎn)化率”,通俗地理解就是用戶(hù)的真實(shí)購(gòu)買(mǎi)行為在用戶(hù)點(diǎn)擊網(wǎng)上某款商品行為數(shù)的占比情況。對(duì)于電子商務(wù)網(wǎng)站的商家,轉(zhuǎn)化率的優(yōu)化是一個(gè)重要目標(biāo)。商家可以通過(guò)改進(jìn)用戶(hù)的體驗(yàn)來(lái)提高某個(gè)目標(biāo)的轉(zhuǎn)化率,例如通過(guò)AB測(cè)試來(lái)嘗試和驗(yàn)證調(diào)整標(biāo)題、圖片等等頁(yè)面元素是否可以?xún)?yōu)化轉(zhuǎn)化率。3.優(yōu)化在線(xiàn)廣告對(duì)于在線(xiàn)廣告,可以設(shè)計(jì)不同的版本投放給多組用戶(hù),統(tǒng)計(jì)哪個(gè)版本的廣告更能吸引用戶(hù)點(diǎn)擊,什么樣的設(shè)計(jì)能夠把訪客轉(zhuǎn)化為客戶(hù),達(dá)到在線(xiàn)廣告的優(yōu)化。4.優(yōu)化算法以智能推薦算法為例,想要衡量不同的算法對(duì)于推薦效果的提升作用,也可以使用AB測(cè)試。AB測(cè)試應(yīng)用場(chǎng)景:1.優(yōu)化用戶(hù)體驗(yàn)AB測(cè)試的測(cè)評(píng)指標(biāo):1.點(diǎn)擊率點(diǎn)擊率是指在系統(tǒng)推薦給某個(gè)用戶(hù)的內(nèi)容中被點(diǎn)擊內(nèi)容的占比。假設(shè)系統(tǒng)一共向某個(gè)用戶(hù)推薦了n條內(nèi)容,但是用戶(hù)未必全部點(diǎn)擊和查看,令用戶(hù)點(diǎn)擊的內(nèi)容數(shù)為m,則在這次測(cè)試的過(guò)程中,這個(gè)用戶(hù)的點(diǎn)擊率為點(diǎn)擊率越高,就有越多的系統(tǒng)推薦內(nèi)容被用戶(hù)點(diǎn)擊和閱讀,算法推薦系統(tǒng)的效果就越好。2.轉(zhuǎn)化率對(duì)于商品來(lái)說(shuō),轉(zhuǎn)換率是指系統(tǒng)推薦商品的銷(xiāo)售額與總銷(xiāo)售額的比率。這個(gè)指標(biāo)衡量系統(tǒng)的推薦行為有沒(méi)有提升總的銷(xiāo)售額。對(duì)于內(nèi)容來(lái)說(shuō),轉(zhuǎn)換率就是系統(tǒng)推薦內(nèi)容的點(diǎn)擊量或閱讀時(shí)長(zhǎng)與總體的點(diǎn)擊量或者是閱讀時(shí)長(zhǎng)的比例。如果系統(tǒng)的推薦能夠提高點(diǎn)擊量和閱讀時(shí)長(zhǎng),則在總體的點(diǎn)擊量和閱讀時(shí)長(zhǎng)上,被推薦內(nèi)容的占比就會(huì)更高,轉(zhuǎn)換率也就更高。則AB測(cè)試中對(duì)應(yīng)的一個(gè)版本對(duì)推薦性能的提高效果更好。也就是說(shuō),轉(zhuǎn)換率越高,推薦效果越好。提要:AB測(cè)試對(duì)多組用戶(hù)提供多個(gè)版本的系統(tǒng)進(jìn)行對(duì)比,同一個(gè)用戶(hù)只能看到一個(gè)版本,通過(guò)被試用戶(hù)的行為數(shù)據(jù)統(tǒng)計(jì)不同版本的優(yōu)劣,選擇點(diǎn)擊率、轉(zhuǎn)換率等指標(biāo)更高的版本作為優(yōu)化版本大規(guī)模推廣。AB測(cè)試的測(cè)評(píng)指標(biāo):1.點(diǎn)擊率提要:二、推薦算法的離線(xiàn)評(píng)估離線(xiàn)評(píng)估:準(zhǔn)確度指標(biāo)準(zhǔn)確率衡量查得準(zhǔn)不準(zhǔn),即算法推薦的內(nèi)容是不

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論