算法向善與個(gè)性化推薦發(fā)展研究報(bào)告_第1頁
算法向善與個(gè)性化推薦發(fā)展研究報(bào)告_第2頁
算法向善與個(gè)性化推薦發(fā)展研究報(bào)告_第3頁
算法向善與個(gè)性化推薦發(fā)展研究報(bào)告_第4頁
算法向善與個(gè)性化推薦發(fā)展研究報(bào)告_第5頁
已閱讀5頁,還剩83頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2第一章推薦系統(tǒng)1.1.什么是推薦系統(tǒng)1.2.推薦系統(tǒng)在人類生活中的體現(xiàn)方式1.2.1.資訊推薦1.2.2.視頻、音樂推薦1.2.3.電商平臺(tái)推薦1.2.4.電子政務(wù)推薦第二章推薦系統(tǒng)的研究背景及國內(nèi)外研究現(xiàn)狀2.1.推薦系統(tǒng)的發(fā)展歷史2.2.推薦系統(tǒng)的價(jià)值2.2.1.整合市場(chǎng)需求2.2.2.技術(shù)發(fā)展規(guī)律2.2.3.產(chǎn)業(yè)發(fā)展需求2.3.推薦系統(tǒng)的研究現(xiàn)狀2.3.1.學(xué)術(shù)界2.3.2.產(chǎn)業(yè)界第三章推薦領(lǐng)域面臨的問題3.1.信息繭房3.2.算法黑盒3.3.價(jià)值觀及倫理問題3.3.1.虛假新聞與低俗內(nèi)容泛濫3.3.2.算法偏見和歧視3.3.3.算法公平性3.4.用戶隱私與安全問題第四章推薦領(lǐng)域研究趨勢(shì)4.1.信息繭房4.2.算法黑盒4.3.價(jià)值觀及倫理問題4.4.用戶隱私與安全問題第五章推薦算法面臨問題總結(jié)與思考3第一章推薦系統(tǒng)推薦系統(tǒng)作為一個(gè)專業(yè)術(shù)語,對(duì)于人們來說可能比較陌生,但實(shí)際上,我們已經(jīng)逐漸習(xí)慣了它的存在。無論你是用抖音刷著小視頻,或是在今日頭條APP中瀏覽著資訊信息,還是打開淘寶找尋想要購買的商品,你無時(shí)無刻都在和推薦系統(tǒng)進(jìn)行交互。設(shè)想一下,當(dāng)你打開今日頭條APP想要看一會(huì)兒最新資訊時(shí),主頁面會(huì)給你自動(dòng)推薦你感興趣的領(lǐng)域的信息,在你選擇其中一則新聞并看完之后,你發(fā)現(xiàn)在該資訊的頁面下方出現(xiàn)了許多可能與你所看資訊有關(guān)的信息,在這個(gè)場(chǎng)景中決定給您推薦哪些信息的決策過程就是推薦系統(tǒng)。圖1現(xiàn)實(shí)生活中常見的推薦系統(tǒng)。隨著信息技術(shù)的發(fā)展和電子設(shè)備的廣泛使用,我們現(xiàn)在已經(jīng)進(jìn)入了數(shù)據(jù)大爆炸的時(shí)代。據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心發(fā)布的《數(shù)據(jù)時(shí)代2025》報(bào)告顯示,全球每年產(chǎn)生的數(shù)據(jù)將從2018年的33ZB(十萬億億字節(jié))增長(zhǎng)到175ZB,相當(dāng)于每天產(chǎn)生491EB(百億億字節(jié))的數(shù)據(jù)。雖然相比于過去信息匱乏的時(shí)代,如今信息量的增加值得欣喜,但是一旦信息量過大,我們就需要合適的方法來獲取需要或者感興趣的信息,否則雜亂無章的數(shù)據(jù)對(duì)于我們來說是無益的。除此之外,信息量過大也會(huì)導(dǎo)致數(shù)據(jù)信息的質(zhì)量無法得到保證,海量數(shù)據(jù)通常會(huì)摻雜許多沒有意義甚至虛假的信息,形成噪聲,對(duì)信息的使用和挖掘產(chǎn)生負(fù)面影響。面對(duì)包含噪聲的海量數(shù)據(jù),對(duì)于用戶來說,用戶無法或者很難在其中找到滿足自己真正需要的內(nèi)容或者對(duì)自己真正有益的信息;對(duì)于企業(yè)來說,企業(yè)無法有效管理和分析這些數(shù)據(jù),也無法通過簡(jiǎn)單的技術(shù)手段挖掘其中的有效信息來為用戶提供他們可能感興趣的內(nèi)容。面對(duì)這種窘境,推薦系統(tǒng)應(yīng)運(yùn)而生,旨在從海量數(shù)據(jù)中尋找滿足用戶意圖或者興趣偏好的內(nèi)容,從而減少用戶瀏覽大量無效數(shù)據(jù)而造成的時(shí)間和精力上的浪費(fèi)。本質(zhì)上,推薦系統(tǒng)是一個(gè)信息過濾系統(tǒng),是用戶歷史數(shù)據(jù)、推薦模型和用戶交互行為循環(huán)交互的過程。具體而言,其工作原理及其流程4圖2推薦系統(tǒng)工作原理及其流程數(shù)據(jù),通過清洗和篩選產(chǎn)生有效的用戶日志數(shù)據(jù);(2)推薦算法從用戶日志數(shù)據(jù)中挖掘用根據(jù)預(yù)測(cè)的用戶對(duì)候選商品、服務(wù)或者內(nèi)容的喜愛程度對(duì)其排序,將排名較高的商品、服務(wù)或者內(nèi)容推薦給用戶。用戶對(duì)推薦的服務(wù)或者內(nèi)容進(jìn)行瀏覽、點(diǎn)擊或者購買等行為,形成新的用戶交互記錄,用于更新用戶興趣偏好。圖3推薦系統(tǒng)分類縱觀推薦系統(tǒng)的發(fā)展歷史,可以將推薦系統(tǒng)分為非個(gè)性化推薦系統(tǒng)和個(gè)性化推薦系統(tǒng)。顧名思義,非個(gè)性化推薦就是不考慮每個(gè)用戶的特性和其歷史行為,忽略對(duì)用戶興趣偏好的個(gè)性化建模,使得推薦結(jié)果形式化的展示為‘千人一面’。該類推薦系統(tǒng)直接根據(jù)點(diǎn)擊量、銷量、熱度、流行度等屬性特征將物品、服務(wù)或者內(nèi)容排序給用戶做推薦。這樣的推薦模式5使得即使是有不同興趣偏好的用戶也會(huì)擁有幾乎相同的推薦結(jié)果;而個(gè)性化推薦系統(tǒng)就是為每一個(gè)特定用戶提供特定的服務(wù),實(shí)現(xiàn)‘千人千面’。個(gè)性化推薦系統(tǒng)的核心功能是根據(jù)用戶的歷史行為、社交關(guān)系、興趣點(diǎn)、所處上下文環(huán)境等信息來識(shí)別用戶的興趣偏好,借此預(yù)測(cè)用戶是否對(duì)某種物品、服務(wù)或者內(nèi)容感興趣,并根據(jù)可能感興趣的程度高低來給用戶進(jìn)行推薦??偟膩碚f,個(gè)性化的推薦算法是現(xiàn)今推薦產(chǎn)品的主流技術(shù),也是推動(dòng)推薦系統(tǒng)不斷優(yōu)化的核心。同時(shí),個(gè)性化程度的高低是決定推薦系統(tǒng)性能好壞的關(guān)鍵,也是決定用戶留存和產(chǎn)品是否能長(zhǎng)遠(yuǎn)發(fā)展的關(guān)鍵因素。進(jìn)入人工智能時(shí)代,推薦系統(tǒng)以各種各樣的方式影響著我們的生活。日常生活中經(jīng)常使App例如,今日頭條、騰訊新聞等會(huì)給你推送你感興趣的資訊;京東、淘寶、亞馬遜、拼多多等會(huì)給你推薦“可能喜歡”的物品;、西瓜等短視頻App會(huì)給你推送感興趣的短視頻;餓了么、美團(tuán)、大眾點(diǎn)評(píng)、小紅書等會(huì)給你推薦可能喜歡的食物或者飯店;攜程、去哪兒等都會(huì)給你推薦機(jī)票、酒店等等。基于推薦系統(tǒng)潛在的應(yīng)用價(jià)值,本小節(jié)簡(jiǎn)單介紹幾種常見的推薦系統(tǒng)應(yīng)用場(chǎng)景。1.2.1.資訊推薦隨著交互式通信技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息的主要渠道。互聯(lián)網(wǎng)在每一秒都會(huì)有大量新的資訊出現(xiàn),為人們了解和認(rèn)識(shí)世界提供源源不斷的資源。隨著時(shí)代更替,科學(xué)技術(shù)得到了一定的發(fā)展,與傳統(tǒng)報(bào)紙、電視等媒體相比,在互聯(lián)網(wǎng)時(shí)代下產(chǎn)生的網(wǎng)絡(luò)信息平臺(tái)在一定程度上緩解了海量資訊生產(chǎn)和分發(fā)的瓶頸問題,但是對(duì)于新聞等資訊的價(jià)值界定并未作出明顯區(qū)分。造成這種局面的可能原因之一就是缺乏規(guī)定的程序來及時(shí)提供各種各樣的資訊,以及系統(tǒng)無法以更好的方式模擬用戶興趣偏好。因此,網(wǎng)絡(luò)應(yīng)用逐漸運(yùn)用推薦系統(tǒng)技術(shù),根據(jù)讀者和社會(huì)的需求及時(shí)更新資訊,進(jìn)一步對(duì)用戶偏好建模,為其呈現(xiàn)個(gè)性化推薦結(jié)果。在資訊推薦場(chǎng)景中,推薦系統(tǒng)需要關(guān)注的點(diǎn)是如何理解文章的內(nèi)容和用戶的偏好,并基于此為用戶提供滿足其興趣的推薦資訊列表。與傳統(tǒng)媒體相比,基于個(gè)性化的資訊推薦相當(dāng)于為每一個(gè)用戶提供一份自己喜歡看或者感興趣的‘報(bào)紙’。與人們?nèi)粘I钕⑾⑾嚓P(guān)的資訊推薦系統(tǒng),如今日頭條、騰訊新聞、百度首頁新聞推薦模塊等根據(jù)用戶的觀看、瀏覽記錄、用戶的評(píng)論以及用戶的搜索意圖等顯式和隱式的反饋來建模用戶的興趣偏好,為用戶條App時(shí),系統(tǒng)的推薦模塊根據(jù)用戶歷史觀看過的內(nèi)容、用戶關(guān)注的其他用戶和賬號(hào)等向用戶推薦其感興趣的新聞內(nèi)容。比如用戶點(diǎn)擊或搜索過關(guān)于新冠疫苗的內(nèi)容,推薦模塊會(huì)給用戶推薦對(duì)接種新冠疫苗的注意事項(xiàng)以及該不該打疫苗的內(nèi)容;熱榜模塊會(huì)根據(jù)話題的熱度、點(diǎn)擊量、國情要事等向用戶呈現(xiàn)當(dāng)下較為受關(guān)注的資訊,比如對(duì)于國外品牌抵制新疆棉6花以及國內(nèi)相關(guān)部門如何應(yīng)對(duì)此事件的內(nèi)容;充分體現(xiàn)國情的抗疫模塊向用戶及時(shí)推薦國內(nèi)以及全球的疫情新聞和動(dòng)態(tài),比如關(guān)于本土的新增病例數(shù)量及分布的情況,接種新冠疫苗的情況等;今日頭條綜合模塊中的頭條尋人功能綜合人臉識(shí)別和推薦技術(shù)向社區(qū)推薦尋人消息,集大眾力量給走失家人的家庭提供重新團(tuán)聚的可能。該功能充分體現(xiàn)了以用戶價(jià)值服務(wù)大眾,取之于民用之于民的理念。此外,與人類生活密切相關(guān)的資訊類推薦App還有騰訊新聞、北京時(shí)間、鳳凰新聞、資訊、新浪看點(diǎn)等,通過推薦算法為用戶找到相匹配的資訊內(nèi)容,以提供不同領(lǐng)域、不同形式的資訊來豐富用戶的認(rèn)知世界。在個(gè)性化推薦的時(shí)代,為了滿足受眾的個(gè)性化需求,這類以推薦算法為主的資訊平臺(tái)將資訊主體進(jìn)行重構(gòu),使得資訊分發(fā)由原先的以傳播者為核心逐漸向以受眾為核心進(jìn)行轉(zhuǎn)變,逐步提升了受眾在傳播過程的地位。同時(shí),個(gè)性化資訊推薦力求精準(zhǔn)的滿足用戶差異性的興趣需求,為用戶提供其感興趣的新聞,有助于實(shí)現(xiàn)私人訂制。總的來說,個(gè)性化資訊推薦在人們?nèi)粘I钪邪缪葜匾巧?,是人們了解世界、接觸世界的有效途徑。它的出現(xiàn)不僅是科學(xué)技術(shù)的進(jìn)步的體現(xiàn),也是提升人民主體地位的重要手段。圖4資訊類推薦在人類生活中的體現(xiàn)舉例1.2.2.視頻、音樂推薦隨著移動(dòng)設(shè)備的廣泛使用,以視頻、音樂為主的娛樂領(lǐng)域得到了快速發(fā)展。許多相關(guān)平臺(tái)已經(jīng)打破了專業(yè)人士和一般用戶之間的界限,使得在視頻和音樂等資源上的創(chuàng)作增長(zhǎng)尤為YouTube、抖音、西瓜視頻、嗶哩嗶哩。這些視頻網(wǎng)站或者App為人類提供了多姿多彩的智能生活。第一類視頻推薦網(wǎng)站主要以長(zhǎng)視頻為主,根據(jù)用戶觀看視頻的類型、題材、相關(guān)的主體人物(導(dǎo)演、演員等)為用戶推薦其感興趣的長(zhǎng)視頻。比如某用戶觀看了具有戰(zhàn)爭(zhēng)、奮斗、紅色主題的視頻《覺醒年代》,推薦系統(tǒng)推測(cè)用戶可能喜歡具有愛國題材的視頻,可將與《覺醒年代》具有相似屬性的視頻《理想照耀中國》推薦給用戶?,F(xiàn)實(shí)生活中,典型的7圖5視頻、音樂類推薦在人類生活中的體現(xiàn)舉例以長(zhǎng)視頻推薦為主App騰訊視頻的“猜你會(huì)追”模塊、愛奇藝的“猜你喜歡”模塊、優(yōu)酷的“猜你在追”模塊,根據(jù)用戶曾經(jīng)觀看過的視頻屬性向用戶推薦其可能感興趣的視頻(包括但不限于電視劇、電影和綜藝等)。相應(yīng)的,以用戶生產(chǎn)內(nèi)容為主的網(wǎng)站側(cè)重短視頻的推薦,根據(jù)用戶觀看記錄、所處地域以及用戶關(guān)注的短視頻博主和賬號(hào)等信息為用戶推薦其感興趣的短視頻。相比如長(zhǎng)視頻推薦,短視頻可以充分利用用戶的碎片化時(shí)間,為用戶呈現(xiàn)無統(tǒng)會(huì)向用戶實(shí)時(shí)推送其感興趣的短視頻。在“推薦”模塊,推薦系統(tǒng)根據(jù)用戶歷史點(diǎn)擊或觀看的小視頻的點(diǎn)贊量、評(píng)論量、轉(zhuǎn)發(fā)量和完播率判斷用戶偏好,向用戶推薦其可能感興趣的短視頻。在“關(guān)注”模塊,推薦系統(tǒng)根據(jù)用戶關(guān)注的抖音賬號(hào)、用戶標(biāo)簽和內(nèi)容標(biāo)簽,向用戶智能分發(fā)其可能感興趣的內(nèi)容。比如用戶關(guān)注了“中央新聞”抖音賬號(hào),推薦系統(tǒng)捕捉到“同城”模塊,根據(jù)用戶的地理位置,將與用戶地理位置相近的發(fā)生故事、視頻等推薦給用戶。在對(duì)用戶進(jìn)行個(gè)性化智能推薦的同時(shí),為加強(qiáng)對(duì)青少年的保護(hù)以及防止青少年沉迷網(wǎng)絡(luò),抖音積極響應(yīng)國家號(hào)召,紛紛開啟青少年模式,設(shè)置時(shí)間鎖,規(guī)定青少年模式下無法充值,以加大對(duì)未成年人良性上網(wǎng)的引導(dǎo)力度。在音樂推薦場(chǎng)景下,為了防止用戶在多元化產(chǎn)品中無法找到自己感興趣的點(diǎn),許多企業(yè)8已經(jīng)開發(fā)了音樂推薦系統(tǒng)支持用戶自己上傳音源,利用用戶的歷史興趣(曾經(jīng)聽過的音樂的風(fēng)格、發(fā)行者、作詞者等信息)以及其好友的相關(guān)信息為用戶提供個(gè)性化的推薦結(jié)果,以提高用戶的體驗(yàn)感。以QQ音樂為例,在“今日為你打造”模塊,推薦系統(tǒng)根據(jù)用戶歷史點(diǎn)擊或所聽的音樂記錄,向用戶推薦滿足其偏好的個(gè)性化電臺(tái)、每日30首等音樂列表;在“智能分類”模塊,推薦系統(tǒng)根據(jù)用戶的歷史信息以及相互關(guān)注的好友收聽的音樂信息向用戶推提高用戶滿意度。此外,QQ音樂還智能化的設(shè)置用戶的個(gè)性化權(quán)限,非常友好得讓用戶自由切換推薦模式。圖6電商推薦在人類生活中的體現(xiàn)舉例1.2.3.電商平臺(tái)推薦隨著互聯(lián)網(wǎng)的普及,電商產(chǎn)業(yè)發(fā)展迅速,為人們提供了更加便捷的購物渠道,使得人們的生活更加便利。但隨著流量紅利的消退,提高用戶滿意度、用戶黏度以及用戶轉(zhuǎn)化率變得越來越重要,這些因素直接決定了電商平臺(tái)能否實(shí)現(xiàn)更多的利潤(rùn)和長(zhǎng)期發(fā)展。推薦系統(tǒng)通過9推薦算法為用戶提供滿足其興趣偏好的信息或者服務(wù),在很大程度上能夠提高用戶滿意度和用戶黏性,從而提高用戶的轉(zhuǎn)化率。一般的,電商平臺(tái)將推薦算法挑選出來的推薦商品放置于用戶主頁,當(dāng)用戶能夠發(fā)現(xiàn)自己感興趣的商品時(shí),他們會(huì)繼續(xù)點(diǎn)擊商品詳情瀏覽產(chǎn)品,而如果用戶瀏覽片刻后無法找到滿足自己需要的產(chǎn)品,則會(huì)離開頁面,間接造成用戶流失以及點(diǎn)擊量的減少。因此,個(gè)性化的精準(zhǔn)推薦逐漸成為各電商平臺(tái)非??粗械募夹g(shù)手段,也成為淘寶、京東、拼多多等已經(jīng)相繼開發(fā)自己獨(dú)有的推薦系統(tǒng)用于提高用戶黏度和轉(zhuǎn)化率。以阿里巴巴的淘寶網(wǎng)舉例,在“推薦”和“你可能還喜歡”模塊,推薦系統(tǒng)根據(jù)用戶的歷史點(diǎn)擊戶的購買意圖,向用戶推薦各種款式和價(jià)位的“半身裙”以及與“半身裙”相關(guān)的產(chǎn)品“連衣裙”等。這樣的推薦系統(tǒng)能夠很靈活地捕捉到用戶的興趣偏好,及時(shí)將用戶可能購買的商品推薦給用戶?;陔娚填I(lǐng)域的特點(diǎn),推薦系統(tǒng)在商品推薦中不僅僅只關(guān)注商品本身,還需要考慮到不同商品有不同的復(fù)購周期,例如用戶可能會(huì)在短期內(nèi)購買衣物、食品等商品,但是手機(jī)、家具一般是不可能在短時(shí)間內(nèi)再次被用戶購買的。除此之外,物品之間購買的相關(guān)性、時(shí)序性也是需要考慮的。如此看來,推薦系統(tǒng)在電商中是一種多場(chǎng)景推薦算法的融合,同時(shí)由于目前還有許多更為復(fù)雜的邏輯關(guān)系在推薦系統(tǒng)中尚未考慮,推薦算法在電商場(chǎng)景上還有很大的優(yōu)化空間。1.2.4.電子政務(wù)推薦在互聯(lián)網(wǎng)時(shí)代,面對(duì)互聯(lián)網(wǎng)的高速發(fā)展帶來的信息過載,企業(yè)和公民無法從所面對(duì)的信息范圍中做出有效的選擇,而且用戶難以找到正確的信息,最終影響用戶的忠誠度。為順應(yīng)時(shí)代的發(fā)展,政府也在逐步實(shí)現(xiàn)線上政務(wù),從而為公民和企業(yè)提供更好的信息和服務(wù)。電子政務(wù)推薦算法則是希望通過綜合用戶數(shù)據(jù)優(yōu)先向用戶推送利益關(guān)聯(lián)最大的辦事項(xiàng),雖然有研究者提出該方面的理論,但是近幾年相關(guān)研究較少,可以看到推薦系統(tǒng)目前在電子政務(wù)上應(yīng)用不廣,我國許多電子政務(wù)網(wǎng)站依舊是按照時(shí)間排列,無法滿足公民和企業(yè)的個(gè)性化需求,因此推薦系統(tǒng)與電子政務(wù)是未來值得研究的一個(gè)方向。為方便讀者理解不同推薦場(chǎng)景下推薦算法的不同側(cè)重點(diǎn),本小節(jié)將推薦系統(tǒng)按照使用的特征以及關(guān)注的內(nèi)容、物品或服務(wù)的類型等,形式化地總結(jié)了各類主流應(yīng)用中推薦算法相關(guān)的信息。征資訊推薦騰訊新聞、知乎、北京資訊快資訊、新浪看點(diǎn)推薦頻、YouTube、嗶哩嗶哩短視頻視頻內(nèi)容、音頻、類型、熱度、標(biāo)題和描述、用戶行為、用戶社交網(wǎng)、用置騰訊視頻、愛奇藝、優(yōu)長(zhǎng)視頻視頻內(nèi)容、音頻、類型、熱度、標(biāo)題和描述、用戶行為、用戶人口統(tǒng)計(jì)學(xué)QQ音樂、網(wǎng)易云音樂音樂音頻類型、演唱者、作曲者等、用戶行為、用戶人口統(tǒng)計(jì)學(xué)信息電商推薦拼多多、考拉海購商品學(xué)信息表1不同推薦場(chǎng)景下的推薦應(yīng)用總結(jié)總結(jié)發(fā)現(xiàn),推薦系統(tǒng)的主要原理是從用戶的歷史交互日志中挖掘用戶特征,繼而將滿足用戶偏好的物品或者服務(wù)推薦給用戶。其接受信息的方式是被動(dòng)且需求是模糊而不明確的。以電商場(chǎng)景為例,用戶在購物需求不明確的情況下進(jìn)入商場(chǎng),需要推薦系統(tǒng)來告訴用戶有哪些優(yōu)質(zhì)的商品、哪些合適的內(nèi)容等。但如果用戶購物需求非常明確,知道當(dāng)下需要購買哪個(gè)無論是在互聯(lián)網(wǎng)還是線下場(chǎng)景中,為滿足用戶的這兩種需求,推薦系統(tǒng)和搜索引擎都是聯(lián)系十分緊密且大量并存的。盡管兩者都是用戶獲取信息的途徑,但兩者存在本質(zhì)的區(qū)別:在獲取信息方式上,推薦系統(tǒng)是被動(dòng)且需求模糊,而搜索引擎是主動(dòng)且需求明確;在對(duì)結(jié)果的關(guān)注上,推薦系統(tǒng)重視個(gè)性化的推薦結(jié)果,期望對(duì)不同的用戶有不同的推薦結(jié)果,而搜索引擎重視結(jié)果的排序是否滿足用戶的搜索意圖,需要將好的結(jié)果盡可能排在前面。推薦系統(tǒng)和搜索引擎雖然有很多差異,但兩者都是大數(shù)據(jù)技術(shù)的應(yīng)用分支,存在著大量的交疊。近年來,逐步融合推薦系統(tǒng)和搜索引擎已經(jīng)成為人工智能領(lǐng)域的研究熱點(diǎn)。1第二章推薦系統(tǒng)的研究背景及國內(nèi)外研究現(xiàn)狀2.1.推薦系統(tǒng)的發(fā)展歷史息過載(InformationOverload)時(shí)代。信息過載是當(dāng)今信息化時(shí)代經(jīng)常被研究者提起的一個(gè)詞,它形容的是信息量遠(yuǎn)遠(yuǎn)超過了個(gè)人或系統(tǒng)處理信息的能力,從而導(dǎo)致信息處理效率下降的現(xiàn)象。信息過載是信息化帶來的負(fù)面影響之一。面對(duì)信息過載現(xiàn)象,對(duì)于信息消費(fèi)者(用戶)來說,從大量信息中找到自己感興趣的信息變得越來越困難;對(duì)于信息生產(chǎn)者,讓自己生產(chǎn)的信息在眾多信息中脫穎而出也變得越來越困難。信息過載雖然是近期才被人們廣泛提出,但是在上個(gè)世紀(jì)80、90年代就已經(jīng)有了這個(gè)概念。當(dāng)時(shí)由于電子郵箱逐漸普及,人們收到的消息繁多而雜亂,用戶通常沒有足夠的時(shí)間去閱讀所有的郵件,這也就導(dǎo)致了人們難以在這么多信息中找到真正對(duì)自己來說重要的信息。早期的研究提出了通過信息檢索和過濾(informationretrievalandfiltering)的方式來解決這個(gè)問題,到了90年代中期,許多研究者開始關(guān)注用推薦系統(tǒng)作為獨(dú)立的研究領(lǐng)域出現(xiàn)了。推薦系統(tǒng)的興起與互聯(lián)網(wǎng)的發(fā)展息息相關(guān),早期的推薦算法研究延續(xù)了信息檢索和過濾的相關(guān)思想,產(chǎn)生了大量經(jīng)典的協(xié)同過濾推薦算法。最早的自動(dòng)化協(xié)同過濾系統(tǒng)可以追溯到1994年明尼蘇達(dá)大學(xué)雙城分校計(jì)算機(jī)系的研究組設(shè)計(jì)的GroupLens新聞推薦系統(tǒng),該系統(tǒng)收集了讀者對(duì)于文章的評(píng)分,并使用這些評(píng)分來預(yù)測(cè)其他未閱讀文章的讀者希望閱讀某篇文章的程度。在之后十幾年的時(shí)間內(nèi),其他一些著名的協(xié)同過濾算法也相繼被提出,以不斷豐富、完善和突破現(xiàn)有的推薦技術(shù)。在推薦系統(tǒng)的發(fā)展歷程中,將推薦系統(tǒng)的研究推向高潮的標(biāo)志性事件是Netflix在2006至2009年舉辦了NetflixPrize比賽,該比賽宣布提供一百萬美元獎(jiǎng)金給第一個(gè)能將現(xiàn)有推薦算法的準(zhǔn)確度提升10%以上的參賽者,吸引了眾多專業(yè)人士開始投身于推薦系統(tǒng)領(lǐng)域的研究工作,也開啟了推薦領(lǐng)域的機(jī)器學(xué)習(xí)時(shí)代。早期的以機(jī)器學(xué)習(xí)為主的推薦系統(tǒng)主要關(guān)注如何提高針對(duì)單一問題的算法方案的準(zhǔn)確度,而忽視了人機(jī)交互的時(shí)間性和系統(tǒng)性,對(duì)于變化莫測(cè)的用戶行為和外部環(huán)境無法完整建模。其中最典型的問題就是推薦結(jié)果千篇一律,例如若一個(gè)用戶喜歡汽車,那么系統(tǒng)將會(huì)反復(fù)給他推薦汽車相關(guān)的信息。在推薦算法經(jīng)典框架下,基于監(jiān)督學(xué)習(xí)的模型大多無法徹底解決這一問題。面對(duì)這一問題,雅虎研究院最早開始了在這一方面的探索,并嘗試將人工智能中另一方向——強(qiáng)化學(xué)習(xí)相關(guān)的算法應(yīng)用到推薦系統(tǒng)中來,雅虎新聞推薦和LinkedIn的首頁信息流推薦都應(yīng)用了強(qiáng)化學(xué)習(xí),在數(shù)據(jù)量較少時(shí),他們證明了強(qiáng)化學(xué)習(xí)對(duì)系統(tǒng)和用戶的長(zhǎng)期交互流程優(yōu)化有顯著效果。然而,這類算法在大規(guī)模的推薦系統(tǒng)實(shí)踐下并不理想。伴隨著深度學(xué)習(xí)的浪潮對(duì)整個(gè)人工智能領(lǐng)域的影響,許多研究者開始研究如何將深度學(xué)習(xí)與傳統(tǒng)算法結(jié)合來優(yōu)化推薦效果。其中一個(gè)典型案例就是YouTube采用深度學(xué)習(xí)來提取視頻特征,通過視頻特征和用戶興趣偏好的匹配度,決定是否給用戶進(jìn)行推薦。同時(shí),也有許多學(xué)者嘗試用深度學(xué)習(xí)技術(shù)解決以往較難的推薦問題,例如預(yù)測(cè)用戶下一個(gè)想要播放的歌曲、購買的商品以及想看的電影等。深度學(xué)習(xí)技術(shù)對(duì)于推薦系統(tǒng)的影響是巨大的,從開始的非智能時(shí)代一步步踏入深度學(xué)習(xí)時(shí)代,推薦系統(tǒng)已經(jīng)成為了許多應(yīng)用的基石,對(duì)于基于大數(shù)據(jù)的人工智能時(shí)代具有非凡的影響。但從現(xiàn)實(shí)來看,推薦系統(tǒng)要真正成為智能系統(tǒng),還有很長(zhǎng)的路要走,這也是未來學(xué)者研究的方向。推薦系統(tǒng)發(fā)展至今,其核心技術(shù)可以劃分為基于協(xié)同過濾的推薦方法,基于內(nèi)容的推薦方法和混合推薦方法。協(xié)同過濾推薦方法的本質(zhì)是“人以群分,物以類聚”,根據(jù)相似的用與用戶曾經(jīng)瀏覽、收藏、購買過的相似項(xiàng)推薦給用戶。基于內(nèi)容的推薦方法一般只依賴于用戶自身的行為為用戶提供推薦,不涉及到其他用戶的行為。該類方法根據(jù)項(xiàng)的相關(guān)信息、用戶相關(guān)信息及用戶對(duì)項(xiàng)的操作行為來構(gòu)建推薦算法模型,為用戶提供推薦服務(wù)。一般的,項(xiàng)的相關(guān)信息可以是項(xiàng)的描述信息、標(biāo)簽、用戶評(píng)論、人工標(biāo)注信息等;用戶相關(guān)信息可以是點(diǎn)贊、觀看、瀏覽、點(diǎn)擊、加購物車、購買等。而混合推薦方法目的是衡量各推薦方法的利弊,揚(yáng)長(zhǎng)避短,通過加權(quán)、切換、混雜、特征組合等方式避免或彌補(bǔ)各推薦技術(shù)的弱點(diǎn),進(jìn)一步提升推薦方法的性能。2.2.推薦系統(tǒng)的價(jià)值2.2.1.整合市場(chǎng)需求進(jìn)入人工智能時(shí)代,由于數(shù)據(jù)量的激增,用戶有著希望能從海量數(shù)據(jù)中得到對(duì)自己來說有用信息的需求,而信息生產(chǎn)者也有期望能讓自己生產(chǎn)的信息被看到的需求,推薦系統(tǒng)通過算法計(jì)算用戶與信息生產(chǎn)者生產(chǎn)的內(nèi)容之間的匹配程度,將用戶和信息生產(chǎn)者聯(lián)系起來,實(shí)現(xiàn)對(duì)這兩種潛在需求的整合,從而減少了用戶和信息生產(chǎn)者在市場(chǎng)上尋找雙方的時(shí)間,在一定程度上提高了市場(chǎng)運(yùn)行的效率,使得用戶和信息生產(chǎn)者的需求都能得到滿足。圖7推薦系統(tǒng)改變了用戶和信息生產(chǎn)者的聯(lián)系方式2.2.2.技術(shù)發(fā)展規(guī)律當(dāng)推薦算法并未成為推薦系統(tǒng)的核心時(shí),推薦大部分是由人工完成的,根據(jù)一些專業(yè)人士的建議和想法,為用戶提供他們認(rèn)為值得推薦的物品或服務(wù)。本質(zhì)上,傳統(tǒng)報(bào)紙就可以看成是這樣的一個(gè)依賴人工的推薦系統(tǒng),用戶在報(bào)紙上所能看到的內(nèi)容全都是專業(yè)編輯認(rèn)為應(yīng)該關(guān)注的文章。人工推薦系統(tǒng)是一種低效的方式,它對(duì)于人工的數(shù)量和專業(yè)素養(yǎng)要求都很高,很難處理大量數(shù)據(jù),并且人工推薦總是會(huì)帶有主觀性,無法滿足每一個(gè)用戶的個(gè)性化需求。從技術(shù)發(fā)展規(guī)律可以看到,技術(shù)總是在不斷提高社會(huì)運(yùn)行效率的,不斷使社會(huì)多元化。過去人們聽歌的方式是通過廣播或者自己購買碟片和磁帶,這些歌曲往往是熱門歌曲,小眾歌曲和歌手往往沒有對(duì)口市場(chǎng)或者很難找到對(duì)口市場(chǎng),而現(xiàn)在的音樂軟件中各種類型的音樂都有,不管是流行還是一些小眾音樂都有其喜好群體。因此,推薦算法的發(fā)展也是合乎技術(shù)發(fā)展的規(guī)律的,它讓每個(gè)人都能擁有屬于自己的個(gè)性化服務(wù)。2.2.3.產(chǎn)業(yè)發(fā)展需求在傳統(tǒng)營銷方式中,存在一個(gè)大家普遍承認(rèn)的定律——二八定律,這是一位意大利的經(jīng)濟(jì)學(xué)家在1897年歸納出了一個(gè)統(tǒng)計(jì)結(jié)論,即20%的人口享有80%的財(cái)富。之后也廣泛指代一種不平衡關(guān)系,即少數(shù)的人或事情可以造成主要的、重大的影響。根據(jù)該理論,傳統(tǒng)商家主要關(guān)注那20%能創(chuàng)造80%收益的顧客,而忽視其他80%的顧客。在2004年,一位雜志主編在形容亞馬遜和Netflix的商業(yè)模式時(shí),首次運(yùn)用了“長(zhǎng)尾”這一詞,表示需求和銷量不高的產(chǎn)品所占據(jù)的共同市場(chǎng)份額可以和主流產(chǎn)品的市場(chǎng)份額持平或更高。因此,當(dāng)傳統(tǒng)商業(yè)中的二八定律已經(jīng)無法進(jìn)一步創(chuàng)造更多利潤(rùn)時(shí),一些商家們轉(zhuǎn)而關(guān)注“長(zhǎng)尾”的潛在價(jià)值,即關(guān)注小眾人群的差異化偏好,而推薦算法能有效的實(shí)現(xiàn)企業(yè)從二八定律轉(zhuǎn)向“長(zhǎng)尾效應(yīng)”的過渡,從而挖掘那些具有不同特性的80%用戶能夠帶來的商業(yè)價(jià)值。在這個(gè)過程中,企業(yè)能夠在以較低成本了解這80%人群的需求同時(shí)為他們提供滿足其需求的物品或服務(wù),從而實(shí)現(xiàn)盈利的增加。與此同時(shí),以往市場(chǎng)只關(guān)注大眾需求,而如今80%人群的個(gè)性化需求也可以得到滿足,提高了用戶的滿意程度和消費(fèi)質(zhì)量,實(shí)現(xiàn)了雙贏。2.3.推薦系統(tǒng)的研究現(xiàn)狀推薦系統(tǒng)是學(xué)術(shù)界和工業(yè)界研究的熱門話題。學(xué)術(shù)界側(cè)重理論層面的分析和模型性能的提升,而工業(yè)界更側(cè)重實(shí)踐層面的發(fā)展以及用戶體驗(yàn)的提升。以下將從學(xué)術(shù)界和工業(yè)界兩個(gè)方面介紹推薦系統(tǒng)的研究現(xiàn)狀。2.3.1.學(xué)術(shù)界上文提到推薦系統(tǒng)的主要原理是利用推薦算法從用戶的歷史日志中挖掘用戶偏好,將滿足用戶興趣偏好的物品或者服務(wù)推薦給用戶。根據(jù)用戶日志數(shù)據(jù)的輸入形式和推薦算法的設(shè)計(jì)機(jī)制,可將現(xiàn)有的推薦算法劃分為3類,分別是基于協(xié)同過濾的推薦、基于內(nèi)容的推薦以及混合推薦。協(xié)同過濾推薦算法是誕生最早,并且較為著名的推薦算法,在整個(gè)推薦系統(tǒng)發(fā)展史上有舉足輕重的作用。基于協(xié)同過濾的推薦算法又分為基于用戶的協(xié)同過濾算法和基于項(xiàng)的協(xié)同過濾算法。其中,基于用戶的協(xié)同過濾算法主要考慮用戶與用戶之間的相似度,在用戶群中找到與指定用戶具有相似興趣偏好的相似用戶,將相似用戶喜歡的物品或者服務(wù)推薦給指定種方法了解到Jark和用戶Up有相似的喜好,所以基于用戶的協(xié)同過濾算法會(huì)把Jark喜歡而Up還未觀看過的電影《美國隊(duì)長(zhǎng)》推薦給Up。與基于用戶的協(xié)同過濾推薦算法不同,基于項(xiàng)的協(xié)同過濾推薦算法從項(xiàng)(物品或者服務(wù))的角度出發(fā),重點(diǎn)考慮項(xiàng)與項(xiàng)之間的相似度。該類方法認(rèn)為用戶更傾向于喜歡曾經(jīng)購買、收藏、點(diǎn)擊、瀏覽過物品、內(nèi)容或者服務(wù),將與用戶歷史交互過的物品、內(nèi)容或者服務(wù)相似的項(xiàng)推薦給用戶。同樣的,該類方法通過分析指定用戶的歷史交互記錄,挖掘用戶對(duì)項(xiàng)的歷史偏好,找到與其相似的項(xiàng)推薦給用戶。舉例來說,如圖8(B)所示,基于項(xiàng)的推薦算法觀測(cè)到用戶Up觀看過的《鋼鐵俠》和《復(fù)仇者聯(lián)盟》等具有動(dòng)作和科幻類型屬性的電影,認(rèn)為用戶更喜歡該種類型的電影。因此,與具有愛情屬性的電影《美女與野獸》相比,具有相同動(dòng)作和科幻類型屬性的電影《美國隊(duì)長(zhǎng)》更適合給用戶做推薦。圖8協(xié)同過濾推薦舉例在學(xué)術(shù)界,目前已有大量協(xié)同過濾的推薦算法被提出,并取得了較好的推薦性能。如圖9所示,早期的協(xié)同推薦方法[1][2][3][4]一般采用矩陣分解的方式從用戶對(duì)項(xiàng)目的評(píng)分矩陣中學(xué)習(xí)用戶和項(xiàng)的潛在因子,利用學(xué)習(xí)的用戶和項(xiàng)的潛在因子之間的相似性做推薦預(yù)測(cè)。但此類方法面臨著冷啟動(dòng)問題和數(shù)據(jù)稀疏問題的困擾。比如,某物品、內(nèi)容或者服務(wù)項(xiàng)沒有得到用戶的評(píng)分時(shí),矩陣分解的推薦算法不會(huì)將該候選項(xiàng)推薦給用戶;當(dāng)有新的用戶時(shí),矩陣分解的推薦算法無法根據(jù)已有的評(píng)分矩陣學(xué)習(xí)新用戶的潛在因子;當(dāng)評(píng)分矩陣較為稀疏時(shí),矩陣分解的推薦算法無法分解得到有效的用戶和項(xiàng)的潛在因子。為解決上述問題,一些學(xué)者利用深度學(xué)習(xí)技術(shù)在捕獲向量交互特征和復(fù)雜語義信息方面的優(yōu)勢(shì),將深度學(xué)習(xí)技術(shù)和矩陣分解同過濾式的深度學(xué)習(xí)模型,利用邊緣化去噪自動(dòng)編碼器和矩陣分解技術(shù),將評(píng)分矩陣的分解和特征學(xué)習(xí)結(jié)合在一起,以學(xué)習(xí)有效的用戶和項(xiàng)的潛在因子。CDAE[6]以更靈活的結(jié)構(gòu)將幾種先進(jìn)的矩陣分解模型進(jìn)行概括,提出協(xié)同去噪自動(dòng)編碼器框架形成用戶和項(xiàng)目的反饋數(shù)據(jù)來學(xué)習(xí)用戶和項(xiàng)的分布式表示,以解決Top-N推薦問題。DMF[7]構(gòu)造了一個(gè)具有顯式評(píng)分和非偏好隱式反饋的用戶項(xiàng)矩陣。以該矩陣為輸入,提出了一種深層結(jié)構(gòu)的學(xué)習(xí)體系結(jié)構(gòu),用于學(xué)習(xí)用戶和項(xiàng)分布式表示的低維向量空間。協(xié)同過濾作為一種經(jīng)典的推薦算法種類,在工業(yè)界應(yīng)用廣泛,它的優(yōu)點(diǎn)很多,模型通用性強(qiáng),不需要太多對(duì)應(yīng)數(shù)據(jù)領(lǐng)域的專業(yè)知識(shí),工程比如令人頭疼的“冷啟動(dòng)”問題,我們沒有新用戶任何數(shù)據(jù)的時(shí)候,無法較好的為新用戶推薦物品。同時(shí)也沒有考慮情景的差異,比如根據(jù)用戶所在的場(chǎng)景和用戶當(dāng)前的情緒做個(gè)性化的滿足用戶需求的推薦。圖9協(xié)同過濾推薦算法圖例基于內(nèi)容的推薦算法不同于協(xié)同過濾推薦方法,比較擅長(zhǎng)根據(jù)用戶的交互記錄為用戶提供個(gè)性化的推薦結(jié)果?;趦?nèi)容的推薦算法的基本原理是根據(jù)用戶和項(xiàng)的屬性特征以及用戶給出了基于內(nèi)容的推薦算法的例子:某一舞者用戶曾經(jīng)購買過舞鞋和裙子,推薦系統(tǒng)從用戶購買過的舞鞋和裙子的文本內(nèi)容(標(biāo)題、文本描述、用戶反饋等)中挖掘項(xiàng)的特征,將具有相似特征的舞鞋和裙子推薦給用戶?;趦?nèi)容的個(gè)性化推薦,一般需要三個(gè)步驟,分別是: (1)通過深度學(xué)習(xí)技術(shù)挖掘用戶信息及用戶歷史行為以構(gòu)建用戶特征表示;(2)根據(jù)項(xiàng)的文本內(nèi)容信息(標(biāo)題、文本描述、用戶反饋等)構(gòu)建項(xiàng)的特征表示;(3)使用用戶和項(xiàng)特征表示之間的相似度匹配做為衡量用戶接受被推薦項(xiàng)的概率。在基于內(nèi)容的推薦算法中,用戶的歷史交互行為通常是一系列用戶點(diǎn)擊或?yàn)g覽過的項(xiàng)序列。一般地,該類推薦方法在構(gòu)建用戶特征表示的步驟中會(huì)設(shè)計(jì)相應(yīng)的項(xiàng)表示機(jī)制,通過集成用戶一系列的歷史交互項(xiàng)特征來挖掘用戶特征,并基于此用戶特征做個(gè)性化推薦。早期的基于內(nèi)容的推薦方法[8]一般采用統(tǒng)計(jì)策略從用戶的歷史行為中挖掘用戶特征,比如TF-IDF詞頻-逆文檔頻率評(píng)估詞對(duì)于用戶歷史交互文檔的重要程度;余弦相似度計(jì)算內(nèi)容間關(guān)于詞的相關(guān)性。但此類方法在兩個(gè)不相同的物品可能擁有同樣的內(nèi)容的情況下對(duì)內(nèi)容分析不合理。后續(xù)一些方法利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)技術(shù),如決策樹,最近鄰居、聚類神經(jīng)使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)用戶和項(xiàng)之間的高層交互特征來做推薦概率的預(yù)測(cè)。聚焦到目前主流的基于深度神經(jīng)網(wǎng)絡(luò)的的推薦算法,利用深度神經(jīng)網(wǎng)絡(luò)對(duì)用戶歷史交互序列建模以挖掘用戶的偏好特征,是獲得個(gè)性化推薦的有效方法。該類方法一般采用卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、注意力網(wǎng)絡(luò)或者記憶網(wǎng)絡(luò)從用戶歷史序列中抽取局部特征或者序列特征來表示捕獲一些錯(cuò)誤和冗余的依賴關(guān)系。事實(shí)上,在現(xiàn)實(shí)世界中,一些用戶與項(xiàng)的交互序列是嚴(yán)格是嚴(yán)格排序的。比如在用戶的購物序列{牛奶、黃油、面包},先買牛奶還是先買黃油不重要,但是同時(shí)購買這兩種商品后要買面粉的可能性更高。也就是說,牛奶和黃油兩者之間沒有嚴(yán)格的命令,但面粉順序取決于牛奶和黃油的結(jié)合。為克服這些問題,一些方法利用神經(jīng)網(wǎng)絡(luò)從用戶的歷史交互序列中挖掘用戶的長(zhǎng)期興趣和短期興趣,融合用戶的長(zhǎng)期和短期興趣做個(gè)性化推薦。這類方法稱為以會(huì)話為主的推薦方法。通常情況下,用戶的歷史交互記錄包含多個(gè)會(huì)話,不同的會(huì)話反應(yīng)了用戶不同時(shí)期的興趣偏好。以會(huì)話為主的推薦方法將用戶當(dāng)前會(huì)話作為用戶短期興趣的體現(xiàn),當(dāng)前會(huì)話之前的歷史會(huì)話作為用戶長(zhǎng)期興趣的體現(xiàn),通過從用戶的短期興趣和長(zhǎng)期興趣兩個(gè)層面挖掘用戶的特征偏好,基于用戶的長(zhǎng)短期特征計(jì)算與候選物品的匹配概率,以此概率作為向用戶推薦候選項(xiàng)的物品的滿意度?;旌贤扑]方法側(cè)重衡量各推薦方法的利弊,揚(yáng)長(zhǎng)避短,通過加權(quán)、切換、混雜、特征組合等方式避免或彌補(bǔ)各推薦技術(shù)的弱點(diǎn),進(jìn)一步提升推薦方法的性能。近年來,知識(shí)圖譜由于其結(jié)構(gòu)化、可解釋、可推理等特性被廣泛應(yīng)用到推薦系統(tǒng)、自然語言處理、問答系統(tǒng)、文本分類等領(lǐng)域。相應(yīng)地,融合知識(shí)圖譜的混合推薦方法受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,圖10基于內(nèi)容的推薦方法示意圖已然成為當(dāng)前的研究熱點(diǎn)。融合知識(shí)圖譜的推薦方法利用知識(shí)表示學(xué)習(xí)技術(shù)將知識(shí)圖譜蘊(yùn)含的豐富語義信息融入推薦過程,使推薦結(jié)果更加精準(zhǔn)地滿足用戶的需求?,F(xiàn)有的基于知識(shí)圖譜的推薦方法一般首先會(huì)根據(jù)推薦場(chǎng)景中的用戶與項(xiàng)的交互記錄和項(xiàng)的屬性信息建立用戶-項(xiàng)知識(shí)圖譜。然后利用知識(shí)圖譜的三元組表示學(xué)習(xí)技術(shù)、路徑推理技術(shù)、強(qiáng)化學(xué)習(xí)技術(shù)以及圖神經(jīng)網(wǎng)絡(luò)技術(shù)將用戶與項(xiàng)之間購買關(guān)系的推薦任務(wù)建模為用戶-項(xiàng)知識(shí)圖譜的補(bǔ)全任務(wù),從用戶-項(xiàng)知識(shí)圖譜中學(xué)習(xí)用戶和項(xiàng)的分布式表示,預(yù)測(cè)三元組(用戶,購買關(guān)系,項(xiàng))的匹配概率,即向用戶推薦該項(xiàng)的概率。比如較為經(jīng)典的KPRN方法使用循環(huán)神經(jīng)網(wǎng)絡(luò)挖掘用戶與物品之間的圖譜路徑,利用知識(shí)圖譜的路徑推理技術(shù)建模用戶與候選推薦項(xiàng)的可解釋性推薦。融合知識(shí)的推薦方法是當(dāng)前學(xué)術(shù)界較為前沿的技術(shù),是解決推薦算法面臨黑盒問題的有效途徑,對(duì)提高推薦結(jié)果的可解釋性具有顯著的提升。因此,利用知識(shí)圖譜提升推薦結(jié)果的可解釋性也是未來推薦系統(tǒng)較為前沿的研究方向??偠灾?,協(xié)同過濾推薦算法傾向于利用相似用戶的偏好和相似的項(xiàng)為用戶做推薦,基于文本內(nèi)容的推薦算法從用戶或項(xiàng)的文本內(nèi)容中挖掘特征為用戶做推薦,而基于知識(shí)的推薦算法利用知識(shí)圖譜的可推理特性,在提高推薦性能的同時(shí)增加推薦結(jié)果的可解釋性。這三類推薦算法從不同角度建模推薦過程,可以將這三類方法的優(yōu)勢(shì)相互組合,構(gòu)建混合推薦方法以提高推薦性能。表2列舉了上述三類方法的經(jīng)典模型、各模型使用的核心技術(shù)以及評(píng)測(cè)指標(biāo)等。協(xié)同過濾推薦方法矩陣分解、張量分解、神經(jīng)網(wǎng)絡(luò)yMRR基于文本內(nèi)容推薦卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制yMRR混合推薦方法強(qiáng)化學(xué)習(xí)、圖卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、注意力神經(jīng)網(wǎng)絡(luò)yMRR表2三類推薦算法舉例2.3.2.產(chǎn)業(yè)界基于協(xié)同過濾、內(nèi)容的推薦算法是最早應(yīng)用于工程實(shí)踐的推薦算法。在工業(yè)屆的不同領(lǐng)域已有大量的應(yīng)用案例。根據(jù)應(yīng)用領(lǐng)域的不同,本文將按照資訊、視頻、電商和社交等場(chǎng)景下介紹產(chǎn)業(yè)界目前使用的推薦技術(shù)。推薦系統(tǒng)在資訊場(chǎng)景下的應(yīng)用。目前推薦算法已經(jīng)成為各資訊類應(yīng)用中的“標(biāo)配”。當(dāng)今較為流行的資訊類推薦應(yīng)用包括今日頭條、騰訊新聞、百度首頁新聞推薦以及新浪看點(diǎn)等。各推薦應(yīng)用具有類似的推薦思想,但在具體落地實(shí)施中會(huì)根據(jù)特有場(chǎng)景設(shè)計(jì)不同的推薦算法。以國內(nèi)頭部資訊平臺(tái)今日頭條的推薦算法為例,詳細(xì)講述其如何根據(jù)用戶的歷史行為信息為用戶做個(gè)性化推薦。宏觀上,今日頭條的推薦技術(shù)的算法原理是通過資訊內(nèi)容、用戶特征以及環(huán)境特征三個(gè)維度擬合用戶對(duì)推薦內(nèi)容的滿意程度。對(duì)于資訊內(nèi)容,今日頭條已建立了一個(gè)包括圖文、問答、視頻、UGC小視頻等多元化內(nèi)容的綜合性平臺(tái)。根據(jù)多元化內(nèi)容的相應(yīng)特征,提取不同類型的內(nèi)容特征做推薦;對(duì)于用戶特征,包括年齡、性別、職業(yè)等顯式特征和從大量用戶數(shù)據(jù)中挖掘得到的隱式特征,如用戶感興趣的類別、主題、關(guān)鍵詞及興趣特征(國際新聞、旅游、汽車等)、身份特征等;對(duì)于環(huán)境特征,強(qiáng)調(diào)用戶在不同場(chǎng)景中的信息偏好是有所差異的,例如在工作和旅行時(shí),用戶的興趣偏好是完全不同的。今日頭條通過多種方式,比如協(xié)同過濾推薦模型、深度學(xué)習(xí)模型、邏輯回歸、分解模型和監(jiān)督學(xué)習(xí)模型設(shè)計(jì)推薦算法以融合上述三個(gè)維度的特征,進(jìn)而有效地預(yù)測(cè)在該場(chǎng)景下某用戶是否喜歡相應(yīng)的推薦內(nèi)容。以上只是一個(gè)簡(jiǎn)單的推薦算法框架,實(shí)際的推薦系統(tǒng)需要靈活的適應(yīng)各種情況,比如如何去除噪聲的影響、優(yōu)化無法直接衡量的目標(biāo)、組合多種算法以調(diào)整模型結(jié)構(gòu)等。今日頭條及字節(jié)跳動(dòng)旗下其他幾款產(chǎn)品都在沿用同一套強(qiáng)大的算法推薦系統(tǒng),但模型架構(gòu)會(huì)根據(jù)業(yè)務(wù)場(chǎng)景的不同有所調(diào)整。為便于公眾為推薦系統(tǒng)工作機(jī)制的充分理解,本文從輸入特征、模型在實(shí)際場(chǎng)景中的訓(xùn)練與評(píng)價(jià)機(jī)制以及模型推薦內(nèi)容質(zhì)量等方面介紹今日頭條推薦系統(tǒng): 其興趣的推薦內(nèi)容,今日頭條除了設(shè)計(jì)高質(zhì)量推薦算法,還重點(diǎn)關(guān)注哪些推薦特征對(duì)推薦性能有影響。在今日頭條的特征體系中,重點(diǎn)關(guān)注相關(guān)性特征、環(huán)境特征、內(nèi)容熱度特征和協(xié)同特征。其中,相關(guān)性特征就是評(píng)估內(nèi)容的屬性與用戶興趣是否匹配,包括關(guān)鍵詞匹配、分類匹配、來源匹配、主題匹配等顯式匹配,以及用戶向量與內(nèi)容向量的距離相似性的隱式匹配;環(huán)境特征包括地理位置、時(shí)間等因素,用于構(gòu)建一些匹配特征;內(nèi)容熱度特征包括全局熱度、分類熱度,主題熱度,以及關(guān)鍵詞熱度等,可以有效緩解用戶冷啟動(dòng)問題;協(xié)同特征是通過分析不同用戶間的相似性,比如點(diǎn)擊相似、興趣詞相似,用戶標(biāo)簽相似甚至用戶間的向量相似來擴(kuò)展模型的探圖11今日頭條資訊推薦系統(tǒng)示意圖索能力。在某種程度上,協(xié)同特征在部分程度上可以幫助解決所謂的算法越推越窄的問題。在上述四種特征中,相關(guān)性特征和協(xié)同特征是今日頭條推薦系統(tǒng)的兩大基石,以下簡(jiǎn)要介紹兩種特征的相關(guān)知識(shí): (a)對(duì)于相關(guān)性特征,文本內(nèi)容屬性是計(jì)算用戶對(duì)推薦資訊滿意程度的重要因素。推薦系統(tǒng)中的文本分析就是對(duì)用戶興趣的建模,沒有內(nèi)容及文本標(biāo)簽,無法得到用戶興趣標(biāo)簽。比如,只有知道文章標(biāo)簽是互聯(lián)網(wǎng),用戶看了互聯(lián)網(wǎng)標(biāo)簽的文章,才能知道用戶有互聯(lián)網(wǎng)標(biāo)簽。今日頭條主要抽取的文本特征包括由人打上的顯式語義標(biāo)簽以及基于主題和關(guān)鍵詞的隱式語義特征。顯示的標(biāo)簽體系是預(yù)定義的且每個(gè)標(biāo)簽有明確的意義,隱式的文本語義特征是通過算法計(jì)算關(guān)鍵詞概率分布,主題特征等獲得的。今日頭條推薦系統(tǒng)的線上標(biāo)簽體系分類采用典型的層次化文本分類算法。最上面根結(jié)點(diǎn),下面第一層的分類是像科技、體育、財(cái)經(jīng)、層次化文本分類算法能更好地解決數(shù)據(jù)傾斜的問題。而隱式的語義文本特征是衡量文本相似性的重要因素,也是解決不重復(fù)推薦相同或類似內(nèi)容的關(guān)鍵。在頭條,曾經(jīng)用戶反饋?zhàn)畲蟮膯栴}之一就是為什么總推薦重復(fù)的內(nèi)容。這個(gè)問題的難點(diǎn)在于,每個(gè)人對(duì)重復(fù)的定義不一樣。舉個(gè)例子,有人覺得這篇講皇馬和巴薩的文章,昨天已經(jīng)看過類似內(nèi)容,今天還說這兩個(gè)隊(duì)那就是重復(fù)。但對(duì)于一個(gè)重度球迷而言,尤其是巴薩的球迷,恨不得所有報(bào)道都看一遍。解決這一問題需要根據(jù)判斷相似文章的主題、行文、主體等內(nèi)容,根據(jù)這些特征做線上策略。同樣,還有時(shí)空特征,分析內(nèi)容的發(fā)生地點(diǎn)以及時(shí)效性。比如武漢限行的事情推給北京用戶可能就沒有意義。最后還要考慮質(zhì)量相關(guān)特征,判斷內(nèi)容是否低俗,色情,是否是軟文,雞湯?目前,隱式語義特征已經(jīng)可以很好的幫助推薦,而語義標(biāo)簽需要持續(xù)標(biāo)注,新名詞新概念不斷出現(xiàn),標(biāo)注也要不斷迭代。顯式語義標(biāo)簽做好的難度和資源投入要遠(yuǎn)大于隱式語義特征,但語義標(biāo)簽是必要的,原因是有一些產(chǎn)品上的需要,比如頻道需要有明確定義的分類內(nèi)容和容易理解的文本標(biāo)簽體系。同時(shí),語義標(biāo)簽的效果也是檢查一個(gè)公司自然語言技術(shù)水平高低的試金石。 (b)對(duì)于協(xié)同特征,主要通過分析不同用戶間的相似性,比如點(diǎn)擊相似、興趣詞相似,用戶標(biāo)簽相似甚至用戶間的向量相似來擴(kuò)展模型的探索能力。其中,用戶標(biāo)簽工程挑戰(zhàn)較大。今日頭條常用的用戶標(biāo)簽包括用戶感興趣的類別和主題、關(guān)鍵詞、來源、基于興趣的用戶聚類以及各種垂直興趣特征(車型,體育球隊(duì),股票等),還有性別、年齡、地點(diǎn)等信息。這些用戶標(biāo)簽非常有助于推薦。當(dāng)然最簡(jiǎn)單的用戶標(biāo)簽是瀏覽過的內(nèi)容標(biāo)簽。但這里涉及到一點(diǎn)懲罰。對(duì)用戶在一些熱門文章上的動(dòng)作做降權(quán)處理。理論上,傳播范圍較大的內(nèi)容,置信著用戶動(dòng)作的增加,老的特征權(quán)重會(huì)隨時(shí)間衰減,新動(dòng)作貢獻(xiàn)的特征權(quán)重會(huì)更大。四、懲罰展現(xiàn)。如果一篇推薦給用戶的文章沒有被點(diǎn)擊,相關(guān)特征(類別,關(guān)鍵詞,來源)權(quán)重會(huì)被懲罰。(2)模型在實(shí)際場(chǎng)景中的訓(xùn)練與評(píng)價(jià)機(jī)制。在實(shí)際應(yīng)用場(chǎng)景中,今日頭條面臨的資訊內(nèi)容量非常大,推薦系統(tǒng)不可能對(duì)所有內(nèi)容進(jìn)行預(yù)估。為給用戶提供實(shí)時(shí)的資訊,一方面,今日頭條采用storm(開源的分布式實(shí)時(shí)大數(shù)據(jù)處理框架)集群實(shí)時(shí)處理樣本數(shù)據(jù),不僅節(jié)省資源,還擁有反饋快的優(yōu)勢(shì),可以快速捕捉用戶行為信息并反饋至下一刷的推薦效果。另一方面,今日頭條設(shè)計(jì)了一些召回策略,每次推薦時(shí)從海量?jī)?nèi)容中篩選出千級(jí)別的內(nèi)容庫作為給用戶推薦的候選池。實(shí)際應(yīng)用中的召回策略要求極致的性能且召回時(shí)間不能超過50毫秒。今日頭條主要采用倒排索引維護(hù)一個(gè)倒排,在后續(xù)的線上召回過程中可以迅速從倒排中根據(jù)用戶興趣標(biāo)簽對(duì)內(nèi)容做截?cái)?,高效的從很大的?nèi)容庫中篩選比較靠譜的一小部分內(nèi)容推薦給為有效評(píng)估推薦效果的好壞,今日頭條嘗試綜合盡可能多的指標(biāo)合成唯一的評(píng)估指標(biāo)以全面的評(píng)估推薦系統(tǒng)。事實(shí)上,很多因素都會(huì)影響推薦效果,比如侯選集合變化,召回模塊的改進(jìn)或增加,推薦特征的增加,模型架構(gòu)的改進(jìn),算法參數(shù)的優(yōu)化等等。全面的評(píng)估推薦系統(tǒng),需要完備的評(píng)估體系、強(qiáng)大的實(shí)驗(yàn)平臺(tái)以及易用的經(jīng)驗(yàn)分析工具。所謂完備的體系指不能完全由點(diǎn)擊率、閱讀時(shí)間、點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)等可以量化的數(shù)據(jù)指標(biāo)衡量,需要引入數(shù)據(jù)指標(biāo)之外的其他指標(biāo),比如對(duì)廣告和特頻內(nèi)容的頻控,對(duì)低俗內(nèi)容、虛假新聞、標(biāo)題黨的治理,以及對(duì)重要內(nèi)容的置頂、強(qiáng)插和加權(quán)等。過去幾年,今日頭條通過人工和模型的結(jié)合過濾低俗、負(fù)能量?jī)?nèi)容、建立了反低俗模型、正能量模型以建立綜合的評(píng)估體系,旨在做到既兼顧短期指標(biāo)與長(zhǎng)期指標(biāo),又兼顧用戶指標(biāo)、廣告主利益和生態(tài)指標(biāo), (3)模型推薦內(nèi)容質(zhì)量。在人工智能技術(shù)快速發(fā)展的今天,內(nèi)容安全一直是公眾關(guān)注的重點(diǎn)。觀察發(fā)現(xiàn),今日頭條作為國內(nèi)有代表性的內(nèi)容創(chuàng)作與分發(fā)平臺(tái),越來越重視社會(huì)責(zé)任和行業(yè)領(lǐng)導(dǎo)者的責(zé)任。從創(chuàng)立之初,內(nèi)容安全就一直存在于最高優(yōu)先級(jí)隊(duì)列中,并設(shè)有專門的審核團(tuán)隊(duì)負(fù)責(zé)內(nèi)容安全,避免因1%推薦內(nèi)容出現(xiàn)問題而造成較大影響事件的發(fā)生?,F(xiàn)UGC用戶內(nèi)容,如問答、用戶評(píng)論、微頭條等。這兩部分內(nèi)容需要通過統(tǒng)一的審核機(jī)制。容需要經(jīng)過內(nèi)容識(shí)別技術(shù)的過濾,有問題的會(huì)進(jìn)入二次風(fēng)險(xiǎn)審核。審核通過后,內(nèi)容才會(huì)被真正進(jìn)行推薦。這時(shí)如果收到一定量以上的評(píng)論或者舉報(bào)負(fù)向反饋,還會(huì)再回到復(fù)審環(huán)節(jié),有問題直接下架。整個(gè)機(jī)制相對(duì)而言比較健全,作為行業(yè)領(lǐng)先者,在內(nèi)容安全上,今日頭條一直用最高的標(biāo)準(zhǔn)要求自己。在關(guān)于內(nèi)容安全的技術(shù)方面,今日頭條采用的內(nèi)容識(shí)別技術(shù)主要有鑒黃模型、謾罵模型以及低俗模型。低俗模型通過深度學(xué)習(xí)算法訓(xùn)練非常大的樣本庫,圖片和文本。這部分模型更注重召回率,準(zhǔn)確率甚至可以犧牲一些。謾罵模型的樣本庫超過百萬,給發(fā)布不當(dāng)評(píng)論的用戶設(shè)置一些懲罰機(jī)制。泛低質(zhì)識(shí)別涉及的情況非常多,像虛假新聞、黑稿、題文不符、標(biāo)題黨、內(nèi)容質(zhì)量低等等,這部分內(nèi)容由機(jī)器理解是非常難的,需要大量反饋信息,包括其他樣本信息比對(duì)。實(shí)踐中,不能僅通過低質(zhì)模型的召回,還需要結(jié)合人工復(fù)審,將閾值進(jìn)一步智能實(shí)驗(yàn)室李航老師在和密歇根大學(xué)共建科研項(xiàng)目,設(shè)立謠言識(shí)別平臺(tái)。推薦系統(tǒng)在視頻、音樂場(chǎng)景下的應(yīng)用。隨著人們對(duì)于娛樂生活的需求提高,視頻網(wǎng)站不斷發(fā)展,特別是UGC網(wǎng)站的發(fā)展讓用戶逐漸自產(chǎn)內(nèi)容,其中發(fā)展迅速的有國外的YouTube、國內(nèi)的嗶哩嗶哩以及風(fēng)靡全球的TikTok和抖音。作為全球最大的視頻分享網(wǎng)站,YouTube平臺(tái)中幾乎所有的視頻都來自UGC,它的視頻基數(shù)高達(dá)十億級(jí)別,為了讓用戶能夠發(fā)現(xiàn)自己感興趣的事物,YouTube在推薦系統(tǒng)上的探索很早就開始了,可謂經(jīng)典。接下來就以YouTube的推薦算法為例進(jìn)行簡(jiǎn)要分析。整個(gè)系統(tǒng)可以分為三個(gè)部分,第一部分是召回網(wǎng)絡(luò):此階段的目的是從百萬級(jí)的視頻中挑選小部分的視頻用于之后的排序,這部分需要處理的數(shù)據(jù)量非常大,速度要求快。召回網(wǎng)絡(luò)會(huì)根據(jù)用戶的歷史信息進(jìn)行召回,這一階段召回的視頻滿足用戶泛化的興趣,用戶之間的相似度則通過粗略的特征來表示,如用戶觀看視頻的ID,搜索請(qǐng)求和用戶特征。第二部分為排序網(wǎng)絡(luò):此階段會(huì)使用更加豐富和詳盡的用戶和視頻特征,并對(duì)于多目標(biāo)進(jìn)行優(yōu)化,一方面要預(yù)測(cè)用戶的滿意程度,另一方面則是參與度指標(biāo),例如用戶的觀看時(shí)長(zhǎng)、評(píng)論、轉(zhuǎn)發(fā)等,最終加權(quán)輸出總分?jǐn)?shù),然后根據(jù)分?jǐn)?shù)進(jìn)行排序,依次展示給用戶。第三部分,進(jìn)行線下評(píng)估,評(píng)估指標(biāo)有準(zhǔn)確度、召回率等,最終效果還是需要線上做A/B測(cè)試,考察點(diǎn)擊率、觀看時(shí)間等指標(biāo)。推薦系統(tǒng)在電商場(chǎng)景下的應(yīng)用。如今推薦系統(tǒng)已經(jīng)成為各大電商平臺(tái)的主要流量入口,是做到比用戶更懂用戶的關(guān)鍵,也是掌握零售時(shí)代主動(dòng)權(quán)的重要手段。國內(nèi)外大型的電商平臺(tái)如Amazon、淘寶、京東、拼多多等都離不開推薦系統(tǒng)的應(yīng)用。淘寶作為我國最大的電商APP。以手淘推薦為例,該推薦算法需要考慮的問題主要有以下幾點(diǎn):第一是購物決策周期,用戶的決策周期需要經(jīng)過發(fā)現(xiàn)需求、獲取信息、商品對(duì)比和下單決策的過程,因此決策周期較長(zhǎng),針對(duì)不同購物狀態(tài),系統(tǒng)需要做出合適的系統(tǒng)推薦。具體來說,所有用戶的購買行為都是由內(nèi)部或外部的刺激引起的,比慣等。用戶在種種刺激因素的作用下,經(jīng)由復(fù)雜的心理活動(dòng)過程,產(chǎn)生購買動(dòng)機(jī),在動(dòng)機(jī)的第二是實(shí)效性,有些商品屬于低頻,有些屬于緊急物品,因此系統(tǒng)需要快速地感知和捕獲用戶的實(shí)時(shí)興趣和探索未知需求,在這一方面,阿里開發(fā)了Blink處理任意的流數(shù)據(jù);第三是用戶群體復(fù)雜性,對(duì)于未登錄用戶、新用戶和活躍度不同的用戶,需要制定差異化的推薦策略;第四是多場(chǎng)景,手淘推薦覆蓋場(chǎng)景高達(dá)幾百個(gè),每個(gè)場(chǎng)景條件不同,模型的超參數(shù)也不一個(gè)經(jīng)典推薦系統(tǒng)分為召回和排序兩個(gè)部分。召回指根據(jù)用戶的興趣從海量的商品中去檢索出相關(guān)候選商品,滿足推薦相關(guān)性和多樣性需求;排序則是依據(jù)用戶興趣會(huì)對(duì)候選集進(jìn)行排序截取優(yōu)先級(jí)最高的k個(gè)商品,最終給用戶推薦。手機(jī)淘寶的召回技術(shù)是動(dòng)態(tài)實(shí)時(shí)多興趣表達(dá)(MIND),采用膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由算法來獲得用戶多興趣表示,將用戶的歷史行為聚集起來,每一組歷史行為都用于推斷對(duì)應(yīng)特定興趣的用戶表示向量,輸出多個(gè)表示向量以代表特定用戶的不同興趣,從而對(duì)用戶的多興趣以及興趣的動(dòng)態(tài)性進(jìn)行刻畫。在此過程中,系統(tǒng)將學(xué)習(xí)一個(gè)函數(shù),可以通過用戶的行為得到用戶的興趣,并基于此興趣計(jì)算用戶對(duì)候選集產(chǎn)生的購買行為的概率。在排序階段,相比于傳統(tǒng)基于打分做一個(gè)貪心排序,手淘推薦使集合,將傳統(tǒng)的Top-K推薦轉(zhuǎn)化為Exact-K推薦,將排序優(yōu)化問題轉(zhuǎn)化為集合優(yōu)化,以實(shí)現(xiàn)精準(zhǔn)推薦。在實(shí)際場(chǎng)景中的淘寶推薦舉例,淘寶采用了圖嵌入技術(shù)(graphembedding),對(duì)每個(gè)用戶基于其歷史數(shù)據(jù)構(gòu)建一個(gè)有向圖,將用戶歷史點(diǎn)擊過的商品表示為圖中的節(jié)點(diǎn),在兩個(gè)被連續(xù)訪問的商品節(jié)點(diǎn)之間建立一條邊,且邊的權(quán)重表示從頭部商品節(jié)點(diǎn)到尾部商品節(jié)點(diǎn)出現(xiàn)的次數(shù),比如邊A->B。然后通過隨機(jī)游走(randomwalk)生成商品序列,在利用skip-gram算法生成商品的表示向量。通常在短時(shí)間內(nèi)訪問的商品之間的關(guān)聯(lián)度較高,而物品之間不同的訪問順序可以獲得不同的商品表示,能夠從用戶的歷史購買行為中挖掘商品的相似性。但是圖嵌入方法適用于稠密圖,即對(duì)存在較多交互商品的用戶友好,存在冷啟動(dòng)問題。為解決冷啟動(dòng)問題,即準(zhǔn)確學(xué)習(xí)到與用戶沒有交互的商品的特征表示,比如上新物品等,系統(tǒng)會(huì)給此類物品添加一些額外輔助信息(sideinformation),包括類別、品牌、商店、價(jià)格等等。例如喜歡佳能相機(jī)的用戶也可能喜歡佳能新出的一款濾鏡。綜上所述,商品的嵌入表示最終由商品本身的嵌入表示和其額外輔助特征表示兩部分集成。圖13基于圖嵌入技術(shù)的手淘推薦流程推薦系統(tǒng)在社交場(chǎng)景下的應(yīng)用。在如今的互聯(lián)網(wǎng)時(shí)代,線上社交在人們的生活中占據(jù)了十分重要的位置。隨著技術(shù)的發(fā)展,許多企業(yè)也看到了社交類應(yīng)用在推薦中的優(yōu)勢(shì)——社交關(guān)系數(shù)據(jù)的社交同質(zhì)性和社交影響力,即好友之間興趣的相似性和好友對(duì)用戶的影響力的價(jià)值。以微信為例,微信在精準(zhǔn)推薦中采取的算法是RALM,即基于look-alike模型的實(shí)時(shí)推薦算法。廣告主會(huì)給系統(tǒng)提交一批用戶名單,該用戶名單是廣告主的目標(biāo)人群,稱為種子用戶,然后根據(jù)歷史數(shù)據(jù)挑選部分對(duì)該類廣告不感興趣的用戶作為負(fù)樣本,使用某種計(jì)算用戶圖14微信精準(zhǔn)推薦算法流程圖相似度的方法,找到和種子用戶最相似并且和負(fù)樣本相差最大的目標(biāo)用戶,隨后把廣告推給目標(biāo)用戶。在此過程中,對(duì)于實(shí)時(shí)更新的文章、廣告等,RALM會(huì)實(shí)時(shí)對(duì)種子用戶進(jìn)行拓展,學(xué)習(xí)準(zhǔn)確性和多樣性的用戶表達(dá)方式。微信精準(zhǔn)推薦中的推薦算法第一階段會(huì)對(duì)用戶的表示進(jìn)行學(xué)習(xí),得到兼顧所有用戶的多樣性和準(zhǔn)確性的向量嵌入表達(dá),第二階段是根據(jù)上述兼顧所有用戶的共性嵌入表達(dá)和用戶個(gè)性信息組合形成對(duì)種子用戶整體的表達(dá)。其中局部信息使用注意力機(jī)制提取和目標(biāo)用戶相關(guān)的部分,而全局特征使用全局注意力機(jī)制實(shí)現(xiàn),其所做的就是捕捉用戶群體自身內(nèi)部的興趣分布。為了減少線上開銷,騰訊在該部分采取了k-means聚類的方法。就整個(gè)推薦流程來在線異步處理,定時(shí)更新減約線上計(jì)算;最終是在線服務(wù),根據(jù)線上請(qǐng)求以及前兩部分準(zhǔn)備的內(nèi)容計(jì)算相似度。第三章推薦領(lǐng)域面臨的問題3.1.信息繭房“信息繭房”概念是由美國學(xué)者凱斯·桑斯坦在2006年出版的著作《信息烏托邦》[36]中提出的,指主動(dòng)或被動(dòng)地關(guān)注自己感興趣的信息,久而久之形成信息的壁壘。具體來說,用戶一旦形成閱讀習(xí)慣,就會(huì)被自己的興趣限定于特定領(lǐng)域,對(duì)其他問題和知識(shí)缺乏關(guān)注,趣在較小的范圍內(nèi)。如圖14所示,比如用戶A初期喜歡觀看體育、歷史、娛樂和音樂四個(gè)類型的新聞,推薦系統(tǒng)根據(jù)用戶的觀看記錄將四類新聞推薦給用戶,用戶根據(jù)當(dāng)下的興趣偏好選擇性的觀看了體育和歷史類的新聞。接著,推薦系統(tǒng)根據(jù)用戶的瀏覽記錄捕捉到用戶近期瀏覽的體育和歷史類的新聞?shì)^多,推測(cè)用戶可能比較喜歡這兩類的新聞,將推薦結(jié)果中的體育和歷史類的新聞數(shù)量占比提高以滿足用戶的興趣偏好。用戶在此推薦結(jié)果下根據(jù)自己的喜歡繼續(xù)瀏覽。久而久之,用戶A獲取的信息大多是跟體育相關(guān)的,很難獲取音樂或者娛樂等其它相關(guān)的資訊。隨著時(shí)間的推移,以用戶A為代表的人群對(duì)外界的信息接收范圍變得越來越小。定到體育領(lǐng)域。信息繭房從來都有,并非新現(xiàn)象。從傳統(tǒng)媒體時(shí)代到如今的智能傳播時(shí)代,一直存在于我們看自己感興趣的刊物、欄目或者頻道等。進(jìn)入門戶網(wǎng)站時(shí)代,用戶也只關(guān)注自己感興趣的頻道,比如音樂、體育等。只不過進(jìn)入智能傳播時(shí)代,隨著科學(xué)技術(shù)的發(fā)展,推薦算法為信息繭房提供了新的形成機(jī)制。在信息爆炸的今天,推薦系統(tǒng)作為一種信息過濾系統(tǒng),根據(jù)用戶的屬性和歷史行為記錄,學(xué)習(xí)出用戶的興趣愛好,預(yù)測(cè)用戶對(duì)給定事物、內(nèi)容、物品或者服務(wù)等的喜愛程度而進(jìn)行相關(guān)的推薦。根據(jù)興趣愛好提供智能化、個(gè)性化、精準(zhǔn)化的推送是如今普遍的媒介傳播機(jī)制,可能使一部分人陷入“信息繭房”效應(yīng)的主要原因。信息繭房對(duì)人們的日常生活和文化行為產(chǎn)生深遠(yuǎn)影響,弱化“信息繭房”效應(yīng)可以讓用戶克服“信息繭房”帶來的局限性,嘗試接收來自平臺(tái)其他的信息,從“小圈子”中走出“信息繭房”效應(yīng)帶來使算法能夠更好地服務(wù)用戶。圖16信息繭房在不同時(shí)期的表現(xiàn)舉例3.2.算法黑盒在人工智能時(shí)代,推薦系統(tǒng)的技術(shù)發(fā)展突飛猛進(jìn),以深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)或復(fù)雜的集成模型等為代表的先進(jìn)技術(shù)方案給推薦系統(tǒng)的提升帶來了顯著收益。這類模型通常具有很高的準(zhǔn)確性。然而,隨著深度學(xué)習(xí)等方案的應(yīng)用,模型復(fù)雜度越來越高,整個(gè)推薦系統(tǒng)越來越變成一種黑盒,以至于這些模型的內(nèi)部工作機(jī)制難以理解,無法估計(jì)每個(gè)特征對(duì)模型預(yù)測(cè)結(jié)果的重要性,更不能理解不同特征之間的相互作用關(guān)系。試想,如果推薦系統(tǒng)不僅僅是建模用戶興趣特征以提供個(gè)性化推薦結(jié)果,還能將用戶興趣白盒化地給出一些人能理解的解釋,比如給出較為簡(jiǎn)單的文字標(biāo)簽解釋推薦結(jié)果,而不是給出一串無法理解的數(shù)字。如果推薦系統(tǒng)能夠解釋為什么會(huì)有相應(yīng)的推薦結(jié)果,那么推薦系統(tǒng)就可以實(shí)時(shí)地去預(yù)估用戶未來的興趣,還能指導(dǎo)內(nèi)容生產(chǎn)者去生產(chǎn)更多滿足用戶需要的內(nèi)容,將整個(gè)系統(tǒng)的推薦價(jià)值推到更高。同時(shí),推薦系統(tǒng)推薦某個(gè)物品、內(nèi)容或者服務(wù)的邏輯可以顯式的透?jìng)鹘o用戶,讓用戶給出對(duì)這個(gè)推薦邏輯的反饋,而不是僅僅給出對(duì)推薦結(jié)果的反饋,這樣推薦系統(tǒng)能更接近感知用戶真趣,也會(huì)變得更精準(zhǔn)??山忉屝酝扑]系統(tǒng)正是為了應(yīng)對(duì)推薦系統(tǒng)黑盒問題而提出的。無論模型如何復(fù)雜,可解釋性推薦模型都能通過旁路系統(tǒng)的方式對(duì)原有的復(fù)雜黑盒推薦系統(tǒng)進(jìn)行拆解,來解釋推薦的原因??山忉尩耐扑]系統(tǒng)能夠更好地幫助我們理解整套復(fù)雜的推薦系統(tǒng),并且能為偶爾出現(xiàn)的badcase進(jìn)行合理解釋和改進(jìn)。模型的可解釋性是大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)都需要的一種能力,也是推薦系統(tǒng)在人工智能時(shí)代研究的主要趨勢(shì)。圖17算法黑盒3.3.價(jià)值觀及倫理問題在報(bào)紙作為主要信息傳播模式的時(shí)代,信息傳播是中心化的,大眾能看到什么信息,取決于媒體的編輯。而在智能手機(jī)普及的今天,大眾獲得信息的來源已經(jīng)從報(bào)紙、電視轉(zhuǎn)移到了手機(jī)上。目前市場(chǎng)上一些知名的信息類軟件,比如今日頭條、騰訊新聞、新浪看點(diǎn)、北京圖片上停留的時(shí)間等各種數(shù)據(jù),通過這些數(shù)據(jù),使用個(gè)性化算法來為用戶推薦可能感興趣的個(gè)性化資訊。如果用戶將自己的時(shí)間和閱讀渠道都全部交給了一個(gè)應(yīng)用,那么這個(gè)應(yīng)用應(yīng)當(dāng)擔(dān)負(fù)起一些信息傳播的倫理責(zé)任嗎?下面給出一些非常有趣的例子。如果用戶持續(xù)地在閱讀一些誤導(dǎo)性很強(qiáng)的文章,比如“讀書無用論”,“各種偏方秘方”等,此時(shí)的推薦算法實(shí)際上會(huì)給用戶推薦更多這樣的內(nèi)容,從而將用戶帶入一個(gè)更偏執(zhí)的信息環(huán)境中。這里面一個(gè)核心的倫理問題就是“用戶長(zhǎng)期存在于這樣的環(huán)境中而形成的錯(cuò)誤價(jià)值取向,是否需要對(duì)可能造成的社LuckDormehl子,美國政府根據(jù)姓名、出生地、宗教信仰、人臉識(shí)別算法、歷史行為數(shù)據(jù)等,會(huì)對(duì)每一位航空旅客是恐怖分子的嫌疑度進(jìn)行打分,一些無辜的人因?yàn)橐伤瓶植婪肿?,而?jīng)常在機(jī)場(chǎng)被羈留檢查,甚至多次錯(cuò)過飛機(jī)。這里面一個(gè)核心的倫理問題就是“我們是否應(yīng)該為尚未發(fā)生的一種可能性付出代價(jià)”。面對(duì)上述類似的倫理問題,人們不得不思考推薦系統(tǒng)在其中到底扮演著什么角色?需要承擔(dān)什么責(zé)任?是否需要對(duì)推薦算法進(jìn)行規(guī)制以規(guī)避上述問題的產(chǎn)生?因此,本小節(jié)就推薦系統(tǒng)目前面臨的典型且公眾較為關(guān)注的價(jià)值觀和倫理問題做如下總結(jié)。容虛假新聞和低俗內(nèi)容是推薦算法面臨的客觀現(xiàn)象。從算法設(shè)計(jì)的初衷看,其本身并不會(huì)提倡標(biāo)題黨、煽情和低俗化內(nèi)容。智能推薦算法從海量數(shù)據(jù)中挖掘特征來訓(xùn)練模型,為用戶造成虛假新聞和低俗內(nèi)容泛濫的原因主要如下:(1)在互聯(lián)網(wǎng)的海量數(shù)據(jù)中往往已經(jīng)存在大量低質(zhì)化信息,推薦算法直接在包含噪聲的數(shù)據(jù)基礎(chǔ)上進(jìn)行建模,在大眾審美品位沒有得到根本提升的前提下,以及好奇、獵奇心理的驅(qū)使下,低俗內(nèi)容和虛假新聞會(huì)廣泛閱讀、瀏覽和傳播。為滿足用戶的興趣偏好,推薦系統(tǒng)可能將點(diǎn)擊和瀏覽量高的虛假和低俗內(nèi)容繼續(xù)推薦給用戶;(2)推薦算法的設(shè)計(jì)和推薦過程都有人為參與,設(shè)計(jì)推薦算法的工程師未接受專業(yè)化新聞倫理訓(xùn)練的情況下,在算法發(fā)展的初期主要關(guān)注內(nèi)容和用戶興趣的匹配度等指標(biāo),沒有將對(duì)社會(huì)價(jià)值的導(dǎo)向要求需要內(nèi)化為算法的具體規(guī)則,低質(zhì)化傾向。(3)不同于人工編輯和人工篩選,純粹的個(gè)性化推薦系統(tǒng)缺乏對(duì)文章的質(zhì)量與內(nèi)容的把關(guān),終極目標(biāo)就是實(shí)現(xiàn)流量最大化。因此,用戶在獵奇心理驅(qū)使下點(diǎn)開的虛假新聞、低俗內(nèi)容就會(huì)在網(wǎng)絡(luò)環(huán)境中廣泛地傳播,如早孕網(wǎng)紅、暴力血腥等內(nèi)容嚴(yán)重破壞了網(wǎng)絡(luò)生態(tài)環(huán)境。推薦算法并不必然助長(zhǎng)內(nèi)容生態(tài)的低質(zhì)化。這要從算法設(shè)計(jì)的主要特征分析,分為個(gè)體、群體、整體三個(gè)層次的特征:對(duì)個(gè)體用戶,算法一般通過對(duì)內(nèi)容特征、人的特征、環(huán)境特征三個(gè)維度指標(biāo)的分析,在特定人和特定內(nèi)容之間做出力求精準(zhǔn)的匹配。內(nèi)容特征可能包括領(lǐng)性別、職業(yè)、使用行為、機(jī)型等指標(biāo),環(huán)境特征包括時(shí)間、地點(diǎn)、天氣和網(wǎng)絡(luò)類型等。在群體層面,算法通過尋找不同用戶在興趣分類、主題、實(shí)體詞和使用行為上的相似性,將一個(gè)用戶感興趣的內(nèi)容推薦給另一個(gè)人,這已不是基于用戶自己的歷史行為,而是基于群體隱性關(guān)聯(lián)之上的協(xié)同推薦。就網(wǎng)民整體,算法則基于內(nèi)容的熱度特征,包括全平臺(tái)的熱點(diǎn)文章或不同類別、主題和關(guān)鍵詞的熱點(diǎn)內(nèi)容,在“冷啟動(dòng)”階段對(duì)新用戶進(jìn)行初步推薦。隨著推薦系統(tǒng)的流行,信息分發(fā)逐漸從編輯中心轉(zhuǎn)向機(jī)器分發(fā),在信息環(huán)境的活力和豐富程度獲得加強(qiáng)的同時(shí),信息環(huán)境的不可控性亦因此加強(qiáng)。出于內(nèi)容生態(tài)和社會(huì)責(zé)任的考量,內(nèi)容降權(quán)都是需要信息分發(fā)系統(tǒng)進(jìn)行干預(yù),使得信息成為歷史的精華,而不是一種被操縱和營銷的產(chǎn)品。3.3.2.算法偏見和歧視智能算法推薦是否會(huì)加劇全球不平等現(xiàn)象與社會(huì)沖突?《自然》雜志曾用BIBO表示t情緒,容易受外部因素影響,怎么會(huì)產(chǎn)生歧視呢?一些生活中的現(xiàn)象說明算法歧視確實(shí)存在。比如,一些圖像識(shí)別軟件之前還將黑人錯(cuò)誤地標(biāo)記為“黑猩猩”或者“猿猴”;微軟公司在美國Twitter上的線上聊天機(jī)器人Tay在與網(wǎng)民互動(dòng)過程中,成為了一個(gè)集性別歧視、種族歧視等于一身的“不良少女”;在亞馬遜公司曾開發(fā)的一款用于篩選簡(jiǎn)歷的算法中,意外被“培養(yǎng)”出歧視女性應(yīng)聘者的偏好。顯然,算法從受相同偏見影響的內(nèi)容中學(xué)習(xí)到更多偏見,這些認(rèn)知偏見經(jīng)網(wǎng)上廣泛傳播后導(dǎo)致更為廣泛的社會(huì)沖突。更進(jìn)一步,如果一個(gè)AI系統(tǒng)依但是現(xiàn)有算法無法有效地將這一小部分用戶和其他大部分用戶區(qū)分開。那么這些用戶的數(shù)據(jù)無法很好地影響算法的訓(xùn)練,導(dǎo)致模型最終決定給一小部分用戶推薦的結(jié)果和大部分用戶的推薦結(jié)果一樣。由于推薦系統(tǒng)的優(yōu)化目標(biāo)是整體的準(zhǔn)確率或者收益,這一小部分用戶給出的負(fù)向反饋會(huì)被忽略掉,慢慢的這一小部分用戶和平臺(tái)的交互可能變得越來越少,最終被推薦系統(tǒng)成功地?cái)D走。而這一切發(fā)生得是很隱蔽的,可能系統(tǒng)都沒意識(shí)到自己丟失了這部分價(jià)值。從道德上講,這樣對(duì)少數(shù)派的忽略是不公平的。從商業(yè)價(jià)值上講,可能短期看上去僅僅失去占比很少的少數(shù)派代表的價(jià)值,然而如果推薦系統(tǒng)這樣循環(huán)下去,其實(shí)是在源源不斷的失去一小部分價(jià)值,累積起來是非常大的損失。隨著算法決策越來越多,類似的歧視也會(huì)越來越多。而且,算法歧視會(huì)帶來危害。一方面,如果將算法應(yīng)用在犯罪評(píng)估、信用貸款、雇傭評(píng)估等關(guān)切人身利益的場(chǎng)合,一旦產(chǎn)生歧視,必然危害個(gè)人權(quán)益。另一方面,深度學(xué)習(xí)是一個(gè)典型的“黑箱”算法,連設(shè)計(jì)者可能都不知道算法如何決策,要在系統(tǒng)中發(fā)現(xiàn)有沒有存在歧視和歧視根源,在技術(shù)上是比較困難的。那么,為什么算法可能暗藏歧視?算法決策在很多時(shí)候其實(shí)就是一種預(yù)測(cè),用過去的數(shù)據(jù)預(yù)測(cè)未來的趨勢(shì)。算法模型和數(shù)據(jù)輸入決定著預(yù)測(cè)的結(jié)果。因此,這兩個(gè)要素也就成為算法歧視的主要來源。一方面,算法在本質(zhì)上是“以數(shù)學(xué)方式或者計(jì)算機(jī)代碼表達(dá)的意見”,包括其設(shè)計(jì)、目的、成功標(biāo)準(zhǔn)、數(shù)據(jù)使用等等都是設(shè)計(jì)者、開發(fā)者的主觀選擇,設(shè)計(jì)者和開發(fā)者可能將自己所懷抱的偏見嵌入算法系統(tǒng)。另一方面,數(shù)據(jù)的有效性、準(zhǔn)確性,也會(huì)影響整個(gè)算法決策和預(yù)測(cè)的準(zhǔn)確性。比如,數(shù)據(jù)是社會(huì)現(xiàn)實(shí)的反映,訓(xùn)練數(shù)據(jù)本身可能是歧視性的,用這樣的數(shù)據(jù)訓(xùn)練出來的AI系統(tǒng)自然也會(huì)帶上歧視的影子;再比如,數(shù)據(jù)可能是不正確、不完整或者過時(shí)的,帶來所謂的“垃圾進(jìn),垃圾出”的現(xiàn)象;此外,算法歧視可能是具有自我學(xué)習(xí)和適應(yīng)能力的算法在交互過程中學(xué)習(xí)得到的,AI系統(tǒng)在與現(xiàn)實(shí)世界交互過程中,可能沒法區(qū)別什么是歧視,什么不是歧視。更進(jìn)一步,算法有可能將歧視固化或者放大,使歧視自我長(zhǎng)存于整個(gè)算法里面。算法決策是在用過去預(yù)測(cè)未來,而過去的歧視可能會(huì)在算法中得到鞏固并在未來得到加強(qiáng),因?yàn)殄e(cuò)誤的輸入形成的錯(cuò)誤輸出作為反饋,進(jìn)一步加深了錯(cuò)誤。最終,算法決策不僅僅會(huì)將過去的歧視做法代碼化,而且會(huì)創(chuàng)造自己的現(xiàn)實(shí),形成一個(gè)“自我實(shí)現(xiàn)的歧視性反饋循環(huán)”。包括預(yù)測(cè)性警務(wù)、犯罪風(fēng)險(xiǎn)評(píng)估、信用評(píng)估等都存在類似問題。相比于人的能動(dòng)性,算法決策其實(shí)缺乏對(duì)未來的想象力,而人類社會(huì)的進(jìn)步需要這樣的想象力。3.3.3.算法公平性公平,這個(gè)詞大家經(jīng)常聽到,存在于日常生活的方方面面。比如,找工作時(shí),有的公司不看能力只看學(xué)歷,有的單位不愿招女員工而傾向于招男員工等等。類比上述性別偏見、種族歧視等不公平問題,推薦系統(tǒng)中同樣存在這樣的不公平問題。那么,公平性之于推薦系統(tǒng)又是什么?如同沒有絕對(duì)的正義,也沒有絕對(duì)的公平。所謂的公平,只是站在不同的角度定義而已。比如招聘網(wǎng)站上,求職者方的公平可能定義為:相同的學(xué)歷和能力可以被推薦類似的工作,而不受國籍、種族和性別等偏見;招聘方的公平可能定義為:系統(tǒng)可以將他們的招聘信息推給優(yōu)質(zhì)的求職者,而不會(huì)因?yàn)楣镜谋尘暗纫蛩?,只將招聘信息推給不太合適的求職者。在電商場(chǎng)景下亦是如此,購買者的公平可能定義為:商品推薦應(yīng)該多樣化,而不受物品流行度、物品曝光量、價(jià)格、廠商等的影響;物品的公平可能定義為:物品應(yīng)具有相同的用戶偏好放大是針對(duì)用戶方(user)的公平性問題,體現(xiàn)為用戶搜索了一樣?xùn)|西后,接下來一段時(shí)間的推薦都是關(guān)于這個(gè)物品的,哪怕你已經(jīng)購買或點(diǎn)擊了這個(gè)物品。比如某用戶購買了3條裙子和一個(gè)鞋子,由于推薦系統(tǒng)放大了用戶對(duì)裙子的偏好,推薦系統(tǒng)很大可能只給用戶推薦裙子,從而忽略了用戶對(duì)鞋子或其他物品的喜愛。推薦系統(tǒng)的這種偏好放大現(xiàn)象將逐漸縮小用戶的興趣范圍,向用戶推薦的東西越來越單一,喪失了多元化,讓用戶看不到本來想要或者未來會(huì)感興趣的東西。那么,為什么會(huì)出現(xiàn)用戶偏好放大的現(xiàn)象呢?從數(shù)據(jù)層面看,推薦系統(tǒng)建立在類別分類不平衡的輸入數(shù)據(jù)上,在沒有其他可用信息的情況下,推薦系統(tǒng)將結(jié)果全部預(yù)測(cè)為最多的那一類就可以得到最高的準(zhǔn)確率。從推薦模型層面看,推薦系統(tǒng)采樣正樣本時(shí)傾向于采用數(shù)量占比較多的類別,在訓(xùn)練過程中將這種偏差帶入模型中,并在推薦結(jié)果中放大這種偏差。流行度偏差通常是針對(duì)物品方(items)的公平性問題,體現(xiàn)為推薦系統(tǒng)更多偏愛推薦較為流行的物品,而不流行的物品有較少的機(jī)會(huì)被推薦或展示。長(zhǎng)此以往,流行的物品變得越來越流行,不流行的卻變得越來越不流行,這就是推薦系統(tǒng)中的馬太效應(yīng)。首先是對(duì)不流行物品的不公平,不流行物品可以類比為新開的店鋪,所賣物品也許質(zhì)量很好,卻遲遲得不到推薦系統(tǒng)的推薦,讓店家不得不選擇別的平臺(tái)。其次是對(duì)于推薦平臺(tái)也是不利的,提高不流行物品的曝光率,一方面可以為用戶得到更多的選擇,提高推薦列表的多樣性,讓推薦系統(tǒng)更好地實(shí)現(xiàn)個(gè)性化,另一方面可以吸引更多新的店家,擴(kuò)大平臺(tái)規(guī)模。反之,推薦結(jié)果如果包含大量的流行物品,結(jié)果趨同,用戶得不到好的個(gè)性化體驗(yàn),而且這些流行物品可能并不需要推薦系統(tǒng)就能被用戶發(fā)現(xiàn),其實(shí)也是一種資源的浪費(fèi)。3.4.用戶隱私與安全問題用戶的隱私和安全問題是推薦系統(tǒng)面臨的一對(duì)主要矛盾。一方面由于數(shù)據(jù)稀疏,需要獲取盡可能多的數(shù)據(jù)。相反,在拿到越來越多用戶數(shù)據(jù)后,用戶數(shù)據(jù)的隱私和安全問題就會(huì)顯分和用戶相似度矩陣來進(jìn)行推演攻擊的可行性,這導(dǎo)致了用戶對(duì)個(gè)人隱私信息的普遍擔(dān)憂。通常,用戶的歷史信息越詳盡,推薦結(jié)果則越精準(zhǔn)。然而,對(duì)用戶數(shù)據(jù)的深度分析與挖掘會(huì)對(duì)用戶的隱私造成嚴(yán)重的威脅。因此,如何做好緩解數(shù)據(jù)稀疏與保護(hù)用戶隱私安全之間的平衡是一個(gè)很嚴(yán)峻的研究問題,也使得在保護(hù)用戶隱私的前提下實(shí)現(xiàn)準(zhǔn)確的推薦成為目前推薦系統(tǒng)領(lǐng)域的一個(gè)研究熱點(diǎn)。很多AI系統(tǒng),包括深度學(xué)習(xí)技術(shù),大多都是依賴大量的數(shù)據(jù)來訓(xùn)練學(xué)習(xí)算法。數(shù)據(jù)已經(jīng)成了AI時(shí)代的“新石油”,這帶來新的隱私憂慮。一方面,如果在深度學(xué)習(xí)過程中使用大量的敏感數(shù)據(jù),這些數(shù)據(jù)可能會(huì)在后續(xù)被披露出去,對(duì)個(gè)人的隱私會(huì)產(chǎn)生影響。所以AI研究人員已經(jīng)在提倡如何在深度學(xué)習(xí)過程中保護(hù)個(gè)人隱私。另一方面,考慮到各種服務(wù)之間大量交易數(shù)據(jù),數(shù)據(jù)流動(dòng)不斷頻繁,數(shù)據(jù)成為新的流通物,可能削弱個(gè)人對(duì)其個(gè)人數(shù)據(jù)的控AI規(guī)劃的隱私、默認(rèn)的隱私、個(gè)人數(shù)據(jù)管理工具、匿名化、假名化、差別化隱私、決策矩陣等等都是在不斷發(fā)展和完善的一些標(biāo)準(zhǔn),值得在深度學(xué)習(xí)和AI產(chǎn)品設(shè)計(jì)中提倡。第四章推薦領(lǐng)域研究趨勢(shì)4.1.信息繭房從某種層面上講,信息繭房效應(yīng)是推薦信息的不平衡性造成的。信息繭房效應(yīng)導(dǎo)致用戶長(zhǎng)期只能瀏覽

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論