2023年從產(chǎn)品經(jīng)理角度解說知識圖譜_第1頁
2023年從產(chǎn)品經(jīng)理角度解說知識圖譜_第2頁
2023年從產(chǎn)品經(jīng)理角度解說知識圖譜_第3頁
2023年從產(chǎn)品經(jīng)理角度解說知識圖譜_第4頁
2023年從產(chǎn)品經(jīng)理角度解說知識圖譜_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

從產(chǎn)品經(jīng)理角度解說知識圖譜由于工作中參加了一項(xiàng)智能問答相關(guān)的項(xiàng)目,所以我需要了解“學(xué)問圖譜”的相關(guān)學(xué)問。作為非技術(shù)出身的B端產(chǎn)品經(jīng)理,初涉AI領(lǐng)域多少有點(diǎn)生疏和不適應(yīng)。

于是翻閱了許多文獻(xiàn)資料及技術(shù)科普,也請教了身邊做AI的技術(shù)同學(xué),從中大致了解了“學(xué)問圖譜”的一些原理,并整理了以下文章。

盼望我的文章能讓同是非技術(shù)誕生的產(chǎn)品經(jīng)理,或者其他崗位的同學(xué),能更簡潔、快速地了解什么是“學(xué)問圖譜”。

一、學(xué)問圖譜的應(yīng)用

在介紹學(xué)問圖譜前,先說下學(xué)問圖譜在日常中的應(yīng)用。

1.智能搜尋

舉個(gè)例子,你在使用百度搜尋“楊冪”時(shí),搜尋結(jié)果除了包楊冪的個(gè)人信息及相關(guān)新聞以外,還給你展現(xiàn)了她的關(guān)系圈及合作過的藝人,這些人際關(guān)系信息都與“楊冪”這個(gè)關(guān)鍵字沒有重合,但由于和“楊冪”這個(gè)實(shí)體有實(shí)際關(guān)系,所以都在“楊冪”的搜尋結(jié)果中。

2.智能問答

在智能問答方面,會通過學(xué)問圖譜為你推理出答案。例如,你搜尋“楊冪的前夫”,會直接給你返回“劉愷威”的信息。

再舉個(gè)例子,在線上醫(yī)療行業(yè),當(dāng)患者想掛號卻不清晰該掛哪個(gè)科室時(shí),可以通過診前助手獵取科室信息。診前助手是基于專業(yè)醫(yī)療學(xué)問圖譜,采納多種算法模型與多輪智能交去互理解病人的病情,依據(jù)病人的病情精準(zhǔn)匹配就診科室。

3.共性化推舉

在共性化推舉方面,以搜尋張國榮的“胭脂扣”為例,會基于《胭脂扣》的電影信息,如演員、導(dǎo)演、上映年份、作品類型等,推舉出更多關(guān)聯(lián)作品。例如會推舉張國榮的其他電影、推舉同一時(shí)期(80-90年月)的香港電影、與張國榮合作過的其他演員的電影等等。

4.風(fēng)險(xiǎn)防范

以支付寶為例,在支付場景中,用學(xué)問圖譜將刷單詐騙及信用卡套現(xiàn)等行為扼殺在搖籃中:通過學(xué)問圖譜的圖數(shù)據(jù)庫,對不同的個(gè)體、團(tuán)體做關(guān)聯(lián)分析,從人物在指定時(shí)間內(nèi)的行為,例如去過地方的IP地址、曾經(jīng)使用過的MAC地址(包括手機(jī)端、PC端、WIFI等)、社交網(wǎng)絡(luò)的關(guān)聯(lián)度分析,銀行賬號之間是否有歷史交易信息等,推斷用戶是否存在風(fēng)險(xiǎn)行為。

二、學(xué)問圖譜定義

在描述定義之前,我們先看看學(xué)問圖譜的表現(xiàn)形式——【E-R圖】:

(圖片源自百度搜尋)

從上圖我們可以發(fā)覺,無論E-R圖變換成什么外形,外觀如何不同,他都是由多個(gè)點(diǎn)和多條線相互連接形成的關(guān)系型網(wǎng)絡(luò)。

點(diǎn)我們稱為【實(shí)體】,線我們稱為【關(guān)系】,每個(gè)實(shí)體可能和一個(gè)或多個(gè)實(shí)體存在關(guān)系。基于此,要組成最簡潔的關(guān)系型網(wǎng)絡(luò),只需三個(gè)要素:兩個(gè)實(shí)體和一個(gè)關(guān)系。這樣的結(jié)構(gòu),我們稱之為“三元組”,多個(gè)三元組構(gòu)成學(xué)問圖譜。

(三元組)

舉個(gè)例子:“小芳和小明是同事,由于工作需要,兩人都在選購筆記本。小明覺得用蘋果筆記本會更有逼格,所以入手了,而小芳覺得Lenovo的筆記本比較廉價(jià),所以選擇了Lenovo。后來小芳發(fā)覺,始終被同事安利的sketch這個(gè)軟件只在蘋果電腦有,它比Axure更智能好用?!睆倪@句話中,我們可以拆解多個(gè)三元組:

實(shí)體:小明、小芳、蘋果筆記本、Lenovo筆記本、Sketch。實(shí)體一般是名詞,表示的是人、事、物的抽象化對象。關(guān)系:購買、擁有、同事。關(guān)系是指兩個(gè)實(shí)體之間的聯(lián)系,這種聯(lián)系多種多樣,可以是類屬關(guān)系、并列關(guān)系等。學(xué)問圖譜的三元組除了可以表達(dá)實(shí)體間的關(guān)系以外,還能表示實(shí)體的某種屬性。比如“小明”是實(shí)體,他的“性別、誕生日期、籍貫”等可劃為屬性。

事物被定義為實(shí)體的“屬性”,有兩條基本準(zhǔn)則:

作為屬性,不能再具有需要描述的性質(zhì)。屬性必需是不行分的數(shù)據(jù)項(xiàng),不能包含其他屬性屬性不能與其他實(shí)體具有聯(lián)系同時(shí)值得留意的是,依據(jù)實(shí)際狀況,實(shí)體有時(shí)可以是屬性,屬性也可以是實(shí)體。

以下圖為例:“職工”是一個(gè)實(shí)體,“職工號、姓名、年齡”是職工的屬性,“職稱”假如沒有與“工資、文位津貼、福利”掛鉤,換句話說,沒有需要進(jìn)一步描述的特性,則依據(jù)準(zhǔn)則1可以作為職工實(shí)體的屬性。

但假如不同的職稱有不同的工資、崗位津貼和不同的附加福利,則職稱作為一個(gè)實(shí)體看待就更恰當(dāng)。

(圖片源自網(wǎng)絡(luò),如侵權(quán)請聯(lián)系刪除)

說到這里,大家應(yīng)當(dāng)能更好理解【學(xué)問圖譜】的定義:學(xué)問圖譜是結(jié)構(gòu)化語義學(xué)問庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是『實(shí)體-關(guān)系-實(shí)體』三元組,以及實(shí)體及其相關(guān)屬性-值對,實(shí)體之間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的學(xué)問結(jié)構(gòu)。

學(xué)問圖譜能能夠打破不同場景下的數(shù)據(jù)隔離,為搜尋、推舉、問答、解釋與決策等應(yīng)用供應(yīng)基礎(chǔ)支撐。

三、學(xué)問圖譜的構(gòu)建過程

了解學(xué)問圖譜的構(gòu)建,能關(guān)心我們更好理解學(xué)問圖譜的應(yīng)用原理。

學(xué)問圖譜的構(gòu)建流程,總結(jié)有三:

信息獵取學(xué)問融合學(xué)問加工對每個(gè)步驟的介紹及其意義,我整理了如下表格:

非商業(yè)轉(zhuǎn)載請注明出處

下圖是學(xué)問圖譜的技術(shù)架構(gòu),可以關(guān)心大家更好理解學(xué)問圖譜的構(gòu)建流程。其中虛線框內(nèi)的部分為學(xué)問圖譜的構(gòu)建過程,同時(shí)也是學(xué)問圖譜更新的過程。

(圖片源自網(wǎng)絡(luò),已作中文化處理,如侵權(quán)請聯(lián)系刪除)

四、數(shù)據(jù)要求及數(shù)據(jù)庫類型

1)要構(gòu)建學(xué)問圖譜,需要怎樣的數(shù)據(jù)呢?

答案是:結(jié)構(gòu)化的數(shù)據(jù)。

學(xué)問圖譜的原始數(shù)據(jù)類型一般來說有三類:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。而最終的學(xué)問圖譜需要結(jié)構(gòu)化數(shù)據(jù)作為支撐。

所謂結(jié)構(gòu)化數(shù)據(jù),是指高度組織和整齊格式化的數(shù)據(jù),它是可以放入電子表格中的數(shù)據(jù)類型。典型的結(jié)構(gòu)化數(shù)據(jù)包括:信用卡號碼、日期、財(cái)務(wù)金額、電話號碼、地址、產(chǎn)品名稱等。

與之相對的非結(jié)構(gòu)化數(shù)據(jù)是指不簡單組織或格式化的數(shù)據(jù),它沒有預(yù)定義的數(shù)據(jù)模型,不便利用數(shù)據(jù)庫二維規(guī)律表來表現(xiàn)的數(shù)據(jù)。它可能是文本的或非文本的,也可能是人為的或機(jī)器生成的。

簡潔來說,非結(jié)構(gòu)化數(shù)據(jù)就是字段可變的的數(shù)據(jù),主要是一些文檔、文件等,比如一些合同文件、文章、PDF文檔等。

而半結(jié)構(gòu)化數(shù)據(jù),是非關(guān)系模型的,有基本固定結(jié)構(gòu)模式的數(shù)據(jù),例如日志文件、XML文檔、JSON文檔等。

對于非結(jié)構(gòu)化數(shù)據(jù)及半結(jié)構(gòu)化數(shù)據(jù),需要我們確認(rèn)從中提取哪些可用信息,并制定信息錄入規(guī)章,借助NLP等技術(shù),將有效信息生成為結(jié)構(gòu)化數(shù)據(jù),再計(jì)入學(xué)問圖譜中。

2)圖數(shù)據(jù)庫及關(guān)系型數(shù)據(jù)庫的差別

學(xué)問圖譜是用圖數(shù)據(jù)庫存儲數(shù)據(jù)的。所謂圖數(shù)據(jù)庫,不是指存儲圖片、圖像的數(shù)據(jù)庫,而是指存儲圖這種數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)庫。之前我們說的E-R圖,就是圖數(shù)據(jù)的可視化展現(xiàn)。

不同于傳統(tǒng)的使用二維表格存儲數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫,圖數(shù)據(jù)庫在傳統(tǒng)意義上被歸類為NoSQL(NotOnlySQL)數(shù)據(jù)庫的一種,也就是說圖數(shù)據(jù)庫屬于非關(guān)系型數(shù)據(jù)庫。為了避開內(nèi)容太過技術(shù)性,這里不會對圖數(shù)據(jù)進(jìn)行深化的介紹,只簡潔說下圖數(shù)據(jù)庫及關(guān)系型數(shù)據(jù)庫的差別。

關(guān)系型數(shù)據(jù)庫不擅特長理數(shù)據(jù)之間的關(guān)系,而圖數(shù)據(jù)庫在處理數(shù)據(jù)之間關(guān)系方面敏捷且高性能。

傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在處理簡單關(guān)系的數(shù)據(jù)上表現(xiàn)很差,這是由于關(guān)系型數(shù)據(jù)庫是通過外鍵的約束來實(shí)現(xiàn)多表之間的關(guān)系引用的。查詢實(shí)體之間的關(guān)系需要JOIN操作,而JOIN操作通常特別耗時(shí)。

而圖數(shù)據(jù)庫的原始設(shè)計(jì)動機(jī),就是更好地描述實(shí)體之間的關(guān)系。圖數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫最大的不同就是免索引鄰接,圖數(shù)據(jù)模型中的每個(gè)節(jié)點(diǎn)都會維護(hù)與它相鄰的節(jié)點(diǎn)關(guān)系,這就意味著查詢時(shí)間與圖的整體規(guī)模無關(guān),只與每個(gè)節(jié)點(diǎn)的鄰點(diǎn)數(shù)量有關(guān),這使得圖數(shù)據(jù)庫在處理大量簡單關(guān)系時(shí)也能保持良好的性能。

另外,圖的結(jié)構(gòu)打算了其易于擴(kuò)展的特性。我們不必在模型設(shè)計(jì)之初就把全部的細(xì)節(jié)都考慮到,由于在后續(xù)增加新的節(jié)點(diǎn)、新的關(guān)系、新的屬性甚至新的標(biāo)簽都很簡單,也不會破壞已有的查詢和應(yīng)用功能。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論