




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
3.(不要慌,我舉個(gè)例子而已,你 上說的話還是安全的)物品這一端也有大量文本信息,可以用于構(gòu)建物品(ItemProfile),并最終幫助豐富用戶(UserProfile),這些數(shù)據(jù)舉例來說有:物品的標(biāo)題、描物品本身的內(nèi)容(一般指資訊類物品的其他基本屬性的文要用物品和用戶的文本信息構(gòu)建出一個(gè)基礎(chǔ)版本的用戶,大致需要做這些事把所有非結(jié)構(gòu)化的文本結(jié)構(gòu)化,去粗取精,保留關(guān)鍵根據(jù)用戶行為數(shù)據(jù)把物品的結(jié)構(gòu)化結(jié)果傳遞給用戶,與用戶自己的結(jié)構(gòu)化信息合第一步最關(guān)鍵也最基礎(chǔ),其準(zhǔn)確性、粒度、覆蓋面都決定了用戶的質(zhì)量。仿佛如果真的要繪制一個(gè)用戶的模樣,要提前給他拍照,這個(gè)拍照技術(shù)決定了后面的描繪情況,無論是采用素描、油畫、工筆還是寫意。這一步要用到很多文本挖掘算法,稍后會(huì)詳細(xì)介紹。第二步會(huì)把物品的文本分析結(jié)果,按照用戶歷史行為把物品(ItemProfile)傳遞給一、結(jié)構(gòu)化文我們拿到的文本,常常是自然語言描述的,用行話說,就是“非結(jié)構(gòu)化”的,但是計(jì)算機(jī)在處理時(shí),只能使用結(jié)構(gòu)化的數(shù)據(jù)索引,檢索,然后向量化后再計(jì)算;所以分析文本,就是為了將非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,好比是將模擬信號(hào)數(shù)字化一樣,才能送入計(jì)算機(jī),繼續(xù)計(jì)算。這個(gè)很好理解,不多解釋。從物品端的文本信息,我們可以利用成NLP算法分析得到的信息有下面幾種提?。鹤罨A(chǔ)的來源,也為其他文本分析提供基礎(chǔ)數(shù)據(jù),常用TF-IDFTextRank實(shí)體識(shí)別:人物、位置和地點(diǎn)、著作、影視劇、歷史和熱點(diǎn)等,常用基于詞典的方法結(jié)合CRF模型。內(nèi)容分類:將文本按照分類體系分類,用分類來表達(dá)較粗粒度的結(jié)構(gòu)化文本:在無人制定分類體系的前提下,無監(jiān)督地將文本劃分成多個(gè)類簇也很常見,別看模型:從大量已有文本中學(xué)習(xí)向量,然后再預(yù)測(cè)新的文本在各個(gè)上的率分布情況,也很實(shí)用,其實(shí)這也是一種聚類思想,向量也不是形式,也是戶的常用構(gòu)成。嵌入:“嵌入”也叫作Embedding,從詞到篇章,無不可以學(xué)習(xí)這種嵌入表達(dá)。嵌入表下面我來介紹幾種常用的文本結(jié)構(gòu)TF-F全稱就是rmy,是詞頻的意思,F(xiàn)是Invrse 文檔頻率的意思。F-IDF提取的思想來自信息檢索領(lǐng)域,其實(shí)思想很樸素,包括了兩點(diǎn):在一篇文字中反復(fù)出現(xiàn)的詞會(huì)更重要 在所有文本中都出現(xiàn)的詞更不重要。非符合我們的這兩點(diǎn)就分別量化成F和IF兩個(gè)指標(biāo):TF,就是詞頻,在要提取的文本中出現(xiàn)的次數(shù)也就是文檔頻率,一共有多少文本,記為N。IDF就是這樣計(jì)計(jì)算過程為:詞出現(xiàn)的文檔數(shù)加1,再除總文檔數(shù),最后結(jié)果再取對(duì)數(shù)。IDF的計(jì)算有這么幾個(gè)特點(diǎn):所有詞的N都是一樣的,因此出現(xiàn)文本數(shù)越少(n)的詞,它的IDF值越大如果一個(gè)詞的文檔頻率為0,為防止計(jì)算出無窮大的IDF,所以分母中有一個(gè)對(duì)于新詞,本身應(yīng)該n是0,但也可以默認(rèn)賦值為所有詞的平均文檔頻計(jì)算出TF和IDF后,將兩個(gè)值相乘,就得到每一個(gè)詞的權(quán)重。根據(jù)該權(quán)重篩選的方給定一個(gè)K,取TopK個(gè)詞,這樣做簡(jiǎn)單直接,但也有一點(diǎn),如果總共得到的詞個(gè)數(shù)少于K,那么所有詞都是了,顯然這樣做不合理;計(jì)算所有詞權(quán)重的平均值,取在權(quán)重在平均值之上的詞作為另外,在某些場(chǎng)景下,還會(huì)加入以下其他的過濾措施,如:只提取動(dòng)詞和名詞作為TextRank個(gè)名字看上去是不是和著名的PageRank親戚關(guān)系?是的,TextRankPageRank的私生子之一,著名的PageRank算法是用來衡量網(wǎng)頁重要性的算法,TextRank算法的思想也與之類似,可以概括為:文本中,設(shè)定一個(gè)窗口寬度,比如K無向圖。圖就是網(wǎng)絡(luò),由存在連接關(guān)系的節(jié)點(diǎn)構(gòu)成,所謂無向圖,就是節(jié)點(diǎn)之間的連接關(guān)系不考慮從誰出發(fā),有關(guān)系就對(duì)了;所有詞初始化的重要性都是每個(gè)節(jié)點(diǎn)把自己的權(quán)重平均分配給“和自己有連接“的其他節(jié)每個(gè)節(jié)點(diǎn)將所有其他節(jié)點(diǎn)分給自己的權(quán)重求和,作為自己的新如此反復(fù)迭代第3、4兩步,直到所有的節(jié)點(diǎn)權(quán)重收通過TextRank后的詞語權(quán)重,呈現(xiàn)出這樣的特點(diǎn):那些有共現(xiàn)關(guān)系的會(huì)互相支持對(duì)方內(nèi)容分分類體系,這一做法也延伸到了移動(dòng)互聯(lián)網(wǎng)UGC時(shí)代,圖文信息流App的資訊內(nèi)容也需在門戶時(shí)代的內(nèi)容分類,相對(duì)來說更容易,因?yàn)槟菚r(shí)候的內(nèi)容都是長(zhǎng)文本,長(zhǎng)文本的內(nèi)容分類可以提取很多信息,而如今GC當(dāng)?shù)赖臅r(shí)代,短文本的內(nèi)容分類則更一些。短文分類方面經(jīng)典的算法是M,在工具上現(xiàn)在最常用的是的txt。實(shí)體識(shí)命名實(shí)體識(shí)別(也常常被簡(jiǎn)稱為NER,Named-EntityRecognition)在NLP技術(shù)中常常分詞問題:對(duì)每一個(gè)字符分類為“詞開始”“詞中間”“詞結(jié)束”三類之一詞性標(biāo)注:對(duì)每一個(gè)分好的詞,分類為定義的詞性集合的之實(shí)體識(shí)別:對(duì)每一個(gè)分好的詞,識(shí)別為定義名實(shí)體集合之一對(duì)于序列標(biāo)注問題,通常的算法就是隱馬爾科夫模型(H)或者條件隨機(jī)場(chǎng)我們?cè)谕扑]系統(tǒng)中主要是挖掘出想要的結(jié)構(gòu)化結(jié)果,對(duì)其中原理有再去深入了解。實(shí)體識(shí)別還有比較實(shí)用化的非模型做法:詞典法。提前準(zhǔn)備好各種實(shí)體的詞典,使用trie-tree數(shù)據(jù)結(jié)構(gòu),拿著分好的詞去詞典里找,找到了某個(gè)詞就認(rèn)為是提前定義好的實(shí)體以實(shí)體識(shí)別為代表的序列標(biāo)注問題上,工業(yè)級(jí)別的工具上spaCy比NLTK在效率上優(yōu)秀一聚傳統(tǒng)聚類方法在文本中的應(yīng)用,今天逐漸被模型取代,同樣是無監(jiān)督模型,以A代表的模型能夠更準(zhǔn)確地抓住,并且能夠得到軟聚類的效果,也就是說可以讓一條文本屬于多個(gè)類簇。作為初創(chuàng)公司或初創(chuàng)產(chǎn)品,我知道你的時(shí)間寶貴,也知道你的公司處處節(jié)儉,以至于沒有業(yè)務(wù)專家為你的應(yīng)用制定分類體系,這時(shí)候如果能在文本數(shù)據(jù)上跑一個(gè)A顯得非常美好了。LDA模型需要設(shè)定個(gè)數(shù),如果你有時(shí)間,那么這個(gè)K可以通過一些實(shí)驗(yàn)來對(duì)比挑選,方法是:每次計(jì)算K個(gè)兩兩之間的平均相似度,選擇一個(gè)較低的K值;如果你趕時(shí),需意的得到在各上布,保留最大幾個(gè)作為文本的。A工程上較難的是并行化,如果文本數(shù)量沒到海量程度,提高單機(jī)配置也是可以的,開源的LA訓(xùn)練工具有GensiPLDA等可供選擇。詞嵌關(guān)于嵌入,是一個(gè)數(shù)學(xué)概念。以詞嵌入為例詞嵌入,也叫作WordEmbedding。前面講到的結(jié)構(gòu)化方案,除了LDA,其他都是得到 都、中國(guó)、北方、直轄市、大城市”等等,這些語義在所有文本上是有限的,比如128 個(gè)128維的向量表達(dá),向量中各個(gè)維度上的值大小代表了詞包含各拿著這些向量可以做以下計(jì)算詞和詞之間的相似度,擴(kuò)充結(jié)構(gòu)化累加得到一個(gè)文本的稠密用于聚類,會(huì)得到比使用詞向量聚類更好的語義聚類這方面當(dāng)然就屬大名鼎鼎的Word2VecWord2Vec是用淺層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到每個(gè)詞的向量表達(dá),Word2Vec最大的貢獻(xiàn)在于一些工程技巧上的優(yōu)化,使得百萬詞的規(guī)模在單二、選最常用的是兩個(gè)方法:卡方檢驗(yàn)(CHI)和信息增益(IG)?;舅枷胧前盐锲返慕Y(jié)構(gòu)化內(nèi)容看成把用戶對(duì)物品的行為看成每個(gè)用戶看見過的物品就是一個(gè)文在這個(gè)文本集合上使用特征選擇算法選出每個(gè)用戶關(guān)心的東1卡方CHI就是卡方檢驗(yàn),本身是一種特征選擇方前面的TF-IDF和TextRank都是無監(jiān)督提取算法,而卡方檢驗(yàn)(CHI)則是有監(jiān)督卡方檢驗(yàn)本質(zhì)上在檢驗(yàn)“詞和某個(gè)C獨(dú)立”這個(gè)假設(shè)是否成立,和這個(gè)假設(shè)偏離越大,就越說明這個(gè)詞和類別C暗中有一腿,那當(dāng)然這個(gè)詞就是了。計(jì)算一個(gè)詞Wi和一個(gè)類別Cj的卡方值,需要統(tǒng)計(jì)四個(gè)值類別為Cj的文本中出現(xiàn)詞Wi的文本數(shù)詞Wi在非Cj的文本中出現(xiàn)的文本數(shù)B類別為Cj的文本中沒有出現(xiàn)Wi的文本數(shù)C詞Wi在非Cj的文本中沒有出現(xiàn)的文本數(shù)D聽起來有點(diǎn)繞,我把它畫成一個(gè)表格更加一然后按照如下計(jì)算每一個(gè)詞和每一個(gè)類別的卡方值關(guān)于這個(gè)卡方值計(jì)算,我在這里說每個(gè)詞和每個(gè)類別都要計(jì)算,只要對(duì)其中一個(gè)類別有幫助的詞都應(yīng)該留由于是比較卡方值的大小,所以中的N可以不參與計(jì)算,因?yàn)樗鼘?duì)每個(gè)詞都一樣,2信息IG即InformationGain,信息增益,也是一種有監(jiān)督的選擇方法,也需要有標(biāo)注信果原來每個(gè)類別的文本數(shù)量都一樣,那你肯定最不好猜,如果其中一個(gè)類別的文本C數(shù)遠(yuǎn)遠(yuǎn)多于其他類別,那么你猜這條文本屬于類別C就很可能猜對(duì)。這兩個(gè)情況區(qū)別就在于信各個(gè)類別的文本數(shù)量差不多時(shí),信息熵就比其中少數(shù)類別的文本數(shù)量明顯較多時(shí),信息熵就較進(jìn)一步再想一件事,如果從這一堆文本中再挑出包含有詞W的文本數(shù),再來猜任意一條 但挑出包含詞W后的情況變成2了,那么你想,這個(gè)詞W是不是非常有用?因?yàn)橛辛怂?,我們就能以較高的成功率猜對(duì)任意一條文本的類別了對(duì),上面這個(gè)思考過程就是信息增益的思想,信息增益計(jì)算也是分成三統(tǒng)計(jì)全局文本的信息熵兩者相減就是每個(gè)詞的信是:當(dāng)然可以。這在后面的專欄中會(huì)講到的MAB問題。本文按照如下步驟梳理了這一過分析用戶的文本和物品的文本,使其結(jié)構(gòu)為用戶挑選有信息量的結(jié)構(gòu)化數(shù)據(jù),作為其內(nèi)容感謝你的收聽,我們下次再見 科技所有 不 售賣。頁面已增加防盜追蹤,將依 其上一 【內(nèi)容推薦】畫鬼容易畫人難:用戶的“能”和“不能下一 【內(nèi)容推薦】的內(nèi)容推薦系言精選留言言張 15作者回復(fù):慢慢,嚼碎了再吞 作者回復(fù):(原來叫小密圈)搜 林 6 行行 2是 1老師,TF—IDF中的TopKK預(yù) 少“。第一遍看到這句話的時(shí)候我沒有看懂,查閱資料后才明白。比如使用word表示的話,他的向量形式就是[1,1,100],各個(gè)維度的值的大小代表了詞包含各個(gè)語義的作者回復(fù):謝謝你的建議
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 客戶溝通與反饋記錄
- 小王子遇見世界的觀后感
- 高中化學(xué)實(shí)驗(yàn)設(shè)計(jì)與探究:化學(xué)反應(yīng)原理教案
- 《初高中英語語法比較與辨析教案》
- 不動(dòng)產(chǎn)交易買賣協(xié)議書
- 中學(xué)生歷史事件故事讀后感
- 美容師儀器知識(shí)培訓(xùn)課件
- 血液++課件-2024-2025學(xué)年北師大版生物七年級(jí)下冊(cè)
- 紅色故事鐵道游擊隊(duì)的愛國(guó)主義教育解讀
- 教育資源整合及教育信息化建設(shè)方案
- 智鼎在線測(cè)評(píng)IQT題庫(kù)
- 脊柱內(nèi)鏡應(yīng)用與進(jìn)展
- 鹿茸的現(xiàn)代藥理研究報(bào)告
- 化工行業(yè)儀表典型事故分析報(bào)告
- 2024年初級(jí)會(huì)計(jì)職稱《初級(jí)會(huì)計(jì)實(shí)務(wù)》真題匯編及答案
- 醫(yī)用耗材配送服務(wù)方案
- 中職統(tǒng)編《金屬材料與熱處理》系列課件 第3章 鐵碳合金(動(dòng)畫) 云天系列課件
- 人教版七年級(jí)下冊(cè)地理全冊(cè)復(fù)習(xí)知識(shí)點(diǎn)匯總課件
- 外墻瓷磚隱患排查施工方案
- 21 自然界和社會(huì)
- 反腐倡廉廉潔行醫(yī)
評(píng)論
0/150
提交評(píng)論