下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、向量空間模型(VSM)的余弦定理公式(cos)相信很多學(xué)習(xí)向量空間模型(Vector Space Model)的人都會被其中的余弦定理公式所迷惑.因為一看到余弦定理,肯定會先想起初中時的那條最簡單的公式cosA=a/c(鄰邊比斜邊),見下 圖:但是,初中那條公式是只適用于直角三角形的,而在非直角三角形中,余弦定理的公式是:cosA=(c2 + b2 - a2)/2bc不過這條公式也和向量空間模型中的余弦定理公式不沾邊,迷惑.引用吳軍老師的數(shù)學(xué)之美系列的余弦定理和新聞的分類里面的一段:引用開始分界線假定三角形的三條邊為a, b和c,對應(yīng)的三個角為A, B和C,那么角A的余弦I cos A =;2
2、bc.如果我們將三角形的兩邊b和c看成是兩個向量,那么上述公式等價于cosl =其中分母表示兩個向量b和c的長度,分子表示兩個向量的內(nèi)積。舉一個具體的例子,假如新聞X和新聞Y對應(yīng)向量分別是x1,x2,.,x64000和y1,y2,.,y64000,那么它們夾角的余弦等于耳1夕!十此光十十斗(HOOD引用完畢分界線高中那條公式又怎么會等價于向量那條公式呢?原來它從高中的平面幾何跳躍到大學(xué)的線性代數(shù)的向量計算.關(guān)于線性代數(shù)中的向量和向量空間,可以參考下面兩個頁面:Egwald Mathematics: Linear AlgebraLinear Algebra: Direction Cosines在
3、線性代數(shù)的向量計算的余弦定理中,*分子是兩個向量的點積(wiki),點積的定理和計算公式:The dot product of two vectors a = a1, a2,氣and b = b1, b2,bj is defined as:a b = Oibj 皿1民 + 也& + + 儀帛找i=i點積(dot product),又叫內(nèi)積,數(shù)量積.(Clotho 注: product常見的是產(chǎn)品的意思但在數(shù)學(xué)上是乘 積的意思)*分母是兩個向量的長度相乘.這里的向量長度的計算公式也比較難理解.假設(shè)是二維向量或者三維向量,可以抽象地理解為在直角坐標(biāo)軸中的有向線段,如圖:Eguald Linear
4、Algebra2-Dinenslo nal Uectord2 = x2 + y2 - d = sprt(x2 + y2)Eguald Linear Algebra 3-Dinensional Vectord2 = x2 + y2 + z2- d = sprt(x2 + y2 + z2)三維以上的維度很難用圖來表示,但是再多維度的向量,也仍然可以用這條公式來計算:d 2 = x 2 + x 2+ . + x 2 - d = sprt(x 2 + x 2+ . + x 2) n 12nn12n 7在文本相似度計算中,向量中的維度xi,x2.xn其實就是詞項(term)的權(quán)重,一般就是詞項的tf-idf 值.口而這條看上去很抽象的公式,其實就是為了計算兩篇文章的相似度.文本相似度計算的處理流程是:對所有文章進行分詞分詞的同時計算各個詞的tf值所有文章分詞完畢后計算idf值生成每篇文章對應(yīng)的n維向量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年粵人版七年級物理上冊月考試卷
- 2025年度住宅裝修木工支模施工合同協(xié)議4篇
- 2025年浙教新版選擇性必修3歷史上冊月考試卷
- 二零二五版門窗行業(yè)綠色供應(yīng)鏈管理合同7篇
- 二零二五年度幕墻節(jié)能診斷與改進合同4篇
- 二零二五年度寧波廣告?zhèn)髅狡髽I(yè)勞動合同與知識產(chǎn)權(quán)保護協(xié)議4篇
- 二零二五版定制門窗設(shè)計制作與售后服務(wù)合同3篇
- 公共管理理論專題知到智慧樹章節(jié)測試課后答案2024年秋武漢科技大學(xué)
- 二零二五年度農(nóng)藥生產(chǎn)許可證延續(xù)及變更服務(wù)合同3篇
- 二零二五年度電子信息產(chǎn)業(yè)農(nóng)民工勞動合同參考文本4篇
- 中級半導(dǎo)體分立器件和集成電路裝調(diào)工技能鑒定考試題庫(含答案)
- 2024年江西生物科技職業(yè)學(xué)院單招職業(yè)技能測試題庫帶解析答案
- 橋本甲狀腺炎-90天治療方案
- (2024年)安全注射培訓(xùn)課件
- 2024版《建設(shè)工程開工、停工、復(fù)工安全管理臺賬表格(流程圖、申請表、報審表、考核表、通知單等)》模版
- 部編版《道德與法治》六年級下冊教材分析萬永霞
- 粘液腺肺癌病理報告
- 酒店人防管理制度
- 油田酸化工藝技術(shù)
- 上海高考英語詞匯手冊列表
- 移動商務(wù)內(nèi)容運營(吳洪貴)任務(wù)五 其他內(nèi)容類型的生產(chǎn)
評論
0/150
提交評論