《數(shù)學之美》讀書筆記_第1頁
《數(shù)學之美》讀書筆記_第2頁
《數(shù)學之美》讀書筆記_第3頁
《數(shù)學之美》讀書筆記_第4頁
《數(shù)學之美》讀書筆記_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)學之美讀書筆記數(shù)學之美讀書筆記數(shù)學之美是一本事域相關(guān)的數(shù)學概念書,活潑形象地講解了關(guān)于數(shù)據(jù)挖掘、文本檢索等方面的基礎(chǔ)學問,可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外,就像吳軍老師提到的,關(guān)鍵是要從中學到道解決問題的方法,而不僅僅是術(shù)。書中也啟發(fā)式的引導讀者形成自己解決問題的道。下面記錄一下自己讀這本書的一些感想:第一章文字和語言vs數(shù)字和信息:文字和語言中自然蘊藏著一些數(shù)學思想,數(shù)學可能不僅僅的是一門非常理科的學問,也是一種藝術(shù)。另外,遇到一個冗雜的問題時,可能生活中的一些常識,一些簡潔的思想會給你帶來解決問題的靈感。第二章自然語言處理從規(guī)章到統(tǒng)計:試圖模擬人腦處理語言的模式,基于語法規(guī)章

2、,詞性等進行語法分析、語義分析的自然語言處理有著很大的冗雜度,而基于統(tǒng)計的語言模型很好的解決了自然語言處理的諸多難題。人們認識這個過程,找到統(tǒng)計的方法閱歷了20多年,非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發(fā)現(xiàn)真理的過程中是充滿坎坷的,感謝那些曾經(jīng)奉獻了青春的科學家。自己以后遇到問題也不能容易放棄,真正的成長是在解決問題的過程中。事情不行能一帆風順的,這是自然界的普遍真理吧!第三章統(tǒng)計語言模型:自然語言的處理找到了一種適宜的方法基于統(tǒng)計的模型,概率論的學問開頭發(fā)揮作用。二元模型、三元模型、多元模型,模型元數(shù)越多,計算量越大,簡潔適用就是最好的。對于某

3、些不顯現(xiàn)或顯現(xiàn)次數(shù)很少的詞,會有零概率問題,這是就要找到一數(shù)學方法給它一個很小的概率。從前學概率論的時分覺的沒什么用,如今開頭發(fā)現(xiàn)這些學問可能就是你以后解決問題的利器。最終引用本章的最終一句話:數(shù)學的魅力就在于將冗雜的問題簡潔化。第四章談?wù)勚形姆衷~:中文分詞是將一句話分成一些詞,這是以后進一步處理的基礎(chǔ)。從開頭的查字典到后來基于統(tǒng)計語言模型的分詞,如今的中文分詞算是一個已經(jīng)解決的問題。然而,針對不同的系統(tǒng)、不同的要求,分詞的粒度和方法也不盡相同,還是針對詳細的問題,提出針對該問題最好的方法。沒有什么是肯定的,把握其中的道才是核心。第五章隱馬爾科夫模型:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相像

4、,就是該時辰的狀態(tài)僅與前面某幾個時辰的狀態(tài)有關(guān)?;诖罅繑?shù)據(jù)訓練出相應(yīng)的隱馬爾科夫模型,就可以解決好多機器學習的問題,訓練中會觸及到一些經(jīng)典的算法(維特比算法等)。關(guān)于這個模型,沒有實際完成過,所以感覺好生疏,只是明白了些概率論講過的原理而已。第六章信息的度量和作用:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消退系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關(guān)的信息。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點與熱力學中的熵概念相同,看似不同的學科之間也會有著很強的相像性。事務(wù)之間是存在聯(lián)系的,要學會借鑒其他學問。第七章賈里尼

5、克和現(xiàn)代語言處理:賈里尼克是為世界級的,不僅在于他的學術(shù)成就,更在于他的風范。賈里尼克教授少年坎坷,也并非開頭就投身到自然語言方面的研討,關(guān)鍵是他的思想和他的道。賈里克尼教授治學嚴謹、專心對待自己的同學,對于同學的教導,教授告知你最多的是過濾掉噪聲,復(fù)原信息。只要噪聲不是完全隨機并且前后有相關(guān)性,就可以檢測到并消退。者的方法不行能是隨機的,且不行能一天換一種方法,及是時間相關(guān)的。因此在搜集一段時間的信息后,就可以將者抓出來,復(fù)原原有的排名。一般都是針對市場份額較大的搜尋引擎做的,因此,一個小的搜尋引擎少,并不肯定是它的反技術(shù)好,而是到它那里的人少。第十九章談?wù)剶?shù)學模型的重要性:早期的行星運行模

6、型用大圓套小圓的方法,精確地計算出了全部行星運行的軌跡。但其實模型就是簡潔的橢圓而已。一個正確的數(shù)學模型應(yīng)當在形式上是簡潔的;一個正確的模型可能開頭還不如一個精雕細琢過的錯誤模型來的精確,但是,假如我們認定大方向是對的,就應(yīng)當堅持下去;大量準備的數(shù)據(jù)對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不精確,這是不應(yīng)當用一種湊合的修正方法來彌補它,要找到噪聲的根源,這或許能通往重大的發(fā)現(xiàn)。第二十章不要把雞蛋放在一個籃子里另一個是將這個方法發(fā)揚光大的米奇寬松的管理方式,培育各有特點的年輕學者;是一個有著遠見卓識的管理者。他的同學為人做事風格迥異,但都年輕有為,例如追求完善的邁克爾接下來,重新計算模型

7、參數(shù),以最大化希望值,這個過程稱為最大化的過程,或M過程。優(yōu)化的目標函數(shù)假如是個凸函數(shù),則肯定有全局最優(yōu)解,若不是凸函數(shù),則可能找到的是局部最優(yōu)解。在以后的一些問題求解過程中,應(yīng)當考慮其是否是EM問題,也可以考慮參考這種思想,不斷迭代以優(yōu)化目標的過程。第二十八章規(guī)律回來和搜尋廣告:雅虎和百度的競價排名廣告并不比谷歌的依據(jù)廣告的預(yù)估點擊率來客觀的推送廣告收入多。點擊預(yù)估率有許多影響因素,一種有效的方法是規(guī)律回來模型,規(guī)律回來模型是一種將影響概率的不同因素結(jié)合在一起的指數(shù)模型。其訓練方法和最大熵模型相像。同樣不是很理解其詳細內(nèi)涵。第二十九章各個擊破和Google云計算的基礎(chǔ):分而治之,各個擊破是一

8、個很好的方法,Google開發(fā)的MapReduce算法就應(yīng)用了該方法。將一個大任務(wù)分成幾個小任務(wù),這個過程叫Map,將小任務(wù)的結(jié)果合并成最終結(jié)果,這個過程叫Reduce,該過程如何調(diào)度、協(xié)調(diào)就是工程上比擬冗雜的事情了??梢姶罅坑玫降?、真正有用的方法往往簡潔而又樸實。附錄計算冗雜度:計算機中冗雜度是以O(shè)()來表示的,假如一個算法的計算量不超過N的多項式函數(shù),則稱算法為多項式函數(shù)冗雜度的(P問題),是可以計算的。若比N的多項式函數(shù)還高,則是非多項式問題,事實上是不行計算的。非多項式問題中一種非確定的多項式問題(簡稱NP),是科學家研討的焦點,由于現(xiàn)實中好多問題都是NP問題。另外還有NP-Complete問題(NP問題可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論