版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、讀書報告 2012年國際數模競賽c題陳潤澤 李思瑾 顏穎摘要本題是要我們從八十二名成員中根據給出的業(yè)務信息(message)找出犯罪團伙的同謀和領導人。這是一道典型的圖論題,其信息量之大、成員間關系之復雜著實讓人感覺毫無頭緒。本著簡化問題的原則,我們組在閱讀論文之前進行了深入思考,并建立了自己的模型。首先,我們運用了布爾代數(boolean algebra),將每個話題被談論的與否表示為 1 和 0 ,即如果某個話題被某人談論,則其相應位置的值為 1 ,反之為 0 。最后得到每個成員后都跟上一個15位只有0 和 1 的數(其中的每一位都代表一個話題)。然后設定一個15位的布爾數,其三個可疑話題
2、的位置為 1 其余位置為 0 。再同每個成員對應的布爾數做 and(與) 運算,可選出存在可疑話題的成員,即我們需要研究的對象。在對選出對象按優(yōu)先次序排列的過程中,我們主要進行了以下兩個步驟。1. 我們給出三個可以話題中每個話題被同謀者談論的概率(如:若可疑話題 一 的概率為0.5,則談論這個話題的人有50%的可能性為同謀者)。然后對研究對象進行加權求和,根據所得進行排序。2. 我們對每個人與已知同謀者的相關性進行了分析。以每個話題在每個人的業(yè)務信息出現的概率為維,對于每個研究對象建立一個15維的向量。然后利用余弦定理,將每個研究對象的向量同已知同謀者的向量的夾角余弦值求出,再取平均數。在既得
3、排序的基礎上,按降序對夾角進行排序,最后剔除已知非同謀者,即可按照排序結果確定犯罪團伙的領導人以及每個成員是同謀者的可能性。一、問題重述與理解1.1 問題重述題目的背景是icm組織在進行對一項密謀犯罪的調查。已知罪犯和嫌疑人都在一家大公司的一個綜合辦公室里工作,公司里有82名成員,其中有7名已知同謀和8名已知非同謀。icm最近掌握了82名員工的一部分信息,并且想通過對信息的分析找出同謀以及犯罪組織的領導。所有信息中包含15個話題,其中有3個可疑話題。而且,只要成員的交流信息中包含可疑話題的,其可疑性便增加一些。最后要統計每個人的可疑性,然后根據自己設定的嫌疑人指標(即當可疑性大于某一值時即可確
4、定是同謀)確定同謀以及犯罪組織的領導。題目給出的要求有:1.減少誤判,提高準確度。2.按照同謀的可能性大小建立模型和算法,把節(jié)點區(qū)分優(yōu)先次序。3.已知三個高級管理人員jerome, delores, grechen.(就暗示我們這三個人之中肯定有一個是同謀者的高級領導。)4.還要求你的方法有普適性(不限于犯罪陰謀和消息數據),尤其是數據非常龐大的時候。5.更深入的進行消息內容的網絡,語義和文本分析對模型建立的幫助。1.2 問題分析和2012a樹葉那道題相比,反差巨大。2012a思路不是固定的,而本題的思路基本就是固定的??疾炀褪菙祿幚恚图毠?jié)的處理。我們組分析本題屬于的范疇有:圖論,信息論,
5、人工智能。而更加偏向圖論一點,同時涉及到對龐大信息的處理。對于處理圖論的問題,我們首先想到的是:1. 怎樣確定嫌犯?2. 根據每個人的信息的主題來確定嫌疑可能性;3. 每個人嫌疑可能性的統計與計算;4. 根據嫌疑可能性的高低確定嫌犯;5. 還有考察考生對信息的處理;此外,題目中不斷強調兩個算法:(語義網絡分析和文本分析) 必須使用這兩個算法,我們查找了幾篇文獻和網上的資料,以對其有宏觀的了解。1. 語義網絡分析:語義網絡是一種知識的圖解表示,是面向知識的語義結構,以網絡的形式來實現。許多情報問題都會有事實、數據以及推理關系,充分利用語義網絡的自然性、聯想性、高效性等優(yōu)點,嘗試在情報分析工作中應
6、用語義網絡是有一定實用價值的。(顧永跟、朱玉楷,“一種語義網絡情報分析模型的研究和應用”,學林出版社,1999)2. 文本分析:指的是有一定的符號或符碼組成的信息結構體,這種結構體可采用不同的表現形態(tài),如語言的、文字的、影像的等等。由文本內容分析,可以推斷文本提供者的意圖和目的。文本分析是文本挖掘、信息檢索的一個基本問題,它把從文本中抽取出的特征詞進行量化來表示文本信息。將它們從一個無結構的原始文本轉化為結構化的計算機可以識別處理的信息,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。(兩種有關信息的分析方法都強調把抽象的文本信息轉換成具體可視的數學網絡模型,本題即使用的這種建立
7、節(jié)點主題信息網絡的方法,優(yōu)點是便于理解,便于計算機進行運算。我們通過思考得知,可能有一些(大部分)指定的溝通員只是傳話者,所以題目中給定的非同謀者一定是這一部分人。(因為如果給定的已知非同謀者是和嫌疑主題不搭邊的人,所有人都可以看得出來,則沒有給出的必要了。)中間的大部分罪犯確定比較容易,困難的是:高級領導的確定和中間傳話人的確定。此外,題目中給定的例子有方法指引性作用,須在認真研究過之后在開始設想自己想建立的模型,因為模型大概框架基本已經給定。我們組進行了深入的思考,查閱了相關資料與信息,設想如果要我們真實的來做,我們會采取如下的思路: 因為本題的數據量極為龐大,所以如果照搬題目給定的研究方
8、法,則工作量之大可以想象,所以我們需要建立一個形式上簡單,方法上比較容易操作的模型,于是我們就想到了信息論里面最重要的兩個數學原理:布爾代數和余弦定理。我們跳出了建立龐大復雜網絡圖的桎梏,嘗試采用以各節(jié)點為單位,并給個節(jié)點附加相關主題信息,最后再通過篩選來最終確定犯罪嫌疑人。我們的步驟如下圖所示:先解釋下我們所用的余弦定理:假設兩嫌疑人的特征主題向量分別為則兩人關于主題的相似度就可以用兩向量的夾角余弦值來代表,即則此余弦值越接近1,則表明兩人關于主題的相似度越大,利用這個方法可以對犯罪嫌疑人的犯罪可能性進行量化排序。cos較大,故相似度較高cos較小,故相似度不高二、優(yōu)秀論文品讀2.1 論文一
9、(12218)這篇論文摘要內容豐富,要點突出(其實個人覺得一般的寫作模式都是,做了什么工作得到了什么結論。過程要寫的有條理,得出的結論一定要突出)。該小組在解決問題的過程中主要運用了sna(social network analysis)和related techniques的方法。主要的解題思路如下:通過合作距離度量的方法得出priority list,找出排名靠前的成員,確立了十二名同謀者。然后通過對每個人領導才能的分析得出領導才能的ranking list。最后,結合兩份list ,找出既是同謀者又在領導才能的ranking list中排名第一的成員,該成員便是犯罪組織的領導者。最后通過
10、建立空間向量來檢驗模型的正確性。通讀全文,找出主要優(yōu)點及值得我們借鑒的地方有:1 在論文的開頭列舉了小組所完成的工作;2 有definition,建模之前進行了一系列的知識準備來支撐自身的模型,是自身的模型更好解釋也更容易理解;3 對模型準確性的驗證很到位。帶入了實例得到了數據結果并對結果進行了分析很好的驗證了模型的準確性。得出了結果,可能的同謀者是:同時也發(fā)現了一些不足:假設沒有相關的解釋總的來說,該小組在解決問題的過程中思路清晰,而且所用了方法專業(yè)性較強,體現了良好的圖論和數學功底(說實話有些地方是沒看懂)。在論文寫作方面,層次清晰、結構嚴謹、要點突出,值得我們學習借鑒。2.2 論文二(1
11、3215)從摘要中了解到該小組為解決問題建立了四個模型,其中前三個是為了得出優(yōu)先次序,最后利用第四個模型找出犯罪組織的可能的頭目。在第一個模型中,該小組將每個人的可疑信息和其與已知同謀者之間的業(yè)務信息綜合考慮,從而確定一個能衡量某個人是同謀者的可能性的復合指標。在第二個模型中,該小組基于全概率公式()指出每個人是同謀者的可能性是與其直接相連的成員可能性的加權求和。然后他們還設計一個算法()來計算所有節(jié)點(即成員)的可能性。在第三個模型中,該小組為了更好地衡量某個人與已知同謀者之間的關系,引入了圖論中最短路徑()的概念,從而通過算法2()確立一個指標來評估某個人是同謀者的可能性。在第四個模型中,
12、該小組在前三個模型的基礎上,運用了freeman向心性方法()建立了該模型,通過模型四找出了最有可能的三個犯罪團伙領導人,其中dolores是公司的高層領導。最后,小組成員通過題中給出的ez的例子驗證了模型的準確性??v觀全文,感覺小組成員分析問題很到位,解決問題的條理也很清晰。整片論文要點齊全,結構完整。而且論文中插入了大量圖表信息,使研究結果一目了然,很有說服力。在論文寫作方面,要點很突出,特別是摘要部分,建模的原因以及通過建模解決什么問題都說的很清楚,值得我們小組深入學習。2.3 論文三(13855)該小組主要運用了迭代的方法解決問題。模型中有很多種迭代,但大致都分為兩個過程:1 pers
13、onphase:基于每個成員相鄰成員的嫌疑性和與相鄰成員的交流的信息計算其嫌疑性。2 topic phase:基于談論該話題的成員的嫌疑性計算每個話題的可疑性。同時還引入了指數衰減量來對模型進行修正。該小組的創(chuàng)新之處在于考慮了每個話題的可疑性,即用每個談論該話題成員的可疑性表征話題的可疑性,增加了模型的準確性??赐赀@篇論文后,找出了一些值得我們借鑒的要點:1 對每一步都有詳細的說明,即實施這一步驟的目的以及所得到的結論;迭代求出cdrs和cdrr的過程:s函數的推導:計算si:exponential decay從中也可以看出該小組在解決問題的過程中條理清晰,層層深入,換換相扣;2 建模過程由表
14、及里、由淺入深,讓模型更容易理解;以上便是在介紹指數衰減量之前考慮的一種較為簡單的情形。3 對模型的分析很到位,尤其注重了模型是否滿足題中的要求;4 進行了敏感性分析總的來說這篇文章通過一種新穎的方法解決相關問題,其中所包含的算法思想和解題思維值得我們每個人去深入思考。2.5 論文五(15356)首先提出題目中給定的方法不適用于非常龐大的信息量,就是要自己再提出一種更為高效的方法。摘要寫的很好,層次感十分強,并且全面地總結了模型的特點,并全面回答了題目所提出的問題,僅僅看到摘要都能感覺這篇論文距離得o獎不遠了。和大作數優(yōu)秀論文一樣,本篇論文開篇介紹部分就詳細的列出了經過分析后題目要考察的關鍵點
15、,并清清楚楚的列舉出來,讓人首先有個宏觀的方向,并對理解論文起到非常好的效果。本文的亮點之一就是在敘述假設條件、建立模型之前,先進行了數據觀察與基礎統計分析:并得到兩條結果:1,盡管同謀者比非同謀者要活躍,但是他們不可避免的也要傳遞非嫌疑的主題,故可疑的主題僅僅占了信息網絡的一小部分。2、結果顯示7名同謀者就已經涉及到百分之40的陰謀可疑信息,故總同謀者人數很有可能不超過20人。3、很重要的一點就是要區(qū)分涉及可疑主題的人中的一般員工與真正嫌犯,作者得到結果不同人對可以信息的反應程度不一樣,可以以此為據來辨別這兩者。首先建立了基本的可疑性排序模型(irank model)來根據是否為同謀者的可能
16、性大小給嫌疑人排序,并判斷公司主要領導人是否為同謀者頭領。首先進行初始化,即給定未知個體的初始嫌疑等級:接著建立了排序函數和節(jié)點的相似性度量函數: 但個人感覺這里的函數進行的過于繁瑣,相比之下,我們開始想的余弦定理和布爾代數的方法的簡潔性和可行性要更加高一些。第二步,根據已知同謀者和非同謀者,假設某節(jié)點的嫌疑性由相鄰節(jié)點據頂,修改未知節(jié)點的嫌疑度。最終確定了各個節(jié)點的嫌疑程度,并通過分析樣例中的數據,進行了參數評估,并用計算機求解,得到最終結果。最重要的是leader的確定,首先進分析,提出了組織領導者行為的假設:領導者一定是連接不同子群的中間紐帶;領導者多與子群的頭領交流而不是與一般同謀進行
17、交流;子群的頭領同時又擔任著領導者與一般同謀者之間的紐帶。經過分析得到最有可能的領導者 16號jerome和10號dolores。并得出可視化結果和優(yōu)缺點分析。雖然題目沒有給出原始文本信息,但該小組仍然利用樣例為例,對文本信息進行了語義網絡分析和文本分析,提出部分較含糊或者奇怪的語言信息可能是作為同謀者之間的秘密口令,還有要對表示情感的詞語足夠敏感。旨在給每個嫌疑主題信息進行加權處理,得到更加精確地關系網絡圖,使得結果更加可靠。最后對先前的模型進行修改,建立了最終的數學模型。這篇論文的亮點有:1. 摘要寫的很典型,層次感十分強,并且全面地總結了模型的特點,并全面回答了題目所提出的問題,單憑摘要
18、就已經顯示了得大獎風范。2. 在提出假設之前,先對樣例問題進行相關的分析,然后得出假設,這樣的假設才會讓人覺得有理有據,不會有強迫接受的感覺。3. 由淺到深,將復雜的問題先簡單化,基本建立模型的大體框架,然后利用語義網絡分析和文本分析在進行細化處理,最后得到最終的數學模型。2.6 論文六(16075)本文總的線索是根據題目給定的四個requirements 來建立模型并進行相關修改于調整。條理感和線索感極強?;诤侠淼姆治雠c假設,首先建立了基本的犯罪網絡分析模型,把問題簡單化和抽象化,分為兩個主要問題:在節(jié)點層面上,提出衡量每個人犯罪嫌疑程度的參數:degree:即衡量每個人在信息網絡中的活躍
19、程度。l betweenness:即刻一個人的信息交通量的大小,衡量本節(jié)點在整個信息交流網絡中的樞紐關系。l closeness:刻畫整個犯罪子網絡的聯系緊密程度。l 最后將三者綜合考慮,提出了centrality:接著在線的層面上,主要目標是找到罪犯頭目,并建立最終的量化的數學模型為:根據上述模型,用每個節(jié)點的兩大特征 centrality和cic將所有的節(jié)點分為四種類型、并提出了作為領導者的關鍵特點:交際性光但很少涉及嫌疑主題,以防引起別人的懷疑,但是這也會加大冤枉無辜者的概率。得出結論,并用樣例來檢驗模型的正確性。以dave為基準,得出節(jié)點嫌疑的可能性排名。引用了fisher的線性分類判
20、別法和語義網絡模型來修改相關條件和相關系數,提高了模型的精確性與正確性。并進行了詳細的模擬分析,罪犯的基本特征分析,領導者分析和三個可疑話題分析。對上述所得的同謀者建立犯罪關系網絡,并進行相關離散的分析,使結果更加嚴謹。并對進罪犯高層領導人行了深層的分析。最后進行了模型的拓展,以說明模型的普適性。本篇論文的亮點有以下幾點:1. 題目新穎,并且極具吸引力,這也是大部分優(yōu)秀了論文一下子就能得到評委的關注的主要原因之一。2. 摘要以requirement為線索進行撰寫,效果較好,達到闡述結果的目的,全面,層次感強,重點突出。3. 行文還體現出幽默感,大膽的提出題目的數據中可能有問題,令人耳目一新。4
21、. 問題重述做的很到位,全面分析了問題,并概括性的提出來了題目考查的要點和自己要研究的方向。5. 文獻綜述中,能對文獻做出客觀的評價,提出現有文獻的缺點不足,自然而然想到自己建立模型的方向,優(yōu)秀論文常采用此思路進行撰寫。6. 本文的條理性極強,每個部分的開頭都會進行總述,是本文最大的亮點之一。7. 此外,本文能高效利用計算機軟件,作圖比較漂亮,增加論文的美感。8. 總的來說,論文的結構十分嚴謹,完全符合論文的各項標準,各個部分都做的詳細具體,有理有據,有推導有結果。把所有能做的工作都做到了極致,令人震撼。另外本文有個小小的不足就是陳述假設的時候缺乏論證與理論依據,顯得較為蒼白。2.7 論文七(
22、17160)為了解決題目中提出的問題,全文共建立兩個模型。第一個為輔助模型,第二個是正式模型。首先建立了類聚模型,該模型是基于含有83個節(jié)點的空間向量圖上將整張圖進行k劃分,使得每個子圖里面的節(jié)點間距為最小。劃分步驟為:得出結果,解決了上面數據分析中提出的名字重復的問題。第二個模型,電網模型的提出,體現了豐富的想象力。將人際關系網絡中的嫌疑信息傳遞抽象為電路中電流在節(jié)點中的流動,將嫌疑信息等效為1v電壓,而非嫌疑信息等效為0v電壓,再用通過節(jié)點的電流代數和來作為衡量該節(jié)點可疑性的標準。建立二分電路圖:其中包含員工節(jié)點網絡,信息主題,每條邊連接員工和主題,權重為該支路的電導(電阻的倒數),并分別
23、討論了節(jié)點到信息的傳導,節(jié)點到節(jié)點的傳導,信息到信息的傳導。進行模型實現并得到運算結果:為了檢驗結果的魯棒性,該小組又進行了模型敏感性分析,測試方法為 控制變量法。具體為分別剔除已知的罪犯和可疑主題,再運行模型,觀察結果的穩(wěn)定性,得到結論 不能僅僅根據與一個人關聯的已知罪犯或者可疑主題就確定此人是否為罪犯,這樣太過于唐突與武斷。所以更加周密的方法是:假設與此節(jié)點關聯的確定節(jié)點或主題為未知后,再進行判斷,這樣才會更加合理。本文的優(yōu)點:1. 把假設條件從死板的條條框框改為詳細的數據分析,在一步一步的分析中逐步提出假設,顯得思路清晰,并顯示了強大的數據處理和分析的能力。這種方法值得推廣與學習。2.
24、論文中首先建立起的類聚模型,有特點的是,在此使用它不只是簡單地將節(jié)點直接分類為是否為同謀者,而是解決上面數據分析中提出的問題:某些數據傳遞給同樣的名字,這些名字是否指的是同一個人,還有如何在之后的模型中更加高效的使用信息數據。體現了提出問題并處理問題的能力。將問題一步步分析,并不急著解答,而是先建模解決初步問題,最后在一步步地解決最終的問題。3. 測試數據的魯棒性,并進行了模型敏感性分析,使簡單易懂的控制變量法進行模型的測試。并能達到預期效果。三、思考與提高通過優(yōu)秀論文的研讀,我們對問題有了更加全面的理解,并得到我們開始建立的模型的缺點如下:1. 沒有考慮到語義網絡分析和文本分析對模型修改和簡
25、化的作用。2. 我們僅僅考慮到了節(jié)點層面,沒有進行進一步深化問題,即整個犯罪網絡層面。3. 我們沒有對犯罪高層領導人的特殊性和隱蔽性進行考慮。通過對題目深入的思考和對優(yōu)秀論文的閱讀,我們將一個好的數學模型總結為:1. 形式上是簡單的;2. 開始可能不如一個精雕細琢過的錯誤模型來的準確,但是如果認定大的方向是對的,就應該堅持下去;3. 大量準確的數據對模型的實際性檢驗非常重要;4. 正確的模型也可能會受到噪音干擾,而顯得不準確,這時不能應用一種湊合的修正方法來彌補它,而是應該找到噪聲的根源,這也許可以通往重大發(fā)現。operation (due to measurement shi 0 tube
26、forced for 0, so 0 points value should entered to occupy a points bit), then according to return equation seeking out reagents blank liquid and sample was measuring liquid of arsenic concentration, again by type (1) calculation sample of arsenic content:am-the mass or volume of the sample, expressed
27、 in grams or milliliters (ml or g). results to two significant figures. 7 precision under repeatability conditions, wet digestion method get the absolute value of the difference of two independent test results shall not exceed the arithmetical average of the 10%. dry ashing method under repeatability conditions obtain the absolute value of the difference of two independent test results shall not exceed the arithmetical average of the 15%. 8 wet digestion method for the determination of the accu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 六年級第一學期教學計劃范文合集三篇
- 九年級化學教學計劃范文錦集7篇
- 銷售部年度工作計劃
- 師德師風的教師演講稿模板5篇
- 人壽保險公司實習報告合集六篇
- 關于年會策劃方案范文合集6篇
- 大學生頂崗實習周記錦集六篇
- 政府績效評估 課件 蔡立輝 第6-10章 政府績效評估的結果應用與改進 -政府績效評估在當代中國的推進
- 2010年高考一輪復習教案:必修1 第四章 非金屬及其化合物 全程教學案
- 2025年農林牧漁專用儀器儀表項目發(fā)展計劃
- 2025中國電信山東青島分公司校園招聘高頻重點提升(共500題)附帶答案詳解
- 2025年八省聯考高考語文作文真題及參考范文
- 新課標(水平三)體育與健康《籃球》大單元教學計劃及配套教案(18課時)
- 開題報告-鑄牢中華民族共同體意識的學校教育研究
- 計件工勞務合同范例
- 2024年公交車開通儀式講話例文(4篇)
- 2024-2025學年八年級上冊物理 第五章 透鏡以及其應用 測試卷(含答案)
- 《自理理論orem》課件
- 2024年浙江省杭州市下城區(qū)教育局所屬事業(yè)單位招聘學科拔尖人才10人歷年管理單位遴選500模擬題附帶答案詳解
- 研發(fā)項目管理培訓課件講解
- 2024-2030年中國膏劑(膏方)行業(yè)競爭狀況及營銷前景預測報告版
評論
0/150
提交評論