中國電信號百分析系統(tǒng)建設方案_第1頁
中國電信號百分析系統(tǒng)建設方案_第2頁
中國電信號百分析系統(tǒng)建設方案_第3頁
中國電信號百分析系統(tǒng)建設方案_第4頁
中國電信號百分析系統(tǒng)建設方案_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、中國電信號百分析系統(tǒng)建設方案簡介中國電信號百分析系統(tǒng)(以下簡稱分析系統(tǒng))建立在“上海埃帕信息科技有限公司(以下簡稱ape)”自主研發(fā)并擁有自主知識產權的“埃帕cooling搜索引擎軟件(以下簡稱cooling搜索)”之上。cooling搜索是“上海埃帕信息科技有限公司”在自然語言處理、數據挖掘、人工智能以及搜索等行業(yè)多年研究與積累的成果。cooling搜索是一個具備語義分析以及數據挖掘能力的互聯網搜索引擎。從傳統(tǒng)的搜索引擎的角度來看,它能夠提供:l 快速高效的非結構化數據分析與抓取,保證了向整個互聯網探索的能力。l 支持多種語言,以及各種文本格式。l 高效的索引機制,保證對海量數據的快速檢索能

2、力。l 高性能,高可用以及可擴展的分布式運行與存貯技術,保證了互聯網級的海量信息的存貯能力。在傳統(tǒng)的搜索引擎之的功能之上,它還能夠提供:l 自然語義理解能力,能夠區(qū)分出自然語言的真實含義,更精準地定位搜索結果。l 數據挖掘能力,能夠對互聯網的數據進行進一步的分析,建立出更具備商業(yè)價值的數據模型。分析系統(tǒng)借助于cooling搜索,從互聯網抓取細分的行業(yè)信息、并進行語義分析、最后建立并存貯原始數據模型。分析系統(tǒng)通過行業(yè)專家,對該原始數據模型進行分析,得出更有價值的數據模型,并以多種方式進行展示。企業(yè)需求針對人群中小型企業(yè)用戶需求內容 根據企業(yè)定制產業(yè)類型(如:汽車類信息、工業(yè)類信息等)利用現有的信

3、息源,通過某個系統(tǒng),幫助分析某類信息的深層含義,包括發(fā)展趨勢,民生態(tài)度,關注熱點等等,最終以圖表、報表等各類企業(yè)需要的呈現形式展示給用戶。需求分析現狀l 人群特征中國人口密度高,國內聚集了一批經常使用網絡的人群。截至09年底,我國網民總數已達4.04億,社交網站用戶群達1.91億。而且有越來越多的人開始接觸網絡。l 網站建設截至2009年底,國內網站數量達到323萬個,年增長率12.3%?;ヂ摼W成為人們社會生活的重要工具。目前,互聯網已成為人們生活、工作、學習不可或缺的工具,正對社會生活的方方面面產生深刻影響。l 論壇建設全國網絡輿情發(fā)展迅速,各地均有人氣較為聚集的論壇,如天涯論壇、新浪論壇等

4、,地方性論壇和交流性論壇深受廣大市民喜愛。用戶需求 一般企業(yè)需要得到信息分析報告的目的:企業(yè)信息管理優(yōu)勢要求信息分析1.信息覆蓋范圍廣、容量大2.與廣大用戶的實際情況息息相關3.信息按重要性評級處理4.能為企業(yè)的利益提供數據支持傳播特點1.及時報告突發(fā)狀況2.及時發(fā)現重點、熱點處理決策幫助企業(yè)準確快速做出企業(yè)決策一般企業(yè)所需管理功能如下:企業(yè)管理功能描述熱點信息簡報掌握網絡中企業(yè)所關心的信息熱點動向網情報告了解企業(yè)關心的網民評論突發(fā)信息快報企業(yè)定制的相關信息的突發(fā)事件的極速報告(建議短信方式提供)重點信息跟蹤報告按需定制特定主題網情跟蹤最終目標cooling search通過對企業(yè)關心的網上民

5、眾的評論,最終提供給企業(yè)所需要的趨勢統(tǒng)計分析報告,能夠幫助企業(yè)做出企業(yè)決策,增加企業(yè)收益。群體對比為了更好的分析需要信息分析的企業(yè)類型,用房產類企業(yè)用戶和消費類企業(yè)用戶對比,結果如下:用戶群體分析消費者角度由于現在網絡的信息以及十分全面,而信息分析是建立在這些信息源之上的更深層次的一個傾向性趨勢的分析,對于消費者而言,真正感受到這一系統(tǒng)的樂趣的產業(yè)建議滿足以下幾個條件:l 消費品的價格價格必須略高,只有價格高消費者在消費時才有仔細選擇的意義,如果價格偏低消費者無須查看這么多趨勢分析資料,趨勢分析也就無意義。l 消費品的意義對于消費者來說此類物品必須是有著重要的意義或者影響力。l 消費品的競爭力

6、此消費品必須是有著很強的競爭力,對于消費者有著很多選擇。l 難以決擇性現代的互聯網提供的信息仍然讓用戶難以做出消費抉擇。l 消費品的評論此消費品必須凝聚一定的消費者評論,讓分析數據更有說服力。企業(yè)用戶角度號百信息服務公司將目標客戶定于中小型企業(yè)。中介商和一些中小型的供應商便成了信息分析的最主要用戶,對于這部分用戶而言首先必須從名聲出發(fā),了解民眾需求,了解行業(yè)發(fā)展趨勢,做出正確的企業(yè)決策。而對于企業(yè)用戶而言,建議獲取以下分析信息:l 消費者的消費傾向傾向包括:消費者的消費喜好,消費習慣及相關的消費數據等。l 消費者的消費評論對與本企業(yè)以及同行業(yè)其他企業(yè)消費者的消費評論趨勢。l 突發(fā)事件行業(yè)內發(fā)生

7、的突發(fā)重大事件報告。l 行業(yè)趨勢本行業(yè)的發(fā)展趨勢??蛻羧号e例房產類房產類是由于其高昂的價格和多變的價格浮動,讓消費者和企業(yè)對其趨勢十分關心。首先,買房是一件三思而后行的消費行為,消費者再沒有詳細的數據支持的前提下很難做出消費決策,消費者愿意花費大量的時間在前期準備中,以確保自己能做出準確地判斷。其次,房產在全國各地無論是開發(fā)商還是中介商,競爭都越加激烈,盈利豐厚,企業(yè)管理者對于行業(yè)趨勢變化十分關心。而信息分析系統(tǒng)恰好幫助雙方解決決策問題。教育類這里的教育類可以分成兩類,一種是正規(guī)的教育,比如:小學,中學,大學的學校選擇,另一種是業(yè)余的教育,比如:夜大,成人大學等。但是無論是哪一種教育對于每個學

8、生來說擇校的意義都是十分重大,學科的熱門程度,師資的優(yōu)劣都是每個擇校的人十分關心的熱點,而對于學校來說,開設怎樣的課程才能吸引更多學生,就業(yè)的趨勢分析等則是每個學校每年都在考慮的問題。由于學校的論壇眾多,分析此類信息得出的結論會十分具有說服力?;閼c類結婚儀式永遠是每個人一生最重要的選擇之一,所以婚禮的各項事宜成為每一對準新人最愿意花時間研究的數據。現在網絡上婚慶的項目很多如:酒類,酒店類,糖類,婚車類等等,但是如何將這些數據整合在一切,給出用戶一個決策方案成為一個急切需要解決的問題。而信息分析就可以做到這些,系統(tǒng)通過分析互聯網評論等信息,給出各種方案以及當下其他新人流行趨勢。對于婚慶中介和婚慶

9、物品提供商而言,競爭也是十分激勵,新人想要怎樣的婚禮,當下流行話題是什么,這些都是這些企業(yè)所關心的問題。系統(tǒng)建設建設目標 根據客戶需要了解的行業(yè)或個企,挖掘互聯網上關于此行業(yè)或個企的所有信息并通過及其智能分析,最終以圖表的方式展現各種用戶想要了解的報告資訊,幫助最終客戶了解行業(yè)動態(tài)。建設方案以下是分析系統(tǒng)的總體系統(tǒng)架構,整個系統(tǒng)架構以cooling搜索為核心,從互聯網抓取特定的信息,經過分析后,以多種形式展現給最終用戶。spiderspider是cooling搜索的非結構與結構化數據的抓取與分析工具,更多時候它也被稱為“網絡爬蟲”與“網絡蜘蛛”。要建立一個高效的搜索引擎,最首要的任務是提高網絡

10、資源的抓取速 度與效率,這樣才能跟得上互聯網信息增長的速度,spider 在cooling search 中就承擔著這么一個角色。 在非結構化數據方面,spider 包含了完整的 http/1.1,ftp,html/4,xml,rdf 的實現,能夠識別與分析各類互聯網文本。在結構化數據方面,spider 能夠支持對 oracle,sql server,db2,mysql 等主流關系型數據的抓取與分析。spider在分析系統(tǒng)中提供的功能有:信息抓取,信息識別,配置管理,爬蟲調度,管理界面以及api。功能描述信息抓取spider能夠通過http,ftp,odbc,samba等協(xié)議從互聯網、局域網、

11、關系型數據庫,以及文件系統(tǒng)中抓取信息。這些信息在抓取后將被保存到egg中。信息識別spider能夠分析多種格式的文本,包括hmtl、xml、rdf、文本文件以及自定義格式。spider為每一種格式定義了解釋器(parser),用于識別特定格式的文本,并將之轉換成統(tǒng)一的格式,進行存貯、檢索以及后續(xù)數據分析。對于自定義格式,用戶也可以依據口,實現自己的解釋器(parser),實現自定義格式的識別。配置管理spider通過配置文件實現對信息抓取的控制,重要的配置的內容包括:l 數據源,包括網站地址、bbs地址、文件目錄、數據庫等l 爬蟲數量,對指定數據源開戶多少爬蟲l 抓取頻度,對指定數據源多久進行

12、抓取l 抓取與過濾規(guī)則,允許抓取或過濾符合特定規(guī)則的數據l 抓取深度,對指定數據源抓取到幾級深度為止l 抓取內容規(guī)則,允許通過規(guī)則只抓取重要數據l 分析器設定,使用何種分析器(parser)分析符合規(guī)則的數據l 存貯方式設定,設定以何種形式存入egg。爬蟲調度spider根據配置文件對抓取信息源的爬蟲進行調度管理界面配置管理功能是通過多個配置文件來設定爬蟲的行動,但需要對cooling搜索有著較深的理解。spider為了簡化一定工作,提供了可視化界面,提供更友好的管理。apispider提供一套api接口、文檔以及用戶手冊以方便二次開發(fā)。開發(fā)者可以通過spider定制出符合特定需求的爬蟲。eg

13、gegg是cooling搜索的索引平臺,用來保存海量的非結構化數據,并提供基于關鍵字以及語義的高效檢索。egg 的核心理念是構建一套高效的索引機制,把原始的非結構化數據轉化成可供檢索的數據結構,并提升檢索的效率。egg在分析系統(tǒng)中提供的功能有:文檔管理、索引管理、信息檢索、特征分析、api。功能描述文檔管理egg是一個能夠提供對非結構化數據存貯的數據庫,spider抓取到的不同種類的數據,轉化成統(tǒng)一格式后,最終被保存到了egg中。索引管理不同于關系型數據庫,非結構化數據庫沒有明確的表結構(schema),更多的時候是以動態(tài)結構存在,而且存貯的數據以大字段為主。因此egg的索引是基于特征來建立,

14、使用者可以通過某個特征,以比關系型數據庫快一個數量級的速度,查詢到相應的文檔。信息檢索egg通過索引,使用者可以通過特征,以最快的速度找到所需要的文檔。排序算法是以文檔的重要程度,結合搜索條件與文檔的相似度進行排列。特征分析egg為不同類的文檔,通過統(tǒng)一的特征分析接口,提供不同的特征分析器。特征分析器用于從文檔中提取重要特征,這些特征將被用來進行快速檢索,以及進一步的數據分析用。apiegg提供一套api接口、文檔以及用戶手冊以方便二次開發(fā)。開發(fā)者可以通過egg來存貯更多種類的非結構化信息。scholarscholar是 cooling search 的“語義分析”以及“數據挖掘”平臺。sch

15、olar通過對互聯網信息的分析與挖掘,構建了一套完整的自然語言語料庫以及基于統(tǒng)計觀點的自然語言語法模型,為語義分析提供了可靠的基石。scholar 目前還在不斷地對互聯網信息進行分析與挖掘,構建出各類有用的數據模型,力爭為互聯網應用帶來更便捷更準確、更高效的搜索服務。scholar在分析系統(tǒng)中提供的功能有:詞法分析、語法分析、感情分析、傾向性分析、語法模型維護、挖掘算法、數學模型。功能描述詞法分析詞法分析又稱分詞,用于把句子拆分成能夠表達意思的最小單元(詞、字或詞組)的集合。scholar默認提供了中文以及英文的分詞器。語法分析語法分析,用于分析句子成分。通過句子成分分析、建立語法樹、讓機器可

16、能理解人類語言。感情分析在語法分析的結果之上,感情分析用于分析起修飾作用的每個啟的貶褒等感情色彩,并通過一定規(guī)則,以數值進行體現。傾向性分析傾向性分析,可以通過一定要求,對感情分析的結果進行匯總,得出一句話或一段話的傾向性。語法模型scholar的自然語言識別算法建立在統(tǒng)計統(tǒng)率模型上,因此scholar默認提供了漢語與英語的語法模型。挖掘算法scholar實現了數據挖掘中常見的各類算法,用于對數據進行分析。數學模型scholar通過挖掘算法,對語義分析后的數據進行挖掘,建立出更可用的數學模型,以供用戶檢索或通過各類報表進行展現。這個操作可視為數據倉庫的etl。apischolar提供一套api

17、接口、文檔以及用戶手冊以方便二次開發(fā)。開發(fā)者可以通過scholar來實現更多自定義的模型存貯更多種類的非結構化信息。platformplatform是cooling搜索的總線,將cooling搜索的各個模塊有效的集合在了一起,并提供高效的數據傳輸手段,供各模塊進行通信。產品介紹產品名稱cooling search(中文名“酷靈搜索”)產品簡介cooling search是“上海埃帕信息科技有限公司”在自然語言處理、數據挖掘、人工智能以及搜索等行業(yè)多年研究與積累的成果。cooling search是一個具備語義分析以及數據挖掘能力的互聯網搜索引擎。從傳統(tǒng)的搜索引擎的角度來看,它能夠提供:快速高效

18、的非結構化數據分析與抓取,保證了向整個互聯網探索的能力。支持多種語言,以及各種文本格式。高效的索引機制,保證對海量數據的快速檢索能力。高性能,高可用以及可擴展的分布式運行與存貯技術,保證了互聯網級的海量信息的存貯能力。在傳統(tǒng)的搜索引擎之的功能之上,它還能夠提供:自然語義理解能力,能夠區(qū)分出自然語言的真實含義,更精準地定位搜索結果。數據挖掘能力,能夠對互聯網的數據進行進一步的分析,建立出更具備商業(yè)價值的數據模型。產品愿景cooling search致力于將計算機變得更人性化,更智能,同時不斷改變人類與機器的交互方式。在目前的企業(yè)信息化系統(tǒng)中,關系型數據庫成為保存企業(yè)信息的主要手段。關系型數據庫的

19、優(yōu)勢在于結構化數據的管理,如企業(yè)中已經預選定義好的,具備明確標準與格式的各類表單,單據。但實際情況是,大量的人性化的非結構化信息存放于各類辦公文檔、網頁、郵件、即時消息、圖象、音頻、視頻以及一些特定格式的文件中。隨著企業(yè)規(guī)模的日益增大,信息化系統(tǒng)的日益復雜,非結構化信息大量涌現出來,根據 gartner 研究顯示,此類數據以每月翻一倍的速度增長。不少企業(yè)都面臨到了如何整合與管理這些信息,并發(fā)現這些信息中隱含的更有價值的東西。cooling search認為,消除企業(yè)中的信息孤島固然是一個非常重要的行為,但如何對這些信息進行分析,并得出更有價值的模型,才是重中之重。專業(yè)服務個體報告 個體報告是指

20、以某個行業(yè)中的某一家具體的企業(yè)為調研對象,互聯網上所有網民對這家企業(yè)的各個方面的客觀評論文字作為分析依據,將所有分析系統(tǒng)所分析的數據以圖表的方式展示出來,最終以word文字報告的方式加以簡要說明。由于個體報告是以某一家具體的企業(yè)作為研究對象,所以研究的范圍包括企業(yè)的口碑,企業(yè)的特色,企業(yè)的競爭力和企業(yè)的推廣方向等企業(yè)的各個方面。也可根據客戶的具體需求制定特定的研究課題。而展現內容則包括分析圖表,介紹文字和相關評論說明。研究范圍描述企業(yè)口碑我們的分析系統(tǒng)將用戶的評論分為多個維度,每個維度可以理解為用戶評論的每個視角,含蓋了企業(yè)的方方面面。企業(yè)的口碑則是用戶對企業(yè)每個維度的評論,最終分析出企業(yè)在消

21、費者心中的形象,企業(yè)的優(yōu)勢和劣勢,企業(yè)的改進方向等。企業(yè)的特色每家企業(yè)都有其特色產品。餐廳表現為特色菜,商店表現為特色商品。對企業(yè)特色分析,分析系統(tǒng)可以分析出特色產品的口碑,特色產品的優(yōu)勢,特色產品的消費份額等,除此之外系統(tǒng)還能通過分析評論為企業(yè)推薦民眾口中的特色產品。競爭力這里的競爭力主要是指某家企業(yè)的競爭對手。競爭力的分析可以分為以下幾個方面。l 競爭對手的口碑l 競爭對手的優(yōu)勢l 競爭對手的劣勢l 相同產品與競爭對手的比較l 競爭對手推廣方式的捕捉l 民眾競爭對手推廣方式的接受程度推廣方向推廣方向主要是分析系統(tǒng)對企業(yè)的原有推廣手段網名接受程度的分析和根據評論中的評論詞,維度等消息對企業(yè)推

22、廣手段的推薦。自定義客戶可以根據自己的需求,定義期望展現的分析圖表。自定義內容包括圖表的展現形式(柱狀圖,餅圖等),x軸的單位(時間,名稱等),y軸的單位(評論量,轉載量,打分等)。展現內容描述趨勢圖主要的趨勢圖有柱狀圖,餅圖,曲線圖。報告以圖表方式直觀的展現出各個分析數據和企業(yè)發(fā)展趨勢。介紹文字輔助文字,幫助用理解圖的內容。相關評論說明對趨勢變化明顯的圖解釋分析變化原因。評論詞展示展示每個維度的用戶好評和差評詞。行業(yè)報告行業(yè)報告是指以某個行業(yè)的整體為調研對象,互聯網上所有網民對這個行業(yè)的各個方面的客觀評論文字作為分析依據,將所有分析系統(tǒng)所分析的數據以圖表的方式展示出來,最終以word文字報告的方式加以簡要說明。由于行業(yè)報告是以某一個具體的行業(yè)作為研究對象,所以研究的范圍包括行業(yè)的關注度,消費者的消費決策,行業(yè)排名、行業(yè)整體推廣方向和行業(yè)的發(fā)展趨勢等關于此行業(yè)的各個方面。也可根據客戶的具體需求制定特定的研究課題。而展現內容則包括分析圖表,介紹文字和相關評論說明。研究范圍描述行業(yè)關注度行業(yè)的關注度表現為網上的關于此行業(yè)的評論量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論