造紙機(jī)公司工程項目數(shù)據(jù)采集分析與知識管理(完整版)_第1頁
造紙機(jī)公司工程項目數(shù)據(jù)采集分析與知識管理(完整版)_第2頁
造紙機(jī)公司工程項目數(shù)據(jù)采集分析與知識管理(完整版)_第3頁
造紙機(jī)公司工程項目數(shù)據(jù)采集分析與知識管理(完整版)_第4頁
造紙機(jī)公司工程項目數(shù)據(jù)采集分析與知識管理(完整版)_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、泓域咨詢/造紙機(jī)公司工程項目數(shù)據(jù)采集分析與知識管理造紙機(jī)公司工程項目數(shù)據(jù)采集分析與知識管理xx有限責(zé)任公司一、 項目名稱及項目單位項目名稱:造紙機(jī)公司工程項目項目單位:xx有限責(zé)任公司二、 項目建設(shè)地點本期項目選址位于xx(待定),占地面積約42.00畝。項目擬定建設(shè)區(qū)域地理位置優(yōu)越,交通便利,規(guī)劃電力、給排水、通訊等公用設(shè)施條件完備,非常適宜本期項目建設(shè)。三、 建設(shè)規(guī)模該項目總占地面積28000.00(折合約42.00畝),預(yù)計場區(qū)規(guī)劃總建筑面積52632.65。其中:主體工程39535.66,倉儲工程6378.06,行政辦公及生活服務(wù)設(shè)施4191.31,公共工程2527.62。四、 項目建

2、設(shè)進(jìn)度結(jié)合該項目建設(shè)的實際工作情況,xx有限責(zé)任公司將項目工程的建設(shè)周期確定為24個月,其工作內(nèi)容包括:項目前期準(zhǔn)備、工程勘察與設(shè)計、土建工程施工、設(shè)備采購、設(shè)備安裝調(diào)試、試車投產(chǎn)等。五、 建設(shè)投資估算(一)項目總投資構(gòu)成分析本期項目總投資包括建設(shè)投資、建設(shè)期利息和流動資金。根據(jù)謹(jǐn)慎財務(wù)估算,項目總投資23839.07萬元,其中:建設(shè)投資17559.20萬元,占項目總投資的73.66%;建設(shè)期利息499.64萬元,占項目總投資的2.10%;流動資金5780.23萬元,占項目總投資的24.25%。(二)建設(shè)投資構(gòu)成本期項目建設(shè)投資17559.20萬元,包括工程費用、工程建設(shè)其他費用和預(yù)備費,其中

3、:工程費用15122.97萬元,工程建設(shè)其他費用1877.95萬元,預(yù)備費558.28萬元。六、 項目主要技術(shù)經(jīng)濟(jì)指標(biāo)(一)財務(wù)效益分析根據(jù)謹(jǐn)慎財務(wù)測算,項目達(dá)產(chǎn)后每年營業(yè)收入50300.00萬元,綜合總成本費用42093.46萬元,納稅總額4086.62萬元,凈利潤5986.87萬元,財務(wù)內(nèi)部收益率17.43%,財務(wù)凈現(xiàn)值4938.57萬元,全部投資回收期6.48年。(二)主要數(shù)據(jù)及技術(shù)指標(biāo)表主要經(jīng)濟(jì)指標(biāo)一覽表序號項目單位指標(biāo)備注1占地面積28000.00約42.00畝1.1總建筑面積52632.65容積率1.881.2基底面積17360.00建筑系數(shù)62.00%1.3投資強(qiáng)度萬元/畝405

4、.992總投資萬元23839.072.1建設(shè)投資萬元175工程費用萬元15122.972.1.2工程建設(shè)其他費用萬元1877.952.1.3預(yù)備費萬元558.282.2建設(shè)期利息萬元499.642.3流動資金萬元5780.233資金籌措萬元23839.073.1自籌資金萬元13642.373.2銀行貸款萬元10196.704營業(yè)收入萬元50300.00正常運營年份5總成本費用萬元42093.466利潤總額萬元7982.507凈利潤萬元5986.878所得稅萬元1995.639增值稅萬元1866.9510稅金及附加萬元224.0411納稅總額萬元4086.6212工業(yè)增加值萬

5、元13824.1613盈虧平衡點萬元23324.19產(chǎn)值14回收期年6.48含建設(shè)期24個月15財務(wù)內(nèi)部收益率17.43%所得稅后16財務(wù)凈現(xiàn)值萬元4938.57所得稅后七、 信息鑒別常用方法(一)溯源法對到手信息涉及的問題應(yīng)追根溯源,及時核對。例如,盡量找到現(xiàn)場和掌握第一手資料的人;核對原始資料,并查對主要參考文獻(xiàn);按其中敘述的方法、步驟,重做實驗或演算,以便從來源上找到鑒別依據(jù)。鑒別和篩選在手信息,判斷是否完整、適用與可靠,是咨詢?nèi)藛T的重要工作。工程咨詢所需信息十分廣泛,不可能也不必均由咨詢?nèi)藛T鑒別。為了確保信息可靠,應(yīng)盡可能選用權(quán)威機(jī)構(gòu)發(fā)布或已鑒定、批準(zhǔn)的信息。例如,地質(zhì)儲量選用儲量委員

6、會批準(zhǔn)的儲量報告;地震帶的分布用國家地震局的數(shù)據(jù);歷史數(shù)據(jù)用國家統(tǒng)計局的數(shù)據(jù)。一般來說,專業(yè)技術(shù)力量強(qiáng)的單位提供的信息較可靠。例如,國際金融組織的國際金融信息較可靠;來自從事鋼鐵、汽車行業(yè)研究的機(jī)構(gòu)的鋼鐵、汽車業(yè)信息較可靠。(二)比較法有些信息受主客觀條件限制難以溯源,對此,可用比較法,即比較不同人、不同時間和其他方面的材料;對于某一事實,說法、結(jié)論是否一致。如果一致,則基本可辨真?zhèn)巍H舴?,就需進(jìn)一步核查。(三)佐證法任何事物都與其他事物有一定聯(lián)系,并相互制約。找到這些聯(lián)系和制約因素,便可判斷事物的真?zhèn)?。一般說來,口頭材料不如文字材料可靠,文字不如實物可靠。分析信息產(chǎn)生的過程也是尋求信息佐證的

7、辦法。1普查數(shù)據(jù)一般比抽查數(shù)據(jù)全面、準(zhǔn)確。2監(jiān)測數(shù)據(jù),長期比短期全面,監(jiān)測范圍大的數(shù)據(jù)比監(jiān)測范圍小的數(shù)據(jù)代表性強(qiáng);勘探密度大的數(shù)據(jù)比勘探密度小的數(shù)據(jù)準(zhǔn)確,科學(xué)實驗和仿真模擬計算的數(shù)據(jù)比一般推理的數(shù)據(jù)準(zhǔn)確。3核對來源不同,收集方法不同的數(shù)據(jù)。如衛(wèi)星圖片、航測數(shù)據(jù)可用地面實測數(shù)據(jù)驗證;了解來的市場需求量與行業(yè)協(xié)會、主要企業(yè)、國家統(tǒng)計局的數(shù)據(jù)對比。4對比不同時期、不同來源的數(shù)據(jù),并適當(dāng)修正其間的差距。同一對象的數(shù)據(jù),在不同國家、不同歷史時期,由于范圍不同,計算的標(biāo)準(zhǔn)和口徑可能有所不同,造成數(shù)據(jù)之間有很大的差異。在對比這些數(shù)據(jù)時,必須查明統(tǒng)計口徑,否則就會出錯。5由專家集體辨別信息是否準(zhǔn)確,是否可靠。

8、對于來自不同渠道的信息,可能因角度不同、口徑不一、方法各異等而不一致,甚至矛盾。這時,可請專家集體討論,弄清差異和矛盾的原因,去偽存真,取得一致意見。(四)邏輯法鑒別信息,邏輯判斷必不可少。不經(jīng)縝密的邏輯思考容易出錯。有些基本差錯,例如語言或文字的前后矛盾,夸大其詞,有悖情理,以及某些虛構(gòu),禁不起邏輯的推敲。當(dāng)然,邏輯合理并不總能證明事物為真,從虛假的前提出發(fā),經(jīng)過合理的邏輯推斷得出的結(jié)果不會真實。因此,鑒別信息,既要充分利用經(jīng)驗、認(rèn)識和判斷力,也要借助其他手段。八、 信息鑒別及必要性(一)信息鑒別數(shù)據(jù)與信息鑒別,可稱信息識別,就是將信息與具有特定屬性的“模式”進(jìn)行比較,進(jìn)而判斷信息的類別或?qū)?/p>

9、性。具體而言,就是信息收集或使用者運用已有的知識和經(jīng)驗,在對獲取的信息進(jìn)行初步分析之后,按照一定原則和目的,辨認(rèn)與甄別信息的真?zhèn)?、輕重主次、是否完整、是否有用,以及用途大小等。(二)信息鑒別的必要性互聯(lián)網(wǎng)時代,信息極為豐富,大大開闊了人們的眼界。然而,蜂擁而至,難辨真假的信息摻雜在一起,常常使人們陷入另一種迷茫,甚至成了海量信息的奴隸。過量的信息若不篩選,會使決策者無所適從?,F(xiàn)在,互聯(lián)網(wǎng)上充斥著偽造、篡改缺失、無代表性、誤傳、以及過時等信息。有些信息背后隱藏著各種政治、經(jīng)濟(jì)社會的利益團(tuán)體正當(dāng)或不正當(dāng)?shù)哪康暮推髨D。信息識別及時與否決定了決策是否正確而又及時,決定了企業(yè)、事業(yè)、項目和其他活動的命運

10、。對于工程咨詢,信息識別同樣十分必要。信息識別并非簡單工作,對從事者有很高的要求。決策者固然應(yīng)高瞻遠(yuǎn)矚,但決策的基礎(chǔ)是真實、可靠的信息。決定信息識別成敗的主要因素有:對服務(wù)目標(biāo)的正確認(rèn)識及其深刻程度;識別者實事求是的態(tài)度和已有的知識、推理與判斷能力。九、 工程咨詢信息采集途徑調(diào)查方法可分為普查與抽樣調(diào)查兩大類,這兩類都有文案調(diào)查、實地調(diào)查、問卷調(diào)查、實驗調(diào)查等幾種。選擇調(diào)查方法要考慮收集信息的能力、調(diào)查研究的成本、時間要求、樣本控制和人員效應(yīng)的控制程度。上述各種方法,各有利弊,各有適用范圍。文案調(diào)查是上述各種調(diào)查方法中最簡單、最一般和常用的方法,也是其他調(diào)查方法的基礎(chǔ)。實地調(diào)查能夠控制調(diào)查過程

11、,應(yīng)用靈活,信息充分,但耗時長、費用多,調(diào)查對象易受心理暗示影響,不夠客觀。問卷調(diào)查適應(yīng)范圍廣、簡單易行、費用較低,得到了大量應(yīng)用。實驗調(diào)查最復(fù)雜、費用高、應(yīng)用范圍有限,但調(diào)查結(jié)果可信度較高。(一)文案調(diào)查法文案調(diào)查法是指對已經(jīng)存在的各種資料檔案,以查閱和歸納的方式進(jìn)行的市場調(diào)查。文案調(diào)查法又稱二手資料或文獻(xiàn)調(diào)查。文案資料來源很多,主要有:國際組織和政府機(jī)構(gòu)資料;行業(yè)資料;公開出版物;相關(guān)企業(yè)和行業(yè)網(wǎng)站;有關(guān)企業(yè)的內(nèi)部資料。(二)問卷調(diào)查法這種方法是調(diào)查人員以面談、電話詢問、網(wǎng)上填表或郵寄問卷等方式,了解調(diào)查對象的行為方式,從而收集信息。問卷調(diào)查法是市場調(diào)查常用方法,尤其在消費者行為調(diào)查中大量

12、應(yīng)用,其核心工作是設(shè)計問卷,實施問卷調(diào)查。(三)實地調(diào)查法此法是調(diào)查人員通過跟蹤、記錄調(diào)查對象的行為取得第一手資料的方法。這種方法是調(diào)查人員直接到市場或某些場所(商品展銷會、商品博覽會、商場等)親身感受或借助于某些攝錄設(shè)備和儀器,跟蹤、記錄調(diào)查對象的活動、行為和事物的特點,獲取所需信息資料。(四)實驗調(diào)查法該法是指調(diào)查人員在調(diào)查過程中,通過改變某些影響調(diào)查對象的因素,觀察調(diào)查對象行為的變化,從而獲得消費行為和某些因素之間的內(nèi)在因果關(guān)系。該法主要用于消費行為的調(diào)查,企業(yè)推出新產(chǎn)品、改變產(chǎn)品外形和包裝、調(diào)整產(chǎn)品價格、改變廣告方式時,都可以用這種方法。十、 網(wǎng)絡(luò)信息搜索和提取方法(一)概過現(xiàn)在,雖然

13、不能說人類所有文獻(xiàn)與其他信息都上了互聯(lián)網(wǎng),但是網(wǎng)上的信息極為豐富,許多都可用于咨詢。但是,許多咨詢?nèi)藛T還不善于甚至不知道如何從網(wǎng)上快速、安全、有效地獲得自己需要的信息和知識。咨詢工程師應(yīng)當(dāng)知曉網(wǎng)上有何利信息,應(yīng)掌握從網(wǎng)上獲取信息的方法與基本技巧。對于網(wǎng)上的信息,可利用瀏覽器和搜索引擎獲取。瀏覽器是供用戶閱讀網(wǎng)頁內(nèi)容的軟件;而搜索引擎,指從互聯(lián)網(wǎng)上搜集信息的特定電腦程序。早期的搜索引擎是收集互聯(lián)網(wǎng)中服務(wù)器的地址,按這些服務(wù)器擁有的資源類型將其編成不同的目錄,各個目錄再逐層分類。搜索引擎則沿著此類層級向下搜索,找到用戶想要的信息。這種方式只適用于互聯(lián)網(wǎng)信息不多的時代。隨著互聯(lián)網(wǎng)上信息的迅猛增長,出

14、現(xiàn)了新式搜索引擎,性能大為改進(jìn),能夠找到網(wǎng)站每一頁的起始地址,隨后搜索網(wǎng)上所有超級鏈接,把代表超級鏈接的所有詞匯放入一個數(shù)據(jù)庫。搜索引擎的功能不再限于搜索,已經(jīng)添加了電子商務(wù)、新聞信息服務(wù)、個人免費電子信箱服務(wù)等。(二)搜索引擎工作原理搜索引擎有信息搜集、信息整理和接受用戶查詢?nèi)糠郑髯怨ぷ髟泶笾氯缦拢?搜集信息:搜索引擎利用稱為網(wǎng)絡(luò)蜘蛛(spider)的自動搜索機(jī)器人程序,從少數(shù)幾個網(wǎng)頁開始,將各個網(wǎng)頁的超鏈接連結(jié)在一起,只要網(wǎng)頁上有適當(dāng)?shù)某溄?,機(jī)器人便可以遍歷絕大部分網(wǎng)頁。2整理信息:這個過程稱為“建立索引”。搜索引擎不僅要保存搜集到的信息,還要按照一定規(guī)則編排之。這樣,搜索引擎無須

15、重新翻查已保存的所有信息,便能迅速找到所要的資料,從而能夠大大加快搜索速度。3接受查詢:對于每時每刻都會接到的大量用戶幾乎同時發(fā)出的查詢請求,搜索引擎按照各個用戶的要求檢查自己的索引,能在極短時間內(nèi)找到用戶需要的資料,并交給用戶。目前,搜索引擎交給用戶的主要是網(wǎng)頁鏈接,用戶按照這些鏈接便能找到含有自己所需資料的網(wǎng)頁。搜索引擎一般會在這些鏈接下加一段有關(guān)這些網(wǎng)頁的摘要,以便用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。(三)搜索引擎種類現(xiàn)在,搜索引擎有很多種,可以從不同的角度分類。按搜索方法,分全文索引、目錄索引、元搜索、垂直搜索、集合式搜索、門戶搜索、個性搜索、專家型搜索與免費鏈接列表等。按搜索對象,

16、分購物、自然語言、新聞、mp3、圖片等搜索引擎。按搜索范圍,分桌面、地址欄、本地等搜索引擎。按出現(xiàn)的時間,分第三代、第四代搜索引擎等?,F(xiàn)在,用的較多的搜索引擎有g(shù)oogle,百度、yahoo、msnsearch,webcrawler,lycos,cnetsearch,looksmart等。(四)搜索方法與技巧要想使搜索引擎能在網(wǎng)上快速找到有關(guān)咨詢的資料,首先要明確查詢目的。目的不同,查詢策略與方法不同。在明確目的之后,還應(yīng)了解查詢的種類與技巧,學(xué)會恰當(dāng)?shù)厥褂藐P(guān)鍵詞。搜索方法的選擇取決于搜索的內(nèi)容。不同搜索引擎的復(fù)雜條件查詢功能和實現(xiàn)方法各有不同,網(wǎng)站中一般都有“幫助”和“說明”解釋各自的功能和

17、方法?,F(xiàn)在的搜索引擎都有模糊查詢功能。當(dāng)用戶輸入關(guān)鍵詞時,搜索引擎不但交給用戶關(guān)鍵詞的網(wǎng)址,還發(fā)來與關(guān)鍵詞意義相近的內(nèi)容。比如,查找“建筑報”一詞時,模糊查詢搜索的結(jié)果會有“建筑報”“建設(shè)報”“建筑時報”等的網(wǎng)址。網(wǎng)址的排列,一般是完全符合關(guān)鍵詞在最前邊,其次是相近的。模糊查詢的結(jié)果往往并非用戶所需,為了排除不需要的結(jié)果,各種搜索引擎也設(shè)置了相應(yīng)的功能。十一、 大數(shù)據(jù)系統(tǒng)和數(shù)據(jù)挖掘技術(shù)(一)數(shù)據(jù)挖掘概述1大數(shù)據(jù)大數(shù)據(jù)是指超過既往數(shù)據(jù)庫系統(tǒng)規(guī)模、傳輸速度和處理能力,或者既往數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu)無法容納的數(shù)據(jù)。大數(shù)據(jù)常以萬億或eb衡量,且種類多、實時性強(qiáng),蘊藏的商業(yè)價值大。很多現(xiàn)有的新或舊的信息基礎(chǔ)設(shè)施

18、、工具和技術(shù)可用來開發(fā)和利用大數(shù)據(jù)中蘊藏的價值。大數(shù)據(jù)有各種各樣的來源:傳感器、氣候信息、公開的信息、如雜志、報紙、文章、買賣記錄、網(wǎng)絡(luò)日志、病歷、事監(jiān)控、視頻和圖像檔案,及大型電子商務(wù)。大數(shù)據(jù)是數(shù)據(jù)挖掘產(chǎn)生與生存發(fā)展的土壤。如今數(shù)據(jù)每五年翻一番,面對前所未有的海量數(shù)據(jù),為了從中發(fā)現(xiàn)有用的信息必須進(jìn)行數(shù)據(jù)挖掘。此外,計算機(jī)存儲、處理大量數(shù)據(jù),以及運算的能力大為增強(qiáng),為數(shù)據(jù)挖掘創(chuàng)造了條件,使其成為一門獨特的學(xué)科和技術(shù)。2數(shù)據(jù)挖掘與數(shù)據(jù)分析的區(qū)別數(shù)據(jù)挖掘與數(shù)據(jù)分析的主要區(qū)別在于:(1)處理工作量。數(shù)據(jù)分析的數(shù)據(jù)量可能并不大,而數(shù)據(jù)挖掘的數(shù)據(jù)量極大。(2)制約條件。數(shù)據(jù)分析是從某些假設(shè)出發(fā),建立方程

19、或模型,而數(shù)據(jù)挖掘不作假設(shè),可以自動建立方程。(3)處理對象。數(shù)據(jù)分析往往是針對數(shù)字型數(shù)據(jù),而數(shù)據(jù)挖掘?qū)ο箢愋头倍?,例如圖像、聲音、文本等。(4)處理結(jié)果。數(shù)據(jù)分析可以解釋結(jié)果的含義;數(shù)據(jù)挖掘的結(jié)果不易解釋,著眼于預(yù)測未來,并提出決策建議。想要從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律(即認(rèn)知),往往需將數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)合起來。(二)數(shù)據(jù)挖掘步驟按挖掘?qū)ο螅瑪?shù)據(jù)挖掘分為數(shù)據(jù)庫與數(shù)據(jù)倉庫挖掘和網(wǎng)絡(luò)挖掘兩種,各自步驟分述如下。1數(shù)據(jù)庫與數(shù)據(jù)倉庫挖掘數(shù)據(jù)挖掘一般有信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示8個步驟。(1)信息收集。從確定的挖掘?qū)ο笾刑崛√卣鳎缓筮x擇合適的收集方法,將收

20、集到的信息存入數(shù)據(jù)庫。對于海量數(shù)據(jù),必須選擇合適的數(shù)據(jù)倉庫。(2)數(shù)據(jù)集成。把來源、格式、特點、性質(zhì)不同的數(shù)據(jù)按邏輯或物理屬性加以編排,以便以后使用。(3)數(shù)據(jù)規(guī)約。多數(shù)數(shù)據(jù)挖掘算法耗時很長,商業(yè)數(shù)據(jù)往往較多,數(shù)據(jù)挖掘更耗時間。數(shù)據(jù)規(guī)約就是簡化已有可用數(shù)據(jù)集的表示,規(guī)約后數(shù)量大減,但仍能保持原數(shù)據(jù)的完整性,對規(guī)約數(shù)據(jù)的挖掘結(jié)果,與對規(guī)約前數(shù)據(jù)的挖掘結(jié)果相同或幾乎相同。(4)數(shù)據(jù)清理。有些數(shù)據(jù)不完整(屬性缺少屬性值)、含噪聲(屬性值錯誤),不一致(同一信息有多種表示),需要清理,使其完整、正確、一致后存入數(shù)據(jù)倉庫。(5)數(shù)據(jù)變換。將數(shù)據(jù)變換成適合數(shù)據(jù)挖掘的形式。實數(shù)型數(shù)據(jù),可將其分層和離散化。(

21、6)數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)格式、屬性與特點,選擇合適的處理工具,例如統(tǒng)計方法、事例推理、決策樹、規(guī)則推理、模糊集,甚至神經(jīng)網(wǎng)絡(luò),取得有用的信息。(7)模式評估。由行業(yè)專家核實數(shù)據(jù)挖掘結(jié)果是否合理、是否可用。(8)知識表示。將數(shù)據(jù)挖掘得到的信息以可視方式交給用戶,或作為新的知識存人知識庫,供其他應(yīng)用程序使用。并非所有的數(shù)據(jù)挖掘都要走上述的每一步。若只有一個數(shù)據(jù)源,則可以省略數(shù)據(jù)集成。數(shù)據(jù)規(guī)約、數(shù)據(jù)清理、數(shù)據(jù)變換合稱數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘至少60%的費用要花在信息收集階段,而至少60%以上的精力和時間要花在數(shù)據(jù)預(yù)處理上。數(shù)據(jù)挖掘是一個反復(fù)多次的過程,若一次未滿足要求或未得到有用結(jié)果,則需回到前面,經(jīng)過調(diào)

22、整后重新開始。2,網(wǎng)絡(luò)挖掘網(wǎng)絡(luò)挖掘可分為網(wǎng)絡(luò)用戶行為挖掘與網(wǎng)絡(luò)信息挖掘。前者基本不在工程咨詢?nèi)藛T關(guān)心之列。后者可理解為“從www中發(fā)現(xiàn)和分析有用的信息”。網(wǎng)絡(luò)信息挖掘是在已知數(shù)據(jù)樣本的基礎(chǔ)上,通過歸納學(xué)習(xí)、機(jī)器學(xué)習(xí)、統(tǒng)計分析等發(fā)現(xiàn)挖掘?qū)ο箝g的內(nèi)在關(guān)系與特性,進(jìn)而在網(wǎng)絡(luò)中提取用戶感興趣的信息,獲得更高層次的知識和規(guī)律。網(wǎng)絡(luò)信息挖掘沿用了robot,全文檢索、人工智能的模式識別、神經(jīng)網(wǎng)絡(luò)等技術(shù)。現(xiàn)在的搜索引擎使用了這些技術(shù),能夠在網(wǎng)頁或網(wǎng)站數(shù)據(jù)庫中為用戶搜尋有用信息。網(wǎng)絡(luò)信息挖掘具體步驟如下:(1)確立目標(biāo)樣本。由用戶選擇目標(biāo)文本,提取特征信息。(2)提取特征信息。根據(jù)目標(biāo)樣本的詞頻分布,從統(tǒng)計詞

23、典中提取挖掘目標(biāo)的特征向量并計算出相應(yīng)的權(quán)值。(3)網(wǎng)絡(luò)信息獲取。先利用搜索引擎站點選擇待采集站點,再利用robot程序采集靜態(tài)web頁面,最后獲取被訪問站點網(wǎng)絡(luò)數(shù)據(jù)庫中的動態(tài)信息,生成www資源索引庫。(4)信息特征匹配。提取索引庫中的源信息特征向量,并與目標(biāo)樣本的特征向量對照,將符合要求的信息交給用戶。十二、 數(shù)據(jù)分析與挖掘概述(一)信息分析信息分析是根據(jù)咨詢問題的具體需要,對與之有關(guān)的信息進(jìn)行整理、鑒別、評價、分析和綜合,以便取得咨詢所需新信息的過程。信息分析有如下幾種用途:1跟蹤。所謂跟蹤,就是及時了解各領(lǐng)域新動向、新發(fā)展,從而發(fā)現(xiàn)問題、提出問題。2比較。比較各種事物的內(nèi)部矛盾之后,把

24、握事物間的聯(lián)系,認(rèn)識事物的本質(zhì),從而提出問題、確定目標(biāo)、擬定方案并作出選擇。3預(yù)測。利用已掌握的信息、知識和手段,推斷事物的未來或未知方面。4評價。進(jìn)行評價時應(yīng)選擇合適的變量和評價指標(biāo),應(yīng)當(dāng)考慮評價對象之間的可比性。信息分析所用方法,可分為定性和定量分析兩種。定性方法主要靠邏輯推理;而定量方法涉及數(shù)據(jù)間的數(shù)量關(guān)系,要建立數(shù)學(xué)模型,計算、求解。如今,信息越來越復(fù)雜,定性與定量分析已無法單獨奏效,只能越來越多地結(jié)合起來。(二)數(shù)據(jù)分析數(shù)據(jù)分析是信息分析的一部分,數(shù)據(jù)分析是對收集數(shù)據(jù)進(jìn)行系統(tǒng)的分析,建立適當(dāng)?shù)哪P?,揭示?shù)據(jù)中隱含的技術(shù)、經(jīng)濟(jì)、社會和其他關(guān)系,以及發(fā)展趨勢,為有關(guān)的咨詢活動提交的有用的

25、數(shù)字、信息或建議。數(shù)據(jù)分析的對象可分為時間序列和截面數(shù)據(jù)。如企業(yè)歷年的咨詢收入、利潤總額等就是時間序列。截面數(shù)據(jù)是在同一時間的數(shù)據(jù),如企業(yè)同一年咨詢業(yè)務(wù)數(shù)目、營業(yè)額、費用、收入、人工耗費等。兩種數(shù)據(jù)都要注意樣本容量大小。對于截面數(shù)據(jù),常用線性或非線性回歸模型體現(xiàn)數(shù)據(jù)之間的各種關(guān)系。數(shù)據(jù)分析屬定量分析,包括數(shù)據(jù)統(tǒng)計分析、時間數(shù)據(jù)分析、空間數(shù)據(jù)分析。(三)數(shù)據(jù)挖掘數(shù)據(jù)挖掘就是從數(shù)據(jù)中挖掘出隱含、先前未知、有潛在用途,最終可為人理解的關(guān)系、模式、趨勢和其他有用信息,并建立模型,用于預(yù)測、判斷或決策,幫助企業(yè)更好地適應(yīng)變化并做出更明智的決策的過程。數(shù)據(jù)挖掘廣泛應(yīng)用于制造、金融、零售、保健、中醫(yī)藥及電信

26、等行業(yè)的客戶關(guān)系管理、風(fēng)險防范、供應(yīng)鏈管理、競爭優(yōu)勢分析、部門分析等領(lǐng)域。數(shù)據(jù)挖掘要用到統(tǒng)計分析、人工智能、數(shù)據(jù)庫和神經(jīng)網(wǎng)絡(luò)等方面的知識,如記憶推理、聚類分析、關(guān)聯(lián)分析、決策樹、神經(jīng)網(wǎng)絡(luò)、基因算法等。數(shù)據(jù)挖掘需要用戶參與,并非某種單一工具、技術(shù)或軟件即可獨自完成。另一方面,并非所有信息查詢都可視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別記錄,或用搜索引擎查找互聯(lián)網(wǎng)特定的網(wǎng)頁,屬于信息檢索,不能視為數(shù)據(jù)挖掘。當(dāng)然,數(shù)據(jù)挖掘技術(shù)也有強(qiáng)大的信息檢索能力。十三、 工程咨詢知識及其特點(一)工程咨詢知識工程咨詢需要多方面知識與技能。知識,有哲學(xué)、工程學(xué)、經(jīng)濟(jì)學(xué)、社會學(xué)、管理學(xué)、財務(wù)會計、法律等方面的知

27、識;技能,有專業(yè)知識、項目管理、公共關(guān)系、野外考察、外國語、信息處理等方面的技能。(二)工程咨詢知識的特點1數(shù)量多,種類龐雜工程咨詢行業(yè)涉及國民經(jīng)濟(jì)眾多部門,專業(yè)門類多,大小不一,跨地區(qū)、跨國界。即便是行業(yè)工程咨詢,也涉及多種專業(yè)。例如對校舍工程的咨詢,就涉及國民經(jīng)濟(jì)、統(tǒng)計、消防、建筑、結(jié)構(gòu)、給排水、暖通、電氣、技術(shù)經(jīng)濟(jì)、法律等十多個專業(yè)。2隱性知識難以提煉隱性知識,特別是經(jīng)驗,在工程咨詢中有重要作用。經(jīng)驗需要積累,且常難以提煉和恰當(dāng)表達(dá)。正因為如此,長期積累的經(jīng)驗最容易隨著這些經(jīng)驗的載體人離去而散失。3保密要求高咨詢企業(yè)在咨詢過程中獲得了客戶大量信息,有些很敏感,客戶不希望透漏給第三方。在本企業(yè)內(nèi)部共享由此而獲得的信息、經(jīng)驗與知識時,或?qū)頌槠渌蛻舴?wù)時,應(yīng)確保不透漏給第三方。十四、 建立知識管理系統(tǒng)步驟建立知識管理系統(tǒng),一般經(jīng)歷認(rèn)知、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論