




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第一章
數(shù)據(jù)挖掘緒論Contents數(shù)據(jù)挖掘概述1.1數(shù)據(jù)獲取1.2數(shù)據(jù)挖掘的流程1.3本章小結1.4數(shù)據(jù)存儲-生活中的數(shù)據(jù)數(shù)據(jù)源多樣數(shù)據(jù)存儲-生活中的數(shù)據(jù)數(shù)據(jù)的收集和存儲以巨大的速度進行(GB/小時)微信每天發(fā)送消息450億條,超過4億次音視頻呼叫。微博內(nèi)容存量己超過千億Facebook每天發(fā)送20多億條消息。Twitter每天產(chǎn)生5800萬條微博YouTube用戶數(shù)達到13.25億,每分鐘上傳視頻的總時長達到300小時,每天的視頻播放量達49.5億次,每月的視頻播放總時長達32.5億小時2020年,抖音僅由大學生發(fā)布的視頻播放量累計超過300萬億次,分享量27億次2021年我國醫(yī)學影像掃描量增長至29.33億次,2022年掃描量進一步增長至31.15億次左右80x增加的數(shù)據(jù)數(shù)據(jù)存儲-生活中的數(shù)據(jù)數(shù)據(jù)類型數(shù)據(jù)計算IDC機房冷卻裝置有數(shù)據(jù)難利用數(shù)據(jù)分析師發(fā)現(xiàn)一條有用信息需要數(shù)周的時間因此,大量信息從來沒有被分析過,出現(xiàn)“數(shù)據(jù)豐富,知識匱乏”現(xiàn)象Totalnewdisk(TB)since1995Numberofanalysts數(shù)據(jù)鴻溝挖掘?倉儲?1.1.1數(shù)據(jù)挖掘的定義1.1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(DataMining)是通過特定算法對大量數(shù)據(jù)進行處理和分析以發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢或關聯(lián)性的過程數(shù)據(jù)挖掘技術利用機器學習和統(tǒng)計學方法,從海量、不完整、受噪聲干擾的數(shù)據(jù)中提取出先前未知的、潛在有用的隱含信息,并將其轉化為可理解的知識數(shù)據(jù)挖掘也被稱作知識發(fā)現(xiàn)1.1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的過程可以大致分為四個階段:問題分析:了解業(yè)務背景和數(shù)據(jù)來源,分析數(shù)據(jù)的特點和分布,明確任務目標和需求。數(shù)據(jù)預處理:數(shù)據(jù)挖掘中非常重要的一步,涉及數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉換與規(guī)范化、數(shù)據(jù)規(guī)約和特征提取等步驟。數(shù)據(jù)挖掘:整個過程中最核心的部分,研究者需要根據(jù)業(yè)務需求和數(shù)據(jù)特點,建模合適的算法模型,并進行模型訓練和參數(shù)調(diào)優(yōu)。結果評估:旨在評估數(shù)據(jù)挖掘結果的準確性和可靠性。在這個階段,需要使用一些評估指標對挖掘結果進行評估。還需要對挖掘結果進行解釋和可視化以幫助業(yè)務人員更好地理解挖掘結果。1.1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘技術面臨著新的挑戰(zhàn)和機遇一方面,隨著數(shù)據(jù)規(guī)模急劇增長、數(shù)據(jù)類型越發(fā)豐富,使得傳統(tǒng)計算資源和數(shù)據(jù)挖掘算法已經(jīng)難以滿足大數(shù)據(jù)處理和分析的需求。另一方面,數(shù)據(jù)挖掘與機器學習、深度學習等技術的結合將為知識發(fā)現(xiàn)帶來更大的發(fā)展空間。未來,數(shù)據(jù)挖掘?qū)⒃诟鱾€領域發(fā)揮更加重要的作用,為人類社會的發(fā)展和進步帶來更多的機遇。1.1.2數(shù)據(jù)挖掘的應用領域商業(yè)領域:在市場營銷中,數(shù)據(jù)挖掘可以幫助企業(yè)識別目標客戶群體,制定個性化的營銷策略。1.1.2數(shù)據(jù)挖掘的應用領域醫(yī)療領域:在疾病診斷中,數(shù)據(jù)挖掘可以幫助醫(yī)生分析患者的醫(yī)療記錄和癥狀,提高診斷的準確性和效率。1.1.2數(shù)據(jù)挖掘的應用領域金融領域:在風險管理中,數(shù)據(jù)挖掘可以幫助銀行和風投機構評估貸款申請人的信用風險和投資收益。1.1.2數(shù)據(jù)挖掘的應用領域政府領域:在城市規(guī)劃中,數(shù)據(jù)挖掘可以分析人口、交通、環(huán)境等數(shù)據(jù),為城市規(guī)劃提供科學依據(jù)。1.1.3數(shù)據(jù)挖掘的基本任務數(shù)據(jù)挖掘的基本任務主要可以分為以下幾類:分類與預測:根據(jù)已知的數(shù)據(jù)特征,將數(shù)據(jù)項劃分到預先定義的類別中。聚類分析:將數(shù)據(jù)集中的數(shù)據(jù)項按照其相似性進行分組的過程。聚類的目標是在沒有預先定義類別的情況下,發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在結構和關系。關聯(lián)規(guī)則挖掘:主要用于發(fā)現(xiàn)數(shù)據(jù)項之間的有趣關系。序列模式挖掘:發(fā)現(xiàn)數(shù)據(jù)項之間的時間序列關系的過程。異常檢測:數(shù)據(jù)挖掘中用于發(fā)現(xiàn)與大多數(shù)數(shù)據(jù)項顯著不同的數(shù)據(jù)項的過程。這些異常數(shù)據(jù)項可能表示錯誤、欺詐或其他特殊情況。1.1.4數(shù)據(jù)挖掘?qū)W習資源學術資源:CCF-A類通常包括國際上公認的頂級會議和頂級期刊CCF-A推薦會議:ACMConferenceonManagementofData(SIGMOD)ACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining(KDD)IEEEInternationalConferenceonDataMining(ICDM)InternationalConferenceonDataEngineering(ICDE)InternationalConferenceonMachineLearning(ICML)InternationalConferenceonVeryLargeDataBases(VLDB)InternationalJointConferenceonArtificialIntelligence(IJCAI)AssociationfortheAdvancementofArtificialIntelligence(AAAI)1.1.4數(shù)據(jù)挖掘?qū)W習資源CCF-A推薦期刊:JournalofMachineLearningResearch(JMLR)IEEETransactionsonKnowledgeandDataEngineering(TKDE)ACMTransactionsonDatabaseSystems(TODS)ACMTransactionsonInformationSystems(TOIS)TheVLDBJournal1.1.4數(shù)據(jù)挖掘?qū)W習資源XindongWuZhihuaZhouJiaweiHanJianPeiQiangYangChih-JenLinHangLiChangshuiZhang1.1.4數(shù)據(jù)挖掘?qū)W習資源數(shù)據(jù)挖掘比賽資源阿里天池:/Kaggle:/滴滴:/1.1.4數(shù)據(jù)挖掘?qū)W習資源數(shù)據(jù)集下載資源UCI數(shù)據(jù)集:/CMU數(shù)據(jù)集:/datasets//afs//project/theo-20/www/data/時序數(shù)據(jù)集:/~reinsel/bjr-data/金融數(shù)據(jù)集:http://lisp.vse.cz/pkdd99/Challenge/chall.htm癌癥基因數(shù)據(jù)集:/cgi-bin/cancer/datasets.cgi綜合數(shù)據(jù)集:/~roweis/data.html數(shù)據(jù)集列表:/datasets/index.html美國政府開放數(shù)據(jù):中國地方政府開放數(shù)據(jù):北京/上海1.1.4數(shù)據(jù)挖掘?qū)W習資源在線學習平臺Coursera:提供眾多數(shù)據(jù)挖掘和數(shù)據(jù)科學相關的在線課程,由世界頂尖大學和機構講授。/edX:提供包括數(shù)據(jù)挖掘在內(nèi)的數(shù)據(jù)科學課程,同樣來自世界著名大學。/Udemy:提供廣泛的實踐導向的數(shù)據(jù)挖掘課程,適合自學者。/1.1.5數(shù)據(jù)挖掘的常用工具Python語言易用性、靈活性、擁有大量的第三方庫和工具包廣泛用于數(shù)據(jù)分析和數(shù)據(jù)挖掘。R語言擁有大量的統(tǒng)計和數(shù)據(jù)挖掘包在生物信息學、金融分析等領域廣泛應用Weka開源的數(shù)據(jù)挖掘工具豐富的數(shù)據(jù)挖掘算法和可視化界面Weka易于使用,適用于初學者和專業(yè)用戶1.1.5數(shù)據(jù)挖掘的常用工具RapidMiner支持數(shù)據(jù)挖掘的整個流程適用于各種規(guī)模和復雜度的數(shù)據(jù)挖掘項目Orange支持數(shù)據(jù)預處理、聚類分析、分類等多種數(shù)據(jù)挖掘任務提供數(shù)據(jù)可視化、交互式數(shù)據(jù)探索等功能適用于數(shù)據(jù)分析和機器學習的初學者和專業(yè)用戶IBMSPSS綜合性的統(tǒng)計分析和數(shù)據(jù)挖掘軟件直觀的圖形用戶界面適用于研究人員、數(shù)據(jù)分析師、市場研究人員、政策制定者等專業(yè)人士1.1.6數(shù)據(jù)挖掘的主要算法數(shù)據(jù)挖掘十大經(jīng)典算法決策樹分類器C4.5(分類算法):C4.5算法可以處理數(shù)值屬性和缺失值,并且能夠從數(shù)據(jù)中生成規(guī)則。此外,C4.5還支持不完整的數(shù)據(jù)集,并且能夠處理連續(xù)屬性。k-均值算法(聚類算法):k-均值(k-Means)算法是一種聚類算法,用于將數(shù)據(jù)劃分為k個簇。k-Means簡單高效,但需要預先指定k值,并且對初始簇中心的選擇敏感。支持向量機(分類算法):支持向量機(SupportVectorMachine,SVM)是一種強大的分類算法,它通過找到數(shù)據(jù)點之間的最大邊界來區(qū)分不同的類別。SVM在小樣本情況下表現(xiàn)良好,并且可以應用于回歸問題。1.1.6數(shù)據(jù)挖掘的主要算法Apriori算法(頻繁模式分析算法):Apriori算法是一種頻繁項集挖掘算法,主要用于關聯(lián)規(guī)則學習。它基于先驗原則,即如果一個項集頻繁出現(xiàn),那么它的所有子集也必然頻繁出現(xiàn)。最大期望估計算法(聚類算法):期望最大化(Expectation-Maximization)算法是一種用于估計概率模型參數(shù)的迭代算法。它特別適用于存在缺失數(shù)據(jù)的情況。PageRank算法(排序算法):PageRank是由Google創(chuàng)始人開發(fā)的算法,用于網(wǎng)頁排名。它基于網(wǎng)頁之間的鏈接關系,認為一個網(wǎng)頁的重要性由指向它的網(wǎng)頁的數(shù)量和質(zhì)量決定。PageRank算法通過迭代計算每個網(wǎng)頁的排名值,直到收斂。AdaBoost算法(集成弱分類器):AdaBoost是一種集成學習方法,通過結合多個弱分類器來構建一個強分類器。1.1.6數(shù)據(jù)挖掘的主要算法k-近鄰分類算法(分類算法):k-近鄰(k-NearestNeighbors)分類算法是一種基于實例的學習算法,它通過查找測試數(shù)據(jù)點的k個最近鄰居來進行分類或回歸。kNN簡單直觀,但計算成本較高,因為需要對每個測試數(shù)據(jù)點進行距離計算。樸素貝葉斯算法(分類算法):樸素貝葉斯(NaiveBayes)是一種基于貝葉斯定理的分類算法,它假設所有特征都是相互獨立的。分類與回歸樹算法(聚類算法):分類與回歸樹(ClassificationandRegressionTrees,CART)算法是一種基于決策樹的分類算法,既可以用于分類也可以用于回歸。CART可以處理數(shù)值和類別屬性,并且可以生成易于理解的模型。Contents數(shù)據(jù)挖掘概述1.1數(shù)據(jù)獲取1.2數(shù)據(jù)挖掘的流程1.3本章小結1.41.2數(shù)據(jù)獲取端到端機器學習的大部分時間都花費在數(shù)據(jù)準備工作之上,包括獲取、清洗、分析、可視化和特征工程等。數(shù)據(jù)獲取不僅是簡單地收集數(shù)據(jù),而是一個綜合考量數(shù)據(jù)源選擇、數(shù)據(jù)采集方法、數(shù)據(jù)質(zhì)量保證以及合規(guī)性等多方面因素的復雜過程。Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術1.2.3數(shù)據(jù)標注技術1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估1.2.1數(shù)據(jù)類型與來源數(shù)據(jù)類型可以根據(jù)數(shù)據(jù)的結構化程度分為結構化數(shù)據(jù)非結構化數(shù)據(jù)半結構化數(shù)據(jù)idnamegender1張三female2王二male3李四female結構化數(shù)據(jù)半結構化數(shù)據(jù)非結構化數(shù)據(jù)1.2.1數(shù)據(jù)類型與來源數(shù)據(jù)來源往往是多種多樣的,包括但不限于以下幾類:內(nèi)部數(shù)據(jù)源:企業(yè)或組織內(nèi)部生成的數(shù)據(jù)。公共數(shù)據(jù)集:由政府、非營利組織或研究機構發(fā)布的數(shù)據(jù)集?;ヂ?lián)網(wǎng)數(shù)據(jù):從網(wǎng)站、社交媒體平臺和其他在線資源獲取的數(shù)據(jù)。傳感器數(shù)據(jù):通過各種傳感器和監(jiān)測設備收集的數(shù)據(jù)。商業(yè)數(shù)據(jù):咨詢或數(shù)據(jù)服務公司發(fā)布的數(shù)據(jù)。眾包數(shù)據(jù):通過大量用戶的參與和貢獻收集的數(shù)據(jù)。網(wǎng)絡爬蟲:使用自動化工具從互聯(lián)網(wǎng)上抓取和提取數(shù)據(jù)。Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術1.2.3數(shù)據(jù)標注技術1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估數(shù)據(jù)采集旨在找到可用于訓練模型的數(shù)據(jù)集數(shù)據(jù)發(fā)現(xiàn):用戶能夠找到、理解并訪問相關數(shù)據(jù)集的過程。數(shù)據(jù)增強:通過在原始數(shù)據(jù)集上應用一系列變換,增加數(shù)據(jù)的多樣性。數(shù)據(jù)生成:使用人工構建或自動化構建方法構建額外的數(shù)據(jù)集。1.2.2數(shù)據(jù)采集技術數(shù)據(jù)發(fā)現(xiàn)通常包括以下幾個步驟:需求分析:與利益相關者進行深入溝通,以明確數(shù)據(jù)需求和業(yè)務目標。數(shù)據(jù)檢索:從更廣泛的數(shù)據(jù)資源中尋找特定的數(shù)據(jù)集或信息。精確地定位到數(shù)據(jù)源。數(shù)據(jù)預覽:查看數(shù)據(jù)樣本以評估數(shù)據(jù)的質(zhì)量和相關性。數(shù)據(jù)訪問:下載數(shù)據(jù)、使用API調(diào)用或通過數(shù)據(jù)集成工具將數(shù)據(jù)導入到分析平臺。數(shù)據(jù)發(fā)現(xiàn)需求分析需求分析的核心是與利益相關者進行深入溝通,以明確他們的數(shù)據(jù)需求和業(yè)務目標,理解用戶對數(shù)據(jù)的期望和使用場景。這一階段的目的是確保數(shù)據(jù)發(fā)現(xiàn)工作與數(shù)據(jù)挖掘目標保持一致,并為后續(xù)步驟提供清晰的指導。數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)檢索互聯(lián)網(wǎng)分布大量結構化數(shù)據(jù),基于Web的檢索方法自動提取有用的數(shù)據(jù)集例如,WebTables提取所有維基百科信息,GoogleDatasetSearch服務能夠搜索Web上數(shù)以千計的數(shù)據(jù)存儲庫。GoogleImageSearchDragandDrop數(shù)據(jù)檢索和數(shù)據(jù)共享之間存在密切關系數(shù)據(jù)共享平臺:GitHub、Datahub、Kaggle、GoogleFusion這些平臺為用戶提供了一個集中、整理和共享數(shù)據(jù)的平臺,用戶可以直接獲取并開始分析和應用數(shù)據(jù)。數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)預覽數(shù)據(jù)樣本查看評估數(shù)據(jù)的質(zhì)量和相關性樣本記錄檢查檢查數(shù)據(jù)的結構和字段目的確保數(shù)據(jù)集滿足分析需求評估數(shù)據(jù)的完整性、準確性和一致性識別缺失值、異常值和重復記錄數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)訪問數(shù)據(jù)訪問關鍵考慮因素數(shù)據(jù)安全性與合規(guī)性處理數(shù)據(jù)的版權和隱私問題存儲格式與轉換需求確保數(shù)據(jù)可以被分析工具有效處理數(shù)據(jù)采集旨在找到可用于訓練模型的數(shù)據(jù)集,主要包括三種技術數(shù)據(jù)發(fā)現(xiàn):用戶能夠找到、理解并訪問相關數(shù)據(jù)集的過程。數(shù)據(jù)增強:通過在原始數(shù)據(jù)集上應用一系列變換,增加數(shù)據(jù)的多樣性。數(shù)據(jù)生成:使用人工構建或自動化構建方法構建額外的數(shù)據(jù)集。1.2.2數(shù)據(jù)采集技術常見數(shù)據(jù)增強方法:幾何變換翻轉、旋轉、縮放、裁剪等操作顏色變換調(diào)整圖像亮度、對比度、飽和度等屬性噪聲注入添加高斯噪聲、椒鹽噪聲等Mixup和CutMix通過線性插值混合樣本或部分樣本生成新數(shù)據(jù)點推導潛在語義利用外部工具給數(shù)據(jù)增加細粒度標簽或Caption數(shù)據(jù)集成整合多個來源或變種的數(shù)據(jù),擴展和豐富數(shù)據(jù)集數(shù)據(jù)增強數(shù)據(jù)增強圖1.幾何變換圖4.顏色變換圖3.Mix圖2.噪聲注入數(shù)據(jù)采集旨在找到可用于訓練模型的數(shù)據(jù)集數(shù)據(jù)發(fā)現(xiàn):用戶能夠找到、理解并訪問相關數(shù)據(jù)集的過程。數(shù)據(jù)增強:通過在原始數(shù)據(jù)集上應用一系列變換,增加數(shù)據(jù)的多樣性。數(shù)據(jù)生成:使用人工構建或自動化構建方法構建額外的數(shù)據(jù)集。1.2.2數(shù)據(jù)采集技術數(shù)據(jù)生成數(shù)據(jù)生成方法人工構建眾包:通過收集和預處理數(shù)據(jù)生成新數(shù)據(jù)集數(shù)據(jù)收集:在眾包平臺發(fā)布任務,招募志愿者完成數(shù)據(jù)收集數(shù)據(jù)預處理:管理、解析、連接數(shù)據(jù)集等操作自動化構建數(shù)據(jù)合成:利用算法生成新的合成數(shù)據(jù)數(shù)據(jù)生成自動化合成數(shù)據(jù)和標簽:低成本和靈活性
生成對抗網(wǎng)絡(GenerativeAdversarialNetworks,
GANs)面向特定應用程序的自動化生成技術GANs旨在訓練兩個相互競爭的神經(jīng)網(wǎng)絡:生成網(wǎng)絡和判別網(wǎng)絡生成網(wǎng)絡學習從潛在空間映射到數(shù)據(jù)分布,判別網(wǎng)絡從生成網(wǎng)絡產(chǎn)生的候選者中區(qū)分真實分布MEDGAN基于真實患者記錄信息生成具有高維離散變量特征的合成患者記錄數(shù)據(jù)生成面向特定應用的生成技術合成圖像的自動生成合成文本數(shù)據(jù)的自動生成使用人類定義的策略對原始數(shù)據(jù)進行變換自動合成的新數(shù)據(jù)Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術1.2.3數(shù)據(jù)標注技術1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估1.2.3數(shù)據(jù)標注技術數(shù)據(jù)標注的目的在于標記單個示例,主要包括:利用現(xiàn)有標簽:利用任何已經(jīng)存在的標簽基于眾包技術:使用眾包技術標記單個示例弱監(jiān)督學習方法:在較低成本的前提下生成弱標簽利用現(xiàn)有標簽少量標注數(shù)據(jù)和大量未標注數(shù)據(jù)分類算法:模型為每個樣本返回一個或多個潛在的類別標簽?;貧w算法:模型為每個樣本返回對應某個類別的概率值。基于圖標簽傳播的算法:從有限標記示例數(shù)據(jù)集開始,在圖結構中基于示例的相似性推斷剩余示例的標簽。預測結果分類模型Label1Label2Label3回歸模型…0.90.8DogCat樣本數(shù)據(jù)基于眾包技術眾包標注方法定義標注說明提供詳細的標注任務說明任務分發(fā)通過網(wǎng)絡平臺將任務分發(fā)給標注工人數(shù)據(jù)標注員數(shù)據(jù)標注發(fā)布者客戶端人工質(zhì)檢員客戶端機器質(zhì)檢員客戶端基于眾包技術主動學習定義選擇最有益于模型訓練的數(shù)據(jù)樣本的策略工作流程選擇數(shù)據(jù)樣本分發(fā)給眾包工人進行標注弱監(jiān)督學習方法背景需要大量數(shù)據(jù)標注,但人工成本高昂定義通過多種弱監(jiān)督信號滿足數(shù)據(jù)標注任務需求Snorkel結合多種弱監(jiān)督信號,生成更準確的標簽Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術1.2.3數(shù)據(jù)標注技術1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估1.2.4數(shù)據(jù)存儲與管理數(shù)據(jù)備份創(chuàng)建數(shù)據(jù)副本。數(shù)據(jù)安全保護數(shù)據(jù)免受未授權訪問、數(shù)據(jù)泄露、篡改和破壞的一系列措施。數(shù)據(jù)調(diào)用從存儲介質(zhì)或數(shù)據(jù)倉庫中檢索特定數(shù)據(jù)或信息。數(shù)據(jù)備份備份類型本地備份遠程備份云存儲備份策略的重要性確保數(shù)據(jù)在災難性事件中的保護與恢復防范數(shù)據(jù)丟失和損壞的風險數(shù)據(jù)安全加密技術保護數(shù)據(jù)在存儲和傳輸中的安全性訪問控制限制對敏感數(shù)據(jù)的訪問權限網(wǎng)絡安全措施防止黑客攻擊和病毒感染數(shù)據(jù)調(diào)用性能優(yōu)化和查詢優(yōu)化:高效的數(shù)據(jù)存儲和索引策略快速響應用戶的查詢請求實時數(shù)據(jù)處理ApacheKafka、ApacheFlink等數(shù)據(jù)安全和隱私保護確保數(shù)據(jù)在調(diào)用過程中的安全性和隱私保護集成和自動化與其他系統(tǒng)集成,實現(xiàn)數(shù)據(jù)的獲取和整合提高數(shù)據(jù)調(diào)用系統(tǒng)的效率和自動化程度Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術1.2.3數(shù)據(jù)標注技術1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估1.2.5數(shù)據(jù)質(zhì)量評估從數(shù)據(jù)質(zhì)量維度進行數(shù)據(jù)質(zhì)量評估主要涉及準確性(Accuracy)數(shù)據(jù)是否正確反映了現(xiàn)實世界的事實。完整性(Completeness)數(shù)據(jù)集是否包含了所有必需的數(shù)據(jù)項。一致性(Consistency)數(shù)據(jù)在不同時間、空間和系統(tǒng)中的一致性。及時性(Timeliness)數(shù)據(jù)從產(chǎn)生到可用的時間。可比性(Comparability)數(shù)據(jù)在不同情況下的可比性。適用性(Relevance)數(shù)據(jù)是否滿足用戶的需求??色@得性(Accessibility)用戶獲取數(shù)據(jù)的難易程度。經(jīng)濟性(Cost-Effectiveness)數(shù)據(jù)的生產(chǎn)成本與效益之比。Contents數(shù)據(jù)挖掘概述1.1數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 無人機理論測試練習試題及答案
- 2025至2030年中國不燃輕型耐火隔板數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國不干膠裝飾品市場分析及競爭策略研究報告
- 解決人力資源問題的試題及答案
- 中國文化傳承與創(chuàng)新教育
- 2025至2030年中國三稀一黃加注系統(tǒng)市場現(xiàn)狀分析及前景預測報告
- 交通安全設施的規(guī)劃與設計研究
- 室內(nèi)設計培訓教材
- 2025至2030年中國三氟醋酸鈉行業(yè)發(fā)展研究報告
- 人教部編版七年級下冊語文18《一棵小桃樹》精制(新課標單元整體教學設計+課時教學設計)
- 燙傷不良事件警示教育
- 2025年騰訊云從業(yè)者基礎認證題庫
- 面試官考試題及答案
- 高中主題班會 預防艾滋珍愛健康-中小學生防艾滋病知識宣傳主題班會課-高中主題班會課件
- (高清版)DB11∕T2316-2024重大活動應急預案編制指南
- 診所規(guī)章制度范本
- 2025年日歷表全年(打印版)完整清新每月一張
- 四川省中小流域暴雨洪水計算表格(尾礦庫洪水計算)
- 楓香精油(征求意見稿)
- 電鍍企業(yè)安全風險辨識分級管控清單
- 2022年北京市專升本英語真題
評論
0/150
提交評論