從算法選擇到大模型應(yīng)用的實踐及需要警惕的誤區(qū)

上傳人：策*** IP屬地：山西上傳時間：2024-12-14 格式：DOCX 頁數(shù)：67 大?。?.99MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩62頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

?按照網(wǎng)安標(biāo)委2024首次u標(biāo)準(zhǔn)周會議"組委會工作要求,我承擔(dān)了一個大模型與網(wǎng)絡(luò)安全相關(guān)的報告任務(wù),之后我上報了《大模型對網(wǎng)絡(luò)安全的價值和?因我對大模型領(lǐng)域也是在摸索嘗試階段,擔(dān)心做全局梳理和提煉高度不夠,于是用自己熟悉的威脅檢測與特征工程工作視角來帶入,把算法選擇問題作為入口(第一節(jié)),也借著這次報告任務(wù)對我們自身的特征工程體系的工作軌跡進(jìn)行了梳理總結(jié)(第二節(jié)),之后展開幾點泛化思考(第三節(jié))。?但為避免在公共技術(shù)會議中出現(xiàn)太多自身工作,因此在2024年6月24會議公開報告的版本,在第二節(jié)只保留了兩頁內(nèi)容,但也使報告內(nèi)容完整型受到了影響,這一分享版本是我的底稿我調(diào)整了報告標(biāo)題并對錯誤作了修訂。?PPT中途做了兩次小范圍分享會有一些內(nèi)容是不一致的(但這不影響正確的使用)。2從我們的特征工程運營實踐看賦能體系的智能化演進(jìn)///具有大規(guī)模參數(shù)和負(fù)責(zé)計算結(jié)構(gòu)的機(jī)器學(xué)習(xí)模型,由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建,能夠提高模型的表達(dá)能力和具有大規(guī)模參數(shù)和負(fù)責(zé)計算結(jié)構(gòu)的機(jī)器學(xué)習(xí)模型,由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建,能夠提高模型的表達(dá)能力和預(yù)測性能,能夠處理更加復(fù)雜的任務(wù)和數(shù)據(jù)。更高的檢測精度自適應(yīng)學(xué)習(xí)能力實時響應(yīng)復(fù)雜行為不局限分類任務(wù)的,超級的被認(rèn)為是無敵的….(RNN)處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)架構(gòu),通過在序列的每個時間步上共享參數(shù),并使用其前一步的隱藏狀態(tài),使得網(wǎng)絡(luò)能夠捕捉序列中的時間依賴性。時間序列分析、自然語言處理等任務(wù)卷積神經(jīng)網(wǎng)絡(luò)高效地提取圖像中的空間特征。被認(rèn)為可發(fā)現(xiàn)未知威脅,卷積神經(jīng)網(wǎng)絡(luò)高效地提取圖像中的空間特征。被認(rèn)為可發(fā)現(xiàn)未知威脅,(CNN)長短時記憶(LSTM)長短時記憶(LSTM)生成式對抗無監(jiān)督深度學(xué)習(xí)模型,通過生成網(wǎng)絡(luò)G(Generator)和判別網(wǎng)絡(luò)D(Discriminator)不斷博弈,從而生成圖像為其他模型生成訓(xùn)練數(shù)據(jù)補(bǔ)全缺失的信息(GAN)從給定的訓(xùn)練數(shù)據(jù)集生成更真實的新數(shù)據(jù)。根據(jù)2D數(shù)據(jù)生成3D模型等監(jiān)督學(xué)習(xí),通過一個或多個自變量與因變量之間進(jìn)行建模的回歸分析,其特點為一個或多個稱為回歸邏輯回歸監(jiān)督學(xué)習(xí),根據(jù)給定的自變量數(shù)據(jù)集來估計事件的發(fā)生概率,由于結(jié)果是一個概率,因此因變量的范圍在0和1之間基于概率分類隨機(jī)森林曾在本世紀(jì)初前十年大量出現(xiàn)在中的曾在本世紀(jì)初前十年大量出現(xiàn)在中的分類、回歸和異常檢測任務(wù),識別新的或未知異常支持向量機(jī)(SVM)在一組數(shù)據(jù)進(jìn)行排序或選擇的過程中,通過給不同數(shù)據(jù)項分配不同的權(quán)重,以優(yōu)化模型性能和提高預(yù)測準(zhǔn)確性。簽名檢測代碼的簽名特征與惡意代碼庫進(jìn)行對比,判定。模式匹配把任意長度的輸入(又叫做預(yù)映射),通過散列算法,變提高存儲空間利用率,提高數(shù)據(jù)查詢效率,””?X86、Mips、ARM、以及國產(chǎn)架構(gòu)：飛騰、龍?windows、linux、以及國產(chǎn)操作系統(tǒng)：中標(biāo)麒麟、銀河麒麟、中科方德、凝思、?X86、Mips、ARM、以及國產(chǎn)架構(gòu)：飛騰、龍?windows、linux、以及國產(chǎn)操作系統(tǒng)：中標(biāo)麒麟、銀河麒麟、中科方德、凝思、?具有海量的病毒檢測規(guī)則，且檢測速度極快，約為其他引擎產(chǎn)品的2-兼容性及性能?感染式病毒、蠕蟲、木馬、黑客工具、風(fēng)險軟件、已知威脅精準(zhǔn)檢測 ?感染式病毒、蠕蟲、木馬、黑客工具、風(fēng)險軟件、已知威脅精準(zhǔn)檢測惡意代碼環(huán)境前綴惡意代碼環(huán)境前綴識別及拆解能力?支持識別：可執(zhí)行文件、包裹、文檔、媒體文件、圖片文件、軟件關(guān)聯(lián)格式、腳本、文本格式、其它格式等九大類格式?格式數(shù)（含版本）298 識別及拆解能力?支持識別：可執(zhí)行文件、包裹、文檔、媒體文件、圖片文件、軟件關(guān)聯(lián)格式、腳本、文本格式、其它格式等九大類格式?格式數(shù)（含版本）298 ?可深度拆解的可執(zhí)行程序的種類：下載器、釋放器1?可深度預(yù)處理的復(fù)合文檔的格式數(shù)?可深度拆解的可執(zhí)行程序的種類：下載器、釋放器1?可深度預(yù)處理的復(fù)合文檔的格式數(shù)知識標(biāo)簽?覆蓋ATT&CK技術(shù)點171個覆蓋?包括威脅類型、漏洞、黑客組織、武器裝備、屬性等知識標(biāo)簽及描述3?包括威脅類型、漏洞、黑客組織、武器裝備、屬性等知識標(biāo)簽及描述3?包括惡意代碼類別、平臺、行為、家族等知識標(biāo)簽及描述超過70/啟發(fā)式檢測N/A較強(qiáng)依賴測試較大依靠多個提取判斷點生成值域本地檢測啟發(fā)式檢測N/A較強(qiáng)依賴測試較大依靠多個提取判斷點生成值域本地檢測+CNN++高檢測已捕獲腳本樣本及其變種低高高千本地檢測網(wǎng)絡(luò)快速擴(kuò)展檢測能力,全對象全量或局部IO+匹配本地檢測網(wǎng)絡(luò)萬強(qiáng)依賴測試+高依賴測試較低全I(xiàn)O+向量提取+匹配本地檢測(向量情報擴(kuò)展)較低/()感染式對象、無法提取長特征高局部IO+匹配包和非完整流檢測、部分本地檢測。檢測已捕獲樣本及其變種,二進(jìn)制對象、腳本對象預(yù)處理結(jié)果弱較低,構(gòu)造風(fēng)險網(wǎng)絡(luò)資源和延遲(云查時)無HASH/CRC檢測已捕獲樣本,全對象無極低,構(gòu)造風(fēng)險全對象IO+HASH計算+值查找云查(含誤報處理)無特征發(fā)散樣本家族非等長依賴測試較高提取點計算搜索匹配加權(quán)比較本地檢測高特征發(fā)散樣本家族等長依賴測試高提取多個維度判斷點+概率計算本地檢測高特征發(fā)散樣本家族等長依賴測試較高提取多個維度判斷點距離度量距離比較本地檢測高特征發(fā)散樣本家族等長依賴測試較高提取多個維度判斷點最優(yōu)分類超平面本地檢測高檢測已捕獲樣本及其變種,獨立載荷對象等長較高極低全對象IO+模糊HASH計算+值查找本地檢測無注意力框架長(處理大規(guī)模數(shù)據(jù))高(需要高性能集群或云服務(wù))低(依賴問題類型和模型設(shè)計)高(具備廣泛的泛化能力)新興(適用于特定大規(guī)模應(yīng)用)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短時記憶(LSTM)、生的神經(jīng)網(wǎng)絡(luò))相對較高(需要GPU等高性能硬件)相對較低(通過數(shù)據(jù)驅(qū)動優(yōu)化)相對較高(可能受到對抗性攻擊的影響)相對新興(需要大規(guī)模數(shù)據(jù)和算力支線性回歸邏輯回歸、決策樹隨機(jī)森林、支持向法等相對較短(依賴算法復(fù)雜度)相對較低(可能需要中等算力)相對較高(處理復(fù)雜模式)相對較低(通過數(shù)據(jù)增強(qiáng)和集成學(xué)習(xí)提升)相對成熟(需要數(shù)據(jù)準(zhǔn)備和模型訓(xùn)練)特征碼匹配正則匹配特征哈希匹配全哈希值域計算和加權(quán)等極短(簡單算法)極低(不需要大量數(shù)據(jù)和復(fù)雜計算)極高(通過大規(guī)模數(shù)據(jù)和訓(xùn)練獲低(受模型設(shè)計影響)成熟(易于部署)/基于能力消費(使用)的視角?實時反應(yīng):要確保99%的防護(hù)和拒止動作都是實時完成的,而不是都需要等待異步的DR環(huán)。?精確的命名:對檢測結(jié)果"Trojan/Win32.lockbit[ransom]”這樣準(zhǔn)確的分類命名,而不僅僅是提供"有害"、"疑似"這樣的模糊似檢出率90%,誤報率3%當(dāng)成一個好結(jié)果。時監(jiān)測場景下幾乎沒有價值,或者只能是現(xiàn)代檢測引擎體系基于工程約束其局限性的一個局部分支。/基于特征工程運營側(cè)的視角【安天在特征工程體系中運行的基本規(guī)則】測能力,而不是基于一個小集合樣本進(jìn)行訓(xùn)練,并基于增量集合進(jìn)行驗證?最短的響應(yīng)時間:新樣本(包括客戶反饋的誤報漏報,甚至錯報)要用盡量短的時間完成定性,轉(zhuǎn)化為分發(fā)和升級,對象的判定和提取時間代價需要是分鐘級(含動態(tài)分析環(huán)節(jié)),而不是允許用更長時間調(diào)節(jié)?精確判定:威脅對象需要形成輸出準(zhǔn)確的分類、家族、變種名稱,而不是僅僅給出黑白結(jié)論?誤報會帶來更大的麻煩:在引擎工作中誤報不能絕對避免,但后端不能進(jìn)行會導(dǎo)致明確的誤報的輸出,而不是為了檢測能力提升,直接容忍誤報是試圖用統(tǒng)一集合適配所有場景。?充分但不是無限的算力:安全企業(yè)比客戶擁有更大的安全分析算力,但所有的安全能力生成都有代價,廠商和用戶的算力都不是無限的,安全產(chǎn)品的設(shè)計要充分考慮算力的要求,而不是假定有無限的算力?增量而非全量的升級:流量和帶寬不是無限的,要使用增量升級降低用戶獲取成本,縮短用戶獲取安全能力的時間,而不是每次分發(fā)全量?支持云查:規(guī)則擴(kuò)張必然導(dǎo)致無法把所有規(guī)則都部署在本地,需要用云側(cè)來進(jìn)行彌補(bǔ),用最小的交互代價,讓云上的安全能力彌補(bǔ)本地庫的局限,特征需要是可查詢的,而不是把所有的文件上傳到云端分析基于以上原因基礎(chǔ)檢測能力必須以一個海量對象特征工程的方式來持續(xù)運行,絕大多數(shù)算法都無法支撐這個運行體系的主閉環(huán)。一部分算法被用于輔助對象判斷多源聯(lián)合分析異構(gòu)數(shù)據(jù)分析等多數(shù)使用在充分算力的生產(chǎn)場景和客戶側(cè)的管理中心、XDR、SOCO人際外部協(xié)同人際外部協(xié)同外部賦能與生產(chǎn)（共性的、廣譜的）認(rèn)知情報威脅情報與檢測認(rèn)知情報威脅情報與檢測能力認(rèn)知情報易忽規(guī)則與威脅情報難安全產(chǎn)品/規(guī)則與威脅情報難安全產(chǎn)品/網(wǎng)空防御是一套有賦能的人機(jī)系統(tǒng),網(wǎng)空防御是一套有賦能的人機(jī)系統(tǒng),要把能力和智力合理的分布在體系中,更多的智能運用是基于多源融合和群體協(xié)同,而不是把邊威脅對象分析威脅情報匯聚生產(chǎn)和發(fā)布服務(wù)運營和私有化生產(chǎn)網(wǎng)絡(luò)邊界和流量檢測主機(jī)系統(tǒng)防護(hù)面向海量的樣本對象,依托大規(guī)模集群算力節(jié)點,承載動靜態(tài)分析鑒定工作,支撐規(guī)則和威脅情報生產(chǎn),通過共性能力實現(xiàn)全局防御資源的集約化。面向大量的自產(chǎn)規(guī)則、情報和開源情報,依托一定規(guī)模的分布式節(jié)點。面向政企機(jī)構(gòu)自身,在多種日志和告警數(shù)據(jù)上的處理,針對自動化機(jī)制不可識別、處置的情況驅(qū)動處面向網(wǎng)絡(luò)流量對象,安裝在網(wǎng)絡(luò)出口和關(guān)鍵網(wǎng)段,由載體設(shè)備承載,實現(xiàn)訪問控制和流量過濾檢測。面向操作系統(tǒng)和應(yīng)用安全環(huán)境,通常使用系統(tǒng)本身的算力,實現(xiàn)威脅檢測和防護(hù)等工作。分析和生產(chǎn)基于云查詢、云分析和反饋支撐響應(yīng)閉環(huán)。匯聚、判斷和決策,使準(zhǔn)實時和異步的OODA環(huán)閉合,支撐PDCA環(huán)。即時反應(yīng)(拒止)異步響應(yīng),支撐NDR的采集和響應(yīng)即時反應(yīng)(拒止與處置)異步響應(yīng),支撐EDR的采集和響應(yīng)。豐富的大量的相對充分的較低極低高度集中的集中的集中的分散的用于大規(guī)模集中的對象分多源匯聚分析集中日志分析和批量的對采集、元數(shù)據(jù)化、分布式、采集、元數(shù)據(jù)化支持、分從我們的特征工程運營實踐看賦能體系的智能化演進(jìn)從我們的特征工程運營實踐看賦能體系的智能化演進(jìn)?安天研發(fā)反病毒引擎24年,累計實現(xiàn)了超過四十億節(jié)點的安全賦能,覆蓋終端、云、流量、業(yè)務(wù)等場景,并為支撐引擎持續(xù)升級構(gòu)建了一套威脅分析的流程框架和自動化分析平臺(賽博超腦)。?面向總量達(dá)百億的,日均增量超過200萬個執(zhí)行體對象(含含白)構(gòu)建了大規(guī)模特征工程體系,以支撐檢測能力的持續(xù)升級。?依托感知和分析能力,我們多次捕獲、深度分析了源自最頂級攻擊者的APT攻擊事件和樣本,支撐了溯源研判工作,并發(fā)布了大量公開分析成果。?承擔(dān)多個國家級/省級的威脅采集/分析或態(tài)感平臺的建設(shè)和運營支撐。?基于威脅對抗的體系運行和工作流程,持續(xù)為改善威脅檢測和分析能力并提升自動化水平,歷史上進(jìn)行了大量的算法層面的嘗試選擇優(yōu)化和淘汰。19861995199520022002200520052012201220162016~2022操作系統(tǒng)和軟件規(guī)局網(wǎng)應(yīng)用成熟Internet發(fā)展操作系統(tǒng)日趨復(fù)雜網(wǎng)絡(luò)主渠道應(yīng)用大網(wǎng)絡(luò)經(jīng)濟(jì)大發(fā)展催生地下經(jīng)濟(jì)體系,網(wǎng)絡(luò)計算、云大數(shù)據(jù)技術(shù)和工程體系大模型平臺技術(shù)取得突辨識壓力超越處置壓力樣本和正常應(yīng)用都以幾何大國博弈和地緣安全風(fēng)險,傳統(tǒng)惡意代碼融入網(wǎng)空殺傷鏈突防能力增強(qiáng),攻擊戰(zhàn)術(shù)持續(xù)豐富化更高水平的自動化攻擊反病毒范式最基礎(chǔ)征自動化提純技術(shù)(針對非解決分析員作業(yè)和樣解決海量樣本的自動化判有力支持大規(guī)模樣本的同源分析威脅溯源和載荷檢測和戰(zhàn)術(shù)能力的大模型的深入賦能,場景的有效融合,copilotPE特征自動化提取(2001)腳本特征自動化提取(2002)集成化人工分析環(huán)境(2004)集成自動化分析的樣本管理平臺(2004)基于決策樹的自動化分析機(jī)制(2004)基于對象指令和結(jié)果三總線的第一代自動化流水線(2011)基于分析向量擴(kuò)線的APT分析(2013)基于人機(jī)協(xié)作的的第二代自動化流水線(2016)基于海量移動端的威脅情報運營(2016)平臺和海量邊緣計算的端到端賦能運行(2017)ATT&CK威脅框架與載荷的映射運營(2021)向量情報的戰(zhàn)術(shù)映射與運營(2019)本體建模與圖譜化情報環(huán)境(2022)指導(dǎo)全量執(zhí)行體分析的新方法框架(2023)VILLM威脅分析垂直大模型(2024)?2002~2006:人工集成化分析、樣本管理平臺+批量自動化分析?2006~今:第一代樣本分析流水線?2006~今:第二代樣本分析流水線,與海量邊緣計算端到端協(xié)同運行?2016~今:威脅情報與知識工程的嘗試與演進(jìn)?2023~今:大模型的疊加與改進(jìn)結(jié)構(gòu)復(fù)雜度:特征碼可以基于增加長度或跨越結(jié)構(gòu)來降低誤報。(質(zhì)量控制)A范式:病毒特征碼的本質(zhì)是一個能夠唯結(jié)構(gòu)復(fù)雜度:特征碼可以基于增加長度或跨越結(jié)構(gòu)來降低誤報。(質(zhì)量控制)A范式:病毒特征碼的本質(zhì)是一個能夠唯一標(biāo)識該種病毒的內(nèi)容表達(dá)。(即不能出現(xiàn)于正常文件種,也不宜出現(xiàn)在其他病毒中)(必須遵守的)功能特異性:特征碼如能對應(yīng)該種病毒的特殊功能,則該特征碼具有表征價值。(價值增量)惡意代碼分析基地基本支撐環(huán)境▲樣本分析的早期工序規(guī)劃(2004)多機(jī)構(gòu)的聯(lián)合分析運行規(guī)劃樣本分析的早期工序規(guī)劃(2004)2001年,安天完成了特征自動化提取的基本范式設(shè)計,并在主機(jī)引擎場景(2001)和網(wǎng)絡(luò)高速引擎場景(2002)完成了落地。后來我們概括為特征的A范式模型。其基本邏輯是基于A范式形成可用預(yù)選,并基于功能特異性和結(jié)構(gòu)復(fù)雜度來進(jìn)行選擇和質(zhì)量調(diào)節(jié)。集成分析環(huán)境:PE樣本靜態(tài)分析集成分析環(huán)境:交互式行為分析存儲子系統(tǒng)中心辦公區(qū)人工分析數(shù)據(jù)挖掘服務(wù)器數(shù)據(jù)交互服務(wù)器升級及系統(tǒng)策略管理服務(wù)器預(yù)警服務(wù)器樣本索引數(shù)據(jù)庫服務(wù)器靜態(tài)分析服務(wù)器組周期性多引擎服務(wù)器組安全事件分析服務(wù)器安天的第一代樣本分析流水線(2006~日志管理服務(wù)器安天的第一代樣本分析流水線(2006~今)的建設(shè),圍繞大規(guī)模增量樣本的分析與特征提取全量樣本的遍歷測試等任務(wù)目標(biāo)完成。由分揀(預(yù)處理)、樣本自動分析(靜態(tài))、人工分析子系統(tǒng)連接組織,后續(xù)擴(kuò)又?jǐn)U展了自動分析、樣本養(yǎng)殖(BotNet監(jiān)測),整體上支撐了分析能力的彈性擴(kuò)展,實現(xiàn)了日百萬量級的樣本自動化分析能力,確保了基礎(chǔ)檢測引擎面向生態(tài)伙伴的持續(xù)賦能。安全事件接收存儲子系統(tǒng)中心辦公區(qū)人工分析數(shù)據(jù)挖掘服務(wù)器數(shù)據(jù)交互服務(wù)器升級及系統(tǒng)策略管理服務(wù)器預(yù)警服務(wù)器樣本索引數(shù)據(jù)庫服務(wù)器靜態(tài)分析服務(wù)器組周期性多引擎服務(wù)器組安全事件分析服務(wù)器安天的第一代樣本分析流水線(2006~日志管理服務(wù)器安天的第一代樣本分析流水線(2006~今)的建設(shè),圍繞大規(guī)模增量樣本的分析與特征提取全量樣本的遍歷測試等任務(wù)目標(biāo)完成。由分揀(預(yù)處理)、樣本自動分析(靜態(tài))、人工分析子系統(tǒng)連接組織,后續(xù)擴(kuò)又?jǐn)U展了自動分析、樣本養(yǎng)殖(BotNet監(jiān)測),整體上支撐了分析能力的彈性擴(kuò)展,實現(xiàn)了日百萬量級的樣本自動化分析能力,確保了基礎(chǔ)檢測引擎面向生態(tài)伙伴的持續(xù)賦能。安全事件接收服務(wù)器#1黑名單倉庫安全事件接收服務(wù)器2#事件匯總預(yù)處理服務(wù)器白名單倉庫系統(tǒng)運維管理WEB服務(wù)器中央控制服務(wù)器人工分析任務(wù)控制服務(wù)器樣本分析掃描服務(wù)器組待定樣本倉庫安天第一代流水線的部署拓?fù)浒蔡熳鳛橐婧蟀l(fā)者,在PE、腳本、復(fù)合文檔等檢測分支上,用了超過16年的時間追趕卡巴斯基的深度解析和預(yù)處理能力,因此在這些分支上采取了先基于后臺分析實驗新方式和能力,成熟后迭代到引擎的路線安天第一代流水線的設(shè)計安天第一代流水線服務(wù)的價值場景是支撐反病毒引擎對網(wǎng)絡(luò)安全生態(tài)伙伴(主要是防火墻廠商)的嵌入賦能,以及兼顧支持國家應(yīng)急體系的分析"、-反饋型閉環(huán),而不是支撐大量OODA環(huán)。流水線也是以分析效能最大化兼顧可以細(xì)粒度管理的目標(biāo)展開的。整體框架設(shè)計為依托對象總線指令總線和結(jié)果的三總線調(diào)度機(jī)制,實現(xiàn)彈性的算力擴(kuò)展和新的子系統(tǒng)向流水線的靈活掛載。對照系統(tǒng)樣本比對跟蹤檢測比對跟蹤樣本捕獲及時性樣本流轉(zhuǎn)對照系統(tǒng)樣本比對跟蹤檢測比對跟蹤樣本捕獲及時性樣本流轉(zhuǎn)優(yōu)化引擎檢測優(yōu)化現(xiàn)實訓(xùn)練數(shù)現(xiàn)實訓(xùn)練數(shù)據(jù)目標(biāo)數(shù)據(jù)分類器非現(xiàn)實訓(xùn)練數(shù)據(jù)擬合判定非現(xiàn)實訓(xùn)練數(shù)據(jù)擬合判定目標(biāo)數(shù)據(jù)聚類目標(biāo)分類器產(chǎn)品能力跟蹤產(chǎn)品能力跟蹤快速檢測響應(yīng)/擬合判定反饋和驅(qū)動交叉比對結(jié)果算法模式修訂算法模式修訂產(chǎn)品策略人工作業(yè)安天的第二代樣本分析流水線(201l1~今)檢測引擎特征更新移動互聯(lián)網(wǎng)流量互聯(lián)網(wǎng)數(shù)據(jù)流量樣本上報、樣本交換樣本捕獲和采集樣本預(yù)處理樣本采集接口Web應(yīng)用接口更新和接口支持惡意代碼樣本庫惡意代碼云支撐庫后端分析支撐體系惡意代碼樣本庫惡意代碼云支撐庫后端分析支撐體系樣本人工分析惡意代碼自動化分揀惡意代碼事件惡意代碼行為數(shù)據(jù)預(yù)處理檢測結(jié)果檢測結(jié)果檢測結(jié)果檢測結(jié)果形成模塊引擎反饋信息引擎反饋信息預(yù)處理模塊構(gòu)體功能模塊控制模塊檢測邏輯控制模塊核心檢測模塊特征庫文件特征庫加載模塊安天移動側(cè)引擎作為技術(shù)先發(fā)者,從開始就按照了深度預(yù)處理多分支冗余檢測的思路,因此在第二代流水線中,是按照引擎復(fù)用于靜態(tài)分析的同構(gòu)設(shè)計。設(shè)計極致執(zhí)行了大規(guī)模自動化分析對人工分析降維,再將人工分析經(jīng)驗迭代回滾到自動化的運營理念。并基于第一代流水線的樣本綜合分析效能導(dǎo)向,將分析向量的運營到達(dá)精細(xì)粒度,保證了分析能力的生產(chǎn)力導(dǎo)向分析流水線分析流水線++威脅事件驅(qū)動業(yè)務(wù)需求牽引威脅事件驅(qū)動業(yè)務(wù)需求牽引基礎(chǔ)特征和向量數(shù)據(jù)是一致的目標(biāo)樣本樣本庫>樣本捕獲>輸入訓(xùn)練數(shù)據(jù)機(jī)器＋數(shù)據(jù)＋多邊生態(tài)能力基礎(chǔ)特征和向量數(shù)據(jù)是一致的目標(biāo)樣本樣本庫>樣本捕獲>輸入訓(xùn)練數(shù)據(jù)機(jī)器＋數(shù)據(jù)＋多邊生態(tài)能力人工分析機(jī)器分析機(jī)器&人工分析數(shù)據(jù)集合人工作業(yè)面向聚類和分類標(biāo)定進(jìn)行輸出e傾向于分析/判定/關(guān)聯(lián)等知識生成人工分析機(jī)器分析機(jī)器&人工分析數(shù)據(jù)集合人工作業(yè)面向聚類和分類標(biāo)定進(jìn)行輸出e傾向于分析/判定/關(guān)聯(lián)等知識生成學(xué)習(xí)聚類訓(xùn)練分類訓(xùn)練其它半監(jiān)聚類訓(xùn)練分類訓(xùn)練其它半監(jiān)督訓(xùn)練和學(xué)習(xí)策略傾向于檢測/識別等知識輸出結(jié)構(gòu)化知識庫歸一化模傾向于檢測/識別等知識輸出結(jié)構(gòu)化知識庫歸一化模型分類標(biāo)簽輸知識化引擎云加速引擎知識化引擎云加速引擎分類器和基準(zhǔn)聚類器本地引擎重新定義自動化分析調(diào)度策略和模式，引入新的邊緣計算調(diào)度模式重新定義自動化分析調(diào)度策略和模式，引入新的邊緣計算調(diào)度模式,,+是其與賦能端的邊緣計算視為一個整體,從而強(qiáng)化端到端的安全賦能,在一個海量端點的體系中實現(xiàn)威脅分析響應(yīng)的高速OODA環(huán)。移動威脅情報的探索移動威脅情報的探索(2017規(guī)劃采集加工分析要求感知處理生產(chǎn)反饋、規(guī)劃采集加工分析要求感知處理生產(chǎn)反饋、消費改進(jìn)消費改進(jìn)私有化情報生產(chǎn)(知識工程共同運營的嘗試)(2019)ATT&CK威脅框架作為能力指標(biāo)的引入(2020) 在特征工程體系建立完善后,在反病毒引擎升級之外疊加c威脅情報"的輸出成為自然的選擇在寬頻嘗試的挫折后,我們整體上回歸到基于引擎提供面向執(zhí)行體高質(zhì)量、基于實證可以指引行動的向量級威脅情報在進(jìn)入政企產(chǎn)品業(yè)務(wù),嘗試將全線產(chǎn)品體系能力對接到殺傷鏈到威脅框架指標(biāo),但這對原有基于樣本對象的特征工程運行帶來了巨大挑戰(zhàn)ATT&CK和TCTF的引入嘗試都沒有找到類似海量樣本分析的歸一化"的有效方式,試圖引入MBSE的應(yīng)對復(fù)雜性問題的努力是不成功的,將本體模型引入到網(wǎng)升檢測效果但也帶來了更多心智負(fù)擔(dān)。輔助公共知識生成VILLM輔助公共知識生成增強(qiáng)威脅檢測輔助同源分析發(fā)現(xiàn)很多事情是辦不到的,將輔助能力鎖定到增強(qiáng)威脅檢測輔助同源分析發(fā)現(xiàn)很多事情是辦不到的,發(fā)現(xiàn)很多事情是辦不到的,轉(zhuǎn)向面向安全服在初期的探索階段安天的工程師們嘗試了用開源模型建立僚機(jī)系統(tǒng)進(jìn)行分析輔助工作,但很快陷入了困境開源模型無法擺脫詞表的限制、同時在分析字節(jié)數(shù)據(jù)時存在大量的Token浪費,上下文的處理性能難以滿足樣本分析的的場景。在分析對比了多種開源方案之后,安天選擇了在基于海量執(zhí)行體樣本數(shù)據(jù)的基礎(chǔ)上,開始自研生成式模型。聚焦在二進(jìn)制對象,突破Token和上下文限制進(jìn)行展開,目前初步形成了點突破。99.48%完全準(zhǔn)確率99.48%完全準(zhǔn)確率11DGA檢測:95.62%128上下文惡意行為檢測:94.25%DGA檢測:95.62%128上下文惡意行為檢測:94.25%512上下文CIFAR10:52.4%3192上下文MNIST:94.76%800上下文FiFTY文件格式取證分析數(shù)據(jù)集達(dá)到SOTA水平SS512集合準(zhǔn)確度72.6%在開發(fā)VILLM中,將基礎(chǔ)的文字理解任務(wù)和圖像理解識別任務(wù)場景,轉(zhuǎn)換到檢測分析惡意代碼分析全量執(zhí)行體生成知識,每一項任務(wù)都面臨著海量數(shù)據(jù)的存儲算力和配套的能耗限制。同時也讓安天的工程師更深刻的認(rèn)識到,過去的分析經(jīng)驗中有著大量難以形式化的知識經(jīng)驗需要由模型來學(xué)習(xí)繼承。在解決每一項性能挑戰(zhàn)的同時,我們也清晰的認(rèn)識到模型距離網(wǎng)絡(luò)空間安全的通用智能還有很長的路,目前模型仍是工程師的輔助手段。11,904,5612672開源模型VILLM-256K百兆網(wǎng)絡(luò)Token7,283,5//AC-BM自動機(jī)、KMP樣本輔助分析CNN、LSH等BP神經(jīng)網(wǎng)絡(luò)等大量算法局部IO對象高性能散列計算MD4CRCMD5SHA1SHA2啟發(fā)式檢測決策樹、樸素貝葉斯、SVM同源分析局部敏感哈希LSH、隨機(jī)森林K-meanKNN本地檢測、網(wǎng)絡(luò)緩存BloomFilter知識存儲AVML(自定義)、JSONOWLRDFXML基礎(chǔ)模型自研模型VILLMBertRWKVBloom?惡意代碼監(jiān)測能力的持續(xù)迭代改善升級,是基于歸一化的基本思想支撐的大規(guī)模特征工程的持續(xù)迭代,所有算法和實現(xiàn)路徑都服務(wù)于這個過程。?我們目的性很強(qiáng),所以我們本質(zhì)上不關(guān)心智能,只關(guān)心自動化。方法是服務(wù)于效能,而自動化是效能的關(guān)鍵。?有多少人工,就有多少智能,這是大規(guī)模特征工程體系智能演進(jìn)的要義。?具象的技術(shù)都會死亡,但工程永遠(yuǎn)長青,因為工程體系是不斷迭代的。?遠(yuǎn)離工程支撐或不能轉(zhuǎn)化為工程邏輯的的創(chuàng)新都會失敗,導(dǎo)致工程目標(biāo)發(fā)散的創(chuàng)新會導(dǎo)致工程失敗。?不要試圖創(chuàng)造算法,我們需要的算法一定存在,為需求尋找算法,而不是為算法尋找場景。?任何基于網(wǎng)安向應(yīng)用領(lǐng)域的泛在都值得警惕(比如我們基于威脅情報平臺走向通用的Palantir是不成功的,)。?大模型不靠譜的原因很可能是我們自己不靠譜。安天病毒通緝令每年更新,都需要設(shè)計師數(shù)月時間才能完成的手繪畫稿,在小組搭建了一個開源大模型的設(shè)計工具后,VSVS基于同一個知名的惡意代碼內(nèi)容詞條,秘塔Al所搜的實體抽取、知識邏輯生成顯然好于我們的自動化詞條,哪怕這個惡意代碼的歷史分析報告成果很大比例是安天貢獻(xiàn)的。在具有豐富公開資料支撐的知識性內(nèi)容方面,顯然通用大模型具有碾壓性優(yōu)勢,但安全廠商依然擁有特征工程所支撐的深源優(yōu)勢。?OpenAI+ChatGPT在領(lǐng)跑,而且是加速領(lǐng)跑這是不言而喻的,是只有依靠發(fā)展才能應(yīng)對的。但臺的唯一選擇,更幾乎無法作為中國企業(yè)機(jī)構(gòu)的可靠選擇,這不是單方面愿不愿意靠上去的問題,而是美方要把我們脫鉤的問題。?但受到先進(jìn)性成熟度生態(tài)完善程度等影響,國內(nèi)產(chǎn)業(yè)已存在OpenAI+ChatGPT依附生態(tài)是必須正視和尊重的既定事實,在網(wǎng)絡(luò)安全領(lǐng)域也存在多種后臺利用的情況。在美情報機(jī)構(gòu)棱鏡"等超級接口的訪問檢索范圍內(nèi),但我們對此實際情況缺少詳盡的實際頻譜分析,而從戰(zhàn)略上,這已經(jīng)不只是信息安全風(fēng)險,也帶來了知識安全風(fēng)險,以及對中美戰(zhàn)略安全平衡的微妙影響。AI??一個很有意思的對比是,在某運營商出口將數(shù)據(jù)分流給:A組基于特征體系的兩臺檢測設(shè)備;B組一個基于上百臺服務(wù)器支撐的AI檢測模型,前者的威脅事件有效報警量是后者的100倍。?中國網(wǎng)絡(luò)安全面臨著創(chuàng)新和補(bǔ)課兩個基本任務(wù),而不是只有創(chuàng)新一個基本任務(wù)。多數(shù)未補(bǔ)課帶來的問題,不是能通過創(chuàng)新補(bǔ)償?shù)牟煌瓿蛇@些補(bǔ)課,大量的創(chuàng)新是無效的?從防御場景看,可管理的網(wǎng)絡(luò)才是可防御的網(wǎng)絡(luò),有效的治理是防御的基礎(chǔ);從能力供給看,高質(zhì)量特征工程和知識工程體系,是安全共性能力建設(shè)和安全賦能的基礎(chǔ)。?神經(jīng)系統(tǒng)是驅(qū)動手和腳的,而不是替代手和腳的決問題。?安全廠商和通用平臺廠商合作并未普遍展開,一方面真實反應(yīng)了通用模型當(dāng)前對網(wǎng)安能力的增益有限,難以實現(xiàn)合理的投入產(chǎn)出比;但另一方面從本質(zhì)上依然是對互聯(lián)網(wǎng)平臺廠商和大型IT廠商在過去跨界打劫的帶來的不安全感。場景和資產(chǎn)安全運營的深刻理解。?我們承認(rèn)高水平大模型能包絡(luò)許多細(xì)分,但所謂的萬卡門檻",或者你有多少塊卡"的投資人提問,這是英偉達(dá)的話術(shù)視角,而不是真正的創(chuàng)新價值視角。?我們是唯物主義者,但不是物質(zhì)決定論者,我們的先輩曾在手搖和算盤上支撐兩彈一星,中國IT和軟件的線性者們就是在最早的紙帶、磁帶、低密磁盤上開創(chuàng)了中國最早的計算機(jī)事業(yè)。我們依然要用場景的經(jīng)驗任務(wù)的垂直和收斂以及自我能動性與犧牲來彌補(bǔ)我們算力資源的不足。防御者防御者安全產(chǎn)品/引擎大模型在網(wǎng)絡(luò)安全中通過提升檢測精準(zhǔn)度、加快響應(yīng)速度和實現(xiàn)復(fù)雜任務(wù)自動化，將顯著增強(qiáng)了整體防護(hù)能力和效率。盡管我們聚焦于大模型的機(jī)器能力提升，促進(jìn)生產(chǎn)自動化與智能化；同時大模型會逐步增加對“人”的賦能，提升“人”的能力與效率。參謀輔助參謀輔助“人”主要提供輔助支持，利用模型對安全數(shù)據(jù)的理解為提供輔助決策的候選方案，并對結(jié)果進(jìn)行合“人”主要提供輔助支持，利用模型對安全數(shù)據(jù)的理解為提供輔助決策的候選方案，并

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

從算法選擇到大模型應(yīng)用的實踐及需要警惕的誤區(qū)

文檔簡介

溫馨提示

最新文檔

評論

從算法選擇到大模型應(yīng)用的實踐及需要警惕的誤區(qū)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔