ModelOps在AI安全運營中的工程化實踐

發布時間 2022-03-23

隨著AI技術的逐漸成熟,各行各業都開始引入AI技術來解決業務生產中的實際問題,其中,安全運營對AI技術的應用也提出迫切的需求。


然而,由于用戶業務場景和數據復雜多樣,如何在安全運營過程中應用AI技術進行數據建模和分析也成為一項難題。而ModelOps所提供的模型建模能力和模型生命周期管理能力,正是解決此難題的關鍵。


ModelOps與AI安全運營結合 - 實現AI安全分析模型開發完成即上線


相較于其它業務場景,在安全運營中使用AI技術來提升安全分析和檢測能力,具有更高難度。AI模型的創建需要使用數據進行訓練,數據安全又對于企業非常重要,因此,企業很難直接把數據交給安全廠商做AI建模,這就使得AI模型往往只能使用非企業真實生產環境的數據進行訓練。


當這種“假數據”模型被部署到企業真實生產環境中,由于和真實數據差別很大,使得模型的準確率大幅度下降,并且由于不能提供持續的模型優化能力,使得隨著業務數據的變化AI模型的能力也會逐漸降低。


ModelOps提供的模型建模能力和模型生命周期管理能力能夠很好地解決這一問題。通過在用戶環境中部署ModelOps平臺,就有了在用戶環境中進行模型訓練和模型持續優化集成的能力,也就把AI安全模型的訓練和迭代更新過程“右移”到用戶的真實生產環境中,因此,模型訓練使用的不再是實驗室構造的“假數據”,而可以使用用戶生產環境現場產生的真實數據,大大提升AI安全模型的準確性。


舉例來說,部署用于識別加密惡意流量的AI模型,由于該模型的特征工程將提取大量網絡會話中的通信特征信息,比如網絡抖動、會話中的幀間距以及TCP會話窗口大小等,顯然這些特征在實驗室環境和用戶真實環境下是不同的,如果直接使用實驗室環境下構造出的背景流量作為負樣本訓練出來的模型在用戶真實環境下就可能出現較大的準確性下降,而如果模型就是在用戶真實環境中訓練的,真實的負樣本數據能夠有效保證模型的準確性。


ModelOps解決的另一個主要問題是模型能力衰退的問題。由于AI模型的泛化能力有限,AI算法本質也是學習訓練數據中所隱含的統計規律,而無論當用戶的業務數據(負樣本)發生變化還是出現了新的攻擊方法(正樣本),都有可能無法被現有的AI模型識別。


因此,一方面需要有對現有AI模型的自動化評估方法來發現這種模型能力的衰退,另一方面需要能夠自動化和快速高效地使用包含新類型數據的數據集對AI模型進行重新訓練,讓AI模型能夠認識這些新出現的數據上的變化,并重新將AI模型集成到運行環境中去。


ModelOps對模型的全生命周期管理包括了對模型的實時監測評估、對性能衰退模型的自動化維護和迭代更新。XOps(如DevOps、DataOps、ModelOps)其核心理念都是圍繞快速迭代和持續集成。在安全運營過程中,如何把AI模型快速和自動化地集成到需要使用該模型的安全產品中是能否真正實現所謂Ops的關鍵。


在安全分析中所使用的AI模型主要分析的對象是網絡流量和各種日志,此類數據具有多種不確定的表征方法,這就提高了對數據治理要求的復雜性,也使得在實驗室中生成的AI安全模型難以直接部署使用,而需要重新編寫代碼。


ModelOps則解決了從模型開發到部署間最后一公里的數據治理問題,其要求的持續集成在安全運營場景下,可以通過三種方式來實現:模型即服務的SaaS模式、模型賦能模式和分析推理結果賦能模式。


1、模型即服務的SaaS模式需要用戶提交要分析的數據、選擇使用的模型,并通過標準接口獲得返回的分析結果;


2、模型賦能模式需要用戶具有可運行模型的平臺或容器,并自己處理數據ETL過程,用戶可以通過ModelOps提供的模型訓練功能訓練出模型并將其下載到自己的環境中運行;


3、分析推理結果賦能模式需要分布式的部署可運行AI模型的探針到用戶環境,通過直接接入數據提供完整的從ETL到模型推理的數據處理過程,并將模型的分析推理結果以標準化的格式返回給用戶。


對于需要使用AI安全分析模型的安全產品和系統來說,只要對接了AI模型持續集成的三種模式之一的配置和結果返回的API就可以實現將AI安全分析能力快速集成到自身系統中,并依靠ModelOps提供的持續迭代能力實現對AI模型的更新迭代,實現AI安全分析模型開發完成即上線。


泰合AI安全建模和賦能平臺 - 面向AI安全分析模型全生命周期管理和持續集成


ModelOps所倡導的快速迭代持續集成就是為高效運營而生,模型則是場景化安全分析的核心能力,啟明星辰泰合本部成立了專注于AI技術研究的北冥實驗室,已經全面實現ModelOps的工程化落地,近期發布的AI安全建模和賦能平臺,是一個集成多種Al安全分析模型,可提供全生命周期Al模型管理的平臺。


AI安全建模和賦能平臺通過將AI建模全流程解耦合實現了AI模型的流水線化生產,通過安全分析場景數據ETL引擎、模型建模和推理引擎、安全場景編排引擎實現了讓數據工程師只關注數據治理,算法工程師只關注模型算法,安全分析師只關注安全場景化的多工種協同作業。


同時,AI安全建模和賦能平臺能夠提供一個開放的生態系統,支持用戶通過自定義數據源和ETL方法,自定義特征工程算子和算法算子來積累和強化平臺的建模能力,并將AI安全建模過程從安全廠商端“右移”到了用戶生產環境中,能夠直接接入用戶的真實生產環境數據,并讓熟悉用戶業務的業務專家使用此平臺來構建更加符合用戶業務需求和具有更高準確性的AI模型。


AI安全建模和賦能平臺通過標準的API接口和SYSLOG日志接口向其它安全系統和平臺提供AI模型的下載服務和AI模型推理結果服務,使得其它無AI能力或無AI建模能力的系統,能夠借助AI安全建模和賦能平臺向其輸出的模型或推理結果實現快速AI化和智能化落地。


下面實例展示AI安全建模和賦能平臺通過對外賦能實現AI模型開發完成即上線的過程:


步驟一:在AI安全建模和賦能平臺側通過建模流水線執行數據集創建、算子上傳、模型訓練實驗創建,完成訓練模型,并發布模型。


步驟二:在AI探針側下載發布的模型。


步驟三:創建推理任務,選擇下載的模型并執行該推理任務。


步驟四:在泰合安全管理與態勢感知平臺對應的頁面能夠直接看到模型的檢測結果。


AI安全建模和賦能平臺在ModelOps上邁出了工程化實踐的第一步。隨著越來越多AI技術的應用,更多的AI模型需要能夠在安全運營中被管理,AI安全建模和賦能平臺也將在結合用戶業務的模型持續評估,自動化學習更新等功能方面不斷優化和完善。


在數據安全愈發重要的今天,一些應用場景下必須要實現聯合多地的數據,進行模型訓練和分析推理,通過基于聯邦學習實現支持多方計算的模型訓練和模型推理,也將是AI安全建模和賦能平臺的發展方向,可以預期其將作為安全運營的基礎設施和技術底座為安全運營提供最有力支撐。




文章來源:北冥實驗室