啟明星辰帶你了解人工智能安全實踐與發展新趨勢

發布時間 2022-02-21

2021年,新冠肺炎疫情依舊沒有結束,但是社會生產與技術進步并未因此而停滯,人工智能技術的研究與應用正在不斷進步,人工智能安全也在2021年有了一些新的發展。


本文將對人工智能安全展開詳細的描述與分析,概述啟明星辰集團在2021年的若干實踐案例,并對當前人工智能安全的發展趨勢給出分析預測。


1、落地應用印證趨勢法規出臺熱度攀升


Gartner在2019年發布的一份報告中將人工智能安全(AI Security)的涵義解讀成三個方面,分別是人工智能賦能安全防御、人工智能惡意應用帶來的安全威脅以及人工智能自身安全。


由于人工智能的惡意應用目前在網絡安全層面的實踐相對較少,本文主要關注另兩個方面在2021年取得的進步。


在人工智能賦能安全防御方面,總體情況基本符合近幾年來的發展趨勢?;赝^去,2017年的RSA大會是人工智能最熱的一屆,之后人工智能逐步從炒作走向落地實用,如今已成為安全防御能力的一個普通組成部分。


2021年的RSA大會受新冠疫情影響改成在線上舉辦,參展廠商銳減至187家,通過對線上數字展臺的瀏覽分析,上述趨勢再次得到印證:人工智能已經成為構建檢測、分析等安全能力的基礎組件,在安全分析平臺、IDS、NGFW、勒索軟件檢測等產品中均能找到其身影,且通常非獨立出現,而與其他技術緊密結合。


2021年6月,美國安全和新興技術中心(CSET)發布了一份題為《機器學習與網絡安全——炒作與現實》(《Machine Learning and Cybersecurity - Hype and Reality》)的報告,其中分析指出當前機器學習技術給網絡安全領域帶來的主要是改進式變化,而不是變革式的,沒有帶來顯著性的攻防地位轉變。


雖然上述發展趨勢及分析報告可能讓人感覺人工智能賦能安全防御遠沒有達到之前人們所期望的“奇效”,但從另一角度來看這實際上也是一種肯定,人工智能確實在一些場景中為網絡安全防御提供了支撐與能力提升。


2021年2月,全球移動通信系統協會(GSMA)發布了《AI in Security人工智能賦能安全應用案例集》,其中包含了來自國內多家網絡通信及安全廠商的30個人工智能在網絡信息安全領域應用的優秀案例(其中啟明星辰的案例有5個),涵蓋通信安全、數據安全、內容安全、業務安全、終端安全等諸多應用場景,正是人工智能技術在賦能網絡安全防御方面所發揮出的切實作用的真實寫照。


在人工智能自身安全方面,除了系統、應用及算法的魯棒性受到學術界及業界的更多關注外,數據層面的安全威脅在2021年度更是倍受關注?!稊祿踩ā?、《個人信息保護法》等一系列法律法規相繼出臺實施,使以機器學習、深度學習等為代表的人工智能算法模型在訓練過程中使用的大規模數據,必須遵守相關規定。


尤其是在多方聯合建?;蚴菙祿赡苌婕暗絺€人隱私的場景,如何確保數據安全與隱私保護成為人工智能應用構建過程中需重點考慮的問題。因此,可信執行環境、聯邦學習、多方安全計算等隱私計算技術的熱度有明顯上升,業界對此也有較多的關注。


位列2021年的RSAC創新沙盒十強之一的Cape Privacy正是專注于此領域,而Gartner在2021年10月發布的2022戰略技術趨勢報告中也將隱私增強計算(Privacy-Enhancing Computation)列入其中。


Trends for 2022.png


2、實踐方能出真知人工智能助力網絡安全發展


2021年,啟明星辰繼續在人工智能安全領域開拓創新,展開自主研發實踐并取得了優秀成果,以下將從人工智能賦能網絡安全防御與人工智能自身安全兩方面進行說明。


在關于2021年度啟明星辰研發創新大賽的報道文章《創新——讓啟明星辰始終照亮網絡安全時空》一文中,已經對獲得冠軍的“AI安全建模與賦能系統”進行了介紹,這正是啟明星辰在人工智能賦能網絡安全防御方面的優秀實踐成果之一,本文不再贅述,下面將重點介紹其他代表性成果。


第一個是同樣在2021年度集團研發創新大賽中榮獲優秀獎的“Webshell通信流量智能檢測系統”。由集團核心技術研究院與檢測產品本部共同研發的這一成果,設計提出了一種基于機器學習的Webshell通信流量檢測技術,并針對大規模數據下性能瓶頸、訓練所需標注數據不夠豐富、既有特征不足以及模型部署后對新數據出現漏報/誤報等難題給出了創新的解決方法,從而實現在真實數據流量下測試達到高檢出(~99.9%)、零誤報的優異效果。這一成果已經實現在NFT產品中的模塊化,并提交相關發明專利申請。


另一個是由集團核心技術研究院與VenusEye威脅情報中心合作研發的“惡意代碼智能檢測系統”。經過數年的研究積累,研究團隊設計提出了多個惡意代碼靜態及動態分析檢測的模型,基于千萬量級惡意代碼樣本,并針對樣本不均衡問題給出改進機制,最終實現模型的檢測精準度達到業界前沿水平。其中部分模型經過多次數據分析大賽的檢驗驗證,包括阿里云安全惡意程序檢測天池長期賽(2019-2021)第一名、科大訊飛惡意軟件分類挑戰賽(2021)第三名、CCF BDCI數字安全公開賽之惡意軟件家族分類賽(2021)優勝獎等。這一成果已經初步部署于威脅情報處理系統中,并提交相關發明專利申請。


而在人工智能自身安全方面,啟明星辰從數據安全層面出發,在2021年12月正式發布數據安全新版圖——數據綠洲,為數字經濟時代數據要素價值的充分發揮打造支撐技術與平臺,為人工智能等數據分析業務場景提供“數據可用不可見”的能力。


數據綠洲的背后,既有公司近二十年在數據全生命周期管控的積累作為基礎,也有近兩年來集團核心技術研究院在區塊鏈、聯邦學習、多方安全計算等前沿技術領域的持續跟蹤研究的成果作為支撐。數據綠洲在未來必將成為促進與保障數據要素安全流通共享的重要力量。


3、技術與形勢雙重驅動人工智能安全發展


隨著人工智能技術的研究與應用發展,以及網絡與信息安全問題受關注度的不斷提升,近年來人工智能安全這一交叉領域正在技術與形勢的雙重驅動下持續向前推進。當前人工智能安全的發展有以下幾項趨勢。


(1)人工智能賦能網絡安全防御逐漸脫離“黑盒”應用模式


在業界對人工智能賦能網絡安全防御熱炒的初期(2017-2018年),很多方案將人工智能算法模型當作“黑盒”使用,以深度神經網絡(深度學習)為代表的復雜模型的采用更是成為一個重要宣傳點。


這些方案雖然在特定問題中能夠在檢測率等指標上達到比傳統方法更好的結果,但是其存在的不可解釋性問題一直為人們所詬病,而且對數據集的依賴度通常較高。


炒作大潮過后,實際的落地效果與安全能力成為核心關鍵點。由于硬件資源的限制與實時檢測的需求,以及關聯分析方面的考量,“黑盒”應用模式變得越來越不適用。相反地,更多的新方案開始采用計算效率與可解釋度更高的傳統機器學習模型,并融入安全領域專家知識(包括安全知識圖譜的采用)。


此外,人機回圈(human-in-the-loop)對于網絡安全領域人工智能模型的訓練、持續優化以及透明度與可解釋性提升將是一種有效的方式,未來可能得到更多關注。


(2)高質量的網絡安全數據集的構建與積累將愈發重要


經過幾度起落,2010年代人工智能技術的再度興起,不僅僅是由于深度學習算法的提出,而同時與ImageNet等高質量的大規模數據集出現有很大關系。相比于計算機視覺、自然語言處理等人工智能應用最廣泛的領域,網絡安全領域的數據集可謂是“聊勝于無”,而且很大一部分年代久遠,缺乏持續的更新維護,只在近年來的若干數據分析比賽中公開提供少許新數據集。


盡管小樣本學習、合成數據等新技術的提出能夠在某種程度上緩解可用數據少的情形,但是高質量的真實數據集在未來一段時間內對于人工智能賦能網絡安全防御的發展仍然是不可或缺的,甚至直接關系到其可用性及落地效果。


(3)系統的工程化可能加速人工智能賦能網絡安全防御應用的構建


Gartner連續兩年將人工智能工程化(AI Engineering)列入戰略性技術趨勢(2021-2022),它對于各類人工智能應用中算法模型的性能、可維護性、可擴展性、可解釋性以及可靠性提升有重要助力。


在網絡安全領域,人才缺口的問題一直存在,而同時掌握人工智能與安全兩個領域知識的人才更是稀缺,而系統的人工智能工程化在助力模型構建、維護的同時,也在某種程度上降低了構建網絡安全領域人工智能應用的門檻。它使得相關知識與經驗可以在系統中不斷積累,創建新應用時不再需要從零開始,從而助力加速構建應用。


(4)隱私計算技術將更快速地從理論走向落地


人工智能算法模型在訓練過程中需使用的大量數據,如何確保這一過程中的數據安全與隱私保護也是人工智能應用構建過程中需重點考慮的問題。與人工智能賦能網絡安全防御不同,隱私計算技術的興起是在合規的需求推動下出現的,而不單單是由技術發展與炒作所催生的。


隨著數據安全及隱私保護相關的一系列法律法規出臺,數據采集、處理及運營方必須采取相應措施來保證其行為合規。而另一方面數據的價值又只有通過計算分析與共享流通才能充分體現,這就從客觀上決定了隱私計算技術的必要性。盡管當前的隱私計算技術還存在著開銷大、效率低等問題或不足,但是合規性方面的要求客觀上決定了它勢必將在各種場景下以不同形式被采用。因此,相比于人工智能賦能網絡安全防御,隱私計算技術可能會更快速地走向落地。


人工智能技術正在日新月異的飛速發展,啟明星辰集團將抓住機會、急流勇進,繼續在人工智能安全等前沿技術領域開拓進取,為實現“護航數字中國,領航信息安全”的使命愿景不斷奮進。