人工智能安全2023年度總結及2024年展望
發布時間 2024-01-09科技浪潮滾滾向前,2023年人工智能(Artificial Intelligence,簡稱AI)飛速發展,從圖像識別到自然語言處理,從智能制造到智慧醫療,AI的觸角已延伸至社會生產生活的方方面面。
隨著AI的廣泛應用,其安全性、隱私保護及倫理問題也逐漸凸顯。這一年,我們見證了諸多關于AI安全的政策出臺及研究成果發布,從數據安全到算法公平性,從隱私保護到AI倫理,安全問題已貫穿于AI發展的全鏈條。
在這歲末年初之際,我們將對過去一年火熱的人工智能在安全領域的進展進行簡要回顧,并對新一年的人工智能安全發展趨勢進行預測。期待能夠更好地平衡人工智能技術的發展與安全風險,共同構建一個更加安全、可信賴的AI未來世界。
人工智能安全2023年度總結
1、大模型成為安全行業關注焦點,安全企業紛紛推出基于大模型的安全應用
2022年末ChatGPT的橫空出世,徹底激發了大模型熱潮。
據統計截至2023年11月29日,國內已發布10億參數規模以上的大模型254個,并涌現出以ChatGLM、Baichuan等為代表的可免費商業授權的開源大模型,極大降低了大模型的商用門檻。
長期以來,安全行業面臨告警數據量大、事件分析處置嚴重依賴專業安全人員經驗等挑戰,而大模型表現出的通用人工智能特性正是應對挑戰的理想解決方案,從而引發了安全行業的高度關注。
這波安全大模型浪潮中,工業界走在了學術界的前面,國內外互聯網公司和安全企業紛紛發布了基于大模型的安全應用,學術界在這一領域的聲音并不突出。
2、智能助手成為主流的安全大模型應用形態
當前發布了安全大模型的廠商,在產品形態上大都采用了智能助手的形式,即通過在對話窗口中進行自然語言交互,提供告警解讀、調查取證、處置建議等方面的能力。
這主要是利用了大模型所具備的語義理解、世界知識和思維鏈的能力,使得應用能夠理解安全人員的問題,并通過與本地數據的交互,產生相關問題的答案。
3、傳統機器學習模型仍然在特定安全場景中發揮作用
雖然大模型持續火爆,但這并不意味著大模型能夠解決所有的安全分析問題。
當前的大模型是“大語言模型”的簡稱,這個名字本身就說明了大模型本質上還是語言模型,不適用于所有的任務。一些特定的安全分析場景,如基于行為特征識別加密通信上所承載的應用、基于終端實體間訪問關系識別惡意進程等,很難通過語言模型的形式進行問題抽象,更適合用經典的行為序列分析、圖結構分析等算法進行處理。
“尺有所短,寸有所長”,一些專用的小模型仍然在特定安全場景中發揮關鍵作用。
4、 大模型應用場景中的數據安全問題引發行業關注
新興技術往往具備“雙刃劍”效應,大模型也不例外。
雖然大模型在多個應用領域中展現出能夠大幅提升工作效率的巨大潛力,但媒體也不時爆出韓國三星因員工使用chatGPT泄露商業秘密、意大利因隱私保護問題成為全球首個禁用chatGPT的國家等新聞。
要想讓大模型成為生產力工具而不僅僅是玩具,就必須要讓大模型能夠訪問到工作內容。而工作內容中又不可避免存在商業秘密或隱私數據,這似乎是一個兩難的困境。
當前人工智能安全應用中存在的問題
1、受算力問題困擾,安全大模型在企業級用戶難部署
大模型的訓練和推理需要較多的算力資源。
一些企業級用戶在采用大模型方案時,因為數據安全問題無法使用公有云的算力,更傾向實施大模型的私有化部署。
但受限于國外對我們在高端芯片領域的出口管制,這些企業往往無法采購到滿足自身需求的顯卡資源,無法充分享受大模型的紅利。
2、 大模型缺乏與安全環境的交互接口,限制了大模型能力發揮
如果大模型不能與用戶本地環境交互,只能以助手的方式進行安全知識問答,那么大模型在安全分析和運營業務中能夠發揮的作用就大打折扣了。
要想讓安全大模型像一名真正的安全專家,直接或輔助完成安全數據分析、安全策略下發、安全設備管控等操作,就要打通大模型與安全數據和安全設備的交互接口。
當前多樣化的安全數據形態、復雜的安全設備體系,使得安全大模型很難全面對接,限制了安全大模型在整個安全業務流程中發揮更大的價值。
人工智能安全2024年展望
1、大模型應用的門檻進一步降低,更多安全企業和用戶在產品方案中采用安全大模型
隨著大模型技術及生態的進一步成熟,大模型訓練、優化、部署的技術門檻進一步降低。數據要素市場化的推進,也為基于高質量語料庫進行大模型優化提供了新通道。
這使得缺乏專業技術人員、垂直領域數據積累的用戶,也有可能通過市場化手段跨越技術和數據的壁壘,從而讓更多的用戶在安全建設中選擇基于安全大模型的產品或解決方案。
2、大小模型協同的完整解決方案更受安全行業青睞
安全廠商在解決完大模型的有無問題之后,下一步要關注的就是如何讓安全大模型在實際業務中發揮更大價值。
如前所述,大模型不能解決所有的安全問題,面向特定業務場景的專用小模型仍發揮著重要作用。
如何基于具體的業務場景,打造大小模型協同的解決方案,并能夠基于使用過程中沉淀的數據持續對大小模型的能力進行優化,會成為大模型應用落地過程中重點考慮的環節。
3、國產化替代成為安全大模型落地的重要保障
隨著國外芯片管制對我國的進一步升級,依靠國外算力資源發展國內大模型技術的路線實施困難,這也給了國內芯片行業巨大的發展空間。
伴隨著國內昇騰、海光等GPU顯卡的發布,以及配套的軟件開發生態逐漸完善,越來越多的大模型應用將會基于國產化算力資源部署,這也為安全大模型的落地應用提供了重要保障。
4、面向安全行業的多模態大模型
當前主流的大模型大都是“大語言模型”,或者在訓練過程中采用了音視頻、圖片等模態數據的多模態大模型。
安全領域在業務中也會用到多模態數據,只是這里的“多模態”,與主流人工智能領域的“多模態”有本質差異,安全領域的“多模態”是指腳本、源代碼、二進制文件、流量、系統日志等不同形態的安全數據。
在安全檢測和分析中,需要處理各種模態的安全數據;大模型也只有能夠理解這些模態的安全數據,才能不借助外部工具解決復雜的安全問題。
截至文本成稿時,我們關注到清華大學發布了全球首個機器語言大模型MLM,我們預測未來會有更多的面向安全行業的多模態大模型面世。
5、大模型應用中的數據安全問題解決方案逐漸完善
數據安全問題是使用大模型、尤其是云端大模型服務時繞不開的話題。僅僅憑借大模型服務提供商的一紙聲明,無法徹底打消用戶的安全顧慮。
相信隨著大模型應用的普及,通過對大模型的輸入和輸出進行數據安全檢測避免敏感數據泄露,或者通過密態計算、多方安全計算等技術手段解決用戶的隱私保護問題,會逐漸成為大模型應用配套的數據安全解決方案。