啟明星辰MAF直面OWASP LLM Top10威脅全景
發布時間 2025-02-21"讓每一句人機對話都安全可信,讓每一次智能交互都風險可控——這是屬于AI時代的安全承諾。 —— 啟明星辰"
前言:
安全威脅圖鑒
OWASP的《大規模語言模型應用 Top 10》項目始于2023年,旨在突出并解決與人工智能應用相關的安全問題。2025年更新的版本對現有風險有了更深層次理解,并納入了LLM在實際應用中的最新重要進展。如下圖:
一、訓練數據層風險
1.訓練數據投毒攻擊 (Training Data Poisoning Exploitation)
對訓練數據進行惡意干擾或篡改,導致模型學習錯誤的模式,影響模型的性能和準確性。
2.過度依賴 (Excessive Feature Dependency)
模型在某些特征上存在過度依賴,導致其對異常輸入或攻擊表現出脆弱性。
3.向量與嵌入弱點 (Embedding and Vector Representation Vulnerabilities)
模型的嵌入向量或數據表征存在弱點,攻擊者可能利用這些弱點進行潛在的攻擊。
4.虛假信息 (Misinformation Dissemination)
模型生成的信息不準確或虛假,導致誤導用戶或造成社會和安全問題。
5.不安全插件(Insecure Plugins)
集成的外部插件或模塊存在漏洞,可能為攻擊者提供未授權訪問或執行惡意操作的路徑。
二、輸入層安全風險
1.提示注入攻擊(Prompt Injection)
攻擊者通過構造對抗性提示詞突破系統預設指令,誘導模型改變其行為或輸出。
2.模型越獄風險(Model Jailbreaking)
越獄是一種特殊的提示注入,攻擊者提供輸入,導致模型完全無視其已有的安全協議。
3.過度代理風險 (Excessive Proxying Risks)
LLM 擴展在下游系統上擁有超出應用程序預期操作所需的權限,例如一個本應只讀取數據的擴展使用的賬戶不僅擁有 SELECT 權限,還擁有 UPDATE、INSERT 和 DELETE 權限,能夠連接到數據庫服務器。
三、輸出層安全風險
1.敏感信息泄露(Sensitive Information Disclosure)
模型在無意中生成輸出,泄露敏感或機密數據,導致隱私泄露和信息安全問題。
2.系統提示泄露(System Prompt Leak)
攻擊者通過逆向工程或其他手段獲取模型的內部提示信息,可能導致模型行為的不可控性。
3.不當輸出處理(Insecure Output Handling)
LLM生成的輸出被傳遞到其他組件和系統導致XSS、CSRF、SSRF、RCE等。
四、治理維度挑戰
1.模型盜竊與濫用 (Model Theft and Unauthorized Replication)
通過逆向工程或其他手段竊取模型知識,造成知識產權損失或被惡意濫用。
2.拒絕服務攻擊 (Denial of Service Attack)
通過高強度請求或惡意輸入,導致模型服務無法正常響應或出現系統崩潰。
3.供應鏈漏洞 (Supply Chain Integrity Vulnerabilities)
大型語言模型(LLM)的供應鏈容易受到多種漏洞的影響,這些漏洞可能會損害訓練數據、模型和部署平臺的完整性。這些風險可能導致輸出偏差、安全漏洞或系統故障。在傳統軟件漏洞中,我們通常關注代碼缺陷和依賴關系,但在機器學習(ML)領域,風險還擴展到了第三方預訓練模型和數據。
針對上述風險/威脅圖譜,風險主要可歸納為兩類:一類是LLM模型自身的固有風險,另一類模型與外部環境的交互則是大部分威脅的集中體現,會對用戶的核心業務運行造成嚴重影響,如下表所示:
大模型防護體系的技術挑戰及構建路徑
面對LLM在外部交互環節的高風險性,用戶亟需一套系統化的整體解決方案,以構建端到端的安全防護體系,確保業務的安全性和穩定性。
在啟明星辰的綜合安全體系中,MAF(Module Application Firewall)主要面向實時推理業務場景,通過在線部署&實時攔截模式,構建多維度安全防護機制,對輸入輸出內容進行深度安全檢測與防護。
一、 輸入預處理
輸入預處理是大模型防護體系中的重要環節,啟明星辰MAF通過預處理提升模型的效率和準確性,有效防止惡意輸入帶來的安全風險。
啟明星辰MAF將來自不同感知通道的數據進行統一處理與融合。
? 特征級融合:通過提取每種模態的關鍵特征,并將這些特征向量合并為一個高維向量,供后續處理。
? 決策級融合:不同模態的輸出在決策層面進行融合。通過將各模態的預測結果進行加權合并,來提高模型的最終決策準確性。
二、 輸入安全治理體系
? DDos緩解:基于令牌機制的BOT檢測,通過遞進式驗證確認,有效緩解拒絕服務攻擊。
? 外層高速匹配:基于SIMD加速技術的顯式內容匹配,通過過濾攔截確定性敏感內容,放行確定性白流量。
? 中層語義分析:對可疑的對話內容,通過語料訓練以及參數微調得到基于Transformer的神經網絡模型,用來理解人類語言,進行上下文關聯,識別隱式風險和復雜攻擊模式。
? 深層精準研判:對高風險對話內容,基于專用檢測大模型進行自然語言對抗式分析,精準識別復雜邏輯框架下的提示詞注入等惡意輸入。
三、動態輸出安全控制體系
啟明星辰MAF阻止敏感信息泄露、誤導性內容傳播以及系統提示詞泄漏等問題,保護數據輸出的安全性,提升模型與用戶的交互質量,避免潛在的惡意信息輸出。
? 敏感信息過濾與脫敏:通過先進的自然語言處理(NLP)技術和深度學習模型,啟明星辰MAF實現對敏感信息的精準識別與高效脫敏,支持對身份證、手機號、提示詞工程、其他關鍵業務信息等內容的識別和替換。
? 系統提示泄漏防護:啟明MAF內置豐富的系統語料庫,并支持基于實際業務需求定義應防護的系統關鍵信息,以此構建大模型安全輸出的堅實屏障。
? 不當輸出攔截:啟明星辰MAF實現對話式防御機制。不同于傳統手段的被動攔截,對話式攔截通過與大模型進行實時交互,主動引導對話走向,識別并阻斷潛在的攻擊意圖。
大模型安全防護需突破傳統網絡安全思維,建立適應生成式AI特性的新型防御范式。啟明星辰MAF大模型應用防火墻協助用戶構建持續演進的大模型安全治理體系,從輸入預處理、輸入安全治理到動態輸出安全控制的端到端大模型防護策略,保障各類大模型應用和智能體業務安全可靠的交付運行。