啟明星辰:大模型的安全挑戰及應對建議
發布時間 2024-09-06當前,大模型技術在多個領域顯著提升工作效率、改變了生產模式,并創造了巨大經濟價值。例如,在金融行業,大模型被用于風險評估與市場預測;在醫療行業,它則助力圖像識別與疾病診斷等。然而,這些技術帶來的安全風險和倫理問題也備受關注。開放式 Web 應用程序安全項目(OWASP)發布了關于大模型應用的十大安全風險,這些風險不僅包括傳統的沙盒逃逸、代碼執行和鑒權不當等安全風險,還涉及提示注入、對話數據泄露和數據投毒等人工智能特有的安全風險。
一、安全風險
大模型的安全風險不僅限于數據安全和隱私問題,還涉及其訓練數據的龐大規模及其中潛在的偏差,這些偏差可能導致大模型在生成內容時不自覺地反映出這些偏差,進而產生歧視性或不準確的輸出
(一)數據安全與隱私風險
在大模型領域,存在幾個關鍵的數據安全和隱私風險:一是傳輸截獲風險,敏感數據如個人身份和金融信息在不同主體間傳輸時容易被截獲,導致隱私泄露;二是運營方窺探風險,運營機構可能非法收集和利用用戶數據,包括個人偏好和行為習慣,進行不當營銷或策略,甚至將數據出售給第三方以牟利;三是大模型記憶風險,大模型訓練后保留的歷史數據和信息可能被泄露或濫用,攻擊者可利用這些信息實施詐騙或針對性攻擊,嚴重威脅用戶個人信息安全。
(二)提示注入風險
大模型與人類的溝通建立在對自然語言的解析和理解上。然而,由于這些大模型在區分系統指令和用戶輸入方面存在挑戰,這為提示注入攻擊提供了機會。在這種攻擊中,攻擊者可以利用大模型對上下文的依賴和對自然語言的理解,通過巧妙構造的提示來操縱大模型的輸出。
角色扮演是提示注入攻擊的一個典型案例。通常大模型會避免產生可能危害社會安全的回答。攻擊者通過讓大模型扮演新的角色,可以繞過這些限制,從而輸出原本應被拒絕的信息。此外,攻擊者可能在一個問題中注入虛假信息,導致大模型給出錯誤的答復;或者在多個問題中注入相關信息,使大模型在邏輯推理上產生偏差。攻擊者還可以通過分割和重組字符串,分散大模型的注意力,使其暫時忽略對輸出內容的檢查。這種攻擊不僅會嚴重影響用戶體驗,而且如果惡意提示包含種族、政治等敏感話題,還可能加劇社會矛盾。
(三)對抗攻擊風險
在大模型的場景下,對抗攻擊可能表現為對輸入文本的微小修改,這些修改可能看起來無關緊要,但可能會導致大模型產生完全不同的輸出。例如,攻擊者可能會在輸入文本中插入一些看似無關的詞語或符號,或者微妙地改變一些詞語的拼寫,從而誘導大模型產生錯誤或誤導性的輸出。
(四)大模型濫用風險
大模型本身不能創造知識,但可以把碎片化的知識整合起來,從而大大降低使用門檻。然而,這種便利性也帶來了被濫用的風險。例如,惡意攻擊者可能會利用大模型生成網絡攻擊的工具,如垃圾郵件、網絡釣魚攻擊、惡意軟件等。
(五)內容安全合規風險
大模型生成的內容是用戶和大模型交互的結果,并不完全是大模型自身的產出。內容安全的風險很大程度上來自于用戶的惡意輸入和誘導,此外,即使沒有惡意攻擊者的存在,大模型的輸出內容也并非完全安全,因為訓練數據本身可能包含偏見和有害內容。這些偏見和有害內容可能在大模型的輸出中得到反映,從而對用戶造成誤導。
(六)推理隱私泄露風險
雖然大模型在訓練時不會記住具體的數據,但如果訓練數據中包含敏感信息,大模型可能學到這些信息的一般模式,并在生成文本時產生類似的內容。例如,如果大模型在訓練數據中看到了很多密鑰信息,它很可能在內容生成時輸出真實密鑰信息,從而導致敏感信息或隱私信息泄漏。攻擊者甚至會惡意誘導大模型輸出隱私內容。
(七)事實性錯誤風險
圖靈獎得主楊立昆(Yann LeCun)指出,自回歸模型的錯誤概率會指數疊加,基于自回歸模式的生成式人工智能難以處理錯誤疊加的問題,隨著輸出長度增加,大模型的“幻覺”更明顯,即大模型可能一本正經地輸出錯誤或虛假的信息?;糜X問題的存在,部分原因是大模型可能被人為操縱,通過反復誘導產生錯誤的輸出。但即使沒有人為的故意誘導,幻覺問題仍然會存在。
假設應用于醫學、金融等非閑聊式場景,這些潛在風險可能會造成經濟損失或威脅生命安全。例如,美國一位擁有 30 年經驗的資深律師 Steven Schwartz 使用 ChatGPT 創建法律研究報告,并反復用 ChatGPT 確認這些案例都是真實存在的,并且能在知名法律數據庫中查到。然而,在提交了這些報告后,被法院認定至少有 6 個案例“不存在”,因此他陷入了麻煩。
二、風險治理
由于深度神經網絡的不可解釋性,我們無法確定網絡中哪部分參數對應以上風險,也沒有技術手段在生成階段禁止大模型生成風險內容。這決定了必須從工程化的風險治理視角出發,結合國內外法規和倡導性意見,生成式人工智能的風險治理需要貫穿產品的全生命周期——數據處理、大模型訓練、問題輸入、內容生成、內容發布與傳播各階段。
(一)數據采集、處理階段的風險治理
為了保護數據的機密性和完整性,在數據處理階段必須采取適當的安全措施,包括數據分類與保護、數據脫敏、數據源審核、差分隱私和同態加密等。在數據安全方面,應對數據進行分類和分級,根據其安全級別采取相應的保護措施,并通過流程化的流轉審批機制確保數據傳遞的合法性和授權。在必要時,對敏感數據進行脫敏處理,以保護個人隱私,并建立數據備份與恢復機制,防止數據丟失或損壞,并確保數據的快速恢復。此外,選擇可信度高、正確導向的數據源進行合法采集,針對大模型面臨的數據投毒和隱私泄漏風險,采用數據清洗的方式篩選出有問題的數據,并將相關數據從訓練數據中移除。
在數據隱私保護方面,差分隱私技術通過添加噪聲來保護用戶和模型之間交互的數據。此外,結合同態加密實現加密存儲和安全計算,確保數據在加密狀態下的安全性,也是一種有效的隱私保護措施
(二)大模型訓練階段的風險治理
訓練階段奠定了大模型能力的基石,同時也構筑了其安全防線,以下是四個關鍵的治理策略。
一是安全評測。針對算法安全風險,可以建立綜合性的評測機制,不僅包括攻擊手段,也涵蓋其他評估方法,以攻促防,全面評估算法的安全性。例如,除了使用對抗攻擊的手段來測試大模型的防御能力,還可以采用代碼審查、漏洞掃描等方法,以及通過越獄攻擊、反向誘導等手段來測試大模型抵抗提示注入攻擊的能力。
二是增強魯棒性。通過改進算法訓練方法、調整算法模型結構、擴充多樣化的訓練數據集,來增強大模型的魯棒性,提升算法抵抗誘導攻擊的能力。例如,可以使用對抗訓練、將攻擊樣本加入訓練數據集的方式來增強大模型抵抗和對抗攻擊的能力。
三是后門檢測。鑒于大模型可能遭受的篡改風險,可以建設大模型后門檢測能力,深入分析大模型的行為模式,以便及時發現任何異常行為。這通常涉及對大模型行為進行深度分析,以識別出與正常行為不符的模式。
四是采用聯邦學習技術。允許大模型在不共享原始數據的情況下進行訓練,通過在本地設備上處理數據,僅共享大模型的參數更新,從而有效保護用戶隱私。
(三)內容生成階段的風險治理
用戶和大模型交互時,大模型所生成的內容安全風險很大程度上來自于用戶的惡意輸入和誘導。因此,從用戶維度進行管控也是非常有效的手段之一。
一是安全攻擊檢測。通過安全檢測手段,檢測大模型在應用過程中是否存在提示注入攻擊、對抗攻擊和隱私攻擊。例如,可以通過提示過濾的方式從輸入側防御提示注入攻擊,過濾掉可能導致攻擊行為的提示注入和潛在的敏感內容。二是內容安全合規審核。即使沒有用戶的誘導,大模型的輸出內容也并非完全安全。安全合規審核的目標是識別并避免輸出風險內容,以確保大模型和相關應用的內容安全。OpenAI 聲稱,用 GPT-4 做內容審核的水平比輕量級訓練過的人類審核員強,但比訓練有素的人類審核員弱。因此,可以使用基于大模型的方法來識別大模型的輸出內容是否涉及暴力、色情、歧視、偏見等。
目前,有一些風險識別的方案提出,例如 Perspective API、finetuned Roberta-Hate-Speech、Llama Guard 和 ShieldLM。其中,Perspective API 和finetuned Roberta-Hate-Speech 在特定類別的數據上表現良好,但不能適應新的規則的定制;Llama Guard 在訓練期間加入了規則,但缺乏解釋能力;ShieldLM 通過收集大量中英文標注的查詢-響應來增強與人類安全標準的一致性,支持在訓練時加入自定義規則。此外,ShieldLM 構建了一個流程,自動創建與人類標注一致的自然語言分析,幫助解釋響應為何被認為是安全、不安全或有爭議。
(四)內容傳播階段的風險治理
一是添加標識。通過使用水印系統等方式標明人工智能生成的內容,有助于降低人工智能生成的欺騙內容的危險性。例如,Google DeepMind 宣布推出一種添加水印的工具 SynthID,為谷歌的文生圖模型 Imagen 生成的圖像添加水印,在不影響圖像質量的前提下標識人工智能生成的內容,向公眾提示深度合成情況。二是風險監測。建立輿情監測機制和舉報投訴入口,并及時響應和處理。
三、未來大模型攻防的預測
隨著深度學習技術的發展和研究的深入,未來大模型的攻防將在動態抗衡中不斷升級,同時,大模型需要應對的新型安全威脅也將不斷涌現和升級。包括圖靈獎得主約書亞·本吉奧(Yoshua Bengio)在內的 19 人團隊,探討了意識的客觀存在的標準和評估框架,證明了人工智能現在的能力和形態在這個評估框架之下暫時還不符合意識的標準,但按照目前的發展趨勢,人工智能發展出意識不存在客觀的障礙。OpenAI 前首席科學家、聯合創始人伊爾亞·蘇茨克維(Ilya Sutskever)在一次采訪中表示,ChatGPT 可能已經具備了某種意識,新的優先級的事情是要阻止超級人工智能干壞事。未來可能面臨以下新型安全問題。