AI熱潮來襲,如何用聯邦學習實現大數據的隱私計算?
發布時間 2023-04-06本文以人工智能場景下的數據確權授權與安全合規使用為切入點,介紹了聯邦學習的定義、思想架構、分類等內容,并探討了聯邦學習在不同行業場景的應用和實踐落地,幫助大家對聯邦學習這一安全技術有更為全面地了解。
人工智能B面:數據安全與隱私保護
在數字化轉型加速背景下,人工智能(Artificial Intelligence,AI)取得迅猛發展。隨著ChatGPT橫空出世、百度文心一言發布,2023年人工智能再次成為人們最為關注的重點板塊。
人工智能的成功建立在大量的數據基礎之上,數據是驅動人工智能技術突飛猛進的關鍵要素。AI產品在模型訓練、優化以及用戶使用過程中涉及對個人數據、商業數據、知識產權等的收集和處理,其背后暗藏著隱私保護、數據保護合規等問題。
隨著人們安全意識的提高,用戶開始更加關注他們的隱私信息是否未經自己許可便被他人出于商業或者政治目的而利用,甚至濫用。如何兼顧高度智能化和高度隱私安全,從而享受AI帶來的效率和成本優化,這個問題值得深思。
法規制定者和監管機構逐漸出臺相關法律來規范數據的管理和使用。歐盟《通用數據保護條例》、美國《加利福尼亞州消費者隱私法》、《中華人民共和國網絡安全法》等法律法規相繼落地,對數據的收集和處理提出了嚴格的約束和控制要求。
一般來說數據是由不同組織產生并擁有的,傳統的方法是收集數據并傳輸至一個中心點,這個中心點擁有高性能的計算集群并且能夠訓練和建立機器學習模型。但在愈發嚴格的法律環境下,不同組織間收集和分享數據將會變得越來越困難,進而形成各自孤立的數據孤島。
數據孤島的形成,正阻礙著數據的使用。一種可行的方法是由每一個擁有數據源的組織訓練一個局部模型,之后讓各個組織在各自的模型上交流,最終通過模型聚合得到?個全局模型。為了確保用戶隱私和數據安全,各組織間交換模型信息的過程將會被精心地設計,使得任何組織不能夠猜測到其他組織的隱私數據信息。
聯邦學習(Federated Learning,FL)便采取了這一思想,它為數據安全與合規使用提供了技術方案。
什么是聯邦學習?
聯邦學習旨在建立一個基于分布數據集的模型,擁有數據源的組織訓練一個局部模型,然后各組織的模型之間進行交換,最后通過模型聚合得到一個全局模型,且模型性能接近傳統方式訓練下機器學習模型的一種算法框架。
聯邦學習具有以下特征:
1、有兩個或以上的聯邦學習參與方協作構建一個共享的機器學習模型,且每一個參與方都擁有若干能夠用來訓練模型的訓練數據。
2、模型相關的信息以加密方式在各方之間進行傳輸和交換,并保證任何一個參與方都不能推測出其他方的原始數據。
3、在模型的訓練過程中,每一個參與方擁有的數據都不會離開該參與方。
4、模型的性能要能夠充分逼近理想模型的性能即將所有訓練數據集中在一起訓練而來的機器學習模型的性能。
聯邦學習包括模型訓練和模型推理兩個過程。在模型訓練的過程中,模型相關的信息(梯度、參數等)能夠在各方之間交換或以加密形式進行交換完成訓練,但不交換數據。模型推理即模型應用于新的數據實例并得到結果,并通過一個公平的價值分配機制來分配協同模型所獲得的收益。
聯邦學習的架構
根據場景的不同,聯邦學習系統根據是否涉及中央協調方,從而可以分為客戶端-服務器(Client-Server)架構和對等網絡(Peer-to-Peer)架構。
在客戶-服務器架構中,協調方是一臺聚合服務器,其可以將初始模型發送給各參與方A~C, A~C分別使用各自的數據集訓練該模型,并將模型權重更新發送到聚合服務器。聚合服務器將從參與方處接收到的模型聚合起來,并將聚合后的模型更新發回給參與方。這一過程將會重復進行直至模型收斂或達到最大迭代次數。這里參與方的數據不會離開自己,保護了參與方的隱私和數據安全。
在對等網絡架構中,各方無須借助協調方直接通信,這種體系結構的優點是不需要協調方從而提高了安全性,但可能需要多的計算和通信開銷。
聯邦學習一方面保護了用戶的隱私和數據安全,另一方面參與方協同訓練的機器學習模型可能優于自己訓練的模型。但是也面臨一些挑戰,比如參與方和聚合服務器之間的通信鏈接可能是慢速且不穩定的,這將會使系統變得不穩定且不可預測。還有來自不同參與方的數據會出現非獨立同分布的情況,這可能導致聯邦模型產生偏差,甚至失敗。
聯邦學習的分類
按訓練數據集在樣本、特征空間的分布可以將聯邦學習分為橫向聯邦學習(Horizontal Federated Learning,HFL)、縱向聯邦學習(Vertical Federated Learning,VFL)和聯邦遷移學習(Federated Transfer Learning,FTL)。
橫向聯邦學習中參與方數據特征是對齊的,但是參與方擁有的數據樣本是不同的,因此也可以將其稱為按樣本劃分的聯邦學習(Sample-Partitioned Federated Learning)。
當參與方是兩家不同銀行時,二者可能有較少的重疊客戶樣本,但是樣本數據客戶有非常相似的特征。這兩家銀行就可以通過橫向聯邦學習建立一個模型。
縱向聯邦學習適用于參與方之間的數據樣本是對齊的,但是在數據特征不同,因此可以將縱向聯邦學習命名為按特征劃分的聯邦學習(Feature-Partitioned Federated Learning)。
當參與方兩家公司提供不同的服務但在客戶群體上有非常大的交集,且數據特征的重疊部分較小時,則可以通過縱向聯邦學習訓練模型。
當參與方的數據樣本和數據特征重疊都很少的情況時稱之為聯邦遷移學習。
聯邦學習的應用場景
聯邦學習作為隱私計算三大技術路線之一,為解決數據流通過程中的數據安全提供了技術路徑,對隱私計算這一新興技術在重要垂直行業的落地及數據要素市場化的發展起到了重要推進作用。
醫療行業
越來越多的醫療服務提供商開始使用人工智能技術,但是人工智能技術在醫療行業的應用仍處于起步階段,其中的一個關鍵因素就是數據問題,即缺乏大量的、具有豐富特征的、可以用來全面描述患者癥狀的數據。
醫療數據與生命健康息息相關,具備復雜性及高度敏感性,強監管屬性。目前,醫療數據主要產生并存儲于醫療機構及政府平臺之中,其處理涉及政府、醫院、企業、個人等多個主體。在該場景下,為實現醫療數據共享與合規、個人隱私保護的平衡,可采用聯邦學習將所有的參與方協作地訓練一個共享模型而不交換或公開他們的私有數據。
通過聯邦學習的應用,可打破醫院、醫藥公司、第三方服務平臺等醫療機構之間的數據孤島實現數據建模,同時打通醫院間的數據孤島將促進AI醫療落地和發展。
金融行業
金融領域也是人工智能被廣泛應用的領域,聯邦學習能幫助顯著改善風險量化能力、降低整體金融產品價格。如針對小微企業信貸、個人貸款等風險管理場景中征信報告相關數據存在的頻次低、數據維度缺失等問題,銀行可以針對小微企業引入發票數據,針對個人貸款引入個人消費數據和社交數據等來提高風控能力。
物聯網行業
物聯網已經滲透到生產生活的各個方面,同時也產生了海量的數據,如何有效利用這些數據是一個很重要的問題,將其收集到云端會可能會帶來巨大的傳輸開銷,也會違反數據隱私法規。聯邦學習能夠使得邊緣計算設備在不向云服務器發送數據的情況下協作訓練模型。
數據是數字經濟時代涌現的新型生產要素,是數字經濟時代社會價值和財富創造的關鍵驅動力,隨著數據孤島、用戶隱私泄露等問題越來越受到關注,聯邦學習的應用場景也將越來越多。啟明星辰隱私計算平臺基于不同場景化的需求,在數據流通過程中,解決計算環節的信息保密問題。
作為數據安全領域的標桿企業,啟明星辰匯集近二十年的深厚數據安全技術經驗,推出了數據安全體系和能力戰略構建——數據綠洲,面向數據的系統屬性、業務屬性、經濟屬性提供全方位的安全技術及管理的體系化保障,以安全實踐守護數字化轉型中的各類用數場景,牢筑數字經濟健康發展安全基石。