解碼百融云創Indra平臺:看隱私計算如何打破數據孤島
作為一家致力于探索人工智能和大數據在金融領域應用的科技企業,百融云創始終注重大數據應用過程中的數據安全與隱私保護。近年來,百融云創人工智能專家從隱私集合求交集、聯邦學習等技術方向入手,結合大數據具體應用場景需求,搭建起了隱私保護計算平臺Indra,為金融大數據應用過程中保障數據可用性和隱私性給出了創新解法。
隱私計算關鍵技術
數據的分析處理全生命周期可分為數據輸入、計算、結果三個環節,當下市面上的隱私計算技術體系普遍依據這一原則進行構建。大體上,隱私計算包括差分隱私、同態加密、多方安全計算、零知識證明、可信執行環境、聯邦學習等技術。
聯邦學習
聯邦學習(Federated Learning, FL),是由兩個或以上參與方共同參與,在保證各數據方的原始數據不出庫的前提下,協作構建并使用機器學習模型的人工智能技術。聯邦學習能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和機器學習建模。聯邦學習實際上是一個綜合性的技術組合,底層融合了多種機器學習算法和隱私保護的算子,如安全多方計算的多種協議和差分隱私,都可以被用于聯邦學習。
聯邦學習的原理是通過構建一個計算網絡,使客戶可以在自己的終端通過使用本地數據對模型進行訓練,并將模型的更新內容進行上傳匯總,將不同終端的模型更新進行融合,以此優化預測模型,客戶終端再將更新后的模型下載到本地,并不斷重復這一過程。在整個過程中,終端數據始終存儲在本地,來避免數據泄露的風險。
根據數據集的分布特點,聯邦學習可分為橫向聯邦學習、縱向聯邦學習與聯邦遷移學習。百融云創Indra平臺主要針對應用場景更豐富的縱向聯邦學習,比如同一個地區的銀行和電商,他們用戶重疊較多;但是,由于銀行記錄的都是用戶的收支行為與信用評級,而電商記錄的是用戶瀏覽與購買歷史,因此用戶特征重疊較少。
安全多方計算
安全多方計算,顧名思義, 是在保證多個參與方獲得正確計算結果的同時,無法獲得計算結果之外的任何信息,從而保證各方數據的安全和私密。安全多方計算技術包括秘密共享(secret sharing)、不經意傳輸(oblivious transfer)、混淆電路(garbled circuit)、隱私集合求交集(private set intersection), 隱私信息檢索(privacy information retrieval)等關鍵計算協議。
安全多方計算的優勢在于,各參與方對其所擁有的數據擁有絕對的控制權,保證基本數據和信息不會泄露。然而,目前安全多方計算技術包含復雜的密碼學操作,計算開銷較大,需要付出很大的性能代價。此外,針對特定問題和場景,還需要設計專用協議。另外,該技術的落地還受到網絡帶寬、延遲等因素制約。因此,提升計算效率,降低實施方案設計復雜度,與此同時拓展技術落地場景,將是未來安全多方計算在產業應用的優化和發展方向。
二.解碼百融云創Indra平臺
目前Indra平臺包含基于OT的PSI和聯邦學習兩大部分。
對于PSI,Indra平臺采用基于OT和基于公鑰兩種形式。兩種PSI算法分別適用于合作方數據集和客戶數據集差不多大、合作方數據集遠遠大于客戶數據集兩種情形。Indra平臺的PSI算法既適用于普通的求交集計算,也適用于聯邦學習的訓練和預測階段。百融云創作為管理中心可以提供多方(不僅僅是兩方)數據集合求交集。
Indra平臺還將與區塊鏈技術結合起來,為合作方提供數據確權服務,實現數據價值流轉。同時區塊鏈還可以為Indra平臺提供公平、透明、合理的激勵分配機制,克服安全多方計算內在的缺陷,充分調動合作方提供高質量數據、誠實參與計算的積極性。
平臺架構圖
整個Indra平臺邏輯上分為管理中心、合作方、客戶三大部分。
管理中心:百融云創是Indra平臺的管理中心,負責用戶管理、向客戶展示合作方數據集列表、PSI和聯邦學習任務調用,以及結果返回。百融云創既是數據中介機構(管理中心),也是數據提供方(合作方)。即使百融云創作為管理中心,百融云創和客戶也無法拿到合作方的數據,充分保護合作方數據的安全。
合作方:大量數據的擁有者,可以將數據集的描述提供給管理中心,等待客戶使用其數據,從數據中獲取價值。
客戶:根據自身需求,選擇管理中心提供的數據集列表向管理中心發起PSI或聯邦學習任務請求,同時向管理中心和合作方支付費用。
平臺系統流程圖
1.合作方將數據的ID進行Hash后上傳合作數據集(PSI數據集、聯邦學習數據集)到自己的服務器,并將合作數據集的相關描述發送給Indra平臺管理中心;
2.Indra平臺管理中心向客戶展示可用的數據集;
3.客戶選擇合適的數據集,發起相應的任務(PSI任務、聯邦學習訓練任務、聯邦學習預測任務);
4.Indra平臺管理中心分配、調度任務,選擇合適的功能模塊;
5.合作方、管理中心、客戶合作完成任務:
5.1當執行PSI任務時,管理中心綜合各匹配結果,合并、生成最終匹配結果,并將結果保存、記賬、下發,客戶可以展示、下載、解析匹配結果;
5.2.當執行聯邦學習訓練任務時,管理中心產生所需的公私鑰和中間計算結果的解密,合作方、客戶聯合訓練模型,最終合作方和客戶各自得到模型的一部分;
5.3.當執行聯邦學習預測任務時,客戶選擇已有的模型和對應的合作方數據集,通過改進的PSI協議,獲得預測結果。
Indra平臺應用場景
Indra平臺為合作方、客戶之間提供了一種安全、高效的數據合作模式,各方在不泄露數據的情況下仍然可以挖掘數據價值,確保數據使用的合規性。
黑名單匹配
在多頭借貸名單、黑名單匹配中,客戶往往會查詢多家機構的數據集,以確定借款者是否在多頭借貸名單或黑名單中。在這個過程中,最理想的狀態是除了借貸機構用戶集和黑名單共同的數據之外,其他任何信息都不會泄露。一種簡單的方法是將各自數據都進行哈希運算,哈希值相同的就是共同的數據。但是這樣做就會把哈希值暴露給對方,如果數據空間不是很大很容易遭到暴力求解。即使通過一些手段增加數據空間,也會造成匹配率下降等問題。
Indra平臺向客戶集中展示多個合作方提供的多頭借貸名單和黑名單,包括歷史匹配率、被匹配次數、匹配效果等信息??蛻舾鶕@些信息自由選擇想要匹配的多頭借貸名單或黑名單。事后客戶還可以在Indra平臺上反饋數據集使用情況,以便其他客戶更有針對性地選擇合適的數據集。
2.在線預測
在使用聯邦學習訓練得到最終的模型,往往各參與方只掌握模型的一部分。使用模型時,仍然需要各方聯合起來進行預測。作為客戶的一方并不希望其他參與方知曉預測的用戶ID。比如借貸機構和征信機構合作預測某個借款人的信用,借貸機構并不想讓對方知道該借款人有借款需求,否則征信機構可以將借款人的信息提供給其他借貸機構,所以借貸機構希望在預測借款人信用的同時并不會泄露借款人的信息。
在預測階段同樣可以使用Indra平臺的PSI組件:參與各方計算各自模型的結果并和ID一一對應起來;客戶在求得用戶ID交集的同時也能獲得該ID對應的各自模型的計算結果,從而可以計算出最終的預測結果。根據PSI的技術特點,在這個過程中,除了客戶之外其他參與方(合作方)均不知道用戶ID交集的信息,也就無法知道客戶到底預測的是哪個用戶ID。
此外,通過使用Indra平臺的PSI組件,在不向合作方泄露用戶ID的情況下,客戶可以從合作方那兒獲得該用戶ID的其他信息,如歷史借款次數、借款金額等。
3.聯合建模
為了聯合多方數據集訓練模型,傳統的方法是參與方在本地計算模型,然后將各自的模型提交給第三方,第三方根據這些模型合成一個新的模型。這樣做可以保證各方數據隱私安全,但是第三方可以獲得各方模型,往往模型本身也屬于參與方的核心資產并不希望泄露出去。同時,雖然各參與方的模型基于各自數據集,但是最終合成的模型并不是直接使用各方數據集,所以模型的效果沒有直接使用數據訓練模型的效果好。另一種方法是參與方各自拿出少量的數據放到一起進行模型訓練。這樣做仍然會有少量的數據泄露,而且由于只是少量數據,并不能得到最優的模型。
Indra平臺在聯合建模方面使用聯邦學習技術,模型的訓練直接使用各參與方的數據集,通過PSI、Paillier加密等密碼學技術,保證數據均是在密文狀態下進行訓練。訓練完成之后,參與方除了獲得最終模型外,無法得到其他參與方的任何數據信息。
4.數據中介
和傳統的數據超市不同,Indra平臺只展示合作方數據集的相關描述,而不會真正擁有合作方的具體數據,解決數據孤島困境,避免非法數據交易,實現數據價值。由于Indra平臺可以充分保護合作方數據安全,合作方將自有數據集的相關信息(數據本身不出庫),如數據量、字段、來源、用途等發布到Indra平臺。Indra平臺將合作方數據集、歷史使用情況等信息集中展示給客戶??蛻艨梢愿鶕祿嚓P信息和自身需求,選擇合適的數據集進行匹配、建模或預測等操作。Indra平臺對數據集的使用情況、效果等信息進行統計,方便后續客戶選擇高質量的數據集,也能激勵合作方提供更優質的數據。
隨著大數據的蓬勃發展,隱私保護技術的逐步透明和普及,互聯互通、技術開源和標準定制,未來兩年將迎來爆發式的發展,極大地賦能金融機構在科技場景的落地,能更好運用隱私保護技術的企業,無疑能夠更好的利用大數據帶來的價值。未來,百融云創會加大對隱私保護技術的研發和創新,始終引領金融行業的科技創新方向。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞:
相關閱讀
-
股市一年賺20點是什么水平?鐵路基建上...
股市一年賺20%很正常,行情好的時候可能體現不了水平,不過行情不好... -
中超第19輪的補賽開打 梅州客家在大連...
昨天下午,中超第19輪的補賽全面開打。北上大連的梅州客家在大連市... -
廣東男籃23分擊敗上海大鯊魚 布魯克斯...
昨晚,CBA常規賽再戰一輪,廣東男籃以23分的優勢擊敗上海大鯊魚隊,... -
全紅嬋首次參加跳水世界杯 207C動作得...
昨晚,在德國柏林舉行的跳水世界杯產生了首枚金牌。在女子雙人十米... -
李瑋鋒出任廣州城主帥 廣州城才逐漸走...
在結束第21輪0∶0逼平滄州雄獅的比賽之后,廣州城只是稍作休整,在1... -
《和平精英》的開放世界 全局開放商業想象
未來30年,元宇宙將是中國的支柱產業,至少有12億人可以成為元宇宙... -
如何打破銀行場景金融轉型焦慮 百融云...
身處數字經濟時代,用戶對于千人千面、實時響應、場景化的訴求日益... -
泰隆銀行突破柜臺窗口式政務服務定式思...
日前,紹興市柯橋區外貿共享客廳在泰隆銀行紹興分行揭牌成立,在全... -
世界快資訊丨固定資產投資增速加快 投...
相關閱讀:消費市場逐步恢復新型消費增勢良好政策措施加力顯效工業... -
四部門:部署開展涉企違規收費專項整治...
人民網北京10月27日電(記者孫博洋)記者從市場監管總局了解到,日... -
臺州銀行投向小微企業與“三農”客戶的...
臺州銀行溫州分行成立12年來,與小微企業和三農交貼心的朋友,累計... -
精彩看點:智通A股融資融券統計|10月27日
智通A股融資融券統計|10月27日 -
進出口銀行浙江省分行:21.5億元紅獅印...
由進出口銀行浙江省分行牽頭的等值21 5億元人民幣紅獅印尼東加銀團... -
浙商銀行投放人行設備更新改造再貸款清...
近期,浙商銀行落實設備更新改造再貸款和制造業中長期貸款投放的相... -
紹興市成立科學家研究中心 打造弘揚科...
日前,紹興市科學家精神研究中心揭牌成立儀式在紹興文理學院舉行。... -
浙江省科協科普部組織浙江農林大學5位博...
日前,浙江省科協科普部組織浙江農林大學5位博士科技志愿者,響應智... -
鹿城區科協持續舉辦項目路演活動 吸引...
近日,為加速推動科技成果轉化,促進產業高質量發展,服務國家創新... -
孫宇晨2022釜山區塊鏈周演講:區塊鏈是...
據韓國媒體全球經濟新聞10月27日報道,波場TRON創始人孫宇晨線上出... -
世界即時看!挺進深地挖掘油氣潛能(新知)
【現象】今年6月,西南油氣田雙魚001—H6井鉆井深度達9010米,創造... -
三季度就業形勢總體穩定
核心閱讀 人社部日前發布的三季度就業數據顯示:就業形勢總體穩...