日前,京東數(shù)字科技集團AI實驗室首席科學家薄列峰首次對外披露了京東數(shù)科聯(lián)邦學習戰(zhàn)略全布局,向業(yè)界介紹了京東數(shù)科獨創(chuàng)的快速安全的聯(lián)邦學習框架。薄列峰還分享了京東數(shù)科兩項業(yè)界首創(chuàng)的技術突破——“基于核的非線性聯(lián)邦學習算法”和“分布式的快速同態(tài)加密技術”,這兩項技術創(chuàng)新成果都形成了論文,并已經(jīng)被頂級學術會議KDD 2020接受。
在香港人工智能與機器人學會主辦的AI金融公開課上,薄列峰指出,隨著大數(shù)據(jù)的發(fā)展,重視數(shù)據(jù)隱私和安全已經(jīng)成為一種世界性的趨勢,歐盟頒布了《通用數(shù)據(jù)保護條例》(GDPR)、中國發(fā)布了《數(shù)據(jù)安全管理辦法(征求意見稿)》并公開征求意見。越來越嚴格的法規(guī)給人工智能的落地應用帶來了挑戰(zhàn)。在這樣的背景下,聯(lián)邦學習作為新一代人工智能技術應運而生,從源頭出發(fā)解決數(shù)據(jù)隱私保護和數(shù)據(jù)安全問題。
聯(lián)邦學習是在滿足數(shù)據(jù)隱私、安全和監(jiān)管要求的前提下,讓人工智能系統(tǒng)能夠更加高效、準確的共同使用各自數(shù)據(jù)的機器學習框架。多個企業(yè)在不用給出己方數(shù)據(jù)的情況下也可以聯(lián)合進行模型訓練并得到模型結果。
據(jù)薄列峰介紹,京東數(shù)科在聯(lián)邦學習領域已經(jīng)成功實現(xiàn)了落地應用。京東數(shù)科將其用于人臉識別,在配合式場景下(如自拍照對比自拍照),當誤檢率為十萬分之一的情況下,通過率高達99.96%,當誤檢率為萬分之一的情況下,通過率則高達99.99%。聯(lián)邦學習使用多方聯(lián)合數(shù)據(jù),使得模型結果超出預期。
目前,聯(lián)邦學習在產(chǎn)業(yè)應用方面面臨著一系列挑戰(zhàn)——由于需要傳遞梯度信息,容易導致基于梯度信息的構造攻擊;需要對梯度加密,雖然增加了安全性,但是也極大損失了算法的效率;傳統(tǒng)聯(lián)邦學習基于同步更新,浪費了大量的計算資源。如何設計既能保證安全性又具有高效率的聯(lián)邦學習算法以滿足產(chǎn)業(yè)AI應用需求,是業(yè)界面臨的突出難題。為解決這一問題,京東數(shù)科推出了快速安全的聯(lián)邦學習框架。
薄列峰介紹說:“快速安全的聯(lián)邦學習框架具有三大特點。第一,在數(shù)據(jù)和模型隱私方面,不同參與方之間沒有直接交換本地數(shù)據(jù)和模型參數(shù),而是交換更新參數(shù)所需的中間數(shù)值。同時,為了避免從這些中間數(shù)值中恢復數(shù)據(jù)信息,我們也采用增加擾動對這些數(shù)值進行保護,確保了數(shù)據(jù)和模型的隱私安全。其次,在通訊方面,我們引入中心化數(shù)據(jù)交換的概念,使得數(shù)據(jù)的交換獨立于參與方。最后,我們采用了異步計算框架,極大地提高了模型訓練的速度。”
在京東數(shù)科開發(fā)快速安全的聯(lián)邦學習框架過程中,實現(xiàn)了多項業(yè)界首創(chuàng)技術,譬如近期實現(xiàn)的“基于核的非線性聯(lián)邦學習算法”和“分布式的快速同態(tài)加密技術”。
利用雙隨機梯度下降法,京東數(shù)科在業(yè)界首次實現(xiàn)了快速安全的“基于核的非線性聯(lián)邦學習算法”。在安全性上,這一方法不傳輸原始樣本及梯度信息,充分保護數(shù)據(jù)隱私;在快速性方面,這一方法使用首創(chuàng)的雙隨機梯度下降,大大提高計算速度,充分利用計算資源,通過增加擾動提高數(shù)據(jù)的安全保護。這一技術創(chuàng)新已經(jīng)形成了論文《解決多方垂直聯(lián)邦學習的安全核學習算法》(Federated Doubly Stochastic Kernel Learning for VerticallyPartitioned Data),并被頂級學術會議KDD 2020接受?!胺植际降目焖偻瑧B(tài)加密技術”則使得京東數(shù)科在業(yè)內首次實現(xiàn)了大規(guī)模、高速、安全的同態(tài)加密技術,這項創(chuàng)新成果同樣形成論文——《用分布式計算極大加速同態(tài)加密的算法》(Faster Secure DataMining via Distributed Homomorphic Encryption),并被KDD2020接受。
人工智能已經(jīng)被明確列為新基建的重要領域,對產(chǎn)業(yè)數(shù)字化升級具有重大促進作用。薄列峰表示,今年初京東數(shù)科就成立了產(chǎn)業(yè)AI中心。該中心集成了京東數(shù)科旗下AI實驗室、數(shù)據(jù)智能實驗室、智能風控實驗室等多個研發(fā)機構的AI研發(fā)力量,致力于將以聯(lián)邦學習為代表的前沿AI技術投入產(chǎn)業(yè)級應用,推動產(chǎn)業(yè)數(shù)字化進程。除了將自身的AI能力實現(xiàn)產(chǎn)業(yè)級應用之外,將AI能力“基礎設施化”也是產(chǎn)業(yè)AI中心成立的初衷。聯(lián)邦學習是未來機器學習乃至整個人工智能的重要基石,京東數(shù)科將持續(xù)加大對聯(lián)邦學習的投入。