KDD最佳论文奖首次独立颁给中国内地机构!达摩院开源工作获奖,面向联邦图学习
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
刚刚,KDD 2022所有奖项正式对外公布! 作为数据挖掘、知识发现领域的最高学术会议,每年KDD奖项花落谁家都会引发学界热烈讨论。 今年, 中国团队 的表现依旧令人瞩目。 清华裘捷中获得博士论文奖亚军,成为亚洲高校首位获得者。 阿里巴巴达摩院智能计算实验室,获得应用数据科学方向 最佳论文奖 ,是中国工业界研究团队首次独立获得这一奖项。 论文提出了一个面向 联邦图学习 的库FederatedScope-GNN。 主办方SIGKDD评价其“推动了联邦图学习的发展”。 在此,量子位找到论文一作王桢、通讯作者李雅亮,一起聊了聊他们关于论文研究及背后的更多事儿~
在图数据上发挥联邦学习能力本次获奖论文的核心,聚焦在联邦图学习方面。 简单来说,它就是将图学习和联邦学习的优势合璧。 近年来,随着越来越多应用场景对隐私保护的需求增高, 联邦学习 愈发火热。 它能让用户在数据始终都停留在本地的基础上,通过交换模型参数或中间结果的方式,在云端联合训练,最终让多方用户都能完成模型训练。 也就是常说的让“数据可用不可见”,从而避免“数据孤岛”问题。 目前,如谷歌的Tensorflow Federated (TFF) 、微众银行的FATE等,都是目前大热的开源联邦学习框架。 不过,现有的联邦学习工作,更多关注视觉和自然语言领域, 对图的支持相对有限 。 要知道,图 (graph) 在表示复杂关系方面,具有很大优势。 它是由节点 (node) 和边 (edge) 两部分组成的一种数据结构,用来描述对象间关系。 日常生活中,你可以把每个社交账户看作一个节点。预测两个账户是不是有好友关系,就是预测这俩节点之间是否存在连边,从而给你推荐“可能认识的人”。 但是传统神经网络,都是接受几何空间的数据作为输入,无法处理图这种数据结构。 针对这种情况, 图神经网络 被提出。它能利用神经网络来图进行深度特征抽取等操作,从而实现更好的推理预测效果。 常用的场景有电子商务、药物研发、金融、互联网社交等。而这些场景,对数据保护的需求往往也会很大。 比如银行反洗钱场景下,需要预测每个账户是否为风险账户,但各个银行的账户信息不能相互公开。 △ 银行反洗钱场景 还有药物研发过程中,不同厂商只掌握了分子图中的一部分,大家需要共享信息以完成研发任务,但各自的数据还要相互保密。 上述种种,让大家对联邦图学习算法非常渴望。 这样的背景下,达摩院在本次研究中,把图学习用在联邦学习上。 FederatedScope-GNN (以下简称FS-G) 基于达摩院已开源的联邦学习框架 FederatedScope (以下简称FS) 提出。 首先,FS-G提供了一个 统一视图 ,灵活支持异构数据的交换。 得益于底层框架FS事件驱动 (event-driven) 的编程范式,多种多样的消息交换和参与者的丰富行为得以模块化进行拆分实现——FS-G允许灵活丰富的模块化行为。 其次,FS-G针对图学习提供了 DataZoo 和 ModelZoo 。 前者为用户提供丰富多样的联邦图数据集,后者提供相应的模型与算法。 此外,DataZoo还实现了大量不同类型的splitters,即便在单机场景里,通过FS-G提供的注册机制,开发者也能轻松把单机代码搬到联邦场景复用。 再者,针对联邦图学习对超参数敏感的现象,FS-G还实现了高效的 模型调优 (model tuning) 组件。 其中包括多保真度的Successive Halving Algorithm和新近提出的联邦超参优化算法FedEx,以及针对联邦异质任务的个性化。 △ 一个个性化图神经网络示例 因为各个参与者被允许使用独立的特有神经架构,只聚合共享部分,FS-G允许开发者根据实际情况,采用不同的异步训练策略。 最后,FS-G还提供了丰富的 隐私评估 算法,对算法在隐私保护方面的能力进行检验。
99科技网:http://www.99it.com.cn

IT之家 7 月 3 日消息,据央视新闻报道,当地时间 7 月 2 日凌晨 1 时 35 分左右,
快资讯2022-07-03
