《联邦学习 算法详解与系统实现》薄列峰,(美)黄恒,顾松庠,陈彦卿著|(epub azw3 mobi pdf)电子书下载-云顶国际集团

时间: 2023-05-15 10:56:45  33 epub

本站仅收录第三方网站资源,购买请前往官方网站购买正版

图书名称:《联邦学习 算法详解与系统实现》

【作 者】薄列峰,(美)黄恒,顾松庠,陈彦卿著
【丛书名】智能科学与技术丛书
【出版社】 北京:机械工业出版社 , 2022.04
【isbn号】978-7-111-70349-5
【价 格】99.00
【分 类】机器学习
【参考文献】 薄列峰,(美)黄恒,顾松庠,陈彦卿著. 联邦学习 算法详解与系统实现. 北京:机械工业出版社, 2022.04.

图书封面:

图书目录:

《联邦学习 算法详解与系统实现》内容提要:

本书将从联邦学习概念、应用场景到具体的先进算法,再到系统实现,对该技术进行全盘梳理与总结……

《联邦学习 算法详解与系统实现》内容试读

第一部分

联邦学习基础知识

chapteri

第章

联邦学习概述

随着人们对个人隐私泄露的担忧以及相关法律法规的出台,传统的人工智能技术急需适应新形势、新情况。联邦学习(federated learning,fl)作为其中一种技术上的云顶国际集团的解决方案备受学术界和工业界人士的关注。本章将对联邦学习进行全面的介绍,以期达到服务大众、服务读者的目的

1.1什么是联邦学习

2016年是人工智能(artificial intelligence,ai)成熟的一年。随着alphago击败人类顶级围棋手,我们真正见证了人工智能的巨大潜力,并开始期待更复杂、更尖端的人工智能技术可以应用在更多的领域,包括无人驾驶、生物医疗、金融等。如今,人工智能技术在各行各业都显示出了优势。最新的alphafold2技术甚至可以预测35万种蛋白质结构,这些结构涵盖了98.5%的人类蛋白质组。然而,这些技术的成功大都以大量的数据为基础。比如计算机视觉领域中图像分类、目标检测等技术的发展离不开众多大规模的图片数据集,如imagenet、coco和pascal voc。在自动驾驶领域,众多国内外厂商积累了数十万公里的道路测试数据。alphago在2016年总共使用了30万场游戏的数据作为训练集。

随着alphago的成功,人们自然希望像alphago这样的由大数据驱动的人工智能技术能够很快在生活中应用起来。然而,现实有些令人失望:除了少数行业,大多数领域只

拥有有限的数据或质量较差的数据,这使a虹技术的落地比我们想象的更困难。是否可以

通过跨组织传输数据,将数据融合在一个公共站点中呢?事实上,在许多情况下,打破数

据源(数据拥有者)之间的障碍是非常困难的,甚至是不可能的。一般来说,任何a虹项

目所需的数据都包含多种类型。例如,在人工智能技术驱动的产品推荐服务中,产品销售者拥有产品信息、用户购买数据,但没有描述用户购买能力和支付习惯的数据。在大多数行业中,数据以孤岛的形式存在。由于行业竞争、隐私安全、复杂的管理程序等,即使是

第1章联邦学习概述3

同一公司不同部门之间的数据集成也面临着巨大的阻力,要整合分散在全国各地的数据和机构几乎是不可能的,或者在成本上是不可行的。

与此同时,随着越来越多的公司意识到损害数据安全和用户隐私的严重性,数据隐私和安全己成为全球性的重大问题。公共数据泄露的相关新闻引起了公共媒体和政府的极大关注,如2018年国外某社交网站的数据泄露事件引发了广泛关注。作为回应,世界各国都在完善保护数据安全和隐私的法律。例如,欧盟于2018年5月25日实施的《通用数据保护条例》(general data protection regulation,gdpr)。gdpr(见图l-l)旨在保护用户的个人隐私和数据安全,要求企业在用户协议中使用清晰明了的语言,并授予用户“被遗忘权”,即用户的个人数据可以被删除或撤销,违反该条例的公司将面临高额罚款。我国也在实施类似的隐私和安全措施。例如,我国于2017年颁布的《网络安全法》和《民法通则》规定,互联网企业不得泄露或篡改其收集的个人信息,在与第三方进行数据交易时,需要确保拟议的合同遵守数据保护法律义务。这些法规的建立显然有助于建立个更文明的社会,但也对人工智能中常用的数据交易程序提出了新的挑战。

gdpr

2衫my2010

图1-1gdpr

具体来说,人工智能中的传统数据处理模型往往涉及简单的数据交易模型,一方收集用户数据并将数据传输给另一方,另一方负责清理和融合数据。最后,第三方将利用集成的数据来建立模型以供其他方使用。模型通常作为服务出售的最终产品。这一传统的流程面临上述新的数据法规的挑战。此外,由于用户可能不清楚这些模型的未来用途,这些交

易可能会违反gdpr等法律法规的规定。结果,数据使用方会面临这样一个困境一数

据以孤岛的形式存在,但在很多情况下,数据使用方被禁止收集、融合或者将数据传输给

其他组织或个人进行ai处理。因此,如何合法合规地解决数据碎片化和孤岛问题,是人

工智能研究人员和从业者将要面临的一个重要挑战。

1.1.1联邦学习的发展历史

联邦学习这个术语是由mcmahan等人在2016年的论文中引入的:

我们将我们的方法称为联邦学习,因为学习任务是通过由中央服务器协调的参与方设备(我们称之为客户机,即client)的松散联邦来完成的。

联邦学习:算法详解与系统实现

跨大量通信带宽有限的不可靠设备的一些不平衡且非独立同分布(independently and

identically distributed,iid)数据的划分是联邦学习面临的挑战。在联邦学习这个术语出现之前,一些重要的相关工作已经开展。许多研究团体(来自密码学、数据库和机器学习等多个领域)追求的一个长期目标是分析和学习分布在许多所有者之间的数据,而不泄露这些数据。在加密数据上计算的加密方法始于20世纪80年代早期(参考rivest等人于l982年发表的文章),agrawal、srikant和vaidya等人是早期尝试使用集中式服务器从本地数据中学习并同时保护隐私的典范。相反,即使自引入联邦学习这个术语以来,我们

也没有发现任何一项研究工作可以直接解决fl面临的所有挑战。因此,术语“联邦学习”

为这些经常在隐私敏感的分布式数据(又称中心化数据)的机器学习(machine learning,

ml)应用问题中共同出现的特征、约束和挑战等提供了方便的简写。

在联邦学习领域,许多开放式挑战的一个关键属性是,它们本质上是跨学科的。应对这些挑战可能不仅需要机器学习,还需要分布式优化、密码学、安全性、差分隐私、公平性、压缩感知、信息理论、统计学等方面的技术。许多最棘手的问题都处在这些学科的交叉点上,因此我们相信,各领域专家之间的协作对联邦学习的持续发展至关重要。联邦学习最开始被提出时,在移动和边缘设备等应用场景备受关注。之后,联邦学习的应用场景越来越多,例如,多个组织协同训练一个模型。联邦学习的上述相关变化引申出更广泛的定义。

定义联邦学习是一种机器学习设置,其中多个实体(客户端)在中央服务器或服务提供商的协调下协同解决机器学习问题。每个客户端的原始数据都存储在本地,并且不会交换或直接传输;取而代之的是,使用旨在即时聚合的有针对性的更新迭代来实现学习目标。

有针对性的更新是指狭义的更新,以包含特定学习任务所需的最少信息;在数据最小化服务中,尽可能早地执行聚合操作。虽然对数据隐私保护的研究已经超过50年,但在最近l0年才有广泛部署的大规模云顶国际集团的解决方案(例如rappor)。跨设备联邦学习和联邦数据分析正在应用于消费数字产品中。例如gboard移动键盘以及pixel手机和android

messages中广泛使用了联邦学习;又例如在ios13中,跨设备fl被应用于quicktype键盘和si的声音分类器等应用中。跨信息孤岛的一些应用在各领域提出,包括金融风险预测、药物发现、电子健康记录挖掘、医疗数据分割和智能制造。对联邦学习技术不断增长的需求激发了许多工具和框架的出现,包括tensorflow federated、fate(federatedai technology enabler)、pysyft、leaf、paddlefl和clara training framework等。关于各种框架之间的异同,读者可参考kairouz等人2019年发表的综述。一些成熟的技术公司和较小的初创公司也正在开发利用联邦学习技术的商业数据平台。

1.1.2联邦学习的工作流程

在介绍联邦学习(fl)的训练过程之前,我们先考虑一个fl模型的生命周期。f工

过程通常是由为特定应用程序开发模型的工程师驱动的。例如,自然语言处理领域的专家

第1章联邦学习概述5

可以开发一个用于虚拟键盘的下一个单词预测模型。图1-2显示了联邦学习的主要组件和参与者。从更高层次上看,典型的工作流程如下。

管理员

模型测试

客户端

服务器端

模型部署

分发

联邦学习

工程师

和分析师

图1-2fl模型生命周期和联邦学习系统参与者

口问题识别:模型工程师识别出需要用fl解决的问题。

口客户端检测:如果需要的话,客户端(例如手机上运行的应用程序)将在本地存储必要的训练数据(有时间和数量限制)。在很多情况下,应用程序已经存储了这些数据(例如,一个短信应用程序已经存储短信,一个照片管理应用程序已经存储照片)。然而,在某些情况下,可能需要维护额外的数据或元数据,例如用户交互数据,以便为监督学习任务提供标签。

口仿真原型(可选):模型工程师可以使用代理数据集在fl模拟中对模型架构进行

原型化并测试学习超参数。

口联邦模型训练:启动多个联邦训练任务来训练模型的不同变体,或使用不同的超参数优化。

口联邦模型评估:在任务得到充分训练之后(通常是几天),对模型进行分析并选择合适的候选者。模型分析可能包括在数据中心的标准数据集上计算指标或者联邦评估,其中模型被推送到保留的客户端,以对本地客户端数据进行评估。

口部署:最后,一旦一个好的模型被选中,它将经历一个标准的模型发布过程,包

括手动质量保证、实时a/b测试(通常是在一些设备上使用新模型,在其他设备

上使用上一代模型来比较它们的性能),以及阶段性推出(以便在影响太多用户之前发现和回滚不良行为)。模型的特定启动过程是由应用程序的所有者设置的,通常与模型是如何训练的无关。换句话说,这个步骤同样适用于经过联邦学习或传统数据中心方法训练的模型。

fl系统面临的主要挑战之一是如何使上述工作流程尽可能简单,理想地接近集中训

练(centralized training)的ml系统所达到的易用性。

6

联邦学习:算法详解与系统实现

接下来,我们将详细介绍一种常见的fl训练过程,它可以涵盖mcmahan等人提出的联邦平均(federatedaveraging)算法和许多其他算法。

服务器(服务提供者)通过重复以下步骤来安排训练过程,直到训练停止(由监视训练过程的模型工程师自行决定):

口客户端选择:服务器从满足资格要求的一组客户端中抽取样本。例如,为了避免

影响正在使用设备的用户,手机可能只有在插电、使用不计流量的wf连接且

处于空闲状态时才会连接到服务器。

口广播:选定的客户端从服务器下载当前的模型权重和一个训练程序(例如tensor-

flow graph).

口客户机计算:每个选定的设备通过在本地执行训练程序对模型进行更新,例如,训练程序可以在本地数据上运行sgd(如federatedaveraging算法)。

口聚合:服务器对设备的更新进行聚合。为了提高效率,一旦有足够数量的设备报告了结果,可能会删除掉队的设备。这一阶段也是许多其他技术的集成点,这些技术将在后面讨论,可能包括用于增强隐私的安全聚合、用于提高通信效率而对聚合进行的有损压缩,以及针对差分隐私的噪声添加和更新裁剪。

口模型更新:服务器基于从参与当前轮次的客户端计算出的聚合更新,在本地更新共享模型。

客户机计算、聚合和模型更新阶段的分离并不是联邦学习的严格要求,但它确实排除

了某些算法类,例如异步sgd,即在使用其他客户机的更新进行任何聚合之前,每个客

户机的更新都立即应用于模型。这种异步方法可能会简化系统设计的某些方面,而且从优化角度来看也是有益的。然而,上述训练过程在将不同研究方向分开考虑时具有很大的优势:压缩、差分隐私和安全多方计算的进步可以用于基础操作,如通过去中心化更新的方法计算和或均值,然后由任意优化或分析算法组合,只要这些算法以聚合操作的形式表示即可。

值得强调的是,联邦学习的训练过程不应该影响用户体验。首先,如上所述,尽管模型参数通常会在每一轮联邦训练的广播阶段被发送到一些设备上,但这些模型只是训练过

程中的一部分,不用于向用户显示实时预测。这是至关重要的,因为训练ml模型是具有

挑战性的,而且一个超参数的错误配置可能产生一个做出错误预测的模型。相反,用户可见的模型使用被推迟到模型生命周期的第6步“部署”中的阶段性推出过程中。其次,训练本身是对用户不可见的,如在客户端选择步骤中描述的那样,训练不会使设备变慢或耗尽电池,因为它只在设备空闲和连接电源时执行。然而,这些限制所带来的有限可用性直接导致开放式的研究挑战,如半循环数据可用性(semi-cyclic data availability)和客户端选择中可能存在的偏见。

1.1.3联邦学习的分类

根据样本和特征的分布方式不同,我们可以将联邦学习划分为两类:横向联邦学习

···试读结束···

  • 声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,以上内容仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站内容来自网络收集整理或网友投稿,所提供的下载链接也是站外链接,云顶国际亚洲唯一官网的版权争议与本站无关。您必须在下载后的24个小时之内,从您的设备中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版!我们非常重视云顶国际亚洲唯一官网的版权问题,如有侵权请邮件与我们联系处理。敬请谅解!邮箱:121671486@qq.com,微信:diqiuren010101
你是否在搜索这些内容?                                 

云顶国际集团-云顶国际亚洲唯一官网 © all rights reserved.   
| | | 本站发布的内容仅为个人学习试用,请在下载后24小时内删除,不得用于任何商业用途,否则后果自负。如有侵权请及时联系云顶国际集团处理,邮箱:vlimit@qq.com

网站地图