图片来源
视觉中国文丨学术头条
对于关心人工智能技术进展的读者来说,每年年底来自整个谷歌research团队撰写的年终总结,可谓是必读读物。
今天,由谷歌大神JeffDean领衔,这份总结虽迟但到。出于知识传播目的,“学术头条”现将全文翻译如下,以飨读者:
在过去的几十年里,我见证了机器学习(ML,MachineLearning)和计算机科学(CS,ComputerScience)领域的变化和发展。
早期的方法往往存在某些缺陷导致了失败,然而,通过在这些方法上的不断研究和改进,最终产生了一系列的现代方法,目前这些方法已经非常成功。按照这种长期的发展模式,在未来几年内,我认为我们将会看到一些令人欣喜的进展,这些进展最终将造福数十亿人的生活,产生比以往任何时候都更大的影响。
这篇文章中,我将重点介绍ML中可能产生重大影响的五个领域。对于其中的每一项,我都会讨论相关的研究(主要是从01年开始),以及我们在未来几年可能会看到的方向和进展。
趋势1:更强大的通用ML模型
趋势:ML的持续效率提高
趋势3:ML对个人和社会都越来越有益
趋势4:ML在科学、健康和可持续发展方面日益增长的效益
趋势5:更深入和广泛地理解ML
趋势1:更强大的通用ML模型
研究人员正在训练比以往更大、更有能力的ML模型。
例如,仅在过去的几年中,模型已经在语言领域取得突破性进展,从数百亿的数据tokens中训练数十亿个参数(如,11B参数T5模型),发展到数千亿或上万亿的数据tokens中训练高达数千亿或上万亿的参数(如,密集模型,像OpenAI的B参数GPT3模型、DeepMind的80B参数Gopher模型;稀疏模型,如谷歌的B参数GShard模型、1.T参数GLaM模型)。数据集和模型大小的增加导致了各种语言任务的准确性的显著提高,这可以从标准自然语言处理(NLP,NaturalLanguageProcessing)基准测试任务的全面改进中观察到,正如对语言模型和机器翻译模型的神经网络缩放法则(neuralscalinglaws)的研究预测的那样。
这些先进的模型中,有许多专注于单一但重要的书面语言模式上,并且在语言理解基准和开放式会话能力方面显示出了最先进的成果,即是跨越一个领域的多个任务也是如此。除此之外,他们还表现出了令人兴奋的能力,即仅用相对较少的训练数据便可以泛化新的语言任务。因为在某些情况下,对于一个新的任务,几乎不存在训练示例。简单举例,如改进的长式问答(long-formquestionanswering),NLP中的零标签学习,以及我们的LaMDA模型,该模型展示出了一种复杂的能力,可以进行开放式对话,并在多个对话回合中保持重要的上下文。
图丨与LaMDA的对话模仿了威德尔海豹(Weddellsea)预设提示,“嗨,我是Weddellsea。你有什么问题要问吗?”该模型在很大程度上控制了角色中的对话。
Transformer模型也对图像、视频和语音模型产生了重大影响,所有这些模型也都从缩放中受益,正如研究可视Transformer模型的缩放法则工作中预测的那样。用于图像识别和视频分类的Transformers在许多基准上都取得了最先进的结果,我们还证明,与单独使用视频数据的模型相比,在图像数据和视频数据上的联合训练模型可以提高视频任务的性能。我们已经为图像和视频Transformers开发了稀疏的轴向注意机制(axialattentionmechanisms),从而更有效地使用计算,为视觉Transformers模型找到了更好的图像标记方法,并通过与卷积神经网络相比,研究了视觉Transformers的操作方式,加深了我们对视觉Transformers方法的理解。将Transformers模型与卷积操作相结合,已在视觉和语音识别任务中展示出显著的优势。
生成模型的输出也在大幅提高。在过去几年里取得了显著的进步,尤其在图像的生成模型中最为明显。例如,最近的模型已经证明了仅给定一个类别(如“irishsetter”或“steetcar”)便可以创建逼真的图像,可以“填充”一个低分辨率的图像,以创建一个看起来十分自然的高分辨率匹配图像,甚至可以构建任意长度的自然场景。另一个例子是,可以将图像转换成一系列离散tokens,然后使用自回归生成模型以高保真度进行合成。
图丨级联扩散模型(cascadediffusionmodels)的例子,从一个给定的类别生成新的图像,然后使用这些图像作为种子来创建高分辨率的示例:第一个模型生成低分辨率图像,其余的执行向上采样(upsampling)到最终的高分辨率图像。
图丨SR3超分辨率扩散模型是以低分辨率图像作为输入,并从纯噪声中构建相应的高分辨率图像。
鉴于这些强大的功能背后,潜藏着的是巨大的责任,所以我们不得不仔细审查,这类模型的潜在应用是否违背我们的人工智能原则。
除了先进的单模态模型(single-modalitymodels)外,大规模的多模态模型(multimodalmodels)也在陆续进入人们的视野。这些模型是迄今为止最前沿的模型,因为它们可以接受多种不同的输入模式(例如,语言、图像、语音、视频),而且在某些情况下,还可以产生不同的输出模式,例如,从描述性的句子或段落生成图像,或用人类语言简要描述图像的视觉内容。这是一个令人惊喜的研究方向,因为类似于现实世界,在多模态数据中更容易学习(例如,阅读一些文章并看时辅以演示比仅仅阅读有用得多)。因此,将图像和文本配对可以帮助完成多种语言的检索任务,并且更好地理解如何对文本和图像输入进行配对,可以对图像字幕任务(imagecaptioningtasks)带来更好的改进效果。同样,在视觉和文本数据上的联合训练,也有助于提高视觉分类任务的准确性和鲁棒性,而在图像、视频和音频任务上的联合训练则可以提高所有模式的泛化性能。还有一些诱人的迹象表明,自然语言可以作为图像处理的输入,告诉机器人如何与这个世界互动,以及控制其他软件系统,这预示着用户界面的开发方式可能会发生变化。这些模型处理的模式将包括语音、声音、图像、视频和语言,甚至可能扩展到结构化数据、知识图和时间序列数据等等。
图丨基于视觉的机器人操作系统的例子,能够泛化到新的任务。左图:机器人正在执行一项用自然语言描述为“将葡萄放入陶瓷碗中”的任务,而不需要对模型进行特定的训练。右图:和左图一样,但是有“把瓶子放在托盘里”的新的任务描述。
这些模型通常使用自监督学习(Self-supervisedlearning)的训练,在这种方法中,模型从观察到的“原始”数据中学习,而这些数据没有被整理或标注。例如,GPT-3和GLaM使用的语言模型,自监督的语音模型BigSSL,视觉对比学习模型SimCLR,以及多模态对比模型VATT。自监督学习允许大型语音识别模型匹配之前的语音搜索中的自动语音识别技术(AutomaticSpeechRecognition)的基准精度,同时仅使用3%的标注训练数据。这些趋势是令人兴奋的,因为它们可以大大减少为特定任务启用ML所需的努力。而且,它们使得在更有代表性的数据上训练模型变得更容易,这些数据可以更好地反映不同的亚种群、地区、语言或其他重要的表示维度所有这些趋势都指向训练能够处理多种数据模式并解决数千或数百万任务的高能力通用模型的方向。通过构建稀疏性模型,使得模型中唯一被给定任务激活的部分是那些针对其优化过的部分,由此一来,这。
些多模态模型可以变得更加高效。在未来的几年里,我们将在名为“Pathways”的下一代架构和综合努力中追求这一愿景。随着我们把迄今为止的许多想法结合在一起,我们期望在这一领域看到实质性的进展。
图丨Parthway:我们正在朝着单一模型的描述而努力,它可以在数百万个任务中进行泛化。
趋势:ML的持续效率提高
由于计算机硬件设计、ML算法和元学习(meta-learning)研究的进步,效率的提高正在推动ML模型向更强的能力发展。ML管道的许多方面,从训练和执行模型的硬件到ML体系结构的各个组件,都可以在保持或提高整体性能的同时进行效率优化。这些不同的线程中的每一个都可以通过显着的乘法因子来提高效率,并且与几年前相比,可以将计算成本降低几个数量级。这种更高的效率使许多关键的进展得以实现,这些进展将继续显著地提高ML的效率,使更大、更高质量的ML模型能够以更有效的成本开发,并进一步普及访问。我对这些研究方向感到非常兴奋!
ML加速器性能的持续改进:
每一代ML加速器都在前几代的基础上进行了改进,使每个芯片的性能更快,并且通常会增加整个系统的规模。其中,拥有大量芯片的pods,这些芯片通过高速网络连接在一起,可以提高大型模型的效率。
当然,移动设备上的ML能力也在显著增加。Pixel6手机配备了全新的谷歌张量处理器(GoogleTensorprocessor),集成了强大的ML加速器,以更好地支持重要的设备上功能。
我们使用ML来加速各种计算机芯片的设计(下面将详细介绍),这也带来了好处,特别是在生产更好的ML加速器方面。
持续改进的ML编译和ML工作负载的优化:
即使在硬件没有变化的情况下,对于ML加速器的编译器和系统软件的其他优化也可以显著提高效率。例如,“自动调优多通道机器学习编译器的灵活方法”展示了如何使用ML来执行编译设置的自动调优,从而在相同的底层硬件上为一套ML程序实现5-15%(有时高达.4倍的改进)的全面性能改进。GSPMD描述了一个基于XLA编译器的自动并行化系统,该系统能够扩展大多数深度学习网络架构,超出加速器的内存容量,并已应用于许多大型模型,如GShard-M4、LaMDA、BigSSL、ViT、MetNet-和GLaM等等,在多个领域上带来了最先进的结果。
图丨在ML模型上使用基于ML的编译器自动调优,可以加快端到端模型的速度。包括实现5%或更多改进比例的模型。条形颜色代表了优化不同模型组件的相对改进程度。
人类创造力驱动的更高效模型架构的发现:
模型体系结构的不断改进,大大减少了许多问题达到给定精度水平所需的计算量。例如,我们在年开发的Transformer结构,能够在几个NLP任务和翻译基准上提高技术水平。与此同时,可以使用比各种其他流行方法少10倍甚至百倍的计算来实现这些结果,例如作为LSTMs和其他循环架构。类似地,视觉Transformer能够在许多不同的图像分类任务中显示出改进的最新结果,尽管使用的计算量比卷积神经网络少4到10倍。
更高效模型架构的机器驱动发现:
神经体系结构搜索(NAS,NeuralArchitectureSearch)可以自动发现对于给定的问题域更有效、新颖的ML体系结构。NAS的主要优势是,它可以大大减少算法开发所需的工作量,因为NAS在每个搜索空间和问题域组合中只需要一次性的工作。此外,虽然最初执行NAS的工作可能在计算上很昂贵,但由此产生的模型可以大大减少下游研究和生产环境中的计算,从而大大减少整体资源需求。例如,为了发现演化Transformer(EvolvedTransformer)而进行的一次性搜索只产生了3.吨的COe,但是生成了一个供NLP社区中的任何人使用的模型,该模型比普通的Transformer模型的效率高15-0%。最近对NAS的使用发现了一种更高效的体系结构Primer(开源),与普通的Transformer模型相比,它降低了4倍的训练成本。通过这种方式,NAS搜索的发现成本通常可以通过使用发现的更高效的模型体系结构得到补偿,即使它们只应用于少数下游任务。
图丨与普通的Transformer模型相比,NAS发现的Primer架构的效率是前者的4倍。这幅图(红色部分)显示了Primer的两个主要改进:深度卷积增加了注意力的多头投影和squaredReLU的激活(蓝色部分表示原始Transformer)。
NAS还被用于发现视觉领域中更有效的模型。EfficientNetV模型体系结构是神经体系结构搜索的结果,该搜索联合优化了模型精度、模型大小和训练速度。在ImageNet基准测试中,EfficientNetV提高了5到11倍的训练速度,同时大大减少了先前最先进模型的尺寸。CoAtNet模型架构是通过一个架构搜索创建的,该架构搜索采用了视觉Transformer和卷积网络的想法,以创建一个混合模型架构,其训练速度比视觉Transformer快4倍,并取得了新的ImageNet技术水平。
图丨与之前的ImageNet分类模型相比,EfficientNetV获得了更好的训练效率。
搜索的广泛应用有助于改进ML模型体系结构和算法,包括强化学习(RL,ReinforcementLearning)和进化技术(evolutionarytechniques)的使用,激励了其他研究人员将这种方法应用到不同的领域。为了帮助其他人创建他们自己的模型搜索,我们有一个开源的模型搜索平台,可以帮助他们探索发现其感兴趣的领域的模型搜索。除了模型架构之外,自动搜索还可以用于发现新的、更有效的强化学习算法,这是在早期AutoML-Zero工作的基础上进行的,该工作演示了自动化监督学习算法发现的方法。
稀疏的使用:
稀疏性是算法的另一个重要的进步,它可以极大地提高效率。稀疏性是指模型具有非常大的容量,但对于给定的任务、示例或token,仅激活模型的某些部分。年,我们推出了稀疏门控专家混合层(Sparsely-GatedMixture-of-ExpertsLayer),在各种翻译基准上展示了更好的性能,同时在计算量上也保持着一定的优势,比先前最先进的密集LSTM模型少10倍。最近,SwitchTransformer将专家混合风格的架构与Transformer模型架构结合在一起,在训练时间和效率方面比密集的T5-BaseTransformer模型提高了7倍。GLaM模型表明,Transformer和混合专家风格的层可以组合在一起,可以产生一个新的模型。该模型在9个基准线上平均超过GPT-3模型的精度,使用的训练能量减少3倍,推理计算减少倍。稀疏性的概念也可以用于降低核心Transformer架构中注意力机制的成本。
图丨BigBird稀疏注意模型由全局tokens(用于处理输入序列的所有部分)、局部tokens(用于处理输入序列的所有部分)和一组随机tokens组成。从理论上看,这可以解释为在Watts-Strogatz图上添加了一些全局tokens。
就计算效率而言,在模型中使用稀疏性显然是一种具有很高潜在收益的方法,而就在这个方向上进行尝试的研究想法而言,我们只是触及了表面。
这些提高效率的方法中的每一种都可以结合在一起,这样,与美国平均使用PGPUs训练的基线Transformer模型相比,目前在高效数据中心训练的等效精度语言模型的能源效率提高了倍,产生的COe排放量减少了倍。这甚至还没有考虑到谷歌的碳中和(carbonneutral),%的可再生能源抵消。
趋势3:机器学习正变得对个人和社区更加有益
随着ML和硅硬件(如Pixel6上的GoogleTensor处理器)的创新,许多新体验成为可能,移动设备能够更持续有效地感知上下文和环境。这些进步提高了设备的可访问性和易用性,同时计算能力也有提升,这对于移动摄影、实时翻译等流行功能至关重要。值得注意的是,最近的技术进步还为用户提供了更加个性化的体验,同时加强了隐私保护。
人们比以往任何时候都依赖他们的手机摄像头来记录日常生活和创作灵感。机器学习在计算摄影中的巧妙应用提升了手机相机的功能,使它们更易于使用,产生了更高质量的图像。一些先进的技术,如改进的HDR+,在弱光下的拍摄能力,更好的人像处理功能,及更大的包容性使得手机摄像可以更真实地反映拍摄对象。GooglePhotos中基于机器学习的强大工具如MagicEraser等还能进一步优化照片。
除了用手机进行创造外,许多人还依赖手机与他人实时跨语言沟通,例如在打电话时使用LiveTranslate和LiveCaption。由于自我监督学习(self-supervisedlearning)和有噪音的学生训练(noisystudenttraining)等技术,语音识别准确率持续改善。对有口音的语音、嘈杂的语音或重叠语音等有明显的改善。在文本到语音合成的进步基础上,人们可以使用谷歌朗读技术ReadAloud在越来越多的平台上收听网页和文章,使获取信息更加便宜,跨越了模态和语言的障碍。通过稳定生成的即时翻译,谷歌翻译(GoogleTranslate)的实时语音翻译水平显著改善。高质量的语音翻译在多语言交流时提供了更好的用户体验。在Lyra语音编解码器和Soundstream音频编解码器中,机器学习与传统编解码器方法相结合使语音、音乐和其他声音能够以低得多的比特率保真地传送。
智能文本选择(SmartTextSelection)等工具得到了改进,它可以自动选择电话号码或地址等信息,以便复制和粘贴。此外,ScreenAttention可以防止手机屏幕变暗,凝视识别技术有所的改进。机器学习还让人们的生活更加安全。例如,SuspiciousMessageAlerts对可能的网络钓鱼攻击提出预警,SaferRouting提出更加安全的替代路线。
考虑到这些功能使用数据的敏感性,把它们默认设置为不共享是很重要的。以上提到的许多功能都在Android的PrivateComputeCore中运行。这是一个开源的、安全的环境,与操作系统的其余部分隔离开。Android确保未经用户同意,不会将在PrivateComputeCore中的数据共享给任何应用程序。Android还阻止PrivateComputeCore的任何功能直接访问网络。功能通过一小部分开源API与PrivateComputeServices进行通信,这样就能剔除身份敏感信息并使用联邦学习、联邦分析和私人信息检索等功能保护隐私。
这些技术对于发展下一代计算和交互范例至关重要,个人或公共设备需要在不损害隐私的情况下学习并帮助训练(算法)模型。联邦的无人监督学习方法,可以创造出越来越智能的系统。这些系统的交互更加直观,更像是一个社交实体,而不是一台机器。只有对我们的技术进行深刻变革,才有可能广泛而公平地拥有这些智能系统,让它们支持神经计算。
趋势4:机器学习在科学、健康和可持续发展方面的影响越来越大
近年来,我们看到机器学习在物理、生物等基础科学科的影响越来越大,在可再生能源和医学等领域也有许多令人兴奋的应用。计算机视觉模型对个人和全球问题都有所功效。它们可以帮助医生进行工作,扩大我们对神经生理学的理解,还可以提供更好的天气预报,加快救灾工作。其他类型的机器学习模型能发现减少碳排放和提高替代能源产量的方法,在应对气候变化方面至关重要。这样的模型甚至可以作为艺术家的创作工具!随着机器学习变得更加强健(鲁棒)和完善,它在的应用潜力继续扩大,有助于解决我们面临的一些最具挑战性的问题。
计算机视觉提供新的洞察力:
在过去的十年里,计算机视觉的进步使计算机能够完成不同科学领域的各种任务。在神经科学中,自动重建技术可以从脑组织薄片的高分辨率电子显微镜图像中重现脑组织的神经连接结构。前些年,谷歌为研究果蝇、老鼠的大脑创造了这样的资源,去年,我们与哈佛大学的利希特曼实验室(LichtmanLab)合作,进行了第一次大规模的人类皮质突触连接研究。该研究跨越了所有皮层的多个细胞类型。这项工作的目标是帮助神经科学家研究令人惊叹的人类大脑。例如,下图显示了成人大脑中约亿个神经元中的6个。
计算机视觉技术还提供了强大的工具来应对全球挑战。基于深度学习的天气预报方法用卫星和雷达图像作为输入,结合其他大气数据,产生比传统的基于物理的模型更准确的天气和降水预报,预报时间长达1小时。它们还可以比传统方法更快地产生更新的预报,这在极端天气时期可能是至关重要的。
拥有准确的建筑足迹记录对于从人口估计和城市规划到人道主义响应和环境科学的一系列应用都是至关重要的。在世界上的许多地方,包括非洲的大部分地区,这一信息以前是无法获得的,但新的研究表明,将计算机视觉技术应用于卫星图像可以帮助识别大陆范围内的建筑边界。这一方法的结果已在开放建筑数据集中发布,这是一种新的开放获取的数据资源,其中包含5.16亿座覆盖非洲大陆大部分地区的建筑的位置和占地面积。我们还能够在与世界粮食计划署的合作中使用这一独特的数据集,通过ML的应用提供自然灾害后的快速损失评估。
在健康领域的应用:
除了推进基础科学,人工智能还可以在更广泛的范围内为医学和人类健康做出贡献。在健康领域利用计算机科学并不是什么新鲜事。但机器学习打开了新的大门,带来了新的机遇和挑战。
以基因组学领域为例。计算机从一开始就对基因组学很重要,但是机器学习增加了新的功能并颠覆了旧的模式。当谷歌的研究人员探索这一领域的工作时,许多专家认为利用深度学习来推断基因变异的想法是牵强的。如今,这种机器方法被认为是最先进的。谷歌发布的开源软件DeepConsensus以及与加州大学洛杉矶分校(UCSC)合作的Pepper-DeepVariant提供了尖端的信息学支持。我们希望更多的快速测序可以在近期进入实际应用领域,并对患者产生实际影响。
以基因组学领域为例。计算技术一直对基因组学非常重要,但机器学习方法改变了之前的旧模式,并增添了新的功能。最初,谷歌的研究人员使用机器学习在该领域展开研究时,许多专家认为使用深度学习技术从测序仪中推断是否存在基因变异的想法是不可行的。但如今,机器学习是最先进的研究方法。并且未来机器学习将扮演更重要的角色,比如基因组学公司正在开发更精确、更快的新测序仪,它需要匹配更好的推理能力。我们也发布了DeepConsensus开源软件,以及与UCSC合作的PEPPER-DeepVariant,为这些新仪器提供最前沿的信息学支持。我们希望这些性能更强的测序仪可以尽快应用在实际患者中并产生有益影响。
图丨DeepConsensus中的Transformer结构示意图,它可以纠正测序错误,提高准确率。
机器学习也可以在处理测序数据之外起作用,比如使用机器学习加速个性化健康的基因组信息建设。广泛表型和测序个体的大型生物样本库的建立,可以彻底改变我们理解和管理疾病遗传易感性的方式。基于机器学习的表型方法可以提高将大型图像和文本数据集转换为可用于遗传相关研究表型的可扩展性,并且DeepNull也可以利用大型表型数据进行遗传研究。我们也很高兴将这两种开源方法公布给科学界。
图丨根据生物样本库中的基因组数据,生成的解剖学和疾病性状的大规模量化过程
正如机器学习可以帮助我们看到基因组数据中的隐藏特征一样,它也可以帮助我们从其他健康数据类型中发现并收集新信息。疾病的诊断通常包括模式识别、关系量化和在大量类别中识别出新实例等任务,而这些都是机器学习擅长的。谷歌的研究人员已经使用机器学习来解决各种各样的问题,但也许没有一个问题比它在医学成像中的应用有更大进展。
谷歌在年发表了一篇关于深度学习在糖尿病视网膜病变筛查中应用的论文,被《美国医学会杂志》(JAMA)的编辑选为十年来最具影响力的十大论文之一。这意味着它不仅在机器学习和健康方面具有广泛影响力,并且也是十年来最具影响的JAMA论文之一。而且我们的研究影响并不仅限于对论文,而是扩展到现实世界中建立系统的能力。通过我们的全球合作伙伴网络,该项目已经帮助印度、泰国、德国和法国的数万名患者进行疾病筛查,否则他们自己可能没有能力接受这种威胁视力疾病的检测。
我们希望看到更多机器学习辅助系统的部署,以应用到改善乳腺癌筛查、检测肺癌、加速癌症放射治疗、标记异常x光和对前列腺癌活检分级上。机器学习为每个领域都提供了新的帮助。比如机器学习辅助的结肠镜检查,就是一个超越了原有基础的例子。结肠镜检查不仅仅只是诊断结肠癌,还可以在手术过程中切除息肉,是阻止疾病发展和预防严重疾病的前沿阵地。在该领域中,我们已经证明机器学习可以帮助确保医生不遗漏息肉,帮助检测难以发现的息肉,还可以增加维度来提高准确度,例如应用同步定位和绘图技术。在与耶路撒冷ShaareZedekMedicalCenter医疗中心的合作中,实验证明这些系统可以实时工作,平均每次手术可以检测到一个可能会漏检的息肉,而且每次手术的错误警报少于4次。
图丨对(A)一般异常、(B)结核病和(C)COVID-19的真阳性、假阳性以及真阴性、假阴性的胸部X光片(CXR)进行采样。在每张CXR中,红色的轮廓表示模型识别时