Skip to content
On this page

什么是 Transformer 模型?

原文: What Is a Transformer Model?

Transformer模型是一种神经网络,通过跟踪顺序数据中元素之间的关系(如本句中的单词)来学习上下文并理解其含义。Transformer模型应用一组不断发展的数学技术,称为注意力或自注意力,以检测一系列序列数据中的数据元素相互影响和依赖的微妙方式。

Transformers 在谷歌2017年的一篇论文中被首次描述,是迄今为止最新和最强大的模型之一。它们正在推动被部分人称之为Transformer AI 的机器学习进步浪潮。斯坦福大学的研究人员在 2021 年 8 月的一篇论文中称 Transformers 为“基础模型”,因为他们认为这类模型推动了人工智能的范式转变。文章写道:“过去几年基础模型的庞大规模和影响范围扩展了我们对可能性的想象。

Transformer 模型可以做什么?

Transformer 模型能够实现近实时的文本和语音翻译,为各种各样的听障人士和参会者打开了会议和教室的大门。

它们正在帮助研究人员了解DNA中的基因链和蛋白质中的氨基酸链,从而加速药物设计。

Transformer Model(有时称为基础模型)已经与多种数据源一起用于许多应用程序。

Transformer Model(有时称为基础模型)已经与多种数据源一起用于许多应用程序。

它们还可以检测趋势和异常以防止欺诈,简化制造流程,进行智能化推荐或改善医疗保健。

事实上,人们每次在谷歌或微软的必应上搜索时都会用到 Transformers。

Transformer AI的良性循环

任何使用连续文本、图像或视频数据的应用程序都有机会用到 Transformer模型。这使得这些模型能够在Transformer AI 中形成良性循环。由大数据集创建的 Transfomers 能够进行准确的预测,推动它们更广泛的使用,从而生成更多可用于创建更好模型的数据。

斯坦福大学的研究人员表示,Transformer标志着人工智能发展的下一个阶段,有人称之为Transformer人工智能时代。

斯坦福大学的研究人员表示,Transformer标志着人工智能发展的下一个阶段,有人称之为Transformer人工智能时代。

“Transformers 使自监督学习成为可能,人工智能跃升到曲速(超光速),” NVIDIA创始人兼首席执行官黄仁勋在GTC的主题演讲中表示。

Transformers 替代 CNNs, RNNs

在很多情况下,Transformers 正在取代卷积和循环神经网络(CNN和RNN),它们是五年前最流行的深度学习模型。然而在过去两年中发布的关于人工智能的arXiv论文中,有 70%提到的是Transformers ,这与2017年IEEE的一项研究相比发生了根本性的变化,该研究称RNN和CNN是最受欢迎的模式识别模型。

无需打标签,性能更好

在Transformers 之前,用户必须使用大型标记数据集来训练神经网络,这些数据集的生成既昂贵又耗时。通过以数学方式查找元素之间的模式,Transfomers 消除了这种需求,使得在网络和企业数据库中的数万亿的图像和PB级的文本数据变得可用。此外,Transformers 使用的数学运算有助于并行处理,因此这些模型可以更快速地运行。现在, Transformers 主导着 SuperGLUE 等主流性能排行榜,SuperGLUE是一个于2019年开发的用于语言处理系统的基准测试。

Transformer 如何实现注意力

像大多数神经网络一样,Transformer 模型基本上是处理数据的大型编码器/解码器块。对这些块做小且策略性的补充(如下图所示)使得 Transformers 具备了独特的功能。

从Aidan Gomez的演示中,我们可以深入了解 Transformers的定义,他是2017年论文的八位合著者之一

从Aidan Gomez的演示中,我们可以深入了解 Transformers的定义,他是2017年论文的八位合著者之一

Transformer 使用位置编码器对进出网络的数据元素做出标记。注意力单元按照这些标记进行计算,从而得到每个元素与其他元素之间关系的一种代数映射。注意力查询通常通过计算所谓的多头注意力方程矩阵来并行执行。

有了这些工具,计算机能够看到我们人类看到的模式。

通过自注意力寻找意义

举个例子

她把水从壶里倒到杯子里,直到它装满为止

我们知道这里的它是指杯子,再看下面这句话

她把水从壶里倒到杯子里,直到它变空为止

这里的它我们知道是茶壶

“意义是事物之间相互关系的结果,自注意力是学习关系的一般方式,”谷歌大脑前高级研究科学家Ashish Vaswani 说,他领导了2017年开创性论文的工作。“机器翻译是验证自注意力的好工具,因为你需要单词之间的短距离和长距离关系,” Vaswani说,“现在我们看到自我关注是一种强大而灵活的学习工具,” 他补充到。

为什么叫Transformer?

注意力对 Transformer 来说是如此关键,谷歌研究人员差点使用这个词作为他们2017年模型的名称。但注意力网络听起来不够惊艳,“ Vaswani 回忆到。 团队的高级软件工程师Jakob Uszkoreit提出了Transformer这个名字,“ 我辩称到我们正在改变表征(transforming representations),但这不过是文字游戏,“ Vaswani 说。

Transforms的诞生

在2017年NeurIPS会议的论文中,谷歌团队描述了他们的Transformer 及其为机器翻译达成的准确性记录。由于有很多成熟的技术,他们在八个 NVIDIA GPU 上仅用了 3.5 天就在包含多达十亿对单词的数据集上训练出了他们的模型。与训练先前的模型相比, 这次只花了很少的时间和成本。

2017年为这项工作做出贡献的谷歌实习Aidan Gomez(他现在是初创公司Cohere的首席执行官,该公司提供基于Transformer的语言处理服务)回忆到,“论文提交前的三个月是一个紧张的冲刺阶段,”, 回忆道。我们提交的那天晚上,Ashish和我在谷歌通宵达旦,我在一个小会议室里睡了几个小时,我醒来正好赶上提交,这时有人早早上班打开门,撞到了我的头。Ashish 那天晚上告诉我,他确信这将是一件改变游戏规则的大事。但我不以为然,我认为回报不过是一个更好的基准测试结果,但事实证明他是正确的。“

机器学习的重要时刻

Vaswani 在看到他们的模型结果超过Facebook团队使用CNN发表的类似工作时,他感到非常兴奋。” 我可以看到这可能是机器学习的一个重要时刻,“ 他说。

一年后,另一个谷歌团队尝试使用 Transformer 分别向前和向后处理文本序列,这有助于捕捉更多单词之间的关系,提高模型理解句子含义的能力。他们的双向编码器Transformer(BERT)模型刷新了11项全新纪录,并成为Google搜索背后算法的一部分。短短几周内,世界各地的研究人员开始在许多语言和行业中应用BERT,因为“文本是公司最常见的数据类型之一”,机器学习研究资深专家 Anders Arpteg 说道。

让Transformer 工作起来

很快 Transformer 模型被应用于科学和医疗领域。来自伦敦的 DeepMind 使用名为 AlphaFold2 的Transformer,以一种近期在《自然》杂志上描述的方式,推进了对蛋白质(生命的基本构建块)的理解。它将氨基酸链处理为文本字符串,为描述蛋白质如何折叠设定了新的参考标准,这项工作可以加快药物发现的速度。阿斯利康和英伟达开发了MegaMolBART,这是一种专门用于药物发现的Transformer。这是制药公司的 MolBART Transfomer 的一个版本,使用NVIDIA Megatron框架对一个大型的未标记化合物数据库进行训练,以构建大规模的Transfomer模型。

解读分子和医疗记录

去年 MegaMolBART 项目宣布时,阿斯利康的分子AI、发现科学和研发部门主管 Ola Engkvist 表示:“就像AI语言模型可以学习句子中单词之间的关系,我们的目标是让基于分子结构数据进行训练的神经网络能够学习现实世界分子中原子之间的关系。”

佛罗里达大学学术卫生中心与NVIDIA研究人员合作,创建了GatorTron Transformer 模型,旨在从大量临床数据中提取见解,以加快医学研究。

逐渐变大的Transfomer

一路走来,研究人员发现更大的 Transfomer 表现更好。例如,慕尼黑工业大学Rostlab的研究人员在人工智能和生物学的交叉领域开展了先驱性工作,他们使用自然语言处理来理解蛋白质。在18个月内,他们从使用具有9000万参数的RNN模型毕业,转而使用拥有5.67亿参数的Transformer模型。

Rostlab 的研究人员展示了未经标记样本训练的语言模型捕捉到蛋白质序列的信号。

Rostlab 的研究人员展示了未经标记样本训练的语言模型捕捉到蛋白质序列的信号。

OpenAI 实验室展示了其生成预训练Transformer(GPT)“大就是好”的理念。最新版本GPT-3拥有1750亿个参数,而GPT-2只有15亿个参数。凭借额外的庞大规模,即使是那些它没有经过特别训练的任务,GPT-3也能够回应用户的查询。GPT-3 已经被包括思科、IBM和Salesforce在内的公司所使用。

Mega Transformer 的故事

在模型参数规模上,NVIDIA和Microsoft在11月创下新高度,宣布了拥有5300亿参数的Megatron-Turing 自然语言生成模型(MT-NLG)。该模型与新的框架NVIDIA NeMo Megatron一起亮相,旨在让任何企业都能创建自己的亿级或万亿级参数的Transformer,以驱动能理解语言的自定义聊天机器人、个人助手和其他人工智能应用。MT-NLG 作为虚拟黄仁勋的大脑首次公开亮相,并在 NVIDIA 的 2021 年 11 月 GTC 上发表了部分主题演讲。

“当我们看到虚拟黄仁勋回答问题——通过我们的CEO展示出我们的工作成果——那是令人兴奋的,” 领导训练该模型的NVIDIA团队的Mostofa Patwary说道。” 创造这样的模型并非易事。MT-NLG是通过使用数百亿个数据元素进行训练的,这个过程需要成千上万个GPU运行数周。训练大型Transformer 模型是昂贵和耗时的,因此,如果出现一两次尝试不成功,项目就可能会被取消。“

万亿级参数模型

如今,许多AI 工程师正在开发万亿级参数的Transformer及其应用。“我们不断探索如何通过大型模型提供更好的应用程序。我们同时还深入分析失败的方面,以便我们可以构建更好、更大的模型,” Patwary说。

为了满足模型所需算力,我们最新的加速器——NVIDIA H100 Tensor Core GPU——配备了Transformer Engine,并支持新的FP8格式。这样可以在保持准确性的同时加速训练。黄在GTC上表示:“Transformer模型的训练时间可以从几周缩短到几天”。

混合专家(MoE) 架构 的Transformer

去年,Google研究人員介绍了Switch Transformer,這是第一個拥有万亿参数的模型。它利用AI稀疏性、复杂的混合专家(MoE)架构和其他先进技术,提升了语言处理性能,使预训练速度提高了7倍之多。

Switch Transformer的编码器是第一个具有高达一万亿个参数的模型。

Switch Transformer的编码器是第一个具有高达一万亿个参数的模型。

微软Azure与NVIDIA合作为其翻译服务实现了MoE(Mixture-of Experts) Transfomer。

应对Transformer的挑战

现在,一些研究人员旨在开发具有较少参数的更简单的Transfomer,以提供接近大模型的表现。 Cohere的Gomez表示:“我看到了检索模型中的潜力,非常兴奋,因为它们可以降低应用门槛”,并以DeepMind的Retro模型为例。检索模型通过向数据库提交查询来进行学习。“这很酷,因为你可以挑选放入知识库中的内容,”他说。

在追求更高性能的竞赛中,Transformer 模型变得更加庞大。

在追求更高性能的竞赛中,Transformer 模型变得更加庞大。

最终目标是“让这些模型像人类一样,从现实世界的环境中通过很少的数据进行学习,” Vaswani说道。他想象未来的模型会在前期进行更多计算,这样就需要更少的数据,并且拥有更好的用户反馈途径。在谈到他的创业项目时Vaswani说 “我们的目标是建立能够在人们日常生活中帮助他们的模型。”

安全负责的模型

其他研究人员正在研究方法,以消除模型放大错误或有害语言的偏见或毒性。例如,斯坦福大学创建了基础模型研究中心来探索这些问题。

在这个领域工作的行业内众多研究人员之一,英伟达的研究科学家Shrimai Prabhumoye表示:“解决这些问题对于模型的安全部署是非常重要的。” Prabhumoye补充说:“今天,大多数模型只是寻找某些特定的单词或短语,但在现实生活中,这些问题可能以微妙的方式出现,所以我们必须考虑整个上下文。”“这也是Cohere的首要关注点,”Gomez说。“如果这些模型会伤害人们,那么没有人会使用它们,所以制造最安全和最负责任的模型是基本前提”。

超越极限

Vaswani 想象着一个未来,那里自学习、注意力驱动的Transformer 已接近人工智能的终极形态。"我们有机会实现人们在创造术语'通用人工智能'时谈论的一些目标,我觉得那个方向非常鼓舞人心,"他说,"我们正处于一个像神经网络这样的简单方法能我们提供新功能爆炸式增长的时代。“

使用NVIDIA H100 GPU可以显著加速Transformer的训练和推断。

使用NVIDIA H100 GPU可以显著加速Transformer的训练和推断。