Transformer

本文来自于 OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的一篇访谈。内容涵盖了从 Transformer 模型到新一代推理模型的范式转变，探讨了 AI 发展的瓶颈、AGI 的概念以及 AI 对科学和社会可能产生的深远影响。主要观点 AI 发展的范式转变：当前 AI 领域正在经历一次重大的范式转变，从仅仅通过扩大模型规模和数据量来提升性能（Transformer 范式），转向了更为先进的“推理模型”（Reasoning Models）范式。这种新范式正处于高速发展初期，预示着 AI 能力将迎来新一轮的飞跃。推理模型是未来的关键：与传统的大语言模型（LLM）不同，推理模型通过内部“思考”过程、调用外部工具（如网络搜索、代码执行）来解决复杂问题。它们不仅更加强大，而且数据效率极高，能够从更少的数据中学习，并大幅减少“幻觉”现象。 AI 的发展瓶颈与未来趋势：AI 的发展速度并未放缓，未来一到两年内甚至可能出现“非常急剧的进步”。当前最主要的瓶颈是 GPU 计算资源和能源的短缺。未来，AI 将能够执行越来越多在计算机上完成的复杂任务，尤其是在编程领域，这将深刻影响就业市场。对 AGI 和社会影响的思考：与其纠结于 AGI（通用人工智能）的定义，不如关注 AI 在现实世界中的实际影响和能力。AI 的发展为科学研究带来了巨大机遇，有望加速人类的科学发现进程。然而，这也带来了社会挑战，需要整个社会共同努力，确保技术被负责任地使用，避免重蹈社交媒体的覆辙。关键细节 Transformer 的诞生：2017 年的论文《Attention Is All You Need》引入了 Transformer 架构，这是一个历史性的突破，为后来的生成式 AI 奠定了基础。Łukasz Kaiser 是该论文的八位作者之一。推理模型的运作方式：推理模型在生成最终答案前，会进行一系列不向用户展示的内部思考步骤（Chain of Thought）。它们可以通过调用工具来获取实时信息或执行任务，例如使用网络搜索验证事实，或运行 Python 代码进行计算。这种模型通过强化学习（Reinforcement Learning）进行训练，使其能够从错误中学习并优化解决问题的策略。 AI 发展的限制因素：所有顶尖 AI 实验室都面临 GPU 资源不足的问题，这限制了更强大模型的训练和向公众提供服务的能力。 OpenAI 的 CEO Sam Altman 正在努力获取尽可能多的计算资源，因为研究人员确信能够有效利用这些资源来推动 AI 的进步。 AI 在任务自动化上的进展： AI 在编程领域的进步尤为惊人。像 OpenAI 的 Codex 和 Anthropic 的 Claude 这样的模型已经可以编写大型程序、进行代码审查、发现漏洞，极大地提升了开发效率。预计在不久的将来，AI 将能胜任大部分在计算机上进行的任务。 AI 的社会责任与商业模式： Łukasz Kaiser 强调，OpenAI 致力于通过订阅模式而非广告模式来盈利，旨在避免优化“用户参与度”而带来的负面社会影响。他认为，如何正确使用 AI 是整个社会的责任，需要政府、企业和公众共同参与，以确保其发展最终造福人类。原文如果你关注人工智能，2017年绝对是一个无法绕开的年份。那一年，一篇名为《Attention Is All You Need》的论文横空出世，介绍了后来引爆生成式AI革命的Transformer架构。这篇论文注定会载入史册，而Łukasz Kaiser，就是这篇论文的八位作者之一。...

前段时间看了一些transformer相关的文章，但讲解的都不太清楚，想着还是读一读论文理解起来更加深刻，所以翻译了这篇Attention Is All You Need。论文中的作者贡献是相同的，而名单的排列顺序是随机的。Jakob 提出了用自注意力机制替换循环神经网络 (RNN) 的想法，并开启了验证这一构想的工作。Ashish 与 Illia 共同设计并实现了首个 Transformer 模型，对这项工作的各个方面都有着至关重要的贡献。Noam 提出了缩放的点积注意力、多头注意力和无需参数的位置表示法，几乎参与了项目的每个细节。Niki 在我们的原始代码库和 tensor2tensor 中设计、实现、调整并评估了无数的模型变种。Llion 也探索了新型模型变种，负责我们最初的代码库、高效的推理和可视化工作。Lukasz 和 Aidan 贡献了无数的时间来设计和实现 tensor2tensor 的各个部分，这不仅取代了我们之前的代码库，还大幅提高了研究结果并极大地加速了我们的研究进展。这些工作是在 Google Brain 和 Google Research 期间完成的。摘要目前主流的序列转换模型依赖于包含编码器和解码器的复杂循环或卷积神经网络体系。这些模型的高性能部分得益于编解码器之间的注意力机制连接。我们提出了一种全新的网络架构——Transformer，这一架构完全基于注意力机制，彻底摒弃了递归和卷积。通过在两个机器翻译任务上的实验，我们发现这些模型在质量上更为优异，且具备更高的并行处理能力，训练时间也大幅缩短。我们的模型在 WMT 2014 年的英德翻译任务上获得了 28.4 的 BLEU 分数，超过了包括集成模型在内的现有最佳结果2个 BLEU 分以上。在 WMT 2014 的英法翻译任务上，我们的模型在仅使用八个 GPU 训练了 3.5 天后，刷新了单模型最高 BLEU 记录，达到了 41.8 分，这仅是文献中最佳模型训练成本的一小部分。我们还证明了 Transformer 能够成功地广泛应用于其他任务，比如英语成分句法分析，无论训练数据是丰富还是有限。 1 简介循环神经网络（RNN）、长短期记忆（LSTM）网络和门控循环单元（GRU）网络，特别是在语言建模和机器翻译等序列建模和转换问题上，已被公认为最先进的技术。从那时起，一直有许多尝试不断地推动循环语言模型和编解码器架构的发展边界。循环模型的计算通常沿着输入和输出序列的符号位置进行分解。它们通过将位置与计算时间的步骤对齐来生成一系列隐藏状态，这些隐藏状态${h_t}$是基于之前的隐藏状态$h_{t-1}$和当前位置t的输入。这种计算的顺序性质限制了训练样本内部的并行处理能力，特别是在处理更长序列时，由于内存限制，这成为一个关键问题。近期的研究通过采用因式分解技巧和条件计算在提高计算效率的同时，也在某些情况下提升了模型的性能。然而，顺序计算的基本限制仍然存在。注意力机制已经成为多个任务中高效序列建模和转换模型的核心部分，它允许模型无视输入或输出序列中依赖关系的距离进行建模。尽管如此，除了少数情况外，注意力机制通常与循环网络结合使用。在本工作中，我们提出了一种新的架构——Transformer，这种架构放弃了递归，完全依靠注意力机制来处理输入和输出之间的全局依赖关系。Transformer架构支持更高程度的并行处理，并且在使用八个 P100 GPU 训练仅12小时后，就能在翻译质量上达到新的最高标准。 2 背景减少顺序计算的目标也是扩展神经GPU、ByteNet 和 ConvS2S等模型的基础，这些模型都采用了卷积神经网络作为基础构件，能够对所有输入和输出位置的隐藏表示进行并行计算。在这些模型中，将两个任意输入或输出位置的信号相关联所需的操作数会随着位置之间的距离增加而增长，对于ConvS2S是线性增长，而对于ByteNet则是对数增长。这增加了学习远距离位置间依赖性的难度。而在Transformer模型中，这种操作数量被减少到了一个固定的数目，虽然这样做降低了有效分辨率，因为它通过平均注意力加权的位置，但我们通过多头注意力机制（如第3.2节所述）来弥补这一点。自注意力Self-attention，也称为内部注意力，是一种注意力机制，通过关联单一序列内不同位置来计算序列的表示。自注意力已经在阅读理解、摘要生成、文本蕴含以及学习独立于任务的句子表示等多种任务上成功应用。端到端记忆网络基于循环注意力机制，而非序列对齐的循环，已在简单的语言问答和语言建模任务上展现了良好的性能。...