AI Ascent 2024

本文来自 Andrej Karpathy 在红杉组织的 AI Ascent 2024 上的演讲视频，我用 Claude3 opus 提取了 Karpathy 提到的核心观点。核心观点目前各家公司都在努力构建一个 “LLM OS”，包括获取外围设备（文本、图像、音频等）作为输入，用LLM作为CPU，并连接到现有的软件基础设施上。未来可能会出现一些默认应用（如 Windows 系统自带的 Edge 浏览器），但也会有一个生机勃勃的生态系统。目前 LLM 生态系统包括完全开源的模型(如Pythia、LLaMA等)、只开放权重的模型和专有模型。未来可能会类似于操作系统生态（如 Windows系统、Mac系统、Linux操作系统，而Linux 有无数的分发版本）。规模化训练这些模型非常困难，是一个非常复杂的分布式优化问题。实际上，目前这方面的人才相当稀缺。模型规模是最重要的，但还需要很多其他细节，如数据集准备、算法优化等。单纯给钱和算力还训练不出 SOTA（“State of the Art"的缩写，意为"最先进"或"最高水平）模型，还需要很多专业知识。扩散模型和自回归语言模型是概率建模的两种形式，可能存在将二者统一的空间。目前模型能效还比人脑低几个数量级，未来可能的改进方向包括针对性的计算架构、低精度训练、稀疏性等。马斯克管理公司的特点包括保持团队小而精干、办公室氛围紧张忙碌、鼓励无用会议早退、与基层工程师直接沟通、果断消除瓶颈等。 Karpathy 更关心 AI 生态系统的健康发展，而非某家公司。他希望生态像珊瑚礁一样丰富多彩，对巨头垄断持谨慎态度。字幕详情 1 00:00:03,190 --> 00:00:06,535 我很高兴介绍我们的下一个也是最后一个演讲者, Andrej Karpathy. 2 00:00:06,894 --> 00:00:08,737 Karpathy可能不需要介绍. 3 00:00:08,797 --> 00:00:11,941 我们大多数人可能在YouTube上长时间观看过他的视频. 4 00:00:12,901 --> 00:00:17,588 他以深度学习研究闻名. 5 00:00:17,667 --> 00:00:22,452 他设计了斯坦福大学的第一个深度学习课程, 是OpenAI创始团队的一员. 6 00:00:23,454 --> 00:00:28,795 领导了特斯拉的计算机视觉团队, 现在又成为一个神秘人物, 因为他刚刚离开了OpenAI....

前段时间看了 Andrew Ng 在红杉组织的AI Ascent 2024 主题活动中的演讲视频，今天正好在 DeepLearning.AI 官方也看到了相关内容，就索性翻译了一下。我认为，今年 AI agent 的 workflows 将大大推动 AI 的进步，其影响甚至可能超过下一代基础模型的发展。这是一个不容忽视的趋势，我强烈建议所有 AI 领域的工作者都应该重视起来。目前，我们主要是在零样本模式下使用大语言模型（LLM），即直接提示模型一步步生成最终输出，不进行任何修改。这好比让某人一气呵成地写完一篇文章，不允许回退修改，期望其能写出高质量的作品。尽管这样做颇具挑战，但大语言模型在这方面的表现出奇的好！然而，通过采用 AI 代理的工作流程，我们可以让 LLM 多次迭代文档。例如，它可能会执行以下一系列步骤：规划提纲。确定是否需要进行网络搜索来收集更多信息。撰写初稿。复审初稿，寻找不合理的论点或无关的信息。针对发现的问题修改草稿。诸如此类的其他步骤。这种迭代过程是大多数人类写作者撰写优质文本的关键。对于 AI 来说，采用这种迭代的工作流程比一次性完成整篇文章能带来更好的结果。近期，Devin 的一次引人注目的演示在社交媒体上引发了广泛关注。我们团队一直紧密跟踪代码编写 AI 的发展。我们分析了多个研究团队的成果，重点关注算法在广泛使用的 HumanEval 编码基准上的表现。您可以在下方的图表中看到我们的发现。 GPT-3.5 在零样本模式下的正确率为 48.1%，而 GPT-4 的表现更佳，达到了 67.0%。然而，从 GPT-3.5 到 GPT-4 的进步与采用迭代代理工作流程的提升相比则显得微不足道。实际上，在代理循环的加持下，GPT-3.5 的表现提升至高达 95.1%。开源代理工具和代理相关的学术文献正迅速增加，这既是一个令人兴奋的时刻，也是一个令人困惑的时期。为了帮助大家更好地理解这项工作，我想分享一个框架，用于对构建代理的设计模式进行分类。我的团队 AI Fund 在许多应用中成功采用了这些模式，我希望它们对你也有帮助。反思：LLM 审视自己的工作，并提出改进方案。工具使用：LLM 被赋予工具，比如网络搜索、代码执行等，以帮助其收集信息、采取行动或处理数据。规划：LLM 设计并执行一个多步骤计划来实现目标（比如，为一篇文章制定提纲，接着进行在线研究，然后撰写草稿等等）。多代理合作：多个 AI 代理合作，分担任务，讨论和辩论观点，以提出比单一代理更好的解决方案。反思也许你曾这样体验过：你向 ChatGPT 、 Claude 或 Gemini 提出请求，结果不尽如人意。之后，你给出关键反馈，帮助模型优化答案，然后它给出了更好的回应。如果我们将提供关键反馈的步骤自动化，让模型能自我批评并优化输出呢？这正是“反思”模式的核心所在。...

AI Ascent 2024

Andrej Karpathy 在 AI Ascent 2024 上演讲的核心内容

如何通过代理提升大语言模型的性能 • Andrew Ng