Andrej Karpathy 在 AI Ascent 2024 上演讲的核心内容

本文来自 Andrej Karpathy 在红杉组织的 AI Ascent 2024 上的演讲视频,我用 Claude3 opus 提取了 Karpathy 提到的核心观点。 核心观点 目前各家公司都在努力构建一个 “LLM OS”,包括获取外围设备(文本、图像、音频等)作为输入,用LLM作为CPU,并连接到现有的软件基础设施上。未来可能会出现一些默认应用(如 Windows 系统自带的 Edge 浏览器),但也会有一个生机勃勃的生态系统。 目前 LLM 生态系统包括完全开源的模型(如Pythia、LLaMA等)、只开放权重的模型和专有模型。未来可能会类似于操作系统生态(如 Windows系统、Mac系统、Linux操作系统,而Linux 有无数的分发版本)。 规模化训练这些模型非常困难,是一个非常复杂的分布式优化问题。实际上,目前这方面的人才相当稀缺。 模型规模是最重要的,但还需要很多其他细节,如数据集准备、算法优化等。单纯给钱和算力还训练不出 SOTA(“State of the Art"的缩写,意为"最先进"或"最高水平)模型,还需要很多专业知识。 扩散模型和自回归语言模型是概率建模的两种形式,可能存在将二者统一的空间。目前模型能效还比人脑低几个数量级,未来可能的改进方向包括针对性的计算架构、低精度训练、稀疏性等。 马斯克管理公司的特点包括保持团队小而精干、办公室氛围紧张忙碌、鼓励无用会议早退、与基层工程师直接沟通、果断消除瓶颈等。 Karpathy 更关心 AI 生态系统的健康发展,而非某家公司。他希望生态像珊瑚礁一样丰富多彩,对巨头垄断持谨慎态度。 字幕详情 1 00:00:03,190 --> 00:00:06,535 我很高兴介绍我们的下一个也是最后一个演讲者, Andrej Karpathy. 2 00:00:06,894 --> 00:00:08,737 Karpathy可能不需要介绍. 3 00:00:08,797 --> 00:00:11,941 我们大多数人可能在YouTube上长时间观看过他的视频. 4 00:00:12,901 --> 00:00:17,588 他以深度学习研究闻名. 5 00:00:17,667 --> 00:00:22,452 他设计了斯坦福大学的第一个深度学习课程, 是OpenAI创始团队的一员. 6 00:00:23,454 --> 00:00:28,795 领导了特斯拉的计算机视觉团队, 现在又成为一个神秘人物, 因为他刚刚离开了OpenAI....

April 9, 2024 · 11 min · fisherdaddy

如何通过代理提升大语言模型的性能 • Andrew Ng

前段时间看了 Andrew Ng 在红杉组织的AI Ascent 2024 主题活动中的演讲视频,今天正好在 DeepLearning.AI 官方也看到了相关内容,就索性翻译了一下。 我认为,今年 AI agent 的 workflows 将大大推动 AI 的进步,其影响甚至可能超过下一代基础模型的发展。这是一个不容忽视的趋势,我强烈建议所有 AI 领域的工作者都应该重视起来。 目前,我们主要是在零样本模式下使用大语言模型(LLM),即直接提示模型一步步生成最终输出,不进行任何修改。这好比让某人一气呵成地写完一篇文章,不允许回退修改,期望其能写出高质量的作品。尽管这样做颇具挑战,但大语言模型在这方面的表现出奇的好! 然而,通过采用 AI 代理的工作流程,我们可以让 LLM 多次迭代文档。例如,它可能会执行以下一系列步骤: 规划提纲。 确定是否需要进行网络搜索来收集更多信息。 撰写初稿。 复审初稿,寻找不合理的论点或无关的信息。 针对发现的问题修改草稿。 诸如此类的其他步骤。 这种迭代过程是大多数人类写作者撰写优质文本的关键。对于 AI 来说,采用这种迭代的工作流程比一次性完成整篇文章能带来更好的结果。 近期,Devin 的一次引人注目的演示在社交媒体上引发了广泛关注。我们团队一直紧密跟踪代码编写 AI 的发展。我们分析了多个研究团队的成果,重点关注算法在广泛使用的 HumanEval 编码基准上的表现。您可以在下方的图表中看到我们的发现。 GPT-3.5 在零样本模式下的正确率为 48.1%,而 GPT-4 的表现更佳,达到了 67.0%。然而,从 GPT-3.5 到 GPT-4 的进步与采用迭代代理工作流程的提升相比则显得微不足道。实际上,在代理循环的加持下,GPT-3.5 的表现提升至高达 95.1%。 开源代理工具和代理相关的学术文献正迅速增加,这既是一个令人兴奋的时刻,也是一个令人困惑的时期。为了帮助大家更好地理解这项工作,我想分享一个框架,用于对构建代理的设计模式进行分类。我的团队 AI Fund 在许多应用中成功采用了这些模式,我希望它们对你也有帮助。 反思:LLM 审视自己的工作,并提出改进方案。 工具使用:LLM 被赋予工具,比如网络搜索、代码执行等,以帮助其收集信息、采取行动或处理数据。 规划:LLM 设计并执行一个多步骤计划来实现目标(比如,为一篇文章制定提纲,接着进行在线研究,然后撰写草稿等等)。 多代理合作:多个 AI 代理合作,分担任务,讨论和辩论观点,以提出比单一代理更好的解决方案。 反思 也许你曾这样体验过:你向 ChatGPT 、 Claude 或 Gemini 提出请求,结果不尽如人意。之后,你给出关键反馈,帮助模型优化答案,然后它给出了更好的回应。如果我们将提供关键反馈的步骤自动化,让模型能自我批评并优化输出呢?这正是“反思”模式的核心所在。...

April 8, 2024 · 1 min · fisherdaddy