o1 研发团队访谈

Hyung Won Chung：o1 是个推理模型，它在回答你的问题之前会做更多思考。我们将发布两个模型：o1 preview，还有采用了与 o1 相似的训练框架、更小更快的 o1 mini
什么是推理？Giambattista Parascandolo：可以这么理解：对于一些需要立即回答的简单问题，例如，「意大利的首都是哪里？」，不用想太多，就知道答案是罗马。但是如果想要解一个复杂的谜题、想精心策划一份商业企划书、或者想写小说，那可能需要很多思考。想得越多，可能成果越好。因此，可以说推理是一种把思考时间转化为更好成果的能力。
Mark Chen：很难确切指出 o1 是从哪个具体的时刻开始的。最早和 Yakob 进行了一些探索，后来又和Łukasz 和 Ilya 进行了早期的探索。关键时刻是 Jerry 一起整合了这些内容，并由 Jerry 来推动项目。
Trapit Bansal：当我们开始考虑要训练一个推理模型时，我最先想到的方法就是，可以让人类写下他们的思维过程，然后以此进行训练。我的「Aha Moment」是当我们发现，通过使用强化学习来训练模型生成和打磨它自己的思维链，效果竟然比让人类为其写下思维链更好。我们意识到可以真正扩展这个方法，并且专家模型也可以通过这种方式进行推理。
Jerry Tworek：从本质上讲，训练大型模型是非常困难的事情，有成千上万的事情可能出错，实际在每一轮训练中至少有数百个地方确实出错了。几乎每个人都投入了大量的心血、汗水和眼泪去训练这些模型，并想办法让它们继续学习和改进。通向成功的道路非常狭窄，而失败的可能性却很多。
Ilge Akkaya：这个模型非常优秀，很多时候甚至表现得比人类还要好，就像拥有好几个博士学位的水平。但这有时也是一种挑战，因为我们经常需要验证模型是否没有偏离轨道，或者是否在做一些不合理的事情。随着模型规模的扩大，这开始变得非常耗时；我们已经用尽了所有行业级资源，但我们不知道接下来应该找什么，所以这也是一个挑战。
Jason Wei：对我来说，我喜欢把 o1 当作一个头脑风暴的伙伴，从解决某个非常具体的机器学习问题到如何写一篇博客都适用。比如，我最近写了一篇关于语言模型评估的博客，我向 o1 询问了有关博文结构的想法、某些基准测试的优缺点，甚至包括写作风格的建议。因为它在给出最终答案之前会思考，更好地更好地连接起思路，它还可以修改和评估备选的方案。
Jakub Pachocki：每次我们将某件事扩大一个数量级时，都会遇到一组新的问题 —— 包括算法和基础设施方面的问题 ——OpenAI 无疑已经发展出了同时解决这两个方面问题的强大能力。
Hongyu Ren：我们的动机是希望将 o1 系列带给更多的用户，并降低成本。因此，我们创建了 o1 Mini，它的设计目的是展示整个 o1 框架的简化版本。我们让它成为一个推理专家，它可能不一定知道你最喜欢的名人的生日，但它确实能够非常有效地理解如何进行推理。它比我们之前最好的推理模型要聪明得多，并且几乎与我们最好的模型 o1 持平。它确实有一些限制，比如可能不知道很多外界的信息，尤其是与科学或技术无关的内容。但我们努力让它大致与我们之前最好的模型（如 GPT-4o mini）相当。我们正在进一步改进它，我非常期待外部用户能够尝试体验这种「闪电般」的推理和思维。

原文：https://www.thepaper.cn/newsDetail_forward_28821226

o1 研究团队三位核心技术人（Noam Brown、Hunter Lightman、Ilge Akkaya）对话红杉美国合伙人

o1 模型系列使用了强化学习，能够进行推理，或者你也可以称之为“思考”。它与我们过去使用的大型语言模型有本质上的不同。
我们从一开始就相信这一方向有潜力，但实际走到今天的路径并不清晰。你看看 o1 ，这并不是一夜之间的成果。实际上，这背后有多年研究，而其中很多研究并没有取得成效。
OpenAI 整体上采取了一种非常实证、数据驱动的方式，当数据开始向你展示趋势并且变得有意义时，我们就会追随这些线索。而这也是我信心确立的时刻。
推理是针对那些思考更长时间有明显好处的问题的能力。人类有经典的系统 1 和系统 2思维。系统 1 是自动化的、直觉式的反应，系统 2 则是较慢的、更有流程驱动的反应。但对于某些任务，延长思考时间并不会带来更多好处。我认为推理是那些通过考虑更多选项和思考更长时间可以获益的问题。
o1 的另一大亮点是它的推理方式非常通用，适用于许多不同的领域。
OpenAI 的核心战略之一，我们通过迭代式的技术部署，观察世界如何与它互动，并不断改进我们的研究。
DeepMind 在 Atari 上的深度强化学习（ DRL ）结果曾经非常热门。我当时正在攻读博士学位，大约在2015到2019年之间， DRL 无疑是最热门的研究领域。在某些方面，确实取得了大量研究成果，但也忽略了一些问题。其中一个被忽视的方面就是利用海量数据进行训练的力量，比如 GPT 的训练方式。在某种程度上，这非常令人惊讶。看看AlphaGo ，它无疑是深度强化学习领域的重大成就之一。尽管其中有RL（强化学习）步骤，但更重要的是， AlphaGo 在这之前还进行了基于人类数据的学习，这才是让 AlphaGo 真正起飞的原因。然后，研究界逐渐出现了一种观点，认为不依赖人类数据、从零开始学习才是“纯正”的方向。这也导致了 AlphaZero 的出现，尽管它的表现比 AlphaGo 更好，但这个过程的转变忽视了像 GPT 这样的大规模数据训练的潜力，除了 OpenAI 之外，很少有人关注这个方向。OpenAI 在初期看到了这个方向的一些初步成果，并有决心加倍投入。所以，DRL 确实经历了一段高峰期，随后随着 GPT-3 等大模型的成功，DRL 的热度有所下降，许多人对它失去了信心。不过，随着 o1 的出现，我们看到了 DRL 在与其他元素结合时仍然具有强大的潜力。
许多 DRL 的亮点成果确实非常酷，但它们的适用范围也非常狭窄。虽然我们确实看到了一些相当有用且通用的 DRL 成果，但没有什么可以与 GPT-4 的影响力相比。因此，我认为在新的范式下， DRL 未来将达到类似的影响力水平。
我确实认为 o1 的结果中最酷的一点是，它的思维链是可以被人类解释的，这使我们能够理解模型的思维过程。
我们讨论了很多如何让模型拥有反思能力，如何在犯错时回退或尝试不同的方法。最终，我们决定尝试一个基本的方案，就是让 AI 思考更长时间。结果我们发现，一旦 AI 能有更多的思考时间，它几乎是自发地发展出这些能力，包括回退和自我修正。这些都是我们想让模型实现的，而现在通过这样一个简单且可扩展的方式就实现了。
我们花了很多时间阅读模型在解数学问题时的思维过程。你能看到，当它遇到障碍时，它会退回去，尝试另一个方法。这种思维过程让我觉得，也许它能推广到数学之外的领域，这给了我一些希望。虽然我不知道最终答案是什么，但希望如此吧。
o1 已经比之前的模型更像一个编程伙伴。它已经在我们的代码库中提交了几次代码变更。从某种意义上讲，它确实像一个软件工程师，因为软件工程也是一个受益于长时间推理的STEM领域。我认为当前模型在进行推理时只思考了几分钟，但如果我们继续扩展这个趋势，让 o1 思考更长时间，它可能会完成更多类似的任务。
当 GPT-2和 GPT-3 发布时，很明显只要投入更多的数据和GPU，它们的性能就会显著提升。但即便如此，从 GPT-2到 GPT-3 再到 GPT-4 之间还是花了好几年的时间。这不仅仅是一个简单的想法，还有很多工作要做，才能把它扩展到一个非常大的规模。
对于那些学术背景较强的研究人员来说，加入 OpenAI 后可能会发现令人惊讶的事情之一是，很多问题最终并不是研究问题，而是工程问题。构建大规模系统、训练大规模系统，以及运行那些早已发明的算法，或者前所未有的系统，都是非常困难的。这需要大量艰难的工程工作，才能让这些东西扩展起来。
之所以叫“草莓”，只是因为当时有人需要想个代号，而屋里有个人正好在吃一盒草莓，事情就这样定了。
我们真正想传达的并不是这个模型目前的能力，而是它未来的发展方向。
我们发布 o1 Preview 的动机之一是想看看人们最终会用它做什么，怎么使用它。事实上，我们还讨论过是否值得发布 o1 Preview。但最终发布的原因之一就是为了让大家尽早接触到它，看看它在什么场景下最有用，在哪些场景下不太合适，以及如何改进它以满足用户的需求。

原文：https://baijiahao.baidu.com/s?id=1811964164749492281&wfr=spider&for=pc

奥特曼

AI的五个级别：L1是聊天机器人（ChatBot），L2是我们刚刚达到的推理者（Reasoner），L3是智能体（Agent），L4是创新者（Innovator），能够发现新的科学信息，L5是完整的组织（Organization）。
o1 模型最新的突破在于系统能够长时间地处理复杂的科学或工程问题。它的表现令人印象深刻，比如在解决高难度的数学问题上能够在全国范围内名列前茅，或者在编程比赛中与顶尖选手一较高下。虽然展示计算机在考试中的能力很酷，但我们更关注的是它在实际应用中的潜力，比如帮助加快疾病治疗的研究，或加速新材料的发现以促进清洁能源技术的发展。
o1 模型对程序员的影响也是很大的。我认为，我们即将见证程序员借助这些工具所实现的巨大变革，这对每个人都会产生积极影响。
关于 AI 是否到达瓶颈以及进展是否会放缓的争论，其实已经持续了一段时间。我认为这次 o1 的发布最重要的信息是，AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握（we have the next few years in the bag）。

王小川评 OpenAI o1: 找到一条从快思考走向慢思考的路

这个技术范式核心是语言模型，然后走向强化学习——这是智能提升的两个阶段。Sora 它既不是语言学习，也不是强化学习，就不在提升智力方向里，而是另一个独立产品。
压缩过程是一个在原有数据“分布内”的一种智能，它的思考能力是不会超过你原始数据的。
从“分布内”走向“分布外”，这是智力必须的过程。所以用强化学习就变成了必须的事。
复刻 o1 比复刻个 GPT-4会变得更难一些，算力和数据上可能跟做个GPT-4差不多，但时间周期上会比做GPT-4快一些。
今天OpenAI基于这两件事，我觉得把强化学习做得挺好。
- 第一，它局限在数学、代码，这个局部领域有足够大的突破。
- 第二，它的泛化性来自于之前把它分为两阶段，就是把CoT和后面的执行过程分开了。之前咱们也讲了GPT-3.5这两个版本合在一起之后，逻辑性提升来自于代码的学习。现在也是一样，其他场景的泛化性来自于对于数学和代码的CoT本身掌握得更好了，这个CoT能泛化到其他思考环节去。
我可以做个预言：未来代码会扮演更重要的角色。以前代码是帮助提高逻辑能力，或者帮助程序员辅助写代码。我认为未来代码会变成大模型下一步的核心能力。也就是说，大模型通过写代码能够去解决更多的问题，解决自身的思考过程，从强化学习范式还会走向写代码来解决问题这个新范式——这在未来几年内会实现。

原文地址：https://mp.weixin.qq.com/s?__biz=Mjc1NjM3MjY2MA==&mid=2691551298&idx=1&sn=32c6073443e8441908e39df5fc9faea8&chksm=a9ec6f999e9be68fb72841684a9e5bd49149b4707e48b7490b373c3219f46bd4b5e78943f6af

杨植麟：关于OpenAI o1新范式的思考

之前AI核心的范式，“种瓜得瓜，想吃一个西瓜就种西瓜，永远不能种瓜得豆。”这个范式在最近几年发生了很大的变化，不再是训练很特定的AI模型，而是训练通用的智能。通用智能有什么好处呢？同一个模型可以用到不同行业、不同任务，可以极大程度的泛化，所以它的空间会很大。
有一本书是《技术的本质》，非常强烈推荐！技术的发展基本上是组合演进的过程，每一代的技术可以认为都是前面好几代技术的组合。
规模定律之后，大模型发展的下一个范式是强化学习。
OpenAI o1模型的发布，通过强化学习尝试突破数据墙，并看到计算更多向推理侧增加的趋势。
原来大部分Scaling发生在训练阶段，就是我找一堆数据让它训练。但是现在大部分的计算，或者说越来越多的计算会转移到推理阶段，因为现在要思考，所以思考的过程本身也是需要花算力的
决定这一代AI技术的上限，核心是文本模型能力的上限。
多模态的能力更多的是横向发展，就是能做越来越多的事情。文本模型更多的是纵向的发展，决定了这个AI有多聪明。只有聪明了，AI才能做很多事情。
每一个新的技术出来之后都会面临两个问题：效果不太好、成本太高。对于AI来说也一样，但是好消息是基本上这个效率的提升还是非常惊人的。首先会出现在训练阶段，比如今天想训练一个GPT-4 level的模型，花的训练成本只是两年前的几分之一，甚至如果做得好有可能用1/10的成本就能训练出来智商一样的模型。
推理成本在持续下降。今年相比于去年，在推理阶段产生单位智能的成本基本上降了一个数量级，明年估计还会再有一个数量级的下降。它会让AI商业模型更成立，获得智能成本的会越来越低，但同时产生的智能越来越高。
AI产品的能力由模型能力的决定，这和互联网时代有本质不同，模型能力不强，产品体验就不会好。
AI时代的超级应用，大概率会是一个AI助理。

原文地址：https://new.qq.com/rain/a/20240914A08T0T00

o1 研发团队访谈#

o1 研究团队三位核心技术人（Noam Brown、Hunter Lightman、Ilge Akkaya）对话红杉美国合伙人#

奥特曼#

王小川评 OpenAI o1: 找到一条从快思考走向慢思考的路#

杨植麟：关于OpenAI o1新范式的思考#

o1 研发团队访谈

o1 研究团队三位核心技术人（Noam Brown、Hunter Lightman、Ilge Akkaya）对话红杉美国合伙人

奥特曼

王小川评 OpenAI o1: 找到一条从快思考走向慢思考的路

杨植麟：关于OpenAI o1新范式的思考