虽然 Q* 的提出已经过去大半年了,昨晚偶然看到 X博主 kimmonismus 这篇关于 Q* 的文章,翻译了一下重新回顾一下。Q* 是一种尚未公开的人工智能算法,可能代表了通向人工通用智能(AGI)的重要突破。该算法结合了 Q-learning 和 A* 搜索,旨在提高 AI 的推理能力和自学习能力。通过实现系统 2 思维,Q* 使 AI 能够进行复杂的多步骤推理,从而克服当前大型语言模型(LLMs)中的逻辑错误(即“幻觉”)。尽管关于 Q* 的具体细节尚不明确,但其潜在能力引发了广泛关注和讨论。

  1. Q 的背景*:

    • Q* 尚未正式发布,OpenAI 对其信息保持保密。最初的传闻出现在 2023 年 12 月,报道称 OpenAI 在其研究设施取得了科学突破,首次实现了模型的自我学习能力。
    • Q* 可能是通向 AGI 的关键,AGI 被定义为在大多数经济上有价值的任务中超越人类的自主系统。
  2. 技术细节

    • Q* 结合了 Q-learning 和 A* 搜索算法,前者使 AI 能够通过试错学习做出决策,后者用于寻找最优路径。
    • Q* 允许 AI 在没有外部干预的情况下自我学习,例如,通过解决数学问题来展示其推理能力。
  3. 系统 2 思维

    • 该算法强调复杂思维过程,要求 AI 逐步、迭代地解决问题,类似于人类的系统 2 思维(System 2 thinking)。
    • 通过将思维过程分解为更小的步骤,Q* 可以减少错误并提高输出的准确性。
  4. 潜在应用

    • Q* 的成功可能会使 AI 在科学研究等领域具备更强的推理能力。
    • 该算法的开发可能会导致新的 AI 系统,能够执行复杂的推理任务,进一步推动 AGI 的进程。
  5. 未来展望

    • 尽管 Q* 的具体实现和所需的计算资源仍不清楚,但其设计理念和潜在应用表明,Q* 可能是 AGI 发展的重要一步,能够解决当前 AI 模型面临的重大挑战。

Q* 是什么?我的初探

前言

目前,Q* 还没有发布或公开,也没有相关的论文。OpenAI 也暂时没有透露有关 Q* 的具体信息 (Sam Altman:“我们还没准备好讨论这个”,2:45 分钟)。自从出现了关于 Q* 的初步信息,研究社区一直在努力探究 Q* 可能的实际情况。在本文中,我汇总了能找到的所有信息,并尝试描绘出Q*可能的图景,包括各种合理的假设和推测。本文的观点依赖于不同的论文、文章和结论支持。即便如此,所有内容都应当持“保留态度”来阅读。我希望这篇文章能通俗易懂,适合初学者阅读。我的目标是用简明的语言来解释复杂的问题。此外,这篇文章是手写的,而不是由 ChatGPT 或其他 AI 模型撰写的,因此如果某些部分显得过于简单,还请见谅。

大约半年前,The Information 和 Reuters 从 OpenAI 员工那里得知,该研究机构取得了一项科学突破(尽管最早的传言出现在 2023 年 12 月)[1]。这是第一个通过新算法自学并获得逻辑(数学)技能的模型,而且没有外界干预。由于 Transformer 架构的特点,其结果通常是概率性输出,因此通常无法实现自学(回顾 2017 年的起点,“Attention is all you need”[2])。

逻辑思维和自学能力是许多学者认为通用人工智能 (AGI) 所需的关键能力(虽然目前还没有 AGI 的标准定义,但 Google 提出了第一个定义尝试 [3])。因此,AGI 需要在输出上绝对正确,以便能够被应用到所有(人类)过程(OpenAI 自己在博客文章中反复强调这一点:“近年来,大语言模型在执行复杂的多步骤推理方面有了显著进步。然而,即使是最先进的模型仍然会产生逻辑错误,这种错误通常被称为‘幻觉’(hallucinations)。减少幻觉是构建对齐的 AGI 的关键步骤。”Sam Altman 在视频中更具体地提到:)。

此外,AGI 还需要在所有知识领域达到专家级别的通用知识(不要忘记 AGI 中的“G”代表泛化)。在这方面,Reuters 和 The Information 报道的 OpenAI 的这一突破似乎是通向 AGI 的关键,这可能会让很多人感到不安。一些内容创作者,如“AI Explained”和“Matthew Bermann”等,都制作了关于这个话题的优秀视频,我也非常推荐大家观看。

引用:

Reuters 当时写道:“11 月 22 日(路透社)——在 OpenAI 首席执行官 Sam Altman 被解雇的前几天,几名员工研究人员给董事会写了一封信,警告他们有一个强大的人工智能发现可能会威胁到人类,两位知情人士告诉路透社。(…) OpenAI 的一些人认为 Q*(读作 Q-Star)可能是该初创公司在追求通用人工智能(AGI)过程中取得的突破之一,一位知情人士告诉路透社。OpenAI 将 AGI 定义为在大多数经济上有价值的任务中超越人类的自主系统。(…) 由于庞大的计算资源,这个新模型能够解决某些数学问题,这位消息人士在匿名的情况下说,因为此人无权代表公司发言。虽然只是在小学水平上进行数学运算,但这种能力的展现让研究人员对 Q* 的未来发展非常乐观,这位消息人士说道。(…) 研究人员认为数学是生成式 AI (Generative AI) 发展的前沿。目前,生成式 AI 擅长写作和语言翻译,通过统计预测下一个词,但回答同一个问题的答案可能会有很大差异。但掌握数学能力——因为数学只有一个正确答案——意味着 AI 将具有更接近人类智能的推理能力。这可以应用于新的科学研究,例如 AI 研究人员认为。(…) 在 OpenAI 的历史上,有四次,我有幸在那个房间里,当我们推开无知的面纱,推进探索的边界时,这是我职业生涯中最值得骄傲的时刻之一。”他说。

引用:

The Information 当时写道:[4] “在 Altman 被解雇前,OpenAI 取得了一项 AI 突破,引发了兴奋和担忧。Altman 在公司董事会解雇他之前的那天提到了一项最近的技术进步,使公司能够“推开无知的面纱,推进探索的边界。”(…) 但一些 OpenAI 员工认为,Altman 的评论指的是公司研究人员今年早些时候取得的一个创新,这项创新将使他们能够开发出更强大的人工智能模型。据一位熟悉内情的人士表示,这项突破使 OpenAI 克服了获取足够高质量数据来训练新模型的限制,这是开发下一代模型的一个重大障碍。研究涉及使用计算机生成的数据,而不是从互联网上获取的真实数据,如文本或图像来训练新模型。”

(小提示:对 Q* 的恐惧和担忧部分源于这样一种设想,即如果 Q* 已经可以在没有事先训练的情况下自学数学(起初只是小学水平,但随着计算资源的增加肯定会超过这个水平),那么在可预见的未来,所有数据加密都可能面临风险。什么能阻止一个自学数学的 AI 在给它足够的时间和计算资源的情况下找到破解加密的方法呢)。

基本上,可以说 Q* 是一种将语言模型逼近人类思维及其推理能力的方法(算法)。它是一种将逐步思考、迭代思考和过程划分的思维方式映射到大语言模型上的方法。Q* 基于诺贝尔奖获得者 Daniel Kahnemann 的系统思维理论。根据 Kahnemann 的理论,人类有两种思维过程:系统 1 思维和系统 2 思维。系统 1 思维是直觉的、自动化的思维。当前,大语言模型只能进行类似系统 1 的思维,即输出基于其训练数据的概率结果,这类似于直觉思维。而系统 2 思维是复杂的推理思维,涉及到逐步的分析过程。解决复杂的数学问题不能依靠直觉,需要一步步地推进解决方案。我们需要教语言模型学会系统 2 思维,逐渐、过程化和迭代地接近结果。

迭代解决方案的过程划分

那么如何教一个语言模型进行系统 2 思维呢?首先,我引用了几周前对 Q* 的一个简要总结:[5]

“尤其是今天 Reuters 发表的一篇文章中,他们采访了不愿透露姓名的 OpenAI 员工,Q* 似乎也成为现实。Q* 的重要性不容低估,Q* 是解决大语言模型最大问题的突破之作。不同于通过人类反馈强化学习 (RLHF) 的大语言模型,Q* 能够自学。一篇文章显示,具有 Q* 的 GPT 在没有外部干预的情况下自学数学(小学水平):“Reuters 和 The Information 都报道说,研究人员提出了一种创建强大 AI 系统的新方法,并创建了一个新模型,称为 Q*(读作 Q-Star),能够完成小学级别的数学。”[3] 这可能导致了两个过程:Q-learning 和 A*-search。Q-learning 教会模型自学,诺贝尔奖获得者 Daniel Kahnemann 称之为‘系统 2 思维’。换句话说:思维:‘系统 1 和系统 2 思维描述了 Daniel Kahneman 在其著作《思考,快与慢》中提出的两种不同的认知处理模式。系统 1 是快速、自动和直观的,几乎不需要努力。这种思维模式使我们能够基于模式和经验迅速做出决策和判断。相比之下,系统 2 是缓慢、深思熟虑和有意识的,需要有意的努力。这种思维类型用于解决复杂的分析任务,需要更多的思考和考虑。’[4] 通过将思维分解为子过程,模型获得了一种安全感。使用 A* 的解决方案寻找是一种搜索算法(类似于 Monte Carlo 树搜索算法),它能够找到最佳解决方案:‘A*(读作“ A-Star”)是一种图遍历和路径寻找算法,由于其完备性、最优性和最优效率,它在计算机科学的许多领域都有应用。给定一个加权图、一个源节点和一个目标节点,该算法找到从源到目标的最短路径(相对于给定的权重)。’[4] Q-learning 和 A*-search 的结合教会模型独立思考和寻找解决方案并自行纠正。这意味着幻觉将被消除,正确的解决方案将作为结果输出,因为解决方案不是简单地从训练数据中获取的概率。这意味着大语言模型的最大问题——它们的不准确性——可以被克服,并开始发展出一种准确性,使其适用于完全不同的学术领域。然而,Q* 可能是非常计算密集型的。在这种情况下,gpt-mini 就派上用场了:我的假设是,OpenAI 将使用 gpt-mini 来减少能量需求和计算量,甚至可能将 Q* 变体集成到一个小模型中。这只是猜测,但重要的是 gpt-mini 为 Q* 的实现创造了条件。”

**System 2 思维在 OpenAI 的一篇研究论文(“让我们逐步验证”,[6],由 Ilya Sutskever 和 Jan Leike 等人撰写)中得到了更详细的解释。同样,在今天的提示中使用“逐步思考”或“将任务分成子部分”也是为了让模型“逐步思考”,尽管模型的架构不是为此设计的(“推广诸如‘深呼吸’和‘逐步思考’之类的技术现已扩展到推理的高级方法中,采用并行计算和启发式算法(搜索的基本原则之一)。”)。该文件及其结论的一部分是所谓的“过程奖励模型 (PRM)”(见下文)。原则上,这是一种对每个过程步骤的评估。不同于整体评估结果,PRM 为每个推理步骤评分。

“这允许通过最大平均奖励或其他指标进行精细调整生成,而不仅仅依赖一个分数(在这个文献中称为标准 RMs 为结果 RMs)。使用[Best-of-N 采样],本质上是生成多次,并选择奖励模型评分最高的结果(类似于 Llama 2 流行的 Rejection Sampling),PRMs 在推理任务上优于标准 RMs。”(同上)这一方法还得到了所谓的“思维树”的支持:论文“思维树:用大语言模型进行深思熟虑的问题解决”提出了一个称为思维树 (ToT) 的新框架,该框架基于大语言模型,通过结构化和有计划的决策过程提高其解决问题的能力。与传统的连锁思维 (CoT) 方法不同,ToT 允许同时探索多个想法,并评估这些路径以实现更有效的解决问题。[7]。ToT 框架包括四个主要组成部分:1. 思维过程分解:将问题分解为更小的、可管理的步骤(思维)。2. 思维生成:为下一步思维生成建议。3. 状态评估:对不同思维路径的进展进行启发式评估。4. 搜索算法:使用广度优先搜索 (BFS) 或深度优先搜索 (DFS) 等算法系统地探索思维树。在如“24 游戏”、创意写作和迷你填字游戏等任务的实验中,ToT 显示出相对于传统方法的显著改进。例如,在“24 游戏”中,ToT 的成功率为 74%,而 CoT 方法的成功率仅为 4%。因此,我们也看到了计划、结构化和序列决策对于解决方案的准确性至关重要。“使这一点点击的创新是推理步骤的分块和提示模型创建新的推理步骤。”ToT 似乎是提高推理性能的第一个“递归”提示技术,这听起来与 AI 安全关注的递归自我改进模型非常接近(虽然我不是专家)。”

引用:

“大语言模型能够通过逐步生成解决方案来解决需要复杂多步骤推理的任务(Nye 等,2021;Wei 等,2022;Kojima 等,2022)。然而,即使是最先进的模型也容易产生虚假信息——它们在不确定的情况下有发明事实的倾向(Bubeck 等,2023)。这些幻觉(Maynez 等,2020)在需要多步骤推理的领域中尤为严重,因为一个逻辑错误就足以破坏一个更大的解决方案。检测和减少幻觉对于提高推理能力至关重要。” 文章指出,过程监控模型在解决复杂数学问题方面表现出更好的性能。这种过程监控评估每个中间步骤,类似于 A* 中每个节点扩展的评估。过程监控的“连锁思维”类似于 Kahnemann 的系统 2 思维,因为它代表了逻辑思维,评估逻辑步骤,类似于过程监控方法。因此,我们可以看到系统 2 思维,即在过程步骤中进行思考,不仅能导致更精确的结果,而且也是解决复杂任务的必要组成部分。有多种方法可以实现这一点。PRM 可以成为 Q* 中解决方案寻找的一部分,因为它起源于 OpenAI 的自身研究,而 ToT 可能也是如此。不幸的是,目前无法进行更精确的分类,也无法从各种来源中得出。

Q* 可能是 Q-learning 和 A* 搜索的结合。OpenAI 的 Q* 算法被认为是 AI 研究中的一次突破,尤其是在开发具有类人推理能力的 AI 系统方面。Q* 结合了 Q-learning 和 A* (A-Star 搜索)的方法,从而提高了目标导向思维和解决方案寻找的能力。该算法在解决复杂的数学问题(没有事先的训练数据)方面显示出了令人印象深刻的能力,并象征着向通用人工智能 (AGI) 的进化。它是 Q-learning 和 A*-search 的融合(正如其他人也所指出的:)。

它基于自学和预测规划的理念。“自我对抗”是指智能体可以通过与稍有不同的自己版本对抗来提高其游戏能力,因为它会逐步遇到更具挑战性的情况。在大语言模型的领域中,几乎可以肯定,自我对抗的大部分内容将看起来像 AI 反馈,而不是竞争过程。“前瞻性规划”是指使用世界模型推理未来,并产生更好的行动或输出。这两种变体基于[模型预测控制],通常用于连续状态,[蒙特卡洛树搜索](MCTS),用于离散动作和状态。”

Q-learning 和其他理论

理论 1:“[Q-learning]是一种强化学习的方法,即通过试验和错误来学习决策。在 Q-learning 中,智能体通过估计动作-状态组合的“质量”来学习做决策。与 OpenAI 目前的方式(称为人类反馈强化学习 (RLHF))的区别在于,它不依赖于人类交互,而是完全自我完成。想象一下一个机器人在迷宫中导航。通过 Q-learning,它通过尝试不同的路线来学习找到最快的出口路径。当它接近出口时,获得正面奖励;当它走入死胡同时,获得负面奖励。通过这种方式,机器人逐步开发出一套策略(一个“Q-表”),告诉它在迷宫中每个位置的最佳行动。这一过程是自主的,依赖于机器人与环境的交互。(…) 在 Q-learning 中,Q* 代表了一个智能体知道在每个状态下采取何种最佳行动以最大化其总预期奖励的理想状态。用数学术语来说,它满足[贝尔曼方程]。”

理论 2 MRPPS 的算法:“解释这一过程的一种方式是将其与虚构的侦探 Sherlock Holmes 试图解决一个复杂的案件相比较。他收集线索(语义信息)并将它们逻辑连接(句法信息)到一个结论。Q* 算法在 AI 中类似,结合语义和句法信息来导航复杂的解决问题的过程。这意味着 OpenAI 离拥有一个能够理解其现实的模型又近了一步,不仅仅是文本提示,更接近于虚构的 J.A.R.V.I.S(对 Z 世代而言)或蝙蝠电脑(对婴儿潮一代而言)。因此,虽然 Q-learning 是关于教 AI 从与环境的交互中学习,但 Q* 算法更是关于提高 AI 的推理能力。理解这些区别是理解 OpenAI 的“Q*”潜在影响的关键。两者在推进 AI 方面都有巨大潜力,但它们的应用和影响有很大不同。”当然,我们不知道 Q* 中可能包含哪些相关内容。然而,我显然倾向于理论 1,因为它更符合 OpenAI 已经发布的论文内容。

引用:

“A* 搜索是一种用于找到起始状态和目标状态之间正确路径的方法。它使用启发式函数来计算估计的成本并找到最佳路径。它还保证如果启发式是可行的(即不高估成本),则找到的解决方案是最优的。简而言之,该算法找到最短或最便宜的解决方案,如果启发式是可行的。它是多功能的,适用于不同的问题或问题(灵活),适应性强且稳健。A* 在某些方面类似于蒙特卡洛树搜索 (MCTS),但它在根本上不同且更好,因为它使用启发式进行最优路径寻找,而不是随机模拟进行决策(MCTS)。换句话说,A* 系统地寻找最佳路径,而 MCTS 则使用随机模拟来进行决策。”(A* 搜索无扩展:使用深度 Q 网络学习启发式函数[8])。Q* 使用 A* 的原理,通过结合路径成本和启发值来找到最佳路径。通过集成 DQNs,Q* 可以一次计算子节点的成本和启发值,从而显著减少算法的计算量。Q* 的逐步计算和验证类似于 STaR 中的过程监控,用于最小化幻觉(STaR 见下文)。一位 Meta 科学家在 Twitter 上总结道:“根据我过去在 OpenGo(AlphaZero 的复刻)的经验,A* 可以看作是 MCTS 的一个确定性版本,只是使用了值(即启发式)函数 Q。这应该适用于状态容易评估而动作更难预测的任务。数学问题似乎很适合这种情况。”

STaR:逐步理性化

STaR 方法也可以在 Q* 中使用。STaR (逐步理性化)方法通过在每个 Token 预测时生成理性思维来改进语言模型。这类似于过程监控,因为这两种方法都鼓励逐步审查和改进决策。这些方法可以帮助提高大语言模型 (LLM) 的解决问题能力,并通过确保每一步都合乎逻辑和一致来减少幻觉。过程监控和 STaR 等方法通过监控每一步的推理并提供反馈,帮助 LLM 克服幻觉。这确保模型不仅理解并改进最终结果,还理解并改进决策过程。这减少了错误或无意义的回答,增加了模型的可靠性和准确性。[9] 文章“Quiet-STaR:语言模型可以教自己在说话前思考”探讨了语言模型如何通过学习和应用理性思维模式来改进其预测。为此,提出了“Quiet-STaR”方法,该方法使模型能够为每个 Token 预测生成理性思维,从而提高模型在困难任务中的表现。Quiet-STaR:使用理性思维逐步优化语言模型的预测,因此与 A* 相关。- Quiet-STaR 显示出与系统 2 思维的相似之处,因为它使用理性思维做出更有理由的预测。[10] Quiet-STaR:语言模型可以教自己在说话前思考。

总结

  1. Q* 算法:结合 Q-learning 和 A* 提高目标导向思维。
  2. 过程监控:提供逐步反馈以改进模型性能。
  3. STaR 方法:在每个 Token 预测时生成理性思维。
  4. 克服幻觉:过程监控和 STaR 使决策更准确和可靠。
  5. 应用:这些方法促进了更稳健和可靠的 AI 系统的发展。

结论

与此同时,越来越多的人怀疑下一代模型将涉及逻辑思维和创新。Bloomberg 最近报道:

“OpenAI 的高管告诉员工,公司相信它目前处于第一级,但即将达到第二级,他们称之为‘推理者’。这指的是能够完成基本问题解决任务的系统,就像一个没有工具的博士级学者一样。在同一会议上,公司领导演示了一个涉及 GPT-4 AI 模型的研究项目,OpenAI 认为该项目展示了一些接近人类推理的新技能,据一位知情人士称。公司发言人对此表示,OpenAI 一直在内部测试新能力,这在业内是常见做法。然而,很明显,他们的目标方向。OpenAI 直接指出,第三级是智能体:‘根据 OpenAI 的分级,通向 AGI 的第三级将被称为“智能体”,即能够花几天时间代表用户执行任务的 AI 系统。第四级描述的是能够创造新发明的 AI。最先进的级别将被称为“组织”。’ [11] 我们还不知道 Q* 又名 Strawberry 是如何工作的。到目前为止,这些都是猜测和推测。虽然我们对 Q* 的具体运作方式还不清楚,但我个人认为,它可能结合了 Q-learning、一种 A*-search、ToT 和 PRM。不过,我可能是错的。然而,我相信规划和系统 2 思维是 Q* 的关键指导原则,并且是其成功的原因。Q* 可能会在结果的准确性上表现出色。它将至少达到与 Google Deepmind 的 AlphaProof2 和 Alpha Geometry(最近获得银奖)类似的水平,甚至通过自学、路径寻找和过程划分实现更好的成果。Q* 可能是距离 AGI 最近的尝试之一。关于所需的计算资源和能量目前尚不清楚(尽管显然这两者的需求都非常大)。