OpenAI官方指南:推理模型最佳实践

本文由 OpenAI 官方文档 翻译而来,介绍了推理模型 (reasoning models) 和 GPT 模型 (GPT models) 的区别,以及何时使用推理模型 (reasoning models)。 OpenAI 提供两种类型的模型:推理模型 (reasoning models),例如 o1 和 o3-mini,以及 GPT 模型 (GPT models),例如 GPT-4o。这两类模型的行为特性有所不同。 本指南将介绍: OpenAI 的推理型模型和非推理型 GPT 模型之间的差异 何时应该使用推理模型 (reasoning models) 如何有效地提示推理模型 (reasoning models) 推理模型与 GPT 模型对比 与 GPT 模型 (GPT models) 相比,OpenAI 的 o 系列模型在不同任务上各有优势,并且需要的提示方式也不同。 它们之间不存在绝对的优劣之分,只是擅长的领域不同。 OpenAI 训练 o 系列模型(可以称它们为“规划者”)能够花费更多时间和精力思考复杂的任务,使它们在以下方面表现出色:制定战略、规划复杂问题的解决方案、以及基于大量模糊信息做出决策。 这些模型还能以极高的精度和准确性执行任务,非常适合那些通常需要人类专家才能胜任的领域,例如数学、科学、工程、金融和法律服务。 另一方面,低延迟、高性价比的 GPT 模型 (GPT models)(可以称它们为“主力”)则专为直接执行任务而设计。 在实际应用中,可以利用 o 系列模型来规划解决问题的总体策略,然后使用 GPT 模型 (GPT models) 执行具体任务,尤其是在对速度和成本的考量高于对完美准确性的追求时。 如何选择 对于你的应用场景,什么才是最重要的?...

February 14, 2025 · 3 min · fisherdaddy

介绍一下 OpenAI Deep Research

OpenAI 于 2025 年 2 月 2 日发布了 ChatGPT 的一项新功能,名为 Deep Research。这项功能旨在作为一个智能代理,通过推理能力综合大量的在线信息,并为用户完成多步骤的研究任务。 Deep Research 能够在数十分钟内完成人类分析师需要数小时才能完成的工作,极大地提高了知识工作者和需要深入研究的用户的效率。它基于即将推出的 OpenAI o3 模型,并针对网页浏览和数据分析进行了优化。 Deep Research 的目标是能够自主发现、推理和整合来自网络各处的见解,最终朝着实现通用人工智能 (AGI) 的目标迈进。 关键细节 可用性: 于 2025 年 2 月 2 日面向 ChatGPT Pro 用户推出,Plus 和 Team 用户将在一个月后获得访问权限。 核心能力: Deep Research 能够根据用户提出的问题,自主地在互联网上查找、分析和综合数百个在线资源,生成一份全面的研究报告。它能够处理文本、图像和 PDF 文件,并根据遇到的信息动态调整研究方向。 技术基础: Deep Research 由 OpenAI o3 模型的某个版本驱动,该模型专为网页浏览和数据分析而优化。其训练方法与 OpenAI o1 类似,使用了强化学习,使其具备强大的推理能力和工具使用能力(如浏览器和 Python 工具)。 应用场景: Deep Research 适用于金融、科学、政策和工程等领域的知识工作者,以及需要对汽车、家电和家具等产品进行深入研究的消费者。 输出特点: Deep Research 的输出结果是完全可追溯的,包含清晰的引用和思维过程总结,方便用户验证信息。它尤其擅长发现那些需要浏览大量网站才能找到的小众和非直观信息。 使用方法: 用户在 ChatGPT 的消息编辑器中选择 “deep research” 模式并输入查询。可以附加文件或电子表格以提供更多背景信息。研究过程会在侧边栏显示步骤和来源。 完成时间: Deep Research 完成任务可能需要 5 到 30 分钟。 性能评估: 在 “Humanity’s Last Exam” (人类最后一次考试) 基准测试中,驱动 Deep Research 的模型取得了 26....

February 3, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI o3-mini

2025年1月31日 OpenAI 推出了 o3-mini 模型,这是 OpenAI 推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。 开发者支持 支持函数调用、结构化输出和开发者消息 支持流式传输 支持低、中、高三种推理强度选项 不支持视觉功能,对于视觉推理任务仍然需要使用 o1 向 API 使用等级 3-5 的开发者开放 可用性 ChatGPT Plus、Team 和 Pro 用户今天就可以开始使用 OpenAI o3-mini,企业用户将在 一周后获得访问权限。 Plus 和 Team 用户的消息配额从 o1-mini 的每天 50 条提升至 o3-mini 的每天 150 条。而 Pro 用户 可以无限制使用。 免费用户也可使用 o3-mini ,但需要在消息编辑框中选择“Reason”按钮。 o3-mini 支持搜索功能 o1 是更通用的知识推理模型,而 o3-mini 为那些对精度和速度有较高要求的技术领域提供了一个专门的选择。 在 ChatGPT 中,o3-mini 使用中等推理强度,以平衡速度和准确性。所有付费用户还可以在模型选择器中选择 o3-mini-high,这是一个更高智能的版本,但生成响应所需的时间稍长。 能力水平 与 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。 在低推理需求下,OpenAI o3-mini 的表现与 OpenAI o1-mini 相当。 在中等推理强度下,o3-mini 在数学、编程和科学方面的表现与 o1 持平,同时响应速度更快。 在高推理需求下,o3-mini 优于 OpenAI o1-mini 和 OpenAI o1。 原文 探索更具性价比的推理能力 我们很高兴地宣布推出 OpenAI o3-mini,这是我们推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。...

February 1, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI Operator

OpenAI 发布了名为 Operator 的研究预览版智能代理,它能够使用自己的浏览器为用户执行任务。Operator 旨在通过模拟人类在浏览器上的操作(如打字、点击和滚动)来完成各种重复性任务,从而扩展 AI 的实用性,帮助用户节省时间和为企业创造新的互动机会。 技术原理 Operator 由名为 Computer-Using Agent (CUA) 的新模型驱动。CUA 结合了 GPT-4o 的视觉能力和通过强化学习获得的先进推理能力,使其能够与图形用户界面 (GUI) 进行交互。Operator 可以“看到”(通过屏幕截图)和“交互”(使用鼠标和键盘的所有操作)浏览器,无需自定义 API 集成即可在 Web 上执行操作。 应用场景与合作 Operator 可以处理各种浏览器任务,例如填写表格、订购杂货甚至创建 memes。OpenAI 正在与 DoorDash 、 Instacart 、 OpenTable 、 Priceline 、 StubHub 、 Thumbtack 、 Uber 等公司合作,以确保 Operator 满足现实世界的需求。此外,Operator 在公共部门应用中也具有潜力,例如与 Stockton 市合作,简化市民参与城市服务和计划的流程。 功能与特点 自主操作: Operator 是一个智能代理,用户只需给出任务,它就能独立执行。 广泛的任务处理: 能够处理各种重复性浏览器任务,例如填写表格、订购杂货等。 人机协作: 当遇到挑战或错误时,Operator 能够自我纠正;当遇到困难时,会将控制权交还给用户。 个性化定制: 用户可以通过添加自定义指令来个性化工作流程,并保存常用提示以便快速访问。 多任务处理: 用户可以同时运行多个任务,类似于在浏览器中使用多个标签页。 安全与隐私保障 多层安全防护: Operator 具有三层安全措施,以防止滥用并确保用户始终处于控制之下,包括接管模式、用户确认和任务限制。 数据隐私管理: 用户可以通过 ChatGPT 设置选择退出模型训练,并一键删除所有浏览数据和对话记录。 对抗性网站防御: Operator 具备检测和忽略提示注入、监控可疑行为以及快速更新安全措施的能力,以防御恶意网站的攻击。 局限性与未来展望 研究预览阶段: Operator 仍处于早期研究预览阶段,可能存在错误,尤其是在处理复杂界面时。 持续改进: OpenAI 将根据用户反馈不断改进 Operator 的准确性、可靠性和安全性。 API 开放与功能增强: 未来计划将 CUA 模型通过 API 开放给开发者,并增强 Operator 处理更长、更复杂工作流程的能力。 扩大用户范围: 计划将 Operator 扩展到 Plus 、 Team 和 Enterprise 用户,并将其功能集成到 ChatGPT 中。 合作机构与用户评价 合作机构: DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber, City of Stockton 等。 用户评价: Instacart 首席产品官 Daniel Danker 认为 Operator 是一个技术突破,使订购杂货等流程变得非常容易。Stockton 市信息技术主管 Jamil Niazi 认为 AI 可以使公民参与变得更加容易。 原文 2025 年 1 月 23 日...

January 24, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI 推出的 SimpleQA

SimpleQA 是一个新的基准测试,旨在评估语言模型在回答简短、事实性问题时的准确性。该基准测试的核心目标是减少模型产生“幻觉”(即无根据的错误答案)的现象,并提升模型的可信度。SimpleQA 专注于简短的事实查询,确保问题有单一、不可争议的答案,从而使得评估模型的事实性表现更加可行。通过该基准,研究人员可以更好地衡量语言模型的准确性、校准性及其在不同问题类别中的表现。 SimpleQA 的特点: 高正确性:所有问题的参考答案由两名独立的 AI 训练师提供,并且这些问题经过严格筛选,以确保答案易于评分。 多样性:涵盖广泛主题,包括科学、技术、历史、音乐、视频游戏等多个领域。 挑战性:相比于老旧的基准(如 TriviaQA 和 NQ),SimpleQA 对前沿模型(如 GPT-4o)更具挑战性。 研究友好:由于问题简洁,SimpleQA 的运行速度快,评分效率高。 数据集构建: 问题由 AI 训练师从网上搜集,确保每个问题有单一、不可争议的答案。 为确保质量,问题经过三轮验证,最终的错误率约为 3%。 模型评估方法: 使用 ChatGPT 分类器对模型的答案进行评分,分为“正确”、“错误”和“未尝试”三类。 测试表明,较大的模型(如 GPT-4o 和 o1-preview)比较小的模型(如 GPT-4o-mini 和 o1-mini)表现更好,且后者更倾向于“未尝试”问题,表明它们可能更擅长判断何时不确定答案。 模型校准性: 校准性指模型对其回答的自信程度是否与实际准确性一致。SimpleQA 提供了两种方法来测量模型的校准性:一是通过模型自述的信心百分比,二是通过模型多次回答同一问题的频率。 结果显示,较大的模型(如 o1-preview 和 GPT-4o)在校准性上表现更好,但模型普遍倾向于过高估计其自信度。 结论与局限性: SimpleQA 是一个简洁但具有挑战性的基准,专注于短、事实性问题。然而,它的局限性在于仅测量简短回答的事实性,尚不清楚这是否与模型生成长篇、多事实回答的能力相关。 介绍一下 SimpleQA 2024 年 10 月 30 日 SimpleQA 是一个衡量语言模型回答简短、寻求事实的问题的能力的基准工具。 在人工智能领域中,一个未解决的问题是如何训练模型,使其生成的回答更加符合事实。当前的语言模型有时会产生错误的输出,或提供没有证据支撑的回答,这种现象被称为“幻觉”。生成更为准确、幻觉更少的语言模型可以增加可信度,并能够应用于更广泛的领域。为此,我们 开源了⁠(新窗口打开)一个名为 SimpleQA 的新基准工具,以衡量语言模型的事实性。 关于 SimpleQA 基准 事实性是一个复杂的话题,因为其评估难度很大——评价任意声明的真实度颇具挑战性,而语言模型可能会生成包含大量事实性信息的长篇回答。在 SimpleQA 中,我们专注于简短的、寻求事实的查询,尽管这缩小了评估范围,但使得衡量事实性变得更为可行。 我们创建 SimpleQA 数据集的目标是实现以下特性: 高准确性。 所有问题的参考答案均有两位独立 AI 训练师提供支持,问题设计也便于答案的评分。...

October 31, 2024 · 1 min · fisherdaddy

OpenAI 产品发布时间线一览

这里整理一下 OpenAI 发布的一系列重大里程碑产品和事件,部分内容参考 OpenAI Release Notes。为了方便预览和美观,我做了一个网页版,大家可自行取用。 2015年12月:OpenAI 成立 核心功能:创建人工智能,造福全人类 功能介绍:OpenAI的成立标志着人工智能研究的开端,致力于确保先进AI技术的安全和普及。 2016年4月:OpenAI Gym 发布 核心功能:强化学习训练平台 功能介绍:提供了一套工具用于开发和比较强化学习算法,促进了AI社区的算法研究。 2016年12月:Universe 发布 核心功能:通用AI开发与测试平台 功能介绍:支持AI在各种环境中进行训练和测试,拓展了强化学习的应用领域。 2018年6月:GPT-1 发布 核心功能:自然语言生成模型 功能介绍:首个将Transformer与无监督预训练相结合的模型,开启了大规模语言模型的探索。 2019年2月:GPT-2 发布 核心功能:文本生成 功能介绍:拥有15亿参数的语言模型,展示了在文本生成上的强大表现。 2020年6月:GPT-3 发布 核心功能:自然语言处理 功能介绍:GPT-3参数量达1750亿,显著提升了自然语言理解和生成能力。 2021年1月:DALL·E 发布 核心功能:图像生成 功能介绍:通过文本描述生成图像,拓展了生成模型的应用场景。 2021年8月:Codex 发布 核心功能:自然语言转代码 功能介绍:支持代码自动生成,成为GitHub Copilot的核心技术。 2022年4月:DALL·E 2 发布 核心功能:高分辨率图像生成 功能介绍:生成的图像更细致,支持更高的分辨率。 2022年9月:Whisper 发布 核心功能:语音识别 功能介绍:多语言语音识别模型,接近人类的识别水平。 2022年11月30日:ChatGPT 核心功能:基于 GPT-3.5 的 ChatGPT 网页版 功能介绍:能够进行自然语言交互,回答任意问题的 AI 助手 2023年1月27日: ChatGPT Plus订阅服务推出 核心功能:付费订阅版ChatGPT,收费为每月20美元 功能介绍:提供更快的响应速度、高峰时段优先访问、优先使用新功能和改进等额外功能 2023年3月14日:GPT-4 发布 核心功能:多模态大模型 功能介绍:支持图像输入,其理解力和生成能力大幅提升 2023年3月24日:ChatGPT Plugins 推出 核心功能:对第三方插件的支持 功能介绍:ChatGPT Plugins是进一步生态变革的开端,基于ChatGPT的改进包括:能够访问互联网实时数据、创建并编译代码、调用和创建第三方程序等等 2023年5月18日:ChatGPT iOS 版发布 核心功能:iOS 版的 ChatGPT 功能介绍:iOS 版的 ChatGPT 2024年7月25日:ChatGPT Android 版发布 核心功能:Android 版的 ChatGPT 功能介绍:Android 版的 ChatGPT 2023年8月29日:ChatGPT Enterprise 版发布 核心功能: 面向企业的ChatGPT版本 功能介绍: 提供企业级安全和数据隐私保护,提供无限速的GPT-4访问权限,支持32K上下文输入,高级数据分析功能,自定义选项等所有高级功能 2023年9月26日:GPT-4V (Vision) 发布 核心功能:GPT-4 的视觉增强版本 功能介绍:它具有更强大的图像处理能力,可以执行更复杂的视觉分析任务,如详细的场景描述、物体识别、视觉推理等 2023年11月6日:GPT-4 Turbo、DALL·E 3、GPTs 发布 核心功能:增强版GPT-4 功能介绍:融合了文本和视觉能力的大模型 2024年2月15日:Sora 预告 核心功能:文本到视频生成AI 功能介绍:首个视频生成模型,能够生成长达一分钟的高清视频,同时保持视觉品质并遵循用户提示。 2024年5月14日:GPT-4o 发布 核心功能:GPT-4o的"o"代表"omni",意为"全能" 功能介绍:GPT-4o 是迈向更自然人机交互的一步,支持文本、音频和图像的多模态输入,提升了人机交互的自然性。 2024年6月26日:Mac 版ChatGPT 发布 核心功能:Mac 版 ChatGPT 功能介绍:Mac 版 ChatGPT 2024年7月18日:GPT-4o-mini 发布 核心功能:相当于是能力更强的"GPT-3....

October 14, 2024 · 2 min · fisherdaddy

OpenAI 官方指南:智能体编排 - 流程与任务交接

本文翻译自 OpenAI Cookbook 的 Orchestrating Agents: Routines and Handoffs Ilan Bigio Oct 10, 2024 当使用语言模型时,通常只需要设计一个好的提示词并配合合适的工具,就能获得不错的效果。然而,当你需要处理许多不同的流程时,情况可能会变得复杂。本手册将介绍一种方法来应对这些复杂情况。 我们将引入“常规任务 (routine)”和“任务交接 (handoff)”的概念,并逐步展示如何实现这些功能,以及如何通过它们协调多个 AI 智能体 (agents),从而实现简单、强大且可控的系统。 最后,我们提供了一个示例仓库 Swarm,它实现了这些想法并附带了示例代码。 让我们从设置导入开始: from openai import OpenAI from pydantic import BaseModel from typing import Optional import json client = OpenAI() 常规任务 (Routines) “常规任务”这个概念没有严格的定义,主要用来表示一系列步骤。具体来说,我们可以将常规任务定义为一组用自然语言编写的指令 (我们通过系统提示词来实现),以及完成这些任务所需的工具。 让我们来看一个示例。下方代码定义了一个客户服务智能体的常规任务,指示它对用户问题进行分类,然后要么建议解决方案,要么提供退款。我们还定义了两个辅助函数 execute_refund 和 look_up_item。你可以把它称为客户服务常规任务、智能体或助手,但核心思想相同:一组步骤和执行这些步骤的工具。 # Customer Service Routine system_message = ( "You are a customer support agent for ACME Inc." "Always answer in a sentence or less....

October 14, 2024 · 8 min · fisherdaddy

OpenAI Canvas 介绍

OpenAI 于 2024 年 10 月开发者大会上发布 Canvas,官方给它的用途定义为:在写作和代码方面展开协作。有点结对写作和结对编程的意思,应该是想往写作工具(office、notion这些)和代码编辑工具(vscode、cursor)上扩展。下面我结合官方的文档以及我的试用体验,给大家简单大概介绍一下 Canvas。 功能 写作工具 该功能支持在线编辑文档,可以选中某一句或段文本进行追问让chatgpt进行改写,也可使用快捷键,其中快捷键包括建议编辑、调整长度、阅读水平、添加最后的润色、添加表情。有点类似于 DALLE 的交互逻辑。 代码编辑 该功能借鉴了 Claude 的 artifacts,虽然不支持在线预览,但支持在线编辑、选中某一句或段文本进行追问,也可使用快捷键,如代码审查、转移到另一种语言、修复错误、添加日志、添加注释。 关于实现 我阅读了一下 OpenAI 官方发布的介绍文章,这里记录了一些重点的内容。 重新训练了 GPT-4o,让它能够成为创造性的合作伙伴。这个模型知道何时打开 Canvas、进行有针对性的编辑或彻底重写。它还能理解更广泛的上下文,提供精准的反馈和建议。据 OpenAI 研究员介绍 Canvas 模型是通过合成数据进行训练的,并在 2 个月内训练了出具有核心行为的模型。 Canvas 有以下核心功能: 在写作和编程时触发 Canvas 生成多样化的内容类型 进行有针对性的编辑 重写文档 提供行内点评 通过超过 20 项自动化内部评估来衡量进展。使用了新颖的合成数据生成技术,例如从 OpenAI o1-preview 蒸馏输出结果,对模型的核心行为进行微调训练。这种方法让我们能够快速解决写作质量和新的用户交互问题,而且完全不依赖人工生成的数据。 一个关键的挑战是定义何时触发 Canvas。我们教会模型在像“撰写一篇关于咖啡豆历史的博客文章”这样的提示时触发 Canvas,同时避免在“帮我做一道新的晚餐食谱”这样的常规问答任务中过度触发。对于写作任务,我们优先提升了“正确触发率”(以牺牲“正确不触发率”为代价),达到了 83%,相比基础的零样本 GPT-4o 使用提示指令有了明显提升。 值得注意的是,这类基线的表现对具体提示的敏感性很高。使用不同的提示时,基线模型可能仍然会表现不佳,但形式不同——例如,它可能在编码和写作任务上同样表现不佳,从而导致不同的错误分布和其他形式的次优表现。对于编码任务,我们故意让模型偏向不触发 Canvas,以避免干扰高级用户的使用体验。 对于写作和编程任务,我们改进了正确触发 Canvas 的决策边界,分别达到了 83% 和 94%,相比基础的零样本 GPT-4o 使用提示指令有了显著提升。 第二个挑战是如何在触发 Canvas 后调整模型的编辑行为——特别是在何时进行有针对性的编辑,何时重写整个内容。我们训练模型在用户在界面中明确选择文本时执行有针对性的编辑,否则则倾向于重写。 训练模型生成高质量评论需要经过反复的仔细迭代。与前两个较容易通过全面人工审查适应自动化评估的情况不同,自动化衡量质量是一个特别具有挑战性的任务。因此,我们通过人工评估来判断评论的质量和准确性。我们的集成 Canvas 模型在准确性上比零样本 GPT-4o 使用提示指令提升了 30%,在质量上提升了 16%,这表明合成训练相比零样本加详细提示指令,能够显著提升响应质量和行为表现。

October 5, 2024 · 1 min · fisherdaddy

o1 研发团队/奥特曼/王小川/杨植麟对 OpenAI o1 的观点

o1 研发团队访谈 Hyung Won Chung:o1 是个推理模型,它在回答你的问题之前会做更多思考。我们将发布两个模型:o1 preview,还有采用了与 o1 相似的训练框架、更小更快的 o1 mini 什么是推理?Giambattista Parascandolo:可以这么理解:对于一些需要立即回答的简单问题,例如,「意大利的首都是哪里?」,不用想太多,就知道答案是罗马。但是如果想要解一个复杂的谜题、想精心策划一份商业企划书、或者想写小说,那可能需要很多思考。想得越多,可能成果越好。因此,可以说推理是一种把思考时间转化为更好成果的能力。 Mark Chen:很难确切指出 o1 是从哪个具体的时刻开始的。最早和 Yakob 进行了一些探索,后来又和Łukasz 和 Ilya 进行了早期的探索。关键时刻是 Jerry 一起整合了这些内容,并由 Jerry 来推动项目。 Trapit Bansal:当我们开始考虑要训练一个推理模型时,我最先想到的方法就是,可以让人类写下他们的思维过程,然后以此进行训练。我的「Aha Moment」是当我们发现,通过使用强化学习来训练模型生成和打磨它自己的思维链,效果竟然比让人类为其写下思维链更好。我们意识到可以真正扩展这个方法,并且专家模型也可以通过这种方式进行推理。 Jerry Tworek:从本质上讲,训练大型模型是非常困难的事情,有成千上万的事情可能出错,实际在每一轮训练中至少有数百个地方确实出错了。几乎每个人都投入了大量的心血、汗水和眼泪去训练这些模型,并想办法让它们继续学习和改进。通向成功的道路非常狭窄,而失败的可能性却很多。 Ilge Akkaya:这个模型非常优秀,很多时候甚至表现得比人类还要好,就像拥有好几个博士学位的水平。但这有时也是一种挑战,因为我们经常需要验证模型是否没有偏离轨道,或者是否在做一些不合理的事情。随着模型规模的扩大,这开始变得非常耗时;我们已经用尽了所有行业级资源,但我们不知道接下来应该找什么,所以这也是一个挑战。 Jason Wei:对我来说,我喜欢把 o1 当作一个头脑风暴的伙伴,从解决某个非常具体的机器学习问题到如何写一篇博客都适用。比如,我最近写了一篇关于语言模型评估的博客,我向 o1 询问了有关博文结构的想法、某些基准测试的优缺点,甚至包括写作风格的建议。因为它在给出最终答案之前会思考,更好地更好地连接起思路,它还可以修改和评估备选的方案。 Jakub Pachocki:每次我们将某件事扩大一个数量级时,都会遇到一组新的问题 —— 包括算法和基础设施方面的问题 ——OpenAI 无疑已经发展出了同时解决这两个方面问题的强大能力。 Hongyu Ren:我们的动机是希望将 o1 系列带给更多的用户,并降低成本。因此,我们创建了 o1 Mini,它的设计目的是展示整个 o1 框架的简化版本。我们让它成为一个推理专家,它可能不一定知道你最喜欢的名人的生日,但它确实能够非常有效地理解如何进行推理。它比我们之前最好的推理模型要聪明得多,并且几乎与我们最好的模型 o1 持平。它确实有一些限制,比如可能不知道很多外界的信息,尤其是与科学或技术无关的内容。但我们努力让它大致与我们之前最好的模型(如 GPT-4o mini)相当。我们正在进一步改进它,我非常期待外部用户能够尝试体验这种「闪电般」的推理和思维。 原文:https://www.thepaper.cn/newsDetail_forward_28821226 o1 研究团队三位核心技术人(Noam Brown、Hunter Lightman、Ilge Akkaya)对话红杉美国合伙人 o1 模型系列使用了强化学习,能够进行推理,或者你也可以称之为“思考”。它与我们过去使用的大型语言模型有本质上的不同。 我们从一开始就相信这一方向有潜力,但实际走到今天的路径并不清晰。你看看 o1 ,这并不是一夜之间的成果。实际上,这背后有多年研究,而其中很多研究并没有取得成效。 OpenAI 整体上采取了一种非常实证、数据驱动的方式,当数据开始向你展示趋势并且变得有意义时,我们就会追随这些线索。而这也是我信心确立的时刻。...

October 1, 2024 · 1 min · fisherdaddy

OpenAI 官方指南:推理模型

本文由 OpenAI 发布于 2024 年 9 月 12 日。 OpenAI o1 系列模型是新一代通过强化学习训练的大型语言模型,专门用于处理复杂的推理任务。o1 模型在回答问题之前会进行思考,能够在回应用户之前生成一系列内部推理链。o1 模型在科学推理方面表现出色,在 Codeforces 编程竞赛中排名前 11%,并在美国数学奥林匹克竞赛 (AIME) 预选赛中跻身美国前 500 名选手,同时在物理、生物和化学问题的基准测试 (GPQA) 中超越了博士生水平的准确性。 API 中目前有两种推理模型: o1-preview:o1 模型的早期预览版,擅长利用广泛的世界知识来解决复杂问题。 o1-mini:o1 的更快且成本更低的版本,尤其适合处理不依赖广泛知识的编程、数学和科学任务。 虽然 o1 模型在推理能力上取得了重大进展,但并不打算在所有应用场景中取代 GPT-4o。 对于需要图像输入、函数调用或快速响应的应用,GPT-4o 和 GPT-4o mini 模型仍然是更合适的选择。不过,如果你正在开发的应用需要深度推理且可以接受较长的响应时间,那么 o1 模型可能是一个理想的选择。我们很期待看到你用这些模型创造出什么! 🧪 o1 模型目前处于测试阶段 目前,o1 模型正处于测试版阶段,功能有所限制。仅限五级开发者访问(在此处查看你的使用等级),并且速率限制较低(20 RPM)。我们正在努力增加更多功能、提高速率限制,并计划在未来几周内向更多开发者开放! 快速入门 o1-preview 和 o1-mini 模型可以通过聊天完成端点访问。 from openai import OpenAI client = OpenAI() response = client.chat.completions.create( model="o1-preview", messages=[ { "role": "user", "content": "Write a bash script that takes a matrix represented as a string with format '[1,2],[3,4],[5,6]' and prints the transpose in the same format....

September 14, 2024 · 3 min · fisherdaddy