介绍一下 OpenAI o3 和 o4-mini

OpenAI 于 2025年 4 月 17 日推出了 o3 和 o4-mini,这两款模型在智能和能力上都代表了显著的进步,特别是它们能够在其响应前进行更长时间的“思考”,并且首次实现了对 ChatGPT 内所有工具(如网页搜索、使用 Python 进行数据分析、视觉输入推理、图像生成等)的自主、智能调用和组合。 新模型发布: OpenAI 推出了其 o 系列中迄今为止最智能、能力最强的模型——o3 和 o4-mini。 核心能力提升: 这两款模型被训练用于更深度的推理(“思考更长时间”),显著提升了 ChatGPT 的能力。 全面的工具集成: 模型首次能够自主地(agentically)决定何时以及如何使用 ChatGPT 内的所有工具(网络搜索、代码执行、视觉分析、图像生成等)来解决复杂问题。 迈向智能代理: 这是向更具自主性的 ChatGPT 迈出的一步,使其能够独立代表用户执行多方面任务。 性能新标杆: 结合了顶尖的推理能力和全面的工具使用,使得模型在学术基准测试和现实世界任务中表现显著增强,树立了智能和实用性的新标准。 模型定位: o3 是功能最强大的前沿模型,适用于复杂分析;o4-mini 则为速度和成本效益进行了优化,适合需要推理能力的大容量、高吞吐量任务。 介绍 OpenAI o3 和 o4-mini 我们迄今为止最智能且功能最强大的 AI 模型,并赋予了它们完整的工具使用权限 今天,我们发布 OpenAI o3 和 o4-mini,这是我们 o 系列模型中的最新成员,这些模型经过训练,可以在响应之前进行更深入的思考。 它们是我们迄今为止发布的最智能的 AI 模型,代表着 ChatGPT 在能力上的一次飞跃,惠及从普通用户到高级研究人员的每一个人。 我们的推理模型首次能够以智能代理式地使用和组合 ChatGPT 中的每一个工具——包括网络搜索、使用 Python 分析上传的文件和其他数据、对视觉输入进行深入推理,甚至是生成图像。 关键在于,这些模型经过专门训练,能够判断何时以及如何使用工具,以正确的输出格式(通常在一分钟内)生成细致且周到的答案,从而解决更为复杂的问题。 这使得它们能够更有效地处理多方面的问题,朝着更具智能体 (AI Agent) 能力的 ChatGPT 迈出了一步,让 ChatGPT 能够代表您独立执行任务。 这种最先进的推理能力与完整工具访问权限的结合,转化为在学术基准和实际任务中性能的显著提升,为智能和实用性都树立了新的标杆。...

April 17, 2025 · 3 min · fisherdaddy

介绍一下 GPT-4.1 系列模型

OpenAI 于 2025年 4 月 15 日推出了 GPT-4.1 系列 API 模型:GPT-4.1、mini 及 nano。相较于 GPT-4o 和 GPT-4o mini,这些模型在各方面都实现了超越,尤其在代码生成和指令执行上的提升尤为显著。不仅如此,它们还拥有更大的上下文窗口,最多可处理 100 万个 Token,并能凭借更出色的长文本理解能力,充分利用这些上下文信息。同时,它们的知识库也已更新至 2024 年 6 月。 新模型发布: OpenAI 推出了 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三款 API 专用模型。 性能提升: 新模型在编码、指令遵循和长文本理解能力上全面优于 GPT-4o 和 GPT-4o mini。 长文本支持: 所有新模型均支持高达 1 million tokens 的上下文窗口,并提升了长文本理解的可靠性。 成本与效率: 新模型旨在以更低的成本和延迟提供更优的性能,特别是在 GPT-4.1 mini 和 nano 版本上体现。 应用场景: 改进的性能使新模型更适用于构建复杂的 agent 系统,处理如软件工程、文档分析和客户服务等任务。 模型可用性: GPT-4.1 系列模型仅通过 API 提供。ChatGPT 中的 GPT-4o 已逐步整合相关改进。 模型弃用: GPT-4.5 Preview 将在 July 14, 2025 被弃用,开发者需迁移至 GPT-4....

April 15, 2025 · 6 min · fisherdaddy

Llama 4 综合评估:基准表现、实际能力与争议

Meta 作为人工智能领域的关键参与者,持续通过其 Llama 系列模型推动开源大语言模型的发展。继 Llama 3 取得显著成功后,Meta 于 2025 年 4 月 5 日推出了备受期待的 Llama 4 系列模型。Llama 4 引入了混合专家(MoE)架构和原生多模态等关键技术革新,Meta 公布的基准测试数据显示其在多个指标上表现优异,甚至超越了一些领先的闭源模型。然而,大量来自开发者社区和独立测试者的实际应用反馈却指出,Llama 4 在编码、推理等方面的实际表现并未达到预期,甚至不如一些参数量更小的模型。这种基准分数与实测能力之间的显著差异,引发了关于 Llama 4 是否存在针对性“刷榜”以及模型真实能力的广泛讨论和质疑。 今天正好 Google 更新了 DeepResearch:由原来基于 Gemini 2.0 Flash Thinking 模型,改为基于 Gemini 2.5 pro 模型(目前已公开的最强模型),结果准确率大幅提升。Google 放出来了和 OpenAI DeepResaerch 的对比评测,我也尝试了一些 case,确实比上个版本好很多。本篇文章大部分由 Gemini 的 DeepResearch 所写,我对结果进行了编排、校审和微调。 Llama 4 模型家族概览 Llama 4 系列是 Meta 推出的新一代 AI 模型,旨在支持整个 Llama 生态系统,并被 Meta 称为其迄今最先进的模型。该系列引入了混合专家(MoE)架构和原生多模态设计。目前已发布和预告的模型包括: Llama 4 Scout: 这是一款轻量级、高效率的模型,拥有 109B 总参数和 16 个专家,每次推理激活 17B 参数。Scout 的突出特点是其业界领先的 1000 万 token 上下文窗口,远超 Llama 3 的 128K。它被设计为可在单个 NVIDIA H100 GPU 上通过 Int4 量化高效运行,适用于通用 AI 任务,尤其擅长处理超长文档摘要、大规模代码库推理和个性化任务。Meta 称 Scout 是其同类产品中“世界上最好的多模态模型”。 Llama 4 Maverick: 这款模型同样拥有 17B 激活参数,但总参数量达到 400B,并配备了 128 个专家。Maverick 被定位为通用主力模型,特别适用于助手和聊天场景,在图像理解、创意写作和多语言处理方面表现出色。它支持 100 万 token 的上下文窗口,并可在单个 H100 主机(或多 GPU)上运行。Meta 称 Maverick 在多个基准测试中击败了 GPT-4o 和 Gemini 2....

April 9, 2025 · 6 min · fisherdaddy

赋能于民:大语言模型如何改写技术普及的剧本 • Andrej Karpathy

本文来自 Andrej Karpathy 在 X 上发布的一篇文章《Power to the people: How LLMs flip the script on technology diffusion 》。核心观点是,大型语言模型( LLMs )的技术扩散模式颠覆了传统技术自上而下(从政府/企业到个人)的传播路径。 LLMs 目前为普通个体带来了前所未有的、不成比例的巨大利益,其影响在企业和政府层面反而相对滞后。这是因为 LLMs 提供了广泛但相对浅显的能力,极大地赋能了缺乏多领域专业知识的个人;而组织机构在利用这种新技术时,则面临着整合复杂性、高风险以及内部惯性等挑战。尽管当前 LLMs 的普惠性是历史性的,但未来的技术发展和成本结构可能改变这种“利益分配”格局。 传统技术扩散:历史上,变革性技术(如电力、计算机、互联网、 GPS )通常遵循从政府/军事到企业再到个人的“自上而下”路径,因为早期技术稀缺、资本密集且需要专业知识。 LLMs 的独特路径: LLMs (以 ChatGPT 为例)显著逆转了该模式。 ChatGPT 成为史上增长最快的消费应用,拥有 4 亿周活跃用户,广泛用于写作、编码、翻译、学习、研究等个人任务。 个体受益显著的原因: LLMs 大幅提升了个人在多个陌生领域的能力水平。 使用门槛极低:成本低廉(甚至免费)、快速、易于通过网络或本地设备访问,并支持自然语言交流。 企业/政府受益相对有限的原因: 能力匹配度: LLMs 提供的是“准专家级”的广泛但浅显、可能出错的能力。而组织的核心优势在于整合深度专业知识。 LLMs 更多是提升现有专家的效率,而非带来颠覆性改变。 复杂性与风险:组织运营涉及更高的复杂性(系统集成、遗留系统、安全、隐私、合规)和更低的容错率,难以简单应用 LLMs ,且“幻觉”等错误的代价高昂。 组织惯性:企业文化、政治因素、沟通成本、培训挑战和官僚主义阻碍了对这种新型、多才多艺但尚不完全可靠工具的快速采纳。 当前的普惠性:目前,普通人( Mary , Jim , Joes )比大型组织(如 Google 或美国政府)更能体验到 LLMs 带来的改变。前沿模型如 GPT 4o 对所有人(包括 Bill Gates )都同样可及。 未来展望与不确定性: LLMs 的持续影响取决于性能的提升。 “利益分配”格局可能改变。如果未来获取更强 AI 能力需要高昂成本(性能与资本支出挂钩),大型组织和富裕个体可能重新获得优势(例如,使用 GPT-8-pro-max-high 对比 GPT-6 mini )。 影响因素包括:扩大性能差距的技术(如规模扩展、模型集成)和缩小差距的技术(如模型蒸馏)。 作者的感慨:当前的局面——强大的 AI ( ChatGPT )几乎一夜之间免费普及到每个人的口袋里——是独特且出乎意料的,与许多科幻设想不同。引用并修正 William Gibson 的名言:“未来已来,且分布惊人地均匀”。作者对此表示赞赏(“权力归于人民”)。 原文:赋能于民:大语言模型如何改写技术普及的剧本 变革性技术通常遵循自上而下的扩散路径:它们往往起源于政府或军事部门,然后逐渐普及到企业,最终进入个人手中——比如电力、密码学、计算机、航空、互联网或 GPS。这种发展路径似乎是理所当然的,因为新兴的强大技术在早期通常比较稀缺,需要大量的资金投入,而且使用它们还需要专业的技能。...

April 8, 2025 · 1 min · fisherdaddy

Shopify 使用 AI 已成为基本要求 • Tobias Lütke

Shopify CEO 发内部全员邮件,强调 AI 带来的巨大创业机遇,同时也要求公司全员都必须学习和应用 AI,把使用 AI 变为每个员工的一个基本要求,并计入绩效考核。还提到,如果后面谁想要 HC,必须要先论证为什么不能通过 AI Agent 来解决。 AI 使用成为基本要求: 在 Shopify ,熟练运用 AI 不再是可选项,而是对所有员工的基本工作要求。这被视为跟上公司发展(类比“红皇后赛跑”)和个人职业发展的必要条件,不学习 AI 等同于停滞和失败。 AI 是强大的生产力倍增器: AI 工具被视为能将个人和团队的产出提升 10 倍甚至 100 倍的“倍增器”,能够帮助解决以前看似不可能完成的任务。 拥抱 AI 符合核心价值观: 积极学习和应用 AI 与 Shopify 的核心价值观“成为持续学习者”( Be a Constant Learner )和“在变革中茁壮成长”( Thrive on Change )紧密相连。 Shopify 的未来与 AI 深度绑定: 公司致力于利用 AI 重新定义创业模式,并将 AI 深度整合到产品路线图和日常工作中,以更好地服务商家。 使用 AI 已成为基本要求 Tobias Lütke ✅ 3月20日 团队成员们, 我们正在进入一个前所未有的时代,未来涌现的商家和创业者数量可能超过历史上的任何时期。我们一直在努力降低创业的复杂度,让更多人可以将其作为职业选择。在创业的每一步,都充满了需要技巧、判断力和知识的决策。现在,AI 不仅能提供咨询,还能直接帮助我们的商家完成工作,这无疑是一个飞跃式进步。 在 Shopify,我们的任务是打造一流的平台,助力大家创建未来的卓越企业。为此,我们必须保持技术领先,提供最佳工具,帮助商家取得超出他们想象的成功。而要做到这一点,我们必须走在最前沿。 在 Shopify,主动使用 AI 已成为基本要求 也许你们已经开始这样做,甚至觉得这份备忘录有些多余。如果是这样,你们已经在使用 AI 作为思考伙伴、深度研究助手、评论员、导师或结对编程伙伴。我个人也在频繁使用 AI,但即使如此,我也觉得仅仅触及了皮毛。AI 对工作方式的改变是我职业生涯中所见过的最快速的。我一直对 AI 抱有极大的热情,这一点大家应该很清楚:在每周的视频、播客、全体员工大会以及 Shopify 峰会上,我都曾多次提到 AI!去年夏天,我利用 AI 智能体来准备我的演讲,并向大家介绍了我的经验。我这样做是为了鼓励大家积极尝试 AI,消除任何对 AI 重要性的疑虑。很多同事都积极响应,我们都对 AI 所展现出的强大能力感到惊叹,它能够增强我们的技能、提升我们的工作效率,并弥补我们的不足。...

April 8, 2025 · 1 min · fisherdaddy

Llama 4 系列:原生多模态 AI 创新新纪元的开端

前几天 Meta 人工智能研究副总裁 Joelle Pineau 离职,Llama 就是她主导的项目,很多人以为 Llama 4 难产了,没想到今天(2025-04-05) Meta 就放出了 Llama4 系列模型,该系列的核心是 Llama 4 Scout 和 Llama 4 Maverick 两款开放权重的模型,它们首次采用了 专家混合 (MoE) 架构,并具备处理文本、图像和视频的原生多模态能力,同时支持 100M 超长上下文窗口。 1️⃣ 模型方面 Llama 4 Scout:拥有 17B 活跃参数和 16 个专家 (109B 总参数),可在单个 NVIDIA H100 GPU (Int4 量化) 上运行。其上下文窗口 10M tokens。性能优于 Gemma 3, Gemini 2.0 Flash-Lite, 和 Mistral 3.1。 Llama 4 Maverick:拥有 17B 活跃参数和 128 个专家 (400B 总参数),可在单个 H100 主机上运行。性能优于 GPT-4o 和 Gemini 2.0 Flash,在推理和编码方面与 DeepSeek v3 相当,但活跃参数更少。其聊天版本在 LMArena 上 ELO 评分达 1417。 Llama 4 Behemoth:“教师”模型,拥有 288B 活跃参数和 16 个专家 (近 2000B 总参数),仍在训练中。在多个 STEM 基准测试中表现优于 GPT-4....

April 6, 2025 · 5 min · fisherdaddy

丰裕时代 • Tom Blomfield

本文由 Y Combinator 合伙人 Tom Blomfield 在 2025 年 4 月 1 日在个人博客发表,核心观点如下: AI 编码能力的证据: 自 2022 年底 ChatGPT 和 2023 年初 Claude 推出以来,AI 编码能力进步显著。 作者使用 AI 工具在数小时内重建个人博客,并创建了包含约 35,000 行 AI 生成代码的 RecipeNinja.ai ,生产力提升了 10x 。 现代 AI 工具(如 Gemini 2.5 Pro )拥有百万级 token 上下文窗口,能够理解和修复中等规模代码库中的复杂错误,并能遵循最佳实践(如避免暴露 API 密钥)。 作者预测 AI 代理很快将具备更强的调试能力(如单步执行、检查变量)。 AI 驱动的未来团队: 设想由“产品经理” AI 代理设定方向,编码 AI 代理执行任务, QA AI 代理进行测试,安全/扩展性 AI 代理进行审查,客服 AI 代理收集反馈,形成高效的迭代循环。 超越软件工程: 知识工作(医疗、法律、金融等)的成本将大幅下降,可能通过每月订阅(如 $20/month )获得专家级建议。 短期内,依赖人际接触的高级合伙人可能受益,但执行具体任务的初中级专业人士面临风险。 物理性工作(如外科手术、设备操作)和受严格监管的行业(医药、法律)变革会较慢,但趋势不变。 当前趋势佐证: 近期 Y Combinator ( YC ) 孵化器中约四分之一的初创公司使用 AI 编写了 95%+ 的代码,且增长速度创历史记录。 Cursor , Windsurf , Harvey 等 AI 公司以极小团队实现了高收入(如 $100M+ )。 大型科技公司已放缓对初中级软件工程师和数据科学家的招聘。 未来展望与担忧: 商业成本降低,有护城河(网络效应、品牌等)的企业利润大增,无护城河的企业易被 AI 克隆。 少数 AI 赋能的巨头可能主导各行业服务市场。 “独立开发者”( indie hackers )利用 AI 工具创造高收入的机会增加。 核心担忧是收益分配不均和社会对大规模失业的准备不足。 作者强烈建议软件工程师花时间学习最新的 AI 工具,虽然这可能无法提供长期保障,但能在短期内显著提高生产力。他保持对未来的希望,但也对即将到来的剧变深感忧虑。...

April 3, 2025 · 2 min · fisherdaddy

【科普】大模型中常说的 MCP 是指什么?

大型语言模型(LLMs)的飞速发展,极大地拓展了人工智能的应用领域,它们在文本生成、语言理解、代码编写等多个方面展现出强大的能力。然而,这些模型的一个固有局限在于,它们的能力很大程度上受限于其训练数据的范围。这意味着,LLMs 往往缺乏对实时信息的感知(联网搜索),也无法直接与外部世界进行交互以执行具体的操作。 为了弥补这一不足,传统的做法是为每一个需要连接的数据源(如数据库、API、文件系统)和工具构建定制化的集成方案。然而,随着 AI 模型和外部工具数量的不断增长,这种方法很快变得难以维护和扩展,导致了一个被称为“MxN 问题”的局面——即 M 个 AI 模型需要与 N 个外部工具进行连接,所需的集成数量是 M 乘以 N。 这种“MxN 问题”暴露了当前 AI 生态系统在数据连接方面的瓶颈。每当出现一个新的 LLM 或一个新的外部工具,就需要进行大量的重复开发工作来建立它们之间的通信桥梁。这种复杂性不仅拖慢了 AI 应用的开发速度,也增加了维护成本,并限制了不同 AI 模型和工具之间的互操作性。 为了应对这些挑战,Anthropic 在 2024 年 11 月推出了模型上下文协议(Model Context Protocol,简称 MCP)。MCP 旨在成为一个开放的标准,用于规范 AI 助手如何连接到存储数据的各种系统,包括内容仓库、业务工具和开发环境。 MCP 协议刚推出时并没有引起什么反响,直到今年 3 月份,MCP 协议开始火起来,并被越来越多的公司所支持,如Cursor、Github、Google、Cloudflare 等等,就连 OpenAI 在前几天也宣布要支持 MCP 协议(另外,Anthropic 也偷偷兼容了 OpenAI SDK,可能他们做了对等的交易?)。国内这边,很多公司也在跟进和支持 MCP 协议,如百度地图、高德地图等等。 什么是模型上下文协议 (MCP)? 模型上下文协议(MCP)是一个开放协议,它定义了一种标准化的方式,使得应用程序能够为大型语言模型(LLMs)提供上下文信息。其核心目标是实现 AI 模型与外部工具、数据库和 API 之间的无缝且标准化的集成。 可以将 MCP 视为 AI 领域的“USB-C 接口”。正如 USB-C 为各种设备连接到计算机提供了通用的接口一样,MCP 为 AI 模型与各种外部资源进行交互提供了一个标准化的方法。它充当了一个“通用连接器”或“通用适配器”,使得 LLMs 能够动态地与外部资源进行交互,从而获取实时的、准确的、相关的信息,并利用外部工具执行任务。...

April 2, 2025 · 2 min · fisherdaddy

模型上下文协议 (MCP) 之 Roadmap

本文翻译自 MCP 官方文档。 路线图 - 模型上下文协议 (MCP) 模型上下文协议 (MCP) 正在快速发展。本页面概述了我们当前对 2025 年上半年 关键优先事项和未来方向的思考,尽管随着项目的发展,这些内容可能会发生重大变化。 这里提出的想法并非承诺——我们可能会以不同于所述的方式来解决这些问题,或者其中一些问题可能根本不会实现。这也不是一个详尽的列表;我们可能还会加入这里未提及的工作内容。 我们鼓励社区参与!每个部分都链接到相关讨论,您可以在其中了解更多信息并贡献您的想法。 远程 MCP 支持 我们的首要任务是改进远程 MCP 连接,允许客户端通过互联网安全地连接到 MCP 服务器。关键举措包括: 认证与授权:添加标准化的认证授权能力,特别侧重于 OAuth 2.0 支持。 服务发现:定义客户端如何发现并连接到远程 MCP 服务器。 无状态操作:思考 MCP 是否也可以包含无服务器环境,在这种环境中它们需要基本上是无状态的。 参考实现 为了帮助开发者使用 MCP 进行构建,我们希望提供以下方面的文档: 客户端示例:全面的参考客户端实现,演示所有协议功能。 协议起草:简化提出和采纳新协议功能的流程。 分发与发现 展望未来,我们正在探索使 MCP 服务器更易于访问的方法。我们可能研究的一些领域包括: 包管理:MCP 服务器的标准化打包格式。 安装工具:简化跨 MCP 客户端的服务器安装。 沙盒化:通过服务器隔离提高安全性。 服务器注册表:用于发现可用 MCP 服务器的通用目录。 智能体 (Agent) 支持 我们正在扩展 MCP 的能力以支持复杂的智能体工作流,特别关注: 分层智能体系统:通过命名空间和拓扑感知改进对树状智能体结构的支持。 交互式工作流:更好地处理跨智能体层级的用户权限和信息请求,以及将输出发送给用户而非模型的方式。 流式结果:来自长时间运行的智能体操作的实时更新。 更广泛的生态系统 我们也致力于: 社区主导的标准开发:促进一个协作生态系统,所有 AI 提供商都可以通过平等参与和共享治理,帮助将 MCP 打造成一个开放标准,确保它满足多样化的 AI 应用和用例需求。 其他模态:扩展到文本之外,以支持音频、视频和其他格式。 [标准化]:考虑通过标准化组织进行标准化。 参与进来 我们欢迎社区参与塑造 MCP 的未来。请访问我们的 GitHub 讨论区 加入对话并贡献您的想法。

March 28, 2025 · 1 min · fisherdaddy

模型上下文协议 (MCP) 之基本原理

本文翻译自 MCP 官方文档。 核心架构 模型上下文协议 (MCP) 构建在一个灵活、可扩展的架构之上,旨在实现 LLM 应用和集成之间的无缝通信。本文档涵盖了其核心架构组件和概念。 概述 MCP 遵循客户端-服务器架构,其中: 主机 (Hosts) 是发起连接的 LLM 应用(例如 Claude Desktop 或 IDE)。 客户端 (Clients) 在主机应用内部,与服务器保持 1:1 连接。 服务器 (Servers) 向客户端提供上下文、工具和提示。 核心组件 协议层 协议层处理消息分帧、请求/响应关联以及高级通信模式。 class Session(BaseSession[RequestT, NotificationT, ResultT]): async def send_request( self, request: RequestT, result_type: type[Result] ) -> Result: """ Send request and wait for response. Raises McpError if response contains error. """ # Request handling implementation async def send_notification( self, notification: NotificationT ) -> None: """Send one-way notification that doesn't expect response....

March 28, 2025 · 12 min · fisherdaddy