Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

    1. 精心翻译的优质博客内容
    1. 前沿技术分享
    1. 认知分享

📚 博客内容:

    1. 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
    1. 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
    1. 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。

下半场 • Shunyu Yao

本文是 OpenAI 研究员的 Shunyu Yao 在个人博客发表的一篇文章,主要探讨了人工智能 (AI) 领域正经历一个重要的转折点,从专注于开发新训练方法和模型的“上半场”进入到侧重于定义问题和评估实际效用的“下半场”。 AI 发展的阶段性转变: AI 领域正从以方法和模型创新为主导的“上半场”过渡到以问题定义和评估为核心的“下半场”。 上半场的特征: 重点是开发新的训练方法(如 Transformer)和模型(如 AlexNet, GPT-3),并通过在基准测试(如 ImageNet, WMT'14)上取得进展来衡量成功。方法创新被认为比任务定义更重要、更具影响力。 下半场的催化剂: 一个包含大规模语言预训练、数据与计算规模、以及推理与行动概念的“配方”已经成熟,特别是强化学习 (RL) 实现了泛化。这个配方使得在各种基准上取得进展变得更加标准化和工业化。 下半场的焦点: 由于现有方法足以解决许多基准问题,未来的重点应转向定义 AI 应该做什么,以及如何衡量其在现实世界中的真实效用 (utility)。这需要根本性地反思和创新评估方法。 思维模式的转变: 从业者需要像产品经理一样思考,质疑现有评估假设(如自主性、独立同分布 i.i.d.),并创建更贴近现实应用场景的新评估范式。 原文:下半场 tldr: 我们正处于人工智能 (AI) 的中场休息。 几十年来,人工智能 (AI) 主要致力于开发新的训练方法和模型。而且这很奏效:从击败国际象棋和围棋的世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到获得国际数学奥林匹克 (IMO) 和国际信息学奥林匹克 (IOI) 金牌。这些历史书中的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后是人工智能方法的基础创新:搜索、深度强化学习 (deep RL)、扩展 (scaling) 和推理 (reasoning)。技术一直在不断进步。 那么现在有什么突然不同了呢? 用三个词来说:强化学习 (RL) 终于奏效了。更准确地说:强化学习终于可以泛化了。经过几次重大的弯路和一系列里程碑的积累,我们找到了一个行之有效的配方,可以使用语言和推理来解决各种强化学习任务。即使在一年前,如果你告诉大多数人工智能研究人员,一个单一的配方可以处理软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作以及长篇问答——他们会嘲笑你的异想天开。这些任务中的每一项都极其困难,许多研究人员甚至会将整个博士生涯专注于其中一个狭窄领域。 然而,这一切成为了现实。 那么接下来会发生什么?人工智能的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问“我们能否训练一个模型来解决 X?”,而是问“我们应该训练人工智能做什么,以及如何衡量真正的进步?”。为了在这个下半场取得成功,我们需要及时转变思维模式和技能组合,这些可能更接近产品经理所需的能力。 上半场 为了理解上半场,看看它的赢家。你认为迄今为止最具影响力的人工智能论文是什么? 我试了试斯坦福 224N 的测试题,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同之处?它们提出了一些基础性的突破来训练更好的模型。同时,它们通过在一些(显著的)基准测试上展示改进成功发表了论文。 然而,存在一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使可以说是最具影响力的基准测试 ImageNet,其引用次数也少于 AlexNet 的三分之一。方法与基准测试的对比在其他任何地方都更加剧烈——例如,Transformer 的主要基准测试是 WMT’14,其工作坊报告有约 1,300 次引用,而 Transformer 有超过 160,000 次引用。...

April 24, 2025 · 2 min · fisherdaddy

生成式 AI 项目的自动化评估的迭代构建法 • Andrew Ng

本文是 Andrew Ng 在 Deeplearning.AI 官方网站发布的一篇文章。Andrew Ng 指出,在开发生成式 AI ( GenAI )应用时,许多团队过晚引入自动化评估( evals ),并过度依赖人工评估,因为他们将构建 evals 视为一项庞大的前期投资。作者提倡采用迭代方法来构建 evals ,即从简单、快速的版本开始,然后逐步改进,从而更早地利用自动化评估加速项目进展。 延迟原因:构建 evals 被视为需要大量前期工作(如创建数百甚至上千示例、设计和验证指标),且 LLM-as-judge 等现有技术实施细节复杂,让人觉得不如暂时依赖人工评估。 迭代构建 evals 的方法: 从小规模开始:可以从极少数示例(例如 5 个)开始,并根据需要逐步增加或删减。 评估部分维度:初期可以只关注部分核心性能指标,或那些与整体性能相关的、易于测量的指标,无需追求一开始就全面覆盖。 具体示例: 对于客服机器人,初期可只评估是否正确调用了退款 API ,暂不评估回复消息的质量。 对于产品推荐机器人,初期可只检查是否提及了正确的产品,而不必关心具体描述方式。 双重迭代循环:开发过程包含两个并行的迭代: 迭代改进 AI 系统本身(依据自动化 evals 和人工判断)。 迭代改进 evals 本身,使其评估结果更贴近人工判断。 成功 evals 的标准: 如果人工判断系统 A 显著优于 B,则 evals 应给予 A 显著更高的分数。 如果 A 和 B 性能相似,则 evals 分数也应相近。 Evals 的“错误分析”:当 evals 对系统 A 和 B 的排序与人工判断不符时,应视其为 evals 本身的“错误”,并对其进行调整优化,使其能正确反映系统间的相对性能。 最终建议:尽管项目初期依赖人工判断是可行的,但尽早引入简单的自动化 evals 并持续迭代,能更有效地加速 GenAI 应用的开发进程。 原文 Dear friends,...

April 22, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI o3 和 o4-mini

OpenAI 于 2025年 4 月 17 日推出了 o3 和 o4-mini,这两款模型在智能和能力上都代表了显著的进步,特别是它们能够在其响应前进行更长时间的“思考”,并且首次实现了对 ChatGPT 内所有工具(如网页搜索、使用 Python 进行数据分析、视觉输入推理、图像生成等)的自主、智能调用和组合。 新模型发布: OpenAI 推出了其 o 系列中迄今为止最智能、能力最强的模型——o3 和 o4-mini。 核心能力提升: 这两款模型被训练用于更深度的推理(“思考更长时间”),显著提升了 ChatGPT 的能力。 全面的工具集成: 模型首次能够自主地(agentically)决定何时以及如何使用 ChatGPT 内的所有工具(网络搜索、代码执行、视觉分析、图像生成等)来解决复杂问题。 迈向智能代理: 这是向更具自主性的 ChatGPT 迈出的一步,使其能够独立代表用户执行多方面任务。 性能新标杆: 结合了顶尖的推理能力和全面的工具使用,使得模型在学术基准测试和现实世界任务中表现显著增强,树立了智能和实用性的新标准。 模型定位: o3 是功能最强大的前沿模型,适用于复杂分析;o4-mini 则为速度和成本效益进行了优化,适合需要推理能力的大容量、高吞吐量任务。 介绍 OpenAI o3 和 o4-mini 我们迄今为止最智能且功能最强大的 AI 模型,并赋予了它们完整的工具使用权限 今天,我们发布 OpenAI o3 和 o4-mini,这是我们 o 系列模型中的最新成员,这些模型经过训练,可以在响应之前进行更深入的思考。 它们是我们迄今为止发布的最智能的 AI 模型,代表着 ChatGPT 在能力上的一次飞跃,惠及从普通用户到高级研究人员的每一个人。 我们的推理模型首次能够以智能代理式地使用和组合 ChatGPT 中的每一个工具——包括网络搜索、使用 Python 分析上传的文件和其他数据、对视觉输入进行深入推理,甚至是生成图像。 关键在于,这些模型经过专门训练,能够判断何时以及如何使用工具,以正确的输出格式(通常在一分钟内)生成细致且周到的答案,从而解决更为复杂的问题。 这使得它们能够更有效地处理多方面的问题,朝着更具智能体 (AI Agent) 能力的 ChatGPT 迈出了一步,让 ChatGPT 能够代表您独立执行任务。 这种最先进的推理能力与完整工具访问权限的结合,转化为在学术基准和实际任务中性能的显著提升,为智能和实用性都树立了新的标杆。...

April 17, 2025 · 3 min · fisherdaddy

介绍一下 GPT-4.1 系列模型

OpenAI 于 2025年 4 月 15 日推出了 GPT-4.1 系列 API 模型:GPT-4.1、mini 及 nano。相较于 GPT-4o 和 GPT-4o mini,这些模型在各方面都实现了超越,尤其在代码生成和指令执行上的提升尤为显著。不仅如此,它们还拥有更大的上下文窗口,最多可处理 100 万个 Token,并能凭借更出色的长文本理解能力,充分利用这些上下文信息。同时,它们的知识库也已更新至 2024 年 6 月。 新模型发布: OpenAI 推出了 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三款 API 专用模型。 性能提升: 新模型在编码、指令遵循和长文本理解能力上全面优于 GPT-4o 和 GPT-4o mini。 长文本支持: 所有新模型均支持高达 1 million tokens 的上下文窗口,并提升了长文本理解的可靠性。 成本与效率: 新模型旨在以更低的成本和延迟提供更优的性能,特别是在 GPT-4.1 mini 和 nano 版本上体现。 应用场景: 改进的性能使新模型更适用于构建复杂的 agent 系统,处理如软件工程、文档分析和客户服务等任务。 模型可用性: GPT-4.1 系列模型仅通过 API 提供。ChatGPT 中的 GPT-4o 已逐步整合相关改进。 模型弃用: GPT-4.5 Preview 将在 July 14, 2025 被弃用,开发者需迁移至 GPT-4....

April 15, 2025 · 6 min · fisherdaddy

Llama 4 综合评估:基准表现、实际能力与争议

Meta 作为人工智能领域的关键参与者,持续通过其 Llama 系列模型推动开源大语言模型的发展。继 Llama 3 取得显著成功后,Meta 于 2025 年 4 月 5 日推出了备受期待的 Llama 4 系列模型。Llama 4 引入了混合专家(MoE)架构和原生多模态等关键技术革新,Meta 公布的基准测试数据显示其在多个指标上表现优异,甚至超越了一些领先的闭源模型。然而,大量来自开发者社区和独立测试者的实际应用反馈却指出,Llama 4 在编码、推理等方面的实际表现并未达到预期,甚至不如一些参数量更小的模型。这种基准分数与实测能力之间的显著差异,引发了关于 Llama 4 是否存在针对性“刷榜”以及模型真实能力的广泛讨论和质疑。 今天正好 Google 更新了 DeepResearch:由原来基于 Gemini 2.0 Flash Thinking 模型,改为基于 Gemini 2.5 pro 模型(目前已公开的最强模型),结果准确率大幅提升。Google 放出来了和 OpenAI DeepResaerch 的对比评测,我也尝试了一些 case,确实比上个版本好很多。本篇文章大部分由 Gemini 的 DeepResearch 所写,我对结果进行了编排、校审和微调。 Llama 4 模型家族概览 Llama 4 系列是 Meta 推出的新一代 AI 模型,旨在支持整个 Llama 生态系统,并被 Meta 称为其迄今最先进的模型。该系列引入了混合专家(MoE)架构和原生多模态设计。目前已发布和预告的模型包括: Llama 4 Scout: 这是一款轻量级、高效率的模型,拥有 109B 总参数和 16 个专家,每次推理激活 17B 参数。Scout 的突出特点是其业界领先的 1000 万 token 上下文窗口,远超 Llama 3 的 128K。它被设计为可在单个 NVIDIA H100 GPU 上通过 Int4 量化高效运行,适用于通用 AI 任务,尤其擅长处理超长文档摘要、大规模代码库推理和个性化任务。Meta 称 Scout 是其同类产品中“世界上最好的多模态模型”。 Llama 4 Maverick: 这款模型同样拥有 17B 激活参数,但总参数量达到 400B,并配备了 128 个专家。Maverick 被定位为通用主力模型,特别适用于助手和聊天场景,在图像理解、创意写作和多语言处理方面表现出色。它支持 100 万 token 的上下文窗口,并可在单个 H100 主机(或多 GPU)上运行。Meta 称 Maverick 在多个基准测试中击败了 GPT-4o 和 Gemini 2....

April 9, 2025 · 6 min · fisherdaddy

赋能于民:大语言模型如何改写技术普及的剧本 • Andrej Karpathy

本文来自 Andrej Karpathy 在 X 上发布的一篇文章《Power to the people: How LLMs flip the script on technology diffusion 》。核心观点是,大型语言模型( LLMs )的技术扩散模式颠覆了传统技术自上而下(从政府/企业到个人)的传播路径。 LLMs 目前为普通个体带来了前所未有的、不成比例的巨大利益,其影响在企业和政府层面反而相对滞后。这是因为 LLMs 提供了广泛但相对浅显的能力,极大地赋能了缺乏多领域专业知识的个人;而组织机构在利用这种新技术时,则面临着整合复杂性、高风险以及内部惯性等挑战。尽管当前 LLMs 的普惠性是历史性的,但未来的技术发展和成本结构可能改变这种“利益分配”格局。 传统技术扩散:历史上,变革性技术(如电力、计算机、互联网、 GPS )通常遵循从政府/军事到企业再到个人的“自上而下”路径,因为早期技术稀缺、资本密集且需要专业知识。 LLMs 的独特路径: LLMs (以 ChatGPT 为例)显著逆转了该模式。 ChatGPT 成为史上增长最快的消费应用,拥有 4 亿周活跃用户,广泛用于写作、编码、翻译、学习、研究等个人任务。 个体受益显著的原因: LLMs 大幅提升了个人在多个陌生领域的能力水平。 使用门槛极低:成本低廉(甚至免费)、快速、易于通过网络或本地设备访问,并支持自然语言交流。 企业/政府受益相对有限的原因: 能力匹配度: LLMs 提供的是“准专家级”的广泛但浅显、可能出错的能力。而组织的核心优势在于整合深度专业知识。 LLMs 更多是提升现有专家的效率,而非带来颠覆性改变。 复杂性与风险:组织运营涉及更高的复杂性(系统集成、遗留系统、安全、隐私、合规)和更低的容错率,难以简单应用 LLMs ,且“幻觉”等错误的代价高昂。 组织惯性:企业文化、政治因素、沟通成本、培训挑战和官僚主义阻碍了对这种新型、多才多艺但尚不完全可靠工具的快速采纳。 当前的普惠性:目前,普通人( Mary , Jim , Joes )比大型组织(如 Google 或美国政府)更能体验到 LLMs 带来的改变。前沿模型如 GPT 4o 对所有人(包括 Bill Gates )都同样可及。 未来展望与不确定性: LLMs 的持续影响取决于性能的提升。 “利益分配”格局可能改变。如果未来获取更强 AI 能力需要高昂成本(性能与资本支出挂钩),大型组织和富裕个体可能重新获得优势(例如,使用 GPT-8-pro-max-high 对比 GPT-6 mini )。 影响因素包括:扩大性能差距的技术(如规模扩展、模型集成)和缩小差距的技术(如模型蒸馏)。 作者的感慨:当前的局面——强大的 AI ( ChatGPT )几乎一夜之间免费普及到每个人的口袋里——是独特且出乎意料的,与许多科幻设想不同。引用并修正 William Gibson 的名言:“未来已来,且分布惊人地均匀”。作者对此表示赞赏(“权力归于人民”)。 原文:赋能于民:大语言模型如何改写技术普及的剧本 变革性技术通常遵循自上而下的扩散路径:它们往往起源于政府或军事部门,然后逐渐普及到企业,最终进入个人手中——比如电力、密码学、计算机、航空、互联网或 GPS。这种发展路径似乎是理所当然的,因为新兴的强大技术在早期通常比较稀缺,需要大量的资金投入,而且使用它们还需要专业的技能。...

April 8, 2025 · 1 min · fisherdaddy

Shopify 使用 AI 已成为基本要求 • Tobias Lütke

Shopify CEO 发内部全员邮件,强调 AI 带来的巨大创业机遇,同时也要求公司全员都必须学习和应用 AI,把使用 AI 变为每个员工的一个基本要求,并计入绩效考核。还提到,如果后面谁想要 HC,必须要先论证为什么不能通过 AI Agent 来解决。 AI 使用成为基本要求: 在 Shopify ,熟练运用 AI 不再是可选项,而是对所有员工的基本工作要求。这被视为跟上公司发展(类比“红皇后赛跑”)和个人职业发展的必要条件,不学习 AI 等同于停滞和失败。 AI 是强大的生产力倍增器: AI 工具被视为能将个人和团队的产出提升 10 倍甚至 100 倍的“倍增器”,能够帮助解决以前看似不可能完成的任务。 拥抱 AI 符合核心价值观: 积极学习和应用 AI 与 Shopify 的核心价值观“成为持续学习者”( Be a Constant Learner )和“在变革中茁壮成长”( Thrive on Change )紧密相连。 Shopify 的未来与 AI 深度绑定: 公司致力于利用 AI 重新定义创业模式,并将 AI 深度整合到产品路线图和日常工作中,以更好地服务商家。 使用 AI 已成为基本要求 Tobias Lütke ✅ 3月20日 团队成员们, 我们正在进入一个前所未有的时代,未来涌现的商家和创业者数量可能超过历史上的任何时期。我们一直在努力降低创业的复杂度,让更多人可以将其作为职业选择。在创业的每一步,都充满了需要技巧、判断力和知识的决策。现在,AI 不仅能提供咨询,还能直接帮助我们的商家完成工作,这无疑是一个飞跃式进步。 在 Shopify,我们的任务是打造一流的平台,助力大家创建未来的卓越企业。为此,我们必须保持技术领先,提供最佳工具,帮助商家取得超出他们想象的成功。而要做到这一点,我们必须走在最前沿。 在 Shopify,主动使用 AI 已成为基本要求 也许你们已经开始这样做,甚至觉得这份备忘录有些多余。如果是这样,你们已经在使用 AI 作为思考伙伴、深度研究助手、评论员、导师或结对编程伙伴。我个人也在频繁使用 AI,但即使如此,我也觉得仅仅触及了皮毛。AI 对工作方式的改变是我职业生涯中所见过的最快速的。我一直对 AI 抱有极大的热情,这一点大家应该很清楚:在每周的视频、播客、全体员工大会以及 Shopify 峰会上,我都曾多次提到 AI!去年夏天,我利用 AI 智能体来准备我的演讲,并向大家介绍了我的经验。我这样做是为了鼓励大家积极尝试 AI,消除任何对 AI 重要性的疑虑。很多同事都积极响应,我们都对 AI 所展现出的强大能力感到惊叹,它能够增强我们的技能、提升我们的工作效率,并弥补我们的不足。...

April 8, 2025 · 1 min · fisherdaddy

Llama 4 系列:原生多模态 AI 创新新纪元的开端

前几天 Meta 人工智能研究副总裁 Joelle Pineau 离职,Llama 就是她主导的项目,很多人以为 Llama 4 难产了,没想到今天(2025-04-05) Meta 就放出了 Llama4 系列模型,该系列的核心是 Llama 4 Scout 和 Llama 4 Maverick 两款开放权重的模型,它们首次采用了 专家混合 (MoE) 架构,并具备处理文本、图像和视频的原生多模态能力,同时支持 100M 超长上下文窗口。 1️⃣ 模型方面 Llama 4 Scout:拥有 17B 活跃参数和 16 个专家 (109B 总参数),可在单个 NVIDIA H100 GPU (Int4 量化) 上运行。其上下文窗口 10M tokens。性能优于 Gemma 3, Gemini 2.0 Flash-Lite, 和 Mistral 3.1。 Llama 4 Maverick:拥有 17B 活跃参数和 128 个专家 (400B 总参数),可在单个 H100 主机上运行。性能优于 GPT-4o 和 Gemini 2.0 Flash,在推理和编码方面与 DeepSeek v3 相当,但活跃参数更少。其聊天版本在 LMArena 上 ELO 评分达 1417。 Llama 4 Behemoth:“教师”模型,拥有 288B 活跃参数和 16 个专家 (近 2000B 总参数),仍在训练中。在多个 STEM 基准测试中表现优于 GPT-4....

April 6, 2025 · 5 min · fisherdaddy

丰裕时代 • Tom Blomfield

本文由 Y Combinator 合伙人 Tom Blomfield 在 2025 年 4 月 1 日在个人博客发表,核心观点如下: AI 编码能力的证据: 自 2022 年底 ChatGPT 和 2023 年初 Claude 推出以来,AI 编码能力进步显著。 作者使用 AI 工具在数小时内重建个人博客,并创建了包含约 35,000 行 AI 生成代码的 RecipeNinja.ai ,生产力提升了 10x 。 现代 AI 工具(如 Gemini 2.5 Pro )拥有百万级 token 上下文窗口,能够理解和修复中等规模代码库中的复杂错误,并能遵循最佳实践(如避免暴露 API 密钥)。 作者预测 AI 代理很快将具备更强的调试能力(如单步执行、检查变量)。 AI 驱动的未来团队: 设想由“产品经理” AI 代理设定方向,编码 AI 代理执行任务, QA AI 代理进行测试,安全/扩展性 AI 代理进行审查,客服 AI 代理收集反馈,形成高效的迭代循环。 超越软件工程: 知识工作(医疗、法律、金融等)的成本将大幅下降,可能通过每月订阅(如 $20/month )获得专家级建议。 短期内,依赖人际接触的高级合伙人可能受益,但执行具体任务的初中级专业人士面临风险。 物理性工作(如外科手术、设备操作)和受严格监管的行业(医药、法律)变革会较慢,但趋势不变。 当前趋势佐证: 近期 Y Combinator ( YC ) 孵化器中约四分之一的初创公司使用 AI 编写了 95%+ 的代码,且增长速度创历史记录。 Cursor , Windsurf , Harvey 等 AI 公司以极小团队实现了高收入(如 $100M+ )。 大型科技公司已放缓对初中级软件工程师和数据科学家的招聘。 未来展望与担忧: 商业成本降低,有护城河(网络效应、品牌等)的企业利润大增,无护城河的企业易被 AI 克隆。 少数 AI 赋能的巨头可能主导各行业服务市场。 “独立开发者”( indie hackers )利用 AI 工具创造高收入的机会增加。 核心担忧是收益分配不均和社会对大规模失业的准备不足。 作者强烈建议软件工程师花时间学习最新的 AI 工具,虽然这可能无法提供长期保障,但能在短期内显著提高生产力。他保持对未来的希望,但也对即将到来的剧变深感忧虑。...

April 3, 2025 · 2 min · fisherdaddy

【科普】大模型中常说的 MCP 是指什么?

大型语言模型(LLMs)的飞速发展,极大地拓展了人工智能的应用领域,它们在文本生成、语言理解、代码编写等多个方面展现出强大的能力。然而,这些模型的一个固有局限在于,它们的能力很大程度上受限于其训练数据的范围。这意味着,LLMs 往往缺乏对实时信息的感知(联网搜索),也无法直接与外部世界进行交互以执行具体的操作。 为了弥补这一不足,传统的做法是为每一个需要连接的数据源(如数据库、API、文件系统)和工具构建定制化的集成方案。然而,随着 AI 模型和外部工具数量的不断增长,这种方法很快变得难以维护和扩展,导致了一个被称为“MxN 问题”的局面——即 M 个 AI 模型需要与 N 个外部工具进行连接,所需的集成数量是 M 乘以 N。 这种“MxN 问题”暴露了当前 AI 生态系统在数据连接方面的瓶颈。每当出现一个新的 LLM 或一个新的外部工具,就需要进行大量的重复开发工作来建立它们之间的通信桥梁。这种复杂性不仅拖慢了 AI 应用的开发速度,也增加了维护成本,并限制了不同 AI 模型和工具之间的互操作性。 为了应对这些挑战,Anthropic 在 2024 年 11 月推出了模型上下文协议(Model Context Protocol,简称 MCP)。MCP 旨在成为一个开放的标准,用于规范 AI 助手如何连接到存储数据的各种系统,包括内容仓库、业务工具和开发环境。 MCP 协议刚推出时并没有引起什么反响,直到今年 3 月份,MCP 协议开始火起来,并被越来越多的公司所支持,如Cursor、Github、Google、Cloudflare 等等,就连 OpenAI 在前几天也宣布要支持 MCP 协议(另外,Anthropic 也偷偷兼容了 OpenAI SDK,可能他们做了对等的交易?)。国内这边,很多公司也在跟进和支持 MCP 协议,如百度地图、高德地图等等。 什么是模型上下文协议 (MCP)? 模型上下文协议(MCP)是一个开放协议,它定义了一种标准化的方式,使得应用程序能够为大型语言模型(LLMs)提供上下文信息。其核心目标是实现 AI 模型与外部工具、数据库和 API 之间的无缝且标准化的集成。 可以将 MCP 视为 AI 领域的“USB-C 接口”。正如 USB-C 为各种设备连接到计算机提供了通用的接口一样,MCP 为 AI 模型与各种外部资源进行交互提供了一个标准化的方法。它充当了一个“通用连接器”或“通用适配器”,使得 LLMs 能够动态地与外部资源进行交互,从而获取实时的、准确的、相关的信息,并利用外部工具执行任务。...

April 2, 2025 · 2 min · fisherdaddy