Andrew Ng

吴恩达 YC AI 创业学校演讲：在 AI 时代，速度就是一切

本文来自于吴恩达（Andrew Ng）在 YC 举办的 AI 创业学校的演讲。如果你想在今天这个AI浪潮里做点什么，那你来对地方了。我叫吴恩达（Andrew Ng），在我的风险工作室AI Fund，我们就像一个高产的“创业工厂”，平均每个月就会孵化一家新的创业公司。我们不只是旁观者，而是亲自下场，和创业者一起写代码、聊客户、定价格、设计功能。在无数次的实战中，我们摸爬滚打，积累了一套关于如何在这个瞬息万变的AI时代快速打造成功企业的经验。今天，我想把这些滚烫的经验分享给你。核心就一个词：速度。对于创业公司来说，执行速度几乎是成功的头号预测指标。而好消息是，新的人工智能技术，正在让创业的速度快到超乎想象。最大的金矿在哪？别只盯着技术层在讨论如何“快”之前，我们先得看清地图。很多人问我，AI时代的机会到底在哪里？我们可以把AI想象成一个技术栈：底层是英伟达这样的半导体公司。往上是云计算平台。再往上是OpenAI这样的基础模型公司。最顶层，也是最重要的，是应用层。尽管媒体和公众的目光大多聚焦在下面几层技术上，但从逻辑上讲，最大的机会必然在应用层。说白了，应用层得赚够钱，才能养活下面一整条产业链。所以，如果你想创业，别被那些光鲜的技术名词迷惑，真正的金矿在应用里。最重要的技术趋势：Agentic AI正在改写规则过去一年，AI领域最激动人心的变化是什么？在我看来，是**智能体（Agentic AI）**的崛起。一年前，当我到处宣讲“AI Agent会是未来”时，很多人还觉得这概念很新鲜。没想到后来市场营销人员把“Agent”这个词当成了万能贴纸，到处乱用，反而让它有点失去了本来的意义。但从技术角度看，Agentic AI的价值是实实在在的。我们过去用大模型（LLM），就像让它写一篇文章，但有个苛刻的要求：不能打草稿，不能用退格键，必须从第一个字到最后一个字一气呵成。这太为难人了，对吧？AI也一样。尽管如此，LLM的表现已经很惊人了。而Agentic工作流则完全不同。它允许AI像人一样思考和工作：先列个大纲。如果需要，可以上网搜索资料。写出第一稿。自己阅读、批判、修改第一稿。循环往复，直到满意为止。这个过程虽然慢一些，但最终产出的质量天差地别。在AI Fund的很多项目里，无论是处理复杂的合规文件、进行医疗诊断，还是分析法律文书，Agentic工作流都是从“不可行”到“可行”的关键。这也为AI技术栈增加了一个新的层次：Agentic编排层（Agentic Orchestration Layer）。它帮助应用开发者协调对底层技术的多次调用，让构建强大的应用变得更加容易。创业第一课：抛弃“宏大愿景”，拥抱“具体想法” 在AI Fund，我们只做一件事：执行具体的想法（Concrete Ideas）。什么叫“具体”？就是你的想法足够清晰，清晰到工程师可以直接动手去实现。模糊的想法：“用AI优化医疗资源。”——这太空泛了，十个工程师会做出十个完全不同的东西，根本快不起来。具体的想法：“开发一个软件，让医院病人能在线预约核磁共振（MRI）的空闲时段，以提高设备使用率。”——不管这是不是个好主意，但它足够具体，工程师今天下午就能开工。模糊的想法特别有欺骗性。你跟朋友说“我要用AI改变医疗”，大家都会夸你“想法真棒！”。但实际上，这种无法执行的想法一文不值。模糊几乎总是对的，但具体才有可能创造价值，也可能让你犯错。犯错没关系，重要的是快速发现它。要找到好的具体想法，通常需要你或者某个领域的专家“在想法的迷宫里徜徉”很长时间。当你对一个领域思考得足够久、和足够多的用户聊过天之后，你的**直觉（Gut Feeling）**会变得异常敏锐。这时候，做决策（比如该做哪个功能）靠直觉，往往比费力地收集数据要快得多，也准得多。创业公司资源有限，不可能同时尝试十件事。最佳策略是：选定一个具体的假设，全力以赴去验证它。如果数据证明你错了，没关系，像U盘一样瞬间掉头（Pivot on the dime）。以同样的决心，去追逐下一个具体的想法。如果你发现每次和客户聊完天，都想彻底改变方向，那可能说明你对这个领域的了解还太少，需要找个更懂行的人来帮你找到那个更靠谱的“具体想法”。创业第二课：把代码当成草稿，大胆地写，大胆地扔打造产品的核心是一个循环：构建（Build）➡️ 获取反馈（Feedback）➡️ 迭代。过去，这个循环的瓶颈在“构建”环节，因为写代码很慢。但现在，AI编程助手彻底改变了游戏规则。我们写软件可以分为两种：快速原型（Quick and Dirty Prototypes）：为了测试一个想法。生产级软件（Production Software）：需要维护、稳定、安全的大型代码库。在维护生产级代码时，AI能让我们提速30%-50%。但在构建快速原型时，我们不是快了50%，而是快了至少10倍！...

生成式 AI 项目的自动化评估的迭代构建法 • Andrew Ng

本文是 Andrew Ng 在 Deeplearning.AI 官方网站发布的一篇文章。Andrew Ng 指出，在开发生成式 AI （ GenAI ）应用时，许多团队过晚引入自动化评估（ evals ），并过度依赖人工评估，因为他们将构建 evals 视为一项庞大的前期投资。作者提倡采用迭代方法来构建 evals ，即从简单、快速的版本开始，然后逐步改进，从而更早地利用自动化评估加速项目进展。延迟原因：构建 evals 被视为需要大量前期工作（如创建数百甚至上千示例、设计和验证指标），且 LLM-as-judge 等现有技术实施细节复杂，让人觉得不如暂时依赖人工评估。迭代构建 evals 的方法：从小规模开始：可以从极少数示例（例如 5 个）开始，并根据需要逐步增加或删减。评估部分维度：初期可以只关注部分核心性能指标，或那些与整体性能相关的、易于测量的指标，无需追求一开始就全面覆盖。具体示例：对于客服机器人，初期可只评估是否正确调用了退款 API ，暂不评估回复消息的质量。对于产品推荐机器人，初期可只检查是否提及了正确的产品，而不必关心具体描述方式。双重迭代循环：开发过程包含两个并行的迭代：迭代改进 AI 系统本身（依据自动化 evals 和人工判断）。迭代改进 evals 本身，使其评估结果更贴近人工判断。成功 evals 的标准：如果人工判断系统 A 显著优于 B，则 evals 应给予 A 显著更高的分数。如果 A 和 B 性能相似，则 evals 分数也应相近。 Evals 的“错误分析”：当 evals 对系统 A 和 B 的排序与人工判断不符时，应视其为 evals 本身的“错误”，并对其进行调整优化，使其能正确反映系统间的相对性能。最终建议：尽管项目初期依赖人工判断是可行的，但尽早引入简单的自动化 evals 并持续迭代，能更有效地加速 GenAI 应用的开发进程。原文 Dear friends,...

强化学习升温，白宫发布 AI 新政，DeepSeek 开源模型引热议：AI 未来走向何方？• Andrew Ng

本文是 Andrew Ng 在 Deeplearning.AI 官方网站发布的一篇文章，主要探讨了近期 AI 领域的几个重要趋势和进展，涵盖了中国在生成式 AI 领域的快速发展、开源模型的影响、强化学习在提升语言模型推理能力方面的作用、AI 智能体在计算机应用中的兴起，以及美国 AI 政策的新动向和利用合成数据进行模型微调的优化方法。文章的核心论点包括：中国 AI 追赶： DeepSeek 发布的 DeepSeek-R1 模型，在基准测试中性能与 OpenAI 的 o1 相当，并以 MIT 许可证开源发布。 DeepSeek-R1 的发布引发市场对中国 AI 进步的关注，甚至导致 Nvidia 等美国科技公司股价短暂下跌 (“DeepSeek selloff”)。中国的 Qwen、Kimi、InternVL 等模型也显示出中国在生成式 AI 领域的快速发展。开源模型对于 AI 供应链至关重要，美国若限制开源，可能导致中国在这一领域占据主导地位。开源模型商品化： DeepSeek R1 的 token 价格远低于 OpenAI 的 o1 (DeepSeek R1 为 $2.19 / 百万 tokens，o1 为 $60 / 百万 tokens)，价格差异近 30 倍。训练基础模型并提供 API 访问的商业模式面临挑战，而基于基础模型构建应用则有巨大的商业机会。算法创新降低成本： DeepSeek 团队通过算法优化，在性能相对较弱的 H800 GPU 上训练出了高性能模型，计算成本低于 $600 万美元。即使计算成本降低，对智能和算力的需求长期来看依然巨大。强化学习提升推理：...

2025 年 AI 展望 • Andrew Ng

本文展望了 2025 年人工智能（AI）的发展趋势和希望，通过多位领域专家的观点，探讨了 AI 在技术、应用和社会影响方面的潜力与挑战。技术进步与应用前景快速原型开发与生产力提升 AI 辅助编码显著降低了构建软件原型的成本与时间。例如，用 AI 构建教育工具或金融分析工具只需数小时。平台如 Bolt 和 Replit Agent 不仅提高代码质量，还简化了应用的部署流程。生成式 AI 的未来创意与定制化：生成式 AI 将解放创作者的时间，使其专注于创造性工作。未来将出现更多小型、专用模型以满足特定需求。多模态生成：结合视频、音频的生成模型将推动电影制作等领域的创新，例如同时生成视频和音轨的工具。用户控制：未来的生成工具将提供更多控制选项，例如音乐的旋律、和声或视频的场景细节。 AI 通用性与代理型 AI 当前的 AI 系统已具备“通用性”，能够完成广泛任务并适应不同场景。 “代理型 AI”即具有执行具体任务能力的人工智能，将成为未来的核心，帮助用户完成日常任务并提升生产力。数据效率与模型优化当前 AI 模型依赖大规模数据，未来的重点是通过更高效的算法和架构减少数据需求。数据效率的提升将解决模型的解释性、鲁棒性和多模态学习等问题，同时降低开发成本，促进技术民主化。社会与文化影响 AI 的社会价值 AI 应优化推荐算法，优先展示“桥梁内容”，帮助不同群体找到共同点。通过参与式方法（如 Polis 工具），AI 可以促进社会共识，减少偏见与分裂。安全与责任生成式 AI 的部署需要高标准的安全性和责任感，特别是在“代理型 AI”执行任务时。减少“幻觉”问题（即 AI 输出错误信息）是 2025 年的关键任务，未来 AI 将比搜索引擎更可靠。教育与学习的变革 AI 正在改变学习方式，例如生成个性化的考试题目或重新解释课程内容。2025 年，AI 可能成为人们首选的学习助手。社会团结与治理 AI 平台需嵌入社会价值指标（如促进建设性对话），以推动民主和社会和谐。开发和治理 AI 的过程中，应广泛吸纳多元声音，确保技术公平性与包容性。通过技术创新与社会责任的结合，2025 年的 AI 发展将不仅推动生产力和创造力，还可能重塑人与人之间的互动方式，成为促进社会进步的重要力量。...

2024年顶级 AI 故事！AI 智能体崛起，价格下跌，模型缩小，以及更多 • Andrew Ng

本文是吴恩达对 2024年 AI 的总结。2024 年是人工智能（AI）领域快速发展的一年，技术和应用均取得了显著进步。AI 模型变得更快、更便宜、更小，且多模态和推理能力更强。AI 应用的普及速度超过了技术本身的发展，特别是在自动化、客户服务和问答等领域。与此同时，生成式视频、代理系统（agentic systems）和小型模型成为焦点，价格战加剧了竞争，技术巨头通过创新合作模式获取技术和人才。关键细节 1. 代理系统崛起发展概况：代理系统（agentic systems）通过迭代提示大语言模型（LLMs），显著提升了任务执行能力。多个工具和框架支持代理工作流，例如：微软 Autogen 和后续衍生的 AG2。 CrewAI 提供多代理系统的开源框架。 LangChain 的 LangGraph 通过循环图优化代理行为。 Meta 的 Llama Stack 提供记忆、对话和道德约束。技术进步：新技术如链式思维（Chain of Thought）、自我一致性（Self-consistency）和反思机制（Reflexion）推动了代理 AI 的发展。现状：代理系统已成为主流，显著提高了 AI 的效率和个性化服务能力。 2. 价格下降价格战：从 2023 年 3 月到 2024 年 11 月，OpenAI 的模型使用价格下降了近 90%。其他公司如 Google、Meta、亚马逊和中国企业也纷纷降价。开源模型的影响：Meta 的 Llama 3 和 3.1 系列显著降低了高性能模型的价格门槛。闭源模型竞争：OpenAI 推出更便宜的 GPT-4o 和 mini 版本，Google 降价 Gemini 系列，亚马逊推出 Nova 系列以低价竞争。背后原因：开源模型和更高效的计算硬件（如 Cerebrus 和 SambaNova）推动了价格下降。意义：价格下降反映了健康的技术生态，但高需求模型仍维持较高价格。 3....

如何通过代理提升大语言模型的性能 • Andrew Ng

前段时间看了 Andrew Ng 在红杉组织的AI Ascent 2024 主题活动中的演讲视频，今天正好在 DeepLearning.AI 官方也看到了相关内容，就索性翻译了一下。我认为，今年 AI agent 的 workflows 将大大推动 AI 的进步，其影响甚至可能超过下一代基础模型的发展。这是一个不容忽视的趋势，我强烈建议所有 AI 领域的工作者都应该重视起来。目前，我们主要是在零样本模式下使用大语言模型（LLM），即直接提示模型一步步生成最终输出，不进行任何修改。这好比让某人一气呵成地写完一篇文章，不允许回退修改，期望其能写出高质量的作品。尽管这样做颇具挑战，但大语言模型在这方面的表现出奇的好！然而，通过采用 AI 代理的工作流程，我们可以让 LLM 多次迭代文档。例如，它可能会执行以下一系列步骤：规划提纲。确定是否需要进行网络搜索来收集更多信息。撰写初稿。复审初稿，寻找不合理的论点或无关的信息。针对发现的问题修改草稿。诸如此类的其他步骤。这种迭代过程是大多数人类写作者撰写优质文本的关键。对于 AI 来说，采用这种迭代的工作流程比一次性完成整篇文章能带来更好的结果。近期，Devin 的一次引人注目的演示在社交媒体上引发了广泛关注。我们团队一直紧密跟踪代码编写 AI 的发展。我们分析了多个研究团队的成果，重点关注算法在广泛使用的 HumanEval 编码基准上的表现。您可以在下方的图表中看到我们的发现。 GPT-3.5 在零样本模式下的正确率为 48.1%，而 GPT-4 的表现更佳，达到了 67.0%。然而，从 GPT-3.5 到 GPT-4 的进步与采用迭代代理工作流程的提升相比则显得微不足道。实际上，在代理循环的加持下，GPT-3.5 的表现提升至高达 95.1%。开源代理工具和代理相关的学术文献正迅速增加，这既是一个令人兴奋的时刻，也是一个令人困惑的时期。为了帮助大家更好地理解这项工作，我想分享一个框架，用于对构建代理的设计模式进行分类。我的团队 AI Fund 在许多应用中成功采用了这些模式，我希望它们对你也有帮助。反思：LLM 审视自己的工作，并提出改进方案。工具使用：LLM 被赋予工具，比如网络搜索、代码执行等，以帮助其收集信息、采取行动或处理数据。规划：LLM 设计并执行一个多步骤计划来实现目标（比如，为一篇文章制定提纲，接着进行在线研究，然后撰写草稿等等）。多代理合作：多个 AI 代理合作，分担任务，讨论和辩论观点，以提出比单一代理更好的解决方案。反思也许你曾这样体验过：你向 ChatGPT 、 Claude 或 Gemini 提出请求，结果不尽如人意。之后，你给出关键反馈，帮助模型优化答案，然后它给出了更好的回应。如果我们将提供关键反馈的步骤自动化，让模型能自我批评并优化输出呢？这正是“反思”模式的核心所在。...