本文展望了 2025 年人工智能(AI)的发展趋势和希望,通过多位领域专家的观点,探讨了 AI 在技术、应用和社会影响方面的潜力与挑战。

技术进步与应用前景

  1. 快速原型开发与生产力提升

    • AI 辅助编码显著降低了构建软件原型的成本与时间。例如,用 AI 构建教育工具或金融分析工具只需数小时。
    • 平台如 Bolt 和 Replit Agent 不仅提高代码质量,还简化了应用的部署流程。
  2. 生成式 AI 的未来

    • 创意与定制化:生成式 AI 将解放创作者的时间,使其专注于创造性工作。未来将出现更多小型、专用模型以满足特定需求。
    • 多模态生成:结合视频、音频的生成模型将推动电影制作等领域的创新,例如同时生成视频和音轨的工具。
    • 用户控制:未来的生成工具将提供更多控制选项,例如音乐的旋律、和声或视频的场景细节。
  3. AI 通用性与代理型 AI

    • 当前的 AI 系统已具备“通用性”,能够完成广泛任务并适应不同场景。
    • “代理型 AI”即具有执行具体任务能力的人工智能,将成为未来的核心,帮助用户完成日常任务并提升生产力。
  4. 数据效率与模型优化

    • 当前 AI 模型依赖大规模数据,未来的重点是通过更高效的算法和架构减少数据需求。
    • 数据效率的提升将解决模型的解释性、鲁棒性和多模态学习等问题,同时降低开发成本,促进技术民主化。

社会与文化影响

  1. AI 的社会价值

    • AI 应优化推荐算法,优先展示“桥梁内容”,帮助不同群体找到共同点。
    • 通过参与式方法(如 Polis 工具),AI 可以促进社会共识,减少偏见与分裂。
  2. 安全与责任

    • 生成式 AI 的部署需要高标准的安全性和责任感,特别是在“代理型 AI”执行任务时。
    • 减少“幻觉”问题(即 AI 输出错误信息)是 2025 年的关键任务,未来 AI 将比搜索引擎更可靠。
  3. 教育与学习的变革

    • AI 正在改变学习方式,例如生成个性化的考试题目或重新解释课程内容。2025 年,AI 可能成为人们首选的学习助手。
  4. 社会团结与治理

    • AI 平台需嵌入社会价值指标(如促进建设性对话),以推动民主和社会和谐。
    • 开发和治理 AI 的过程中,应广泛吸纳多元声音,确保技术公平性与包容性。

通过技术创新与社会责任的结合,2025 年的 AI 发展将不仅推动生产力和创造力,还可能重塑人与人之间的互动方式,成为促进社会进步的重要力量。

原文

亲爱的朋友们,

祝大家新年快乐!

尽管我从青少年时期就开始研究 AI,但现在我比以往任何时候都更兴奋于我们能用它做什么,尤其是在构建 AI 应用程序方面。我们这个领域火花四溅,2025 年将是锐意进取的一年!

我特别兴奋的 AI 的一个方面是构建软件原型非常容易。AI 正在降低软件开发的成本并扩大可能的应用范围。虽然它可以帮助扩展或维护大型软件系统,但它在快速构建原型和其他简单应用程序方面尤其出色。

如果你想构建一个应用程序来为你的孩子打印抽认卡(我只是在 o1 (o1) 的帮助下在几个小时内完成了这个),或者编写一个应用程序来监控外汇汇率以管理国际银行账户(DeepLearning.AI 的金融团队的一个真实例子),或者自动分析用户评论以快速标记你的产品的问题(DeepLearning.AI 的内容团队这样做),现在可以通过 AI 辅助编码 (AI-assisted coding) 快速构建这些应用程序。

我发现 AI 辅助编码 (AI-assisted coding) 对于原型设计特别有效,因为 (i) 独立的原型需要相对较少的上下文和软件集成,并且 (ii) 处于 alpha 测试中的原型通常不必非常可靠。虽然生成式 AI (Generative AI) 也有助于工程大型、任务关键型软件系统,但那里的生产力改进并不那么显着,因为要为 AI 系统提供导航大型代码库所需的所有上下文,并确保生成的代码可靠(例如,覆盖所有重要的边界情况)是很有挑战性的。

Andrew Ng celebrating and wishing a Happy New Year 2025 with sparklers.

到目前为止,将原型交付给用户的巨大阻碍一直是部署。像 Bolt、Replit Agent、Vercel V0 这样的平台使用具有代理工作流程的生成式 AI (Generative AI) 来提高代码质量,更重要的是,它们还有助于直接部署生成的应用程序。(虽然我发现这些系统很有用,但我自己的工作流程通常使用大语言模型 (LLM) 来设计系统架构,然后生成代码,如果有多个大型模块,则一次生成一个模块。然后我测试每个模块,如果需要,进一步编辑代码——有时使用像 Cursor 这样支持 AI 的 IDE——最后组装模块。)

快速构建原型是测试想法和完成任务的有效方法。这也是一种很好的学习方式。也许最重要的是,它真的很有趣!(至少我是这么认为的。😄)

在新的一年里,你如何利用这些机会?当你制定新年计划时,我希望你会:

  • 制定学习计划! 为了成为有效的构建者,我们都需要跟上不断涌现的令人兴奋的变化。你希望在 2025 年每月参加多少短期课程?如果你和朋友讨论你的学习计划,你们可以互相帮助。例如,我们启动了一个学习总结页面,显示了人们参加了哪些短期课程。DeepLearning.AI 的几位团队成员已经同意进行一场友好的比赛,看看谁能在 2025 年参加更多的课程! 
  • 去实践! 如果你已经知道如何编程,我鼓励你只要有灵感并且有空闲时间就构建原型。如果你还不会编程,那么学习将是非常值得的!即使是很小的进步——比如我打印出来的抽认卡,它激励我的女儿昨晚多花了 20 分钟练习她的乘法表——也会让生活变得更好。也许你会创造出真正有价值的东西。即使没有,你也会在过程中获得乐趣并学到很多东西。

新年快乐!
吴恩达

P.S. 我主要用 Python 开发。但如果你更喜欢 JavaScript,祝你新年快乐!

2025 年的召唤

我们正站在一个新时代的门槛上:在这个时代,AI 系统拥有惊人的能力来推理世界、理解我们的愿望并采取行动来实现它们。我们将如何利用这些力量?我们请该领域的领导者分享他们对来年的希望。正如我们在之前新年特辑 问题中一样,他们的回答为我们可能构建的东西和我们能带来的好处提供了鼓舞人心的观点。


HANNO BASSE

汉诺·巴斯:为艺术家提供的生成式 AI

Stability AI 的目标是将各行各业的艺术家从他们工作中重复的、机械的方面解放出来,并帮助他们将大部分时间花在创造性方面。因此,我们对明年的最大希望是生成式 AI (Generative AI) 将帮助人们更具创造性和生产力。

     此外,我希望 AI 社区将专注于:

  • 安全和完整性: 通过在开发的最早阶段嵌入完整性来构建安全的产品,确保该技术得到负责任的使用,并为讲故事的艺术做出有意义的贡献。
  • 可访问性: 生成式 AI (Generative AI) 产品和工具必须对尽可能广泛的受众具有可访问性和可用性。目前,大多数生成式 AI (Generative AI) 主要对具有高级技术专业知识的个人(例如工程师)保持可访问性。为了解决这个问题,我们需要在基础模型之上开发更好的工具,以便它们为不同的受众提供价值。
  • 定制: 展望未来,我们预计生成式 AI (Generative AI) 将变得越来越专业化。除了大型基础模型之外,我们预计针对特定且通常非常狭窄的用例和应用程序(甚至细化到单个任务级别)量身定制的较小、微调模型将显着增加。这将是生成式 AI (Generative AI) 真正潜力的体现。此外,这也是在现实世界中部署生成式 AI (Generative AI) 最安全和最负责任的方式。

汉诺·巴斯是 Stability AI 的首席技术官。此前,他曾担任 Digital Domain、Microsoft Azure Media and Entertainment 和 20th Century Fox Film Corp 的首席技术官


DAVID DING

大卫·丁:带有音乐、音效和对话的生成视频

去年,我们看到了大量高质量地生成视频或音频输出的模型。在未来的一年里,我期待着能够生成包含语音、音乐和音效等音频配乐的完整视频片段的模型。我希望这些模型将带来电影创意的新时代。

     此类电影视频生成器所需的技术已经成熟。几家公司提供了非常有竞争力的视频模型,而 Udio 和其他公司则创建了音乐模型。剩下的就是同时建模视频和音频,包括对话和画外音。(事实上,我们已经看到了类似的东西:Meta 的 Movie Gen。用户描述一个场景,Movie Gen 将生成一个完整的音乐配乐和音效的视频片段。)

     当然,训练这样的模型需要大量的数据集。但我认为,用于训练现有视频生成器的视频都带有包含这些元素的配乐,因此数据可能不会成为开发这些模型的障碍。

     最初,这些模型不会产生与专业视频编辑的最佳作品相媲美的输出。但它们会快速进步。不久之后,它们将生成在原始质量上接近好莱坞制作的视频和配乐,就像当前的图像模型可以生成与高端照片无法区分的图像一样。

     与此同时,用户对视频和音频输出的控制量将继续增加。例如,当我们第一次发布 Udio 时,用户无法控制它生成的和声。几个月后,我们发布了一个更新,允许用户指定调或音调中心。因此,用户可以采用现有歌曲并以不同的调重新混合它。我们正在继续研究为用户提供额外的控制手段,例如声音、旋律和节拍,并且我相信视频建模团队正在对可控性进行类似的研究。

     有些人可能会觉得生成完全制作的电影视频的模型前景令人不安。我理解这种感觉。我喜欢摄影和演奏音乐,但我发现图像和音频生成器是我创意工作的有益起点。如果我选择,AI 可以给我一个我可以在 Photoshop 中处理的基础图像,或者一个可以从中采样或构建的音乐作品。或者考虑 AI 编码助手,它们可以生成整个网站的文件。你不再需要依赖 Web 开发人员,但如果你与他们交谈,你会了解到他们并不总是喜欢编写网站的样板代码。拥有一个构建网站框架的工具可以让他们的时间花在他们觉得更刺激和有趣的发展任务上。

     通过类似的方式,你将能够编写剧本并快速生成电影可能是什么样子的草稿。你可能会生成 1,000 个镜头,决定你喜欢哪一个,并从中汲取灵感来指导摄像师和演员。

     艺术的核心在于其中的创意选择。你和我都可以使用 Midjourney 来制作风景图片,但如果你是一位艺术家,并且你对想要看到的风景有清晰的想法,那么你的 Midjourney 输出将比我的更引人注目。同样,任何人都可以使用 Udio 来制作高质量的音乐,但如果你有良好的音乐品味,你的音乐将比我的更好。视频仍然是一种艺术形式,因为个人将选择他们的电影是关于什么的、它看起来如何以及它的感觉如何——他们将能够更流畅、快速和交互式地做出这些选择。

大卫·丁是一位终身音乐家,也是 Udio 的联合创始人,Udio 是一款音乐创作 Web 应用程序,旨在帮助用户创作原创音乐。此前,他曾担任 Google DeepMind 的高级研究工程师。


JOSEPH GONZALEZ

约瑟夫·冈萨雷斯:通用智能

在 2025 年,我预计在训练基础模型方面的进展将会放缓,因为我们达到了扩展限制,并且推理成本继续上升。相反,我希望看到 AI 之上的创新爆发,例如快速发展的AI 智能体 (AI Agent) 堆栈。我希望我们能在如何将 AI 与工具和现有系统相结合以提供令人兴奋的新功能并创建新的产品类别方面看到创新。也许最重要的是,我很高兴看到人们如何应对这个新世界而发生改变。

     我们已经实现了 AGI。现在怎么办? 让我们从围绕通用人工智能 (AGI) 的长期争论开始 - 并希望结束。我知道这存在争议,但我认为我们已经实现了 AGI,至少在定义上是这样:我们的 AI 现在是通用的。我将把关于知觉和超级智能的更长篇讨论留给哲学家,而将重点放在关键创新:通用性上。

     过去几十年的人工智能或机器学习是智能的,但高度专业化。它通常可以在狭义定义的任务(例如图像识别或内容推荐)上超越人类的能力。今天的大语言模型 (LLM),也许更重要的是它们周围的系统,能够完成非常广泛的任务,通常与人类一样好,在某些情况下甚至比人类更好。正是这种通用性将使工程师、科学家和艺术家能够以模型开发者从未想象过的方式使用这些模型进行创新。正是这种通用性,加上市场力量,将使 2025 年如此令人兴奋。

     成为 AI 原生: 这些模型的通用性及其自然语言界面意味着每个人都可以使用和探索 AI。 我们正在这样做! 我们正在学习向机器解释我们的情况、提供背景和指导,并期望获得个性化的答案和解决方案。在RunLLM,我是该公司的联合创始人,我们正在构建高质量的技术支持 AI 智能体 (AI Agent)。我们发现用户越来越多地使用我们的 AI 智能体 (AI Agent) 不仅是为了解决问题,而且是为了根据他们的特定任务个性化解决方案。我们还惊讶地发现,用户与 AI 分享的内容比他们与另一个人分享的内容多得多。

     同时,在加州大学伯克利分校,我对使用 AI 重新解释我的讲座或从 AI 生成的练习考试中学习的学生印象深刻。他们已经找到了使用 AI 来帮助个性化和改善他们的学习体验的方法。在 2025 年,也许当我们需要帮助或尝试学习时,我们将开始更喜欢 AI 而不是人类。

     在所有这些用例中,我们显然越来越善于规避大语言模型 (LLM) 的局限性,并以我 12 个月前无法想象的方式使用 AI。

     AI 的回报: 2025 年的重点将转向展示过去投资的真正价值。投资者和企业将期望初创企业和企业 AI 团队从探索转向解决实际问题——降低成本、产生收入、改善客户体验等等。这对需要筹集研究资金的学者来说是个坏消息(如果您有 2024 财年的剩余资金,请私信我),但对其他所有人来说都是个好消息,他们将搭乘新 AI 驱动的功能的浪潮。

     将会有一场竞赛,寻找将 AI 融入产品和业务各个方面的创新方法。在许多情况下,我们将看到匆忙执行的聊天机器人和自动摘要功能 - 这是 AI 之旅的第一步。我希望这些功能会很快被适应用户需求并从其互动中学习的上下文 AI 智能体 (AI Agent) 所取代。疫情为远程(数字)助理铺平了道路,并暴露了一个几乎可以访问的工作场所,其中包含未来 AI 智能体 (AI Agent) 所需的工具。这些 AI 智能体 (AI Agent) 可能会专门填补曾经由人担任的角色,或者填补其他 AI 智能体 (AI Agent) 创造的新角色。也许当每个人都管理自己的自定义 AI 智能体 (AI Agent) 团队时,我们就会知道 AI 已经兑现了它的承诺。

     聊天只是开始: 我对 2025 年的希望是我们超越聊天,发现如何使用 AI 来做伟大的事情!我希望看到在后台工作的 AI 智能体 (AI Agent),无形地帮助我们完成日常任务。当我们在做决定时,它们会浮现正确的上下文,并在世界变化时帮助我们学习。通过上下文和工具,它们会让我们知道我们遗漏了什么,并抓住我们漏掉的球。我们将减少聊天,而我们支持 AI 的 AI 智能体 (AI Agent) 将代表我们完成更多工作。我期待着有一天,我可以自信地离开键盘,专注于重要的人际互动。

约瑟夫·冈萨雷斯是加州大学伯克利分校的教授、RunLLM 的联合创始人,也是 Genmo 和 Letta 的顾问。


ALBERT GU

阿尔伯特·顾:多学习,少数据

构建基础模型需要大量数据。在未来的一年里,我希望我们能够让模型从更少的数据中学习更多。

     AI 社区通过扩大 Transformer (Transformer) 和数据集取得了显著的成功。但是,这种方法可能正在达到收益递减的程度——这是预训练社区在尝试训练下一代模型时越来越普遍的看法。无论如何,当前的方法会带来实际问题。在庞大的数据集上训练庞大的模型会消耗大量的时间和精力,而且我们正在耗尽训练大型模型的新数据来源。

     事实上,当前的模型消耗的数据量比人类学习所需的数据量要多得多。我们早就知道这一点,但由于扩展的惊人效果,我们忽略了它。训练一个模型需要数万亿个 Token (tokens),但人类成为一个相当聪明的人所需的 Token (tokens) 数量要少几个数量级。因此,我们最好的模型和人类在样本效率方面存在差异。人类的学习表明,存在一种学习算法、目标函数、架构或它们的组合,可以比当前的模型更高效地学习样本。

     解决这个问题的一个关键是使模型能够产生更高层次的抽象并过滤掉噪声。我认为这个概念,以及数据效率的总体问题,与当前 AI 中的其他几个问题有关:

  • 数据管理: 我们知道我们用来训练模型的特定数据非常重要。这已经是一个公开的秘密,即现在训练基础模型的大部分工作是关于数据,而不是架构。为什么会这样?我认为这与我们的模型学习效率不高有关。我们必须提前完成为模型准备数据的工作,这可能会阻碍 AI 作为自动从数据中学习的过程的核心潜力。
  • 特征工程: 在深度学习中,我们总是朝着更通用的方法发展。从深度学习革命的开始,我们逐步删除了手工制作的特征,例如计算机视觉中的边缘检测器和自然语言处理中的 n-gram (n-gram)。但是,这种工程已经转移到管道的其他部分。例如,Token 化涉及工程隐式特征。这表明,在使模型架构更高效地利用数据并更普遍地处理更多原始模态和数据流方面,仍有很大的空间。
  • 多模态: 训练模型以一起理解各种数据类型的关键是找出共同的核心抽象并将它们相互关联。这应该使模型能够通过联合利用所有模态从更少的数据中学习,这是多模态学习的核心目标。 
  • 可解释性和鲁棒性: 为了确定模型为什么产生它所产生的输出,它需要能够产生更高层次的抽象,并且我们需要跟踪它捕获这些抽象的方式。模型在这方面做得越好,它应该越容易解释,它应该对噪声越鲁棒,并且可能需要更少的数据进行学习。
  • 推理: 提取更高层次的模式和抽象应该允许模型更好地对其进行推理。同样,更好的推理应该意味着更少的训练数据。
  • 民主化: 构建最先进的模型成本很高,其中包括收集和准备大量数据的成本。很少有玩家能够负担得起这样做。这使得该领域的发展在缺乏足够数据或财富的领域不太适用。因此,更高效地利用数据的模型将更易于访问和使用。 

     考虑到数据效率与其他问题,我认为它们都是相关的。目前尚不清楚哪个是原因,哪个是结果。如果我们解决了可解释性问题,我们设计的机制可能会导致能够提取更好特征的模型,并导致更高效地利用数据的模型。或者我们可能会发现,更高的数据效率会导致更容易解释的模型。

     无论哪种方式,数据效率都至关重要,而该领域的进展将是 AI 更广泛进展的指标。我希望在未来一年中看到重大进展。

阿尔伯特·顾是卡内基梅隆大学的机器学习助理教授,也是 Cartesia AI 的首席科学家。他入选了《时代》杂志 2024 年 AI 领域最具影响力人物榜单。


MUSTAFA SULEYMAN

穆斯塔法·苏莱曼:行动智能体

在 2025 年,AI 将学会看,它将变得更聪明、更准确,并且它将开始代表你做事。

     今天的 AI 系统难以理解我们的全部背景。它们的感知仅限于聊天窗口和相当狭窄的一组互动。它们并不完全理解我们正在做什么或超出此范围的目标。为了真正理解我们的意图,它们需要看到我们所看到的。

     这种能力现在已经实现。AI 可以位于我们使用的软件中,并与我们一起协同浏览。如果说文本是与 AI 交互的第一种方式,而语音是 2024 年的突破性功能,那么我认为视觉将在 2025 年占据类似的位置。在 Microsoft AI,我的首要任务是创建一个可以在浏览器中与你一起工作的 AI,这样你就可以通过你正在查看或处理的内容进行聊天,并使其成为真正的双向互动。

     视觉是一个阶跃变化,与我们过去使用计算机的方式明显不同。我迫不及待地想看看它在未来几个月会发展到什么地步。

     除了视觉之外,我们还将看到在减少幻觉方面取得巨大进展。这仍然是 AI 广泛采用的关键障碍。如果人们怀疑 AI 告诉他们的事情,它会严重限制他们使用它的用途。信任对于 AI 至关重要。好消息是,模型的质量及其检索和接地能力仍在快速提高。

     虽然我认为我们不会完全消除幻觉,但到明年这个时候,我们不会再像现在这样为它们烦恼。在大多数主题上,与 AI 交谈至少与使用搜索引擎一样可靠,甚至可能更可靠。这并非关于单一的技术进步,而是整个领域持续的累积收益。这将产生巨大的影响。

     最后,我们正在进入 AI 智能体 (AI Agent) 时代。几十年来,我们一直梦想着这一刻。在我的书《即将到来的浪潮:技术、权力与 21 世纪的最大困境》中,我提出我们开始考虑人工能力智能 (ACI):AI 开始代表用户采取具体行动的时刻。赋予 AI 采取行动的能力标志着 AI 不仅仅是与我们交谈,它还在做事。这是一个关键的变化,而且即将到来。

     如果我们做得对,我们将能够立即让生活更轻松、更平静,同时为企业和个人生产力提供动力。但是,AI 智能体 (AI Agent) 能力需要最高的安全性、安全性和责任标准。与此同时,创建真正有用 AI 智能体 (AI Agent) 仍然存在许多艰巨的障碍,尤其是与无数其他系统集成。

     势头已经存在。行动即将到来。2025 年将是重要的一年。

穆斯塔法·苏莱曼是 Microsoft AI 的首席执行官。他共同创立了 Inflection AI,并创立了 DeepMind Technologies。


AUDREY TANG

唐凤:团结我们的 AI

随着 2025 年的临近,我对 AI 的最大希望是它将能够实现亲社会 (prosocial) 平台,以促进同情、理解和协作,而不是分裂。

     长期以来,驱动社交媒体的算法就像露天开采机一样运作,在侵蚀信任和社会凝聚力的同时提取注意力。剩下的就是枯竭的在线空间,同情心难以扎根,集体解决问题也找不到肥沃的土壤。AI 可以 - 而且应该 - 帮助我们超越这些根深蒂固的分歧。

     为了实现这一目标,我们必须设计将亲社会 (prosocial) 价值观置于核心的 AI 系统。推荐算法可以引导我们走向“桥梁内容 (bridging content)”,从而揭示共同点,而不是强化分裂。它们应该清楚地识别一段内容所涉及的社区——无论是物理社区、宗教社区、政治社区、社会社区、文化社区还是专业社区——并阐明它试图弥合的特定分歧。

     实现这一愿景需要在我们优化目标方面进行根本性转变。我们不应依赖纯粹的参与度指标,而应采用以价值观为导向的指标,这些指标优先考虑建设性对话和相互理解。例如,我们可能会关注“令人惊讶的验证者”,或者那些能够富有成效地挑战假设,从而丰富我们对看似不可调和的事物的理解的个人和观点。研究人员和开发人员应该共同创建新的排名和管理方法,将它们嵌入到广泛使用的平台中,并严格评估它们对民主生活的影响。

     与此同时,AI 社区必须拥抱参与式、包容性的开发和治理方法。多元化对齐 (pluralistic alignment) 的研究强调,AI 系统产生于复杂的社会环境中并在其中运行,并且包含广泛的声音有助于防止机构盲点。像Polis这样的工具可以可视化立场并揭示隐藏的共识领域,它已经说明了如何将复杂性转化为清晰性。这种参与式方法确保 AI 反映其所服务社会的需求和价值观,而不是放大少数人的偏见。

     通过拥抱这些包容的、民主的原则,AI 可以帮助我们共同创建数字公共广场 (digital public squares),以促进社会凝聚力而不是侵蚀社会凝聚力。在每个阶段(从我们如何构建数据集到我们如何制定治理政策)嵌入集体意见,确保 AI 系统真正符合一系列人类价值观,并充当共同理解的催化剂。

唐凤是台湾的网络大使、前数字事务部长,也是《多元化:协作技术和民主的未来》的合著者。