中国大模型生存战:逆袭的豆包、开源的阿里以及乏力的六小龙

本文来自晚点LatePost的文章《中国大模型生存战:巨头围剿,创业难熬》,梳理出了其中的核心内容,并重新做了组织。 中国大模型的现状 现在悲观的心态在投资人中蔓延:大模型赛道,创业公司可能很难打赢大厂——他们高估了增长拐点到来的速度,也低估了中国大公司的决心与行动力。 一位去年跟踪了 4 家大模型公司的投资人,曾 “辛辛苦苦要到了” 六小龙中某一家的份额,而到下半年,他认为大模型已没有机会:“年初时我见这些 founder,他们还说一年就能追上美国。到年底,大家发现钱不容易拿到,人也挖不来。” 做大模型,“一年低消也要 20 亿-30 亿美元”,这超出任何一家中国大模型六小龙的总融资额。 目前大模型创业的两难是,to C AI 产品仍跳不出移动互联网生态,而字节、腾讯等公司在这里积累已久。其中,大公司最擅长,创业公司也绕不开的一个环节就是投放和流量获取。 投资人也逐渐认清现实:模型能持续比字节好,比开源的也好,而且好得很明显,这很难,最终要赢在产品。 现在大公司正处在 “上头” 期,但 “一旦一件事干了几年还拿不到结果”,内部张力会涌现,尤其是组织上的拉扯。这时如果创业公司还在场,可能有机会。百度已出现了类似的张力。在百度,训练基础大模型、开发 to C 大模型产品和提供 to B 大模型方案,分属三个事业群。一位百度人士说,到今年中,当百度模型训练团队希望调动更多算力,训更强的大模型时,会遭遇 GPU 不够用的情况,需要集团高层出面协调——同样是 GPU,放在 to B 业务,马上就有收入,而训练新模型,回报则不明确。 所有依靠新技术的创业,都是在和大公司赛跑——看创业团队先补上完整的商业化体系,还是大公司先学会新技术。这一竞赛的结果,取决于新技术能在多大程度上颠覆原有体验,新技术的进入门槛有多高、赛道有多长。 大模型 vs 移动互联网浪潮:移动互联网是新软件、新硬件同时出现,从电脑到手机,带来了 App 的强劲自然增长,当时的流量成本也低得多。“现在是新软件有了,还没有新硬件。”。但实际上,大模型产品现在的软件也还是 “半新状态”:由大模型支撑的很多产品,仍是一个个 App,模型能力是提升体验的最重要动力,但需求洞察、功能设计,流量和用户获取依然重要。如果大模型能力提升短期遇阻,应用开发和产品表现会更依赖现有移动互联网基础设施,这就是一个烧钱、拼资源的游戏。 美团创始人王兴曾说:大多数人以为战争由拼搏组成,其实战争是由等待和煎熬组成。 当前中国 AI 产品数据战况 Kimi 和豆包激烈交战的生产力方向,普遍被认为价值高、智能含量高。而在类 Character.ai 的陪伴和虚拟社交产品上,巨头暂时没拿出那么多火力。 字节豆包 App: 今年 9 月的日活为 760 万,月活 4200 多万,30 日留存率34.5%。到 10 月,豆包的日活已达 945 万。中国日活最大的 AI 产品。 Kimi 智能助手:今年 9 月的日活为 130 多万,月活 1000 万出头,30 日留存率约 28%...

November 30, 2024 · 2 min · fisherdaddy

如何从零开始构建你的市场进入策略 (Go-to-Market, GTM)

本文由 Kyle Poyar 和 Maja Voje 合作撰写,探讨了如何从零开始构建一套有效的 Go-To-Market (GTM) 策略。GTM 策略并非单纯的产品发布或营销活动,而是一系列帮助产品进入市场并实现可扩展增长的系统性活动。作者通过三大核心框架和实际案例,详细解析了 GTM 的关键步骤和成功要素,旨在帮助初创企业更快、更低风险地实现市场突破。 GTM 策略的核心目标是找到至少一种可重复且可扩展的市场进入方式,从而推动产品增长。本文分为三个阶段来定义 GTM 适配性:问题-解决方案适配、产品-市场适配 和 市场进入适配,并介绍了三种框架来优化 GTM 策略。 三个阶段的 GTM 适配性 问题-解决方案适配: 确认产品能够解决目标用户的实际问题。 通常通过少量(如 5 个)早期付费客户验证这一阶段。 客户主要来自创始人的人脉或早期支持者。 产品-市场适配: 建立可持续的商业模式,确保客户留存并持续使用产品。 产品不仅要为客户创造价值,还需通过价值捕获实现盈利。 市场进入适配: 找到至少一种可预测、可扩展的市场进入方式(如直销、内容营销、合作伙伴关系等)。 这一阶段为打开新市场和进一步扩展奠定基础。 三大核心框架 框架 1:从早期客户画像(ECP)到理想客户画像(ICP) 早期客户画像(ECP) 是 GTM 初期的关键,需满足以下条件: 迫切需要解决问题。 具备付费意愿。 愿意作为参考客户,帮助产品建立信誉。 接近创始团队,便于快速达成交易。 示例:DevStats 在早期阶段优先服务于规模较小、决策更灵活的工程团队,而非要求高合规性的行业巨头。 框架 2:差异化定位(UVP 和 USP) 独特价值主张(UVP):向客户承诺的核心价值。 独特销售主张(USP):为何客户应选择你的产品,而非替代方案。 差异化定位的关键是理解竞争对手和客户的评价标准,并找到能够脱颖而出的领域。 示例:Post Rewriter 通过强调“易用性”和“安全性”成功吸引客户。 框架 3:制定 GTM 总体规划 在产品-市场适配阶段前,需通过用户访谈或调研找到目标受众的聚集地。 一旦进入市场进入适配阶段,需系统化和优化 GTM 动作,如直销、内容营销或合作伙伴关系。 示例:Expert9 通过个人网络获取早期案例研究,再利用内容营销和外联活动逐步扩大客户群。 重要提示...

November 21, 2024 · 1 min · fisherdaddy

AI 初创公司最危险的举动:为其他 AI 初创公司开发产品

本文探讨了 AI 初创公司如何在企业级市场中实现可持续收入 的策略,核心观点是:要在生成式 AI 领域取得商业成功,初创公司必须从一开始就采用 “企业基础设施原生”(enterprise infrastructure native) 的方法。这意味着在设计和开发产品时,优先考虑满足大型传统企业的复杂需求,而不是仅服务于科技公司或个人用户。文章还强调,与其在后期“修补”产品以适应企业需求,不如从一开始就将企业需求融入产品设计中。 此外,文章指出,生成式 AI 初创公司在现阶段更有可能通过服务非科技企业(如金融、医疗等)实现盈利,而不是与大科技公司竞争 B2C 或科技原生 B2B 市场。 企业基础设施原生的必要性 定义:企业基础设施原生指的是公司从一开始就设计产品以适应企业环境的复杂需求,包括安全性、合规性、个性化、延迟和规模等问题。 原因: 企业(尤其是非科技企业)拥有庞大的开发者群体和复杂的基础设施需求。 后期改造产品以满足企业需求会带来巨大的技术和文化挑战。 非科技企业的约束(如安全合规性)比科技公司更复杂,且需要专门的基础设施支持。 为什么专注于非科技企业 非科技企业的市场潜力: 大型非科技企业(如银行、医疗机构)比科技公司雇佣更多开发者,并且更愿意为提高生产力的工具付费。 相比个人用户,企业能带来更高的收入回报。 避开大科技公司的竞争: 大科技公司倾向于自己开发生成式 AI 工具,而非购买。 在 B2C 市场中,大科技公司拥有强大的分发渠道,初创公司难以与之竞争。 成功案例:Codeium 专注于解决非科技企业的特定约束,避免了与大科技公司的直接竞争。 企业基础设施原生的关键要素 安全性: 提供自托管或混合部署选项,以满足企业对数据隐私和安全的需求。 获得必要的安全认证(如 SOC2、ISO 27001),并确保不在训练中使用客户数据。 合规性: 确保训练数据不侵犯版权,并构建数据溯源和归因系统。 针对不同行业的法规(如医疗的 HIPAA 合规)提供定制化支持。 个性化: 利用企业的私有数据(如代码库)进行模型优化,同时确保数据的安全性和访问控制。 构建灵活的角色访问控制(RBAC)系统,以防止数据泄露。 性能和延迟: 设计低延迟系统,满足实时应用的需求(如代码自动补全需在毫秒级响应)。 优化模型推理速度,同时兼顾个性化和数据处理。 规模化: 针对企业级用户的规模(如数万开发者、数百万代码行)优化系统性能和基础设施。 解决大规模用户群体中的权限管理和数据更新问题。 生成式 AI 的 ROI 挑战 难以量化的价值: 例如,开发者生产力的提升难以用具体指标(如代码量或 PR 周期时间)衡量。 解决方法: 提供分团队的使用统计数据,帮助企业管理员识别高效团队和需要支持的团队。 逐步展示工具的价值,帮助客户更清楚地感知投资回报。 未来展望 尽管目前企业市场是生成式 AI 初创公司最可行的盈利途径,作者希望未来能看到更多初创公司在 B2C 和科技原生 B2B 市场中挑战大科技公司。 文章最后以 Codeium 的成功经验总结,强调了“企业基础设施原生”策略在生成式 AI 初创公司中的重要性。 原文 swyx:再次欢迎 Anshul 作为我们首位“二度回归”的客座作者!他此前关于 AI 产品理念的两篇文章在 Latent Space 和 Codeium 上大获成功,Codeium 的安装用户数增长了十倍,并且自上次交流以来,完成了 6500 万美元的 B 轮融资和1....

November 21, 2024 · 3 min · fisherdaddy

生成式 AI 的 Act o1

本文讨论了生成式 AI 领域的最新进展,特别是从快速响应(“System 1”)向推理能力(“System 2”)的转变。这一转变标志着 AI 系统在推理和认知操作方面的能力显著提升,开启了一个新的“代理性应用”时代。文章还探讨了生成式 AI 市场的现状及未来趋势,特别是 OpenAI 推出的 o1 模型如何通过推理时间计算实现更强的推理能力。此外,作者分析了 AI 市场的各个层次(基础设施、模型、开发工具和应用层)的竞争格局,指出应用层的机会最大,特别是在构建定制的认知架构以应对现实世界中的复杂任务。 市场结构的稳定:生成式 AI 市场的基础层已经趋于稳定,主要由几大巨头主导,如 Microsoft/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind。尽管竞争激烈,但市场结构逐渐固化,预示着更便宜且更强大的预测能力即将到来。 推理层的崛起:随着基础层的稳定,AI 研究的重点转向推理层,即“System 2”思维。这种思维模式类似于 AlphaGo 的运作方式,即通过推理和模拟多个未来场景来做出更有深度的决策。 OpenAI 的 o1 模型:2024 年最重要的模型更新是 OpenAI 的 o1 模型(代号 Strawberry),这是第一个具有真正推理能力的模型。它通过推理时间计算实现了更复杂的推理能力,特别是在逻辑和数学等领域表现突出。 推理的挑战:与 AlphaGo 不同,语言模型在推理时难以构建明确的价值函数,因为许多任务(如写作或制定旅行计划)没有明确的评分标准。这使得推理在开放性任务中更加困难。 系统 1 与系统 2 思维:系统 1 思维是基于模式匹配的快速响应,而系统 2 思维则需要模型在推理时停下来思考,生成多种可能性并评估其结果。这种深度推理对于复杂任务(如数学或生物学突破)至关重要。 推理时间计算的扩展:o1 模型揭示了推理时间计算的新扩展规律,即给模型更多的推理时间,它的表现会显著提升。这一发现将推动从大规模预训练集群向动态推理云的转变。 应用层的机会:尽管基础层和模型层由巨头主导,但应用层仍有巨大的机会,特别是在构建能够应对现实世界复杂任务的定制认知架构方面。许多 AI 公司已经开始在各个行业中开发代理性应用,如 Harvey(AI 律师)、Factory(AI 软件工程师)和 Sierra(AI 客户支持)。 服务即软件的转变:生成式 AI 正在推动从软件即服务(SaaS)向服务即软件的转变。AI 公司通过代理性应用提供具体的工作成果,而不是简单的软件工具,从而瞄准了数万亿美元的服务市场。 未来展望:未来的 AI 发展将继续围绕推理和推理时间计算展开,特别是在复杂的现实世界任务中。多代理系统可能会成为一种新趋势,帮助 AI 实现更复杂的任务协作。最终,AI 可能会达到类似 AlphaGo 的“Move 37”时刻,即展示出超越人类的创新能力。...

November 6, 2024 · 2 min · fisherdaddy

AI 规模扩展能否持续到 2030 年?

本文探讨了人工智能(AI)训练规模的快速扩展是否能够持续到2030年。研究表明,AI模型的性能提升与计算资源的增加密切相关,当前AI训练的计算量每年增长约4倍。文章分析了四个关键限制因素:电力供应、芯片制造能力、数据稀缺性和“延迟壁垒”,并预测到2030年可能实现2e29 FLOP的训练规模,远超当前的GPT-4水平。尽管技术上可行,但实现这一规模的关键在于AI开发者是否愿意投入数千亿美元的资金。 电力限制 预计到2030年,美国数据中心的电力需求将显著增加,可能需要多达2至45 GW的电力供应,支持2e28到2e30 FLOP的训练运行。 单一数据中心的电力供应可能达到1至5 GW,地理分布的训练网络则能利用多个地区的电力资源。 扩展电力基础设施,如建设新的发电厂,可能需要3至5年的提前规划。 芯片制造能力 AI芯片(如Nvidia H100)的生产能力是AI扩展的另一个关键因素。尽管芯片制造商计划扩展生产能力,但受限于先进封装和高带宽内存(HBM)的生产能力。 预计到2030年,全球将有足够的产能生产1亿个H100等效GPU,支持9e29 FLOP的训练运行。 数据稀缺性 训练大型AI模型需要大量数据。当前网络上可索引的文本数据约为500万亿词,预计到2030年增加50%。 多模态数据(图像、视频、音频)将有助于缓解数据稀缺问题,可能使训练数据增加至6e28至2e32 FLOP的规模。 生成合成数据可能进一步扩展数据供应,但需要额外的计算资源。 延迟壁垒 延迟壁垒是AI训练的“速度限制”,随着模型规模的增加,训练时间也会增加。通过并行处理更多数据可以部分缓解这一问题,但批量大小的增加有一定限制。 预计到2030年,延迟壁垒可能限制训练运行在3e30到1e32 FLOP之间。 经济与投资考量 实现大规模AI训练的关键在于AI开发者是否愿意投入数千亿美元。微软和OpenAI的“Stargate”项目表明,业界可能正在为实现这一目标做准备。 经济回报可能驱动巨额投资,特别是如果AI能够实现大规模的经济自动化。 尽管存在电力、芯片制造、数据和延迟等限制因素,但AI训练的扩展在技术上是可行的。到2030年,AI训练规模可能达到2e29 FLOP,这将带来与当前GPT-4相比显著的性能提升。然而,能否实现这一目标取决于资金投入和基础设施扩展的速度。 引言 近年来,AI 模型 (AI models) 的能力显著提升。我们的研究表明,计算资源的增长是 AI 性能提升的重要原因之一。[1] 持续且可预测的规模效益使得 AI 实验室积极扩大训练规模,训练计算量以每年约 4 倍的速度增长。 AI 训练计算量每年 4 倍的增长速度,甚至超过了近代史上一些技术发展最快的时期。它超过了移动电话普及速度最快时 (2 倍/年,1980-1987 年),太阳能装机容量 (1.5 倍/年,2001-2010 年) 和人类基因组测序 (3.3 倍/年,2008-2015 年) 的增长速度。 本文探讨当前 AI 训练规模快速扩张的步伐(约每年 4 倍)能否持续到 2030 年。我们调查了可能限制规模扩展的四个关键因素:电力供应、芯片制造能力、数据稀缺性和“延迟墙 (latency wall)”。延迟墙是由 AI 训练计算中不可避免的延迟造成的根本速度限制。 我们的分析涵盖了生产能力的扩张、投资和技术进步等因素。这包括分析先进芯片封装设施的扩建计划、新增发电厂的建设以及数据中心的地域分布(以便利用多个电网)。为了考虑这些变化,我们纳入了来自各公共渠道的预测数据,包括半导体代工厂的扩张计划、电力供应商的容量增长预测、其他相关行业数据以及我们自己的研究。 我们发现,到 2030 年,进行 2e29 FLOP 的训练很可能在技术上可行。换句话说,到 2030 年,训练出比 GPT-4 更强大的模型,就像 GPT-4 比 GPT-2 更强大一样,将很有可能。[2] 如果继续发展下去,我们可能会在 2030 年前后看到 AI 出现巨大的进步,就像 2019 年 GPT-2 只能生成简单的文本,而 2023 年 GPT-4 却具备了复杂的问题解决能力一样。...

November 6, 2024 · 11 min · fisherdaddy

导引 - 形势感知 (Situational Awareness):未来十年 • Leopold Aschenbrenner

本文讨论了未来十年内人工智能(AI)领域的重大变革,尤其是通用人工智能(AGI)和超级智能的快速发展。作者认为,随着计算能力和算法效率的提升,AGI 可能在 2027 年前实现,并在此后迅速进化为超级智能。这场技术竞赛将引发全球范围的工业动员,特别是在美国,涉及数万亿美元的投资和国家安全力量的介入。本文还探讨了超级智能带来的挑战,包括安全问题、对抗中国的竞争,以及如何确保“自由世界”在这场竞赛中胜出。 AGI 竞赛的启动:目前,全球尤其是美国,正加速推进 AGI 的研发。预计到 2025/26 年,AI 的能力将超过许多大学毕业生,并在 2027 年前实现真正的 AGI。随着技术的快速发展,超级智能的出现也变得不可避免。 工业动员与电力扩张:为了支持 AGI 和超级智能的发展,美国将大规模扩展电力生产,预计未来十年内电力产量将增长数十个百分点。成百上千万的 GPU 将投入使用,推动工业的全面动员。 超级智能的潜力与风险:超级智能不仅将推动 AI 研究的自动化,还可能在极短时间内实现巨大的算法进步。然而,控制远超人类智能的系统仍是一个未解决的技术难题,处理不当可能导致灾难性后果。 国家安全的介入:随着 AGI 竞赛的加剧,美国政府将逐渐介入,预计到 2027/28 年会有一个正式的国家 AGI 项目启动。此时,国家安全力量将全面投入,确保 AGI 技术不落入敌对国家手中。 中美竞争与自由世界的存亡:超级智能将赋予拥有它的国家巨大的经济和军事优势。美国及其盟友必须在这场竞赛中保持领先地位,否则“自由世界”的生存将面临威胁。 安全与对抗中国:目前,许多 AI 实验室对安全问题重视不足,关键技术可能落入中国等国家之手。确保 AGI 的安全和防止技术外泄将是未来的关键任务。 导引 - 形势感知 (Situational Awareness):未来十年 Leopold Aschenbrenner,2024 年 6 月 想窥见未来?那就来旧金山 (San Francisco) 吧。 在过去一年里,城中热议的话题已经从百亿美元级的算力集群一路飙升到千亿美元级,再到万亿美元级。每六个月,企业规划的金额就翻十倍。在你看不到的地方,一场争夺战正激烈上演,目标是未来十年所有可用的电力合同和所有能采购到的电压变压器。美国各大企业正准备投入数万亿美元,开启一场久违的工业动员。到这个十年结束时,美国的电力产量将增长数十个百分点;从宾夕法尼亚州 (Pennsylvania) 的页岩气田到内华达州 (Nevada) 的太阳能农场,数亿个 GPU 将日夜轰鸣。 通用人工智能 (AGI) 的竞赛已经打响。我们正在建造能够思考和推理的机器。到 2025/26 年,这些机器的能力将超过许多大学毕业生。到这个十年结束时,它们将比你我都聪明;我们将迎来真正的超级智能 (Superintelligence) 时代。与此同时,沉寂了半个世纪的国家安全力量将被释放,不久之后,“The Project” (一个意义重大的项目)也将启动。如果我们幸运,我们将与中国 (CCP) 展开全面的竞争;如果我们不走运,那将是一场全面的战争。 现在人人都在谈论人工智能 (AI),但很少有人真正理解即将到来的变革。英伟达 (Nvidia) 的分析师仍然认为 2024 年可能接近峰值。主流评论员仍抱着“人工智能只是在预测下一个词”的观点,对即将到来的巨变视而不见。他们看到的只是炒作和商业活动,最多认为这只是又一次互联网规模的技术变革。...

November 6, 2024 · 1 min · fisherdaddy

李开复对 AGI 的核心认知以及关于 OpenAI 的一些信息

本文来自腾讯科技对李开复的访谈。李开复在对话中探讨了美国主导的 AGI(通用人工智能)可能带来的霸权问题,特别是 OpenAI 及其 CEO Sam Altman 的垄断野心。他认为,中国应通过建立一个良性生态系统来抵抗 AGI 垄断。核心策略是降低推理成本(推理成本每年将下降 10 到 50 倍,从而推动应用的普及),使得更多应用能够快速落地,形成广泛的应用生态。虽然中国在 AGI 研发上可能落后,但在应用落地和成本控制方面具有优势,中国可以通过快速发展应用来抵抗 AGI 垄断。 良性的生态 一个良性生态,应该是芯片赚最少的钱,平台赚蛮多的钱,应用赚最多的钱;平台本身比任何一个应用都赚钱;但所有应用加起来比平台赚更多的钱。PC、互联网、移动互联网是这样,云也是这样。AI是不是?绝对不是。 今天 AI 生态是芯片 GPU 占 750 亿美金>云厂商 100 亿>应用商 ChatGPT 这类只有 50 亿——是一个倒三角。如果持续是倒三角,AI-first 的应用不会雨后春笋冒出来。用户不会得到福利,大家做应用不会那么快 PMF(Product Market Fit,产品市场契合度)、赚到钱、融到资,不能达到良性生态系统的正向循环。 AI 应用为什么没爆发 AI 应用为什么不爆发?是因为推理成本太贵了。 前一阵有一篇文章《Situational Awareness: the Decade Ahead》(《态势感知:未来十年》,OpenAI 前员工撰写),大胆说 AGI 三年会发生,有些假设值得商榷。我觉得 Epoch AI(一家非营利研究组织)说得更靠谱,他们在今年 8 月一篇文章《Can AI Scaling Continue Through 2030?》(《人工智能的规模定律能否持续到 2030 年?》)中,分析了四件事: 数据还能多快增加? 世界生产 GPU 的能力,还有 HBM(高带宽存储器),就是内存的能力,能多快增加? 计算的耗损能多快增加?你作为一个神经网络,它的 forward backward 训练(前向传播和反向传播训练),使它不是 GPU 问题,而是传输问题。如果是一张变成两张传输还好,如果是 100 万张变成 200 万张,传输就会成为瓶颈。 还有一个,世界上有多少电? ——最后它计算的结果大概是 2030 年。...

November 6, 2024 · 2 min · fisherdaddy

推动音频生成的前沿 • DeepMind

本文介绍了最新的语音生成技术的进展,重点展示了如何通过先进的模型和算法推动更自然、更直观的数字助理和 AI 工具的语音交互。这些技术不仅能够生成高质量的单人语音,还能创建复杂的多角色对话,从而提升用户体验,促进知识获取。 语音生成技术的应用:这些技术已被应用于多个 Google 产品和实验项目中,如 Gemini Live、Project Astra、Journey Voices 和 YouTube 的自动配音,帮助全球用户与 AI 工具进行自然的互动。 最新功能开发: NotebookLM Audio Overviews:将上传的文档转化为生动的多角色对话,两个 AI 主持人总结用户材料并探讨相关主题。 Illuminate:生成关于研究论文的正式 AI 讨论,帮助知识更易于理解。 研究基础: 先前的研究(如 SoundStream 和 AudioLM)为音频生成奠定了基础,SoundStream 是一种神经音频编解码器,能够高效压缩和解压音频,而 AudioLM 则将音频生成视为语言建模任务。 这些技术可以灵活处理不同类型的声音,并且在生成多角色对话时表现出色。 最新模型的性能: 最新的语音生成模型能够在不到 3 秒的时间内生成 2 分钟的多角色对话,且语音自然度、角色一致性和音质都有显著提升。 模型通过专门的 Transformer 架构处理超过 5000 个音频标记,并使用新的语音编解码器将音频压缩至 600 bps 的低比特率。 训练和优化: 模型通过数十万小时的语音数据预训练,并通过小规模的高质量对话数据进行微调,确保生成的对话具有真实感,包括自然的停顿和语气变化。 通过使用 SynthID 技术,对生成的音频进行水印标记,以防止滥用。 未来发展: 未来的改进方向包括提升模型的流畅度、音质,并增加对语音特征(如语调)的细粒度控制,同时探索与视频等其他模态的结合。 这些技术将被应用于更广泛的场景,如教育和内容的普及化。 推动音频生成的前沿 发布时间:2024年10月30日 我们的开创性语音生成技术正帮助全球用户与更自然、对话性更强、更直观的数字助手和AI工具互动。 语音是人类交流的核心工具。它帮助人们在全球范围内分享信息、表达情感并建立相互理解。随着我们生成自然语音技术的不断进步,数字体验正变得更具吸引力、更加生动。 近年来,我们一直在推动音频生成的前沿,开发出能够从文本、节奏控制和特定声音等多种输入生成高质量自然语音的模型。这项技术已应用于Google的多个产品和实验中,包括 Gemini Live、Project Astra、Journey Voices 和 YouTube的自动配音,帮助全球用户与更加自然的数字助手互动。 我们与Google的合作伙伴一起,开发了两项新功能,用于生成多人的长篇对话,使复杂内容更易于理解: NotebookLM Audio Overviews:将上传的文档转换为生动的对话形式,两个AI主持人总结用户的内容并相互调侃。 Illuminate:生成关于研究论文的AI讨论,以帮助知识更易于消化。 音频生成的开创性技术 多年来,我们一直在进行音频生成研究,并探索如何将生成自然对话的技术应用到我们的产品和实验工具中。在先前的 SoundStorm 研究中,我们首次展示了生成多位说话者之间自然对话片段(长达 30 秒)的能力。...

October 31, 2024 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的 SimpleQA

SimpleQA 是一个新的基准测试,旨在评估语言模型在回答简短、事实性问题时的准确性。该基准测试的核心目标是减少模型产生“幻觉”(即无根据的错误答案)的现象,并提升模型的可信度。SimpleQA 专注于简短的事实查询,确保问题有单一、不可争议的答案,从而使得评估模型的事实性表现更加可行。通过该基准,研究人员可以更好地衡量语言模型的准确性、校准性及其在不同问题类别中的表现。 SimpleQA 的特点: 高正确性:所有问题的参考答案由两名独立的 AI 训练师提供,并且这些问题经过严格筛选,以确保答案易于评分。 多样性:涵盖广泛主题,包括科学、技术、历史、音乐、视频游戏等多个领域。 挑战性:相比于老旧的基准(如 TriviaQA 和 NQ),SimpleQA 对前沿模型(如 GPT-4o)更具挑战性。 研究友好:由于问题简洁,SimpleQA 的运行速度快,评分效率高。 数据集构建: 问题由 AI 训练师从网上搜集,确保每个问题有单一、不可争议的答案。 为确保质量,问题经过三轮验证,最终的错误率约为 3%。 模型评估方法: 使用 ChatGPT 分类器对模型的答案进行评分,分为“正确”、“错误”和“未尝试”三类。 测试表明,较大的模型(如 GPT-4o 和 o1-preview)比较小的模型(如 GPT-4o-mini 和 o1-mini)表现更好,且后者更倾向于“未尝试”问题,表明它们可能更擅长判断何时不确定答案。 模型校准性: 校准性指模型对其回答的自信程度是否与实际准确性一致。SimpleQA 提供了两种方法来测量模型的校准性:一是通过模型自述的信心百分比,二是通过模型多次回答同一问题的频率。 结果显示,较大的模型(如 o1-preview 和 GPT-4o)在校准性上表现更好,但模型普遍倾向于过高估计其自信度。 结论与局限性: SimpleQA 是一个简洁但具有挑战性的基准,专注于短、事实性问题。然而,它的局限性在于仅测量简短回答的事实性,尚不清楚这是否与模型生成长篇、多事实回答的能力相关。 介绍一下 SimpleQA 2024 年 10 月 30 日 SimpleQA 是一个衡量语言模型回答简短、寻求事实的问题的能力的基准工具。 在人工智能领域中,一个未解决的问题是如何训练模型,使其生成的回答更加符合事实。当前的语言模型有时会产生错误的输出,或提供没有证据支撑的回答,这种现象被称为“幻觉”。生成更为准确、幻觉更少的语言模型可以增加可信度,并能够应用于更广泛的领域。为此,我们 开源了⁠(新窗口打开)一个名为 SimpleQA 的新基准工具,以衡量语言模型的事实性。 关于 SimpleQA 基准 事实性是一个复杂的话题,因为其评估难度很大——评价任意声明的真实度颇具挑战性,而语言模型可能会生成包含大量事实性信息的长篇回答。在 SimpleQA 中,我们专注于简短的、寻求事实的查询,尽管这缩小了评估范围,但使得衡量事实性变得更为可行。 我们创建 SimpleQA 数据集的目标是实现以下特性: 高准确性。 所有问题的参考答案均有两位独立 AI 训练师提供支持,问题设计也便于答案的评分。...

October 31, 2024 · 1 min · fisherdaddy

一个全新的媒体格局 • Cristóbal Valenzuela

Runway CEO Cristóbal Valenzuela 在这篇文章中阐述了他对 AI 和媒体未来的看法。他认为,AI 已经成为像电力或互联网一样的基础设施,因此称自己为“AI 公司”已经不再有意义。相反,未来的关键在于如何利用 AI 作为工具来创造全新的媒体形式和叙事方式。Runway 的目标是通过 AI 重新定义媒体和娱乐行业,创造互动、生成式和个性化的内容。AI 不再是终点,而是推动新媒体革命的手段。 AI 的基础设施角色:Valenzuela 认为 AI 已经像互联网一样普遍,成为所有公司都依赖的基础设施。称自己为“AI 公司”已经不再能准确描述企业的核心使命。 Runway 的愿景:Runway 专注于艺术、媒体和娱乐,认为 AI 是讲故事的必要工具。公司从建立最好的研究团队和模型开始,以实现这一愿景。 AI 类似于相机的历史作用:Valenzuela 将 AI 比作相机,认为它不仅是一个技术工具,更是改变整个行业、经济和艺术形式的催化剂。相机改变了人们捕捉现实的方式,而 AI 则改变了人们创造现实的方式。 新媒体的未来:他设想了一个全新的媒体景观,其中内容可以实时生成和响应观众的需求。AI 将打破传统的内容创作与分发的界限,创造互动性、生成式和个性化的媒体体验。 AI 公司逐渐过时:Valenzuela 认为,未来的创新不再来自于专注于开发更好 AI 模型的公司,因为这些技术已经成为商品化。真正的突破将来自那些能够利用这些工具创造新形式媒体和叙事的人。 Runway 的新使命:Runway 不再定位为 AI 公司,而是致力于利用 AI 工具创造新的媒体体验,回归公司最初的使命,即通过技术推动艺术和媒体的创新。 一个全新的媒体格局 2024年10月 Runway 并非一家 AI 公司。Runway 是一家媒体和娱乐公司。我认为,AI 公司的时代已经结束了。 这并不是因为 AI 失败了,恰恰相反,正是因为 AI 已经成为一种基础设施,和电力或互联网一样重要。如今称自己为 AI 公司,就像在 2024 年称自己为互联网公司一样没有意义。因为 AI 已经普及了。每家公司都在使用互联网;未来每家公司也都会使用 AI。 对 Runway 来说,我们的关注点是艺术、媒体和广泛的娱乐领域。我们在将近七年前创立 Runway 时,就提出了一个至今依然坚定的愿景:AI 是讲故事必不可少的工具。为了实现这个愿景,我们倒推构建了一个最优秀的研究团队,开发出最佳模型,从而打造出最好的产品。...

October 31, 2024 · 1 min · fisherdaddy