Character.AI 的 AI 推理优化实践

Character.AI 正在致力于构建通用人工智能(AGI),旨在将大型语言模型(LLM)融入日常生活,以提升工作效率和娱乐体验,并在教育、辅导、支持、头脑风暴、创意写作等方面为人们提供帮助。为了实现这一目标,高效地进行“推断”(即LLM生成回复的过程)在全球范围内至关重要。作为一家全栈AI公司,Character.AI 从零开始设计模型架构、推断栈和产品,以优化推断的效率、成本效益和可扩展性。原文戳这里。 高效的架构设计:Character.AI 通过以下技术,将注意力键值(KV)缓存大小减少了20倍以上,同时没有降低质量: 使用多查询注意力(Multi-Query Attention)。 采用混合注意力范围,将局部注意力(Local attention)与全局注意力层交织。 在相邻的注意力层之间共享KV缓存。 状态缓存:Character.AI 开发了一种在对话回合之间在主机内存上缓存注意力KV的高效系统。通过这种系统,可以实现95%的缓存率,进一步降低推断成本。 量化训练和推断:公司使用int8量化技术对模型权重、激活和注意力KV缓存进行量化,并实现了定制的int8内核以支持矩阵乘法和注意力计算。与常见的“后训练量化”技术不同,Character.AI 直接以int8精度训练模型,消除了训练/推断不匹配的风险,同时显著提高了训练效率。 成本效益:自2022年底以来,Character.AI 将推断成本降低了33倍。与使用领先的商业API相比,使用Character.AI的系统至少可以节省13.5倍的支出。 未来展望:Character.AI 感到兴奋的是,继续构建一个将LLM作为全球创新驱动力和增强体验的未来。公司承诺将继续推动AI的可能极限,致力于创建一个高效、可扩展的AI系统成为每一次互动核心的未来。 Character.AI 的 AI 推理优化 在 Character.AI,我们正在朝着实现通用人工智能 (AGI) 的目标迈进。在这个未来中,大语言模型 (LLMs) 将会提升我们的日常生活,从提高业务生产力到提供娱乐服务,并在教育、指导、支持、头脑风暴、创意写作等各方面帮助人们。 为了在全球范围内实现这一目标,必须实现高度高效的“推理”——即 LLMs 生成回复的过程。作为一家全栈 AI 公司,Character.AI 从零开始设计了模型架构、推理栈和产品,这为优化推理效率、降低成本并扩大规模提供了独特的机会,以满足快速增长的全球用户需求。 目前,我们每秒处理超过 20,000 次推理查询。为了让大家了解这一规模,可以参考一下,据第三方估计,Google 搜索每秒处理大约 105,000 次查询 (Statista, 2024),我们处理的查询量大约是它的 20%。 我们能够在如此大规模下稳定提供 LLM 服务,是因为我们在服务栈中开发了许多关键创新。在这篇博客文章中,我们将分享过去两年中开发并最近采用的一些技术和优化方法。 内存高效的架构设计LLM 推理的关键瓶颈在于注意力键值 (KV) 缓存的大小。KV 缓存的大小不仅决定了 GPU 上可以容纳的最大批次大小,还影响了注意力层的 I/O 成本。我们采用了以下技术,在不影响质量的前提下,将 KV 缓存大小减少了 20 倍以上。通过这些技术,GPU 内存不再是服务大批量请求的瓶颈。 1. 多查询注意力。我们在所有注意力层中采用了多查询注意力 (Shazeer, 2019)。相比大多数开源模型采用的分组查询注意力,这项技术将 KV 缓存大小减少了 8 倍。 2. 混合注意力范围。我们交替使用局部注意力 (Beltagy et al....

June 24, 2024 · 1 min · fisherdaddy

LiknedIn 团队思考如何构建生成式 AI 产品

LinkedIn团队在过去六个月里致力于开发一款新的 AI 驱动的体验,旨在重新构想成员们如何进行求职和专业内容浏览。通过将每个动态和职位发布转变为获取信息、连接点、获取建议等活动的跳板,团队利用生成式AI的力量,为用户提供更丰富的互动体验。 ➡️ 系统工作流程 选择正确的 AI 代理:系统根据用户的问题,决定最适合处理该问题的 AI 代理。 收集信息:AI 代理调用内部 API 和必应搜索,寻找与用户问题相关的具体案例和案例研究。 构建回应:AI 代理将收集到的信息过滤和综合,生成清晰、信息丰富的回答,并通过内部 API 装饰回应,如添加文章链接或提及的人物简介。 ➡️ 设计与实现 整体设计:遵循检索增强生成(RAG)的设计模式,构建了包括路由、检索和生成在内的三步流程。 开发速度:通过将任务分解为独立的 AI 代理,并采用中心化的评估流程、共享提示模板等方法,实现了快速开发。 ➡️ 挑战与解决方案 评估:开发指南、扩展注释和自动评估方面遇到挑战,通过建立内部语言学团队的工具和流程,每天评估多达 500 个对话。 调用内部 API:通过“技能”包装内部 API,使 LLM 能够执行各种与产品相关的事情,如查看个人资料、搜索文章/人员/工作/公司等。 一致的质量:团队在第一个月内实现了 80% 的基本体验目标,随后花了四个月的时间努力达到 95% 的完整体验目标。 容量与延迟:团队关注质量与延迟、吞吐量与延迟、成本和端到端流式传输等方面的平衡。 通过这些努力,LinkedIn团队成功构建了一个能够提供丰富互动体验的生成式AI产品,并计划在不久的将来向更多用户推出。原文戳这里。 思考如何构建生成式 AI 产品 在过去的六个月里,我们 LinkedIn 团队一直在努力开发一个新的 AI 驱动体验。我们的目标是重新定义会员如何进行求职和浏览专业内容。 生成式 AI 的爆炸性发展让我们重新审视现有可能性。我们尝试了很多想法,但大多数都没有成功,直到我们发现可以将每条信息流和职位发布转变为以下几种跳板: 更快获取信息,如获取文章要点或了解公司的最新动态。 连接点滴,如评估你是否适合某个职位。 接受建议,如改进个人资料或准备面试。 以及更多内容... 构建过程是否顺利?哪些方面进展顺利,哪些方面遇到挑战? 在生成式 AI 上构建并非一帆风顺,我们在很多方面遇到了困难。我们想揭开“工程”的帷幕,分享哪些部分比较顺利,哪些方面遇到了挑战,以及接下来我们将做什么。 概述让我们通过一个真实的场景来展示系统的工作原理。 想象你正在浏览 LinkedIn 的信息流,偶然看到一篇关于设计中可访问性的有趣文章。在文章旁边,你会看到一些入门问题,以便深入探讨该主题。你很好奇并点击了“有哪些例子表明可访问性在科技公司中带来了业务价值?” 以下是后台发生的事情: 选择合适的智能体:这是你旅程的开始。我们的系统接收到你的问题,并决定哪个 AI 智能体最适合处理它。在这种情况下,它识别出你对科技公司中可访问性的兴趣,并将你的查询路由到一个专门处理常识性问题的 AI 智能体。收集信息:现在是一些体力活的时间了。AI 智能体调用内部 API 和 Bing,搜索具体的例子和案例研究,突出设计中的可访问性如何为科技公司带来了业务价值。我们正在创建一个文档来支持我们的回答。撰写回答:在获取必要的信息后,智能体现在可以撰写回答。它过滤并综合数据,形成连贯且信息丰富的答案,为你提供清晰的例子,说明可访问性举措如何为科技公司带来业务价值。为了避免生成一大堆文字,并使体验更具互动性,内部 API 被调用以附加例如文章链接或文章中提到的人的个人资料等附件。你可能会跟进问“如何转行到这个领域?”,我们会重复这个过程,但现在会将你路由到一个专门处理职业和工作的 AI 智能体。只需几次点击,你就可以深入了解任何主题,获取可操作的见解,或找到你的下一个大机会。...

June 20, 2024 · 2 min · fisherdaddy

HeyGen 如何用 7 个月做到 100 万美元 ARR

本文是 HeyGen 创认识 Joshua Xu 写的一篇官网博客,文章主要讲述了 HeyGen 在 7 个月内实现 1M ARR(年度经常性收入)的经历,以及他们在此过程中的学习和成长。作者强调了从消费者产品背景转向 SaaS 领域的过程,以及在此过程中对AI市场匹配(AI-Market-Fit)概念的探索。文章重点介绍了产品开发、市场验证、用户互动和团队协作等方面的经验和教训。一些关键细节如下: ➡️ 市场验证与产品开发 HeyGen通过 Fiverr 平台(众包平台)验证了其 AI 生成视频的市场需求,并在 217 天内实现了盈利。 他们开发了一个视频引擎,并采取了三个步骤来实现愿景:首先为企业构建视频引擎,然后创建 SaaS 产品以实现技术落地,最后探索市场和技术边界。 作者提出了 AI 市场匹配的概念,区分了演示价值和用户价值,并强调了找到正确问题比解决问题更重要。 ➡️ 用户互动与团队协作 HeyGen 鼓励用户与公司沟通,通过 Zoom 进行了1400次客户会议,平均每天 7 次。 他们通过透明的方式与团队分享客户反馈,分为“HeyGen喜爱”和“HeyGen讨厌”两个群组,并在每周会议中优先讨论客户反馈。 作者强调了避免定制化诱惑的重要性,并提出了通过 Airtable 跟踪客户成功的方法。 ➡️ 学习与成长 作者分享了个人的学习方法,包括听 SaaStr 播客、阅读 Substack 订阅内容、学习其他 SaaS 产品等。 HeyGen 在达到 1M ARR 后,继续开发 HeyGen 2.0,增加团队协作和企业功能,并计划在市场推广方面进行扩展。 HeyGen 0 - 100 万美元 ARR 用时 7 个月 ⏱ 我们于 2022 年 7 月 29 日启动。经过 178 天,我们的年度经常性收入(ARR)达到了 100 万美元,并在 217 天后达到了盈亏平衡点。...

June 18, 2024 · 2 min · fisherdaddy

早前初创企业的最简单最重要的仪表板

本文是关于早期创业公司最简单也最重要的仪表盘建议。作者 Andreas Klinger 认为,在早期阶段,创业者应该关注用户留存,因为留存是客户满意度的直接体现。他强调,创业者不应过早追求复杂的数据可视化工具,而是应该利用已有的客户列表,通过添加关键活动信息来监控和提升客户活跃度,从而确保客户满意度。 关键细节 留存与客户满意度:Klinger指出留存是客户幸福感的函数,即如果用户对产品不满意或未从中获益,他们很可能不会继续使用。 数据可视化的误区:他认为,在优化新用户导入转化之前,复杂的数据可视化工具如留存队列表通常是无效的。 客户列表的使用:建议早期创业公司的客户列表应简单易用,足以容纳所有客户,并添加关键活动指标来监控客户活跃度。 客户活跃度监控:提出通过颜色编码来区分不同活跃度的客户,并指定团队成员负责保持客户活跃度。 客户接触的重要性:强调产品经理或创始人的工作是保持与客户的联系,一旦发现客户活跃度下降,应及时通过电子邮件或Skype联系他们。 客户流失的早期干预:指出客户流失不是在取消订阅或停止付费时发生,而是在停止使用产品时就已经开始,因此需要尽早介入。 客户幸福感指数:对于某些产品,可能需要创建一个综合多项活动的客户幸福感指数,来衡量客户行为的重要性。 工具推荐:文中推荐了Intercom这一服务,它提供了手动和自动消息传递功能,并拥有出色的创业产品博客。 Klinger的建议强调简单性和实用性,鼓励早期创业公司关注可以直接采取行动的信息,而不是过度依赖复杂的抽象数据。 最简单且最重要的初创企业仪表板 | Andreas Klinger 这篇博客文章是一个涵盖初创企业指标基础知识的小系列的一部分。我的个人目标是更有效地帮助早期初创企业,同时避免在指导计划中重复自己太多。 如果你正在开发处于生命周期早期的软件产品,这个系列可能对你有用。 该系列的其他文章: 初创企业指标入门。选择哪种分析工具 简单但容易出错。如何以及在何处设置分析目标 初创企业指标:一个爱情故事。我7小时工作坊的幻灯片 早期初创企业指标 最常见的建议之一是在早期阶段专注于留存率。因为留存率本质上是客户满意度的反映。 留存率 = f(客户满意度) 很简单:如果用户对你的产品不满意,或者使用它没有获得任何好处,他们大多数不会继续使用它。 我们通常会想到像留存率队列表这样的酷炫可视化工具。 虽然这些表格看起来很漂亮,让你有一种在做有用事情的美好感觉,但遗憾的是,在你开始优化新用户的引导转换之前,它们通常有点无用。 请不要太早追求华丽的可视化效果。 这种可视化在你有大量用户并需要整体概览时很有用。B2C移动应用通常在早期阶段就有这个问题。但我合作的大多数SaaS公司(或仍处于测试阶段的公司)在达到产品市场契合之前都没有这个问题。 对20个客户进行20%的变化分析不会告诉你太多信息,除了标准差的基本知识。与客户保持个人关系会让你了解他们的故事。保持他们的近距离。 如果你把付费客户当作百分比和无意义的数字来对待,他们也会对你做同样的事。 几乎所有早期初创企业的一个“仪表板”其实已经拥有。让我们开始使用它。 只要你的客户列表可以放在一两页上,你应该有所有这些客户的列表。(我很确定你已经在后端有这个列表了) 向此表添加活动信息。显示他们活动水平的核心关键绩效指标(或至少他们的最后登录日期)。根据活动情况用颜色突出显示。并且让团队中的某个人负责确保每个人都保持绿色状态。 虚拟模型是虚拟的 真的吗?这与指标无关,还是? “这是给人提供咨询服务时的建议吗?让他画复杂的图表或者带上干草叉。” 这个仪表板实现起来如此简单,我甚至害怕发布这篇文章。但它是 - 并且一直是 - 我对定制仪表板的最常见建议。 我不知道你怎么想。但我不一定需要数字。我需要可以采取行动的信息。我想要产品洞察力 - 使用我的数据库信息创建可行洞察力的简单方法。 大多数抽象如图表、留存队列、AARRR漏斗等在你有太多信息时很棒。在那之前它们只做一件事,创建一个抽象层。 对我个人而言,我发现即使在稍后阶段这也很有用:如果你只有0-100个新注册用户,不要隐藏它们。这是同一个游戏在更高层次上的表现。他们的第一个月是决定你是否会留住他们的一个月。让某人负责让他们保持绿色。 让一个人负责让所有客户保持绿色。这个人很可能就是你。 你作为产品经理/创始人的工作是与所有这些客户保持联系。一旦某人变成橙色,通过电子邮件或Skype联系他们。 找出发生了什么。现在他们仍在决策过程中。现在你仍然可以说服他们留下来。现在你甚至可能获得对产品更改的有用信息。 流失不是在用户取消订阅你的服务或停止支付时发生的。这只是你注意到它的时候。流失发生在用户停止使用你的产品时。你想在客户有风险时介入,当他可能停止使用你的产品时。 只要你有几十个付费客户,你可以亲自联系每一个人。没有借口。不要把他们当数字对待,如果你不想被同样对待的话。 客户幸福指数 如果客户的最后活动对你的产品没有多大意义(例如登录可能并不意味着他找到了/做了什么),你可能需要关注更深层的核心活动。 通常人们会创建一个客户幸福指数。将所有完成的活动组合成一个总数,并为每个活动赋予权重。 通过这样做,你可以说登录对你来说不如购买重要。你甚至可以将这些数字按组汇总,从而看到用户群中的某些段存在问题。 但说实话,虽然这很花哨,但我几乎从不需要这个。 直到我需要汇总这些数字。例如显示某个客户群的幸福指数。 但在那之前 - 根据我的个人经验 - 我通常只看到产品中的1-3个核心活动。(例如在一个项目工具中 - 项目总数、每周关闭的待办事项、每周活跃的团队成员)通常我倾向于简单地推荐将这些数字添加到表中就可以了。

June 17, 2024 · 1 min · fisherdaddy

重要的 SaaS 指标

这篇文章主要探讨了 SaaS 业务的关键绩效指标(KPIs),以及作者所在的投资公司 Craft 在进行 A 轮融资时所关注的基准。文章强调了以下几个核心 KPIs 的重要性: 成长:以收入增长作为理解SaaS业务的基础,特别是月度或年度经常性收入(MRR 或 ARR)。 留存:通过客户分群(队列)来跟踪保留率,分析不同时间段的客户留存情况。 销售效率/单位经济:通过比较新客户的价值与获取他们的成本,来评估销售效率和可持续性。 利润率:分析毛利润和客户终身价值(LTV)等指标,以评估公司的财务健康。 资本效率:通过燃烧倍数和炒作比率等指标,评估公司在增长过程中资本的利用效率。 参与度:用户参与度对于SaaS创业公司越来越重要,特别是在免费试用或免费增值用户转化为付费账户方面。 具体细节如下: ➡️ 成长 MRR或ARR:经常性收入是 SaaS 公司的主要标准,对于寻求 A 轮融资的初创公司,500k ARR 已成为新的门槛。 CMGR:复合月增长率(CMGR)是衡量 MRR 增长的最佳方式,对于寻求 A 或 B 轮融资的初创公司,至少需要 15% 的 CMGR(在$1M以下ARR)和10%以上($1M以上ARR)。 MRR组成:详细分析 MRR 的各个组成部分,包括留存、扩张、新销售、复活、缩减和流失等。 ➡️ 留存 美元留存:通过比较各队列的原始收入与后续期间的收入,考虑扩张收入,最佳 SaaS 公司的年美元留存率超过120%。 Logo留存:跟踪活跃(非流失)客户的百分比,通常低于美元留存率,且与客户规模相关。 ➡️ 销售效率/单位经济 新销售 ARR 与销售和市场(S&M)费用:比较新客户带来的 ARR 与同期的 S&M 支出。 CAC:客户获取成本(CAC)是衡量销售效率的关键指标。 ACV与CAC:比较新客户的年度合同价值(ACV)与CAC,理想的ACV应大于CAC。 ➡️ 利润率 毛利润:SaaS 公司应保持至少 75% 的毛利润。 LTV:终身价值(LTV)综合了CAC、美元留存和毛利润,是评估公司整体健康状况的重要指标。 ➡️ 资本效率 燃烧倍数:衡量公司净消耗与净新增 ARR 的关系,是评估增长效率的关键指标。 炒作比率:通过比较筹集(或消耗)的资本与 ARR,来衡量资本效率。 ➡️ 参与度...

June 17, 2024 · 2 min · fisherdaddy

如何与用户沟通 · YC

本文来自于 YC 创业视频课 How To Talk To Users。主要阐述了创业者为何以及如何与用户沟通,从而更好地理解用户需求并开发出符合市场的产品。Gustav(作者)强调了以下观点: 优秀的创业者会始终与用户保持沟通。 创业者应直接与用户交流,以获取第一手反馈。 用户是唯一支付给公司钱的利益相关者,他们的反馈至关重要。 ➡️ 用户沟通的重要性 用户和客户可以让公司保持诚实,他们是对产品最直接的评判者。 创业者应通过直接沟通了解用户的真实需求和问题。 ➡️ 如何找到用户并与之沟通 创业者可以通过联系认识的人、同事或前同事开始寻找用户。 使用 LinkedIn、Reddit、Slack 或 Discord 社区,甚至参加线下活动也是寻找早期用户的方法。 作者提供了一个模拟创业过程,展示如何通过联系潜在用户来了解他们的需求和动机。 ➡️ 采访用户的技巧 采访应在视频通话、电话或面对面进行,以便更深入地了解用户。 创业者应建立与采访对象的良好关系,以便获得坦诚的反馈。 采访中不要过早介绍自己的产品理念,以免影响回答的客观性。 提问应开放,鼓励用户详细描述他们的体验和需求。 ➡️ 问题的类型 创业者应询问用户目前如何处理特定问题、遇到的困难、为何重要等。 避免问是否会使用你的产品或关于产品特性的具体问题。 ➡️ 用户反馈的利用 创业者应将反馈组织起来,识别关键问题,并据此形成假设。 使用假设来创建最小可行产品(MVP),并通过与用户测试来验证其价值。 ➡️ 销售和用户参与 创业者应考虑解决问题的价值,并评估目标受众的易销售性。 MVP 原型可以展示给用户,通过观察他们的使用过程来获取反馈。 创业者应保持与用户的沟通,通过 Slack 或 WhatsApp 群组等方式,让用户感觉自己是产品开发的一部分。 How To Talk To Users 大家好,我叫 Gustav,我是 Y Combinator 的一名小组合伙人,自 2017 年以来一直在这里工作。在加入 YC 之前,我在 Airbnb 工作,在 2007 年成为了 YC 的创始人。今天,我将讨论如何与用户和未来客户沟通。以下是我今天计划讨论的内容: 为什么最优秀的创始人在公司整个生命周期内都与用户交流 如何找到你的用户并与他们沟通 应该问用户哪些问题以及不应该问哪些问题 如何将你的结论转化为 MVP(最小可行产品)。 为什么最优秀的创始人在公司整个生命周期内都与用户交流 世界上大多数人对新创业公司的形成方式存在很大的误解,他们认为新产品的创意是在一个闲散的周日或深夜编程时偶然产生的。但事情并不是这样的。这是电影《社交网络》中的一个场景,这是一部很棒的电影,但他们对 Facebook 实际上是如何起步的描绘存在很多错误。这是 Brian Chesky,Airbnb 的联合创始人兼 CEO,照片左边的是 Amal,Amal 是 Airbnb 的第一位客人,他们实际上在旧金山一起度过了一个周末。你注意到这张照片和前一张照片的区别了吗?这张照片是真实的,它包含了与真实客户的双向对话。优秀的创始人在他们甚至还没有产品之前就与未来的客户沟通。实际上,世界上最优秀的创始人在公司生命周期内始终从用户那里学习,但前提是你正确识别了你的用户。你可能会问为什么?用户和客户会让你保持真实,他们是唯一真正付费给你的人,如果有人会告诉你真相,那就是他们。所以,我今天的演讲是关于如何做到这一点的。...

June 17, 2024 · 2 min · fisherdaddy

NVIDIA 发布用于训练大语言模型的开放合成数据生成管道

英伟达发布了名为 Nemotron-4 340B 的开源模型家族,开发者可利用这些模型为大型语言模型(LLM)生成合成数据,应用于商业领域,如医疗、金融、制造、零售等行业。高质量的训练数据对LLM的性能至关重要,但获取这些数据通常成本高昂且难度较大。Nemotron-4 340B提供了免费且可扩展的方法来生成合成数据,有助于构建强大的LLM。原文戳这里。 ➡️ Nemotron-4 340B 模型家族 包括基础模型、指导模型和奖励模型,形成生成合成数据的流水线,用于训练和精调LLM。 这些模型针对英伟达 NeMo 开源框架进行了优化,该框架支持端到端模型训练,包括数据整理、定制和评估。 同时也针对开源的英伟达 TensorRT-LLM 库进行了优化,以便进行高效推理。 ➡️ 生成合成数据的流程 在数据获取受限的情况下,LLM 可以帮助生成合成训练数据。 Nemotron-4 340B 指导模型生成模仿真实世界数据特性的多样化合成数据,提高数据质量,增强 LLM 在多个领域的性能和鲁棒性。 开发者可以使用 Nemotron-4 340B 奖励模型筛选高质量响应,该模型在 Hugging Face RewardBench 排行榜上排名第一。 ➡️ 模型优化与精调 使用 NeMo 框架和 TensorRT-LLM,开发者可以优化指导模型和奖励模型,生成合成数据并评分响应。 所有 Nemotron-4 340B 模型都利用 TensorRT-LLM 进行优化,以实现张量并行,提高大规模推理的效率。 Nemotron-4 340B 基础模型经过 9 万亿个令牌的训练,可通过 NeMo 框架定制,以适应特定用例或领域。 ➡️ 安全性与评估 Nemotron-4 340B 指导模型经过了广泛的安全性评估,包括对抗性测试,并在多个风险指标上表现良好。 用户仍需对模型的输出进行仔细评估,以确保生成的合成数据适合其用例,安全且准确。 NVIDIA 发布用于训练大语言模型的开放合成数据生成管道 NVIDIA 今天宣布 Nemotron-4 340B,这是一个开放模型系列,开发者可以用来生成用于商业应用的大语言模型 (LLM) 的合成数据,涵盖医疗、金融、制造、零售等各个行业。 高质量的训练数据对于定制 LLM 的性能、准确性和响应质量至关重要,但强大的数据集往往非常昂贵且难以获得。 Nemotron-4 340B 通过一个独特的开放模型许可,为开发者提供了一种免费的、可扩展的方式来生成合成数据,从而帮助构建强大的 LLM。...

June 17, 2024 · 1 min · fisherdaddy

黄仁勋在加州理工学院 2024 毕业典礼上的演讲

在 2024 年加州理工学院(Caltech)毕业典礼上,NVIDIA 的 CEO 黄仁勋受邀做了演讲,演讲中 Jesen 强调了毕业生们通过刻苦努力取得的成就,并指出未来面对的挑战和机遇。他分享了自己的职业经历,特别是 NVIDIA 在加速计算和人工智能(AI)领域的突破,强调了坚持和适应力的重要性,并鼓励毕业生们在未来的职业生涯中要有耐心、坚韧和对技术的热情。视频地址。演讲关键细节如下: 个人与 Caltech 的联系: NVIDIA 的首席科学家都来自 Caltech。 演讲者通过在 Caltech 的招聘,推介 NVIDIA 的良好企业文化和发展前景。 技术革新与贡献: 描述了 NVIDIA 从图形公司转型为 AI 公司,并通过加速计算和深度学习技术的进步推动整个计算行业的变革。 强调 CUDA 和 GPU 的开发以及这些技术在深度学习中的应用,对AI革命的重要性。 职业经历与挑战: 分享了多次因市场变化和竞争对手的策略调整而被迫转型的经历,从集成图形芯片到移动设备,再到最终进入机器人领域。 强调在面对挫折时迅速调整策略和视角的重要性,并从中培养出公司文化的韧性。 未来技术与行业: 讨论了 AI 技术的飞速发展和未来机器人技术的潜力。 提到新兴的 AI 工厂,这些工厂将生产“智能代币”,并将其视为下一次工业革命的重要组成部分。 人生哲理与建议: 通过在日本银阁寺的经历,强调专注于自己的事业和持续改进的重要性。 建议毕业生每天从最重要的工作开始,优先处理生活中的重要事项,从而有效地利用时间。 鼓励毕业生相信并致力于某些未被广泛接受的理念或技术,接受挫折作为新的机遇,并从中成长。 总结与祝福: 确信 Caltech 毕业生在面对未来挑战时已经做好了充分的准备。 鼓励他们在未来的事业中找到自己的“工艺”,将其作为终生事业不断完善,并在过程中发展出坚韧和适应能力。 原文 女士们,先生们,Rosenbaum 校长,尊敬的教职员工,亲爱的来宾,骄傲的家长,最重要的是,加州理工学院 2024 届的毕业生们。今天对你们来说是一个非常高兴的日子。你们应该表现得更兴奋一些。你们知道你们即将从加州理工学院毕业。这里是伟大的 Richard Feynman, Linus Pauling, 以及对我和我们的行业有深远影响的 Carver Mead 的母校。是的,这是一件大事。 今天是一个充满自豪和喜悦的日子。对你们所有人来说,这是一个梦想成真的日子,不仅仅是你们,因为你们的父母和家庭为了看到你们达到这个里程碑做出了无数的牺牲。所以让我们借此机会祝贺他们,感谢他们,并告诉他们你爱他们。不要忘记这一点,因为你不知道你会在家住多久。今天你应该特别感激。作为一个骄傲的家长,我真的很喜欢我的孩子们没有搬出去,每天看到他们很棒,但现在他们搬走了,这让我很难过。所以希望你们能和父母多些相处。你们的旅程是你们性格、决心、愿意为梦想做出牺牲的见证,你们应该感到自豪。做出牺牲、忍受痛苦和磨难的能力,这些都是你们未来生活中需要的品质。 你们和我有一些共同点。首先,NVIDIA 的两位首席科学家都来自加州理工学院。我今天演讲的原因之一是因为我在招募人才。所以我想告诉你们,NVIDIA 是一家非常棒的公司,我是一个非常好的老板,受到普遍喜爱,来 NVIDIA 工作吧。...

June 17, 2024 · 2 min · fisherdaddy

NVIDIA 公布 GPU 和互连技术路线图,展望到 2027 年

Nvidia 因其架构、工程和供应链的领先,在生成式 AI 市场占据了优势地位。公司不仅资金充足,而且其 GPU 和互连技术路线图已规划至 2027 年,显示了其在推动AI革命中的雄心壮志。Nvidia 的 CEO 黄仁勋在 Computex 大会上强调了生成式 AI 的重要性,并展望了 AI 的未来以及 Nvidia 硬件的发展。 🔑 关键细节 ➡️ 性能提升与能源消耗 从“Pascal” P100 GPU 到即将推出的 “Blackwell” B100 GPU,Nvidia 的GPU 性能在 8 年间提升了 1053 倍。 性能提升部分得益于将浮点精度从 FP16 降低到 FP4,这一变化使得性能增加了约 4 倍。 能耗降低是关键,因为生成大型语言模型响应所需的能量成本必须降低,以便与性能提升保持同步。 ➡️ 成本与投资 GPU 的价格在过去 8 年中上涨了约 7.5 倍,但性能提升超过 1000 倍。 使用 Blackwell系 统,公司可以在约 10天 内用大约 10000 个 GPU 训练 GPT-4 1.8T MoE 模型。 一个包含 10000 个 GPU 的 Blackwell 系统成本约为 8 亿美元,而 10 天的电力成本约为 54,000 美元。...

June 3, 2024 · 4 min · fisherdaddy

🍷 FineWeb:在网络上大规模获取最优质的文本数据

HuggingFace 发布了一个名为 🍷 FineWeb 的新大规模预训练数据集,该数据集旨在提升大语言模型(LLM)的性能。FineWeb 数据集由 96 个 CommonCrawl 快照生成,总计 15 万亿个 token,占用 44TB 磁盘空间。通过详细记录和分析数据去重和过滤策略,FineWeb 数据集在性能上优于其他公开的预训练数据集。此外,本文还介绍了 FineWeb 的子集 📚 FineWeb-Edu,该子集通过自动化高质量注释构建,专注于教育内容,并在多个教育基准测试中表现优异。 🔑 关键细节 ➡️ 数据集构建与处理 数据来源:FineWeb 使用了 CommonCrawl 作为数据源,涵盖了从 2007 年至今的 96 个快照。 数据处理:使用了 datatrove 开源库进行数据处理,包括文本提取、去重和过滤。 去重策略:采用 MinHash 技术进行模糊去重,确保数据集的多样性和质量。 ➡️ 质量评估与基准测试 小模型评估:通过训练小模型(1-2 亿参数)并在一组基准任务上评估,验证数据集质量。 基准任务:包括 CommonSense QA、HellaSwag、OpenBook QA、PIQA、SIQA、WinoGrande、ARC 和 MMLU。 ➡️ 过滤策略 基础过滤:包括 URL 过滤、语言识别和质量过滤。 高级过滤:借鉴了 C4 数据集的过滤策略,并开发了新的启发式过滤器。 自定义过滤器:基于统计分析,开发了新的过滤器,进一步提升数据集质量。 ➡️ FineWeb-Edu 子集 教育内容注释:使用 Llama-3-70B-Instruct 模型对 50 万个样本进行教育质量评分。 类器训练:基于这些注释训练了一个小型分类器,用于大规模数据过滤。 性能提升:FineWeb-Edu 在教育基准测试中表现出色,显著优于其他公开数据集。 ➡️ 未来展望...

June 3, 2024 · 7 min · fisherdaddy