读《小米创业思考》

这篇文章记录了去年读《小米创业思考》这本书的记录,雷总其中的一些观点会对你有些帮助。 当我们谈论“专注”时,我们究竟在谈什么? 我总结了专注的四个核心命题: 清晰的使命、愿景 深刻的洞察力,了解行业,了解用户需求,找到机会。 明确而坚定的目标及与之匹配的能力 克制贪婪,少就是多 只有贯穿长期目标、始终围绕用户真实需求出发、与核心业务构成强协同的业务拓展,才能驱动企业发展的飞轮。而且,每一项新业务的拓展都以之前业务坚实的发展模型和预期为基础,这样才能保证每一个发展阶段都能集中精力,专注地开拓一项业务。 一次解决一个最迫切的需求 资源总是有限的,切口越小,压强越大,突破越有利。产品的切口怎么选?小米内部在讨论产品时常说“单点突破,逐步放大”,一开始尽量聚焦到只解决用户一个迫切的需求,这样验证起来非常简单。解决的问题只要一句话就可以说清楚,比如小米充电宝解决的问题就是“怎样获得大容量、质量可靠又便宜的充电宝” 决定不做什么跟决定做什么一样重要 “少就是多”的最典型案例就是苹果。 什么才是极致的产品 极致就是“始终更高标准,玩命更严要求”。什么才是极致的产品,我理解有两个条件: 一是产品要惊艳,设计要惊艳,成本也要惊艳 二是超出用户用户预期,真的能让用户尖叫 尽管行业千差万别、个性各有不同,但都有一个相同的特征:了不起的极致产品不是只靠一个天才的想法、一个突然出现的灵感就能做出来的,而是要经历长期痛不欲生的修改,一点一点打磨出来。 替代一匹快马的,不应是一匹更快的马,而有可能是蒸汽汽车。

February 23, 2024 · 1 min · fisherdaddy

Duolingo的游戏化设计

这篇文章翻译了去年在twitter看到的一个关于Duolingo游戏化设计的帖子。 全球最佳游戏化设计。 Duolingo 的突破性游戏化设计使其成为全球最大的教育应用,拥有 6100 万用户。 以下是为什么 Duolingo 的游戏化设计如此出色以及他们是如何做到的: 1 顶级的入门体验 @duolingo 在逐步吸引用户方面表现出色,在此过程中建立了用户的目标。 他们让用户立即进入 “Duolingo” 体验。 这种类型的“用户投入”最终使产品对用户更有价值。 2 游戏化学习路径 @Duolingo 将其课程分成小块内容,每节课只需 2-3 分钟。 短暂的注意力 + 快速的行动 = 留存。 如此低的入门门槛对于激励如今注意力不集中的受众在应用中取得进展至关重要。 3 每日连胜 **连胜功能可以说是多邻国最强大的黏性机制之一,相当于每天的“打卡”,但是,多邻国用的是“连胜”字样。**有超过 600 万人连续 7 天或更多。 在多邻国看来,如果用户连续玩了10天,他们退出产品的几率就会大大降低,因此,也在一直改进“连胜”功能。 **2022年,在连胜功能上,多邻国有了重大迭代,推出了即连胜保护机制——连胜激冻。**也就是说如果有连胜的用户即将失去他们的连胜,该通知就会提醒他们,并保住连胜的成果。这给用户一种极大的心理安慰,会在接下来的日子更加努力。同时,多邻国还改善了连胜动画和连胜奖励等等,这都有助于完善最初的连胜理念,并显著提高了用户留存率。 4 多人模式 几乎所有社交活动都会产生某种网络效应。@duolingo 的社交任务功能令人叹为观止。 Duolingo 上的多人模式(Social Quest)通过荣誉、成就等使学习变得非常有趣。 5 排行榜和徽章 与 Strava、Fitbit 等类似 - 排行榜在游戏化方面已被证明非常有效。 多邻国的排行榜功能一开始采用的是和家人、朋友竞争,但是效果并不好。后来,多邻国意识到,竞争对手的黏性可能比朋友的黏性更好,因为朋友可能不再是活跃用户。 2022年12月,多邻国上线新的排行榜功能。排行榜除了名词,还有级别划分,一共有10个级别,青铜、银灰、黄金、蓝宝石……排行榜每周日更新排名情况,根据经验,根据更新时自己的排名决定能不能晋级。 排行榜的上线,给用户提供了更强的进步感和奖励感,只有坚持每天学习,长时间学习,才有可能取得晋级。排行榜功能对多邻国的增长指标产生了巨大且即时的影响,据Jorge Mazal统计,排行榜上线后,多邻国用户总体学习时间增加了17%,高度投入的学习者(每周5天每天至少花费1小时的用户)的数量增加了两倍。 6 奖励重大里程碑 @duolingo 设有让人愉悦的时刻,将其用户的奖励提升到一个新的高度。 从连胜到免费宝石,Duolingo 建立了一个出色的游戏化引擎,并在用户达到关键里程碑时奖励他们。 所有这些小时刻都汇集在一起! 7 无脑订阅(Super Duolingo) 随着用户对 Duolingo 的投入,他们很快就会意识到存在限制,但同时也会担心失去他们的“连胜”。 @duolingo 在打包这方面非常聪明。他们不仅仅是赚钱;他们在最大化您最宝贵的资产 ——节省时间。...

February 23, 2024 · 1 min · fisherdaddy

黄仁勋台大演讲全文

前天英伟达发布Q4财报,季度营收达到600亿美金,估计暴涨。这里我们来回顾一下黄仁勋在2023年5月份在台大毕业典礼上的演讲。 各位女士、先生,老师,来宾,骄傲的父母们,以及 2023 年国立台湾大学的毕业生们,今天对你们来说是非常特别的一天,也是你们父母梦想成真的一天。你们应该快点从家里搬出去,这确实是一个充满骄傲和喜悦的日子! 你们的父母为了今天做出许多牺牲,我的父母、哥哥也在这里,让我们向所有的父母和祖父母们表达感谢。 十多年前,我第一次来到台湾大学,陈博士邀请我参观他的实验室。他的儿子在硅谷工作,知道 NVIDIA 的 CUDA,推荐爸爸用它来做量子物理模拟实验。我在这个实验室看到满满的 NVIDIA GeForce 游戏显卡,插在 PC 主机板上,走道上的架子开着好几台电扇在散热。 陈博士以游戏显卡用台湾人的方式自制了超级电脑,这是一个展开 NVIDIA 旅程的故事,他以自己的努力为荣,也对我说:「黄先生,因为你的产品,让我能追寻我的志业。」 这句话至今仍让我感动不已,它抓住了我们公司的使命,就是帮助我们这个时代的爱因斯坦和达芬奇们完成他们的志业。 我很高兴能回到台大在你们的毕业典礼致词。当时我从 Oregon State University 毕业的时候,世界还很简单,没有液晶电视,也没有有线电视跟 MTV,手机和电话这两个词是分开讲的。 那一年是 1984 年,IBM PC-AT 和苹果 Macintosh 开启个人电脑革命,也开创了我们所知的芯片和软件产业。现在你们所处的是一个更复杂的世界,充满了地缘政治、社会和环境的变化和挑战。 因为科技,我们能持续连线,沉浸在一个与现实世界平行的数位世界里,汽车也能自动驾驶了。 AI 会创造过去不存在的新工作,每个人都要学习掌握 AI 红利 在电脑产业创造了家用个人电脑 40 年后,我们发明了人工智能,例如自动驾驶或辨识 X 光影像的软件,AI 软件为电脑自动化打开了大门,也开启了价值数兆美元的产业——医疗保健,金融服务,运输和制造业等等,AI 创造了各种机会。 敏捷的公司利用 AI 提升他们的地位,反之,那些落后的公司将会灭亡。正在听这场演讲的创业家们也将开创新事业,如同过去每一个运算时代,新的产业会出现。 AI 创造过去不存在的新工作,像资料工程,提示工程,AI 工厂营运与 AI 安全工程师等等。 这些都是以前没有的工作,有些工作会因为自动化而被淘汰,但可以肯定的是,AI 将改变每一个工作,让工程师、设计师、艺术家、营销人员还有制造规划人员有更好的表现。 就像过去每个时代的人一样,他们拥抱新技术然后成功了,每一家公司,包括你们,都要学着掌握 AI 的红利,让 AI 成为你的副驾驶,做出惊人的事业。 有些人担心 AI 可能会抢走他们的工作,其实,是擅长使用 AI 的「人」会抢走这些人的工作。 我们处在重大科技时代的开端,像 PC,互联网,移动和云等等。但是 AI 的技术更基础,因为每个运算的层次都被重新打造,从我们如何写软件到它如何运作,AI 从根本上重新创造了运算方式。 从各个层面来看,这是计算机行业的一次重生,对台湾企业来说,这也是个千载难逢的机会。你们就是电脑产业的基石,在未来的十年,我们的产业将以全新、加速的 AI 技术取代全球超过一兆美元的传统电脑市场。...

February 23, 2024 · 2 min · fisherdaddy

可汗学院CEO Sal Khan TED 演讲

这篇文章分享了去年看可汗学院CEO Sal Khan 在TED上关于生成式AI对教育领域影响的演讲。 近几个月来,特别是在教育领域,我们看到了很多这样的标题:“学生将使用ChatGPT和其他形式的人工智能来作弊,完成他们的作业。他们不会真正学习,这将完全破坏我们所知道的教育。” 但我认为,我们正处于使用人工智能实现教育领域最大积极转变的关键时期。 我们将通过为全球每个学生提供一个人工智能但非常出色的个人导师,为全球每个教师提供一个出色的人工智能教学助手来实现这一目标。 给每个人都提供个人导师将是一个非常重要的举措,本杰明·布鲁姆1984年的The 2 Sigma Probilem: The Search For Methods of Group Instruction as Effective as One-toOne Tutoring(https://web.mit.edu/5.95/readings/bloom-two-sigma.pdf),他称之为“2 sigma问题”。2 sigma来自两个标准偏差,标准偏差的符号是sigma。如果你为学生提供个人1对1的辅导,你实际上可以得到一个类似右侧的分布,两个标准偏差的改进。 简单说,这可以将您的平均学生变成优秀的学生,将您的低于平均水平的学生变成高于平均水平的学生。 但如何以经济的方式将它扩展到所有人身上?我们已经在 Khan Academy 上大约十年的时间里尝试以某种方式逼近它,但我认为我们正处于加速实现它的关键时期。 Khanmigo:Tutorial 1对1 当学生说:“告诉我答案,” 它回答:“我是你的辅导老师。你认为解决这个问题的下一步应该是什么?” 它实际上在做的不仅仅是一个普通辅导老师会做的,而是一个优秀辅导老师会做的事情。它能够推测出学生心中可能存在的误解。 计算机编程 学生需要让云彩分开。所以,我们可以看到学生开始定义一个变量,left X减减。它只让左边的云彩分开。但然后他们可以问Khanmigo,怎么回事?为什么只有左边的云在移动? 它说:“为了让右边的云也移动,尝试在绘制函数中添加一行代码,使得每一帧里右边的X变量增加一个像素。” 我们一直在试图教用户学习编程,但没有很多计算机教育老师。而你刚刚看到的,即使是我辅导我的孩子时,也无法这么快地、这么好地帮助他们,这真的将成为一个超级辅导员。而且不仅仅是练习。它理解你所观看的内容,它理解你的上下文。 AI导师:分享学科意义 它以苏格拉底式的方式问:“那么,你关心什么?” 假设学生说:“我想成为一个职业运动员。” 它会说:“了解细胞的大小,这对于理解营养和你的身体如何运作等方面非常有用。” 它可以回答问题,它可以测试你,它可以将其与其他想法联系起来,现在你可以向一个AI提问,尽你所能想象的。 我们可以使用Khanmigo为每个学生提供指导顾问、学术教练、职业教练和生活教练。 学习文学与历史的新方式 我们与亚利桑那州立大学合作开设了一所在线高中,名为Khan World School,我们有一名印度学生在那里学习。她叫Saanvi。她在写一篇关于《了不起的盖茨比》的报告。 当她阅读《了不起的盖茨比》时,Jay Gatsby一直盯着远处的绿灯。她问自己:“他为什么这么做?”她进行了一些网络搜索,人们显然对此进行了研究,并评论了这个符号的意义,但这些都没有真正引起她的共鸣。然后她意识到她有Khanmigo,她可以与Jay Gatsby本人交谈。于是, “啊,好极了,老兄。我现在是Jay Gatsby,来自F. Scott Fitzgerald的经典小说中神秘的百万富翁。” 然后,“你为什么一直盯着那个绿灯?” “啊,绿灯,老兄。它是我的梦想和愿望的象征。它位于Daisy Buchanan的码头尽头,横跨我豪宅对面的海湾。我渴望地凝视着它,因为它代表着我对过去的渴望和与Daisy,我的生命之爱团聚的希望。” 很酷的是,Saanvi随后说:“我和他进行了长时间的对话”,她称呼他为“盖茨比先生”,最后她还为占用了他的时间而道歉。 但你可以想象,这种交互解锁了学习文学、学习历史的方式…… 你甚至可以与历史人物交谈。我们甚至可能会添加一个活动,让你可以与密西西比河交谈。它以一种在一年前我们还认为是科幻的方式使事物变得生动起来。 AI 辩手:锻炼思辨能力 这里是一个学生辩论我们是否应该取消学生债务的例子。这名学生反对取消学生债务,我们得到了非常清晰的反馈。学生们,尤其是高中生,都说:“这太神奇了,我能够调整我的论点而不必担心被评判。这让我更有信心走进教室,积极参与。”我们都知道苏格拉底式的对话辩论是学习的好方法,但实际上,对大多数学生来说并不可行。但现在每个人都能够使用。 一起创作 很多报道都说,“它会为孩子们写作。孩子们将不会学会写作。”但我们正在展示一些方式,AI不是为你写作,而是和你一起写作。 这是一件很小的case,我的八岁儿子迷上了它,他以前不太喜欢写作,但你可以说,“我想写一篇恐怖故事”,然后它会说,“哦,一篇恐怖故事,多么毛骨悚然和惊心动魄。让我们一起潜入神秘的阴影和冷酷的谜团的世界。” 这是一个学生写两句话,然后AI写两句话的活动。所以他们一起合作写故事。...

February 23, 2024 · 1 min · fisherdaddy

在国内如何订阅 ChatGPT Plus 以及拥有 OpenAI 开发者账号的Key

本文分享一下作者本人在国内订阅 ChatGPT Plus 以及拥有 OpenAI 开发者账号 key 的方法。 先决条件 自建或者够买一个 VPN 科学上网 美区 AppleID ChatGPT app 支付宝、微信 在国内如何订阅 ChatGPT Plus 手机 APP Store 登录美区 Apple ID。 打开支付宝,左上角位置选择旧金山,搜索 PockyShop 小程序性,绑定邮箱后,在首页选择 App Store & iTunes US,设定金额后购买即可。(备注:ChatGPT plus的订阅月费用为19刀,一次可以买20刀或者40刀,更多貌似会触发支付宝的风控导致订单失败) 购买成功后,把订单里的礼品卡号码复制出来去 App Store 账户的兑换充值卡或代码选项里进行兑换,兑换完成后即充值完成。 在 ChatGPT 的 GPT4 入口点击订阅即可,会默认走 APP Store 账户里的余额。 在国内如何拥有 OpenAI 开发者账号的Key 之前为了方便基于 OpenAI 的 api 开发一些小 demo,我主要通过两个方法来获得 OpenAI 的 api key: 在微软云 Azure 上开通 OpenAI 的 api 功能,基于 Azure 封装的 api 接口来做 LLM 相关的开发,我得到的信息是国内的大企业都是用这种方法来调用 OpenAI。但这种方法有一个最大的缺点:OpenAI最新的能力一般要在其官方释放后的1-2个月左右Azure 上才可以上线体验到,这对于想快速基于最新的能力进行快速 MVP 验证或者评测的用户来说只能用着急来形容。 从一些第三方卖开发者 key 的网站上买一些 key 来使用,缺点也很明显:不可靠、不可控。 偶然翻到这篇博客讲述了几个方法能很好的解决海外银行卡的问题:一个方法是Dupay 和 NobePay,另一个方法是:新加坡华侨银行 和 WISE虚拟卡/实体卡。第一个方法里的 Dupay 和 NobePay 都亲测有效,这里我来大概讲一下流程。...

February 22, 2024 · 1 min · fisherdaddy

OpenAI官方指南: Prompt engineering

这篇是去年翻译的OpenAI官方指南Prompt engineering,值得多读几次。写这篇文章时发现OpenAI给这篇指南改了名字,之前的标题是gpt best practices,现在改为了prompt engineering. GPT最佳实践 获得更好结果的六项策略 1 指示要明确 GPT无法读懂你的心思。如果输出内容过长,可要求简短回复;如果输出内容过于简单,可要求专家级写作;如果不喜欢当前的格式,可展示你期望的格式。你的指示越明确,GPT满足你的要求的可能性就越大。 在提问中提供完整信息,以获得更准确的答复。 要求模型扮演不同角色。 使用分隔符明确区分输入的不同部分。 阐明完成任务所需的步骤。 举例说明。 指定输出内容的期望长度。 2 提供参考文字 GPT可以自信地编造虚假答案,特别是在询问关于深奥话题或要求引用和URL时。就像小抄可以帮助学生在考试中做得更好一样,向GPT提供参考文本可以帮助它减少错误信息的回答。 指导模型使用参考文献来回答问题 指导模型在回答时引用参考文献 3 将复杂的任务拆分为更简单的子任务 正如软件工程中将复杂系统拆分为一系列模块化部件的常规做法,对GPT提交的任务同样适用。复杂任务相较于简单任务具有更高的错误率。此外,复杂任务往往可以重新定义为一系列的简单任务的工作流,在这个流程中,前一个任务的输出用于构建后续任务的输入。 利用意图分类来识别用户查询中最相关的指令 对于需要长对话的对话应用,摘要或过滤之前的对话内容 分块摘要长文档,递归地构建完整摘要 4 给GPT时间思考 如果把17乘以28的题目摆在你面前,你可能不会立刻答出来,但给点时间你能慢慢算出来。同样地,GPT在被要求立即回答时,也更容易出错。让它先进行一番逻辑推理,再给出答案,就能更可靠地引导它找到正确的答案。 让模型先不急于下结论,先计算出自己的答案。 利用内心独白或一系列自问自答来掩盖模型的推理过程。 询问模型在之前的回答中是否有遗漏。 5 使用外部工具 通过结合其他工具的功能来弥补GPT的不足之处。举例来说,文本检索系统能够为GPT提供相关文档信息。代码执行引擎则能辅助GPT进行数学计算和运行代码。若外部工具能比GPT更可靠或高效地完成任务,就将任务外包出去,以实现优势互补。 使用嵌入式搜索技术,打造高效的知识检索系统 通过代码执行功能进行精确计算或接入外部API 让模型访问具体的函数 6 系统化地测试更改 衡量改进成效的诀窍在于可量化的数据。有时候,简单的提示修改可能会在零星案例中取得不错的效果,但在更广泛的案例中却适得其反。因此,要确认某项更改确实提升了性能,就需要设立一套全面的测试方案(也称为评估测试)。 以最佳答案为标准,评估模型的输出结果 策略详解 上述策略都可以通过具体的手段来实施。这些手段旨在激发尝试的灵感,但并不是面面俱到。你大可发挥创意,尝试这里未涉及的新点子。 1 指示要明确 1.1 在提问中提供完整信息,以获得更准确的答复。 想要得到精确无误的回答,就得在提问中提供所有必要的信息和情境。不然,你的意图就只能让模型去猜了。 1.2 要求模型扮演不同角色。 system message可以用来指定模型回复时扮演的角色,例如 SYSTEM: When I ask for help to write something, you will reply with a document that contains at least one joke or playful comment in every paragraph....

February 20, 2024 · 17 min · fisherdaddy

Attention Is All You Need

前段时间看了一些transformer相关的文章,但讲解的都不太清楚,想着还是读一读论文理解起来更加深刻,所以翻译了这篇Attention Is All You Need。 论文中的作者贡献是相同的,而名单的排列顺序是随机的。Jakob 提出了用自注意力机制替换循环神经网络 (RNN) 的想法,并开启了验证这一构想的工作。Ashish 与 Illia 共同设计并实现了首个 Transformer 模型,对这项工作的各个方面都有着至关重要的贡献。Noam 提出了缩放的点积注意力、多头注意力和无需参数的位置表示法,几乎参与了项目的每个细节。Niki 在我们的原始代码库和 tensor2tensor 中设计、实现、调整并评估了无数的模型变种。Llion 也探索了新型模型变种,负责我们最初的代码库、高效的推理和可视化工作。Lukasz 和 Aidan 贡献了无数的时间来设计和实现 tensor2tensor 的各个部分,这不仅取代了我们之前的代码库,还大幅提高了研究结果并极大地加速了我们的研究进展。这些工作是在 Google Brain 和 Google Research 期间完成的。 摘要 目前主流的序列转换模型依赖于包含编码器和解码器的复杂循环或卷积神经网络体系。这些模型的高性能部分得益于编解码器之间的注意力机制连接。我们提出了一种全新的网络架构——Transformer,这一架构完全基于注意力机制,彻底摒弃了递归和卷积。通过在两个机器翻译任务上的实验,我们发现这些模型在质量上更为优异,且具备更高的并行处理能力,训练时间也大幅缩短。我们的模型在 WMT 2014 年的英德翻译任务上获得了 28.4 的 BLEU 分数,超过了包括集成模型在内的现有最佳结果2个 BLEU 分以上。在 WMT 2014 的英法翻译任务上,我们的模型在仅使用八个 GPU 训练了 3.5 天后,刷新了单模型最高 BLEU 记录,达到了 41.8 分,这仅是文献中最佳模型训练成本的一小部分。我们还证明了 Transformer 能够成功地广泛应用于其他任务,比如英语成分句法分析,无论训练数据是丰富还是有限。 1 简介 循环神经网络(RNN)、长短期记忆(LSTM)网络和门控循环单元(GRU)网络,特别是在语言建模和机器翻译等序列建模和转换问题上,已被公认为最先进的技术。从那时起,一直有许多尝试不断地推动循环语言模型和编解码器架构的发展边界。 循环模型的计算通常沿着输入和输出序列的符号位置进行分解。它们通过将位置与计算时间的步骤对齐来生成一系列隐藏状态,这些隐藏状态${h_t}$是基于之前的隐藏状态$h_{t-1}$和当前位置t的输入。这种计算的顺序性质限制了训练样本内部的并行处理能力,特别是在处理更长序列时,由于内存限制,这成为一个关键问题。近期的研究通过采用因式分解技巧和条件计算在提高计算效率的同时,也在某些情况下提升了模型的性能。然而,顺序计算的基本限制仍然存在。 注意力机制已经成为多个任务中高效序列建模和转换模型的核心部分,它允许模型无视输入或输出序列中依赖关系的距离进行建模。尽管如此,除了少数情况外,注意力机制通常与循环网络结合使用。 在本工作中,我们提出了一种新的架构——Transformer,这种架构放弃了递归,完全依靠注意力机制来处理输入和输出之间的全局依赖关系。Transformer架构支持更高程度的并行处理,并且在使用八个 P100 GPU 训练仅12小时后,就能在翻译质量上达到新的最高标准。 2 背景 减少顺序计算的目标也是扩展神经GPU、ByteNet 和 ConvS2S等模型的基础,这些模型都采用了卷积神经网络作为基础构件,能够对所有输入和输出位置的隐藏表示进行并行计算。在这些模型中,将两个任意输入或输出位置的信号相关联所需的操作数会随着位置之间的距离增加而增长,对于ConvS2S是线性增长,而对于ByteNet则是对数增长。这增加了学习远距离位置间依赖性的难度。而在Transformer模型中,这种操作数量被减少到了一个固定的数目,虽然这样做降低了有效分辨率,因为它通过平均注意力加权的位置,但我们通过多头注意力机制(如第3.2节所述)来弥补这一点。 自注意力Self-attention,也称为内部注意力,是一种注意力机制,通过关联单一序列内不同位置来计算序列的表示。自注意力已经在阅读理解、摘要生成、文本蕴含以及学习独立于任务的句子表示等多种任务上成功应用。 端到端记忆网络基于循环注意力机制,而非序列对齐的循环,已在简单的语言问答和语言建模任务上展现了良好的性能。...

February 19, 2024 · 5 min · fisherdaddy

作为世界模拟器的视频生成模型 • OpenAI

本文翻译了OpenAI发布的有关Sora的技术报告,原文戳Video generation models as world simulators 。 我们研究了在视频数据上进行生成式模型的大规模训练。更具体地说,我们对不同时长、分辨率和宽高比的视频及图片进行了文本条件下的扩散模型联合训练。我们采用了一种 Transformer 架构,这种架构可以处理视频和图像潜在编码的时空片段。我们开发的最大型号模型,Sora,具备生成一分钟长的高质量视频的能力。我们的研究成果显示,扩展视频生成模型的规模是向着创建能模拟物理世界的通用工具迈进的一个充满希望的方向。 这份技术报告主要关注于: (1)我们将各类视觉数据转化为统一表示的方法,该方法使得生成模型的大规模训练成为可能; (2)对Sora能力和限制的定性评估。模型和实现的细节没有包含在这份报告中。 众多先前的研究通过各种方式探索了视频数据的生成模型,涉及方法包括循环网络[1,2,3]、生成对抗网络[4,5,6,7]、自回归 Transformer[8,9] 以及扩散模型[10,11,12]。这些研究往往专注于特定种类的视觉数据、时长较短的视频,或者是固定尺寸的视频。而 Sora 是一个对视觉数据具有广泛适用性的模型——它能够创造出在持续时间、纵横比和分辨率上多样化的视频和图片,甚至能生成长达一分钟的高清视频。 把视觉数据分割成补丁 我们受到大语言模型的启发,这类模型通过在互联网大规模的数据集上进行训练,获得了通用的能力[13,14]。大语言模型成功的关键之一在于使用了能够优雅地统一不同文本形态(如代码、数学公式以及多种自然语言)的tokens。在这项工作中,我们探讨了视觉数据的生成模型如何借鉴此类优势。与大语言模型使用文本令牌不同,Sora 使用的是视觉补丁。先前的研究已经证明,对于视觉数据模型而言,补丁Patches是一种有效的表现形式[15,16,17,18]。我们发现,补丁是一种高度可扩展且有效的方式,适用于训练多样化视频和图片的生成模型。 从宏观角度来看,我们将视频转换成补丁的过程首先是将视频压缩到一个低维度的潜在空间[19],接着将这种表示分解为时空补丁。 视频压缩网络 我们开发了一个能够降低视觉数据维度的网络[20]。这个网络接受原始视频作为输入,输出一个在时间和空间维度上均进行了压缩的潜在表示。Sora 就是在这种压缩的潜在空间中接受训练,并能够在其中生成视频。此外,我们还设计了一个对应的解码模型,用于将生成的潜在数据重新映射到像素空间。 时空补丁 对于一个被压缩的输入视频,我们会提取一系列的时空补丁,它们在此过程中充当 Transformer 的令牌。这一方法同样适用于图片,因为从本质上讲,图片就是单帧的视频。我们采用的基于补丁的表示方法,使得 Sora 能够处理不同分辨率、时长和纵横比的视频和图片。在生成视频的推理阶段,我们可以通过按照适当的大小排列随机初始化的补丁,来控制最终视频的尺寸。 用于视频生成的扩展Transformer Sora 属于扩散模型[21,22,23,24,25];它能够接受带有噪声的补丁(以及如文本提示这样的条件信息)作为输入,并被训练以预测出原始的“干净”补丁。值得注意的是,Sora 实际上是一个diffusion Transformer[26]。在多个领域,包括语言模型[13,14]、计算机视觉[15,16,17,18]以及图像生成[27,28,29],Transformer 都展现出了令人瞩目的扩展能力。 在本研究中,我们还发现diffusion transformers 同样能够在视频模型方面有效扩展。接下来,我们将展示一个比较:随着训练进程的推进,使用固定种子和输入条件的视频样本展示。可以明显看到,随着训练计算量的增加,样本的质量有了显著的提升。 基础计算 4倍计算 32倍计算 持续时间、分辨率、纵横比的可变性 以往在图像和视频生成领域,常见的做法是将视频调整至标准尺寸——比如,4秒长的视频以256x256的分辨率呈现。然而,我们发现直接在视频的原始尺寸上进行训练能够带来多重好处。 采样灵活性 Sora 能够生成各种尺寸的视频,包括宽屏的1920x1080p、竖屏的1080x1920,以及这两者之间的任何尺寸。这让 Sora 能够直接针对不同设备的原生纵横比制作内容。此外,这还使我们能够在进行全分辨率输出之前,先以较低分辨率快速制作出原型内容——所有这些都可以通过同一个模型完成。 构图与构成的改进 我们的实验发现,在视频的原生纵横比上进行训练能显著改进视频的构图和画面布局。我们比较了 Sora 和另一个版本的模型,这个版本将所有训练用的视频裁剪成正方形——这是训练生成模型的一种常规做法。结果显示,那些在正方形视频上训练的模型(左侧)有时会生成主体只部分出现在画面中的视频。相比之下,Sora 生成的视频(右侧)在画面布局上有了明显的提升。 语言理解 训练文本生成视频的系统需依赖大量配有对应文字说明的视频。我们采用了 DALL·E 3[30] 中介绍的重新标注技术,将其应用于视频。首先,我们训练了一个能够生成高度描述性文字说明的模型,然后利用这个模型为我们训练集中的全部视频生成文本说明。我们的发现表明,使用这些高度描述性的视频说明进行训练,不仅能提高文本的准确度,也能显著提升视频的整体品质。 与 DALL·E 3 类似,我们也采用 GPT 技术将用户的简短提示转化为更加详尽的描述,然后这些描述会被送到视频生成模型中。这一策略使得 Sora 能够根据用户的具体提示生成高质量且内容准确的视频。 通过图像和视频进行提示 我们网站上的示例,主要展示了从文本到视频的生成样本。然而,Sora 也能接受其他形式的输入,比如已有的图片或视频。这项能力让 Sora 能够完成多种图像和视频编辑任务,如制作完美循环的视频、为静态图片添加动效、以及在时间线上前后扩展视频等。...

February 15, 2024 · 1 min · fisherdaddy

Hugo PaperMod

这篇文章分享搭建本博客网站使用的基础框架和主题,以及如何解决公式的渲染问题的经验。 Hugo PaperMod is a theme based on hugo-paper. The goal of this project is to add more features and customization to the og theme. hugo-paperMod Example This repository offers an example site for hugo-PaperMod Install Read Wiki => hugo-PaperMod - Installation Directory Tree .(site root) ├── configTaxo.yml ├── config.yml ├── content │ ├── archives.fr.md │ ├── archives.md │ ├── posts │ │ ├── emoji-support.md │ │ ├── markdown-syntax.fa.md │ │ ├── markdown-syntax....

February 5, 2024 · 2 min · fisherdaddy