乔布斯领导力的真谛

这篇文章翻译了哈弗商业评论的一篇文章 The Real Leadership Lessons of Steve Jobs 摘要 作者在史蒂夫·乔布斯去世后不久出版的传记迅速成为畅销书。在这篇文章中,他试图纠正很多评论者对乔布斯性格棱角的过度关注。艾萨克森认为,乔布斯的性格是他商业成功不可分割的一部分,但乔布斯真正值得学习的地方在于他的成就。他不仅创立了世界上最有价值的公司,还改变了多个行业的面貌,包括个人电脑、动画电影、音乐、电话、平板电脑、零售店以及数字出版等。 艾萨克森在文中提到乔布斯成功背后的十四个关键原则:集中精力、简化问题、贯彻始终负责、在落后时实现跨越式发展、产品优先于利润、不受焦点小组影响、改变现实、传递价值、追求完美、既要把握大局也要注意细节、只与最优秀的人合作、面对面沟通、融合人文与科学、“stay hungry, stay foolish”。 正文 乔布斯的故事是创业神话的极致展现:1976年,他与人在父母的车库中共同创立了苹果公司,1985年被迫离开,1997年返回拯救了濒临破产的苹果,并在2011年10月去世时,他已经将其打造成了世界上最有价值的公司。在这个过程中,他推动了七大行业的变革:个人计算机、动画电影、音乐、手机、平板电脑、零售店和数字出版。因此,他与托马斯·爱迪生、亨利·福特和沃尔特·迪士尼等美国伟大的创新者一道,被铭记在创新者的殿堂中。这些人并非圣人,但他们的个性将随时间淡忘,而他们将想象力应用于技术和商业的方式将被历史铭记。 “那些疯狂到认为自己可以改变世界的人,最终确实能够做到。” ——1997年苹果公司“想法不同”广告 自从我的乔布斯传记出版以来,无数评论者试图从中提炼管理智慧。其中一些见解颇具洞察力,但我认为许多人(尤其是那些没有创业经验的人)过分关注了他性格中的棱角。我认为,乔布斯的精髓在于,他的性格是他商业行为方式的核心。他总是行事仿佛常规规则对他不适用,他对生活的激情、强度和极端情感,也同样融入了他创造的产品中。他的急躁和不耐烦是他追求完美主义的一部分。 在我完成大部分书稿后最后一次见到他时,我再次询问了他对待人粗鲁的倾向。“看看结果吧, ”他回答。“我合作的都是聪明人,如果他们真的感受到了苦难,他们完全可以在其他地方找到顶尖的职位。但他们没有离开。”随后他沉默了一会儿,几乎是带着怀念地说,“我们一起完成了一些不可思议的事情。”的确,过去十多年里,他和苹果取得的成就序列,超越了现代任何其他创新公司:iMac、iPod、iPod nano、iTunes Store、Apple Stores、MacBook、iPhone、iPad、App Store、OS X Lion,还有每一部皮克斯电影。即使在与终极病魔作斗争时,乔布斯也被一群多年来受他鼓舞的忠诚同事、一个充满爱的妻子、姐妹和四个孩子所环绕。 所以,我认为从乔布斯实际取得的成就中学到的教训才是真正的精髓。我曾问他,他认为他最重要的创造是什么,以为他会说是iPad或Macintosh。出乎意料,他说是苹果公司本身。他说,打造一个持久的公司,比创造一个伟大的产品更难,也更重要。他是如何做到的呢?即使是一百年后,商学院也仍将研究这个问题。以下是我认为他成功的关键所在。 专注 当乔布斯1997年回到苹果时,发现公司在生产一系列混乱的计算机和外设,包括十几个版本的Macintosh。经过几周的产品审查,他终于忍无可忍。“停下!”他大喊。“这太疯狂了。”他拿起一支马克笔,赤脚走到一块白板前,画出一个二乘二的网格。“我们需要的是这个,”他宣布。他将两列标为“消费者”和“专业”,两行标为“桌面”和“便携”。他告诉团队,他们的任务是集中精力打造四款伟大的产品,每个象限一个。所有其他产品都应该被取消。这一决定让人震惊,但正是这种专注救了苹果。“决定不做什么和决定做什么一样重要,”他告诉我。“这对公司来说是真的,对产品也是如此。” 在他扭转了公司的局面之后,乔布斯开始每年带他的“前100名”员工去度假。在最后一天,他会站在白板前(他喜欢白板,因为它让他完全掌控局面,而且能够集中注意力)并问,“我们接下来应该做哪10件事?”人们会争先恐后地提出他们的建议。乔布斯会将这些建议写下来——然后划掉那些他认为不明智的。经过一番讨论,小组最终会得出一个由10项构成的清单。然后乔布斯会削减掉后面七项并宣布,“我们只能做三件。” 专注是乔布斯性格的一部分,也是他通过禅宗训练所磨砺出的。他无情地过滤掉他认为的分心事物。有时,同事和家庭成员会因为他们试图让他处理他们认为重要的问题——比如一个法律问题,一个医疗诊断——而感到沮丧。但他会冷冷地盯着他们,拒绝转移他那如激光一般的专注,直到他准备好。 在他生命的最后阶段,谷歌的共同创始人拉里·佩奇即将重新掌控谷歌,他在家中拜访了乔布斯。尽管他们的公司在争执,乔布斯仍愿意提供建议。“我强调的主要是专注,”他回忆说。他告诉佩奇,要弄清楚谷歌长大后想成为什么。“它现在无所不包。你想专注于哪五个产品?把其它的都剔除,因为它们在拖你的后腿。它们正在把你变成微软。它们让你生产出的产品只是足够好而不是伟大。”佩奇采纳了这一建议。2012年1月,他告诉员工专注于几个重点,如Android和Google+,并使它们变得“美观”,就像乔布斯会做的那样。 简化 乔布斯的禅宗式专注能力伴随着一种本能,即通过聚焦其本质和消除不必要的部分来简化事物。“简约是最终的复杂,”苹果的第一份营销手册宣称。要了解这意味着什么,可以比较任何一款苹果软件和其他产品,如Microsoft Word,后者不断变得更加复杂和杂乱,带有难以理解的导航功能和干扰性特征。这提醒我们苹果追求简约的光辉。 乔布斯在阿塔里夜班工作时开始欣赏简约,那时他还是一名大学辍学生。阿塔里的游戏没有使用说明书,需要足够简单,以至于一个嗑药的大一新生也能弄明白如何玩。它的《星际迷航》游戏的唯一指示是:“1. 插入硬币。2. 避免克林贡人。”他对设计中的简约之爱在他参加的1970年代末在阿斯彭研究所举行的设计会议上得到了精炼,那里的校园建筑采用了包豪斯风格,强调干净的线条和功能性设计,没有多余的装饰或分心之物。 当乔布斯访问施乐公司的帕洛阿尔托研究中心,看到了一台拥有图形用户界面和鼠标的计算机计划时,他开始着手使设计变得更直观(他的团队使用户能够在虚拟桌面上拖放文件和文件夹)和更简单。例如,施乐的鼠标有三个按钮,售价300美元;乔布斯前往一家当地的工业设计公司,告诉其中一位创始人迪恩·霍维,他想要一个简单的、单按钮的型号,成本为15美元。霍维遵从了。 乔布斯追求的是一种通过征服而不是仅仅忽略复杂性获得的简单性。他意识到,实现这种深度的简单性,会产生一种感觉上似乎是在友好地顺应用户而不是挑战他们的机器。“这需要大量的努力,”他说,“要使某事变得简单,真正理解其背后的挑战并找到优雅的解决方案。” 在乔纳森·艾夫,苹果的工业设计师,乔布斯找到了他追求深层而非表面简单性的灵魂伴侣。他们知道,简单性不仅仅是一种极简主义风格或去除杂乱。为了去除螺丝、按钮或多余的导航屏幕,有必要深刻理解每个元素的作用。“要真正简单,你必须深入挖掘,”艾夫解释说。“例如,要做到没有螺丝,你可能最终会得到一个非常复杂和混乱的产品。更好的方式是深入探究简单性,全面理解它的一切以及它是如何被制造的。” 在设计iPod界面时,乔布斯在每次会议上都试图找到方法减少杂乱。他坚持要求在三次点击内达到他想要的任何功能。例如,一个导航屏幕询问用户是否想按歌曲、专辑或艺术家搜索。“我们为什么需要这个屏幕?”乔布斯质问。设计师们意识到他们并不需要它。“有时我们会因为一个用户界面问题而头疼,然后他就会说,‘你们考虑过这个吗?’”托尼·费代尔说,他领导了iPod团队。“然后我们都会说,‘天哪。’他会重新定义问题或方法,我们的小问题就此消失。”在某一刻,乔布斯提出了最简单的建议:让我们去掉开/关按钮。起初,团队成员对此感到惊讶,但后来他们意识到按钮是不必要的。如果设备未被使用,它会逐渐关闭电源,并在重新启用时迅速启动。 同样,当乔布斯看到一套为iDVD设计的复杂的导航屏幕提案时,这个功能允许用户将视频烧录到光盘上,他跳起来在白板上画了一个简单的矩形。“这是新应用,”他说。“它只有一个窗口。你把视频拖进窗口。然后点击‘烧录’按钮。就这样。这就是我们将要制作的。” 在寻找成熟颠覆的行业或类别时,乔布斯总是询问谁在让产品变得比必要的更复杂。2001年,便携式音乐播放器和在线获取歌曲的方式就是这样,这导致了iPod和iTunes Store的诞生。接下来是手机。乔布斯会在会议上抓起一部手机,正确地抱怨没有人可能弄明白如何使用它的一半功能,包括通讯录。在他的职业生涯末期,他将目光投向了电视行业,该行业几乎使人们不可能通过点击一个简单的设备就能观看他们想要的内容。 负责到底 乔布斯知道,要实现简单,最好的方式是确保硬件、软件和外围设备无缝集成。苹果生态系统——,例如,一个iPod连接到一台装有iTunes软件的Mac——使设备更简单,同步更顺畅,故障更少。更复杂的任务,如创建新播放列表,可以在电脑上完成,使iPod可以具有更少的功能和按钮。 乔布斯和苹果对用户体验负责到底——这是极少数公司做到的。从iPhone中ARM微处理器的性能到在苹果店购买一部手机的行为,顾客体验的每个方面都紧密相连。微软在1980年代和谷歌在过去几年里采取了更开放的方式,允许他们的操作系统和软件被各种硬件制造商使用。有时这被证明是更好的商业模式。但乔布斯坚定地认为,这是制造(用他的话说)更差产品的配方。“人们很忙,”他说。“他们有其他事要做,而不是考虑如何整合他们的计算机和设备。” 置身于苹果生态系统,仿佛漫步于乔布斯钟爱的京都禅宗花园,享受着那份至高无上的体验。 乔布斯强迫自己对所谓的“整体产品”负责,一方面源于他那强控的个性,另一方面则源于他对完美和制造优雅产品的热情。当他想到在其他公司的平庸硬件上运行苹果的优秀软件时,他会感到极度不适,同样,他也无法忍受未经批准的应用或内容玷污苹果设备的完美。这种做法可能不会总是最大化短期利润,但在一个充斥着劣质设备、令人费解的错误信息和恼人界面的世界中,它却带来了标志性的、令人愉悦的用户体验的惊艳产品。置身于苹果的生态系统中,就像是在乔布斯所爱的京都禅宗花园中漫步,这两种体验都不是通过盲目追求开放性或让千花齐放而创造出来的。有时候,被一个控制欲强的人牵着手,也是一种幸福。 落后时超越 一个创新公司的标志不仅仅在于它首先提出新想法。更重要的是,当发现自己落后时,它知道如何实现跨越式发展。这一点在乔布斯构建原始iMac时得到了体现。他专注于使其成为管理用户照片和视频的有用工具,但在音乐处理上却落后了。PC用户正在下载音乐、交换音乐,然后刻录自己的CD。而iMac的插槽驱动器无法刻录CD。“我觉得自己像个傻瓜,”他说,“我以为我们错过了。” 但乔布斯没有仅仅通过升级iMac的CD驱动器来追赶,而是决定创建一个集成系统,彻底改变音乐行业。这一决策最终产生了iTunes、iTunes Store和iPod的组合,使用户能够以比任何其他设备都要好的方式购买、分享、管理、存储和播放音乐。 在iPod取得巨大成功后,乔布斯几乎没有花时间沉醉其中。相反,他开始考虑什么可能会威胁到它。一种可能性是手机制造商开始在他们的手机中加入音乐播放器。因此,他通过创造iPhone,自我蚕食iPod的销量。“如果我们不自我蚕食,别人就会蚕食我们,”他说。 产品优先于利润 在1980年代初,乔布斯和他的小团队设计原始Macintosh时,他的指示是使其“疯狂地伟大”。他从未谈论过利润最大化或成本权衡。“不要担心价格,只需指定计算机的性能,”他对团队的最初领导说。在与Macintosh团队的第一次集体退思时,他首先在白板上写下一条准则:“不要妥协。”最终产生的机器成本过高,导致乔布斯被迫离开苹果。但Macintosh也“在宇宙中留下了痕迹”,正如他所言,加速了家用电脑革命。长期来看,他找到了平衡:专注于打造出色的产品,利润自然会随之而来。 约翰·斯卡利在1983年到1993年间管理苹果,是来自百事可乐的营销和销售高管。在乔布斯离开后,他更加关注利润最大化而非产品设计,苹果逐渐走向衰落。“我有自己的理论,关于公司为什么会衰落,”乔布斯对我说:“他们制造了一些伟大的产品,但然后销售和营销人员接管了公司,因为他们是那些可以提高利润的人。”“当销售人员掌管公司时,产品人员就不那么重要了,很多人就会失去动力。当斯卡利加入苹果时就发生了这种情况,这是我的错,当鲍尔默接管微软时也发生了这种情况。” 当乔布斯回归时,他将苹果的焦点重新聚焦于创新产品的制作:轻巧的iMac、PowerBook,然后是iPod、iPhone和iPad。正如他所解释的,“我的热情一直是建立一个能够激励人们制造伟大产品的持久公司。其他一切都是次要的。当然,赚钱很好,因为那是让你能制造伟大产品的基础。但是产品,而不是利润,才是驱动力。斯卡利颠倒了这些优先级,把目标变成了赚钱。这是一个细微的差别,但意味着一切——你雇佣谁,谁得到晋升,你在会议中讨论什么。” 不要被焦点小组束缚 当乔布斯带领他的原始Macintosh团队进行第一次集体退思时,一名成员问是否应该做一些市场调研来了解客户想要什么。“不,”乔布斯回答,“因为客户不知道他们想要什么,直到我们展示给他们。”他引用了亨利·福特的话:“如果我问客户他们想要什么,他们可能会说,‘一个更快的马!’” 深切关心客户的需求与不断询问他们想要什么是截然不同的;这需要对尚未形成的欲望有直觉和本能。“我们的任务是阅读那些还没呈现在页面上的内容,”乔布斯解释道。他并不依赖市场研究,而是磨炼了他的版本的同理心——对顾客欲望的深刻直觉。他在印度学习佛教时作为一名大学辍学生,培养了对直觉的欣赏——一种基于积累的经验智慧的感觉。“印度乡村的人们不像我们那样使用他们的智力;他们使用直觉,”他回忆道。“直觉是一种非常强大的东西,我认为,比智力更为强大。” 有时这意味着乔布斯使用自己作为唯一的焦点小组。他制造了他和他的朋友们想要的产品。例如,2000年存在许多便携式音乐播放器,但乔布斯觉得它们都不够好,作为一个音乐爱好者,他想要一个简单的设备,能让他随身携带一千首歌曲。“我们为自己制造了iPod,”他说,“当你为自己、或者你的最好的朋友或家人做某事时,你不会偷工减料。” 扭曲现实 乔布斯(恶名昭著的)能力,推动人们完成不可能的任务,被同事们称为他的“现实扭曲场”,这个名字来源于《星际迷航》的一集,其中外星人通过纯粹的心智力量创造了一个令人信服的替代现实。一个早期例子是乔布斯在阿塔里夜班时期,他推动史蒂夫·沃兹尼亚克创建了名为Breakout的游戏。沃兹认为这需要几个月,但乔布斯盯着他,坚持说他能在四天内完成。沃兹知道这是不可能的,但他最终完成了。 乔布斯因能激励人们完成看似不可能的任务而闻名遐迩,同事们称这种能力为“现实扭曲场”,这个名字启发于《星际迷航》中的一个剧集。 对乔布斯不太了解的人可能会把“现实扭曲场”误解为某种对欺凌和撒谎的委婉说法。然而,真正与他共事过的人承认,尽管这种性格有时令人难以忍受,但它确实促使他们完成了非凡的壮举。乔布斯认为自己不受生活常规规则的约束,这使他能激励团队用远少于施乐或IBM的资源,改变了计算机历史的进程。“这是一种自我实现的扭曲,”原Mac团队成员Debi Coleman回忆道,她曾因最擅长对抗乔布斯而获奖。“你之所以完成了不可能的任务,是因为你不知道它原本是不可能的。” 有一次,乔布斯闯进了负责Macintosh操作系统的工程师Larry Kenyon的工位,抱怨启动时间太长了。Kenyon试图解释为什么减少启动时间是不可能的,但乔布斯打断了他:“如果这能救人一命,你能找到方法缩短10秒的启动时间吗?”Kenyon承认,他或许能做到。乔布斯在白板上展示,如果有五百万人每天使用Mac,每天多花10秒启动,那么一年就是大约3亿小时——相当于至少100个人的一生。几周后,Kenyon将机器的启动时间缩短了28秒。...

February 29, 2024 · 1 min · fisherdaddy

Sam Altman:为了创建一家伟大公司,创始人应该遵循的九个建议

这篇文章翻译了OpenAI CEO Sam Altman对想要创建一个伟大公司的CEO的9个建议。Sam Altman’s 9 things that the best founders do to build a great company Sam Altman 分享了九个建议,这些是创始人在打造伟大公司过程中应遵循的最佳实践。 1 深入了解你的用户 顶尖的创始人会亲自处理客户支持工作。他们会亲自拜访用户——以 Airbnb 为例,他们甚至会与用户同住。这样做的目的是要非常深入地了解你的用户。 2 保持快速迭代周期并理解复合增长的力量 这个过程可以概括为:与客户交谈以理解他们的需求 → 开发产品来满足这些需求 → 将产品推向市场并观察用户反应 → 根据反馈进行调整 → 重复这个过程。这种迭代是持续改进的关键。复合增长法则意味着,如果每个迭代周期你都能提升 2%,并且你的迭代周期是每四小时而不是每四周,那么几年下来,你会发现自己处于一个截然不同的境地。将打造世界上迭代速度最快的公司作为你的首要目标之一。 3 做出长期承诺 大多数公司的规划期限为 2-3 年。但实际上,成功的公司几乎都是十年的长期项目。如果你从一开始就以这种长期视角来规划,你会做出更好、更不同的决策。我认为,对一个新项目做出长期承诺,几乎是市场上剩余的唯一套利机会。几乎没有人愿意这么做,但如果你做了,你会以全新的方式思考问题,聘请不同的人才,这将大有裨益。 4 在一切顺利之前保持公司的精简 在早期,当你还在尝试和调整方向时,你希望公司能像快艇一样灵活,能够迅速改变方向。一旦公司规模扩大,无论是现金烧损,还是其他问题,这种灵活性都会大打折扣。员工数的增加会成倍减少公司的灵活性,所以在确定一切都在正确的轨道上之前,保持公司规模的小型化至关重要。一旦确认一切顺利,再考虑扩大规模。 5 抵抗随意招聘的冲动,尤其是避免招聘平庸人才 Vinod Khosla 曾经说过一句我非常赞同的话:‘你建立的团队决定了你创建的公司。’这个观点非常准确,我曾经低估了它的重要性。如果你能组建一个优秀的团队,并且拥有一个用户喜爱的产品,你成功的几率将超过 90%。这两点都非常难以实现,并且它们是相互独立的。但不要忽视团队的重要性。我认识的最优秀的 CEO,会花费大量时间在招募和留住人才上。 6 无情地执行 你必须不断前进,追求完美,关注每一个细节。你需要对用户与你的公司的每一次互动都无比在意。 7 创业就是永不放弃 最近一期 YC 孵化器中的一个顶尖公司在第七次申请时才被接受。这正是创业过程中常有的经历:一次又一次地面对失败。就在你觉得自己再也没有力气站起来的时候,成功就在眼前。这正是创业所要经历的。 8 照顾好自己是你的责任 这是一场长达十年的马拉松,你有义务照顾好自己,这对你的股东而言是一种责任。有些人把创业当作熬夜:忽视健康,牺牲睡眠,忽略个人关系。虽然创业确实不利于工作生活平衡,但你有责任照顾好自己,这对你的团队和投资者都非常重要。 9 清晰的使命感 虽然你不需要在第一天就确定清晰的使命,但我所参与的所有成功创业公司都会在最初的一两年内找到一个重要的使命。这个使命不仅能吸引人才加入,也是推动创始人前进的动力,让媒体对他们进行报道。即使你是从解决个人生活中的一个小问题开始的,记住,最终你应该有一个清晰的使命——这将吸引人们来支持你,帮助你把这个想法发展成一个被众多人热爱的大公司。

February 27, 2024 · 1 min · fisherdaddy

读《小米创业思考》

这篇文章记录了去年读《小米创业思考》这本书的记录,雷总其中的一些观点会对你有些帮助。 当我们谈论“专注”时,我们究竟在谈什么? 我总结了专注的四个核心命题: 清晰的使命、愿景 深刻的洞察力,了解行业,了解用户需求,找到机会。 明确而坚定的目标及与之匹配的能力 克制贪婪,少就是多 只有贯穿长期目标、始终围绕用户真实需求出发、与核心业务构成强协同的业务拓展,才能驱动企业发展的飞轮。而且,每一项新业务的拓展都以之前业务坚实的发展模型和预期为基础,这样才能保证每一个发展阶段都能集中精力,专注地开拓一项业务。 一次解决一个最迫切的需求 资源总是有限的,切口越小,压强越大,突破越有利。产品的切口怎么选?小米内部在讨论产品时常说“单点突破,逐步放大”,一开始尽量聚焦到只解决用户一个迫切的需求,这样验证起来非常简单。解决的问题只要一句话就可以说清楚,比如小米充电宝解决的问题就是“怎样获得大容量、质量可靠又便宜的充电宝” 决定不做什么跟决定做什么一样重要 “少就是多”的最典型案例就是苹果。 什么才是极致的产品 极致就是“始终更高标准,玩命更严要求”。什么才是极致的产品,我理解有两个条件: 一是产品要惊艳,设计要惊艳,成本也要惊艳 二是超出用户用户预期,真的能让用户尖叫 尽管行业千差万别、个性各有不同,但都有一个相同的特征:了不起的极致产品不是只靠一个天才的想法、一个突然出现的灵感就能做出来的,而是要经历长期痛不欲生的修改,一点一点打磨出来。 替代一匹快马的,不应是一匹更快的马,而有可能是蒸汽汽车。

February 23, 2024 · 1 min · fisherdaddy

Duolingo的游戏化设计

这篇文章翻译了去年在twitter看到的一个关于Duolingo游戏化设计的帖子。 全球最佳游戏化设计。 Duolingo 的突破性游戏化设计使其成为全球最大的教育应用,拥有 6100 万用户。 以下是为什么 Duolingo 的游戏化设计如此出色以及他们是如何做到的: 1 顶级的入门体验 @duolingo 在逐步吸引用户方面表现出色,在此过程中建立了用户的目标。 他们让用户立即进入 “Duolingo” 体验。 这种类型的“用户投入”最终使产品对用户更有价值。 2 游戏化学习路径 @Duolingo 将其课程分成小块内容,每节课只需 2-3 分钟。 短暂的注意力 + 快速的行动 = 留存。 如此低的入门门槛对于激励如今注意力不集中的受众在应用中取得进展至关重要。 3 每日连胜 **连胜功能可以说是多邻国最强大的黏性机制之一,相当于每天的“打卡”,但是,多邻国用的是“连胜”字样。**有超过 600 万人连续 7 天或更多。 在多邻国看来,如果用户连续玩了10天,他们退出产品的几率就会大大降低,因此,也在一直改进“连胜”功能。 **2022年,在连胜功能上,多邻国有了重大迭代,推出了即连胜保护机制——连胜激冻。**也就是说如果有连胜的用户即将失去他们的连胜,该通知就会提醒他们,并保住连胜的成果。这给用户一种极大的心理安慰,会在接下来的日子更加努力。同时,多邻国还改善了连胜动画和连胜奖励等等,这都有助于完善最初的连胜理念,并显著提高了用户留存率。 4 多人模式 几乎所有社交活动都会产生某种网络效应。@duolingo 的社交任务功能令人叹为观止。 Duolingo 上的多人模式(Social Quest)通过荣誉、成就等使学习变得非常有趣。 5 排行榜和徽章 与 Strava、Fitbit 等类似 - 排行榜在游戏化方面已被证明非常有效。 多邻国的排行榜功能一开始采用的是和家人、朋友竞争,但是效果并不好。后来,多邻国意识到,竞争对手的黏性可能比朋友的黏性更好,因为朋友可能不再是活跃用户。 2022年12月,多邻国上线新的排行榜功能。排行榜除了名词,还有级别划分,一共有10个级别,青铜、银灰、黄金、蓝宝石……排行榜每周日更新排名情况,根据经验,根据更新时自己的排名决定能不能晋级。 排行榜的上线,给用户提供了更强的进步感和奖励感,只有坚持每天学习,长时间学习,才有可能取得晋级。排行榜功能对多邻国的增长指标产生了巨大且即时的影响,据Jorge Mazal统计,排行榜上线后,多邻国用户总体学习时间增加了17%,高度投入的学习者(每周5天每天至少花费1小时的用户)的数量增加了两倍。 6 奖励重大里程碑 @duolingo 设有让人愉悦的时刻,将其用户的奖励提升到一个新的高度。 从连胜到免费宝石,Duolingo 建立了一个出色的游戏化引擎,并在用户达到关键里程碑时奖励他们。 所有这些小时刻都汇集在一起! 7 无脑订阅(Super Duolingo) 随着用户对 Duolingo 的投入,他们很快就会意识到存在限制,但同时也会担心失去他们的“连胜”。 @duolingo 在打包这方面非常聪明。他们不仅仅是赚钱;他们在最大化您最宝贵的资产 ——节省时间。...

February 23, 2024 · 1 min · fisherdaddy

黄仁勋台大演讲全文

前天英伟达发布Q4财报,季度营收达到600亿美金,估计暴涨。这里我们来回顾一下黄仁勋在2023年5月份在台大毕业典礼上的演讲。 各位女士、先生,老师,来宾,骄傲的父母们,以及 2023 年国立台湾大学的毕业生们,今天对你们来说是非常特别的一天,也是你们父母梦想成真的一天。你们应该快点从家里搬出去,这确实是一个充满骄傲和喜悦的日子! 你们的父母为了今天做出许多牺牲,我的父母、哥哥也在这里,让我们向所有的父母和祖父母们表达感谢。 十多年前,我第一次来到台湾大学,陈博士邀请我参观他的实验室。他的儿子在硅谷工作,知道 NVIDIA 的 CUDA,推荐爸爸用它来做量子物理模拟实验。我在这个实验室看到满满的 NVIDIA GeForce 游戏显卡,插在 PC 主机板上,走道上的架子开着好几台电扇在散热。 陈博士以游戏显卡用台湾人的方式自制了超级电脑,这是一个展开 NVIDIA 旅程的故事,他以自己的努力为荣,也对我说:「黄先生,因为你的产品,让我能追寻我的志业。」 这句话至今仍让我感动不已,它抓住了我们公司的使命,就是帮助我们这个时代的爱因斯坦和达芬奇们完成他们的志业。 我很高兴能回到台大在你们的毕业典礼致词。当时我从 Oregon State University 毕业的时候,世界还很简单,没有液晶电视,也没有有线电视跟 MTV,手机和电话这两个词是分开讲的。 那一年是 1984 年,IBM PC-AT 和苹果 Macintosh 开启个人电脑革命,也开创了我们所知的芯片和软件产业。现在你们所处的是一个更复杂的世界,充满了地缘政治、社会和环境的变化和挑战。 因为科技,我们能持续连线,沉浸在一个与现实世界平行的数位世界里,汽车也能自动驾驶了。 AI 会创造过去不存在的新工作,每个人都要学习掌握 AI 红利 在电脑产业创造了家用个人电脑 40 年后,我们发明了人工智能,例如自动驾驶或辨识 X 光影像的软件,AI 软件为电脑自动化打开了大门,也开启了价值数兆美元的产业——医疗保健,金融服务,运输和制造业等等,AI 创造了各种机会。 敏捷的公司利用 AI 提升他们的地位,反之,那些落后的公司将会灭亡。正在听这场演讲的创业家们也将开创新事业,如同过去每一个运算时代,新的产业会出现。 AI 创造过去不存在的新工作,像资料工程,提示工程,AI 工厂营运与 AI 安全工程师等等。 这些都是以前没有的工作,有些工作会因为自动化而被淘汰,但可以肯定的是,AI 将改变每一个工作,让工程师、设计师、艺术家、营销人员还有制造规划人员有更好的表现。 就像过去每个时代的人一样,他们拥抱新技术然后成功了,每一家公司,包括你们,都要学着掌握 AI 的红利,让 AI 成为你的副驾驶,做出惊人的事业。 有些人担心 AI 可能会抢走他们的工作,其实,是擅长使用 AI 的「人」会抢走这些人的工作。 我们处在重大科技时代的开端,像 PC,互联网,移动和云等等。但是 AI 的技术更基础,因为每个运算的层次都被重新打造,从我们如何写软件到它如何运作,AI 从根本上重新创造了运算方式。 从各个层面来看,这是计算机行业的一次重生,对台湾企业来说,这也是个千载难逢的机会。你们就是电脑产业的基石,在未来的十年,我们的产业将以全新、加速的 AI 技术取代全球超过一兆美元的传统电脑市场。...

February 23, 2024 · 2 min · fisherdaddy

可汗学院CEO Sal Khan TED 演讲

这篇文章分享了去年看可汗学院CEO Sal Khan 在TED上关于生成式AI对教育领域影响的演讲。 近几个月来,特别是在教育领域,我们看到了很多这样的标题:“学生将使用ChatGPT和其他形式的人工智能来作弊,完成他们的作业。他们不会真正学习,这将完全破坏我们所知道的教育。” 但我认为,我们正处于使用人工智能实现教育领域最大积极转变的关键时期。 我们将通过为全球每个学生提供一个人工智能但非常出色的个人导师,为全球每个教师提供一个出色的人工智能教学助手来实现这一目标。 给每个人都提供个人导师将是一个非常重要的举措,本杰明·布鲁姆1984年的The 2 Sigma Probilem: The Search For Methods of Group Instruction as Effective as One-toOne Tutoring(https://web.mit.edu/5.95/readings/bloom-two-sigma.pdf),他称之为“2 sigma问题”。2 sigma来自两个标准偏差,标准偏差的符号是sigma。如果你为学生提供个人1对1的辅导,你实际上可以得到一个类似右侧的分布,两个标准偏差的改进。 简单说,这可以将您的平均学生变成优秀的学生,将您的低于平均水平的学生变成高于平均水平的学生。 但如何以经济的方式将它扩展到所有人身上?我们已经在 Khan Academy 上大约十年的时间里尝试以某种方式逼近它,但我认为我们正处于加速实现它的关键时期。 Khanmigo:Tutorial 1对1 当学生说:“告诉我答案,” 它回答:“我是你的辅导老师。你认为解决这个问题的下一步应该是什么?” 它实际上在做的不仅仅是一个普通辅导老师会做的,而是一个优秀辅导老师会做的事情。它能够推测出学生心中可能存在的误解。 计算机编程 学生需要让云彩分开。所以,我们可以看到学生开始定义一个变量,left X减减。它只让左边的云彩分开。但然后他们可以问Khanmigo,怎么回事?为什么只有左边的云在移动? 它说:“为了让右边的云也移动,尝试在绘制函数中添加一行代码,使得每一帧里右边的X变量增加一个像素。” 我们一直在试图教用户学习编程,但没有很多计算机教育老师。而你刚刚看到的,即使是我辅导我的孩子时,也无法这么快地、这么好地帮助他们,这真的将成为一个超级辅导员。而且不仅仅是练习。它理解你所观看的内容,它理解你的上下文。 AI导师:分享学科意义 它以苏格拉底式的方式问:“那么,你关心什么?” 假设学生说:“我想成为一个职业运动员。” 它会说:“了解细胞的大小,这对于理解营养和你的身体如何运作等方面非常有用。” 它可以回答问题,它可以测试你,它可以将其与其他想法联系起来,现在你可以向一个AI提问,尽你所能想象的。 我们可以使用Khanmigo为每个学生提供指导顾问、学术教练、职业教练和生活教练。 学习文学与历史的新方式 我们与亚利桑那州立大学合作开设了一所在线高中,名为Khan World School,我们有一名印度学生在那里学习。她叫Saanvi。她在写一篇关于《了不起的盖茨比》的报告。 当她阅读《了不起的盖茨比》时,Jay Gatsby一直盯着远处的绿灯。她问自己:“他为什么这么做?”她进行了一些网络搜索,人们显然对此进行了研究,并评论了这个符号的意义,但这些都没有真正引起她的共鸣。然后她意识到她有Khanmigo,她可以与Jay Gatsby本人交谈。于是, “啊,好极了,老兄。我现在是Jay Gatsby,来自F. Scott Fitzgerald的经典小说中神秘的百万富翁。” 然后,“你为什么一直盯着那个绿灯?” “啊,绿灯,老兄。它是我的梦想和愿望的象征。它位于Daisy Buchanan的码头尽头,横跨我豪宅对面的海湾。我渴望地凝视着它,因为它代表着我对过去的渴望和与Daisy,我的生命之爱团聚的希望。” 很酷的是,Saanvi随后说:“我和他进行了长时间的对话”,她称呼他为“盖茨比先生”,最后她还为占用了他的时间而道歉。 但你可以想象,这种交互解锁了学习文学、学习历史的方式…… 你甚至可以与历史人物交谈。我们甚至可能会添加一个活动,让你可以与密西西比河交谈。它以一种在一年前我们还认为是科幻的方式使事物变得生动起来。 AI 辩手:锻炼思辨能力 这里是一个学生辩论我们是否应该取消学生债务的例子。这名学生反对取消学生债务,我们得到了非常清晰的反馈。学生们,尤其是高中生,都说:“这太神奇了,我能够调整我的论点而不必担心被评判。这让我更有信心走进教室,积极参与。”我们都知道苏格拉底式的对话辩论是学习的好方法,但实际上,对大多数学生来说并不可行。但现在每个人都能够使用。 一起创作 很多报道都说,“它会为孩子们写作。孩子们将不会学会写作。”但我们正在展示一些方式,AI不是为你写作,而是和你一起写作。 这是一件很小的case,我的八岁儿子迷上了它,他以前不太喜欢写作,但你可以说,“我想写一篇恐怖故事”,然后它会说,“哦,一篇恐怖故事,多么毛骨悚然和惊心动魄。让我们一起潜入神秘的阴影和冷酷的谜团的世界。” 这是一个学生写两句话,然后AI写两句话的活动。所以他们一起合作写故事。...

February 23, 2024 · 1 min · fisherdaddy

在国内如何订阅 ChatGPT Plus 以及拥有 OpenAI 开发者账号的Key

本文分享一下作者本人在国内订阅 ChatGPT Plus 以及拥有 OpenAI 开发者账号 key 的方法。 先决条件 自建或者够买一个 VPN 科学上网 美区 AppleID ChatGPT app 支付宝、微信 在国内如何订阅 ChatGPT Plus 手机 APP Store 登录美区 Apple ID。 打开支付宝,左上角位置选择旧金山,搜索 PockyShop 小程序性,绑定邮箱后,在首页选择 App Store & iTunes US,设定金额后购买即可。(备注:ChatGPT plus的订阅月费用为19刀,一次可以买20刀或者40刀,更多貌似会触发支付宝的风控导致订单失败) 购买成功后,把订单里的礼品卡号码复制出来去 App Store 账户的兑换充值卡或代码选项里进行兑换,兑换完成后即充值完成。 在 ChatGPT 的 GPT4 入口点击订阅即可,会默认走 APP Store 账户里的余额。 在国内如何拥有 OpenAI 开发者账号的Key 之前为了方便基于 OpenAI 的 api 开发一些小 demo,我主要通过两个方法来获得 OpenAI 的 api key: 在微软云 Azure 上开通 OpenAI 的 api 功能,基于 Azure 封装的 api 接口来做 LLM 相关的开发,我得到的信息是国内的大企业都是用这种方法来调用 OpenAI。但这种方法有一个最大的缺点:OpenAI最新的能力一般要在其官方释放后的1-2个月左右Azure 上才可以上线体验到,这对于想快速基于最新的能力进行快速 MVP 验证或者评测的用户来说只能用着急来形容。 从一些第三方卖开发者 key 的网站上买一些 key 来使用,缺点也很明显:不可靠、不可控。 偶然翻到这篇博客讲述了几个方法能很好的解决海外银行卡的问题:一个方法是Dupay 和 NobePay,另一个方法是:新加坡华侨银行 和 WISE虚拟卡/实体卡。第一个方法里的 Dupay 和 NobePay 都亲测有效,这里我来大概讲一下流程。...

February 22, 2024 · 1 min · fisherdaddy

OpenAI官方指南: Prompt engineering

这篇是去年翻译的OpenAI官方指南Prompt engineering,值得多读几次。写这篇文章时发现OpenAI给这篇指南改了名字,之前的标题是gpt best practices,现在改为了prompt engineering. GPT最佳实践 获得更好结果的六项策略 1 指示要明确 GPT无法读懂你的心思。如果输出内容过长,可要求简短回复;如果输出内容过于简单,可要求专家级写作;如果不喜欢当前的格式,可展示你期望的格式。你的指示越明确,GPT满足你的要求的可能性就越大。 在提问中提供完整信息,以获得更准确的答复。 要求模型扮演不同角色。 使用分隔符明确区分输入的不同部分。 阐明完成任务所需的步骤。 举例说明。 指定输出内容的期望长度。 2 提供参考文字 GPT可以自信地编造虚假答案,特别是在询问关于深奥话题或要求引用和URL时。就像小抄可以帮助学生在考试中做得更好一样,向GPT提供参考文本可以帮助它减少错误信息的回答。 指导模型使用参考文献来回答问题 指导模型在回答时引用参考文献 3 将复杂的任务拆分为更简单的子任务 正如软件工程中将复杂系统拆分为一系列模块化部件的常规做法,对GPT提交的任务同样适用。复杂任务相较于简单任务具有更高的错误率。此外,复杂任务往往可以重新定义为一系列的简单任务的工作流,在这个流程中,前一个任务的输出用于构建后续任务的输入。 利用意图分类来识别用户查询中最相关的指令 对于需要长对话的对话应用,摘要或过滤之前的对话内容 分块摘要长文档,递归地构建完整摘要 4 给GPT时间思考 如果把17乘以28的题目摆在你面前,你可能不会立刻答出来,但给点时间你能慢慢算出来。同样地,GPT在被要求立即回答时,也更容易出错。让它先进行一番逻辑推理,再给出答案,就能更可靠地引导它找到正确的答案。 让模型先不急于下结论,先计算出自己的答案。 利用内心独白或一系列自问自答来掩盖模型的推理过程。 询问模型在之前的回答中是否有遗漏。 5 使用外部工具 通过结合其他工具的功能来弥补GPT的不足之处。举例来说,文本检索系统能够为GPT提供相关文档信息。代码执行引擎则能辅助GPT进行数学计算和运行代码。若外部工具能比GPT更可靠或高效地完成任务,就将任务外包出去,以实现优势互补。 使用嵌入式搜索技术,打造高效的知识检索系统 通过代码执行功能进行精确计算或接入外部API 让模型访问具体的函数 6 系统化地测试更改 衡量改进成效的诀窍在于可量化的数据。有时候,简单的提示修改可能会在零星案例中取得不错的效果,但在更广泛的案例中却适得其反。因此,要确认某项更改确实提升了性能,就需要设立一套全面的测试方案(也称为评估测试)。 以最佳答案为标准,评估模型的输出结果 策略详解 上述策略都可以通过具体的手段来实施。这些手段旨在激发尝试的灵感,但并不是面面俱到。你大可发挥创意,尝试这里未涉及的新点子。 1 指示要明确 1.1 在提问中提供完整信息,以获得更准确的答复。 想要得到精确无误的回答,就得在提问中提供所有必要的信息和情境。不然,你的意图就只能让模型去猜了。 1.2 要求模型扮演不同角色。 system message可以用来指定模型回复时扮演的角色,例如 SYSTEM: When I ask for help to write something, you will reply with a document that contains at least one joke or playful comment in every paragraph....

February 20, 2024 · 17 min · fisherdaddy

Attention Is All You Need

前段时间看了一些transformer相关的文章,但讲解的都不太清楚,想着还是读一读论文理解起来更加深刻,所以翻译了这篇Attention Is All You Need。 论文中的作者贡献是相同的,而名单的排列顺序是随机的。Jakob 提出了用自注意力机制替换循环神经网络 (RNN) 的想法,并开启了验证这一构想的工作。Ashish 与 Illia 共同设计并实现了首个 Transformer 模型,对这项工作的各个方面都有着至关重要的贡献。Noam 提出了缩放的点积注意力、多头注意力和无需参数的位置表示法,几乎参与了项目的每个细节。Niki 在我们的原始代码库和 tensor2tensor 中设计、实现、调整并评估了无数的模型变种。Llion 也探索了新型模型变种,负责我们最初的代码库、高效的推理和可视化工作。Lukasz 和 Aidan 贡献了无数的时间来设计和实现 tensor2tensor 的各个部分,这不仅取代了我们之前的代码库,还大幅提高了研究结果并极大地加速了我们的研究进展。这些工作是在 Google Brain 和 Google Research 期间完成的。 摘要 目前主流的序列转换模型依赖于包含编码器和解码器的复杂循环或卷积神经网络体系。这些模型的高性能部分得益于编解码器之间的注意力机制连接。我们提出了一种全新的网络架构——Transformer,这一架构完全基于注意力机制,彻底摒弃了递归和卷积。通过在两个机器翻译任务上的实验,我们发现这些模型在质量上更为优异,且具备更高的并行处理能力,训练时间也大幅缩短。我们的模型在 WMT 2014 年的英德翻译任务上获得了 28.4 的 BLEU 分数,超过了包括集成模型在内的现有最佳结果2个 BLEU 分以上。在 WMT 2014 的英法翻译任务上,我们的模型在仅使用八个 GPU 训练了 3.5 天后,刷新了单模型最高 BLEU 记录,达到了 41.8 分,这仅是文献中最佳模型训练成本的一小部分。我们还证明了 Transformer 能够成功地广泛应用于其他任务,比如英语成分句法分析,无论训练数据是丰富还是有限。 1 简介 循环神经网络(RNN)、长短期记忆(LSTM)网络和门控循环单元(GRU)网络,特别是在语言建模和机器翻译等序列建模和转换问题上,已被公认为最先进的技术。从那时起,一直有许多尝试不断地推动循环语言模型和编解码器架构的发展边界。 循环模型的计算通常沿着输入和输出序列的符号位置进行分解。它们通过将位置与计算时间的步骤对齐来生成一系列隐藏状态,这些隐藏状态${h_t}$是基于之前的隐藏状态$h_{t-1}$和当前位置t的输入。这种计算的顺序性质限制了训练样本内部的并行处理能力,特别是在处理更长序列时,由于内存限制,这成为一个关键问题。近期的研究通过采用因式分解技巧和条件计算在提高计算效率的同时,也在某些情况下提升了模型的性能。然而,顺序计算的基本限制仍然存在。 注意力机制已经成为多个任务中高效序列建模和转换模型的核心部分,它允许模型无视输入或输出序列中依赖关系的距离进行建模。尽管如此,除了少数情况外,注意力机制通常与循环网络结合使用。 在本工作中,我们提出了一种新的架构——Transformer,这种架构放弃了递归,完全依靠注意力机制来处理输入和输出之间的全局依赖关系。Transformer架构支持更高程度的并行处理,并且在使用八个 P100 GPU 训练仅12小时后,就能在翻译质量上达到新的最高标准。 2 背景 减少顺序计算的目标也是扩展神经GPU、ByteNet 和 ConvS2S等模型的基础,这些模型都采用了卷积神经网络作为基础构件,能够对所有输入和输出位置的隐藏表示进行并行计算。在这些模型中,将两个任意输入或输出位置的信号相关联所需的操作数会随着位置之间的距离增加而增长,对于ConvS2S是线性增长,而对于ByteNet则是对数增长。这增加了学习远距离位置间依赖性的难度。而在Transformer模型中,这种操作数量被减少到了一个固定的数目,虽然这样做降低了有效分辨率,因为它通过平均注意力加权的位置,但我们通过多头注意力机制(如第3.2节所述)来弥补这一点。 自注意力Self-attention,也称为内部注意力,是一种注意力机制,通过关联单一序列内不同位置来计算序列的表示。自注意力已经在阅读理解、摘要生成、文本蕴含以及学习独立于任务的句子表示等多种任务上成功应用。 端到端记忆网络基于循环注意力机制,而非序列对齐的循环,已在简单的语言问答和语言建模任务上展现了良好的性能。...

February 19, 2024 · 5 min · fisherdaddy

作为世界模拟器的视频生成模型 • OpenAI

本文翻译了OpenAI发布的有关Sora的技术报告,原文戳Video generation models as world simulators 。 我们研究了在视频数据上进行生成式模型的大规模训练。更具体地说,我们对不同时长、分辨率和宽高比的视频及图片进行了文本条件下的扩散模型联合训练。我们采用了一种 Transformer 架构,这种架构可以处理视频和图像潜在编码的时空片段。我们开发的最大型号模型,Sora,具备生成一分钟长的高质量视频的能力。我们的研究成果显示,扩展视频生成模型的规模是向着创建能模拟物理世界的通用工具迈进的一个充满希望的方向。 这份技术报告主要关注于: (1)我们将各类视觉数据转化为统一表示的方法,该方法使得生成模型的大规模训练成为可能; (2)对Sora能力和限制的定性评估。模型和实现的细节没有包含在这份报告中。 众多先前的研究通过各种方式探索了视频数据的生成模型,涉及方法包括循环网络[1,2,3]、生成对抗网络[4,5,6,7]、自回归 Transformer[8,9] 以及扩散模型[10,11,12]。这些研究往往专注于特定种类的视觉数据、时长较短的视频,或者是固定尺寸的视频。而 Sora 是一个对视觉数据具有广泛适用性的模型——它能够创造出在持续时间、纵横比和分辨率上多样化的视频和图片,甚至能生成长达一分钟的高清视频。 把视觉数据分割成补丁 我们受到大语言模型的启发,这类模型通过在互联网大规模的数据集上进行训练,获得了通用的能力[13,14]。大语言模型成功的关键之一在于使用了能够优雅地统一不同文本形态(如代码、数学公式以及多种自然语言)的tokens。在这项工作中,我们探讨了视觉数据的生成模型如何借鉴此类优势。与大语言模型使用文本令牌不同,Sora 使用的是视觉补丁。先前的研究已经证明,对于视觉数据模型而言,补丁Patches是一种有效的表现形式[15,16,17,18]。我们发现,补丁是一种高度可扩展且有效的方式,适用于训练多样化视频和图片的生成模型。 从宏观角度来看,我们将视频转换成补丁的过程首先是将视频压缩到一个低维度的潜在空间[19],接着将这种表示分解为时空补丁。 视频压缩网络 我们开发了一个能够降低视觉数据维度的网络[20]。这个网络接受原始视频作为输入,输出一个在时间和空间维度上均进行了压缩的潜在表示。Sora 就是在这种压缩的潜在空间中接受训练,并能够在其中生成视频。此外,我们还设计了一个对应的解码模型,用于将生成的潜在数据重新映射到像素空间。 时空补丁 对于一个被压缩的输入视频,我们会提取一系列的时空补丁,它们在此过程中充当 Transformer 的令牌。这一方法同样适用于图片,因为从本质上讲,图片就是单帧的视频。我们采用的基于补丁的表示方法,使得 Sora 能够处理不同分辨率、时长和纵横比的视频和图片。在生成视频的推理阶段,我们可以通过按照适当的大小排列随机初始化的补丁,来控制最终视频的尺寸。 用于视频生成的扩展Transformer Sora 属于扩散模型[21,22,23,24,25];它能够接受带有噪声的补丁(以及如文本提示这样的条件信息)作为输入,并被训练以预测出原始的“干净”补丁。值得注意的是,Sora 实际上是一个diffusion Transformer[26]。在多个领域,包括语言模型[13,14]、计算机视觉[15,16,17,18]以及图像生成[27,28,29],Transformer 都展现出了令人瞩目的扩展能力。 在本研究中,我们还发现diffusion transformers 同样能够在视频模型方面有效扩展。接下来,我们将展示一个比较:随着训练进程的推进,使用固定种子和输入条件的视频样本展示。可以明显看到,随着训练计算量的增加,样本的质量有了显著的提升。 基础计算 4倍计算 32倍计算 持续时间、分辨率、纵横比的可变性 以往在图像和视频生成领域,常见的做法是将视频调整至标准尺寸——比如,4秒长的视频以256x256的分辨率呈现。然而,我们发现直接在视频的原始尺寸上进行训练能够带来多重好处。 采样灵活性 Sora 能够生成各种尺寸的视频,包括宽屏的1920x1080p、竖屏的1080x1920,以及这两者之间的任何尺寸。这让 Sora 能够直接针对不同设备的原生纵横比制作内容。此外,这还使我们能够在进行全分辨率输出之前,先以较低分辨率快速制作出原型内容——所有这些都可以通过同一个模型完成。 构图与构成的改进 我们的实验发现,在视频的原生纵横比上进行训练能显著改进视频的构图和画面布局。我们比较了 Sora 和另一个版本的模型,这个版本将所有训练用的视频裁剪成正方形——这是训练生成模型的一种常规做法。结果显示,那些在正方形视频上训练的模型(左侧)有时会生成主体只部分出现在画面中的视频。相比之下,Sora 生成的视频(右侧)在画面布局上有了明显的提升。 语言理解 训练文本生成视频的系统需依赖大量配有对应文字说明的视频。我们采用了 DALL·E 3[30] 中介绍的重新标注技术,将其应用于视频。首先,我们训练了一个能够生成高度描述性文字说明的模型,然后利用这个模型为我们训练集中的全部视频生成文本说明。我们的发现表明,使用这些高度描述性的视频说明进行训练,不仅能提高文本的准确度,也能显著提升视频的整体品质。 与 DALL·E 3 类似,我们也采用 GPT 技术将用户的简短提示转化为更加详尽的描述,然后这些描述会被送到视频生成模型中。这一策略使得 Sora 能够根据用户的具体提示生成高质量且内容准确的视频。 通过图像和视频进行提示 我们网站上的示例,主要展示了从文本到视频的生成样本。然而,Sora 也能接受其他形式的输入,比如已有的图片或视频。这项能力让 Sora 能够完成多种图像和视频编辑任务,如制作完美循环的视频、为静态图片添加动效、以及在时间线上前后扩展视频等。...

February 15, 2024 · 1 min · fisherdaddy