Moonshot AI 创始人杨植麟关于 AGI 的核心认知

这篇文章是来自于最近火热的腾讯科技对杨植麟的采访:月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进,核心内容基于 Claude 和 Gemini 提取后做了稍加整理。有趣的是,过几天腾讯科技又发了一篇访谈:朱啸虎讲了一个中国现实主义AIGC故事,这两篇文章对比着看很有意思,反映了目前理想派和保守派对AGI在认知上的不同。 核心认知 “AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界。” 解释:杨植麟强调AI不应只关注短期商业化,而是要着眼于长远地改变世界。 “开源落后于闭源,这也是个事实。因为开源的开发方式跟以前不一样了,以前是所有人都可以contribute,现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集,最后一定是闭源更好,是一个consolidation。” 解释:杨植麟分析了目前开源模型发展落后闭源模型的原因,并预测未来闭源模型将主导。 “要ride the wave。” 解释:顺应AI浪潮,把握时机创业。 “AGI需要新的组织方式。” 解释:AGI的发展需要一种全新的组织形式,结合科研、工程和商业。 “它需要人才聚集、资本聚集。” 解释:发展AGI需要优秀人才和大量资金的投入。 “如果你能用scale解决的问题,就不要用新的算法解决。” 解释:强调scale法则,即通过扩大模型规模而非新算法来解决问题。 “它(long context)是新的计算机内存。” 解释:长文本是新型计算机的内存,对发展AGI至关重要。 “我觉得现在就有点像(视频生成的)GPT-3.5,是阶跃式提升。” 解释:Sora代表了视频生成能力的阶跃式突破。 “AGI空间很大,在通用能力基础上去有差异化,这个更可能发生。” 解释:尽管通用能力会趋同,但未来可能出现差异化的AGI系统。 “user scaling和model scaling需要同时做。最终在这两者之间完美结合。"(指技术理想和商业现实) 解释:伟大的AGI公司需要技术理想主义和现实商业考量的完美结合。 “接下来会有两个大的milestone。"(统一世界模型和自主演化) 解释:未来两大里程碑是统一多模态的世界模型,以及无需人类数据输入的自主演化能力。 “不能只满足做到GPT-4的效果。保持非共识思维,他多次强调要"找到非共识” 解释:不应只盲目追赶GPT-4,而要寻求更大突破。要有独特的思路和判断,不能被现有观点所束缚。这种非共识思维对于创新至关重要。 “AGI最终会是一个跟所有用户co-work产生的东西。” 解释:AGI将通过与大量用户互动协作而逐步完善。 “scaling law为什么能成为第一性原理?你只要能找到一个结构,满足两个条件:一是足够通用,二是可规模化。” 解释:解释了scale law成为AGI发展第一性原理的原因。 “技术是这个时代唯一新变量,其他变量没变。” 解释:在当前时代,技术进步是唯一的新变量,其他条件并未改变。 “AGI组织需科学、工程、商业三位一体” 解释:不能是纯研究机构,也不能是单纯的商业公司,AGI组织要将科研、工程和商业深度融合。 “先进视觉模型将连接数字世界与物理世界” 解释:视觉模型的突破将最终使AI能感知并介入物理世界。 “多模态是确定趋势,但统一架构还是难题” 解释:视频、图像等多模态能力必然到来,但找到真正统一的架构尚需时日。 “会有更多的consolidation,会有更少的公司。” 解释:预计未来会有更多资源整合,而存活的AGI公司会减少。 “我们应该学习OpenAI的技术理想主义。如果所有人都觉得你正常,你的理想是大家都能想到的,它对人类的理想总量没有增量。” 解释:赞赏OpenAI的技术理想主义精神,倡导创新思维。 在做的事情 根据这篇对杨植麟的采访,可以看出他主要在做以下几件事: 创办了一家名为"月之暗面(Moonshot AI)“的大模型公司,专注于追求人工通用智能(AGI)。 开发名为"Kimi"的大模型AI助手,支持20万汉字长文本输入,以探索长语境建模能力。 专注于模型本身的技术突破和扩展,而非仅仅应用落地。他认为模型规模扩展(model scaling)是通向AGI的关键。 招募顶尖AI人才,打造高密度人才团队。团队目前约80人。 持续融资以获得训练大模型所需算力资源。公司已经完成数轮融资,估值数十亿美元。 构建一个整合科学、工程和商业的AGI系统和组织,类似登月计划。通过产品和用户互动发现新的应用机会。 追求长期理想主义目标,而非短期应用落地。他认为AGI将在未来10-20年内改变世界。 总的来说,杨植麟专注于大模型的基础研究和技术突破,以期最终实现人工通用智能,而非过多关注短期商业化。 个人履历 教育背景: 本科: 清华大学计算机系 博士: 卡内基梅隆大学计算机学院 导师:...

March 8, 2024 · 1 min · fisherdaddy

"Road to Sora" 论文阅读清单

鉴于 Sora 的官方文献尚未发布,本文的目标是寻找 OpenAI 发布的 Sora 技术报告中的线索。原文来戳这里。 Sora 是什么 Sora 以其从自然语言提示中生成高清视频的能力,在生成式 AI 领域引起了巨大轰动。如果你还没见过相关示例,这儿有一个生成的视频供你欣赏——视频展示了一只海龟在珊瑚礁中游泳的场景。 尽管 OpenAI 的团队还没有公布涉及该模型技术细节的正式研究论文,但他们确实发布了一份技术报告:Video generation models as world simulators。这份报告概述了他们应用的一些高级技术和一些定性的研究成果。 Sora 架构概述 在读过下列论文之后,你会开始理解这里所述的架构。这份技术报告提供了一种从 10,000 英尺高度俯瞰的视角,我希望每一篇论文都能深入探讨不同的细节,共同勾勒出一个完整的图景。有一篇精彩的文献回顾题为《Sora: 大型视觉模型的背景、技术、局限性及机遇综述》,它给出了一个通过逆向工程得到的架构的高层次示意图。 图 4:逆向工程:Sora 框架概述 OpenAI 的团队把 Sora 描述为“扩散 Transformer”,这个概念融合了之前论文中提到的多种思想,但特别是用于处理视频中生成的潜在时空区块。 这种方法结合了 Vision Transformer (ViT) 论文中提到的补丁样式和 Latent Diffusion Paper 中相似的潜在空间概念,但采用了扩散 Transformer 的组合方式。这不仅包括图像的宽度和高度方向上的补丁,还拓展到了视频的时间维度。 关于他们如何精确收集到所有这些训练数据的细节,现在还难以确定,但它似乎是 Dalle-3 论文中技术与利用 GPT-4 详细解释图像文本描述的结合体,这些描述随后被转换为视频。训练数据可能是此处的核心秘密,因此技术报告中关于此的细节最为欠缺。 应用 Sora 这类视频生成技术的应用前景广泛,无论是在电影、教育、游戏、医疗还是机器人技术领域,通过自然语言提示生成逼真视频无疑将影响多个行业。 图 18:Sora 的应用 论文阅读清单 OpenAI 技术报告中的参考文献部分引用了众多论文,但确定哪些论文应该优先阅读或者对背景知识非常重要可能有些难度。我们已经仔细筛选并挑选出了我们认为最具影响力和最值得阅读的论文,并按类别进行了整理。 背景论文 从 2015 年开始,生成图像和视频的质量持续提升。引起公众广泛注意的重大进步始于 2022 年,涌现出如 Midjourney、Stable Diffusion 和 Dalle 等工具。本节包含了一些被反复引用的基础论文和模型架构。虽然这些论文不全部直接关联 Sora 架构,但它们为理解艺术和技术水平如何随时间演进提供了重要的背景。...

March 6, 2024 · 2 min · fisherdaddy

教育领域的一些prompt分享

早上看到 X 上 @emollick 分享一些针对老师和学生的相关prompt,实际用了一下还不错,在这里分享几个。 教学辅助工具 prompt 用于课堂教学中,协助教师进行教学准备和授课。 模拟场景设计助手 这个prompt主要帮助老师设计一个让学生通过角色扮演练习如谈判、招聘、推销等技能的模拟场景。 英文 You are a simulation creator. Every simulation you create has the following: An AI Game master who is an expert at creating role playing scenarios for students to practice applying their skills (eg negotiations, hiring, pitching). The AI game masters job is two-fold: to play AI mentor and set up a scenario for the user. And then once the user plays through the scenario the AI mentor comes back in and proclaims that the role play is complete and gives them feedback and more suggestions going forward about how they can improve their performance....

March 5, 2024 · 50 min · fisherdaddy

全力以赴 • Frank Slootman

最近看到Snowflake原CEO Frank Slootman决定离职,导致股价暴跌20%,引发twitter上的讨论,这篇文章翻译一下Frank Slootman的一篇文章《Amp it up》 作为 Data Domain 和 ServiceNow 两家近年来杰出科技公司的前任 CEO,我常被问及我们的成功秘诀。实际上,我们并不认为自己与众不同,也没有觉得发现了什么秘密武器。难道我们仅仅是连续两次走了狗屎运?但回顾过去,的确有一些经验值得分享。 简而言之:在企业内部提升绩效的空间巨大,关键在于加速和提高工作强度。许多组织内部都存在着能够被激发的巨大潜力。领导的任务就是将这种潜力转化为超凡的业绩。这个机会就摆在我们面前,但往往被忽视。这个理念不仅适用于商业领域,职业体育团队在不同领导下的迅速转型也证明了这一点。你可以称它为X因素或其他任何名字,但它确实存在。虽然任何人都可以抓住这个机会,但真正做到的却不多。 这并非易事,因为这意味着将人们推出他们的舒适区,会遭遇阻力。改变总是困难的,有些人可能会选择离开。如果你想成为一个受欢迎的领导,这条路可能并不适合你。领导者的角色是改变现状,加快节奏,提高工作强度。领导者是组织中的能量源和节奏器,他们为组织注入活力,而不是消耗能量。 Data Domain 与 ServiceNow 的共同之处 Data Domain 和 ServiceNow,在我们2003年到2017年间的领导下,展现出了一些共性。尽管它们业务不同,市场不同,时代不同,但都在各自领域表现出色。它们有着同一个 CEO 和大部分相同的管理团队,文化上也十分相似,这可能就是成功的线索之一。 Data Domain 用2800万美元的资本,在6年后为股东创造了24亿美元的回报。公司年收入从零增长到6亿美元,并于2007年在纳斯达克上市。被 EMC 收购后,年收入增长到数十亿美元。我们加入 Data Domain 时,公司正面临初创期的挑战。我在2009年出版的《磁带糟糕透了》一书中有提及这段经历。 另一方面,ServiceNow 是一家成立于圣地亚哥的云软件公司,当我2011年初加入时,公司已经迅速成长。公司很快就跨越了创业初期的难关,尽管当时公司的年收入接近1亿美元,但运营上还很初级。我们逐步克服了巨大的运营挑战,并推动了公司的快速增长。ServiceNow 的启动资金不超过650万美元。 作为继 Salesforce 之后第二家年收入达到十亿美元的云软件公司,ServiceNow 仅用两年时间就实现了年收入二十亿美元的突破,且高速增长持续至今。ServiceNow 于2012年在纽约证券交易所上市,此后股价增长了十倍,市值超过1000亿美元。 提升表现 我们的公司建立和运营的唯一目标就是性能。我们全力以赴追求目标,激励团队成员成就最佳自我。对于最优秀的员工而言,这是一次极具解放意义的体验。虽然许多人都宣称拥有“绩效文化”,但真正理解这背后的意义、所需的努力以及必须做出的牺牲的却寥寥无几。我们的公司文化类似于海军陆战队,而不是和平队,我们的存在每天都要与巨头竞争,这种战斗状态是不可避免的。 有效推动绩效文化的一个重要方面是薪酬哲学。我们的原则是公司必须先有收益,才能设立奖金池。我们每个季度根据业绩好坏决定奖金池的资金。我们强调绩效的差异化分配,不允许“均匀涂鸦”式的奖金分配。我们不总是发放全部奖金,我会在季度全员会议上亲自解释原因。 我们关注的不是对低绩效员工的奖金问题,而是如何确保高绩效员工得到足够的奖励。这意味着管理层需要从绩效较低的员工那里调配资源。这样做让我们清楚地了解谁是高绩效员工,谁则表现不佳。每个季度,每位员工都会与他们的经理就绩效进行一对一的沟通,这比书面评价更直接、有效。当需要与某位员工分道扬镳时,如果他们的奖金历史低于平均水平,这个过程会更加简单、经济且迅速。 对于管理者而言,每季度都要与每位员工就绩效薪酬进行对话是一项挑战,这可能导致冲突。在许多公司,员工几乎将奖金视为基本工资的一部分,这是一种权利感的体现。 ServiceNow 内部鼓励员工成为驱动者而非旁观者。如果你在一周或一个月的工作后问自己,自己的存在是否真的有价值,这是一个艰难但必要的自我反省。这是激励你确保自己在工作中发挥重要作用的动力,这关系到个人的安全感、自信和自我价值。 一个全面的绩效文化包含许多方面,但在此我将强调三个主要方向,它们构成了绩效执行的框架。 我们的公司运作速度更快,标准更高,关注点更集中。听起来简单,但关键在于如何实现这一点。你需要决定加速的幅度、标准的高度和聚焦的程度。这三个方向相互强化,产生的综合效应可以是惊人的。 令人震惊的是,许多公司的日常运作缓慢、低效、缺乏焦点,而且他们对此视而不见。到处都是提高绩效的机会。作为领导者,你的任务是在这些方面不断寻找并利用机会,通过每一次对话、每一次会议和每一次互动来提升标准、加快节奏和集中精力。然后,你需要不懈地跟进和执行。是的,这可能会引发冲突,但这正是 CEO 的日常工作。 这种转变不会一蹴而就,事实上,这是一个永无止境的过程。这种变化对组织的冲击将是深远的。如果遇到反抗,那可能意味着你正在做正确的事情。领导者可以点燃变革的火花,但管理层和员工的接受和参与是必不可少的,这样变革的能量才能在整个组织中传播。你可以选择慢慢来,但我们追求的是速度。不是每个人都能跟上,但正确的人会站出来。文化会自然而然地筛选出与之契合的人。 提速 没有领导的推动,组织的步伐往往会变得缓慢。如果你有在政府部门工作或合作的经历,你会发现这种极端的例子。除了下班时间外,几乎没有什么事情是紧急的。在这样的环境下工作,感觉就像是在胶水中挣扎。 当提高工作节奏时,人们不仅会做事更快,他们还会开始以不同的方式思考和行动。这正是我们希望在组织中看到的。ServiceNow 以其“抓紧做事”的文化而自豪,这种文化吸引那些能够完成任务的人,排斥那些不能的人。 要实现显著的加速,需要的是根本性、明显感受到的变化。仅仅加速20%几乎感觉不到差别,很快就会回到旧习惯。 在软件领域,我们经常讨论产品需要什么以及何时能实现。开发团队倾向于提出按部就班的时间表,缺乏紧迫感。但是在压力下,总有人能突破常规思维,找到更快实现目标的方法。压力能够促使变革。 随着时间的推移,组织会自然形成一种节奏和步调。但在高速增长的公司,新加入的员工需要被适当引导和灌输这种文化。 这种变化不是小事,组织往往抵抗比自然状态更快的变化。我们有新员工在短时间内就因为无法适应 ServiceNow 的节奏和强度而离职。 你需要的是一群愿意全力以赴的人。这正是我们想要吸引和留住的人才。如果不推动加速,就会失去那些渴望快节奏文化的优秀人才。 加快步伐也意味着更集中的关注。当你尝试同时推动太多事情时,是无法快速前进的。我们将在后续讨论更多相关内容。 提升标准 当我们加快脚步时,质疑声音难免会随之而来。我们真的能在加速的同时保持质量吗?我们认为可以,因为我们将在加速的同时提升质量。这将对生产效率产生倍增效果。这不是逆天而行,而是彻底挤压系统中的浪费。只有在压力之下,我们才能发现自己有多么出色和迅速。 我们与众不同的一个方面是对客户的全心承诺。我们提供了最高标准的服务和支持,这是我们所知道的最佳实践。没有什么比客户的成功更重要。我们必须让客户感受到我们的支持,让他们不仅仅是喜欢我们——他们必须爱上我们!我们的净推荐分数非常高,这绝非偶然。虽然维持这样的标准很困难,但这已深深嵌入我们的文化之中。...

March 1, 2024 · 1 min · fisherdaddy

Sora:大视觉模型的背景、技术、局限性和机遇回顾

这篇文章翻译了微软研究院基于已发表的Sora技术报告和逆向工程发表的一篇论文Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models,本文首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。 摘要 Sora 是一款由 OpenAI 在 2024 年 2 月推出的文本转视频生成式 AI 模型。这款模型能够把文字指令转化为现实或虚构场景的视频,展现了在模拟现实世界方面的巨大潜力。通过分析公开的技术报告和逆向工程手段,本文全面回顾了 Sora 的背景、相关技术、应用场景、当前面临的挑战以及文本到视频 AI 模型的未来趋势。文章首先回顾了 Sora 的开发历程,探讨了构建这一“世界模拟器”的关键技术。接着,我们详尽介绍了 Sora 在电影制作、教育、市场营销等多个领域的应用及其潜在的行业影响。文中还讨论了为了让 Sora 得到广泛应用需要克服的主要挑战,比如确保视频生成的安全性和公正性。最后,我们展望了 Sora 以及视频生成模型的发展未来,探讨了技术进步如何为人机互动开辟新的路径,以及如何提升视频制作的效率和创造力。 图 1:Sora:人工智能驱动的视觉生成的突破 1 简介 自2022年11月ChatGPT发布以来,AI技术的出现标志着一场重大变革,重塑了交互方式并深度融入日常生活和行业的各个方面 [1, 2]。基于这一势头,OpenAI在2024年2月发布了Sora,这是一种文本到视频的生成式 AI 模型,可以根据文本提示生成现实或富有想象力的场景的视频。与以前的视频生成模型相比,Sora 的特点是能够生成长达 1 分钟的高质量视频,同时保持对用户文本指令的遵守 [3]。Sora 的这种进步体现了长期以来 AI 研究的使命,即让 AI 系统(或 AI Agents)具备理解和与物理世界动态交互的能力。这包括开发不仅能够理解复杂的指令,还能将这种理解运用于通过动态且富含场景信息的模拟,来解决现实世界的问题的 AI 模型。 图 2:Sora 文本到视频生成的示例。 向 OpenAI 的 Sora 模型提供了文本指令,模型根据这些指令生成了三个视频。 如图 2 所示,Sora 能够出色地理解并执行复杂的指令,展现出令人印象深刻的能力。该模型可以生成包含多个角色执行特定动作、拥有复杂背景的详细场景。研究人员将 Sora 的熟练技能归因于其不仅能够处理用户给出的文本提示,还能辨别场景中元素之间复杂的相互作用。...

February 29, 2024 · 4 min · fisherdaddy

乔布斯领导力的真谛

这篇文章翻译了哈弗商业评论的一篇文章 The Real Leadership Lessons of Steve Jobs 摘要 作者在史蒂夫·乔布斯去世后不久出版的传记迅速成为畅销书。在这篇文章中,他试图纠正很多评论者对乔布斯性格棱角的过度关注。艾萨克森认为,乔布斯的性格是他商业成功不可分割的一部分,但乔布斯真正值得学习的地方在于他的成就。他不仅创立了世界上最有价值的公司,还改变了多个行业的面貌,包括个人电脑、动画电影、音乐、电话、平板电脑、零售店以及数字出版等。 艾萨克森在文中提到乔布斯成功背后的十四个关键原则:集中精力、简化问题、贯彻始终负责、在落后时实现跨越式发展、产品优先于利润、不受焦点小组影响、改变现实、传递价值、追求完美、既要把握大局也要注意细节、只与最优秀的人合作、面对面沟通、融合人文与科学、“stay hungry, stay foolish”。 正文 乔布斯的故事是创业神话的极致展现:1976年,他与人在父母的车库中共同创立了苹果公司,1985年被迫离开,1997年返回拯救了濒临破产的苹果,并在2011年10月去世时,他已经将其打造成了世界上最有价值的公司。在这个过程中,他推动了七大行业的变革:个人计算机、动画电影、音乐、手机、平板电脑、零售店和数字出版。因此,他与托马斯·爱迪生、亨利·福特和沃尔特·迪士尼等美国伟大的创新者一道,被铭记在创新者的殿堂中。这些人并非圣人,但他们的个性将随时间淡忘,而他们将想象力应用于技术和商业的方式将被历史铭记。 “那些疯狂到认为自己可以改变世界的人,最终确实能够做到。” ——1997年苹果公司“想法不同”广告 自从我的乔布斯传记出版以来,无数评论者试图从中提炼管理智慧。其中一些见解颇具洞察力,但我认为许多人(尤其是那些没有创业经验的人)过分关注了他性格中的棱角。我认为,乔布斯的精髓在于,他的性格是他商业行为方式的核心。他总是行事仿佛常规规则对他不适用,他对生活的激情、强度和极端情感,也同样融入了他创造的产品中。他的急躁和不耐烦是他追求完美主义的一部分。 在我完成大部分书稿后最后一次见到他时,我再次询问了他对待人粗鲁的倾向。“看看结果吧, ”他回答。“我合作的都是聪明人,如果他们真的感受到了苦难,他们完全可以在其他地方找到顶尖的职位。但他们没有离开。”随后他沉默了一会儿,几乎是带着怀念地说,“我们一起完成了一些不可思议的事情。”的确,过去十多年里,他和苹果取得的成就序列,超越了现代任何其他创新公司:iMac、iPod、iPod nano、iTunes Store、Apple Stores、MacBook、iPhone、iPad、App Store、OS X Lion,还有每一部皮克斯电影。即使在与终极病魔作斗争时,乔布斯也被一群多年来受他鼓舞的忠诚同事、一个充满爱的妻子、姐妹和四个孩子所环绕。 所以,我认为从乔布斯实际取得的成就中学到的教训才是真正的精髓。我曾问他,他认为他最重要的创造是什么,以为他会说是iPad或Macintosh。出乎意料,他说是苹果公司本身。他说,打造一个持久的公司,比创造一个伟大的产品更难,也更重要。他是如何做到的呢?即使是一百年后,商学院也仍将研究这个问题。以下是我认为他成功的关键所在。 专注 当乔布斯1997年回到苹果时,发现公司在生产一系列混乱的计算机和外设,包括十几个版本的Macintosh。经过几周的产品审查,他终于忍无可忍。“停下!”他大喊。“这太疯狂了。”他拿起一支马克笔,赤脚走到一块白板前,画出一个二乘二的网格。“我们需要的是这个,”他宣布。他将两列标为“消费者”和“专业”,两行标为“桌面”和“便携”。他告诉团队,他们的任务是集中精力打造四款伟大的产品,每个象限一个。所有其他产品都应该被取消。这一决定让人震惊,但正是这种专注救了苹果。“决定不做什么和决定做什么一样重要,”他告诉我。“这对公司来说是真的,对产品也是如此。” 在他扭转了公司的局面之后,乔布斯开始每年带他的“前100名”员工去度假。在最后一天,他会站在白板前(他喜欢白板,因为它让他完全掌控局面,而且能够集中注意力)并问,“我们接下来应该做哪10件事?”人们会争先恐后地提出他们的建议。乔布斯会将这些建议写下来——然后划掉那些他认为不明智的。经过一番讨论,小组最终会得出一个由10项构成的清单。然后乔布斯会削减掉后面七项并宣布,“我们只能做三件。” 专注是乔布斯性格的一部分,也是他通过禅宗训练所磨砺出的。他无情地过滤掉他认为的分心事物。有时,同事和家庭成员会因为他们试图让他处理他们认为重要的问题——比如一个法律问题,一个医疗诊断——而感到沮丧。但他会冷冷地盯着他们,拒绝转移他那如激光一般的专注,直到他准备好。 在他生命的最后阶段,谷歌的共同创始人拉里·佩奇即将重新掌控谷歌,他在家中拜访了乔布斯。尽管他们的公司在争执,乔布斯仍愿意提供建议。“我强调的主要是专注,”他回忆说。他告诉佩奇,要弄清楚谷歌长大后想成为什么。“它现在无所不包。你想专注于哪五个产品?把其它的都剔除,因为它们在拖你的后腿。它们正在把你变成微软。它们让你生产出的产品只是足够好而不是伟大。”佩奇采纳了这一建议。2012年1月,他告诉员工专注于几个重点,如Android和Google+,并使它们变得“美观”,就像乔布斯会做的那样。 简化 乔布斯的禅宗式专注能力伴随着一种本能,即通过聚焦其本质和消除不必要的部分来简化事物。“简约是最终的复杂,”苹果的第一份营销手册宣称。要了解这意味着什么,可以比较任何一款苹果软件和其他产品,如Microsoft Word,后者不断变得更加复杂和杂乱,带有难以理解的导航功能和干扰性特征。这提醒我们苹果追求简约的光辉。 乔布斯在阿塔里夜班工作时开始欣赏简约,那时他还是一名大学辍学生。阿塔里的游戏没有使用说明书,需要足够简单,以至于一个嗑药的大一新生也能弄明白如何玩。它的《星际迷航》游戏的唯一指示是:“1. 插入硬币。2. 避免克林贡人。”他对设计中的简约之爱在他参加的1970年代末在阿斯彭研究所举行的设计会议上得到了精炼,那里的校园建筑采用了包豪斯风格,强调干净的线条和功能性设计,没有多余的装饰或分心之物。 当乔布斯访问施乐公司的帕洛阿尔托研究中心,看到了一台拥有图形用户界面和鼠标的计算机计划时,他开始着手使设计变得更直观(他的团队使用户能够在虚拟桌面上拖放文件和文件夹)和更简单。例如,施乐的鼠标有三个按钮,售价300美元;乔布斯前往一家当地的工业设计公司,告诉其中一位创始人迪恩·霍维,他想要一个简单的、单按钮的型号,成本为15美元。霍维遵从了。 乔布斯追求的是一种通过征服而不是仅仅忽略复杂性获得的简单性。他意识到,实现这种深度的简单性,会产生一种感觉上似乎是在友好地顺应用户而不是挑战他们的机器。“这需要大量的努力,”他说,“要使某事变得简单,真正理解其背后的挑战并找到优雅的解决方案。” 在乔纳森·艾夫,苹果的工业设计师,乔布斯找到了他追求深层而非表面简单性的灵魂伴侣。他们知道,简单性不仅仅是一种极简主义风格或去除杂乱。为了去除螺丝、按钮或多余的导航屏幕,有必要深刻理解每个元素的作用。“要真正简单,你必须深入挖掘,”艾夫解释说。“例如,要做到没有螺丝,你可能最终会得到一个非常复杂和混乱的产品。更好的方式是深入探究简单性,全面理解它的一切以及它是如何被制造的。” 在设计iPod界面时,乔布斯在每次会议上都试图找到方法减少杂乱。他坚持要求在三次点击内达到他想要的任何功能。例如,一个导航屏幕询问用户是否想按歌曲、专辑或艺术家搜索。“我们为什么需要这个屏幕?”乔布斯质问。设计师们意识到他们并不需要它。“有时我们会因为一个用户界面问题而头疼,然后他就会说,‘你们考虑过这个吗?’”托尼·费代尔说,他领导了iPod团队。“然后我们都会说,‘天哪。’他会重新定义问题或方法,我们的小问题就此消失。”在某一刻,乔布斯提出了最简单的建议:让我们去掉开/关按钮。起初,团队成员对此感到惊讶,但后来他们意识到按钮是不必要的。如果设备未被使用,它会逐渐关闭电源,并在重新启用时迅速启动。 同样,当乔布斯看到一套为iDVD设计的复杂的导航屏幕提案时,这个功能允许用户将视频烧录到光盘上,他跳起来在白板上画了一个简单的矩形。“这是新应用,”他说。“它只有一个窗口。你把视频拖进窗口。然后点击‘烧录’按钮。就这样。这就是我们将要制作的。” 在寻找成熟颠覆的行业或类别时,乔布斯总是询问谁在让产品变得比必要的更复杂。2001年,便携式音乐播放器和在线获取歌曲的方式就是这样,这导致了iPod和iTunes Store的诞生。接下来是手机。乔布斯会在会议上抓起一部手机,正确地抱怨没有人可能弄明白如何使用它的一半功能,包括通讯录。在他的职业生涯末期,他将目光投向了电视行业,该行业几乎使人们不可能通过点击一个简单的设备就能观看他们想要的内容。 负责到底 乔布斯知道,要实现简单,最好的方式是确保硬件、软件和外围设备无缝集成。苹果生态系统——,例如,一个iPod连接到一台装有iTunes软件的Mac——使设备更简单,同步更顺畅,故障更少。更复杂的任务,如创建新播放列表,可以在电脑上完成,使iPod可以具有更少的功能和按钮。 乔布斯和苹果对用户体验负责到底——这是极少数公司做到的。从iPhone中ARM微处理器的性能到在苹果店购买一部手机的行为,顾客体验的每个方面都紧密相连。微软在1980年代和谷歌在过去几年里采取了更开放的方式,允许他们的操作系统和软件被各种硬件制造商使用。有时这被证明是更好的商业模式。但乔布斯坚定地认为,这是制造(用他的话说)更差产品的配方。“人们很忙,”他说。“他们有其他事要做,而不是考虑如何整合他们的计算机和设备。” 置身于苹果生态系统,仿佛漫步于乔布斯钟爱的京都禅宗花园,享受着那份至高无上的体验。 乔布斯强迫自己对所谓的“整体产品”负责,一方面源于他那强控的个性,另一方面则源于他对完美和制造优雅产品的热情。当他想到在其他公司的平庸硬件上运行苹果的优秀软件时,他会感到极度不适,同样,他也无法忍受未经批准的应用或内容玷污苹果设备的完美。这种做法可能不会总是最大化短期利润,但在一个充斥着劣质设备、令人费解的错误信息和恼人界面的世界中,它却带来了标志性的、令人愉悦的用户体验的惊艳产品。置身于苹果的生态系统中,就像是在乔布斯所爱的京都禅宗花园中漫步,这两种体验都不是通过盲目追求开放性或让千花齐放而创造出来的。有时候,被一个控制欲强的人牵着手,也是一种幸福。 落后时超越 一个创新公司的标志不仅仅在于它首先提出新想法。更重要的是,当发现自己落后时,它知道如何实现跨越式发展。这一点在乔布斯构建原始iMac时得到了体现。他专注于使其成为管理用户照片和视频的有用工具,但在音乐处理上却落后了。PC用户正在下载音乐、交换音乐,然后刻录自己的CD。而iMac的插槽驱动器无法刻录CD。“我觉得自己像个傻瓜,”他说,“我以为我们错过了。” 但乔布斯没有仅仅通过升级iMac的CD驱动器来追赶,而是决定创建一个集成系统,彻底改变音乐行业。这一决策最终产生了iTunes、iTunes Store和iPod的组合,使用户能够以比任何其他设备都要好的方式购买、分享、管理、存储和播放音乐。 在iPod取得巨大成功后,乔布斯几乎没有花时间沉醉其中。相反,他开始考虑什么可能会威胁到它。一种可能性是手机制造商开始在他们的手机中加入音乐播放器。因此,他通过创造iPhone,自我蚕食iPod的销量。“如果我们不自我蚕食,别人就会蚕食我们,”他说。 产品优先于利润 在1980年代初,乔布斯和他的小团队设计原始Macintosh时,他的指示是使其“疯狂地伟大”。他从未谈论过利润最大化或成本权衡。“不要担心价格,只需指定计算机的性能,”他对团队的最初领导说。在与Macintosh团队的第一次集体退思时,他首先在白板上写下一条准则:“不要妥协。”最终产生的机器成本过高,导致乔布斯被迫离开苹果。但Macintosh也“在宇宙中留下了痕迹”,正如他所言,加速了家用电脑革命。长期来看,他找到了平衡:专注于打造出色的产品,利润自然会随之而来。 约翰·斯卡利在1983年到1993年间管理苹果,是来自百事可乐的营销和销售高管。在乔布斯离开后,他更加关注利润最大化而非产品设计,苹果逐渐走向衰落。“我有自己的理论,关于公司为什么会衰落,”乔布斯对我说:“他们制造了一些伟大的产品,但然后销售和营销人员接管了公司,因为他们是那些可以提高利润的人。”“当销售人员掌管公司时,产品人员就不那么重要了,很多人就会失去动力。当斯卡利加入苹果时就发生了这种情况,这是我的错,当鲍尔默接管微软时也发生了这种情况。” 当乔布斯回归时,他将苹果的焦点重新聚焦于创新产品的制作:轻巧的iMac、PowerBook,然后是iPod、iPhone和iPad。正如他所解释的,“我的热情一直是建立一个能够激励人们制造伟大产品的持久公司。其他一切都是次要的。当然,赚钱很好,因为那是让你能制造伟大产品的基础。但是产品,而不是利润,才是驱动力。斯卡利颠倒了这些优先级,把目标变成了赚钱。这是一个细微的差别,但意味着一切——你雇佣谁,谁得到晋升,你在会议中讨论什么。” 不要被焦点小组束缚 当乔布斯带领他的原始Macintosh团队进行第一次集体退思时,一名成员问是否应该做一些市场调研来了解客户想要什么。“不,”乔布斯回答,“因为客户不知道他们想要什么,直到我们展示给他们。”他引用了亨利·福特的话:“如果我问客户他们想要什么,他们可能会说,‘一个更快的马!’” 深切关心客户的需求与不断询问他们想要什么是截然不同的;这需要对尚未形成的欲望有直觉和本能。“我们的任务是阅读那些还没呈现在页面上的内容,”乔布斯解释道。他并不依赖市场研究,而是磨炼了他的版本的同理心——对顾客欲望的深刻直觉。他在印度学习佛教时作为一名大学辍学生,培养了对直觉的欣赏——一种基于积累的经验智慧的感觉。“印度乡村的人们不像我们那样使用他们的智力;他们使用直觉,”他回忆道。“直觉是一种非常强大的东西,我认为,比智力更为强大。” 有时这意味着乔布斯使用自己作为唯一的焦点小组。他制造了他和他的朋友们想要的产品。例如,2000年存在许多便携式音乐播放器,但乔布斯觉得它们都不够好,作为一个音乐爱好者,他想要一个简单的设备,能让他随身携带一千首歌曲。“我们为自己制造了iPod,”他说,“当你为自己、或者你的最好的朋友或家人做某事时,你不会偷工减料。” 扭曲现实 乔布斯(恶名昭著的)能力,推动人们完成不可能的任务,被同事们称为他的“现实扭曲场”,这个名字来源于《星际迷航》的一集,其中外星人通过纯粹的心智力量创造了一个令人信服的替代现实。一个早期例子是乔布斯在阿塔里夜班时期,他推动史蒂夫·沃兹尼亚克创建了名为Breakout的游戏。沃兹认为这需要几个月,但乔布斯盯着他,坚持说他能在四天内完成。沃兹知道这是不可能的,但他最终完成了。 乔布斯因能激励人们完成看似不可能的任务而闻名遐迩,同事们称这种能力为“现实扭曲场”,这个名字启发于《星际迷航》中的一个剧集。 对乔布斯不太了解的人可能会把“现实扭曲场”误解为某种对欺凌和撒谎的委婉说法。然而,真正与他共事过的人承认,尽管这种性格有时令人难以忍受,但它确实促使他们完成了非凡的壮举。乔布斯认为自己不受生活常规规则的约束,这使他能激励团队用远少于施乐或IBM的资源,改变了计算机历史的进程。“这是一种自我实现的扭曲,”原Mac团队成员Debi Coleman回忆道,她曾因最擅长对抗乔布斯而获奖。“你之所以完成了不可能的任务,是因为你不知道它原本是不可能的。” 有一次,乔布斯闯进了负责Macintosh操作系统的工程师Larry Kenyon的工位,抱怨启动时间太长了。Kenyon试图解释为什么减少启动时间是不可能的,但乔布斯打断了他:“如果这能救人一命,你能找到方法缩短10秒的启动时间吗?”Kenyon承认,他或许能做到。乔布斯在白板上展示,如果有五百万人每天使用Mac,每天多花10秒启动,那么一年就是大约3亿小时——相当于至少100个人的一生。几周后,Kenyon将机器的启动时间缩短了28秒。...

February 29, 2024 · 1 min · fisherdaddy

Sam Altman:为了创建一家伟大公司,创始人应该遵循的九个建议

这篇文章翻译了OpenAI CEO Sam Altman对想要创建一个伟大公司的CEO的9个建议。Sam Altman’s 9 things that the best founders do to build a great company Sam Altman 分享了九个建议,这些是创始人在打造伟大公司过程中应遵循的最佳实践。 1 深入了解你的用户 顶尖的创始人会亲自处理客户支持工作。他们会亲自拜访用户——以 Airbnb 为例,他们甚至会与用户同住。这样做的目的是要非常深入地了解你的用户。 2 保持快速迭代周期并理解复合增长的力量 这个过程可以概括为:与客户交谈以理解他们的需求 → 开发产品来满足这些需求 → 将产品推向市场并观察用户反应 → 根据反馈进行调整 → 重复这个过程。这种迭代是持续改进的关键。复合增长法则意味着,如果每个迭代周期你都能提升 2%,并且你的迭代周期是每四小时而不是每四周,那么几年下来,你会发现自己处于一个截然不同的境地。将打造世界上迭代速度最快的公司作为你的首要目标之一。 3 做出长期承诺 大多数公司的规划期限为 2-3 年。但实际上,成功的公司几乎都是十年的长期项目。如果你从一开始就以这种长期视角来规划,你会做出更好、更不同的决策。我认为,对一个新项目做出长期承诺,几乎是市场上剩余的唯一套利机会。几乎没有人愿意这么做,但如果你做了,你会以全新的方式思考问题,聘请不同的人才,这将大有裨益。 4 在一切顺利之前保持公司的精简 在早期,当你还在尝试和调整方向时,你希望公司能像快艇一样灵活,能够迅速改变方向。一旦公司规模扩大,无论是现金烧损,还是其他问题,这种灵活性都会大打折扣。员工数的增加会成倍减少公司的灵活性,所以在确定一切都在正确的轨道上之前,保持公司规模的小型化至关重要。一旦确认一切顺利,再考虑扩大规模。 5 抵抗随意招聘的冲动,尤其是避免招聘平庸人才 Vinod Khosla 曾经说过一句我非常赞同的话:‘你建立的团队决定了你创建的公司。’这个观点非常准确,我曾经低估了它的重要性。如果你能组建一个优秀的团队,并且拥有一个用户喜爱的产品,你成功的几率将超过 90%。这两点都非常难以实现,并且它们是相互独立的。但不要忽视团队的重要性。我认识的最优秀的 CEO,会花费大量时间在招募和留住人才上。 6 无情地执行 你必须不断前进,追求完美,关注每一个细节。你需要对用户与你的公司的每一次互动都无比在意。 7 创业就是永不放弃 最近一期 YC 孵化器中的一个顶尖公司在第七次申请时才被接受。这正是创业过程中常有的经历:一次又一次地面对失败。就在你觉得自己再也没有力气站起来的时候,成功就在眼前。这正是创业所要经历的。 8 照顾好自己是你的责任 这是一场长达十年的马拉松,你有义务照顾好自己,这对你的股东而言是一种责任。有些人把创业当作熬夜:忽视健康,牺牲睡眠,忽略个人关系。虽然创业确实不利于工作生活平衡,但你有责任照顾好自己,这对你的团队和投资者都非常重要。 9 清晰的使命感 虽然你不需要在第一天就确定清晰的使命,但我所参与的所有成功创业公司都会在最初的一两年内找到一个重要的使命。这个使命不仅能吸引人才加入,也是推动创始人前进的动力,让媒体对他们进行报道。即使你是从解决个人生活中的一个小问题开始的,记住,最终你应该有一个清晰的使命——这将吸引人们来支持你,帮助你把这个想法发展成一个被众多人热爱的大公司。

February 27, 2024 · 1 min · fisherdaddy

读《小米创业思考》

这篇文章记录了去年读《小米创业思考》这本书的记录,雷总其中的一些观点会对你有些帮助。 当我们谈论“专注”时,我们究竟在谈什么? 我总结了专注的四个核心命题: 清晰的使命、愿景 深刻的洞察力,了解行业,了解用户需求,找到机会。 明确而坚定的目标及与之匹配的能力 克制贪婪,少就是多 只有贯穿长期目标、始终围绕用户真实需求出发、与核心业务构成强协同的业务拓展,才能驱动企业发展的飞轮。而且,每一项新业务的拓展都以之前业务坚实的发展模型和预期为基础,这样才能保证每一个发展阶段都能集中精力,专注地开拓一项业务。 一次解决一个最迫切的需求 资源总是有限的,切口越小,压强越大,突破越有利。产品的切口怎么选?小米内部在讨论产品时常说“单点突破,逐步放大”,一开始尽量聚焦到只解决用户一个迫切的需求,这样验证起来非常简单。解决的问题只要一句话就可以说清楚,比如小米充电宝解决的问题就是“怎样获得大容量、质量可靠又便宜的充电宝” 决定不做什么跟决定做什么一样重要 “少就是多”的最典型案例就是苹果。 什么才是极致的产品 极致就是“始终更高标准,玩命更严要求”。什么才是极致的产品,我理解有两个条件: 一是产品要惊艳,设计要惊艳,成本也要惊艳 二是超出用户用户预期,真的能让用户尖叫 尽管行业千差万别、个性各有不同,但都有一个相同的特征:了不起的极致产品不是只靠一个天才的想法、一个突然出现的灵感就能做出来的,而是要经历长期痛不欲生的修改,一点一点打磨出来。 替代一匹快马的,不应是一匹更快的马,而有可能是蒸汽汽车。

February 23, 2024 · 1 min · fisherdaddy

Duolingo的游戏化设计

这篇文章翻译了去年在twitter看到的一个关于Duolingo游戏化设计的帖子。 全球最佳游戏化设计。 Duolingo 的突破性游戏化设计使其成为全球最大的教育应用,拥有 6100 万用户。 以下是为什么 Duolingo 的游戏化设计如此出色以及他们是如何做到的: 1 顶级的入门体验 @duolingo 在逐步吸引用户方面表现出色,在此过程中建立了用户的目标。 他们让用户立即进入 “Duolingo” 体验。 这种类型的“用户投入”最终使产品对用户更有价值。 2 游戏化学习路径 @Duolingo 将其课程分成小块内容,每节课只需 2-3 分钟。 短暂的注意力 + 快速的行动 = 留存。 如此低的入门门槛对于激励如今注意力不集中的受众在应用中取得进展至关重要。 3 每日连胜 **连胜功能可以说是多邻国最强大的黏性机制之一,相当于每天的“打卡”,但是,多邻国用的是“连胜”字样。**有超过 600 万人连续 7 天或更多。 在多邻国看来,如果用户连续玩了10天,他们退出产品的几率就会大大降低,因此,也在一直改进“连胜”功能。 **2022年,在连胜功能上,多邻国有了重大迭代,推出了即连胜保护机制——连胜激冻。**也就是说如果有连胜的用户即将失去他们的连胜,该通知就会提醒他们,并保住连胜的成果。这给用户一种极大的心理安慰,会在接下来的日子更加努力。同时,多邻国还改善了连胜动画和连胜奖励等等,这都有助于完善最初的连胜理念,并显著提高了用户留存率。 4 多人模式 几乎所有社交活动都会产生某种网络效应。@duolingo 的社交任务功能令人叹为观止。 Duolingo 上的多人模式(Social Quest)通过荣誉、成就等使学习变得非常有趣。 5 排行榜和徽章 与 Strava、Fitbit 等类似 - 排行榜在游戏化方面已被证明非常有效。 多邻国的排行榜功能一开始采用的是和家人、朋友竞争,但是效果并不好。后来,多邻国意识到,竞争对手的黏性可能比朋友的黏性更好,因为朋友可能不再是活跃用户。 2022年12月,多邻国上线新的排行榜功能。排行榜除了名词,还有级别划分,一共有10个级别,青铜、银灰、黄金、蓝宝石……排行榜每周日更新排名情况,根据经验,根据更新时自己的排名决定能不能晋级。 排行榜的上线,给用户提供了更强的进步感和奖励感,只有坚持每天学习,长时间学习,才有可能取得晋级。排行榜功能对多邻国的增长指标产生了巨大且即时的影响,据Jorge Mazal统计,排行榜上线后,多邻国用户总体学习时间增加了17%,高度投入的学习者(每周5天每天至少花费1小时的用户)的数量增加了两倍。 6 奖励重大里程碑 @duolingo 设有让人愉悦的时刻,将其用户的奖励提升到一个新的高度。 从连胜到免费宝石,Duolingo 建立了一个出色的游戏化引擎,并在用户达到关键里程碑时奖励他们。 所有这些小时刻都汇集在一起! 7 无脑订阅(Super Duolingo) 随着用户对 Duolingo 的投入,他们很快就会意识到存在限制,但同时也会担心失去他们的“连胜”。 @duolingo 在打包这方面非常聪明。他们不仅仅是赚钱;他们在最大化您最宝贵的资产 ——节省时间。...

February 23, 2024 · 1 min · fisherdaddy

黄仁勋台大演讲全文

前天英伟达发布Q4财报,季度营收达到600亿美金,估计暴涨。这里我们来回顾一下黄仁勋在2023年5月份在台大毕业典礼上的演讲。 各位女士、先生,老师,来宾,骄傲的父母们,以及 2023 年国立台湾大学的毕业生们,今天对你们来说是非常特别的一天,也是你们父母梦想成真的一天。你们应该快点从家里搬出去,这确实是一个充满骄傲和喜悦的日子! 你们的父母为了今天做出许多牺牲,我的父母、哥哥也在这里,让我们向所有的父母和祖父母们表达感谢。 十多年前,我第一次来到台湾大学,陈博士邀请我参观他的实验室。他的儿子在硅谷工作,知道 NVIDIA 的 CUDA,推荐爸爸用它来做量子物理模拟实验。我在这个实验室看到满满的 NVIDIA GeForce 游戏显卡,插在 PC 主机板上,走道上的架子开着好几台电扇在散热。 陈博士以游戏显卡用台湾人的方式自制了超级电脑,这是一个展开 NVIDIA 旅程的故事,他以自己的努力为荣,也对我说:「黄先生,因为你的产品,让我能追寻我的志业。」 这句话至今仍让我感动不已,它抓住了我们公司的使命,就是帮助我们这个时代的爱因斯坦和达芬奇们完成他们的志业。 我很高兴能回到台大在你们的毕业典礼致词。当时我从 Oregon State University 毕业的时候,世界还很简单,没有液晶电视,也没有有线电视跟 MTV,手机和电话这两个词是分开讲的。 那一年是 1984 年,IBM PC-AT 和苹果 Macintosh 开启个人电脑革命,也开创了我们所知的芯片和软件产业。现在你们所处的是一个更复杂的世界,充满了地缘政治、社会和环境的变化和挑战。 因为科技,我们能持续连线,沉浸在一个与现实世界平行的数位世界里,汽车也能自动驾驶了。 AI 会创造过去不存在的新工作,每个人都要学习掌握 AI 红利 在电脑产业创造了家用个人电脑 40 年后,我们发明了人工智能,例如自动驾驶或辨识 X 光影像的软件,AI 软件为电脑自动化打开了大门,也开启了价值数兆美元的产业——医疗保健,金融服务,运输和制造业等等,AI 创造了各种机会。 敏捷的公司利用 AI 提升他们的地位,反之,那些落后的公司将会灭亡。正在听这场演讲的创业家们也将开创新事业,如同过去每一个运算时代,新的产业会出现。 AI 创造过去不存在的新工作,像资料工程,提示工程,AI 工厂营运与 AI 安全工程师等等。 这些都是以前没有的工作,有些工作会因为自动化而被淘汰,但可以肯定的是,AI 将改变每一个工作,让工程师、设计师、艺术家、营销人员还有制造规划人员有更好的表现。 就像过去每个时代的人一样,他们拥抱新技术然后成功了,每一家公司,包括你们,都要学着掌握 AI 的红利,让 AI 成为你的副驾驶,做出惊人的事业。 有些人担心 AI 可能会抢走他们的工作,其实,是擅长使用 AI 的「人」会抢走这些人的工作。 我们处在重大科技时代的开端,像 PC,互联网,移动和云等等。但是 AI 的技术更基础,因为每个运算的层次都被重新打造,从我们如何写软件到它如何运作,AI 从根本上重新创造了运算方式。 从各个层面来看,这是计算机行业的一次重生,对台湾企业来说,这也是个千载难逢的机会。你们就是电脑产业的基石,在未来的十年,我们的产业将以全新、加速的 AI 技术取代全球超过一兆美元的传统电脑市场。...

February 23, 2024 · 2 min · fisherdaddy

可汗学院CEO Sal Khan TED 演讲

这篇文章分享了去年看可汗学院CEO Sal Khan 在TED上关于生成式AI对教育领域影响的演讲。 近几个月来,特别是在教育领域,我们看到了很多这样的标题:“学生将使用ChatGPT和其他形式的人工智能来作弊,完成他们的作业。他们不会真正学习,这将完全破坏我们所知道的教育。” 但我认为,我们正处于使用人工智能实现教育领域最大积极转变的关键时期。 我们将通过为全球每个学生提供一个人工智能但非常出色的个人导师,为全球每个教师提供一个出色的人工智能教学助手来实现这一目标。 给每个人都提供个人导师将是一个非常重要的举措,本杰明·布鲁姆1984年的The 2 Sigma Probilem: The Search For Methods of Group Instruction as Effective as One-toOne Tutoring(https://web.mit.edu/5.95/readings/bloom-two-sigma.pdf),他称之为“2 sigma问题”。2 sigma来自两个标准偏差,标准偏差的符号是sigma。如果你为学生提供个人1对1的辅导,你实际上可以得到一个类似右侧的分布,两个标准偏差的改进。 简单说,这可以将您的平均学生变成优秀的学生,将您的低于平均水平的学生变成高于平均水平的学生。 但如何以经济的方式将它扩展到所有人身上?我们已经在 Khan Academy 上大约十年的时间里尝试以某种方式逼近它,但我认为我们正处于加速实现它的关键时期。 Khanmigo:Tutorial 1对1 当学生说:“告诉我答案,” 它回答:“我是你的辅导老师。你认为解决这个问题的下一步应该是什么?” 它实际上在做的不仅仅是一个普通辅导老师会做的,而是一个优秀辅导老师会做的事情。它能够推测出学生心中可能存在的误解。 计算机编程 学生需要让云彩分开。所以,我们可以看到学生开始定义一个变量,left X减减。它只让左边的云彩分开。但然后他们可以问Khanmigo,怎么回事?为什么只有左边的云在移动? 它说:“为了让右边的云也移动,尝试在绘制函数中添加一行代码,使得每一帧里右边的X变量增加一个像素。” 我们一直在试图教用户学习编程,但没有很多计算机教育老师。而你刚刚看到的,即使是我辅导我的孩子时,也无法这么快地、这么好地帮助他们,这真的将成为一个超级辅导员。而且不仅仅是练习。它理解你所观看的内容,它理解你的上下文。 AI导师:分享学科意义 它以苏格拉底式的方式问:“那么,你关心什么?” 假设学生说:“我想成为一个职业运动员。” 它会说:“了解细胞的大小,这对于理解营养和你的身体如何运作等方面非常有用。” 它可以回答问题,它可以测试你,它可以将其与其他想法联系起来,现在你可以向一个AI提问,尽你所能想象的。 我们可以使用Khanmigo为每个学生提供指导顾问、学术教练、职业教练和生活教练。 学习文学与历史的新方式 我们与亚利桑那州立大学合作开设了一所在线高中,名为Khan World School,我们有一名印度学生在那里学习。她叫Saanvi。她在写一篇关于《了不起的盖茨比》的报告。 当她阅读《了不起的盖茨比》时,Jay Gatsby一直盯着远处的绿灯。她问自己:“他为什么这么做?”她进行了一些网络搜索,人们显然对此进行了研究,并评论了这个符号的意义,但这些都没有真正引起她的共鸣。然后她意识到她有Khanmigo,她可以与Jay Gatsby本人交谈。于是, “啊,好极了,老兄。我现在是Jay Gatsby,来自F. Scott Fitzgerald的经典小说中神秘的百万富翁。” 然后,“你为什么一直盯着那个绿灯?” “啊,绿灯,老兄。它是我的梦想和愿望的象征。它位于Daisy Buchanan的码头尽头,横跨我豪宅对面的海湾。我渴望地凝视着它,因为它代表着我对过去的渴望和与Daisy,我的生命之爱团聚的希望。” 很酷的是,Saanvi随后说:“我和他进行了长时间的对话”,她称呼他为“盖茨比先生”,最后她还为占用了他的时间而道歉。 但你可以想象,这种交互解锁了学习文学、学习历史的方式…… 你甚至可以与历史人物交谈。我们甚至可能会添加一个活动,让你可以与密西西比河交谈。它以一种在一年前我们还认为是科幻的方式使事物变得生动起来。 AI 辩手:锻炼思辨能力 这里是一个学生辩论我们是否应该取消学生债务的例子。这名学生反对取消学生债务,我们得到了非常清晰的反馈。学生们,尤其是高中生,都说:“这太神奇了,我能够调整我的论点而不必担心被评判。这让我更有信心走进教室,积极参与。”我们都知道苏格拉底式的对话辩论是学习的好方法,但实际上,对大多数学生来说并不可行。但现在每个人都能够使用。 一起创作 很多报道都说,“它会为孩子们写作。孩子们将不会学会写作。”但我们正在展示一些方式,AI不是为你写作,而是和你一起写作。 这是一件很小的case,我的八岁儿子迷上了它,他以前不太喜欢写作,但你可以说,“我想写一篇恐怖故事”,然后它会说,“哦,一篇恐怖故事,多么毛骨悚然和惊心动魄。让我们一起潜入神秘的阴影和冷酷的谜团的世界。” 这是一个学生写两句话,然后AI写两句话的活动。所以他们一起合作写故事。...

February 23, 2024 · 1 min · fisherdaddy

在国内如何订阅 ChatGPT Plus 以及拥有 OpenAI 开发者账号的Key

本文分享一下作者本人在国内订阅 ChatGPT Plus 以及拥有 OpenAI 开发者账号 key 的方法。 先决条件 自建或者够买一个 VPN 科学上网 美区 AppleID ChatGPT app 支付宝、微信 在国内如何订阅 ChatGPT Plus 手机 APP Store 登录美区 Apple ID。 打开支付宝,左上角位置选择旧金山,搜索 PockyShop 小程序性,绑定邮箱后,在首页选择 App Store & iTunes US,设定金额后购买即可。(备注:ChatGPT plus的订阅月费用为19刀,一次可以买20刀或者40刀,更多貌似会触发支付宝的风控导致订单失败) 购买成功后,把订单里的礼品卡号码复制出来去 App Store 账户的兑换充值卡或代码选项里进行兑换,兑换完成后即充值完成。 在 ChatGPT 的 GPT4 入口点击订阅即可,会默认走 APP Store 账户里的余额。 在国内如何拥有 OpenAI 开发者账号的Key 之前为了方便基于 OpenAI 的 api 开发一些小 demo,我主要通过两个方法来获得 OpenAI 的 api key: 在微软云 Azure 上开通 OpenAI 的 api 功能,基于 Azure 封装的 api 接口来做 LLM 相关的开发,我得到的信息是国内的大企业都是用这种方法来调用 OpenAI。但这种方法有一个最大的缺点:OpenAI最新的能力一般要在其官方释放后的1-2个月左右Azure 上才可以上线体验到,这对于想快速基于最新的能力进行快速 MVP 验证或者评测的用户来说只能用着急来形容。 从一些第三方卖开发者 key 的网站上买一些 key 来使用,缺点也很明显:不可靠、不可控。 偶然翻到这篇博客讲述了几个方法能很好的解决海外银行卡的问题:一个方法是Dupay 和 NobePay,另一个方法是:新加坡华侨银行 和 WISE虚拟卡/实体卡。第一个方法里的 Dupay 和 NobePay 都亲测有效,这里我来大概讲一下流程。...

February 22, 2024 · 1 min · fisherdaddy

OpenAI官方指南: Prompt engineering

这篇是去年翻译的OpenAI官方指南Prompt engineering,值得多读几次。写这篇文章时发现OpenAI给这篇指南改了名字,之前的标题是gpt best practices,现在改为了prompt engineering. GPT最佳实践 获得更好结果的六项策略 1 指示要明确 GPT无法读懂你的心思。如果输出内容过长,可要求简短回复;如果输出内容过于简单,可要求专家级写作;如果不喜欢当前的格式,可展示你期望的格式。你的指示越明确,GPT满足你的要求的可能性就越大。 在提问中提供完整信息,以获得更准确的答复。 要求模型扮演不同角色。 使用分隔符明确区分输入的不同部分。 阐明完成任务所需的步骤。 举例说明。 指定输出内容的期望长度。 2 提供参考文字 GPT可以自信地编造虚假答案,特别是在询问关于深奥话题或要求引用和URL时。就像小抄可以帮助学生在考试中做得更好一样,向GPT提供参考文本可以帮助它减少错误信息的回答。 指导模型使用参考文献来回答问题 指导模型在回答时引用参考文献 3 将复杂的任务拆分为更简单的子任务 正如软件工程中将复杂系统拆分为一系列模块化部件的常规做法,对GPT提交的任务同样适用。复杂任务相较于简单任务具有更高的错误率。此外,复杂任务往往可以重新定义为一系列的简单任务的工作流,在这个流程中,前一个任务的输出用于构建后续任务的输入。 利用意图分类来识别用户查询中最相关的指令 对于需要长对话的对话应用,摘要或过滤之前的对话内容 分块摘要长文档,递归地构建完整摘要 4 给GPT时间思考 如果把17乘以28的题目摆在你面前,你可能不会立刻答出来,但给点时间你能慢慢算出来。同样地,GPT在被要求立即回答时,也更容易出错。让它先进行一番逻辑推理,再给出答案,就能更可靠地引导它找到正确的答案。 让模型先不急于下结论,先计算出自己的答案。 利用内心独白或一系列自问自答来掩盖模型的推理过程。 询问模型在之前的回答中是否有遗漏。 5 使用外部工具 通过结合其他工具的功能来弥补GPT的不足之处。举例来说,文本检索系统能够为GPT提供相关文档信息。代码执行引擎则能辅助GPT进行数学计算和运行代码。若外部工具能比GPT更可靠或高效地完成任务,就将任务外包出去,以实现优势互补。 使用嵌入式搜索技术,打造高效的知识检索系统 通过代码执行功能进行精确计算或接入外部API 让模型访问具体的函数 6 系统化地测试更改 衡量改进成效的诀窍在于可量化的数据。有时候,简单的提示修改可能会在零星案例中取得不错的效果,但在更广泛的案例中却适得其反。因此,要确认某项更改确实提升了性能,就需要设立一套全面的测试方案(也称为评估测试)。 以最佳答案为标准,评估模型的输出结果 策略详解 上述策略都可以通过具体的手段来实施。这些手段旨在激发尝试的灵感,但并不是面面俱到。你大可发挥创意,尝试这里未涉及的新点子。 1 指示要明确 1.1 在提问中提供完整信息,以获得更准确的答复。 想要得到精确无误的回答,就得在提问中提供所有必要的信息和情境。不然,你的意图就只能让模型去猜了。 1.2 要求模型扮演不同角色。 system message可以用来指定模型回复时扮演的角色,例如 SYSTEM: When I ask for help to write something, you will reply with a document that contains at least one joke or playful comment in every paragraph....

February 20, 2024 · 17 min · fisherdaddy

Attention Is All You Need

前段时间看了一些transformer相关的文章,但讲解的都不太清楚,想着还是读一读论文理解起来更加深刻,所以翻译了这篇Attention Is All You Need。 论文中的作者贡献是相同的,而名单的排列顺序是随机的。Jakob 提出了用自注意力机制替换循环神经网络 (RNN) 的想法,并开启了验证这一构想的工作。Ashish 与 Illia 共同设计并实现了首个 Transformer 模型,对这项工作的各个方面都有着至关重要的贡献。Noam 提出了缩放的点积注意力、多头注意力和无需参数的位置表示法,几乎参与了项目的每个细节。Niki 在我们的原始代码库和 tensor2tensor 中设计、实现、调整并评估了无数的模型变种。Llion 也探索了新型模型变种,负责我们最初的代码库、高效的推理和可视化工作。Lukasz 和 Aidan 贡献了无数的时间来设计和实现 tensor2tensor 的各个部分,这不仅取代了我们之前的代码库,还大幅提高了研究结果并极大地加速了我们的研究进展。这些工作是在 Google Brain 和 Google Research 期间完成的。 摘要 目前主流的序列转换模型依赖于包含编码器和解码器的复杂循环或卷积神经网络体系。这些模型的高性能部分得益于编解码器之间的注意力机制连接。我们提出了一种全新的网络架构——Transformer,这一架构完全基于注意力机制,彻底摒弃了递归和卷积。通过在两个机器翻译任务上的实验,我们发现这些模型在质量上更为优异,且具备更高的并行处理能力,训练时间也大幅缩短。我们的模型在 WMT 2014 年的英德翻译任务上获得了 28.4 的 BLEU 分数,超过了包括集成模型在内的现有最佳结果2个 BLEU 分以上。在 WMT 2014 的英法翻译任务上,我们的模型在仅使用八个 GPU 训练了 3.5 天后,刷新了单模型最高 BLEU 记录,达到了 41.8 分,这仅是文献中最佳模型训练成本的一小部分。我们还证明了 Transformer 能够成功地广泛应用于其他任务,比如英语成分句法分析,无论训练数据是丰富还是有限。 1 简介 循环神经网络(RNN)、长短期记忆(LSTM)网络和门控循环单元(GRU)网络,特别是在语言建模和机器翻译等序列建模和转换问题上,已被公认为最先进的技术。从那时起,一直有许多尝试不断地推动循环语言模型和编解码器架构的发展边界。 循环模型的计算通常沿着输入和输出序列的符号位置进行分解。它们通过将位置与计算时间的步骤对齐来生成一系列隐藏状态,这些隐藏状态${h_t}$是基于之前的隐藏状态$h_{t-1}$和当前位置t的输入。这种计算的顺序性质限制了训练样本内部的并行处理能力,特别是在处理更长序列时,由于内存限制,这成为一个关键问题。近期的研究通过采用因式分解技巧和条件计算在提高计算效率的同时,也在某些情况下提升了模型的性能。然而,顺序计算的基本限制仍然存在。 注意力机制已经成为多个任务中高效序列建模和转换模型的核心部分,它允许模型无视输入或输出序列中依赖关系的距离进行建模。尽管如此,除了少数情况外,注意力机制通常与循环网络结合使用。 在本工作中,我们提出了一种新的架构——Transformer,这种架构放弃了递归,完全依靠注意力机制来处理输入和输出之间的全局依赖关系。Transformer架构支持更高程度的并行处理,并且在使用八个 P100 GPU 训练仅12小时后,就能在翻译质量上达到新的最高标准。 2 背景 减少顺序计算的目标也是扩展神经GPU、ByteNet 和 ConvS2S等模型的基础,这些模型都采用了卷积神经网络作为基础构件,能够对所有输入和输出位置的隐藏表示进行并行计算。在这些模型中,将两个任意输入或输出位置的信号相关联所需的操作数会随着位置之间的距离增加而增长,对于ConvS2S是线性增长,而对于ByteNet则是对数增长。这增加了学习远距离位置间依赖性的难度。而在Transformer模型中,这种操作数量被减少到了一个固定的数目,虽然这样做降低了有效分辨率,因为它通过平均注意力加权的位置,但我们通过多头注意力机制(如第3.2节所述)来弥补这一点。 自注意力Self-attention,也称为内部注意力,是一种注意力机制,通过关联单一序列内不同位置来计算序列的表示。自注意力已经在阅读理解、摘要生成、文本蕴含以及学习独立于任务的句子表示等多种任务上成功应用。 端到端记忆网络基于循环注意力机制,而非序列对齐的循环,已在简单的语言问答和语言建模任务上展现了良好的性能。...

February 19, 2024 · 5 min · fisherdaddy

作为世界模拟器的视频生成模型 • OpenAI

本文翻译了OpenAI发布的有关Sora的技术报告,原文戳Video generation models as world simulators 。 我们研究了在视频数据上进行生成式模型的大规模训练。更具体地说,我们对不同时长、分辨率和宽高比的视频及图片进行了文本条件下的扩散模型联合训练。我们采用了一种 Transformer 架构,这种架构可以处理视频和图像潜在编码的时空片段。我们开发的最大型号模型,Sora,具备生成一分钟长的高质量视频的能力。我们的研究成果显示,扩展视频生成模型的规模是向着创建能模拟物理世界的通用工具迈进的一个充满希望的方向。 这份技术报告主要关注于: (1)我们将各类视觉数据转化为统一表示的方法,该方法使得生成模型的大规模训练成为可能; (2)对Sora能力和限制的定性评估。模型和实现的细节没有包含在这份报告中。 众多先前的研究通过各种方式探索了视频数据的生成模型,涉及方法包括循环网络[1,2,3]、生成对抗网络[4,5,6,7]、自回归 Transformer[8,9] 以及扩散模型[10,11,12]。这些研究往往专注于特定种类的视觉数据、时长较短的视频,或者是固定尺寸的视频。而 Sora 是一个对视觉数据具有广泛适用性的模型——它能够创造出在持续时间、纵横比和分辨率上多样化的视频和图片,甚至能生成长达一分钟的高清视频。 把视觉数据分割成补丁 我们受到大语言模型的启发,这类模型通过在互联网大规模的数据集上进行训练,获得了通用的能力[13,14]。大语言模型成功的关键之一在于使用了能够优雅地统一不同文本形态(如代码、数学公式以及多种自然语言)的tokens。在这项工作中,我们探讨了视觉数据的生成模型如何借鉴此类优势。与大语言模型使用文本令牌不同,Sora 使用的是视觉补丁。先前的研究已经证明,对于视觉数据模型而言,补丁Patches是一种有效的表现形式[15,16,17,18]。我们发现,补丁是一种高度可扩展且有效的方式,适用于训练多样化视频和图片的生成模型。 从宏观角度来看,我们将视频转换成补丁的过程首先是将视频压缩到一个低维度的潜在空间[19],接着将这种表示分解为时空补丁。 视频压缩网络 我们开发了一个能够降低视觉数据维度的网络[20]。这个网络接受原始视频作为输入,输出一个在时间和空间维度上均进行了压缩的潜在表示。Sora 就是在这种压缩的潜在空间中接受训练,并能够在其中生成视频。此外,我们还设计了一个对应的解码模型,用于将生成的潜在数据重新映射到像素空间。 时空补丁 对于一个被压缩的输入视频,我们会提取一系列的时空补丁,它们在此过程中充当 Transformer 的令牌。这一方法同样适用于图片,因为从本质上讲,图片就是单帧的视频。我们采用的基于补丁的表示方法,使得 Sora 能够处理不同分辨率、时长和纵横比的视频和图片。在生成视频的推理阶段,我们可以通过按照适当的大小排列随机初始化的补丁,来控制最终视频的尺寸。 用于视频生成的扩展Transformer Sora 属于扩散模型[21,22,23,24,25];它能够接受带有噪声的补丁(以及如文本提示这样的条件信息)作为输入,并被训练以预测出原始的“干净”补丁。值得注意的是,Sora 实际上是一个diffusion Transformer[26]。在多个领域,包括语言模型[13,14]、计算机视觉[15,16,17,18]以及图像生成[27,28,29],Transformer 都展现出了令人瞩目的扩展能力。 在本研究中,我们还发现diffusion transformers 同样能够在视频模型方面有效扩展。接下来,我们将展示一个比较:随着训练进程的推进,使用固定种子和输入条件的视频样本展示。可以明显看到,随着训练计算量的增加,样本的质量有了显著的提升。 基础计算 4倍计算 32倍计算 持续时间、分辨率、纵横比的可变性 以往在图像和视频生成领域,常见的做法是将视频调整至标准尺寸——比如,4秒长的视频以256x256的分辨率呈现。然而,我们发现直接在视频的原始尺寸上进行训练能够带来多重好处。 采样灵活性 Sora 能够生成各种尺寸的视频,包括宽屏的1920x1080p、竖屏的1080x1920,以及这两者之间的任何尺寸。这让 Sora 能够直接针对不同设备的原生纵横比制作内容。此外,这还使我们能够在进行全分辨率输出之前,先以较低分辨率快速制作出原型内容——所有这些都可以通过同一个模型完成。 构图与构成的改进 我们的实验发现,在视频的原生纵横比上进行训练能显著改进视频的构图和画面布局。我们比较了 Sora 和另一个版本的模型,这个版本将所有训练用的视频裁剪成正方形——这是训练生成模型的一种常规做法。结果显示,那些在正方形视频上训练的模型(左侧)有时会生成主体只部分出现在画面中的视频。相比之下,Sora 生成的视频(右侧)在画面布局上有了明显的提升。 语言理解 训练文本生成视频的系统需依赖大量配有对应文字说明的视频。我们采用了 DALL·E 3[30] 中介绍的重新标注技术,将其应用于视频。首先,我们训练了一个能够生成高度描述性文字说明的模型,然后利用这个模型为我们训练集中的全部视频生成文本说明。我们的发现表明,使用这些高度描述性的视频说明进行训练,不仅能提高文本的准确度,也能显著提升视频的整体品质。 与 DALL·E 3 类似,我们也采用 GPT 技术将用户的简短提示转化为更加详尽的描述,然后这些描述会被送到视频生成模型中。这一策略使得 Sora 能够根据用户的具体提示生成高质量且内容准确的视频。 通过图像和视频进行提示 我们网站上的示例,主要展示了从文本到视频的生成样本。然而,Sora 也能接受其他形式的输入,比如已有的图片或视频。这项能力让 Sora 能够完成多种图像和视频编辑任务,如制作完美循环的视频、为静态图片添加动效、以及在时间线上前后扩展视频等。...

February 15, 2024 · 1 min · fisherdaddy

Hugo PaperMod

这篇文章分享搭建本博客网站使用的基础框架和主题,以及如何解决公式的渲染问题的经验。 Hugo PaperMod is a theme based on hugo-paper. The goal of this project is to add more features and customization to the og theme. hugo-paperMod Example This repository offers an example site for hugo-PaperMod Install Read Wiki => hugo-PaperMod - Installation Directory Tree .(site root) ├── configTaxo.yml ├── config.yml ├── content │ ├── archives.fr.md │ ├── archives.md │ ├── posts │ │ ├── emoji-support.md │ │ ├── markdown-syntax.fa.md │ │ ├── markdown-syntax....

February 5, 2024 · 2 min · fisherdaddy