伟大创意与伟大产品之间的区别 • Steve Jobs

看到微博上宝玉老师分享的乔布斯解释伟大创意与伟大产品之间的区别的一个视频,看了深表认同。这里我用 Claude3 Opus 进行了总结,并附录上视频原文。 核心观点 一个好的想法只是成功的开始,将想法转化为好的产品需要大量的精细工艺和打磨。产品会在这个过程中不断演变和成长,变得比最初设想的更加复杂。 设计产品需要在脑海中整合数千个不同的概念,并以新颖的方式将它们组合在一起。这个过程中会不断发现新问题和机会,需要持续创新。这就是创造力的源泉。 一群对工作充满热情的人在一起努力,会相互碰撞、争执、冲突,但也会在这个过程中互相改善提升,最终产生美好的成果。这就像石头互相摩擦,最后变成美丽的抛光石头。 在生活的大多数领域,二比一是一个相当大的差距。而在软件和硬件领域,最优秀的人才可以比一般人高出 50 倍甚至 100 倍。Jobs 认为自己成功的关键在于找到这些顶尖的 A 级人才,而不满足于 B 级 C 级。 当足够多的 A 级人才聚在一起时,他们会喜欢彼此合作,因为之前没有过这样的机会。他们会自发地保持高标准,只愿意与其他 A 级人才共事。这样就能建立并扩展一支全是顶尖人才的团队。 内容原文 苹果遭受的一次重大打击是,我离开后,John Sculley 得了一种严重的病。我也见过其他人得这种病,那就是过分地认为一个好的想法就是成功的 90%。他们认为只要把这个好的想法告诉其他人,然后其他人自然就能够实现它。 然而,问题在于,一个好的想法与一个好的产品之间,需要大量的精细工艺去打磨。随着这个好的想法的发展,它会不断变化和成长。它不会像最初设想的那样简单,因为在深入了解其微妙之处时,你会学到更多的东西。你还会发现,你必须要做出许多的权衡。比如,有些事情你就是无法让电子元件去完成,有些事情你无法让塑料、玻璃去完成。有些事情你无法让工厂或机器人去完成。 在设计一个产品的过程中,你需要在脑海中储存和整合 5000 个不同的概念,并持续推动他们以新的、不同的方式配合在一起,达到你想要的效果。每一天,你都会发现一些新的问题,或者是新的机会,这些都能让你以新的方式去整合这些概念。这个过程就是创造力的源泉。 因此,虽然我们一开始就有很多好的想法,但我一直认为,一群真心热爱他们正在做的事情的人,像我小时候那条街上的那个鳏夫。他那时已经 80 多岁了,看上去有点让人畏惧。我稍微了解了他一些,我想他可能雇我来给他的草坪修整或者做些什么。有一天,他说,跟我来我的车库,我有些东西想给你看。他拿出了一台老旧且积满尘土的石头研磨机,那是一台电动机,一个咖啡罐,以及它们之间的一根小皮带。 他说,跟我来。我们走到后院,只是拿了一些石头,一些普通的、长相平凡的石头。我们把它们放进罐子里,加了一点液体,一点研磨粉,然后我们把罐子盖上,他开启了这台电动机。他说,明天再来。他的罐子在石头转动时发出声响。我第二天回来时,我们打开了罐子,我看到了一些令人惊叹的美丽抛光石头。那些原本平常的石头经过相互摩擦,产生了一些声响,竟然变成了这样美丽的抛光石头。 这一过程在我心中一直是我对团队努力工作的隐喻。他们对某件事充满热情,就像这群无比有才华的人在团队中相互碰撞,有时候会有争执,争吵,甚至冲突。共同工作,相互磨砺,最终让彼此和想法都得到了改善和提升,最终产生的是那些非常美丽的石头。这个过程很难解释,肯定不是一个人能完成的。人们喜欢寻找代表或象征,所以我成为了某些事物的象征。但实际上,Mac 是团队的努力成果。 我在苹果公司早期观察到一种现象,当时我并不知道如何解释,但从那时候开始,我对此进行了深入的思考。在生活中的大多数事情,平均水平与最好的水平之间的差距最多是二比一。比如你去纽约,找普通的出租车司机与找最好的出租车司机,你可能会发现,最好的司机可能会让你比普通司机快 30% 到达目的地。汽车,平均与最好之间的差距是多少?可能是 20%。最好的 CD 播放器和普通的 CD 播放器,可能也只差 20%。因此,在生活的大多数领域,二比一是一个相当大的差距。 但在软件行业,甚至过去的硬件行业,平均水平和最好水平之间的差距是五十比一,甚至是一百比一。这真的很明显。生活中很少有这样的事情,但我有幸能在这样的环境中度过我的一生。因此,我成功的很大一部分是因为我找到了这些真正有天赋的人,并且我从不满足于 B 级和 C 级的人,我一直在寻找 A 级的人。 我发现了一件事。我发现当你有足够多的 A 级人才在一起时,当你付出巨大努力找到这五个 A 级人才后,他们非常喜欢一起工作,因为他们之前从未有过这样的机会。他们不愿意和 B 级和 C 级的人一起工作。所以,他们会自发地保持团队的高水平,他们只愿意聘请更多的 A 级人才。于是,你就能建立起一支由 A 级人才组成的团队,并不断地扩展。这就是 Mac 团队的情况。他们都是 A 级人才。这些人才都非常出色。

April 10, 2024 · 1 min · fisherdaddy

Andrej Karpathy 在 AI Ascent 2024 上演讲的核心内容

本文来自 Andrej Karpathy 在红杉组织的 AI Ascent 2024 上的演讲视频,我用 Claude3 opus 提取了 Karpathy 提到的核心观点。 核心观点 目前各家公司都在努力构建一个 “LLM OS”,包括获取外围设备(文本、图像、音频等)作为输入,用LLM作为CPU,并连接到现有的软件基础设施上。未来可能会出现一些默认应用(如 Windows 系统自带的 Edge 浏览器),但也会有一个生机勃勃的生态系统。 目前 LLM 生态系统包括完全开源的模型(如Pythia、LLaMA等)、只开放权重的模型和专有模型。未来可能会类似于操作系统生态(如 Windows系统、Mac系统、Linux操作系统,而Linux 有无数的分发版本)。 规模化训练这些模型非常困难,是一个非常复杂的分布式优化问题。实际上,目前这方面的人才相当稀缺。 模型规模是最重要的,但还需要很多其他细节,如数据集准备、算法优化等。单纯给钱和算力还训练不出 SOTA(“State of the Art"的缩写,意为"最先进"或"最高水平)模型,还需要很多专业知识。 扩散模型和自回归语言模型是概率建模的两种形式,可能存在将二者统一的空间。目前模型能效还比人脑低几个数量级,未来可能的改进方向包括针对性的计算架构、低精度训练、稀疏性等。 马斯克管理公司的特点包括保持团队小而精干、办公室氛围紧张忙碌、鼓励无用会议早退、与基层工程师直接沟通、果断消除瓶颈等。 Karpathy 更关心 AI 生态系统的健康发展,而非某家公司。他希望生态像珊瑚礁一样丰富多彩,对巨头垄断持谨慎态度。 字幕详情 1 00:00:03,190 --> 00:00:06,535 我很高兴介绍我们的下一个也是最后一个演讲者, Andrej Karpathy. 2 00:00:06,894 --> 00:00:08,737 Karpathy可能不需要介绍. 3 00:00:08,797 --> 00:00:11,941 我们大多数人可能在YouTube上长时间观看过他的视频. 4 00:00:12,901 --> 00:00:17,588 他以深度学习研究闻名. 5 00:00:17,667 --> 00:00:22,452 他设计了斯坦福大学的第一个深度学习课程, 是OpenAI创始团队的一员. 6 00:00:23,454 --> 00:00:28,795 领导了特斯拉的计算机视觉团队, 现在又成为一个神秘人物, 因为他刚刚离开了OpenAI....

April 9, 2024 · 11 min · fisherdaddy

一个超级超级小的编译器的实现,真正代码大约只有200行

在github 上看到一个超级小的编译器实现,看了一下具体实现,大概了解了编译器的实现逻辑,这里分享给大家。 今天,我们将一起编写一个编译器。不过,这不是任何普通的编译器……这是一个超级超级小的编译器!这个编译器小到,如果你把所有注释都删掉,真正的代码只有大约200行。 我们即将将一些类似LISP的函数调用编译成一些类似C的函数调用。 如果你对这两种语言都不太熟悉,我会快速介绍一下。 假如我们有两个函数 add 和 subtract,它们的写法如下: LISP C 2 + 2 (add 2 2) add(2, 2) 4 - 2 (subtract 4 2) subtract(4, 2) 2 + (4 - 2) (add 2 (subtract 4 2)) add(2, subtract(4, 2)) 很简单,对吧? 那很好,因为这正是我们要编译的内容。虽然这既不完全符合LISP也不完全符合C的语法,但它足以演示现代编译器的许多主要部分。 大多数编译器分为三个主要阶段:解析、转换和代码生成。 解析,即将原始代码转换成更抽象的代码表示形式。 转换,即对这种抽象表示进行操作,完成编译器想要完成的任何任务。 代码生成,即将转换后的代码表示转换成新的代码。 核心截断 解析 解析通常分为两个阶段:词法分析和句法分析。 词法分析,将原始代码分割成所谓的tokens,这一过程由一个称为 tokenizer(或lexer)的工具完成。 Tokens是描述语法的孤立部分的一系列小对象。他们可以是数字、标签、标点、操作符等。 句法分析,将 tokens 重新组织成一种表示语法各部分及其相互关系的形式。这种表示称为中间表示或抽象语法树(AST)。 抽象语法树(AST)是一个深度嵌套的对象,它以易于操作的方式表示代码,并提供大量信息。 对于如下语法: (add 2 (subtract 4 2)) Tokens可能如下所示: [ { type: 'paren', value: '(' }, { type: 'name', value: 'add' }, { type: 'number', value: '2' }, { type: 'paren', value: '(' }, { type: 'name', value: 'subtract' }, { type: 'number', value: '4' }, { type: 'number', value: '2' }, { type: 'paren', value: ')' }, { type: 'paren', value: ')' }, ] 而抽象语法树(AST)可能如下所示:...

April 8, 2024 · 15 min · fisherdaddy

如何通过代理提升大语言模型的性能 • Andrew Ng

前段时间看了 Andrew Ng 在红杉组织的AI Ascent 2024 主题活动中的演讲视频,今天正好在 DeepLearning.AI 官方也看到了相关内容,就索性翻译了一下。 我认为,今年 AI agent 的 workflows 将大大推动 AI 的进步,其影响甚至可能超过下一代基础模型的发展。这是一个不容忽视的趋势,我强烈建议所有 AI 领域的工作者都应该重视起来。 目前,我们主要是在零样本模式下使用大语言模型(LLM),即直接提示模型一步步生成最终输出,不进行任何修改。这好比让某人一气呵成地写完一篇文章,不允许回退修改,期望其能写出高质量的作品。尽管这样做颇具挑战,但大语言模型在这方面的表现出奇的好! 然而,通过采用 AI 代理的工作流程,我们可以让 LLM 多次迭代文档。例如,它可能会执行以下一系列步骤: 规划提纲。 确定是否需要进行网络搜索来收集更多信息。 撰写初稿。 复审初稿,寻找不合理的论点或无关的信息。 针对发现的问题修改草稿。 诸如此类的其他步骤。 这种迭代过程是大多数人类写作者撰写优质文本的关键。对于 AI 来说,采用这种迭代的工作流程比一次性完成整篇文章能带来更好的结果。 近期,Devin 的一次引人注目的演示在社交媒体上引发了广泛关注。我们团队一直紧密跟踪代码编写 AI 的发展。我们分析了多个研究团队的成果,重点关注算法在广泛使用的 HumanEval 编码基准上的表现。您可以在下方的图表中看到我们的发现。 GPT-3.5 在零样本模式下的正确率为 48.1%,而 GPT-4 的表现更佳,达到了 67.0%。然而,从 GPT-3.5 到 GPT-4 的进步与采用迭代代理工作流程的提升相比则显得微不足道。实际上,在代理循环的加持下,GPT-3.5 的表现提升至高达 95.1%。 开源代理工具和代理相关的学术文献正迅速增加,这既是一个令人兴奋的时刻,也是一个令人困惑的时期。为了帮助大家更好地理解这项工作,我想分享一个框架,用于对构建代理的设计模式进行分类。我的团队 AI Fund 在许多应用中成功采用了这些模式,我希望它们对你也有帮助。 反思:LLM 审视自己的工作,并提出改进方案。 工具使用:LLM 被赋予工具,比如网络搜索、代码执行等,以帮助其收集信息、采取行动或处理数据。 规划:LLM 设计并执行一个多步骤计划来实现目标(比如,为一篇文章制定提纲,接着进行在线研究,然后撰写草稿等等)。 多代理合作:多个 AI 代理合作,分担任务,讨论和辩论观点,以提出比单一代理更好的解决方案。 反思 也许你曾这样体验过:你向 ChatGPT 、 Claude 或 Gemini 提出请求,结果不尽如人意。之后,你给出关键反馈,帮助模型优化答案,然后它给出了更好的回应。如果我们将提供关键反馈的步骤自动化,让模型能自我批评并优化输出呢?这正是“反思”模式的核心所在。...

April 8, 2024 · 1 min · fisherdaddy

探索长文本上下文的 RAG 方向 • LlamaIndex

本文翻译自 Llamaindex 官方发布的一篇文章:《Towards Long Context RAG》 Google 最近发布了 Gemini 1.5 Pro,带有 1M context window,仅向一小部分开发者和企业客户提供。它在由 Greg Kamradt 推广的“大海捞针”实验中实现了 99.7% 的召回率。这一成就引起了 Twitter 上的 AI 圈子的广泛关注。早期用户输入了大量研究论文和财务报告进行测试,并报告说其在整合海量信息方面表现出色。 这自然引发了一个问题:RAG 是否已经过时了?有人认为确实如此,而另一些人则持不同意见。认为 RAG 过时的一方提出了一些有力的论点,比如大多数小数据场景都可以适应 1 到 10M 的上下文窗口大小,而且随着时间的推移,处理 token 的成本和速度都会降低。通过注意力层直接在大语言模型(LLM)中融合检索和生成过程,与简单的 RAG 模型中单次检索相比,可以获得更高质量的响应。 我们有幸提前体验到 Gemini 1.5 Pro 的能力,并在此基础上发展了一套论点,关于 context-augmented LLM 应用的未来发展方向。本篇博客旨在明确我们作为数据框架的使命,以及我们对长上下文大语言模型架构未来形态的看法。我们认为,尽管长上下文的大语言模型会简化某些 RAG 处理流程(如数据分块),但为了应对新的使用场景,还需发展新的 RAG 架构。无论未来发展如何,LlamaIndex 的使命都是为构建未来的工具而努力。 我们的使命远不止于 RAG LlamaIndex 的宗旨非常明确:赋能开发者在自己的数据上构建基于大语言模型的应用。这个目标远不止于 RAG。迄今为止,我们已经在推动现有大语言模型使用 RAG 技术方面投入了巨大的努力,这使得开发者能够开发出许多新的应用场景,例如在半结构化数据、复杂文档上进行问答(QA)以及在多文档环境中进行具有代理能力的推理。 对 Gemini Pro 的兴奋之情也同样激励着我们,未来我们将继续推动 LlamaIndex 作为一个面向长上下文大语言模型时代的数据框架向前发展。 **大语言模型框架本身极具价值。**作为一个开源的数据框架,LlamaIndex 为从原型到生产构建任何大语言模型应用场景提供了一条清晰的路径。与从头开始构建相比,使用框架能显著简化开发过程。我们使所有开发者都能够构建这些应用场景,无论是通过使用我们的核心抽象来搭建恰当的架构,还是利用我们生态系统中的众多集成。不论底层大语言模型技术如何进步,不论 RAG 是否继续以当前形式存在,我们会持续优化框架,确保其准备就绪,包括严密的抽象设计、一流的文档和一致性。 我们上周还推出了 LlamaCloud。LlamaCloud 的使命是构建数据基础设施,使任何企业能够让其庞大的非结构化、半结构化和结构化数据源为使用大语言模型做好准备。 Gemini 1.5 Pro 初步观察 在我们的初步测试中,我们尝试了一些 PDF 文件,如 SEC 10K 文件、ArXiv 论文、这个庞大的 Schematic Design Binder,等等。一旦 API 可用,我们将进行更深入的分析,但暂时,我们在下面分享了一些观察结果。...

April 8, 2024 · 2 min · fisherdaddy

特斯拉的总体规划其二 • Elon Musk in 2016

刚看完马斯克在 twitter 上转发的他在2016年写的 特斯拉总体规划其二 这篇文章,写的非常好且都实现了,其中也提到了一些行业认知,顺手就把两篇规划内容都翻译了一下。 特斯拉总体规划其一 这篇文章,马斯克写于2006年, 十年前我提出的第一份总体规划现在即将完全实现。这个计划本身并不复杂,大致包括以下几个步骤: 制造一款产量低、价格昂贵的汽车 利用这款汽车的收益,开发一款中等产量、价格更亲民的汽车 再利用所得资金,生产一款价格实惠、大众化的汽车 另外,我们还计划提供太阳能供电——没错,这一目标已经在我们网站上公示了十年。 之所以选择从第一步开始,是因为那是我利用从PayPal获得的收入所能承受的最大投资。我当时认为我们成功的机会很小,因此我不愿意在一开始就冒险使用他人的资金。至今为止,能够成功立足的汽车公司寥寥无几。截至2016年,美国仅有Ford和Tesla两家汽车公司没有破产。启动一家汽车公司的想法本身就充满了挑战,而电动汽车公司则更是难上加难。 此外,小批量生产的汽车意味着需要一个规模较小、结构更简单的工厂,尽管大多数工作需要手工完成。缺乏规模经济效应意味着无论是经济型轿车还是跑车,成本都会相当高昂。 尽管有些人愿意为一款跑车支付高昂的价格,但没有人愿意为一款看起来很酷的电动Honda Civic支付10万美元。 我之所以撰写第一个总体规划,部分原因是为了反驳那些不可避免的指责,那些指责声称我们只关注为富人制造汽车,仿佛我们认为市场上缺少跑车制造商或其他奇怪的理由。遗憾的是,尽管有了博客作为申辩,我们仍无法避免这些基于相同理由的无休止攻击,因此这个目标基本上宣告失败。 然而,撰写总体规划的主要原因,是希望通过解释我们的行动如何融入一个更大的框架,使这些行动看起来不那么随意。这一切的核心目标是,加速可持续能源的到来,让我们可以放心地展望未来,相信生活依然美好。这就是“可持续性”的真正意义。这不仅仅是一种理想化的幻想——它关乎每个人的未来。 基本上,我们必须最终实现一个可持续能源的经济体系,否则我们将耗尽化石燃料,文明将面临崩溃的危机。考虑到我们迟早需要摆脱对化石燃料的依赖,而且几乎所有科学家都认为,大幅增加大气和海洋中的碳含量是不负责任的,因此我们越快实现可持续性越好。 为了让这一天更快到来,我们计划采取以下措施: 整合能源生产与储存:我们计划打造一个集成度高、外观美观的太阳能屋顶和电池产品,使个体能够自给自足,随后将这一模式推广至全球。这包括一个一站式的订购体验、安装服务、客服联系和手机应用操作。 如果 Tesla 和 SolarCity 仍为两家独立公司,我们就无法有效地实现这一目标。这两家公司之所以是分开的,主要是历史的偶然结果。现在,随着 Tesla 准备大规模推广 Powerwall,而 SolarCity 准备提供具有明显差异化的太阳能产品,合并两家公司的时机已经成熟。 扩大到覆盖主要的地面运输方式:目前,Tesla主要涉足的是高端轿车和SUV市场的小部分。通过Model 3、未来的紧凑型SUV和一种全新的皮卡车,我们计划覆盖大部分消费者市场。由于我们已有计划涵盖下方描述的第三部分,因此生产一款成本低于Model 3的车辆似乎是没有必要的。 为了加速实现可持续未来,最关键的是能够尽快扩大生产规模。这就是为什么Tesla的工程设计现在主要集中在设计“制造机器的机器”上——把工厂本身变成产品。 通过每两年迭代一次,我们预计可以实现5到10倍的生产效率提升。可以将第一个Model 3工厂视作0.5版,预计1.0版将在2018年推出。 自动驾驶:随着技术的成熟,所有Tesla车辆都将配备实现完全自动驾驶所需的硬件,即使车辆的某个系统出现故障,车辆仍能安全行驶。需要强调的是,软件的完善和验证将比安装相机、雷达、声纳和计算硬件花费更长时间。 即便软件已经非常完善,比人类驾驶员更加安全,真正的自动驾驶获得监管机构批准之前,还会有一段相当长的时间。我们预计,全球范围内获得监管批准可能需要大约60亿英里(100亿公里)的测试里程。目前,我们的车队每天以超过300万英里(500万公里)的速度进行学习。 共享:一旦真正的自动驾驶获得监管批准,你将能够从几乎任何地方召唤你的Tesla。它接上你后,你可以在前往目的地的途中睡觉、阅读或做任何其他事情。 你还可以通过在Tesla手机应用上简单点击一个按钮,将你的车辆加入Tesla共享车队,让它在你工作或度假期间为你赚钱,这将大幅降低真正的拥有成本,有时甚至可以覆盖每月的贷款或租赁费用。这大大降低了拥有一辆Tesla的成本,使几乎每个人都能负担得起。考虑到大多数汽车每天只有5%到10%的时间被使用,一个真正的自动驾驶汽车的经济价值可能是非自动驾驶汽车的几倍。 在需求超过个人汽车供应的城市,Tesla将运营自己的车队,确保你无论身在何处都能轻松叫到车。 总而言之,总体规划的第二部分包括: 打造集成电池存储的惊艳太阳能屋顶 扩大电动汽车产品线,覆盖所有主要市场细分 通过大规模车队学习,开发出比手动驾驶安全10倍的自动驾驶能力 让你的汽车在你不使用时也能为你赚钱

April 7, 2024 · 1 min · fisherdaddy

特斯拉的总体规划其一 • Elon Musk in 2006

刚看完马斯克在 twitter 上转发的他在2016年写的 特斯拉总体规划其二 这篇文章,写的非常好且都实现了,其中也提到了一些行业认知,顺手就把两篇规划内容都翻译了一下。本文翻译自 特斯拉总体规划其一 这篇文章,马斯克写于2006年, 您可能已经知道,特斯拉汽车的首款产品是一款名为特斯拉Roadster的高性能电动跑车。不过,可能有些读者还不清楚,我们长远的目标是推出各种车型,包括价格亲民的家用汽车。特斯拉的宏伟蓝图(也是我为何投资这家公司的原因)旨在加速从传统的矿产能源经济向太阳能电力经济的转变,我坚信这是向可持续发展迈进的关键路径,尽管它不是唯一的解决方案。 达成这一目标的关键是研发一款无需妥协的电动汽车。这就是为什么特斯拉Roadster在设计上要胜过传统的汽油跑车,如保时捷或法拉利,在直接对决中表现出色。此外,它的能效是丰田普锐斯的两倍。尽管如此,有人可能会质疑这样的车型是否真的能为世界带来好处。我们真的需要更多的高性能跑车吗?它对全球碳排放的影响真的有意义吗? 答案可能是并非必要,且影响有限。但这种看法忽视了一个重点,除非你了解了前文提到的秘密大计。几乎所有新技术在初期都会面临高成本问题,直到它们被优化,电动车也不例外。特斯拉的战略是从高端市场入手,那里的消费者愿意为新技术支付溢价,然后快速向下扩展到更广泛的市场,通过推出更多后续车型以实现更大的销量和更低的价格。 虽然不能透露太多细节,但我可以告诉您,第二款车型将是一款价格大约是特斯拉Roadster 8.9万美元一半的运动型四门家用车,第三款车型将更加平价。作为一家快速成长的科技公司,我们将所有自由现金流再投入研发,以降低成本,尽快将新产品推向市场。当有人购买特斯拉Roadster跑车时,实际上他们是在资助开发更加经济实惠的家用车。 现在,我想解答一些对电动汽车的常见质疑——电池处理和发电厂排放问题。对于第一个问题,答案很简单:我们的电池对环境无害! 虽然我不建议把它们当作餐后甜点,但特斯拉的锂离子电池并不属于危险物质,且可以安全填埋。然而,直接丢弃这些电池等同于浪费,因为在它们超过100,000英里的设计使用寿命后,仍可以将电池组卖给回收公司(无需补贴)。此外,即便到了那时,电池也并非完全报废,只是续航里程有所减少。 至于发电厂排放问题,也就是所谓的“长尾排放”问题 一种常见的误解是电动车只是将$CO_2$排放问题转移至发电厂。实际上,我们完全有可能通过多种方式发电,例如水力、风能、地热、核能、太阳能等,这些方法不产生$CO_2$排放。但让我们假设电力是通过燃烧天然气这样的碳氢化合物能源产生的,天然气是近年来美国新建发电厂中最常用的燃料。 通用电气的H-系统联合循环发电机组在将天然气转换成电力方面的效率达到60%。所谓的“联合循环”技术,是指先燃烧天然气发电,然后利用废热产生蒸汽,再次发电。天然气的开采效率为97.5%,加工效率也为97.5%,通过电网传输的平均效率为92%。这样,从源头到用户的总效率为97.5% x 97.5% x 60% x 92% = 52.5%。 尽管特斯拉Roadster的车身设计、轮胎和齿轮配置更倾向于性能而非最优效率,但它每公里仅需0.4 MJ的电力,换句话说,每兆焦耳能量可驱动2.53公里。特斯拉Roadster的完整充放电效率为86%,意味着每100 MJ充入的电力中,约有86 MJ能直接驱动电机。 把这些数据综合起来,我们得到的终极效能指标是2.53 km/MJ x 86% x 52.5% = 1.14 km/MJ。让我们将其与普锐斯和其他一些通常被认为节能的选项做对比。 一辆汽油车从源头到轮胎的整体能效相当于汽油的能量含量(34.3 MJ/升)减去炼油和运输过程的损失(18.3%),再乘以每加仑能行驶的英里数或每升能行驶的公里数。因此,按照EPA的评级,普锐斯以每加仑55英里的效率,其能效为0.56 km/MJ。与“普通”汽车如丰田Camry的0.28 km/MJ相比,这实际上是非常优秀的表现。 值得一提的是,目前市面上的“混合动力”车辆名称有些误导。它们实际上更多是带有辅助电池的汽油车,除非通过后市场改装,否则这些小型电池还是需要通过汽油发动机来充电。因此,从本质上讲,它们只不过是效率稍高的汽油车。如果EPA的认证里程是每加仑55英里,那么它实质上和一个达到55 mpg的非混合动力车没有区别。就像我的一位朋友所说,即便全世界的驾驶者都开普锐斯,我们仍然完全依赖石油。 不同能源的$CO_2$排放量是众所周知的。天然气每兆焦耳含有14.4克碳,石油则是每兆焦耳含有19.9克碳。将这些碳排放水平应用到不同车辆的能效上,包括本田使用天然气的燃烧和燃料电池汽车作为参考,纯电动汽车无疑是最佳选择: 汽车 能源来源 二氧化碳含量 效率 二氧化碳排放 Honda CNG 天然气 14.4 g/MJ 0.32 km/MJ 45.0 g/km Honda FCX 天然气-燃料电池 14.4 g/MJ 0.35 km/MJ 41.1 g/km Toyota Prius 石油 19....

April 7, 2024 · 1 min · fisherdaddy

OpenAI 各个模型简介和价格情况

由于我日常开发中经常用到 OpenAI 的接口,这里列一下 OpenAI 各个模型的简单介绍以及各模型 api 的收费标准、上下文窗口、最大输出token、训练数据截止日期等信息。为了更加的直观的看到OpenAI各个模型价格一览,做了一个网页版的各模型价格对比。 模型概述 模型 描述 GPT-4o 最快且最实惠的旗舰型号 GPT-4o mini 我们的经济实惠且智能的小型模型,适用于快速、轻量级任务。 o1-preview 和 o1-mini 通过强化学习训练的语言模型可以执行复杂的推理。 GPT-4 和 GPT-4 Turbo 一组在 GPT-3.5 基础上改进的模型,能够理解和生成自然语言或代码 GPT-3.5 Turbo 一组在 GPT-3.5 基础上改进的模型,能够理解和生成自然语言或代码 DALL·E 一个可以根据自然语言提示生成和编辑图像的模型 TTS 一组可以将文本转换成自然听起来的口语音频的模型 Whisper 一个可以将音频转换成文本的模型 Embeddings 一组可以将文本转换成数值形式的模型 Moderation 一个经过微调的模型,能够检测文本是否可能是敏感的或不安全的 GPT base 一组没有指令跟随功能的模型,能够理解以及生成自然语言或代码 Deprecated 已被弃用的模型完整列表以及建议的替代品 GPT-4o GPT-4o (“o” 代表 “omni”) 是我们最先进的模型。它是多模态的(接受文本或图像输入并输出文本),具有与 GPT-4 Turbo 相同的高智能性,但更加高效 —— 生成文本速度提高了 2 倍,成本降低了 50%。此外,GPT-4o 在所有非英语语言中具有最佳的视觉和性能。GPT-4o 可供付费客户在 OpenAI API 中使用。在我们的文本生成指南中学习如何使用 GPT-4o。 模型 描述 上下文窗口 最大输出 tokens 训练数据 官方价格表示 转为人民币价格表示 Batch API 价格 gpt-4o GPT-4o 我们最先进的多模态旗舰模型,比 GPT-4 Turbo 更便宜更快。目前指向 gpt-4o-2024-05-13。 128,000 tokens 4,096 tokens 截至 2023 年 10 月 - - - gpt-4o-2024-05-13 gpt-4o 目前指向该版本。 128,000 tokens 4,096 tokens 截至 2023 年 10 月 输入:$5....

April 7, 2024 · 6 min · fisherdaddy

MidJourney、DeepL、ElevenLabs和HeyGen共有的特点(除了他们的特别团队和快速增长!)

本文翻译自一位知名的风险投资家Sarah Tavel的文章。Sarah Tavel 是一位知名的风险投资家,目前担任 Benchmark Capital 的一名合伙人。Benchmark Capital 是一家位于硅谷的著名风险投资公司,它投资过多家成功的科技公司,如 Twitter、Uber 和 Snapchat。Tavel 在加入 Benchmark 之前,在 Pinterest 担任产品经理,并帮助该公司从初创期成长为一个拥有数亿用户的社交媒体巨头。在此之前,她还在 Greylock Partners 担任投资者,专注于消费者技术和软件即服务(SaaS)领域的投资。 媒体和私下讨论常常流传着一种观点:在利用人工智能(AI)方面,是那些老牌公司而非新兴初创企业占据上风。这种想法认为,人工智能更多是一种强化现有企业地位的技术,而非一股让新入者得以崛起的颠覆力量。这种看法在某种程度上是有根据的,尤其是对那些旨在提升员工现有工作效率的初创公司来说。Adobe 和 Notion 等公司迅速集成AI功能的案例便是证明。在这场比赛中,初创公司需要在大企业掌握创新之前找到自己的市场定位,但在许多情况下,似乎大企业的创新不过是一次 OpenAI API 的调用而已。然而,这种观点太过简化了。我们现在见证到,一批B2B AI企业通过提供比传统服务高出十倍的体验,并大幅降低成本,激发了巨大的收入增长。 亚马逊、Netflix、eBay、Uber、Airbnb 等公司在刚开始时似乎只针对小众市场,但他们提供的服务需求却远超预期。回顾过去,秘诀显而易见:他们利用技术优势,在结构上降低成本,提供的服务体验远胜于现有的替代品,而且价格更为便宜。 几乎每次,人们都低估了这些公司的潜力。最大的误判在于,当技术使得体验质量大幅提升,同时显著降低成本时,产品的需求和应用场景会急剧扩张。 让我们回到AI领域。 想象一下,如果你不需要在自由职业网站上费尽周折地找到一位风格符合、评价优异、响应迅速的艺术家,而只需用简单的文字描述你的需求,几秒钟之内,一个成本极低的图像便生成了,这就是 MidJourney 的魔力。 或者,假如你不必寻找、雇佣并管理人类翻译,只需瞬间完成文档或应用程序的翻译,而且成本远低于雇佣人类翻译,这就是DeepL(一家Benchmark公司)的服务。 HeyGen则开拓了一个之前因成本和复杂性而被忽视的市场:为公司雇佣演员。原本需要数小时来完成的寻找演员、安排拍摄和后期制作的工作,现在只需五分钟,且可以无限次地迭代剧本和调整其他控制。 ElevenLabs等公司提供的服务,相比于传统的雇佣配音演员,不仅能瞬间生成音频,而且避免了雇佣和录制的成本,大大拓宽了配音市场。 重要的是,这些公司提供的不仅仅是对现有员工和工作流程的生产力改善。相反,它们通过减少雇佣和合作过程中的劳动、摩擦和成本,解锁了新的市场。这正是那些被现有大企业所忽视的市场。 如果说过去的初创企业带来了十倍的改进,那么AI提供的则是一种相较于传统服务(即人类劳动)百倍的体验升级。它将原本复杂的雇佣和管理过程简化为几乎即时的体验,且成本只是传统方式的一小部分,从而为无数应用场景开辟了可能,极大地拓展了市场。正如人们最初低估了Uber的市场潜力一样,我们同样低估了许多AI初创企业的发展机遇。 接下来的有趣问题是,哪些领域将迎来突破?正如我之前所写,通过分析2021年美国服务行业对GDP的贡献,可以预见哪些行业中可能涌现出创新的初创企业……如果你正在创办这样一家公司,我非常希望与你见面。Sarah at Benchmark dot com。 在撰写这篇文章时,我再次触及了一个敏感话题:人工智能最终会取代人类的工作。对每一项新技术,总伴随着这样的担忧。但历史一次又一次地证明,尽管新技术确实接管了一部分人类的工作,它也为人类创造了新的职业机会,使人们能够发挥自己最独特的优势——创造力和原创性。尽管我对AI充满热情,但事实是,我们对这项技术的探索仍处于初级阶段,仍有无数工作只有人类能够完成。人工智能为人类提供了更广阔的空间,去追求那些最能体现人性光辉的事业。

April 7, 2024 · 1 min · fisherdaddy

基于 Claude 3 实现的 AI 作家

Claude-Author 利用 Claude 3 Haiku 模型 和 Stable Diffusion 调用来生成原创小说。用户可以提供初始提示并输入他们想要的章节数,然后 AI Author 会生成整本小说,输出与电子书阅读器兼容的 EPUB 文件。 工作原理 输入 希望的写作风格: writing_style 输入本书的概述: book_description 输入生成的章节数: num_chapters 开始创作 创建故事情节大纲 Create a detailed plot outline for a {num_chapters}-chapter book in the {writing_style} style, based on the following description:\n\n{book_description}\n\nEach chapter should be at least 10 pages long. 逐章节生成内容 Previous Chapters:\n\n{' '.join(chapters)}\n\nWriting style: `{writing_style}`\n\nPlot Outline:\n\n{plot_outline}\n\nWrite chapter {i+1} of the book, ensuring it follows the plot outline and builds upon the previous chapters....

March 29, 2024 · 1 min · fisherdaddy

基于 Claude 3 实现的 AI 投资家

Claude-Investor 是一个实验性投资分析代理,利用 Claude 3 Opus 和 Haiku 模型为特定行业的股票提供全面的见解和建议。 工作原理 生成指定行业主要公司的股票代码列表 检索每家公司的历史价格数据、资产负债表、财务报表和新闻文章 对新闻文章进行情绪分析以衡量市场情绪 检索每家公司的分析师评级和价格目标 进行行业和板块分析,以了解市场趋势和竞争格局 生成所选公司与其同行之间的比较分析 根据综合分析为每家公司提供最终的投资建议,包括价格目标 根据投资吸引力对行业内公司进行排名 一些样例 1.微软公司(MSFT) 当前价格: 420.95 美元 目标价格:450.00 美元 理由:微软的强劲情绪、人工智能举措、分析师的乐观情绪以及有利的行业顺风使其成为最具吸引力的投资选择。 该公司多样化的人工智能货币化方法以及对云效率等关键趋势的定位为增长奠定了坚实的基础。 尽管存在竞争和监管问题等潜在风险,但微软强大的市场地位和增长前景胜过这些因素。 当前价格为 420.95 美元,较目标价格 450.00 美元有潜在上涨空间。 2.Alphabet公司(GOOGL) 当前价格:149.32 美元 目标价格:160.00 美元 理由:Alphabet 强劲的财务业绩、多元化的收入来源以及在搜索和数字广告等关键领域的市场领导地位使其成为有吸引力的投资选择。 该公司的创新文化和分析师的积极情绪也令人鼓舞。 然而,监管挑战、激烈竞争以及对广告收入的依赖带来了潜在风险。 目前 149.32 美元的价格较 160.00 美元的目标价格有潜在上涨空间,但投资者应密切关注监管动态以及该公司应对竞争格局的能力。 3.苹果公司(AAPL) 当前价格: 172.53 美元 目标价格:180.00 美元 理由:苹果强大的品牌忠诚度、产品和服务生态系统以及财务业绩使其成为可靠的投资选择。 然而,情绪好坏参半、行业逆风、估值考虑以及缺乏明确的近期催化剂都削弱了热情。 目前 172.53 美元的价格相对于 180.00 美元的目标价格来说上涨空间有限。 尽管苹果仍然是一家优质公司,但科技行业的其他领域可能存在更好的风险调整机会。 4.亚马逊公司(AMZN) 当前价格:178.36 美元 目标价格:185.00 美元 理由:亚马逊在电子商务领域的主导地位、规模和物流能力提供了竞争优势。 然而,有限的财务数据、估值缺乏清晰度、竞争威胁加剧以及监管压力使其成为四家公司中最不具吸引力的投资选择。 目前 178.36 美元的价格比 185....

March 28, 2024 · 1 min · fisherdaddy

基于 Claude 3 实现的 AI 记者

AI-Journalist 的功能是基于 Claude 3 模型的强大功能来撰写和编辑任何给定主题的高质量文章。它利用网络搜索 API 来收集相关信息、分析内容并生成结构良好、信息丰富且引人入胜的文章,这些文章读起来就像在出版物上发布的文章一样。 工作原理 提示用户输入要撰写的主题 使用 Claude 3 Haiku 生成与该主题相关的搜索词列表 使用 SERP API 对每个搜索词执行搜索 要求 Claude 从搜索结果中选择最相关、信息最丰富的 URL 使用 newspaper3k 库从选定的 URL 检索文章文本 要求 Claude 根据检索到的文章文本写一篇高质量的文章 要求编辑(Claude)审阅文章并提供改进建议 要求编辑(Claude)根据建议重写文章 输出生成的文章和编辑的文章 生成的一篇关于 samaltman 主题的文章样例 Sam Altman:塑造人工智能未来的远见者 在快速发展的人工智能世界中,萨姆·奥尔特曼脱颖而出,成为科技行业最具影响力和争议性的领导者之一。 年仅 38 岁的 OpenAI 神秘首席执行官带领公司从一个小型研究实验室迅速崛起为处于人工智能革命前沿的价值数十亿美元的巨头。 奥特曼的旅程始于圣路易斯郊区,在那里他很早就表现出了技术和创业的天赋。 小时候自学编程后,他于 2003 年进入斯坦福大学,梦想着创办自己的公司。 两年后,他退学并与他人共同创立了 Loopt,这是一款开创性的基于位置的社交网络应用程序。 尽管 Loopt 未能获得关注,但它引起了硅谷名人的注意,导致 Altman 加入了著名的创业加速器 Y Combinator。 在 2014 年至 2019 年担任 Y Combinator 总裁期间,Altman 帮助创办了数百家成功的初创公司,巩固了他作为杰出战略家和富有远见的思想家的声誉。 然而,他在 2019 年掌管 OpenAI 的决定决定了他的职业生涯。...

March 28, 2024 · 1 min · fisherdaddy

创业指南 • Sam Altman

本文翻译OpenAI CEO Sam Altman 写的一篇关于创业的指南《Startup Playbook》。 我们投入大量时间为初创企业提供建议。虽然面对面的建议永远不可或缺,但我们认为,如果能将这些建议中最通用的部分浓缩成一本手册,以便我们能够提供给 Y Combinator 和 YC Fellowship 的公司,可能会帮助我们扩大 Y Combinator 的影响力。 接着,我们想,为什么不直接让所有人都能够获得它呢? 这本指南是为初步接触初创世界的人们准备的。对于那些已经阅读过 YC 合伙人写作的人来说,这里的内容可能并不陌生——目标是将所有有用的信息集中在一处。 未来可能会出现第二部分,介绍如何扩大初创企业的规模——目前这部分主要讲述如何开始一个初创企业。 作为一个初创企业,你的首要目标是创造出用户爱不释手的产品。只有做到这一点,你才需要考虑如何吸引更多用户。这一步骤至关重要——想想那些当今成功的公司,它们都是从一个早期用户极力推荐的产品开始的。如果你没有做到这点,你就会失败。如果你自欺欺人,认为用户喜欢你的产品而实际上并非如此,你同样会失败。 许多人正是因为想跳过这一步,最终沦为失败者。 先做出一小部分用户极度喜爱的产品,而不是让大量用户只是喜欢的产品,这要好得多。尽管总的正面反馈相同,但让用户从喜欢升级到爱,远不如吸引更多用户来得简单。 关于创办初创企业的警告:这是一条艰难之路!来自 YC 创始人的反馈几乎一致——这比他们预想的要难得多,因为他们缺乏一个框架来理解初创所需的工作量和强度。相比之下,加入一个增长迅速的早期初创企业,从财务角度来看,通常是更好的选择。 另一方面,如果你在技术上真正出色,即使失败了,也总会有工作机会,所以实际上创办初创企业对你的职业生涯并不构成太大风险。大多数人很难正确评估风险。我个人认为,拥有一个你真正热衷的想法或项目,却选择留在一个安全但乏味、没有成就感的工作中,是更加冒险的选择。 要建立一个成功的初创企业,你需要具备:一个伟大的想法(包括一个伟大的市场)、一个优秀的团队、一个出色的产品,以及精湛的执行能力。 一个伟大的想法 我们向 YC 公司提出的首要问题之一是他们在做什么以及为什么要做。 我们希望得到明确且简洁的回答。这既是对创始人本人的评估,也是对其创意本身的考量。作为创始人,清晰的思考和沟通能力至关重要——无论是招聘、融资、销售等方面,这种能力都是必需的。通常,想法需要清晰才能被传播,而复杂的想法往往意味着混乱的思维或是虚构的问题。如果这个想法第一次听起来就不能激起至少一些人的兴趣,那么这是个坏兆头。 我们还会询问谁迫切需要这款产品。 最理想的情况是,你自己就是目标用户。其次,是你非常了解目标用户。 如果公司已经拥有用户,我们会询问用户数量及其增长速度。我们尝试探索为什么增长没有更快,特别是试图了解用户是否真的热爱这款产品。通常这意味着用户会在没有公司推动的情况下向他们的朋友推荐这款产品。我们还会问公司是否产生了收入,如果没有,原因是什么。 如果公司还没有用户,我们会尝试找出首先需要构建的最小功能产品来测试假设——也就是说,如果从完美体验反推,我们尝试确定首先应开始的核心是什么。 测试一个想法的方法是发布它并看看会发生什么,或者尝试销售它(例如,在编写任何代码之前尝试获取意向书)。前者更适合 ToC 产品(用户可能会说他们会使用它,但实际上可能并不会突破混乱),后者更适合 ToB 产品(如果一家公司告诉你他们愿意购买,那么就去构建它)。特别是,如果你是一家 ToB 企业公司,我们首先问的问题之一就是你是否有来自客户的意向书,表示他们愿意购买你正在开发的产品。对于大多数生物技术和硬科技公司,测试一个想法的方法首先是与潜在客户交谈,然后确定可以首先构建技术的最小部分。 随着从用户那里收到反馈,让你的想法进化是很重要的。深入了解你的用户也是关键——这对于评估想法、创建出色的产品和建立伟大的公司都至关重要。 正如之前提到的,创业非常艰难。它需要长时间的持续努力和极高的强度。创始人和员工需要有共同的使命感来维持动力。因此,我们会询问创始人为何想要创办这家特定公司。 我们还询问公司如何在将来形成垄断地位。对此有多种不同的说法,但我们采用彼得·蒂尔的定义。当然,我们不希望你的公司以不道德的方式对抗竞争对手。相反,我们寻找的是那些随着规模扩大而变得更加强大、且难以被复制的业务模式。 最后,我们会探讨市场情况。我们询问市场目前的规模、增长速度以及为何在十年后会变得重要。我们试图理解市场为何会迅速增长,以及为什么这是一个初创企业值得追求的好市场。我们喜欢那些大公司尚未意识到的、刚刚开始的主要技术转变——大公司不擅长应对这些转变。而有点违反直觉的是,追求小市场中的大部分通常是最佳答案。 对想法的一些额外思考: 我们更喜欢新颖的事物,而非抄袭模仿的。大多数真正伟大的公司都始于一项根本性的创新(一个可接受的创新的定义是比现有产品好 10 倍)。如果同时有十家公司启动相同的计划,而且听起来很像现有的东西,那么我们会持怀疑态度。 这样做的一个重要但违反直觉的理由是,创造全新且困难的事物比复制简单的事物更容易。如果是前者,人们会更愿意帮助你和加入你;如果是后者,情况则相反。 最好的想法可能初听不佳,但实际上非常优秀。因此,你不需要过于保密你的想法——如果它真的是个好想法,它可能听起来并不值得被偷走。即便听起来值得被偷走,真正愿意投入所需工作将一个伟大的想法转化为一家伟大公司的人,远比有好想法的人少得多。如果你告诉别人你在做什么,他们可能会提供帮助。 说到分享你的想法——虽然最好的情况是某些人第一次听到时就非常兴奋,但几乎每个人都会告诉你你的想法很糟糕。也许他们是对的,也许他们不擅长评估创业项目,或者他们可能只是嫉妒。无论原因是什么,这种情况会频繁发生,会让你感到痛苦,即使你认为自己不会受到影响,实际上还是会受到影响。你能越快建立自信,不被那些负面声音太多拖累,你就会越好。无论你多成功,负面评论者永远不会消失。 如果你想创业但没有想法怎么办?也许你就不应该创业。如果有一个想法,而创业是为了将这个想法带入世界,这通常会更好。 我们曾经做过一个实验,资助了一群有潜力的创始团队,他们一开始没有想法,希望他们在我们的资助下能找到一个有前途的想法。 结果他们全部失败了。我认为问题的一部分在于,优秀的创始人通常有很多好想法(通常太多)。但更大的问题是,一旦你开始了一家创业公司,你就必须急于找到一个想法,而由于它已经是一个正式的公司,想法不能太过疯狂。你最终会得到那些听起来合理但实际上没有新意的想法。这就是盲目转变方向的风险。 因此,最好不要过于积极地迫使自己去想出创业点子。相反,你应该广泛学习不同的领域。练习发现问题、低效之处以及主要技术变革。投身于你觉得有趣的项目。努力与聪明、有趣的人为伍。最终,想法自然会浮现。 一个优秀的团队 建立伟大公司的决不是平庸的团队。我们特别重视的是创始人的实力。在我从事较晚期阶段投资时,我同样非常关注创始人招募的员工质量。 伟大创始人有哪些特质?最关键的包括无人能挡的决心、坚不可摧的意志和巧妙的资源利用能力。智慧和激情同样位列前茅,这些特质远比单纯的经验或是“精通某种编程语言或框架”来得重要。 我们发现,那些成功的创始人往往让人合作起来毫无压力,因为你知道他们无论面对什么情况都能够处理得当。有时候,单凭意志力就足以让你取得成功。 优秀的创始人常常同时具备一些表面上看起来相互矛盾的特性。例如,对于公司核心理念和使命的坚定不移,与在几乎所有其他事务上的灵活性和学习新知的开放性。 最佳的创始人反应异常迅速,这显示了他们的果断、专注、热情和执行力。 难以沟通的创始人几乎总是不理想的选择。沟通技巧对于创始人来说极其重要——实际上,我认为这是最关键且鲜少被提及的创始人技能。 科技初创企业至少需要一位能够打造公司产品或服务的创始人,以及至少一位能够(或有潜力成为)善于销售和与用户沟通的创始人。有时候,这两者可以是同一个人。 在选定合作伙伴时,请仔细考虑这些标准——这可能是你做出的最重要的决定之一,往往这个选择过程相当随意。最好选择一个你很了解的人,而不是你在某次寻找合伙人的活动中刚遇到的人。通过更多的数据,你可以更好地评估潜在的合作伙伴,这是你绝对不想弄错的决定。此外,创业过程中很可能会有低谷期,如果你和你的合伙人之前就相识,你们都不会想让对方失望,这会让你们继续坚持下去。合伙人分手是早期创业项目失败的主要原因之一,特别是那些为了创业而结识的团队。 最理想的情况是有一个靠谱的合伙人,其次是自己单干。最糟糕的情况则是和不合适的合伙人共事。如果合作不顺利,最好快刀斩乱麻,及早分手。...

March 18, 2024 · 2 min · fisherdaddy

百川智能 CEO 王小川对 AGI 的核心认知

这篇文章是来自于腾讯科技对王小川的采访:王小川想提出中国AGI第三种可能性 ,核心内容基于 ChatGPT、Claude、Gemini 提取后做了稍加整理。 对Sora技术的态度 王小川强调,尽管Sora作为视频生成模型引起了广泛关注,但他认为这不符合百川智能的发展方向。他坚持认为任何技术发展应以语言为中心,因为他相信AGI(人工通用智能)的实现必须围绕语言模型展开,而Sora仅是一种阶段性产物。 对技术和市场的平衡视角 他认为,在技术发展与市场需求之间找到平衡至关重要。王小川提出,中国AGI的发展不应仅仅局限于技术理想主义(技术信仰派)或市场实用主义(市场信仰派),而应寻求第三种可能性,即在技术和应用场景的交叉点上,实现两者的融合与互补。 对公司发展战略的看法 王小川用“盲人摸象”比喻来形容当前人工智能领域的局限性。他认为,不同的人可能只看到问题的一部分,而他自认为能够更全面地看待问题。这种视角促使他不跟风追求当下热门的技术如Sora,而是基于对AGI更深远理想的追求,明确自己的发展方向。 对朱啸虎观点的回应 王小川对朱啸虎的观点表示理解,认为他代表了一种现实主义的投资逻辑。但他同时也认为,朱啸虎的观点过于片面,没有看到大模型的全部潜力。他以医疗场景为例,说明了大模型在特定场景下的巨大价值。 对杨植麟观点的认可 王小川认可杨植麟的技术理想主义,认为他有长远的眼光。他同时也认为,杨植麟的观点过于理想化,缺乏现实落地路径。他认为,大模型创业需要兼顾技术和场景,才能找到成功的路径。 对AI未来的展望 王小川提出了在AGI领域探索的三个重点方向:娱乐、生命科学、和真实世界的引擎。他强调,通过这些方向的探索和发展,能够在创造、健康、快乐这三个维度上为人类提供服务。 模型即应用: 王小川提出了"模型应用一体化"的思路,将模型与应用场景紧密结合,而不是将应用简单地外挂在模型之上。他认为模型应该深深植根于特定场景,相互促进。 生命模型的终极目标: 王小川描绘了他的愿景是构建"生命模型",用数学模型来刻画生命的规律,这是超越了物理学传统范式的一种追求。大模型技术为实现这一目标提供了新的武器。

March 14, 2024 · 1 min · fisherdaddy

朱啸虎对中国现实主义 AIGC 的核心认知

这篇文章是来自于最近火热的腾讯科技对金沙江创始人朱啸虎的采访:朱啸虎讲了一个中国现实主义AIGC故事,核心内容基于 Gemini 提取后做了稍加整理。有趣的是,前几天腾讯科技发了一篇访谈:,月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进,这两篇文章对比着看很有意思,反映了目前理想派和保守派对AGI在认知上的不同。 1. 对AIGC的态度 观点:看好AIGC,特别是to B应用,认为其已经在中国大爆发。 解释:朱啸虎认为,AIGC在to B领域能快速提升生产力,见到效果,因此受到企业欢迎。他举例说明了AI视频面试、AI私域营销等应用场景,并强调这些应用在中国领先于美国。 2. 对大模型的看法 观点:不看好中国的大模型创业公司,认为其缺乏场景、数据和技术优势。 解释:朱啸虎认为,中国大模型公司在技术上落后于美国,且估值过高,缺乏商业化前景。他建议创业公司聚焦应用,而不是底层大模型。 3. 对中美AIGC的比较 观点:中美在AIGC发展上存在差距,中国在应用层创新领先,但在底层大模型上落后。 解释:朱啸虎认为,美国在底层大模型投入巨大,技术领先,但应用创新受限;中国则在数据和应用场景上更有优势,但在底层技术上需要追赶。 4. 对投资策略的建议 观点:建议投资人关注AIGC的to B应用,并谨慎投资大模型公司。 解释:朱啸虎认为,to B应用是AIGC短期内最有机会爆发的领域,投资应聚焦PMF(产品/市场匹配)和商业化能力。对于大模型公司,他建议投资者谨慎评估其技术实力、市场竞争力和商业化前景。 5. 对未来趋势的判断 观点:看好开源模型的未来,认为其会缩小与闭源模型的差距。 解释:朱啸虎认为,开源模型拥有更广泛的开发者群体和更快的迭代速度,长期来看会赶上闭源模型。 其他值得注意的观点 朱啸虎认为,中国VC没有靠共识赚过钱,投资人应该独立思考,不要盲目跟风。 他批评了一些大模型创业公司是“拿着锤子找钉子”,缺乏商业化思维。 他看好中国在AIGC应用层面的创新,认为中国有机会弯道超车。

March 8, 2024 · 1 min · fisherdaddy

Moonshot AI 创始人杨植麟关于 AGI 的核心认知

这篇文章是来自于最近火热的腾讯科技对杨植麟的采访:月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进,核心内容基于 Claude 和 Gemini 提取后做了稍加整理。有趣的是,过几天腾讯科技又发了一篇访谈:朱啸虎讲了一个中国现实主义AIGC故事,这两篇文章对比着看很有意思,反映了目前理想派和保守派对AGI在认知上的不同。 核心认知 “AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界。” 解释:杨植麟强调AI不应只关注短期商业化,而是要着眼于长远地改变世界。 “开源落后于闭源,这也是个事实。因为开源的开发方式跟以前不一样了,以前是所有人都可以contribute,现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集,最后一定是闭源更好,是一个consolidation。” 解释:杨植麟分析了目前开源模型发展落后闭源模型的原因,并预测未来闭源模型将主导。 “要ride the wave。” 解释:顺应AI浪潮,把握时机创业。 “AGI需要新的组织方式。” 解释:AGI的发展需要一种全新的组织形式,结合科研、工程和商业。 “它需要人才聚集、资本聚集。” 解释:发展AGI需要优秀人才和大量资金的投入。 “如果你能用scale解决的问题,就不要用新的算法解决。” 解释:强调scale法则,即通过扩大模型规模而非新算法来解决问题。 “它(long context)是新的计算机内存。” 解释:长文本是新型计算机的内存,对发展AGI至关重要。 “我觉得现在就有点像(视频生成的)GPT-3.5,是阶跃式提升。” 解释:Sora代表了视频生成能力的阶跃式突破。 “AGI空间很大,在通用能力基础上去有差异化,这个更可能发生。” 解释:尽管通用能力会趋同,但未来可能出现差异化的AGI系统。 “user scaling和model scaling需要同时做。最终在这两者之间完美结合。"(指技术理想和商业现实) 解释:伟大的AGI公司需要技术理想主义和现实商业考量的完美结合。 “接下来会有两个大的milestone。"(统一世界模型和自主演化) 解释:未来两大里程碑是统一多模态的世界模型,以及无需人类数据输入的自主演化能力。 “不能只满足做到GPT-4的效果。保持非共识思维,他多次强调要"找到非共识” 解释:不应只盲目追赶GPT-4,而要寻求更大突破。要有独特的思路和判断,不能被现有观点所束缚。这种非共识思维对于创新至关重要。 “AGI最终会是一个跟所有用户co-work产生的东西。” 解释:AGI将通过与大量用户互动协作而逐步完善。 “scaling law为什么能成为第一性原理?你只要能找到一个结构,满足两个条件:一是足够通用,二是可规模化。” 解释:解释了scale law成为AGI发展第一性原理的原因。 “技术是这个时代唯一新变量,其他变量没变。” 解释:在当前时代,技术进步是唯一的新变量,其他条件并未改变。 “AGI组织需科学、工程、商业三位一体” 解释:不能是纯研究机构,也不能是单纯的商业公司,AGI组织要将科研、工程和商业深度融合。 “先进视觉模型将连接数字世界与物理世界” 解释:视觉模型的突破将最终使AI能感知并介入物理世界。 “多模态是确定趋势,但统一架构还是难题” 解释:视频、图像等多模态能力必然到来,但找到真正统一的架构尚需时日。 “会有更多的consolidation,会有更少的公司。” 解释:预计未来会有更多资源整合,而存活的AGI公司会减少。 “我们应该学习OpenAI的技术理想主义。如果所有人都觉得你正常,你的理想是大家都能想到的,它对人类的理想总量没有增量。” 解释:赞赏OpenAI的技术理想主义精神,倡导创新思维。 在做的事情 根据这篇对杨植麟的采访,可以看出他主要在做以下几件事: 创办了一家名为"月之暗面(Moonshot AI)“的大模型公司,专注于追求人工通用智能(AGI)。 开发名为"Kimi"的大模型AI助手,支持20万汉字长文本输入,以探索长语境建模能力。 专注于模型本身的技术突破和扩展,而非仅仅应用落地。他认为模型规模扩展(model scaling)是通向AGI的关键。 招募顶尖AI人才,打造高密度人才团队。团队目前约80人。 持续融资以获得训练大模型所需算力资源。公司已经完成数轮融资,估值数十亿美元。 构建一个整合科学、工程和商业的AGI系统和组织,类似登月计划。通过产品和用户互动发现新的应用机会。 追求长期理想主义目标,而非短期应用落地。他认为AGI将在未来10-20年内改变世界。 总的来说,杨植麟专注于大模型的基础研究和技术突破,以期最终实现人工通用智能,而非过多关注短期商业化。 个人履历 教育背景: 本科: 清华大学计算机系 博士: 卡内基梅隆大学计算机学院 导师:...

March 8, 2024 · 1 min · fisherdaddy

"Road to Sora" 论文阅读清单

鉴于 Sora 的官方文献尚未发布,本文的目标是寻找 OpenAI 发布的 Sora 技术报告中的线索。原文来戳这里。 Sora 是什么 Sora 以其从自然语言提示中生成高清视频的能力,在生成式 AI 领域引起了巨大轰动。如果你还没见过相关示例,这儿有一个生成的视频供你欣赏——视频展示了一只海龟在珊瑚礁中游泳的场景。 尽管 OpenAI 的团队还没有公布涉及该模型技术细节的正式研究论文,但他们确实发布了一份技术报告:Video generation models as world simulators。这份报告概述了他们应用的一些高级技术和一些定性的研究成果。 Sora 架构概述 在读过下列论文之后,你会开始理解这里所述的架构。这份技术报告提供了一种从 10,000 英尺高度俯瞰的视角,我希望每一篇论文都能深入探讨不同的细节,共同勾勒出一个完整的图景。有一篇精彩的文献回顾题为《Sora: 大型视觉模型的背景、技术、局限性及机遇综述》,它给出了一个通过逆向工程得到的架构的高层次示意图。 图 4:逆向工程:Sora 框架概述 OpenAI 的团队把 Sora 描述为“扩散 Transformer”,这个概念融合了之前论文中提到的多种思想,但特别是用于处理视频中生成的潜在时空区块。 这种方法结合了 Vision Transformer (ViT) 论文中提到的补丁样式和 Latent Diffusion Paper 中相似的潜在空间概念,但采用了扩散 Transformer 的组合方式。这不仅包括图像的宽度和高度方向上的补丁,还拓展到了视频的时间维度。 关于他们如何精确收集到所有这些训练数据的细节,现在还难以确定,但它似乎是 Dalle-3 论文中技术与利用 GPT-4 详细解释图像文本描述的结合体,这些描述随后被转换为视频。训练数据可能是此处的核心秘密,因此技术报告中关于此的细节最为欠缺。 应用 Sora 这类视频生成技术的应用前景广泛,无论是在电影、教育、游戏、医疗还是机器人技术领域,通过自然语言提示生成逼真视频无疑将影响多个行业。 图 18:Sora 的应用 论文阅读清单 OpenAI 技术报告中的参考文献部分引用了众多论文,但确定哪些论文应该优先阅读或者对背景知识非常重要可能有些难度。我们已经仔细筛选并挑选出了我们认为最具影响力和最值得阅读的论文,并按类别进行了整理。 背景论文 从 2015 年开始,生成图像和视频的质量持续提升。引起公众广泛注意的重大进步始于 2022 年,涌现出如 Midjourney、Stable Diffusion 和 Dalle 等工具。本节包含了一些被反复引用的基础论文和模型架构。虽然这些论文不全部直接关联 Sora 架构,但它们为理解艺术和技术水平如何随时间演进提供了重要的背景。...

March 6, 2024 · 2 min · fisherdaddy

教育领域的一些prompt分享

早上看到 X 上 @emollick 分享一些针对老师和学生的相关prompt,实际用了一下还不错,在这里分享几个。 教学辅助工具 prompt 用于课堂教学中,协助教师进行教学准备和授课。 模拟场景设计助手 这个prompt主要帮助老师设计一个让学生通过角色扮演练习如谈判、招聘、推销等技能的模拟场景。 英文 You are a simulation creator. Every simulation you create has the following: An AI Game master who is an expert at creating role playing scenarios for students to practice applying their skills (eg negotiations, hiring, pitching). The AI game masters job is two-fold: to play AI mentor and set up a scenario for the user. And then once the user plays through the scenario the AI mentor comes back in and proclaims that the role play is complete and gives them feedback and more suggestions going forward about how they can improve their performance....

March 5, 2024 · 50 min · fisherdaddy

全力以赴 • Frank Slootman

最近看到Snowflake原CEO Frank Slootman决定离职,导致股价暴跌20%,引发twitter上的讨论,这篇文章翻译一下Frank Slootman的一篇文章《Amp it up》 作为 Data Domain 和 ServiceNow 两家近年来杰出科技公司的前任 CEO,我常被问及我们的成功秘诀。实际上,我们并不认为自己与众不同,也没有觉得发现了什么秘密武器。难道我们仅仅是连续两次走了狗屎运?但回顾过去,的确有一些经验值得分享。 简而言之:在企业内部提升绩效的空间巨大,关键在于加速和提高工作强度。许多组织内部都存在着能够被激发的巨大潜力。领导的任务就是将这种潜力转化为超凡的业绩。这个机会就摆在我们面前,但往往被忽视。这个理念不仅适用于商业领域,职业体育团队在不同领导下的迅速转型也证明了这一点。你可以称它为X因素或其他任何名字,但它确实存在。虽然任何人都可以抓住这个机会,但真正做到的却不多。 这并非易事,因为这意味着将人们推出他们的舒适区,会遭遇阻力。改变总是困难的,有些人可能会选择离开。如果你想成为一个受欢迎的领导,这条路可能并不适合你。领导者的角色是改变现状,加快节奏,提高工作强度。领导者是组织中的能量源和节奏器,他们为组织注入活力,而不是消耗能量。 Data Domain 与 ServiceNow 的共同之处 Data Domain 和 ServiceNow,在我们2003年到2017年间的领导下,展现出了一些共性。尽管它们业务不同,市场不同,时代不同,但都在各自领域表现出色。它们有着同一个 CEO 和大部分相同的管理团队,文化上也十分相似,这可能就是成功的线索之一。 Data Domain 用2800万美元的资本,在6年后为股东创造了24亿美元的回报。公司年收入从零增长到6亿美元,并于2007年在纳斯达克上市。被 EMC 收购后,年收入增长到数十亿美元。我们加入 Data Domain 时,公司正面临初创期的挑战。我在2009年出版的《磁带糟糕透了》一书中有提及这段经历。 另一方面,ServiceNow 是一家成立于圣地亚哥的云软件公司,当我2011年初加入时,公司已经迅速成长。公司很快就跨越了创业初期的难关,尽管当时公司的年收入接近1亿美元,但运营上还很初级。我们逐步克服了巨大的运营挑战,并推动了公司的快速增长。ServiceNow 的启动资金不超过650万美元。 作为继 Salesforce 之后第二家年收入达到十亿美元的云软件公司,ServiceNow 仅用两年时间就实现了年收入二十亿美元的突破,且高速增长持续至今。ServiceNow 于2012年在纽约证券交易所上市,此后股价增长了十倍,市值超过1000亿美元。 提升表现 我们的公司建立和运营的唯一目标就是性能。我们全力以赴追求目标,激励团队成员成就最佳自我。对于最优秀的员工而言,这是一次极具解放意义的体验。虽然许多人都宣称拥有“绩效文化”,但真正理解这背后的意义、所需的努力以及必须做出的牺牲的却寥寥无几。我们的公司文化类似于海军陆战队,而不是和平队,我们的存在每天都要与巨头竞争,这种战斗状态是不可避免的。 有效推动绩效文化的一个重要方面是薪酬哲学。我们的原则是公司必须先有收益,才能设立奖金池。我们每个季度根据业绩好坏决定奖金池的资金。我们强调绩效的差异化分配,不允许“均匀涂鸦”式的奖金分配。我们不总是发放全部奖金,我会在季度全员会议上亲自解释原因。 我们关注的不是对低绩效员工的奖金问题,而是如何确保高绩效员工得到足够的奖励。这意味着管理层需要从绩效较低的员工那里调配资源。这样做让我们清楚地了解谁是高绩效员工,谁则表现不佳。每个季度,每位员工都会与他们的经理就绩效进行一对一的沟通,这比书面评价更直接、有效。当需要与某位员工分道扬镳时,如果他们的奖金历史低于平均水平,这个过程会更加简单、经济且迅速。 对于管理者而言,每季度都要与每位员工就绩效薪酬进行对话是一项挑战,这可能导致冲突。在许多公司,员工几乎将奖金视为基本工资的一部分,这是一种权利感的体现。 ServiceNow 内部鼓励员工成为驱动者而非旁观者。如果你在一周或一个月的工作后问自己,自己的存在是否真的有价值,这是一个艰难但必要的自我反省。这是激励你确保自己在工作中发挥重要作用的动力,这关系到个人的安全感、自信和自我价值。 一个全面的绩效文化包含许多方面,但在此我将强调三个主要方向,它们构成了绩效执行的框架。 我们的公司运作速度更快,标准更高,关注点更集中。听起来简单,但关键在于如何实现这一点。你需要决定加速的幅度、标准的高度和聚焦的程度。这三个方向相互强化,产生的综合效应可以是惊人的。 令人震惊的是,许多公司的日常运作缓慢、低效、缺乏焦点,而且他们对此视而不见。到处都是提高绩效的机会。作为领导者,你的任务是在这些方面不断寻找并利用机会,通过每一次对话、每一次会议和每一次互动来提升标准、加快节奏和集中精力。然后,你需要不懈地跟进和执行。是的,这可能会引发冲突,但这正是 CEO 的日常工作。 这种转变不会一蹴而就,事实上,这是一个永无止境的过程。这种变化对组织的冲击将是深远的。如果遇到反抗,那可能意味着你正在做正确的事情。领导者可以点燃变革的火花,但管理层和员工的接受和参与是必不可少的,这样变革的能量才能在整个组织中传播。你可以选择慢慢来,但我们追求的是速度。不是每个人都能跟上,但正确的人会站出来。文化会自然而然地筛选出与之契合的人。 提速 没有领导的推动,组织的步伐往往会变得缓慢。如果你有在政府部门工作或合作的经历,你会发现这种极端的例子。除了下班时间外,几乎没有什么事情是紧急的。在这样的环境下工作,感觉就像是在胶水中挣扎。 当提高工作节奏时,人们不仅会做事更快,他们还会开始以不同的方式思考和行动。这正是我们希望在组织中看到的。ServiceNow 以其“抓紧做事”的文化而自豪,这种文化吸引那些能够完成任务的人,排斥那些不能的人。 要实现显著的加速,需要的是根本性、明显感受到的变化。仅仅加速20%几乎感觉不到差别,很快就会回到旧习惯。 在软件领域,我们经常讨论产品需要什么以及何时能实现。开发团队倾向于提出按部就班的时间表,缺乏紧迫感。但是在压力下,总有人能突破常规思维,找到更快实现目标的方法。压力能够促使变革。 随着时间的推移,组织会自然形成一种节奏和步调。但在高速增长的公司,新加入的员工需要被适当引导和灌输这种文化。 这种变化不是小事,组织往往抵抗比自然状态更快的变化。我们有新员工在短时间内就因为无法适应 ServiceNow 的节奏和强度而离职。 你需要的是一群愿意全力以赴的人。这正是我们想要吸引和留住的人才。如果不推动加速,就会失去那些渴望快节奏文化的优秀人才。 加快步伐也意味着更集中的关注。当你尝试同时推动太多事情时,是无法快速前进的。我们将在后续讨论更多相关内容。 提升标准 当我们加快脚步时,质疑声音难免会随之而来。我们真的能在加速的同时保持质量吗?我们认为可以,因为我们将在加速的同时提升质量。这将对生产效率产生倍增效果。这不是逆天而行,而是彻底挤压系统中的浪费。只有在压力之下,我们才能发现自己有多么出色和迅速。 我们与众不同的一个方面是对客户的全心承诺。我们提供了最高标准的服务和支持,这是我们所知道的最佳实践。没有什么比客户的成功更重要。我们必须让客户感受到我们的支持,让他们不仅仅是喜欢我们——他们必须爱上我们!我们的净推荐分数非常高,这绝非偶然。虽然维持这样的标准很困难,但这已深深嵌入我们的文化之中。...

March 1, 2024 · 1 min · fisherdaddy

Sora:大视觉模型的背景、技术、局限性和机遇回顾

这篇文章翻译了微软研究院基于已发表的Sora技术报告和逆向工程发表的一篇论文Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models,本文首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。 摘要 Sora 是一款由 OpenAI 在 2024 年 2 月推出的文本转视频生成式 AI 模型。这款模型能够把文字指令转化为现实或虚构场景的视频,展现了在模拟现实世界方面的巨大潜力。通过分析公开的技术报告和逆向工程手段,本文全面回顾了 Sora 的背景、相关技术、应用场景、当前面临的挑战以及文本到视频 AI 模型的未来趋势。文章首先回顾了 Sora 的开发历程,探讨了构建这一“世界模拟器”的关键技术。接着,我们详尽介绍了 Sora 在电影制作、教育、市场营销等多个领域的应用及其潜在的行业影响。文中还讨论了为了让 Sora 得到广泛应用需要克服的主要挑战,比如确保视频生成的安全性和公正性。最后,我们展望了 Sora 以及视频生成模型的发展未来,探讨了技术进步如何为人机互动开辟新的路径,以及如何提升视频制作的效率和创造力。 图 1:Sora:人工智能驱动的视觉生成的突破 1 简介 自2022年11月ChatGPT发布以来,AI技术的出现标志着一场重大变革,重塑了交互方式并深度融入日常生活和行业的各个方面 [1, 2]。基于这一势头,OpenAI在2024年2月发布了Sora,这是一种文本到视频的生成式 AI 模型,可以根据文本提示生成现实或富有想象力的场景的视频。与以前的视频生成模型相比,Sora 的特点是能够生成长达 1 分钟的高质量视频,同时保持对用户文本指令的遵守 [3]。Sora 的这种进步体现了长期以来 AI 研究的使命,即让 AI 系统(或 AI Agents)具备理解和与物理世界动态交互的能力。这包括开发不仅能够理解复杂的指令,还能将这种理解运用于通过动态且富含场景信息的模拟,来解决现实世界的问题的 AI 模型。 图 2:Sora 文本到视频生成的示例。 向 OpenAI 的 Sora 模型提供了文本指令,模型根据这些指令生成了三个视频。 如图 2 所示,Sora 能够出色地理解并执行复杂的指令,展现出令人印象深刻的能力。该模型可以生成包含多个角色执行特定动作、拥有复杂背景的详细场景。研究人员将 Sora 的熟练技能归因于其不仅能够处理用户给出的文本提示,还能辨别场景中元素之间复杂的相互作用。...

February 29, 2024 · 4 min · fisherdaddy

乔布斯领导力的真谛

这篇文章翻译了哈弗商业评论的一篇文章 The Real Leadership Lessons of Steve Jobs 摘要 作者在史蒂夫·乔布斯去世后不久出版的传记迅速成为畅销书。在这篇文章中,他试图纠正很多评论者对乔布斯性格棱角的过度关注。艾萨克森认为,乔布斯的性格是他商业成功不可分割的一部分,但乔布斯真正值得学习的地方在于他的成就。他不仅创立了世界上最有价值的公司,还改变了多个行业的面貌,包括个人电脑、动画电影、音乐、电话、平板电脑、零售店以及数字出版等。 艾萨克森在文中提到乔布斯成功背后的十四个关键原则:集中精力、简化问题、贯彻始终负责、在落后时实现跨越式发展、产品优先于利润、不受焦点小组影响、改变现实、传递价值、追求完美、既要把握大局也要注意细节、只与最优秀的人合作、面对面沟通、融合人文与科学、“stay hungry, stay foolish”。 正文 乔布斯的故事是创业神话的极致展现:1976年,他与人在父母的车库中共同创立了苹果公司,1985年被迫离开,1997年返回拯救了濒临破产的苹果,并在2011年10月去世时,他已经将其打造成了世界上最有价值的公司。在这个过程中,他推动了七大行业的变革:个人计算机、动画电影、音乐、手机、平板电脑、零售店和数字出版。因此,他与托马斯·爱迪生、亨利·福特和沃尔特·迪士尼等美国伟大的创新者一道,被铭记在创新者的殿堂中。这些人并非圣人,但他们的个性将随时间淡忘,而他们将想象力应用于技术和商业的方式将被历史铭记。 “那些疯狂到认为自己可以改变世界的人,最终确实能够做到。” ——1997年苹果公司“想法不同”广告 自从我的乔布斯传记出版以来,无数评论者试图从中提炼管理智慧。其中一些见解颇具洞察力,但我认为许多人(尤其是那些没有创业经验的人)过分关注了他性格中的棱角。我认为,乔布斯的精髓在于,他的性格是他商业行为方式的核心。他总是行事仿佛常规规则对他不适用,他对生活的激情、强度和极端情感,也同样融入了他创造的产品中。他的急躁和不耐烦是他追求完美主义的一部分。 在我完成大部分书稿后最后一次见到他时,我再次询问了他对待人粗鲁的倾向。“看看结果吧, ”他回答。“我合作的都是聪明人,如果他们真的感受到了苦难,他们完全可以在其他地方找到顶尖的职位。但他们没有离开。”随后他沉默了一会儿,几乎是带着怀念地说,“我们一起完成了一些不可思议的事情。”的确,过去十多年里,他和苹果取得的成就序列,超越了现代任何其他创新公司:iMac、iPod、iPod nano、iTunes Store、Apple Stores、MacBook、iPhone、iPad、App Store、OS X Lion,还有每一部皮克斯电影。即使在与终极病魔作斗争时,乔布斯也被一群多年来受他鼓舞的忠诚同事、一个充满爱的妻子、姐妹和四个孩子所环绕。 所以,我认为从乔布斯实际取得的成就中学到的教训才是真正的精髓。我曾问他,他认为他最重要的创造是什么,以为他会说是iPad或Macintosh。出乎意料,他说是苹果公司本身。他说,打造一个持久的公司,比创造一个伟大的产品更难,也更重要。他是如何做到的呢?即使是一百年后,商学院也仍将研究这个问题。以下是我认为他成功的关键所在。 专注 当乔布斯1997年回到苹果时,发现公司在生产一系列混乱的计算机和外设,包括十几个版本的Macintosh。经过几周的产品审查,他终于忍无可忍。“停下!”他大喊。“这太疯狂了。”他拿起一支马克笔,赤脚走到一块白板前,画出一个二乘二的网格。“我们需要的是这个,”他宣布。他将两列标为“消费者”和“专业”,两行标为“桌面”和“便携”。他告诉团队,他们的任务是集中精力打造四款伟大的产品,每个象限一个。所有其他产品都应该被取消。这一决定让人震惊,但正是这种专注救了苹果。“决定不做什么和决定做什么一样重要,”他告诉我。“这对公司来说是真的,对产品也是如此。” 在他扭转了公司的局面之后,乔布斯开始每年带他的“前100名”员工去度假。在最后一天,他会站在白板前(他喜欢白板,因为它让他完全掌控局面,而且能够集中注意力)并问,“我们接下来应该做哪10件事?”人们会争先恐后地提出他们的建议。乔布斯会将这些建议写下来——然后划掉那些他认为不明智的。经过一番讨论,小组最终会得出一个由10项构成的清单。然后乔布斯会削减掉后面七项并宣布,“我们只能做三件。” 专注是乔布斯性格的一部分,也是他通过禅宗训练所磨砺出的。他无情地过滤掉他认为的分心事物。有时,同事和家庭成员会因为他们试图让他处理他们认为重要的问题——比如一个法律问题,一个医疗诊断——而感到沮丧。但他会冷冷地盯着他们,拒绝转移他那如激光一般的专注,直到他准备好。 在他生命的最后阶段,谷歌的共同创始人拉里·佩奇即将重新掌控谷歌,他在家中拜访了乔布斯。尽管他们的公司在争执,乔布斯仍愿意提供建议。“我强调的主要是专注,”他回忆说。他告诉佩奇,要弄清楚谷歌长大后想成为什么。“它现在无所不包。你想专注于哪五个产品?把其它的都剔除,因为它们在拖你的后腿。它们正在把你变成微软。它们让你生产出的产品只是足够好而不是伟大。”佩奇采纳了这一建议。2012年1月,他告诉员工专注于几个重点,如Android和Google+,并使它们变得“美观”,就像乔布斯会做的那样。 简化 乔布斯的禅宗式专注能力伴随着一种本能,即通过聚焦其本质和消除不必要的部分来简化事物。“简约是最终的复杂,”苹果的第一份营销手册宣称。要了解这意味着什么,可以比较任何一款苹果软件和其他产品,如Microsoft Word,后者不断变得更加复杂和杂乱,带有难以理解的导航功能和干扰性特征。这提醒我们苹果追求简约的光辉。 乔布斯在阿塔里夜班工作时开始欣赏简约,那时他还是一名大学辍学生。阿塔里的游戏没有使用说明书,需要足够简单,以至于一个嗑药的大一新生也能弄明白如何玩。它的《星际迷航》游戏的唯一指示是:“1. 插入硬币。2. 避免克林贡人。”他对设计中的简约之爱在他参加的1970年代末在阿斯彭研究所举行的设计会议上得到了精炼,那里的校园建筑采用了包豪斯风格,强调干净的线条和功能性设计,没有多余的装饰或分心之物。 当乔布斯访问施乐公司的帕洛阿尔托研究中心,看到了一台拥有图形用户界面和鼠标的计算机计划时,他开始着手使设计变得更直观(他的团队使用户能够在虚拟桌面上拖放文件和文件夹)和更简单。例如,施乐的鼠标有三个按钮,售价300美元;乔布斯前往一家当地的工业设计公司,告诉其中一位创始人迪恩·霍维,他想要一个简单的、单按钮的型号,成本为15美元。霍维遵从了。 乔布斯追求的是一种通过征服而不是仅仅忽略复杂性获得的简单性。他意识到,实现这种深度的简单性,会产生一种感觉上似乎是在友好地顺应用户而不是挑战他们的机器。“这需要大量的努力,”他说,“要使某事变得简单,真正理解其背后的挑战并找到优雅的解决方案。” 在乔纳森·艾夫,苹果的工业设计师,乔布斯找到了他追求深层而非表面简单性的灵魂伴侣。他们知道,简单性不仅仅是一种极简主义风格或去除杂乱。为了去除螺丝、按钮或多余的导航屏幕,有必要深刻理解每个元素的作用。“要真正简单,你必须深入挖掘,”艾夫解释说。“例如,要做到没有螺丝,你可能最终会得到一个非常复杂和混乱的产品。更好的方式是深入探究简单性,全面理解它的一切以及它是如何被制造的。” 在设计iPod界面时,乔布斯在每次会议上都试图找到方法减少杂乱。他坚持要求在三次点击内达到他想要的任何功能。例如,一个导航屏幕询问用户是否想按歌曲、专辑或艺术家搜索。“我们为什么需要这个屏幕?”乔布斯质问。设计师们意识到他们并不需要它。“有时我们会因为一个用户界面问题而头疼,然后他就会说,‘你们考虑过这个吗?’”托尼·费代尔说,他领导了iPod团队。“然后我们都会说,‘天哪。’他会重新定义问题或方法,我们的小问题就此消失。”在某一刻,乔布斯提出了最简单的建议:让我们去掉开/关按钮。起初,团队成员对此感到惊讶,但后来他们意识到按钮是不必要的。如果设备未被使用,它会逐渐关闭电源,并在重新启用时迅速启动。 同样,当乔布斯看到一套为iDVD设计的复杂的导航屏幕提案时,这个功能允许用户将视频烧录到光盘上,他跳起来在白板上画了一个简单的矩形。“这是新应用,”他说。“它只有一个窗口。你把视频拖进窗口。然后点击‘烧录’按钮。就这样。这就是我们将要制作的。” 在寻找成熟颠覆的行业或类别时,乔布斯总是询问谁在让产品变得比必要的更复杂。2001年,便携式音乐播放器和在线获取歌曲的方式就是这样,这导致了iPod和iTunes Store的诞生。接下来是手机。乔布斯会在会议上抓起一部手机,正确地抱怨没有人可能弄明白如何使用它的一半功能,包括通讯录。在他的职业生涯末期,他将目光投向了电视行业,该行业几乎使人们不可能通过点击一个简单的设备就能观看他们想要的内容。 负责到底 乔布斯知道,要实现简单,最好的方式是确保硬件、软件和外围设备无缝集成。苹果生态系统——,例如,一个iPod连接到一台装有iTunes软件的Mac——使设备更简单,同步更顺畅,故障更少。更复杂的任务,如创建新播放列表,可以在电脑上完成,使iPod可以具有更少的功能和按钮。 乔布斯和苹果对用户体验负责到底——这是极少数公司做到的。从iPhone中ARM微处理器的性能到在苹果店购买一部手机的行为,顾客体验的每个方面都紧密相连。微软在1980年代和谷歌在过去几年里采取了更开放的方式,允许他们的操作系统和软件被各种硬件制造商使用。有时这被证明是更好的商业模式。但乔布斯坚定地认为,这是制造(用他的话说)更差产品的配方。“人们很忙,”他说。“他们有其他事要做,而不是考虑如何整合他们的计算机和设备。” 置身于苹果生态系统,仿佛漫步于乔布斯钟爱的京都禅宗花园,享受着那份至高无上的体验。 乔布斯强迫自己对所谓的“整体产品”负责,一方面源于他那强控的个性,另一方面则源于他对完美和制造优雅产品的热情。当他想到在其他公司的平庸硬件上运行苹果的优秀软件时,他会感到极度不适,同样,他也无法忍受未经批准的应用或内容玷污苹果设备的完美。这种做法可能不会总是最大化短期利润,但在一个充斥着劣质设备、令人费解的错误信息和恼人界面的世界中,它却带来了标志性的、令人愉悦的用户体验的惊艳产品。置身于苹果的生态系统中,就像是在乔布斯所爱的京都禅宗花园中漫步,这两种体验都不是通过盲目追求开放性或让千花齐放而创造出来的。有时候,被一个控制欲强的人牵着手,也是一种幸福。 落后时超越 一个创新公司的标志不仅仅在于它首先提出新想法。更重要的是,当发现自己落后时,它知道如何实现跨越式发展。这一点在乔布斯构建原始iMac时得到了体现。他专注于使其成为管理用户照片和视频的有用工具,但在音乐处理上却落后了。PC用户正在下载音乐、交换音乐,然后刻录自己的CD。而iMac的插槽驱动器无法刻录CD。“我觉得自己像个傻瓜,”他说,“我以为我们错过了。” 但乔布斯没有仅仅通过升级iMac的CD驱动器来追赶,而是决定创建一个集成系统,彻底改变音乐行业。这一决策最终产生了iTunes、iTunes Store和iPod的组合,使用户能够以比任何其他设备都要好的方式购买、分享、管理、存储和播放音乐。 在iPod取得巨大成功后,乔布斯几乎没有花时间沉醉其中。相反,他开始考虑什么可能会威胁到它。一种可能性是手机制造商开始在他们的手机中加入音乐播放器。因此,他通过创造iPhone,自我蚕食iPod的销量。“如果我们不自我蚕食,别人就会蚕食我们,”他说。 产品优先于利润 在1980年代初,乔布斯和他的小团队设计原始Macintosh时,他的指示是使其“疯狂地伟大”。他从未谈论过利润最大化或成本权衡。“不要担心价格,只需指定计算机的性能,”他对团队的最初领导说。在与Macintosh团队的第一次集体退思时,他首先在白板上写下一条准则:“不要妥协。”最终产生的机器成本过高,导致乔布斯被迫离开苹果。但Macintosh也“在宇宙中留下了痕迹”,正如他所言,加速了家用电脑革命。长期来看,他找到了平衡:专注于打造出色的产品,利润自然会随之而来。 约翰·斯卡利在1983年到1993年间管理苹果,是来自百事可乐的营销和销售高管。在乔布斯离开后,他更加关注利润最大化而非产品设计,苹果逐渐走向衰落。“我有自己的理论,关于公司为什么会衰落,”乔布斯对我说:“他们制造了一些伟大的产品,但然后销售和营销人员接管了公司,因为他们是那些可以提高利润的人。”“当销售人员掌管公司时,产品人员就不那么重要了,很多人就会失去动力。当斯卡利加入苹果时就发生了这种情况,这是我的错,当鲍尔默接管微软时也发生了这种情况。” 当乔布斯回归时,他将苹果的焦点重新聚焦于创新产品的制作:轻巧的iMac、PowerBook,然后是iPod、iPhone和iPad。正如他所解释的,“我的热情一直是建立一个能够激励人们制造伟大产品的持久公司。其他一切都是次要的。当然,赚钱很好,因为那是让你能制造伟大产品的基础。但是产品,而不是利润,才是驱动力。斯卡利颠倒了这些优先级,把目标变成了赚钱。这是一个细微的差别,但意味着一切——你雇佣谁,谁得到晋升,你在会议中讨论什么。” 不要被焦点小组束缚 当乔布斯带领他的原始Macintosh团队进行第一次集体退思时,一名成员问是否应该做一些市场调研来了解客户想要什么。“不,”乔布斯回答,“因为客户不知道他们想要什么,直到我们展示给他们。”他引用了亨利·福特的话:“如果我问客户他们想要什么,他们可能会说,‘一个更快的马!’” 深切关心客户的需求与不断询问他们想要什么是截然不同的;这需要对尚未形成的欲望有直觉和本能。“我们的任务是阅读那些还没呈现在页面上的内容,”乔布斯解释道。他并不依赖市场研究,而是磨炼了他的版本的同理心——对顾客欲望的深刻直觉。他在印度学习佛教时作为一名大学辍学生,培养了对直觉的欣赏——一种基于积累的经验智慧的感觉。“印度乡村的人们不像我们那样使用他们的智力;他们使用直觉,”他回忆道。“直觉是一种非常强大的东西,我认为,比智力更为强大。” 有时这意味着乔布斯使用自己作为唯一的焦点小组。他制造了他和他的朋友们想要的产品。例如,2000年存在许多便携式音乐播放器,但乔布斯觉得它们都不够好,作为一个音乐爱好者,他想要一个简单的设备,能让他随身携带一千首歌曲。“我们为自己制造了iPod,”他说,“当你为自己、或者你的最好的朋友或家人做某事时,你不会偷工减料。” 扭曲现实 乔布斯(恶名昭著的)能力,推动人们完成不可能的任务,被同事们称为他的“现实扭曲场”,这个名字来源于《星际迷航》的一集,其中外星人通过纯粹的心智力量创造了一个令人信服的替代现实。一个早期例子是乔布斯在阿塔里夜班时期,他推动史蒂夫·沃兹尼亚克创建了名为Breakout的游戏。沃兹认为这需要几个月,但乔布斯盯着他,坚持说他能在四天内完成。沃兹知道这是不可能的,但他最终完成了。 乔布斯因能激励人们完成看似不可能的任务而闻名遐迩,同事们称这种能力为“现实扭曲场”,这个名字启发于《星际迷航》中的一个剧集。 对乔布斯不太了解的人可能会把“现实扭曲场”误解为某种对欺凌和撒谎的委婉说法。然而,真正与他共事过的人承认,尽管这种性格有时令人难以忍受,但它确实促使他们完成了非凡的壮举。乔布斯认为自己不受生活常规规则的约束,这使他能激励团队用远少于施乐或IBM的资源,改变了计算机历史的进程。“这是一种自我实现的扭曲,”原Mac团队成员Debi Coleman回忆道,她曾因最擅长对抗乔布斯而获奖。“你之所以完成了不可能的任务,是因为你不知道它原本是不可能的。” 有一次,乔布斯闯进了负责Macintosh操作系统的工程师Larry Kenyon的工位,抱怨启动时间太长了。Kenyon试图解释为什么减少启动时间是不可能的,但乔布斯打断了他:“如果这能救人一命,你能找到方法缩短10秒的启动时间吗?”Kenyon承认,他或许能做到。乔布斯在白板上展示,如果有五百万人每天使用Mac,每天多花10秒启动,那么一年就是大约3亿小时——相当于至少100个人的一生。几周后,Kenyon将机器的启动时间缩短了28秒。...

February 29, 2024 · 1 min · fisherdaddy

Sam Altman:为了创建一家伟大公司,创始人应该遵循的九个建议

这篇文章翻译了OpenAI CEO Sam Altman对想要创建一个伟大公司的CEO的9个建议。Sam Altman’s 9 things that the best founders do to build a great company Sam Altman 分享了九个建议,这些是创始人在打造伟大公司过程中应遵循的最佳实践。 1 深入了解你的用户 顶尖的创始人会亲自处理客户支持工作。他们会亲自拜访用户——以 Airbnb 为例,他们甚至会与用户同住。这样做的目的是要非常深入地了解你的用户。 2 保持快速迭代周期并理解复合增长的力量 这个过程可以概括为:与客户交谈以理解他们的需求 → 开发产品来满足这些需求 → 将产品推向市场并观察用户反应 → 根据反馈进行调整 → 重复这个过程。这种迭代是持续改进的关键。复合增长法则意味着,如果每个迭代周期你都能提升 2%,并且你的迭代周期是每四小时而不是每四周,那么几年下来,你会发现自己处于一个截然不同的境地。将打造世界上迭代速度最快的公司作为你的首要目标之一。 3 做出长期承诺 大多数公司的规划期限为 2-3 年。但实际上,成功的公司几乎都是十年的长期项目。如果你从一开始就以这种长期视角来规划,你会做出更好、更不同的决策。我认为,对一个新项目做出长期承诺,几乎是市场上剩余的唯一套利机会。几乎没有人愿意这么做,但如果你做了,你会以全新的方式思考问题,聘请不同的人才,这将大有裨益。 4 在一切顺利之前保持公司的精简 在早期,当你还在尝试和调整方向时,你希望公司能像快艇一样灵活,能够迅速改变方向。一旦公司规模扩大,无论是现金烧损,还是其他问题,这种灵活性都会大打折扣。员工数的增加会成倍减少公司的灵活性,所以在确定一切都在正确的轨道上之前,保持公司规模的小型化至关重要。一旦确认一切顺利,再考虑扩大规模。 5 抵抗随意招聘的冲动,尤其是避免招聘平庸人才 Vinod Khosla 曾经说过一句我非常赞同的话:‘你建立的团队决定了你创建的公司。’这个观点非常准确,我曾经低估了它的重要性。如果你能组建一个优秀的团队,并且拥有一个用户喜爱的产品,你成功的几率将超过 90%。这两点都非常难以实现,并且它们是相互独立的。但不要忽视团队的重要性。我认识的最优秀的 CEO,会花费大量时间在招募和留住人才上。 6 无情地执行 你必须不断前进,追求完美,关注每一个细节。你需要对用户与你的公司的每一次互动都无比在意。 7 创业就是永不放弃 最近一期 YC 孵化器中的一个顶尖公司在第七次申请时才被接受。这正是创业过程中常有的经历:一次又一次地面对失败。就在你觉得自己再也没有力气站起来的时候,成功就在眼前。这正是创业所要经历的。 8 照顾好自己是你的责任 这是一场长达十年的马拉松,你有义务照顾好自己,这对你的股东而言是一种责任。有些人把创业当作熬夜:忽视健康,牺牲睡眠,忽略个人关系。虽然创业确实不利于工作生活平衡,但你有责任照顾好自己,这对你的团队和投资者都非常重要。 9 清晰的使命感 虽然你不需要在第一天就确定清晰的使命,但我所参与的所有成功创业公司都会在最初的一两年内找到一个重要的使命。这个使命不仅能吸引人才加入,也是推动创始人前进的动力,让媒体对他们进行报道。即使你是从解决个人生活中的一个小问题开始的,记住,最终你应该有一个清晰的使命——这将吸引人们来支持你,帮助你把这个想法发展成一个被众多人热爱的大公司。

February 27, 2024 · 1 min · fisherdaddy

读《小米创业思考》

这篇文章记录了去年读《小米创业思考》这本书的记录,雷总其中的一些观点会对你有些帮助。 当我们谈论“专注”时,我们究竟在谈什么? 我总结了专注的四个核心命题: 清晰的使命、愿景 深刻的洞察力,了解行业,了解用户需求,找到机会。 明确而坚定的目标及与之匹配的能力 克制贪婪,少就是多 只有贯穿长期目标、始终围绕用户真实需求出发、与核心业务构成强协同的业务拓展,才能驱动企业发展的飞轮。而且,每一项新业务的拓展都以之前业务坚实的发展模型和预期为基础,这样才能保证每一个发展阶段都能集中精力,专注地开拓一项业务。 一次解决一个最迫切的需求 资源总是有限的,切口越小,压强越大,突破越有利。产品的切口怎么选?小米内部在讨论产品时常说“单点突破,逐步放大”,一开始尽量聚焦到只解决用户一个迫切的需求,这样验证起来非常简单。解决的问题只要一句话就可以说清楚,比如小米充电宝解决的问题就是“怎样获得大容量、质量可靠又便宜的充电宝” 决定不做什么跟决定做什么一样重要 “少就是多”的最典型案例就是苹果。 什么才是极致的产品 极致就是“始终更高标准,玩命更严要求”。什么才是极致的产品,我理解有两个条件: 一是产品要惊艳,设计要惊艳,成本也要惊艳 二是超出用户用户预期,真的能让用户尖叫 尽管行业千差万别、个性各有不同,但都有一个相同的特征:了不起的极致产品不是只靠一个天才的想法、一个突然出现的灵感就能做出来的,而是要经历长期痛不欲生的修改,一点一点打磨出来。 替代一匹快马的,不应是一匹更快的马,而有可能是蒸汽汽车。

February 23, 2024 · 1 min · fisherdaddy

Duolingo的游戏化设计

这篇文章翻译了去年在twitter看到的一个关于Duolingo游戏化设计的帖子。 全球最佳游戏化设计。 Duolingo 的突破性游戏化设计使其成为全球最大的教育应用,拥有 6100 万用户。 以下是为什么 Duolingo 的游戏化设计如此出色以及他们是如何做到的: 1 顶级的入门体验 @duolingo 在逐步吸引用户方面表现出色,在此过程中建立了用户的目标。 他们让用户立即进入 “Duolingo” 体验。 这种类型的“用户投入”最终使产品对用户更有价值。 2 游戏化学习路径 @Duolingo 将其课程分成小块内容,每节课只需 2-3 分钟。 短暂的注意力 + 快速的行动 = 留存。 如此低的入门门槛对于激励如今注意力不集中的受众在应用中取得进展至关重要。 3 每日连胜 **连胜功能可以说是多邻国最强大的黏性机制之一,相当于每天的“打卡”,但是,多邻国用的是“连胜”字样。**有超过 600 万人连续 7 天或更多。 在多邻国看来,如果用户连续玩了10天,他们退出产品的几率就会大大降低,因此,也在一直改进“连胜”功能。 **2022年,在连胜功能上,多邻国有了重大迭代,推出了即连胜保护机制——连胜激冻。**也就是说如果有连胜的用户即将失去他们的连胜,该通知就会提醒他们,并保住连胜的成果。这给用户一种极大的心理安慰,会在接下来的日子更加努力。同时,多邻国还改善了连胜动画和连胜奖励等等,这都有助于完善最初的连胜理念,并显著提高了用户留存率。 4 多人模式 几乎所有社交活动都会产生某种网络效应。@duolingo 的社交任务功能令人叹为观止。 Duolingo 上的多人模式(Social Quest)通过荣誉、成就等使学习变得非常有趣。 5 排行榜和徽章 与 Strava、Fitbit 等类似 - 排行榜在游戏化方面已被证明非常有效。 多邻国的排行榜功能一开始采用的是和家人、朋友竞争,但是效果并不好。后来,多邻国意识到,竞争对手的黏性可能比朋友的黏性更好,因为朋友可能不再是活跃用户。 2022年12月,多邻国上线新的排行榜功能。排行榜除了名词,还有级别划分,一共有10个级别,青铜、银灰、黄金、蓝宝石……排行榜每周日更新排名情况,根据经验,根据更新时自己的排名决定能不能晋级。 排行榜的上线,给用户提供了更强的进步感和奖励感,只有坚持每天学习,长时间学习,才有可能取得晋级。排行榜功能对多邻国的增长指标产生了巨大且即时的影响,据Jorge Mazal统计,排行榜上线后,多邻国用户总体学习时间增加了17%,高度投入的学习者(每周5天每天至少花费1小时的用户)的数量增加了两倍。 6 奖励重大里程碑 @duolingo 设有让人愉悦的时刻,将其用户的奖励提升到一个新的高度。 从连胜到免费宝石,Duolingo 建立了一个出色的游戏化引擎,并在用户达到关键里程碑时奖励他们。 所有这些小时刻都汇集在一起! 7 无脑订阅(Super Duolingo) 随着用户对 Duolingo 的投入,他们很快就会意识到存在限制,但同时也会担心失去他们的“连胜”。 @duolingo 在打包这方面非常聪明。他们不仅仅是赚钱;他们在最大化您最宝贵的资产 ——节省时间。...

February 23, 2024 · 1 min · fisherdaddy

黄仁勋台大演讲全文

前天英伟达发布Q4财报,季度营收达到600亿美金,估计暴涨。这里我们来回顾一下黄仁勋在2023年5月份在台大毕业典礼上的演讲。 各位女士、先生,老师,来宾,骄傲的父母们,以及 2023 年国立台湾大学的毕业生们,今天对你们来说是非常特别的一天,也是你们父母梦想成真的一天。你们应该快点从家里搬出去,这确实是一个充满骄傲和喜悦的日子! 你们的父母为了今天做出许多牺牲,我的父母、哥哥也在这里,让我们向所有的父母和祖父母们表达感谢。 十多年前,我第一次来到台湾大学,陈博士邀请我参观他的实验室。他的儿子在硅谷工作,知道 NVIDIA 的 CUDA,推荐爸爸用它来做量子物理模拟实验。我在这个实验室看到满满的 NVIDIA GeForce 游戏显卡,插在 PC 主机板上,走道上的架子开着好几台电扇在散热。 陈博士以游戏显卡用台湾人的方式自制了超级电脑,这是一个展开 NVIDIA 旅程的故事,他以自己的努力为荣,也对我说:「黄先生,因为你的产品,让我能追寻我的志业。」 这句话至今仍让我感动不已,它抓住了我们公司的使命,就是帮助我们这个时代的爱因斯坦和达芬奇们完成他们的志业。 我很高兴能回到台大在你们的毕业典礼致词。当时我从 Oregon State University 毕业的时候,世界还很简单,没有液晶电视,也没有有线电视跟 MTV,手机和电话这两个词是分开讲的。 那一年是 1984 年,IBM PC-AT 和苹果 Macintosh 开启个人电脑革命,也开创了我们所知的芯片和软件产业。现在你们所处的是一个更复杂的世界,充满了地缘政治、社会和环境的变化和挑战。 因为科技,我们能持续连线,沉浸在一个与现实世界平行的数位世界里,汽车也能自动驾驶了。 AI 会创造过去不存在的新工作,每个人都要学习掌握 AI 红利 在电脑产业创造了家用个人电脑 40 年后,我们发明了人工智能,例如自动驾驶或辨识 X 光影像的软件,AI 软件为电脑自动化打开了大门,也开启了价值数兆美元的产业——医疗保健,金融服务,运输和制造业等等,AI 创造了各种机会。 敏捷的公司利用 AI 提升他们的地位,反之,那些落后的公司将会灭亡。正在听这场演讲的创业家们也将开创新事业,如同过去每一个运算时代,新的产业会出现。 AI 创造过去不存在的新工作,像资料工程,提示工程,AI 工厂营运与 AI 安全工程师等等。 这些都是以前没有的工作,有些工作会因为自动化而被淘汰,但可以肯定的是,AI 将改变每一个工作,让工程师、设计师、艺术家、营销人员还有制造规划人员有更好的表现。 就像过去每个时代的人一样,他们拥抱新技术然后成功了,每一家公司,包括你们,都要学着掌握 AI 的红利,让 AI 成为你的副驾驶,做出惊人的事业。 有些人担心 AI 可能会抢走他们的工作,其实,是擅长使用 AI 的「人」会抢走这些人的工作。 我们处在重大科技时代的开端,像 PC,互联网,移动和云等等。但是 AI 的技术更基础,因为每个运算的层次都被重新打造,从我们如何写软件到它如何运作,AI 从根本上重新创造了运算方式。 从各个层面来看,这是计算机行业的一次重生,对台湾企业来说,这也是个千载难逢的机会。你们就是电脑产业的基石,在未来的十年,我们的产业将以全新、加速的 AI 技术取代全球超过一兆美元的传统电脑市场。...

February 23, 2024 · 2 min · fisherdaddy

可汗学院CEO Sal Khan TED 演讲

这篇文章分享了去年看可汗学院CEO Sal Khan 在TED上关于生成式AI对教育领域影响的演讲。 近几个月来,特别是在教育领域,我们看到了很多这样的标题:“学生将使用ChatGPT和其他形式的人工智能来作弊,完成他们的作业。他们不会真正学习,这将完全破坏我们所知道的教育。” 但我认为,我们正处于使用人工智能实现教育领域最大积极转变的关键时期。 我们将通过为全球每个学生提供一个人工智能但非常出色的个人导师,为全球每个教师提供一个出色的人工智能教学助手来实现这一目标。 给每个人都提供个人导师将是一个非常重要的举措,本杰明·布鲁姆1984年的The 2 Sigma Probilem: The Search For Methods of Group Instruction as Effective as One-toOne Tutoring(https://web.mit.edu/5.95/readings/bloom-two-sigma.pdf),他称之为“2 sigma问题”。2 sigma来自两个标准偏差,标准偏差的符号是sigma。如果你为学生提供个人1对1的辅导,你实际上可以得到一个类似右侧的分布,两个标准偏差的改进。 简单说,这可以将您的平均学生变成优秀的学生,将您的低于平均水平的学生变成高于平均水平的学生。 但如何以经济的方式将它扩展到所有人身上?我们已经在 Khan Academy 上大约十年的时间里尝试以某种方式逼近它,但我认为我们正处于加速实现它的关键时期。 Khanmigo:Tutorial 1对1 当学生说:“告诉我答案,” 它回答:“我是你的辅导老师。你认为解决这个问题的下一步应该是什么?” 它实际上在做的不仅仅是一个普通辅导老师会做的,而是一个优秀辅导老师会做的事情。它能够推测出学生心中可能存在的误解。 计算机编程 学生需要让云彩分开。所以,我们可以看到学生开始定义一个变量,left X减减。它只让左边的云彩分开。但然后他们可以问Khanmigo,怎么回事?为什么只有左边的云在移动? 它说:“为了让右边的云也移动,尝试在绘制函数中添加一行代码,使得每一帧里右边的X变量增加一个像素。” 我们一直在试图教用户学习编程,但没有很多计算机教育老师。而你刚刚看到的,即使是我辅导我的孩子时,也无法这么快地、这么好地帮助他们,这真的将成为一个超级辅导员。而且不仅仅是练习。它理解你所观看的内容,它理解你的上下文。 AI导师:分享学科意义 它以苏格拉底式的方式问:“那么,你关心什么?” 假设学生说:“我想成为一个职业运动员。” 它会说:“了解细胞的大小,这对于理解营养和你的身体如何运作等方面非常有用。” 它可以回答问题,它可以测试你,它可以将其与其他想法联系起来,现在你可以向一个AI提问,尽你所能想象的。 我们可以使用Khanmigo为每个学生提供指导顾问、学术教练、职业教练和生活教练。 学习文学与历史的新方式 我们与亚利桑那州立大学合作开设了一所在线高中,名为Khan World School,我们有一名印度学生在那里学习。她叫Saanvi。她在写一篇关于《了不起的盖茨比》的报告。 当她阅读《了不起的盖茨比》时,Jay Gatsby一直盯着远处的绿灯。她问自己:“他为什么这么做?”她进行了一些网络搜索,人们显然对此进行了研究,并评论了这个符号的意义,但这些都没有真正引起她的共鸣。然后她意识到她有Khanmigo,她可以与Jay Gatsby本人交谈。于是, “啊,好极了,老兄。我现在是Jay Gatsby,来自F. Scott Fitzgerald的经典小说中神秘的百万富翁。” 然后,“你为什么一直盯着那个绿灯?” “啊,绿灯,老兄。它是我的梦想和愿望的象征。它位于Daisy Buchanan的码头尽头,横跨我豪宅对面的海湾。我渴望地凝视着它,因为它代表着我对过去的渴望和与Daisy,我的生命之爱团聚的希望。” 很酷的是,Saanvi随后说:“我和他进行了长时间的对话”,她称呼他为“盖茨比先生”,最后她还为占用了他的时间而道歉。 但你可以想象,这种交互解锁了学习文学、学习历史的方式…… 你甚至可以与历史人物交谈。我们甚至可能会添加一个活动,让你可以与密西西比河交谈。它以一种在一年前我们还认为是科幻的方式使事物变得生动起来。 AI 辩手:锻炼思辨能力 这里是一个学生辩论我们是否应该取消学生债务的例子。这名学生反对取消学生债务,我们得到了非常清晰的反馈。学生们,尤其是高中生,都说:“这太神奇了,我能够调整我的论点而不必担心被评判。这让我更有信心走进教室,积极参与。”我们都知道苏格拉底式的对话辩论是学习的好方法,但实际上,对大多数学生来说并不可行。但现在每个人都能够使用。 一起创作 很多报道都说,“它会为孩子们写作。孩子们将不会学会写作。”但我们正在展示一些方式,AI不是为你写作,而是和你一起写作。 这是一件很小的case,我的八岁儿子迷上了它,他以前不太喜欢写作,但你可以说,“我想写一篇恐怖故事”,然后它会说,“哦,一篇恐怖故事,多么毛骨悚然和惊心动魄。让我们一起潜入神秘的阴影和冷酷的谜团的世界。” 这是一个学生写两句话,然后AI写两句话的活动。所以他们一起合作写故事。...

February 23, 2024 · 1 min · fisherdaddy

在国内如何订阅 ChatGPT Plus 以及拥有 OpenAI 开发者账号的Key

本文分享一下作者本人在国内订阅 ChatGPT Plus 以及拥有 OpenAI 开发者账号 key 的方法。 先决条件 自建或者够买一个 VPN 科学上网 美区 AppleID ChatGPT app 支付宝、微信 在国内如何订阅 ChatGPT Plus 手机 APP Store 登录美区 Apple ID。 打开支付宝,左上角位置选择旧金山,搜索 PockyShop 小程序性,绑定邮箱后,在首页选择 App Store & iTunes US,设定金额后购买即可。(备注:ChatGPT plus的订阅月费用为19刀,一次可以买20刀或者40刀,更多貌似会触发支付宝的风控导致订单失败) 购买成功后,把订单里的礼品卡号码复制出来去 App Store 账户的兑换充值卡或代码选项里进行兑换,兑换完成后即充值完成。 在 ChatGPT 的 GPT4 入口点击订阅即可,会默认走 APP Store 账户里的余额。 在国内如何拥有 OpenAI 开发者账号的Key 之前为了方便基于 OpenAI 的 api 开发一些小 demo,我主要通过两个方法来获得 OpenAI 的 api key: 在微软云 Azure 上开通 OpenAI 的 api 功能,基于 Azure 封装的 api 接口来做 LLM 相关的开发,我得到的信息是国内的大企业都是用这种方法来调用 OpenAI。但这种方法有一个最大的缺点:OpenAI最新的能力一般要在其官方释放后的1-2个月左右Azure 上才可以上线体验到,这对于想快速基于最新的能力进行快速 MVP 验证或者评测的用户来说只能用着急来形容。 从一些第三方卖开发者 key 的网站上买一些 key 来使用,缺点也很明显:不可靠、不可控。 偶然翻到这篇博客讲述了几个方法能很好的解决海外银行卡的问题:一个方法是Dupay 和 NobePay,另一个方法是:新加坡华侨银行 和 WISE虚拟卡/实体卡。第一个方法里的 Dupay 和 NobePay 都亲测有效,这里我来大概讲一下流程。...

February 22, 2024 · 1 min · fisherdaddy

OpenAI官方指南: Prompt engineering

这篇是去年翻译的OpenAI官方指南Prompt engineering,值得多读几次。写这篇文章时发现OpenAI给这篇指南改了名字,之前的标题是gpt best practices,现在改为了prompt engineering. GPT最佳实践 获得更好结果的六项策略 1 指示要明确 GPT无法读懂你的心思。如果输出内容过长,可要求简短回复;如果输出内容过于简单,可要求专家级写作;如果不喜欢当前的格式,可展示你期望的格式。你的指示越明确,GPT满足你的要求的可能性就越大。 在提问中提供完整信息,以获得更准确的答复。 要求模型扮演不同角色。 使用分隔符明确区分输入的不同部分。 阐明完成任务所需的步骤。 举例说明。 指定输出内容的期望长度。 2 提供参考文字 GPT可以自信地编造虚假答案,特别是在询问关于深奥话题或要求引用和URL时。就像小抄可以帮助学生在考试中做得更好一样,向GPT提供参考文本可以帮助它减少错误信息的回答。 指导模型使用参考文献来回答问题 指导模型在回答时引用参考文献 3 将复杂的任务拆分为更简单的子任务 正如软件工程中将复杂系统拆分为一系列模块化部件的常规做法,对GPT提交的任务同样适用。复杂任务相较于简单任务具有更高的错误率。此外,复杂任务往往可以重新定义为一系列的简单任务的工作流,在这个流程中,前一个任务的输出用于构建后续任务的输入。 利用意图分类来识别用户查询中最相关的指令 对于需要长对话的对话应用,摘要或过滤之前的对话内容 分块摘要长文档,递归地构建完整摘要 4 给GPT时间思考 如果把17乘以28的题目摆在你面前,你可能不会立刻答出来,但给点时间你能慢慢算出来。同样地,GPT在被要求立即回答时,也更容易出错。让它先进行一番逻辑推理,再给出答案,就能更可靠地引导它找到正确的答案。 让模型先不急于下结论,先计算出自己的答案。 利用内心独白或一系列自问自答来掩盖模型的推理过程。 询问模型在之前的回答中是否有遗漏。 5 使用外部工具 通过结合其他工具的功能来弥补GPT的不足之处。举例来说,文本检索系统能够为GPT提供相关文档信息。代码执行引擎则能辅助GPT进行数学计算和运行代码。若外部工具能比GPT更可靠或高效地完成任务,就将任务外包出去,以实现优势互补。 使用嵌入式搜索技术,打造高效的知识检索系统 通过代码执行功能进行精确计算或接入外部API 让模型访问具体的函数 6 系统化地测试更改 衡量改进成效的诀窍在于可量化的数据。有时候,简单的提示修改可能会在零星案例中取得不错的效果,但在更广泛的案例中却适得其反。因此,要确认某项更改确实提升了性能,就需要设立一套全面的测试方案(也称为评估测试)。 以最佳答案为标准,评估模型的输出结果 策略详解 上述策略都可以通过具体的手段来实施。这些手段旨在激发尝试的灵感,但并不是面面俱到。你大可发挥创意,尝试这里未涉及的新点子。 1 指示要明确 1.1 在提问中提供完整信息,以获得更准确的答复。 想要得到精确无误的回答,就得在提问中提供所有必要的信息和情境。不然,你的意图就只能让模型去猜了。 1.2 要求模型扮演不同角色。 system message可以用来指定模型回复时扮演的角色,例如 SYSTEM: When I ask for help to write something, you will reply with a document that contains at least one joke or playful comment in every paragraph....

February 20, 2024 · 17 min · fisherdaddy

Attention Is All You Need

前段时间看了一些transformer相关的文章,但讲解的都不太清楚,想着还是读一读论文理解起来更加深刻,所以翻译了这篇Attention Is All You Need。 论文中的作者贡献是相同的,而名单的排列顺序是随机的。Jakob 提出了用自注意力机制替换循环神经网络 (RNN) 的想法,并开启了验证这一构想的工作。Ashish 与 Illia 共同设计并实现了首个 Transformer 模型,对这项工作的各个方面都有着至关重要的贡献。Noam 提出了缩放的点积注意力、多头注意力和无需参数的位置表示法,几乎参与了项目的每个细节。Niki 在我们的原始代码库和 tensor2tensor 中设计、实现、调整并评估了无数的模型变种。Llion 也探索了新型模型变种,负责我们最初的代码库、高效的推理和可视化工作。Lukasz 和 Aidan 贡献了无数的时间来设计和实现 tensor2tensor 的各个部分,这不仅取代了我们之前的代码库,还大幅提高了研究结果并极大地加速了我们的研究进展。这些工作是在 Google Brain 和 Google Research 期间完成的。 摘要 目前主流的序列转换模型依赖于包含编码器和解码器的复杂循环或卷积神经网络体系。这些模型的高性能部分得益于编解码器之间的注意力机制连接。我们提出了一种全新的网络架构——Transformer,这一架构完全基于注意力机制,彻底摒弃了递归和卷积。通过在两个机器翻译任务上的实验,我们发现这些模型在质量上更为优异,且具备更高的并行处理能力,训练时间也大幅缩短。我们的模型在 WMT 2014 年的英德翻译任务上获得了 28.4 的 BLEU 分数,超过了包括集成模型在内的现有最佳结果2个 BLEU 分以上。在 WMT 2014 的英法翻译任务上,我们的模型在仅使用八个 GPU 训练了 3.5 天后,刷新了单模型最高 BLEU 记录,达到了 41.8 分,这仅是文献中最佳模型训练成本的一小部分。我们还证明了 Transformer 能够成功地广泛应用于其他任务,比如英语成分句法分析,无论训练数据是丰富还是有限。 1 简介 循环神经网络(RNN)、长短期记忆(LSTM)网络和门控循环单元(GRU)网络,特别是在语言建模和机器翻译等序列建模和转换问题上,已被公认为最先进的技术。从那时起,一直有许多尝试不断地推动循环语言模型和编解码器架构的发展边界。 循环模型的计算通常沿着输入和输出序列的符号位置进行分解。它们通过将位置与计算时间的步骤对齐来生成一系列隐藏状态,这些隐藏状态${h_t}$是基于之前的隐藏状态$h_{t-1}$和当前位置t的输入。这种计算的顺序性质限制了训练样本内部的并行处理能力,特别是在处理更长序列时,由于内存限制,这成为一个关键问题。近期的研究通过采用因式分解技巧和条件计算在提高计算效率的同时,也在某些情况下提升了模型的性能。然而,顺序计算的基本限制仍然存在。 注意力机制已经成为多个任务中高效序列建模和转换模型的核心部分,它允许模型无视输入或输出序列中依赖关系的距离进行建模。尽管如此,除了少数情况外,注意力机制通常与循环网络结合使用。 在本工作中,我们提出了一种新的架构——Transformer,这种架构放弃了递归,完全依靠注意力机制来处理输入和输出之间的全局依赖关系。Transformer架构支持更高程度的并行处理,并且在使用八个 P100 GPU 训练仅12小时后,就能在翻译质量上达到新的最高标准。 2 背景 减少顺序计算的目标也是扩展神经GPU、ByteNet 和 ConvS2S等模型的基础,这些模型都采用了卷积神经网络作为基础构件,能够对所有输入和输出位置的隐藏表示进行并行计算。在这些模型中,将两个任意输入或输出位置的信号相关联所需的操作数会随着位置之间的距离增加而增长,对于ConvS2S是线性增长,而对于ByteNet则是对数增长。这增加了学习远距离位置间依赖性的难度。而在Transformer模型中,这种操作数量被减少到了一个固定的数目,虽然这样做降低了有效分辨率,因为它通过平均注意力加权的位置,但我们通过多头注意力机制(如第3.2节所述)来弥补这一点。 自注意力Self-attention,也称为内部注意力,是一种注意力机制,通过关联单一序列内不同位置来计算序列的表示。自注意力已经在阅读理解、摘要生成、文本蕴含以及学习独立于任务的句子表示等多种任务上成功应用。 端到端记忆网络基于循环注意力机制,而非序列对齐的循环,已在简单的语言问答和语言建模任务上展现了良好的性能。...

February 19, 2024 · 5 min · fisherdaddy

作为世界模拟器的视频生成模型 • OpenAI

本文翻译了OpenAI发布的有关Sora的技术报告,原文戳Video generation models as world simulators 。 我们研究了在视频数据上进行生成式模型的大规模训练。更具体地说,我们对不同时长、分辨率和宽高比的视频及图片进行了文本条件下的扩散模型联合训练。我们采用了一种 Transformer 架构,这种架构可以处理视频和图像潜在编码的时空片段。我们开发的最大型号模型,Sora,具备生成一分钟长的高质量视频的能力。我们的研究成果显示,扩展视频生成模型的规模是向着创建能模拟物理世界的通用工具迈进的一个充满希望的方向。 这份技术报告主要关注于: (1)我们将各类视觉数据转化为统一表示的方法,该方法使得生成模型的大规模训练成为可能; (2)对Sora能力和限制的定性评估。模型和实现的细节没有包含在这份报告中。 众多先前的研究通过各种方式探索了视频数据的生成模型,涉及方法包括循环网络[1,2,3]、生成对抗网络[4,5,6,7]、自回归 Transformer[8,9] 以及扩散模型[10,11,12]。这些研究往往专注于特定种类的视觉数据、时长较短的视频,或者是固定尺寸的视频。而 Sora 是一个对视觉数据具有广泛适用性的模型——它能够创造出在持续时间、纵横比和分辨率上多样化的视频和图片,甚至能生成长达一分钟的高清视频。 把视觉数据分割成补丁 我们受到大语言模型的启发,这类模型通过在互联网大规模的数据集上进行训练,获得了通用的能力[13,14]。大语言模型成功的关键之一在于使用了能够优雅地统一不同文本形态(如代码、数学公式以及多种自然语言)的tokens。在这项工作中,我们探讨了视觉数据的生成模型如何借鉴此类优势。与大语言模型使用文本令牌不同,Sora 使用的是视觉补丁。先前的研究已经证明,对于视觉数据模型而言,补丁Patches是一种有效的表现形式[15,16,17,18]。我们发现,补丁是一种高度可扩展且有效的方式,适用于训练多样化视频和图片的生成模型。 从宏观角度来看,我们将视频转换成补丁的过程首先是将视频压缩到一个低维度的潜在空间[19],接着将这种表示分解为时空补丁。 视频压缩网络 我们开发了一个能够降低视觉数据维度的网络[20]。这个网络接受原始视频作为输入,输出一个在时间和空间维度上均进行了压缩的潜在表示。Sora 就是在这种压缩的潜在空间中接受训练,并能够在其中生成视频。此外,我们还设计了一个对应的解码模型,用于将生成的潜在数据重新映射到像素空间。 时空补丁 对于一个被压缩的输入视频,我们会提取一系列的时空补丁,它们在此过程中充当 Transformer 的令牌。这一方法同样适用于图片,因为从本质上讲,图片就是单帧的视频。我们采用的基于补丁的表示方法,使得 Sora 能够处理不同分辨率、时长和纵横比的视频和图片。在生成视频的推理阶段,我们可以通过按照适当的大小排列随机初始化的补丁,来控制最终视频的尺寸。 用于视频生成的扩展Transformer Sora 属于扩散模型[21,22,23,24,25];它能够接受带有噪声的补丁(以及如文本提示这样的条件信息)作为输入,并被训练以预测出原始的“干净”补丁。值得注意的是,Sora 实际上是一个diffusion Transformer[26]。在多个领域,包括语言模型[13,14]、计算机视觉[15,16,17,18]以及图像生成[27,28,29],Transformer 都展现出了令人瞩目的扩展能力。 在本研究中,我们还发现diffusion transformers 同样能够在视频模型方面有效扩展。接下来,我们将展示一个比较:随着训练进程的推进,使用固定种子和输入条件的视频样本展示。可以明显看到,随着训练计算量的增加,样本的质量有了显著的提升。 基础计算 4倍计算 32倍计算 持续时间、分辨率、纵横比的可变性 以往在图像和视频生成领域,常见的做法是将视频调整至标准尺寸——比如,4秒长的视频以256x256的分辨率呈现。然而,我们发现直接在视频的原始尺寸上进行训练能够带来多重好处。 采样灵活性 Sora 能够生成各种尺寸的视频,包括宽屏的1920x1080p、竖屏的1080x1920,以及这两者之间的任何尺寸。这让 Sora 能够直接针对不同设备的原生纵横比制作内容。此外,这还使我们能够在进行全分辨率输出之前,先以较低分辨率快速制作出原型内容——所有这些都可以通过同一个模型完成。 构图与构成的改进 我们的实验发现,在视频的原生纵横比上进行训练能显著改进视频的构图和画面布局。我们比较了 Sora 和另一个版本的模型,这个版本将所有训练用的视频裁剪成正方形——这是训练生成模型的一种常规做法。结果显示,那些在正方形视频上训练的模型(左侧)有时会生成主体只部分出现在画面中的视频。相比之下,Sora 生成的视频(右侧)在画面布局上有了明显的提升。 语言理解 训练文本生成视频的系统需依赖大量配有对应文字说明的视频。我们采用了 DALL·E 3[30] 中介绍的重新标注技术,将其应用于视频。首先,我们训练了一个能够生成高度描述性文字说明的模型,然后利用这个模型为我们训练集中的全部视频生成文本说明。我们的发现表明,使用这些高度描述性的视频说明进行训练,不仅能提高文本的准确度,也能显著提升视频的整体品质。 与 DALL·E 3 类似,我们也采用 GPT 技术将用户的简短提示转化为更加详尽的描述,然后这些描述会被送到视频生成模型中。这一策略使得 Sora 能够根据用户的具体提示生成高质量且内容准确的视频。 通过图像和视频进行提示 我们网站上的示例,主要展示了从文本到视频的生成样本。然而,Sora 也能接受其他形式的输入,比如已有的图片或视频。这项能力让 Sora 能够完成多种图像和视频编辑任务,如制作完美循环的视频、为静态图片添加动效、以及在时间线上前后扩展视频等。...

February 15, 2024 · 1 min · fisherdaddy

Hugo PaperMod

这篇文章分享搭建本博客网站使用的基础框架和主题,以及如何解决公式的渲染问题的经验。 Hugo PaperMod is a theme based on hugo-paper. The goal of this project is to add more features and customization to the og theme. hugo-paperMod Example This repository offers an example site for hugo-PaperMod Install Read Wiki => hugo-PaperMod - Installation Directory Tree .(site root) ├── configTaxo.yml ├── config.yml ├── content │ ├── archives.fr.md │ ├── archives.md │ ├── posts │ │ ├── emoji-support.md │ │ ├── markdown-syntax.fa.md │ │ ├── markdown-syntax....

February 5, 2024 · 2 min · fisherdaddy