伟大创意与伟大产品之间的区别 • Steve Jobs

看到微博上宝玉老师分享的乔布斯解释伟大创意与伟大产品之间的区别的一个视频,看了深表认同。这里我用 Claude3 Opus 进行了总结,并附录上视频原文。 核心观点 一个好的想法只是成功的开始,将想法转化为好的产品需要大量的精细工艺和打磨。产品会在这个过程中不断演变和成长,变得比最初设想的更加复杂。 设计产品需要在脑海中整合数千个不同的概念,并以新颖的方式将它们组合在一起。这个过程中会不断发现新问题和机会,需要持续创新。这就是创造力的源泉。 一群对工作充满热情的人在一起努力,会相互碰撞、争执、冲突,但也会在这个过程中互相改善提升,最终产生美好的成果。这就像石头互相摩擦,最后变成美丽的抛光石头。 在生活的大多数领域,二比一是一个相当大的差距。而在软件和硬件领域,最优秀的人才可以比一般人高出 50 倍甚至 100 倍。Jobs 认为自己成功的关键在于找到这些顶尖的 A 级人才,而不满足于 B 级 C 级。 当足够多的 A 级人才聚在一起时,他们会喜欢彼此合作,因为之前没有过这样的机会。他们会自发地保持高标准,只愿意与其他 A 级人才共事。这样就能建立并扩展一支全是顶尖人才的团队。 内容原文 苹果遭受的一次重大打击是,我离开后,John Sculley 得了一种严重的病。我也见过其他人得这种病,那就是过分地认为一个好的想法就是成功的 90%。他们认为只要把这个好的想法告诉其他人,然后其他人自然就能够实现它。 然而,问题在于,一个好的想法与一个好的产品之间,需要大量的精细工艺去打磨。随着这个好的想法的发展,它会不断变化和成长。它不会像最初设想的那样简单,因为在深入了解其微妙之处时,你会学到更多的东西。你还会发现,你必须要做出许多的权衡。比如,有些事情你就是无法让电子元件去完成,有些事情你无法让塑料、玻璃去完成。有些事情你无法让工厂或机器人去完成。 在设计一个产品的过程中,你需要在脑海中储存和整合 5000 个不同的概念,并持续推动他们以新的、不同的方式配合在一起,达到你想要的效果。每一天,你都会发现一些新的问题,或者是新的机会,这些都能让你以新的方式去整合这些概念。这个过程就是创造力的源泉。 因此,虽然我们一开始就有很多好的想法,但我一直认为,一群真心热爱他们正在做的事情的人,像我小时候那条街上的那个鳏夫。他那时已经 80 多岁了,看上去有点让人畏惧。我稍微了解了他一些,我想他可能雇我来给他的草坪修整或者做些什么。有一天,他说,跟我来我的车库,我有些东西想给你看。他拿出了一台老旧且积满尘土的石头研磨机,那是一台电动机,一个咖啡罐,以及它们之间的一根小皮带。 他说,跟我来。我们走到后院,只是拿了一些石头,一些普通的、长相平凡的石头。我们把它们放进罐子里,加了一点液体,一点研磨粉,然后我们把罐子盖上,他开启了这台电动机。他说,明天再来。他的罐子在石头转动时发出声响。我第二天回来时,我们打开了罐子,我看到了一些令人惊叹的美丽抛光石头。那些原本平常的石头经过相互摩擦,产生了一些声响,竟然变成了这样美丽的抛光石头。 这一过程在我心中一直是我对团队努力工作的隐喻。他们对某件事充满热情,就像这群无比有才华的人在团队中相互碰撞,有时候会有争执,争吵,甚至冲突。共同工作,相互磨砺,最终让彼此和想法都得到了改善和提升,最终产生的是那些非常美丽的石头。这个过程很难解释,肯定不是一个人能完成的。人们喜欢寻找代表或象征,所以我成为了某些事物的象征。但实际上,Mac 是团队的努力成果。 我在苹果公司早期观察到一种现象,当时我并不知道如何解释,但从那时候开始,我对此进行了深入的思考。在生活中的大多数事情,平均水平与最好的水平之间的差距最多是二比一。比如你去纽约,找普通的出租车司机与找最好的出租车司机,你可能会发现,最好的司机可能会让你比普通司机快 30% 到达目的地。汽车,平均与最好之间的差距是多少?可能是 20%。最好的 CD 播放器和普通的 CD 播放器,可能也只差 20%。因此,在生活的大多数领域,二比一是一个相当大的差距。 但在软件行业,甚至过去的硬件行业,平均水平和最好水平之间的差距是五十比一,甚至是一百比一。这真的很明显。生活中很少有这样的事情,但我有幸能在这样的环境中度过我的一生。因此,我成功的很大一部分是因为我找到了这些真正有天赋的人,并且我从不满足于 B 级和 C 级的人,我一直在寻找 A 级的人。 我发现了一件事。我发现当你有足够多的 A 级人才在一起时,当你付出巨大努力找到这五个 A 级人才后,他们非常喜欢一起工作,因为他们之前从未有过这样的机会。他们不愿意和 B 级和 C 级的人一起工作。所以,他们会自发地保持团队的高水平,他们只愿意聘请更多的 A 级人才。于是,你就能建立起一支由 A 级人才组成的团队,并不断地扩展。这就是 Mac 团队的情况。他们都是 A 级人才。这些人才都非常出色。

April 10, 2024 · 1 min · fisherdaddy

Andrej Karpathy 在 AI Ascent 2024 上演讲的核心内容

本文来自 Andrej Karpathy 在红杉组织的 AI Ascent 2024 上的演讲视频,我用 Claude3 opus 提取了 Karpathy 提到的核心观点。 核心观点 目前各家公司都在努力构建一个 “LLM OS”,包括获取外围设备(文本、图像、音频等)作为输入,用LLM作为CPU,并连接到现有的软件基础设施上。未来可能会出现一些默认应用(如 Windows 系统自带的 Edge 浏览器),但也会有一个生机勃勃的生态系统。 目前 LLM 生态系统包括完全开源的模型(如Pythia、LLaMA等)、只开放权重的模型和专有模型。未来可能会类似于操作系统生态(如 Windows系统、Mac系统、Linux操作系统,而Linux 有无数的分发版本)。 规模化训练这些模型非常困难,是一个非常复杂的分布式优化问题。实际上,目前这方面的人才相当稀缺。 模型规模是最重要的,但还需要很多其他细节,如数据集准备、算法优化等。单纯给钱和算力还训练不出 SOTA(“State of the Art"的缩写,意为"最先进"或"最高水平)模型,还需要很多专业知识。 扩散模型和自回归语言模型是概率建模的两种形式,可能存在将二者统一的空间。目前模型能效还比人脑低几个数量级,未来可能的改进方向包括针对性的计算架构、低精度训练、稀疏性等。 马斯克管理公司的特点包括保持团队小而精干、办公室氛围紧张忙碌、鼓励无用会议早退、与基层工程师直接沟通、果断消除瓶颈等。 Karpathy 更关心 AI 生态系统的健康发展,而非某家公司。他希望生态像珊瑚礁一样丰富多彩,对巨头垄断持谨慎态度。 字幕详情 1 00:00:03,190 --> 00:00:06,535 我很高兴介绍我们的下一个也是最后一个演讲者, Andrej Karpathy. 2 00:00:06,894 --> 00:00:08,737 Karpathy可能不需要介绍. 3 00:00:08,797 --> 00:00:11,941 我们大多数人可能在YouTube上长时间观看过他的视频. 4 00:00:12,901 --> 00:00:17,588 他以深度学习研究闻名. 5 00:00:17,667 --> 00:00:22,452 他设计了斯坦福大学的第一个深度学习课程, 是OpenAI创始团队的一员. 6 00:00:23,454 --> 00:00:28,795 领导了特斯拉的计算机视觉团队, 现在又成为一个神秘人物, 因为他刚刚离开了OpenAI....

April 9, 2024 · 11 min · fisherdaddy

一个超级超级小的编译器的实现,真正代码大约只有200行

在github 上看到一个超级小的编译器实现,看了一下具体实现,大概了解了编译器的实现逻辑,这里分享给大家。 今天,我们将一起编写一个编译器。不过,这不是任何普通的编译器……这是一个超级超级小的编译器!这个编译器小到,如果你把所有注释都删掉,真正的代码只有大约200行。 我们即将将一些类似LISP的函数调用编译成一些类似C的函数调用。 如果你对这两种语言都不太熟悉,我会快速介绍一下。 假如我们有两个函数 add 和 subtract,它们的写法如下: LISP C 2 + 2 (add 2 2) add(2, 2) 4 - 2 (subtract 4 2) subtract(4, 2) 2 + (4 - 2) (add 2 (subtract 4 2)) add(2, subtract(4, 2)) 很简单,对吧? 那很好,因为这正是我们要编译的内容。虽然这既不完全符合LISP也不完全符合C的语法,但它足以演示现代编译器的许多主要部分。 大多数编译器分为三个主要阶段:解析、转换和代码生成。 解析,即将原始代码转换成更抽象的代码表示形式。 转换,即对这种抽象表示进行操作,完成编译器想要完成的任何任务。 代码生成,即将转换后的代码表示转换成新的代码。 核心截断 解析 解析通常分为两个阶段:词法分析和句法分析。 词法分析,将原始代码分割成所谓的tokens,这一过程由一个称为 tokenizer(或lexer)的工具完成。 Tokens是描述语法的孤立部分的一系列小对象。他们可以是数字、标签、标点、操作符等。 句法分析,将 tokens 重新组织成一种表示语法各部分及其相互关系的形式。这种表示称为中间表示或抽象语法树(AST)。 抽象语法树(AST)是一个深度嵌套的对象,它以易于操作的方式表示代码,并提供大量信息。 对于如下语法: (add 2 (subtract 4 2)) Tokens可能如下所示: [ { type: 'paren', value: '(' }, { type: 'name', value: 'add' }, { type: 'number', value: '2' }, { type: 'paren', value: '(' }, { type: 'name', value: 'subtract' }, { type: 'number', value: '4' }, { type: 'number', value: '2' }, { type: 'paren', value: ')' }, { type: 'paren', value: ')' }, ] 而抽象语法树(AST)可能如下所示:...

April 8, 2024 · 15 min · fisherdaddy

如何通过代理提升大语言模型的性能 • Andrew Ng

前段时间看了 Andrew Ng 在红杉组织的AI Ascent 2024 主题活动中的演讲视频,今天正好在 DeepLearning.AI 官方也看到了相关内容,就索性翻译了一下。 我认为,今年 AI agent 的 workflows 将大大推动 AI 的进步,其影响甚至可能超过下一代基础模型的发展。这是一个不容忽视的趋势,我强烈建议所有 AI 领域的工作者都应该重视起来。 目前,我们主要是在零样本模式下使用大语言模型(LLM),即直接提示模型一步步生成最终输出,不进行任何修改。这好比让某人一气呵成地写完一篇文章,不允许回退修改,期望其能写出高质量的作品。尽管这样做颇具挑战,但大语言模型在这方面的表现出奇的好! 然而,通过采用 AI 代理的工作流程,我们可以让 LLM 多次迭代文档。例如,它可能会执行以下一系列步骤: 规划提纲。 确定是否需要进行网络搜索来收集更多信息。 撰写初稿。 复审初稿,寻找不合理的论点或无关的信息。 针对发现的问题修改草稿。 诸如此类的其他步骤。 这种迭代过程是大多数人类写作者撰写优质文本的关键。对于 AI 来说,采用这种迭代的工作流程比一次性完成整篇文章能带来更好的结果。 近期,Devin 的一次引人注目的演示在社交媒体上引发了广泛关注。我们团队一直紧密跟踪代码编写 AI 的发展。我们分析了多个研究团队的成果,重点关注算法在广泛使用的 HumanEval 编码基准上的表现。您可以在下方的图表中看到我们的发现。 GPT-3.5 在零样本模式下的正确率为 48.1%,而 GPT-4 的表现更佳,达到了 67.0%。然而,从 GPT-3.5 到 GPT-4 的进步与采用迭代代理工作流程的提升相比则显得微不足道。实际上,在代理循环的加持下,GPT-3.5 的表现提升至高达 95.1%。 开源代理工具和代理相关的学术文献正迅速增加,这既是一个令人兴奋的时刻,也是一个令人困惑的时期。为了帮助大家更好地理解这项工作,我想分享一个框架,用于对构建代理的设计模式进行分类。我的团队 AI Fund 在许多应用中成功采用了这些模式,我希望它们对你也有帮助。 反思:LLM 审视自己的工作,并提出改进方案。 工具使用:LLM 被赋予工具,比如网络搜索、代码执行等,以帮助其收集信息、采取行动或处理数据。 规划:LLM 设计并执行一个多步骤计划来实现目标(比如,为一篇文章制定提纲,接着进行在线研究,然后撰写草稿等等)。 多代理合作:多个 AI 代理合作,分担任务,讨论和辩论观点,以提出比单一代理更好的解决方案。 反思 也许你曾这样体验过:你向 ChatGPT 、 Claude 或 Gemini 提出请求,结果不尽如人意。之后,你给出关键反馈,帮助模型优化答案,然后它给出了更好的回应。如果我们将提供关键反馈的步骤自动化,让模型能自我批评并优化输出呢?这正是“反思”模式的核心所在。...

April 8, 2024 · 1 min · fisherdaddy

探索长文本上下文的 RAG 方向 • LlamaIndex

本文翻译自 Llamaindex 官方发布的一篇文章:《Towards Long Context RAG》 Google 最近发布了 Gemini 1.5 Pro,带有 1M context window,仅向一小部分开发者和企业客户提供。它在由 Greg Kamradt 推广的“大海捞针”实验中实现了 99.7% 的召回率。这一成就引起了 Twitter 上的 AI 圈子的广泛关注。早期用户输入了大量研究论文和财务报告进行测试,并报告说其在整合海量信息方面表现出色。 这自然引发了一个问题:RAG 是否已经过时了?有人认为确实如此,而另一些人则持不同意见。认为 RAG 过时的一方提出了一些有力的论点,比如大多数小数据场景都可以适应 1 到 10M 的上下文窗口大小,而且随着时间的推移,处理 token 的成本和速度都会降低。通过注意力层直接在大语言模型(LLM)中融合检索和生成过程,与简单的 RAG 模型中单次检索相比,可以获得更高质量的响应。 我们有幸提前体验到 Gemini 1.5 Pro 的能力,并在此基础上发展了一套论点,关于 context-augmented LLM 应用的未来发展方向。本篇博客旨在明确我们作为数据框架的使命,以及我们对长上下文大语言模型架构未来形态的看法。我们认为,尽管长上下文的大语言模型会简化某些 RAG 处理流程(如数据分块),但为了应对新的使用场景,还需发展新的 RAG 架构。无论未来发展如何,LlamaIndex 的使命都是为构建未来的工具而努力。 我们的使命远不止于 RAG LlamaIndex 的宗旨非常明确:赋能开发者在自己的数据上构建基于大语言模型的应用。这个目标远不止于 RAG。迄今为止,我们已经在推动现有大语言模型使用 RAG 技术方面投入了巨大的努力,这使得开发者能够开发出许多新的应用场景,例如在半结构化数据、复杂文档上进行问答(QA)以及在多文档环境中进行具有代理能力的推理。 对 Gemini Pro 的兴奋之情也同样激励着我们,未来我们将继续推动 LlamaIndex 作为一个面向长上下文大语言模型时代的数据框架向前发展。 **大语言模型框架本身极具价值。**作为一个开源的数据框架,LlamaIndex 为从原型到生产构建任何大语言模型应用场景提供了一条清晰的路径。与从头开始构建相比,使用框架能显著简化开发过程。我们使所有开发者都能够构建这些应用场景,无论是通过使用我们的核心抽象来搭建恰当的架构,还是利用我们生态系统中的众多集成。不论底层大语言模型技术如何进步,不论 RAG 是否继续以当前形式存在,我们会持续优化框架,确保其准备就绪,包括严密的抽象设计、一流的文档和一致性。 我们上周还推出了 LlamaCloud。LlamaCloud 的使命是构建数据基础设施,使任何企业能够让其庞大的非结构化、半结构化和结构化数据源为使用大语言模型做好准备。 Gemini 1.5 Pro 初步观察 在我们的初步测试中,我们尝试了一些 PDF 文件,如 SEC 10K 文件、ArXiv 论文、这个庞大的 Schematic Design Binder,等等。一旦 API 可用,我们将进行更深入的分析,但暂时,我们在下面分享了一些观察结果。...

April 8, 2024 · 2 min · fisherdaddy

特斯拉的总体规划其二 • Elon Musk in 2016

刚看完马斯克在 twitter 上转发的他在2016年写的 特斯拉总体规划其二 这篇文章,写的非常好且都实现了,其中也提到了一些行业认知,顺手就把两篇规划内容都翻译了一下。 特斯拉总体规划其一 这篇文章,马斯克写于2006年, 十年前我提出的第一份总体规划现在即将完全实现。这个计划本身并不复杂,大致包括以下几个步骤: 制造一款产量低、价格昂贵的汽车 利用这款汽车的收益,开发一款中等产量、价格更亲民的汽车 再利用所得资金,生产一款价格实惠、大众化的汽车 另外,我们还计划提供太阳能供电——没错,这一目标已经在我们网站上公示了十年。 之所以选择从第一步开始,是因为那是我利用从PayPal获得的收入所能承受的最大投资。我当时认为我们成功的机会很小,因此我不愿意在一开始就冒险使用他人的资金。至今为止,能够成功立足的汽车公司寥寥无几。截至2016年,美国仅有Ford和Tesla两家汽车公司没有破产。启动一家汽车公司的想法本身就充满了挑战,而电动汽车公司则更是难上加难。 此外,小批量生产的汽车意味着需要一个规模较小、结构更简单的工厂,尽管大多数工作需要手工完成。缺乏规模经济效应意味着无论是经济型轿车还是跑车,成本都会相当高昂。 尽管有些人愿意为一款跑车支付高昂的价格,但没有人愿意为一款看起来很酷的电动Honda Civic支付10万美元。 我之所以撰写第一个总体规划,部分原因是为了反驳那些不可避免的指责,那些指责声称我们只关注为富人制造汽车,仿佛我们认为市场上缺少跑车制造商或其他奇怪的理由。遗憾的是,尽管有了博客作为申辩,我们仍无法避免这些基于相同理由的无休止攻击,因此这个目标基本上宣告失败。 然而,撰写总体规划的主要原因,是希望通过解释我们的行动如何融入一个更大的框架,使这些行动看起来不那么随意。这一切的核心目标是,加速可持续能源的到来,让我们可以放心地展望未来,相信生活依然美好。这就是“可持续性”的真正意义。这不仅仅是一种理想化的幻想——它关乎每个人的未来。 基本上,我们必须最终实现一个可持续能源的经济体系,否则我们将耗尽化石燃料,文明将面临崩溃的危机。考虑到我们迟早需要摆脱对化石燃料的依赖,而且几乎所有科学家都认为,大幅增加大气和海洋中的碳含量是不负责任的,因此我们越快实现可持续性越好。 为了让这一天更快到来,我们计划采取以下措施: 整合能源生产与储存:我们计划打造一个集成度高、外观美观的太阳能屋顶和电池产品,使个体能够自给自足,随后将这一模式推广至全球。这包括一个一站式的订购体验、安装服务、客服联系和手机应用操作。 如果 Tesla 和 SolarCity 仍为两家独立公司,我们就无法有效地实现这一目标。这两家公司之所以是分开的,主要是历史的偶然结果。现在,随着 Tesla 准备大规模推广 Powerwall,而 SolarCity 准备提供具有明显差异化的太阳能产品,合并两家公司的时机已经成熟。 扩大到覆盖主要的地面运输方式:目前,Tesla主要涉足的是高端轿车和SUV市场的小部分。通过Model 3、未来的紧凑型SUV和一种全新的皮卡车,我们计划覆盖大部分消费者市场。由于我们已有计划涵盖下方描述的第三部分,因此生产一款成本低于Model 3的车辆似乎是没有必要的。 为了加速实现可持续未来,最关键的是能够尽快扩大生产规模。这就是为什么Tesla的工程设计现在主要集中在设计“制造机器的机器”上——把工厂本身变成产品。 通过每两年迭代一次,我们预计可以实现5到10倍的生产效率提升。可以将第一个Model 3工厂视作0.5版,预计1.0版将在2018年推出。 自动驾驶:随着技术的成熟,所有Tesla车辆都将配备实现完全自动驾驶所需的硬件,即使车辆的某个系统出现故障,车辆仍能安全行驶。需要强调的是,软件的完善和验证将比安装相机、雷达、声纳和计算硬件花费更长时间。 即便软件已经非常完善,比人类驾驶员更加安全,真正的自动驾驶获得监管机构批准之前,还会有一段相当长的时间。我们预计,全球范围内获得监管批准可能需要大约60亿英里(100亿公里)的测试里程。目前,我们的车队每天以超过300万英里(500万公里)的速度进行学习。 共享:一旦真正的自动驾驶获得监管批准,你将能够从几乎任何地方召唤你的Tesla。它接上你后,你可以在前往目的地的途中睡觉、阅读或做任何其他事情。 你还可以通过在Tesla手机应用上简单点击一个按钮,将你的车辆加入Tesla共享车队,让它在你工作或度假期间为你赚钱,这将大幅降低真正的拥有成本,有时甚至可以覆盖每月的贷款或租赁费用。这大大降低了拥有一辆Tesla的成本,使几乎每个人都能负担得起。考虑到大多数汽车每天只有5%到10%的时间被使用,一个真正的自动驾驶汽车的经济价值可能是非自动驾驶汽车的几倍。 在需求超过个人汽车供应的城市,Tesla将运营自己的车队,确保你无论身在何处都能轻松叫到车。 总而言之,总体规划的第二部分包括: 打造集成电池存储的惊艳太阳能屋顶 扩大电动汽车产品线,覆盖所有主要市场细分 通过大规模车队学习,开发出比手动驾驶安全10倍的自动驾驶能力 让你的汽车在你不使用时也能为你赚钱

April 7, 2024 · 1 min · fisherdaddy

特斯拉的总体规划其一 • Elon Musk in 2006

刚看完马斯克在 twitter 上转发的他在2016年写的 特斯拉总体规划其二 这篇文章,写的非常好且都实现了,其中也提到了一些行业认知,顺手就把两篇规划内容都翻译了一下。本文翻译自 特斯拉总体规划其一 这篇文章,马斯克写于2006年, 您可能已经知道,特斯拉汽车的首款产品是一款名为特斯拉Roadster的高性能电动跑车。不过,可能有些读者还不清楚,我们长远的目标是推出各种车型,包括价格亲民的家用汽车。特斯拉的宏伟蓝图(也是我为何投资这家公司的原因)旨在加速从传统的矿产能源经济向太阳能电力经济的转变,我坚信这是向可持续发展迈进的关键路径,尽管它不是唯一的解决方案。 达成这一目标的关键是研发一款无需妥协的电动汽车。这就是为什么特斯拉Roadster在设计上要胜过传统的汽油跑车,如保时捷或法拉利,在直接对决中表现出色。此外,它的能效是丰田普锐斯的两倍。尽管如此,有人可能会质疑这样的车型是否真的能为世界带来好处。我们真的需要更多的高性能跑车吗?它对全球碳排放的影响真的有意义吗? 答案可能是并非必要,且影响有限。但这种看法忽视了一个重点,除非你了解了前文提到的秘密大计。几乎所有新技术在初期都会面临高成本问题,直到它们被优化,电动车也不例外。特斯拉的战略是从高端市场入手,那里的消费者愿意为新技术支付溢价,然后快速向下扩展到更广泛的市场,通过推出更多后续车型以实现更大的销量和更低的价格。 虽然不能透露太多细节,但我可以告诉您,第二款车型将是一款价格大约是特斯拉Roadster 8.9万美元一半的运动型四门家用车,第三款车型将更加平价。作为一家快速成长的科技公司,我们将所有自由现金流再投入研发,以降低成本,尽快将新产品推向市场。当有人购买特斯拉Roadster跑车时,实际上他们是在资助开发更加经济实惠的家用车。 现在,我想解答一些对电动汽车的常见质疑——电池处理和发电厂排放问题。对于第一个问题,答案很简单:我们的电池对环境无害! 虽然我不建议把它们当作餐后甜点,但特斯拉的锂离子电池并不属于危险物质,且可以安全填埋。然而,直接丢弃这些电池等同于浪费,因为在它们超过100,000英里的设计使用寿命后,仍可以将电池组卖给回收公司(无需补贴)。此外,即便到了那时,电池也并非完全报废,只是续航里程有所减少。 至于发电厂排放问题,也就是所谓的“长尾排放”问题 一种常见的误解是电动车只是将$CO_2$排放问题转移至发电厂。实际上,我们完全有可能通过多种方式发电,例如水力、风能、地热、核能、太阳能等,这些方法不产生$CO_2$排放。但让我们假设电力是通过燃烧天然气这样的碳氢化合物能源产生的,天然气是近年来美国新建发电厂中最常用的燃料。 通用电气的H-系统联合循环发电机组在将天然气转换成电力方面的效率达到60%。所谓的“联合循环”技术,是指先燃烧天然气发电,然后利用废热产生蒸汽,再次发电。天然气的开采效率为97.5%,加工效率也为97.5%,通过电网传输的平均效率为92%。这样,从源头到用户的总效率为97.5% x 97.5% x 60% x 92% = 52.5%。 尽管特斯拉Roadster的车身设计、轮胎和齿轮配置更倾向于性能而非最优效率,但它每公里仅需0.4 MJ的电力,换句话说,每兆焦耳能量可驱动2.53公里。特斯拉Roadster的完整充放电效率为86%,意味着每100 MJ充入的电力中,约有86 MJ能直接驱动电机。 把这些数据综合起来,我们得到的终极效能指标是2.53 km/MJ x 86% x 52.5% = 1.14 km/MJ。让我们将其与普锐斯和其他一些通常被认为节能的选项做对比。 一辆汽油车从源头到轮胎的整体能效相当于汽油的能量含量(34.3 MJ/升)减去炼油和运输过程的损失(18.3%),再乘以每加仑能行驶的英里数或每升能行驶的公里数。因此,按照EPA的评级,普锐斯以每加仑55英里的效率,其能效为0.56 km/MJ。与“普通”汽车如丰田Camry的0.28 km/MJ相比,这实际上是非常优秀的表现。 值得一提的是,目前市面上的“混合动力”车辆名称有些误导。它们实际上更多是带有辅助电池的汽油车,除非通过后市场改装,否则这些小型电池还是需要通过汽油发动机来充电。因此,从本质上讲,它们只不过是效率稍高的汽油车。如果EPA的认证里程是每加仑55英里,那么它实质上和一个达到55 mpg的非混合动力车没有区别。就像我的一位朋友所说,即便全世界的驾驶者都开普锐斯,我们仍然完全依赖石油。 不同能源的$CO_2$排放量是众所周知的。天然气每兆焦耳含有14.4克碳,石油则是每兆焦耳含有19.9克碳。将这些碳排放水平应用到不同车辆的能效上,包括本田使用天然气的燃烧和燃料电池汽车作为参考,纯电动汽车无疑是最佳选择: 汽车 能源来源 二氧化碳含量 效率 二氧化碳排放 Honda CNG 天然气 14.4 g/MJ 0.32 km/MJ 45.0 g/km Honda FCX 天然气-燃料电池 14.4 g/MJ 0.35 km/MJ 41.1 g/km Toyota Prius 石油 19....

April 7, 2024 · 1 min · fisherdaddy

OpenAI 各个模型简介和价格情况

由于我日常开发中经常用到 OpenAI 的接口,这里列一下 OpenAI 各个模型的简单介绍以及各模型 api 的收费标准、上下文窗口、最大输出token、训练数据截止日期等信息。为了更加的直观的看到OpenAI各个模型价格一览,做了一个网页版的各模型价格对比。 模型概述 模型 描述 GPT-4o 最快且最实惠的旗舰型号 GPT-4o mini 我们的经济实惠且智能的小型模型,适用于快速、轻量级任务。 o1 和 o1-mini 擅长复杂、多步骤任务的推理模型 o3-mini 推理系列中最新且最具成本效益的模型 GPT-4o Realtime 能够实时文本和音频输入和输出的 GPT-4o 模型 GPT-4o Audio 能够通过 REST API 进行音频输入和输出的 GPT-4o 模型 GPT-4 和 GPT-4 Turbo 一组在 GPT-3.5 基础上改进的模型,能够理解和生成自然语言或代码 GPT-3.5 Turbo 一组在 GPT-3.5 基础上改进的模型,能够理解和生成自然语言或代码 DALL·E 一个可以根据自然语言提示生成和编辑图像的模型 TTS 一组可以将文本转换成自然听起来的口语音频的模型 Whisper 一个可以将音频转换成文本的模型 Embeddings 一组可以将文本转换成数值形式的模型 Deprecated 已被弃用的模型完整列表以及建议的替代品 GPT-4o GPT-4o (“o” 代表 “omni”) 是我们最先进的模型。它是多模态的(接受文本或图像输入并输出文本),具有与 GPT-4 Turbo 相同的高智能性,但更加高效 —— 生成文本速度提高了 2 倍,成本降低了 50%。此外,GPT-4o 在所有非英语语言中具有最佳的视觉和性能。GPT-4o 可供付费客户在 OpenAI API 中使用。在我们的文本生成指南中学习如何使用 GPT-4o。...

April 7, 2024 · 8 min · fisherdaddy

MidJourney、DeepL、ElevenLabs和HeyGen共有的特点(除了他们的特别团队和快速增长!)

本文翻译自一位知名的风险投资家Sarah Tavel的文章。Sarah Tavel 是一位知名的风险投资家,目前担任 Benchmark Capital 的一名合伙人。Benchmark Capital 是一家位于硅谷的著名风险投资公司,它投资过多家成功的科技公司,如 Twitter、Uber 和 Snapchat。Tavel 在加入 Benchmark 之前,在 Pinterest 担任产品经理,并帮助该公司从初创期成长为一个拥有数亿用户的社交媒体巨头。在此之前,她还在 Greylock Partners 担任投资者,专注于消费者技术和软件即服务(SaaS)领域的投资。 媒体和私下讨论常常流传着一种观点:在利用人工智能(AI)方面,是那些老牌公司而非新兴初创企业占据上风。这种想法认为,人工智能更多是一种强化现有企业地位的技术,而非一股让新入者得以崛起的颠覆力量。这种看法在某种程度上是有根据的,尤其是对那些旨在提升员工现有工作效率的初创公司来说。Adobe 和 Notion 等公司迅速集成AI功能的案例便是证明。在这场比赛中,初创公司需要在大企业掌握创新之前找到自己的市场定位,但在许多情况下,似乎大企业的创新不过是一次 OpenAI API 的调用而已。然而,这种观点太过简化了。我们现在见证到,一批B2B AI企业通过提供比传统服务高出十倍的体验,并大幅降低成本,激发了巨大的收入增长。 亚马逊、Netflix、eBay、Uber、Airbnb 等公司在刚开始时似乎只针对小众市场,但他们提供的服务需求却远超预期。回顾过去,秘诀显而易见:他们利用技术优势,在结构上降低成本,提供的服务体验远胜于现有的替代品,而且价格更为便宜。 几乎每次,人们都低估了这些公司的潜力。最大的误判在于,当技术使得体验质量大幅提升,同时显著降低成本时,产品的需求和应用场景会急剧扩张。 让我们回到AI领域。 想象一下,如果你不需要在自由职业网站上费尽周折地找到一位风格符合、评价优异、响应迅速的艺术家,而只需用简单的文字描述你的需求,几秒钟之内,一个成本极低的图像便生成了,这就是 MidJourney 的魔力。 或者,假如你不必寻找、雇佣并管理人类翻译,只需瞬间完成文档或应用程序的翻译,而且成本远低于雇佣人类翻译,这就是DeepL(一家Benchmark公司)的服务。 HeyGen则开拓了一个之前因成本和复杂性而被忽视的市场:为公司雇佣演员。原本需要数小时来完成的寻找演员、安排拍摄和后期制作的工作,现在只需五分钟,且可以无限次地迭代剧本和调整其他控制。 ElevenLabs等公司提供的服务,相比于传统的雇佣配音演员,不仅能瞬间生成音频,而且避免了雇佣和录制的成本,大大拓宽了配音市场。 重要的是,这些公司提供的不仅仅是对现有员工和工作流程的生产力改善。相反,它们通过减少雇佣和合作过程中的劳动、摩擦和成本,解锁了新的市场。这正是那些被现有大企业所忽视的市场。 如果说过去的初创企业带来了十倍的改进,那么AI提供的则是一种相较于传统服务(即人类劳动)百倍的体验升级。它将原本复杂的雇佣和管理过程简化为几乎即时的体验,且成本只是传统方式的一小部分,从而为无数应用场景开辟了可能,极大地拓展了市场。正如人们最初低估了Uber的市场潜力一样,我们同样低估了许多AI初创企业的发展机遇。 接下来的有趣问题是,哪些领域将迎来突破?正如我之前所写,通过分析2021年美国服务行业对GDP的贡献,可以预见哪些行业中可能涌现出创新的初创企业……如果你正在创办这样一家公司,我非常希望与你见面。Sarah at Benchmark dot com。 在撰写这篇文章时,我再次触及了一个敏感话题:人工智能最终会取代人类的工作。对每一项新技术,总伴随着这样的担忧。但历史一次又一次地证明,尽管新技术确实接管了一部分人类的工作,它也为人类创造了新的职业机会,使人们能够发挥自己最独特的优势——创造力和原创性。尽管我对AI充满热情,但事实是,我们对这项技术的探索仍处于初级阶段,仍有无数工作只有人类能够完成。人工智能为人类提供了更广阔的空间,去追求那些最能体现人性光辉的事业。

April 7, 2024 · 1 min · fisherdaddy

基于 Claude 3 实现的 AI 作家

Claude-Author 利用 Claude 3 Haiku 模型 和 Stable Diffusion 调用来生成原创小说。用户可以提供初始提示并输入他们想要的章节数,然后 AI Author 会生成整本小说,输出与电子书阅读器兼容的 EPUB 文件。 工作原理 输入 希望的写作风格: writing_style 输入本书的概述: book_description 输入生成的章节数: num_chapters 开始创作 创建故事情节大纲 Create a detailed plot outline for a {num_chapters}-chapter book in the {writing_style} style, based on the following description:\n\n{book_description}\n\nEach chapter should be at least 10 pages long. 逐章节生成内容 Previous Chapters:\n\n{' '.join(chapters)}\n\nWriting style: `{writing_style}`\n\nPlot Outline:\n\n{plot_outline}\n\nWrite chapter {i+1} of the book, ensuring it follows the plot outline and builds upon the previous chapters....

March 29, 2024 · 1 min · fisherdaddy