Posts

何时去做你热爱的事情 • Paul Graham

保罗格雷厄姆的这篇文章讨论了“是否应该追随自己的激情”的复杂性，认为答案不能简单地归结为“是”或“否”。作者指出，是否应该追随兴趣取决于个人目标和情境。如果主要目标是赚钱，通常无法仅凭兴趣工作，但在某些情况下，兴趣与财富可以一致。对于那些想要取得卓越成就的人，追随兴趣则是必要的。文章还强调了在不确定情况下，通过尝试和探索来获得更多确定性的重要性。追随兴趣与赚钱的权衡如果主要目标是赚钱，通常无法完全按照兴趣行事，因为人们付钱让你做他们想要的事情，而不是你想做的事情。例外情况是，当你的兴趣和市场需求一致时，比如在足球或软件开发领域，兴趣和收入可以重合。兴趣与成功的关系对于那些有“奇怪”兴趣的人，成功的几率更大，例如 Bill Gates 对软件公司运营的热爱。有些人对“赚钱”本身有知识性兴趣，把发现市场错误定价当作一种智力挑战。创业与兴趣的联系想要赚取巨额财富的人，通常通过创业实现，而创业的好点子往往源于个人兴趣。许多大型公司（如 Apple、Google 和 Facebook）最初都是创始人出于兴趣的项目。不确定时的行动策略当不确定该追随兴趣还是追求财富时，通常是因为缺乏对自我、工作性质和能力的充分了解。最好的方法是通过实际行动获取更多信息，尽早开始尝试不同的工作或项目，而不是等待毕业或实习机会。 “上风”策略在不确定的情况下，选择能为未来提供更多选择的路径，例如在选择专业时，数学比经济学更具灵活性，因为数学为转向经济学提供了更多可能性。伟大工作与兴趣的关系如果想要做出伟大成就，追随兴趣是必要条件。虽然并非每个人都能做出伟大成就，但对于那些有志于此的人，兴趣是不可或缺的动力源泉。经济不平等的自然性文章提到，经济不平等并不一定是社会不公的表现，因为不同人有不同的兴趣，而某些兴趣能带来更多财富。判断他人动机的思考实验作者建议通过思考实验来判断一个人是否真正对工作感兴趣：如果不支付高薪，他们是否仍愿意在业余时间从事这项工作？例如，许多数学家和科学家会这么做，但投资银行家可能不会。何时去做你热爱的事情 2024年9月在“是否应该追随自己的热爱”这个问题上，存在不少争论。事实上，这个问题很难用简单的“是”或“否”来回答。有时候你应该追随自己的热爱，有时候却不该，但“应该”与“不该”之间的界限非常复杂。要回答这个问题的唯一方式是仔细分析其中的逻辑。人们讨论这个问题时，往往带有“代替”的意味。在其他条件都相同的情况下，为什么不选择自己最感兴趣的事情呢？所以，提出这个问题本身意味着你需要在“做自己喜欢的事”和其他选择（比如高薪工作）之间做出权衡。如果你的首要目标是赚钱，那么你通常无法随心所欲地从事自己喜欢的工作。人们付钱是让你做他们想要的事情，而非你自己想做的。但也有明显的例外：当你的兴趣和他们的需求一致时。例如，如果你热爱足球，并且足够优秀，那么踢足球也能带来丰厚收入。当然，像足球这种职业的成功几率并不高，因为有太多人也喜欢踢足球。这并不是说你不该去尝试，关键是看你的天赋和努力程度。当你有一些“冷门”的兴趣时，成功的机会更大：即喜欢一些既有高收入、又少有人感兴趣的领域。例如，显然 Bill Gates 真正热爱经营一家软件公司。他不仅喜欢编程（这是很多人喜欢的），还喜欢为客户开发软件。这种兴趣非常特别，但如果你也有这种兴趣，追随它可能带来丰厚的回报。有些人对赚钱本身也有一种智力上的兴趣。这与单纯的贪婪不同，他们会敏锐地注意到某些事物的价值偏低，并忍不住去纠正，对他们来说，这就像解谜一样。实际上，这里有一个例外，甚至可以颠覆上述所有建议。如果你想赚取巨额财富——几亿甚至几十亿美元——那么从事自己最感兴趣的事情会很有帮助。这并不是因为兴趣带来更多动力，而是因为赚大钱的方式往往是创业，而你对某件事的热爱常常会引发独特的创业灵感。许多知名的创业公司，比如 Apple、Google 和 Facebook，都是因为创始人兴趣驱动而起步的。为什么这种模式如此常见？因为最佳的创业点子通常是那种刻意寻找时反而会忽略的。而当你年轻且技术能力强时，你对哪些事情有兴趣的直觉往往与市场需求不谋而合。在财富积累上，可以说存在一种“中等智商峰值”。如果你不需要赚太多钱，你可以随心所欲地做喜欢的事；如果你想实现中等富裕，通常需要做一些妥协；但如果你追求极致的富裕，并且你年轻且擅长技术，那么选择从事自己最感兴趣的事情又变得可行。那么，如果你对自己真正的兴趣并不确定呢？如果你既渴望赚钱，又对某些工作更有兴趣，但没有一种吸引力占上风，又该如何选择？这里的关键在于，这种纠结通常是表象。当你在兴趣与收入之间难以抉择时，往往并不是因为你对自己和工作完全了解、且这些选项恰好平衡。大多数情况下，这是因为你对自身和工作理解不够全面。具体来说，你可能对以下三方面都不了解：什么能让你真正快乐、各类工作的实际内容、以及自己在这些工作中的潜力。这种不确定在某种程度上是可以理解的。很难预测什么工作会让你开心，而没有人会告诉你需要去思考这些问题。如果你有抱负，人们会建议你上大学，而这确实是不错的建议，但通常到此为止。没有人会告诉你如何选择适合自己的工作，也很少人告诉你这有多难。面对不确定性时，你该做的就是去获得更多的确定性。而获得确定性的最佳方式之一，就是去尝试做你感兴趣的事。这样你能了解自己对它的热情、自己的能力以及这个领域的发展空间。不要等，不要等到大学毕业才思考要做什么，也不要等到实习。你不一定需要正式的工作来做一件事，许多事情你可以自己尝试去做。因为探索适合的职业可能需要数年，所以越早开始越好。判断不同工作的一个有效方法是观察你的同事。你会越来越像与你共事的人。你愿意成为这样的人吗？实际上，不同工作的性格特征被同事放大了。如果你因为高薪而选择一份工作，你会被同样因为高薪而来的同事包围，这会让工作比外界看起来更加令人疲惫不堪。而如果你选择了自己真正感兴趣的工作，你周围会有同样热爱这份工作的人，这将使工作更加激励人心。应对不确定性时的另一个策略是选择那些“未来留有更多选择”的选项。我称之为“保持前沿”。例如，如果你不确定是否主修数学或经济学，可以选择数学，因为数学是经济学的前沿，未来你更容易从数学转向经济学。但有一种情况下，你是否应做自己最喜欢的事情的答案很明确：如果你想做出杰出成就。虽然这不是做出杰出成就的充分条件，但却是必要条件。关于“是否追随热爱”的建议往往具有选择偏差。大部分这样的建议来自那些成功人士，如果你问他们如何达成成就，他们多数会告诉你，要做自己最感兴趣的事情。这确实是事实。这并不代表适合每个人。并非每个人都能或愿意做出杰出成就。但如果你确实想要，那么是否去做自己最感兴趣的事情这个复杂问题就变得简单了。答案是肯定的。伟大成就的根源在于一种雄心勃勃的好奇心，而这种好奇心无法制造。注释这些例子说明，假设经济不平等就是某种缺陷或不公平是错误的。显而易见的是，不同的人有不同的兴趣，而有些兴趣能带来更多财富，因此在有人喜欢写企业软件而另一些人喜欢做陶艺的世界中，经济不平等是一种自然结果。在兴趣之间做选择的困难是另一回事。这并不总是因为无知。往往是内在的困难。我自己也常常感到难以抉择。不要总是相信人们在这方面的言辞。由于追求兴趣比单纯追求金钱更具声望，那些主要因金钱驱动的人往往会声称对工作更有兴趣。测试这种说法的一种方法是设想：如果他们的工作不再高薪，他们是否会为了继续做这件事而选择一份养活自己的日常工作？很多数学家、科学家和工程师会这么做。在历史上，确实很多人是这样做的。但我不认为有多少投资银行家会这样。

我通过内容赚了 50 万美元，但我认为内容行业并不是一个好选择 • Swizec Teller

Swizec Teller 在这篇文章中反思了自己通过内容创作赚取 $500k 的经历，认为内容创作虽然有潜力带来可观的收入，但本质上是一个不稳定且难以持续的商业模式。他指出，内容创作更像是“拥有一份工作”而不是“经营一门生意”，并且这个行业充满了竞争和消耗，尤其是对于独立创作者而言。Teller 强调了内容创作的两种类型——娱乐性和洞察性，并提出了他对行业现状的批评，尤其是与广告驱动和开发者关系（DevRel）内容的竞争。关键细节内容创作的商业模式：内容创作的核心是通过建立受众，然后周期性地推出产品。每次产品发布通常伴随强烈的市场营销推动，使用人工稀缺性策略（如限时优惠、新产品等）来促成销售。内容创作的收益不稳定，且需要持续不断地推出新内容才能维持收入。内容的两种类型：娱乐性内容：此类内容通常通过广告或商品销售获利，旨在吸引广泛受众，用户无需解决具体问题。洞察性内容：此类内容专注于解决特定问题，通常通过销售产品（如书籍、课程）获利。免费内容则用于建立受众。创作者的困境：内容创作者在行业中处于不利地位，往往像“消耗品”一样被快速替换。平台、出版商和背后的机构才是主要的获利者。创作者必须不断推出新的“热门”内容，无法停下来，否则业务就会迅速失去盈利能力。与开发者关系（DevRel）的竞争： DevRel 团队拥有大量资源，内容创作只是他们推动 SaaS 订阅和企业合同的手段。独立创作者难以与之竞争，因为 DevRel 可以投入更多的资金和人力。 DevRel 内容往往通过付费影响者进行推广，缺乏深度洞察，而独立创作者则更注重分享真实的经验和见解。未来的方向： Teller 认为编程教程类内容的 SEO 市场已经饱和，尤其是在 ChatGPT 等 AI 工具的帮助下，新手问题可以轻松得到定制化解答。未来的机会在于那些难以复制的深度洞察内容。 Teller 最后建议，尽管内容创作有其挑战，分享深度见解仍然是有价值的，但不应将其作为全职事业。我通过内容赚了 50 万美元，但我认为内容行业并不是一个好选择朋友问我 “Swiz，你为什么还要打工？”，他指的是我围绕软件工程师书籍和课程的副业还算成功。我忍不住一直在琢磨这个问题，所以今天跟大家聊聊。这项业务自从我在 2015 年推出第一本 React+D3 电子书后，经历了几次迭代。从那时起，它已经创造了近 50 万美元的收入（没有广告收入），逐渐发展为一个小团队，推出了多个产品，多年来基本上都很赚钱。到了 2023 年左右，我开始慢慢退出。过去八年里，我几乎天天都在思考 “下一个要写的是什么？”，但我感到疲惫，这份业务也不再带给我快乐。说到底，倦怠是一种徒劳无功的磨砺。业务几乎立即就不再盈利了。这是我认为这不是一个“好生意”的最有力证据。说是生意，不如说是给自己打工。内容行业的运作方式每个内容行业都有一套公式。有人偶然碰上了这套公式，有人则是潜移默化学到的。如果你知道该去哪里找资料，相关的内容早已成体系。我花了 2000 多美元买课程来优化这套公式，结果回本了 50 倍。这比自己摸索要快得多 :) 具体操作方式如下：大部分时间都在“建立受众群体” 这是你的分发渠道接着你创建产品定期“推出”产品发布是一场强力的市场推广，带有一些人为制造的稀缺感。目的是让人们有足够动力去购买，比如限时优惠、特别赠品、真正的新品发布等等。你会卖出一大批产品，但 80% 的买家从未真正使用。几个月后你再一次推出。虽然看似重复，但并不无聊。随着受众的增长，很多人第一次看到你的产品，觉得是新鲜的。...

OpenAI 产品发布时间线一览

这里整理一下 OpenAI 发布的一系列重大里程碑产品和事件，部分内容参考 OpenAI Release Notes。为了方便预览和美观，我做了一个网页版，大家可自行取用。 2015年12月：OpenAI 成立核心功能：创建人工智能，造福全人类功能介绍：OpenAI的成立标志着人工智能研究的开端，致力于确保先进AI技术的安全和普及。 2016年4月：OpenAI Gym 发布核心功能：强化学习训练平台功能介绍：提供了一套工具用于开发和比较强化学习算法，促进了AI社区的算法研究。 2016年12月：Universe 发布核心功能：通用AI开发与测试平台功能介绍：支持AI在各种环境中进行训练和测试，拓展了强化学习的应用领域。 2018年6月：GPT-1 发布核心功能：自然语言生成模型功能介绍：首个将Transformer与无监督预训练相结合的模型，开启了大规模语言模型的探索。 2019年2月：GPT-2 发布核心功能：文本生成功能介绍：拥有15亿参数的语言模型，展示了在文本生成上的强大表现。 2020年6月：GPT-3 发布核心功能：自然语言处理功能介绍：GPT-3参数量达1750亿，显著提升了自然语言理解和生成能力。 2021年1月：DALL·E 发布核心功能：图像生成功能介绍：通过文本描述生成图像，拓展了生成模型的应用场景。 2021年8月：Codex 发布核心功能：自然语言转代码功能介绍：支持代码自动生成，成为GitHub Copilot的核心技术。 2022年4月：DALL·E 2 发布核心功能：高分辨率图像生成功能介绍：生成的图像更细致，支持更高的分辨率。 2022年9月：Whisper 发布核心功能：语音识别功能介绍：多语言语音识别模型，接近人类的识别水平。 2022年11月30日：ChatGPT 核心功能：基于 GPT-3.5 的 ChatGPT 网页版功能介绍：能够进行自然语言交互，回答任意问题的 AI 助手 2023年1月27日: ChatGPT Plus订阅服务推出核心功能：付费订阅版ChatGPT，收费为每月20美元功能介绍：提供更快的响应速度、高峰时段优先访问、优先使用新功能和改进等额外功能 2023年3月14日：GPT-4 发布核心功能：多模态大模型功能介绍：支持图像输入，其理解力和生成能力大幅提升 2023年3月24日：ChatGPT Plugins 推出核心功能：对第三方插件的支持功能介绍：ChatGPT Plugins是进一步生态变革的开端，基于ChatGPT的改进包括：能够访问互联网实时数据、创建并编译代码、调用和创建第三方程序等等 2023年5月18日：ChatGPT iOS 版发布核心功能：iOS 版的 ChatGPT 功能介绍：iOS 版的 ChatGPT 2024年7月25日：ChatGPT Android 版发布核心功能：Android 版的 ChatGPT 功能介绍：Android 版的 ChatGPT 2023年8月29日：ChatGPT Enterprise 版发布核心功能: 面向企业的ChatGPT版本功能介绍: 提供企业级安全和数据隐私保护，提供无限速的GPT-4访问权限，支持32K上下文输入，高级数据分析功能，自定义选项等所有高级功能 2023年9月26日：GPT-4V (Vision) 发布核心功能：GPT-4 的视觉增强版本功能介绍：它具有更强大的图像处理能力，可以执行更复杂的视觉分析任务，如详细的场景描述、物体识别、视觉推理等 2023年11月6日：GPT-4 Turbo、DALL·E 3、GPTs 发布核心功能：增强版GPT-4 功能介绍：融合了文本和视觉能力的大模型 2024年2月15日：Sora 预告核心功能：文本到视频生成AI 功能介绍：首个视频生成模型，能够生成长达一分钟的高清视频，同时保持视觉品质并遵循用户提示。 2024年5月14日：GPT-4o 发布核心功能：GPT-4o的"o"代表"omni"，意为"全能" 功能介绍：GPT-4o 是迈向更自然人机交互的一步，支持文本、音频和图像的多模态输入，提升了人机交互的自然性。 2024年6月26日：Mac 版ChatGPT 发布核心功能：Mac 版 ChatGPT 功能介绍：Mac 版 ChatGPT 2024年7月18日：GPT-4o-mini 发布核心功能：相当于是能力更强的"GPT-3....

OpenAI 官方指南：智能体编排 - 流程与任务交接

本文翻译自 OpenAI Cookbook 的 Orchestrating Agents: Routines and Handoffs Ilan Bigio Oct 10, 2024 当使用语言模型时，通常只需要设计一个好的提示词并配合合适的工具，就能获得不错的效果。然而，当你需要处理许多不同的流程时，情况可能会变得复杂。本手册将介绍一种方法来应对这些复杂情况。我们将引入“常规任务 (routine)”和“任务交接 (handoff)”的概念，并逐步展示如何实现这些功能，以及如何通过它们协调多个 AI 智能体 (agents)，从而实现简单、强大且可控的系统。最后，我们提供了一个示例仓库 Swarm，它实现了这些想法并附带了示例代码。让我们从设置导入开始： from openai import OpenAI from pydantic import BaseModel from typing import Optional import json client = OpenAI() 常规任务 (Routines) “常规任务”这个概念没有严格的定义，主要用来表示一系列步骤。具体来说，我们可以将常规任务定义为一组用自然语言编写的指令 (我们通过系统提示词来实现)，以及完成这些任务所需的工具。让我们来看一个示例。下方代码定义了一个客户服务智能体的常规任务，指示它对用户问题进行分类，然后要么建议解决方案，要么提供退款。我们还定义了两个辅助函数 execute_refund 和 look_up_item。你可以把它称为客户服务常规任务、智能体或助手，但核心思想相同：一组步骤和执行这些步骤的工具。 # Customer Service Routine system_message = ( "You are a customer support agent for ACME Inc." "Always answer in a sentence or less....

充满爱意的机器 • Dario Amodei

本文是 Anthropic 的 CEO Dario Amodei 所写。Dario 曾担任 OpenAI 的研究副总裁，领导了 GPT-2 和 GPT-3 等大型语言模型的开发。他也是根据人类反馈进行强化学习的共同发明者。在加入 OpenAI 之前，他曾在 Google Brain 担任高级研究科学家。文中 Dario Amodei 探讨了强大人工智能（AI）对未来世界的潜在积极影响。他强调，尽管人们对 AI 风险的关注是必要的，但 AI 的正面潜力同样不可忽视。他认为，AI 可以通过加速科学发现、改善人类健康、减少贫困、促进全球和平与民主等方式，极大地提升人类生活质量。Amodei 描述了一个“如果一切顺利”的未来，AI 将在多个领域带来革命性进步，尤其是在生物学、神经科学、经济发展、治理和人类工作的意义等方面。 AI 的潜力与风险： Amodei 强调，尽管 AI 的风险不容忽视，但 AI 的潜在好处可能比大多数人预期的更加激进。通过有效管理这些风险，AI 可以带来一个更美好的未来。 AI 在五大领域的应用：生物学与健康：AI 可以加速生物学发现，解决疾病问题，延长人类寿命，甚至可能在 5-10 年内实现 50-100 年的科学进展。AI 将不仅仅是分析工具，而是成为“虚拟生物学家”，通过设计实验、控制实验室设备等方式推动生物医学的突破。神经科学与心理健康：AI 将帮助理解和治疗精神疾病，如抑郁症、精神分裂症等。通过结合生物学、神经测量和行为干预，AI 可能在 5-10 年内治愈大部分精神疾病，并提升人类的认知和情感自由。经济发展与贫困：AI 有潜力通过优化健康干预、提高生产力和促进经济增长，帮助发展中国家赶上发达国家。然而，AI 也面临腐败和人类复杂性等挑战。和平与治理：AI 的发展可能会影响全球的民主与专制斗争。Amodei 提出了“民主联盟”策略，建议通过 AI 增强民主国家的军事和经济优势，以遏制专制国家的扩张。工作与意义：尽管 AI 可能取代许多工作，但人类仍然可以通过与 AI 协作找到新的经济和社会角色。Amodei 提出，未来的经济可能需要重新设计，可能包括普遍基本收入等新形式的经济结构。 AI 对社会结构的影响：健康与寿命：AI 可能在未来几年内消除大部分疾病，延长人类寿命，甚至实现“生物自由”，让人们能够控制自己的生物过程。治理与民主：AI 有潜力改善民主治理，减少偏见，增强法律系统的公平性，并通过提供更透明的信息流动，削弱专制政权。经济转型：AI 可能带来前所未有的经济增长，尤其是在发展中国家。然而，如何确保技术的公平分配和防止社会不平等的加剧，将是一个重要的挑战。未来的愿景：...

OpenAI Canvas 介绍

OpenAI 于 2024 年 10 月开发者大会上发布 Canvas，官方给它的用途定义为：在写作和代码方面展开协作。有点结对写作和结对编程的意思，应该是想往写作工具（office、notion这些）和代码编辑工具（vscode、cursor）上扩展。下面我结合官方的文档以及我的试用体验，给大家简单大概介绍一下 Canvas。功能写作工具该功能支持在线编辑文档，可以选中某一句或段文本进行追问让chatgpt进行改写，也可使用快捷键，其中快捷键包括建议编辑、调整长度、阅读水平、添加最后的润色、添加表情。有点类似于 DALLE 的交互逻辑。代码编辑该功能借鉴了 Claude 的 artifacts，虽然不支持在线预览，但支持在线编辑、选中某一句或段文本进行追问，也可使用快捷键，如代码审查、转移到另一种语言、修复错误、添加日志、添加注释。关于实现我阅读了一下 OpenAI 官方发布的介绍文章，这里记录了一些重点的内容。重新训练了 GPT-4o，让它能够成为创造性的合作伙伴。这个模型知道何时打开 Canvas、进行有针对性的编辑或彻底重写。它还能理解更广泛的上下文，提供精准的反馈和建议。据 OpenAI 研究员介绍 Canvas 模型是通过合成数据进行训练的，并在 2 个月内训练了出具有核心行为的模型。 Canvas 有以下核心功能：在写作和编程时触发 Canvas 生成多样化的内容类型进行有针对性的编辑重写文档提供行内点评通过超过 20 项自动化内部评估来衡量进展。使用了新颖的合成数据生成技术，例如从 OpenAI o1-preview 蒸馏输出结果，对模型的核心行为进行微调训练。这种方法让我们能够快速解决写作质量和新的用户交互问题，而且完全不依赖人工生成的数据。一个关键的挑战是定义何时触发 Canvas。我们教会模型在像“撰写一篇关于咖啡豆历史的博客文章”这样的提示时触发 Canvas，同时避免在“帮我做一道新的晚餐食谱”这样的常规问答任务中过度触发。对于写作任务，我们优先提升了“正确触发率”（以牺牲“正确不触发率”为代价），达到了 83%，相比基础的零样本 GPT-4o 使用提示指令有了明显提升。值得注意的是，这类基线的表现对具体提示的敏感性很高。使用不同的提示时，基线模型可能仍然会表现不佳，但形式不同——例如，它可能在编码和写作任务上同样表现不佳，从而导致不同的错误分布和其他形式的次优表现。对于编码任务，我们故意让模型偏向不触发 Canvas，以避免干扰高级用户的使用体验。对于写作和编程任务，我们改进了正确触发 Canvas 的决策边界，分别达到了 83% 和 94%，相比基础的零样本 GPT-4o 使用提示指令有了显著提升。第二个挑战是如何在触发 Canvas 后调整模型的编辑行为——特别是在何时进行有针对性的编辑，何时重写整个内容。我们训练模型在用户在界面中明确选择文本时执行有针对性的编辑，否则则倾向于重写。训练模型生成高质量评论需要经过反复的仔细迭代。与前两个较容易通过全面人工审查适应自动化评估的情况不同，自动化衡量质量是一个特别具有挑战性的任务。因此，我们通过人工评估来判断评论的质量和准确性。我们的集成 Canvas 模型在准确性上比零样本 GPT-4o 使用提示指令提升了 30%，在质量上提升了 16%，这表明合成训练相比零样本加详细提示指令，能够显著提升响应质量和行为表现。

o1 研发团队/奥特曼/王小川/杨植麟对 OpenAI o1 的观点

o1 研发团队访谈 Hyung Won Chung：o1 是个推理模型，它在回答你的问题之前会做更多思考。我们将发布两个模型：o1 preview，还有采用了与 o1 相似的训练框架、更小更快的 o1 mini 什么是推理？Giambattista Parascandolo：可以这么理解：对于一些需要立即回答的简单问题，例如，「意大利的首都是哪里？」，不用想太多，就知道答案是罗马。但是如果想要解一个复杂的谜题、想精心策划一份商业企划书、或者想写小说，那可能需要很多思考。想得越多，可能成果越好。因此，可以说推理是一种把思考时间转化为更好成果的能力。 Mark Chen：很难确切指出 o1 是从哪个具体的时刻开始的。最早和 Yakob 进行了一些探索，后来又和Łukasz 和 Ilya 进行了早期的探索。关键时刻是 Jerry 一起整合了这些内容，并由 Jerry 来推动项目。 Trapit Bansal：当我们开始考虑要训练一个推理模型时，我最先想到的方法就是，可以让人类写下他们的思维过程，然后以此进行训练。我的「Aha Moment」是当我们发现，通过使用强化学习来训练模型生成和打磨它自己的思维链，效果竟然比让人类为其写下思维链更好。我们意识到可以真正扩展这个方法，并且专家模型也可以通过这种方式进行推理。 Jerry Tworek：从本质上讲，训练大型模型是非常困难的事情，有成千上万的事情可能出错，实际在每一轮训练中至少有数百个地方确实出错了。几乎每个人都投入了大量的心血、汗水和眼泪去训练这些模型，并想办法让它们继续学习和改进。通向成功的道路非常狭窄，而失败的可能性却很多。 Ilge Akkaya：这个模型非常优秀，很多时候甚至表现得比人类还要好，就像拥有好几个博士学位的水平。但这有时也是一种挑战，因为我们经常需要验证模型是否没有偏离轨道，或者是否在做一些不合理的事情。随着模型规模的扩大，这开始变得非常耗时；我们已经用尽了所有行业级资源，但我们不知道接下来应该找什么，所以这也是一个挑战。 Jason Wei：对我来说，我喜欢把 o1 当作一个头脑风暴的伙伴，从解决某个非常具体的机器学习问题到如何写一篇博客都适用。比如，我最近写了一篇关于语言模型评估的博客，我向 o1 询问了有关博文结构的想法、某些基准测试的优缺点，甚至包括写作风格的建议。因为它在给出最终答案之前会思考，更好地更好地连接起思路，它还可以修改和评估备选的方案。 Jakub Pachocki：每次我们将某件事扩大一个数量级时，都会遇到一组新的问题 —— 包括算法和基础设施方面的问题 ——OpenAI 无疑已经发展出了同时解决这两个方面问题的强大能力。 Hongyu Ren：我们的动机是希望将 o1 系列带给更多的用户，并降低成本。因此，我们创建了 o1 Mini，它的设计目的是展示整个 o1 框架的简化版本。我们让它成为一个推理专家，它可能不一定知道你最喜欢的名人的生日，但它确实能够非常有效地理解如何进行推理。它比我们之前最好的推理模型要聪明得多，并且几乎与我们最好的模型 o1 持平。它确实有一些限制，比如可能不知道很多外界的信息，尤其是与科学或技术无关的内容。但我们努力让它大致与我们之前最好的模型（如 GPT-4o mini）相当。我们正在进一步改进它，我非常期待外部用户能够尝试体验这种「闪电般」的推理和思维。原文：https://www.thepaper.cn/newsDetail_forward_28821226 o1 研究团队三位核心技术人（Noam Brown、Hunter Lightman、Ilge Akkaya）对话红杉美国合伙人 o1 模型系列使用了强化学习，能够进行推理，或者你也可以称之为“思考”。它与我们过去使用的大型语言模型有本质上的不同。我们从一开始就相信这一方向有潜力，但实际走到今天的路径并不清晰。你看看 o1 ，这并不是一夜之间的成果。实际上，这背后有多年研究，而其中很多研究并没有取得成效。 OpenAI 整体上采取了一种非常实证、数据驱动的方式，当数据开始向你展示趋势并且变得有意义时，我们就会追随这些线索。而这也是我信心确立的时刻。...

我爱计算器 • Andrej Karpathy

本文来自 Andrej Karpathy 的 blog，我这里将其翻译为了中文。作者表达了对计算器的深深喜爱，尤其是作为一种技术产品和象征的意义。计算器不仅仅是一个简单的工具，它代表了一种极简、用户友好的技术哲学，与现代技术产品日益复杂、依赖性强、用户体验糟糕的趋势形成鲜明对比。作者认为，当前的技术产品越来越偏向于复杂的、依赖网络和用户数据的商业模式，损害了用户的隐私和自主权。作者呼吁消费者和开发者反思这种趋势，并以计算器为理想，推动技术回归简单、可靠和用户至上的方向。计算器的优点：计算器是一个自给自足的设备，不依赖外部网络或服务。它通过太阳能或电池供电，不需要复杂的设置或更新。计算器的功能简单直接，不收集用户数据，也不要求创建账户或登录。这种技术产品在过去、现在和未来都能稳定运行，完全属于用户自己。与现代技术的对比：现代技术产品通常依赖互联网、需要账户注册、权限管理，并且频繁更新。许多设备和应用程序通过数据收集、订阅模式等手段，逐渐侵蚀用户的隐私和控制权。作者提到 CO2 监测器等现代设备，要求用户提供精确位置信息、创建账户等，来说明现代技术的复杂性和用户不友好性。技术与资本主义的关系：作者认为，现代技术的复杂性与资本主义公司追求最大化股东价值的目标有关。通过数据收集、订阅服务等手段，公司可以在售卖产品的同时，持续从用户身上获利。这种趋势导致技术产品变得越来越依赖用户数据，侵害用户的隐私和自主权。对未来技术的期望：作者希望技术产品能够像计算器一样，简单、可靠、用户至上。他呼吁消费者通过抵制复杂、依赖性强的产品，来影响市场趋势。开发者则应在设计产品时，考虑到用户体验和自主权，避免过度优化商业利益。我爱计算器 2024年9月8日前几天，我随意逛书店时，偶然发现了一本书：《总和帝国：掌上计算器的崛起与统治》。翻阅它的过程中，我突然有了一个强烈的感悟：我真的……爱……计算器。这里的“计算器”并不是指你今天可以购买和使用的实体设备，而是一种技术的结晶，也是一种哲学的象征。请看：计算器是个奇妙的发明。通过手指操作，它仿佛成为你大脑的插件，扩展了你在算术方面的能力，让你思维更敏捷。而更神奇的是它的工作方式。计算器是一个完全独立的物理设备，它几乎不依赖外部技术环境。它只需要一点光（感谢它前面的太阳能板），或者电池，这些都很容易获得。你只需要花钱买它一次，它就永远属于你。只要按下“开机”键，它随时可以为你服务。如果你把这个小巧的设备带回几千年前，交给当时的人们，它也会正常工作，简直像是奇迹。让我们对比一下我们现在习以为常的技术。计算器不需要联网，也不需要蓝牙权限。它不会询问你的位置信息，也不需要你创建账户或登录。它不会频繁提示你更新软件版本。你不必升级到什么带有正弦、余弦功能的“高级计算器+”版本。它不会硬着头皮变成一个多功能平台，也不需要你的信用卡信息，更不会追踪你的使用数据。它不会随机弹出窗口要求你评分或反馈，也不会在暗网上泄露你的数据或自动订阅什么通讯邮件。更不会因为服务器宕机而无法使用。所有的计算都在设备上完成，完全私密、安全，不会被记录。计算器就是你大脑的算术工具。它过去能用，现在能用，未来也能用。你买了它，它就是你的。它没有其他的附加要求，它只做它该做的事——如此完美。相比之下，这款有上千好评的二氧化碳监测器却要求我必须创建账户、下载它的应用，并开启位置服务，才能告诉我房间内的二氧化碳含量。那么，为什么我们的技术正逐渐变得如此复杂、臃肿，对用户不友好，充满反模式？一个常见的类比是，在资本主义经济中，公司可以被看作是在法规限制下，最大化股东价值的优化问题。如今的这些现象，是不是公司为了实现目标而过度优化的结果？为什么要卖产品，当你可以通过租赁来持续获利，并且最大化信息控制权，收集并货币化所有客户数据？政府是否在应对这些不利于用户的行业行为、外部成本和垄断问题时已经落后？作为消费者和开发者，我们应当记住并深刻感受技术本来的样子。技术可以像计算器那样简单、纯粹。也许不是所有的产品和服务都能做到，但它可以作为一种理念，一种可以不断追求的理想。作为消费者，我们可以更加意识到这种趋势，并通过影响公司利润来抵制这种趋势。而作为开发者，我们可以为优化目标增加一个意识形态的约束项。只有这样，我们才有可能找到真正的全局最优解。这是一个资本主义经济中公司的数学模型，它可以被看作是解决一个二次规划优化问题。以下是一些我觉得有趣且有启发的相关内容： Internet of shit 没有工业的技术科技法官过度追求效率使一切变得更糟

Licklider 1960 • Andrej Karpathy

本文来自 Andrej Karpathy 的 blog，我这里将其翻译为了中文。在这之前先介绍一下文章标题里一个名字：Licklider，他的全名是 J. C. R. Licklider 是计算机科学和互联网发展的先驱，他的愿景和研究为现代交互式计算和全球计算机网络（即互联网）的诞生奠定了基础。他不仅在技术上有远见，预见了图形计算、时间共享系统、网络计算等概念，还通过资助和管理关键项目推动了这些技术的实现。他的工作直接影响了诸如 ARPANET（互联网的前身）、人机交互界面、以及人工智能的早期发展。早期生平与教育背景 Licklider 于 1915 年出生于美国密苏里州圣路易斯。他在华盛顿大学获得了物理、数学和心理学的学士学位，并在罗切斯特大学获得了心理学硕士和博士学位，专攻心理声学。职业生涯与学术贡献他早期在哈佛大学和麻省理工学院（MIT）任职，参与了 SAGE 项目（半自动地面环境），这是冷战时期的计算机辅助防空系统。在 MIT，他负责了人机交互的研究，并在 1960 年发表了具有里程碑意义的论文《人机共生》，预见了未来计算机与人类合作的方式。推动互联网的先驱 Licklider 是互联网概念的最早提出者之一，1962 年他在一系列备忘录中提出了 “Intergalactic Computer Network” 的设想，这一设想后来演变为 ARPANET。他在 ARPA（高级研究计划署）担任信息处理技术办公室（IPTO）主任期间，资助了多个关键项目，包括 MIT 的 Project MAC 和斯坦福大学的研究，这些项目推动了时间共享技术和网络计算的发展。人机共生与人工智能 Licklider 的研究重点是如何通过计算机增强人类智能，而不是完全取代人类。他提出的 “人机共生” 概念预见了计算机将承担繁琐的任务，从而帮助人类在科学和技术思维中做出更高层次的决策。他还对人工智能持谨慎态度，认为计算机虽然可以在未来某天主导思维过程，但在短期内，人类仍然会设定目标并进行评估。计算机网络与全球通信 Licklider 的愿景不仅限于个人计算机的交互式使用，他还预见了全球计算机网络的潜力。他的 1968 年论文《计算机作为通信设备》详细描述了计算机网络将如何支持跨地域的合作和交流，这一设想成为了现代互联网的基础。其他贡献 Licklider 还在心理声学领域做出了重要贡献，提出了 “双重音高感知理论”，并进行了有关双耳语音去遮蔽效应的研究。他是互动小说游戏公司 Infocom 的创始成员之一，推动了计算机游戏领域的发展。 Licklider 的远见卓识不仅影响了计算机科学的技术发展，还改变了人们对计算机在社会中的角色的理解。他的工作为现代计算机网络、人工智能和人机交互奠定了基础。本文摘要 Licklider 在其 1960 年的文章《Man-Computer Symbiosis》中，提出了计算机作为“智能增强”工具的概念。他认为，虽然完全自动化（即人工智能，AI）可能是未来的终极目标，但智能增强（IA）这一阶段将持续足够长的时间，值得深入思考和研究。Licklider 还预测了计算机在人类生活中扮演的角色，尤其是军事和日常任务中的应用。然而，许多当时的预测由于技术和数据的限制未能实现，今天的计算机技术发展方向与他预期的有所不同。智能增强与自动化的对比 Licklider 认为，计算机在未来会逐步从智能增强工具过渡到完全自动化。然而，尽管当时的研究对人工智能和广义人工智能（AGI）充满乐观，实际进展远未达到预期。今天，AI 领域的主流方法（如大语言模型，LLMs）在当时是不可想象的，因为当时的计算能力和数据规模都无法支持。...

拥抱琐碎 • Jacob Kaplan-Moss

本文是 Django 的共同创建者，同时担任工程主管的 Jacob Kaplan-Moss 所写。作者通过一个魔术表演的例子，强调了成功的秘诀往往在于愿意投入大量时间和精力去完成那些看似枯燥、乏味的任务。这种“磨砺”的精神不仅适用于魔术，也适用于技术行业，甚至可以帮助解决复杂的问题。尽管自动化和效率是现代技术行业的重要追求，但有时解决问题的关键在于亲力亲为，愿意承担那些别人不愿意做的繁琐工作。魔术的例子：作者描述了一个魔术表演，观众选择的卡片最终出现在一个密封的茶包里。这个魔术的秘密不在于复杂的手法，而在于表演者在幕后进行了大量准备工作：打开数百个茶包，将卡片放入其中，然后重新封装。这种耗时的准备工作让观众无法想象背后的努力，从而感到惊奇。魔术师的投入：引用魔术师 Teller 的话，强调魔术的一个核心原则：观众会被那些需要比他们想象中更多时间、金钱和练习的表演所迷惑。比如，Teller 和 Penn 为一个节目准备了 500 只特制的蟑螂，花费了数周时间，只为完成一个看似简单的表演。技术行业的应用：作者将这种“磨砺”的精神引入技术行业，指出虽然自动化和效率是技术人员追求的目标，但有些问题无法通过自动化解决。例如，作者曾加入一个充满问题的团队，面对数千个未解决的错误报告。通过亲自阅读、分类和整理所有报告，作者成功扭转了局面，帮助团队恢复了效率。这一过程虽然耗时且单调，但最终的效果却如同魔术一般。核心教训：作者总结道，有时成功的秘诀不在于寻找捷径或依赖自动化，而在于愿意投入时间和精力去完成那些看似枯燥的任务。如果能“拥抱磨砺”，就能在看似不可能的情况下取得成功。拥抱琐碎我曾见过一个魔术表演，至今仍让我印象深刻。它的表演方式非常简单（为了清晰起见，我在此进行了简化）：一位志愿者选了一张卡片，并将其密封在信封中。然后，魔术师请志愿者选择一种茶。桌上有几十盒茶，所有的茶都用塑料包装封好。志愿者选择一盒，撕开塑料包装，从里面挑选出一个密封的小袋。当志愿者撕开小袋时……里面竟然是他们之前选的那张卡片。 ⚠️ 如果你不想知道这个魔术的原理，请立即停止阅读。这个魔术的秘密其实很平常，但对我来说却充满了神奇感。选卡片的过程其实是“强迫选择 (force)”。不过，志愿者从几十盒茶中选择的过程确实是自由选择，从茶盒中挑选茶包也是自由选择。没有任何手法或欺骗：魔术师根本没有接触到志愿者选择的茶盒或茶包。那张卡片真的就在密封的茶包里。这个魔术的精髓在于背后的准备工作。表演前，魔术师会买来几十盒茶，将每盒茶都拆开，取出每个茶包，再将一张梅花三的卡片放入每个茶包里，然后重新密封这些茶包。接着，再把茶包放回茶盒中，并重新封好每个茶盒。这个过程重复几百次。可能需要几个小时，甚至几天的时间。唯一的“魔术”在于，这样的准备工作看上去既枯燥又耗时，当我们看到最终的效果时，很难想象有人会为了这个看似简单的表演而做如此繁琐的准备。 Teller 在一篇关于“魔术七大秘密”的文章中提到了这个现象：如果一个魔术比你（或其他任何理智的旁观者）愿意付出的时间、金钱和精力更多，你就会被它愚弄。我的搭档 Penn 和我曾在 David Letterman 的脱口秀节目上，从桌子上的礼帽里变出 500 只活蟑螂。为此我们准备了数周时间。我们雇了一位昆虫学家，他为我们提供了适合镜头展示的慢速蟑螂（厨房下水道里的蟑螂可不适合拍特写），并教我们如何在不尖叫的情况下抓住这些虫子。然后我们用泡沫板（蟑螂无法附着的少数材料之一）制作了一个秘密隔层，并精心设计了将这个隔层悄悄放入礼帽的方案。这个过程比表演本身要麻烦得多？对你来说可能是的。但对魔术师来说并不是。很多刚入行的科技新人会问我成功的秘诀。其实并没有什么特别的秘诀，但有一个道理：愿意做那些看上去极其琐碎乏味的工作，就能产生像魔术般神奇的效果——这在科技领域同样适用。我们是一个痴迷于自动化、精简和效率的行业。我们的工程文化奠基文本之一，Larry Wall 的《程序员的美德》中提到过“懒惰”：懒惰：这种品质让你愿意付出巨大的努力来减少整体的工作量。它促使你编写省力的程序，这些程序能帮助其他人，并且记录你写的内容，这样你就不用重复回答同样的问题。我并不反对这一点：将重复性工作交给程序处理是编程最好的地方之一。但有些问题是无法通过自动化解决的。如果你愿意去面对那些琐碎繁重的任务，你就能展现出如魔术般的能力。例如，我曾经加入一个维护系统的团队，这个系统因为错误太多而陷入困境。大概有两千个未解决的错误报告。所有问题都没有被标记、分类或优先排序。团队无法就哪些问题需要优先处理达成一致。结果就是不断随机地处理错误，但这常常让人不清楚某个问题是否真的重要。新问题无法被有效处理，因为找到重复问题几乎是不可能的。未解决的问题数量继续攀升，团队已经停滞了数月。我被分配的任务是：让团队重新运转起来，扭转未解决问题数量的上升趋势，并最终将其降到零。于是我采用了和魔术师一样的方法——其实根本没有什么技巧：我做了那些枯燥的工作。我把所有的问题都打印出来——每个问题一页纸。我读了每一页。我占用了一个大房间，把纸张堆放在地板上。我在便签上写上标签，然后贴在不同的堆上。我在各个堆之间移动纸张。我在白板上画了长长的列，写上问题编号，幻想自己像 Ben Affleck 在电影《会计刺客》中那样。我在那个房间里呆了将近三周，最后所有的错误报告都被审阅、标记、分类和优先排序。趋势立即发生了逆转：我们立刻关闭了几百个重复的错误报告，而现在新问题的分类只需要几分钟，而不是一天。我们用了大概一年多的时间，将未解决的问题数量降到零，整个过程非常顺利。人们说我完成了不可能的任务，但其实不是：我只是做了那些琐碎乏味的工作，而没人愿意去做罢了。有时候，编程像是魔术：你念一些晦涩的咒语，然后一群机器人就会按你的指令行事。但有时候，魔法其实很平凡。如果你愿意面对那些枯燥繁重的任务，你也能实现看似不可能的效果。