FisherAI

Duolingo: 让我们的角色发声

本文介绍了如何为 Duolingo 的角色创建定制的文本到语音（TTS）声音，以增强语言学习体验。通过赋予角色独特的声音，不仅增加了角色的个性，还帮助学习者接触到多样化的语音，提升了他们的听力技能和语言学习的趣味性。角色的魅力 Duolingo 的角色通过插画和动画得到了广泛的关注，这激励团队进一步发展这些角色，使语言学习更加有趣和引人入胜。角色的熟悉感为故事叙述提供了便利，尤其是在初学者的学习中，角色的个性化帮助学习者更好地理解故事情节。定制语音的开发团队为每个角色开发了独特的 TTS 语音，经过多个月的审查和试音，确保每个角色的声音能够准确传达其个性。不同语言的角色声音在保留角色特质的同时，也考虑了文化适应性。例如，角色 Lin 在日语中显得懒散而直言不讳，而在英语中则显得总是带着笑意。技术与教学的结合使用机器学习技术，团队创建了先进的 TTS 语音，能够在课程中应用任何句子。录音过程中，团队设计了多种句型和语境，以确保声音的自然性和教学效果。特别是在不同语境下，语音的节奏和语调需进行精确调整，以便为学习者提供可靠的发音示范。学习者的体验当前，学习者在英语课程中可以听到所有角色的声音，而在学习多种语言时，也能体验到不同语言对角色的多样化演绎。这种多样性不仅增强了学习的趣味性，还帮助学习者在真实语言环境中更灵活地运用所学知识。让我们的角色发声我们的角色终于找到了他们的声音！在这篇博客中，我们将分享如何为所有角色创建自定义的文本到语音 (Text-to-Speech, TTS) 声音。图1: 角色让学习更有趣在美术团队完成角色的绘制和动画制作后，我们发现社交媒体上大家对这些角色反响热烈。这份热情促使我们更加用心打磨这些角色，给他们更多的细节和背景。我们意识到，这是一个让语言学习更加有趣且充满吸引力的好机会。同时，我们希望借此加强学习者与 Duolingo 之间的联系。通过引人入胜的故事，我们希望学习者能不断回到平台上学习，并且深入了解这些角色。现在，我们还为每个角色添加了专属的声音。这不仅让角色更具个性，也为学习者提供了更多样的听力体验，这对于语言学习非常有帮助。在现实生活中，大家会遇到各种不同年龄、性别和背景的人，因此，在课程中听到不同的声音类型，有助于提升应对实际语言情境的能力。那么，我们的角色有哪些？为了完善这些角色，我们花了数月的时间设计他们的性格、背景故事以及相互关系。同时，我们也创作了一些以这些角色为主的故事，这有助于更好地展现他们的个性。我们发现，角色的熟悉感有助于讲故事。在故事中，由于篇幅和语言水平的限制（特别是对于初学者），我们需要依赖这些角色鲜明的个性和他们之间的互动，来实现更强的故事叙述效果。比如，不需要每次都解释 Lily 的动机，她那种冷漠的态度已经让学习者对她的行为有了清晰的理解，即使是初级语言水平也能将故事讲得生动有趣。图2: 寻找角色的声音为了让角色更加生动，我们为每个角色制作了定制的 TTS 声音。这些声音不仅展现了角色的独特个性，还让语言学习过程更加生动有趣。当然，为九个角色开发多语言版本的声音并不是一件容易的事。仅仅是为英文角色选角，我们就花了几个月的时间来筛选试音，并讨论哪个演员最符合角色特质。比如，这次 Eddy 的试音是否显得太过学究？Oscar 是否需要更低沉、更有共鸣的声音？以及 Lily 的冷淡风格能否不影响学习体验？在为英文版角色选角并录音后，我们以这些录音为基础，制作了西班牙语、法语、德语和日语版本。即便有英文录音作为参考，每种语言仍然面临着独特的创意和技术挑战。例如，讽刺在日语中的表达方式与英语不同，那 Lily 的语气是否也需要改变呢？我们与语言学专家、语音学家和创意顾问一起合作，确保每种语言版本都能合适地表现角色的性格。有些语言版本中的角色声音几乎与英文版相同，而有些则在某些性格特点上有所加强。比如，Lin 在日语中表现得冷静而直接，但在英语中却总是充满趣味。图3: 构建他们的声音在为角色录音后，我们使用机器学习技术来构建最先进的 TTS 声音。这些声音能够用于课程中的任何句子，即使是那些尚未编写的句子！尽管已有许多技术可以用来构建和开发声音，但 Duolingo 的需求有所不同，我们需要它们来帮助学习语言。我们精心设计了录音的内容，以涵盖课程中可能遇到的各种情境——不同的语音组合、各种句型以及情感表达。这些多样化的录音对于真实再现学习者在课程中遇到的语言场景是非常必要的。我们也尝试突破技术的限制，力求在语调、语速和停顿方面达到最佳效果，使声音尽可能接近真实。我们的目标是平衡配音演员的表现力和教学的具体需求。配音演员需要通过想象各种场景来赋予台词情感——有时这种“声学味道”会对技术造成挑战，因为 TTS 系统通常是基于中性的语音数据进行训练的。我们非常重视 TTS 声音在实际课程中的表现。对于学习者来说，TTS 声音需要是发音和语言使用的可靠模范。例如，在英语句子“我读这本书”中，根据上下文“读”的发音会有所不同：在现在时态的课程中，它的发音与在过去时态的课程中是不同的。同样，在处理不同句型的节奏和语调时，我们也遇到了一些挑战。例如，“你想去吗？”的语调与“你想去哪里？”的语调是不同的。我们的 TTS 声音只能和我们提供给系统的语音示例一样好，因此我们的语言专家和工程师合作，为系统提供提示或在必要时进行纠正。接下来你能听到谁的声音？现在，学习我们英语课程的学习者可以在课程中听到所有角色的声音！如果你在 Duolingo 上学习多种语言，还能体验这些角色的多种演绎！

Duolingo 如何为角色添加动画

Duolingo 在为其世界角色动画赋予生命的过程中，采用了创新的技术手段，以确保角色能够生动地与学习者互动。通过使用 Rive 工具，Duolingo 实现了高效的口型动画制作，提升了用户学习体验，确保了动画的质量和可扩展性。动画挑战：Duolingo 需要为其超过 40 种语言的 100 多个课程中的角色制作动画，但手动动画口型是不切实际的，因此寻求可扩展的解决方案。 Rive 工具的应用：Rive 是一种基于网络的实时互动动画工具，允许通过状态机（State Machine）编程控制动画状态的切换和混合，从而实现高效的动画制作。语音技术的整合：为了准确制作口型动画，Duolingo 建立了丰富的语音技术生态系统，使用内部的语音识别和发音模型来获取每个单词和音素的时序信息。嘴形设计：为确保角色的嘴形动画真实可信，Duolingo 设计了 20 多种嘴形，结合角色的个性和 Duolingo 的美学。动画集成：完成动画后，通过 Rive 的状态机将动画与音频同步，确保角色能够实时响应用户的操作，例如在点击单词时角色能够发声并动画化。未来展望：Duolingo 将继续探索新技术，以克服技术挑战，进一步提升学习体验，并在未来的项目中应用这些经验。 Duolingo 如何为角色添加动画在为每个角色开发了独特的声音后，我们开始思考如何让它们更有活力——不仅仅是现有的闲置行为动画。我们希望确保我们的角色能成为学习者生动有趣的学习伙伴！首先：动画化这么多的口型动作是一项巨大的工程！我们教授超过40种语言，涵盖100多个课程，每个课程包含数千个句子和课时，所以要为我们十个世界角色的每个口型动作手动画是不可能的。我们需要一种可扩展的方法来处理每个角色的各种口型，同时保证文件大小足够小，以便在Android、iOS和Web平台上运行。此外，我们还希望确保动画质量不受影响！我们发现，游戏引擎的替代方案可能是答案——一种能帮助我们用有限的资源生成几乎无限组合的工具。这就是我们了解到Rive的原因！什么是 Rive？ Rive 是一种基于网络的工具，用于制作实时互动动画和设计，类似于游戏引擎。它解决了我们许多问题：文件大小小巧，与Duolingo的应用架构无缝结合，从动画师到工程师的交接过程也很顺利。但最吸引我们的是Rive的状态机：这是一个可视化的逻辑系统，用于连接动画（即“状态”）。它让我们能够通过编程控制调用的动画状态、调用方式以及如何过渡和融合。状态机的强大系统让这个项目能够在大规模上实现。我们知道Rive是实现口型同步动画的理想工具！ Rive 内部展示！语音技术的魔力为了制作口型动作，我们需要对语音内容有详细的了解。当我们为文本到语音生成声音时，我们使用的解决方案没有提供发音和时间信息，但我们有一个为语言学习设置的丰富语音技术生态系统。为了生成精准的动画，我们会生成语音，将其通过我们的内部语音识别和发音模型，获取每个单词和音素（语音单位）的时间信息。每个声音都会映射到一个视觉表示或唇形，这是我们基于语言学特征设计的一套系统。有了这些功能，我们创建了一个系统来生成课程内容所需的所有唇形时间数据。当然，我们还需要确保这些数据的准确性，并将其传递给数百万用户。我们不仅开发了生成内容的工具和流程，还在必要时进行审核和修正。设计口型世界在开始动画制作前，我们需要确保准确地表示与特定声音对应的嘴形。角色唇形图示例我们需要设计每一个嘴形，保持Duolingo的美学风格。此外，每个角色还需要一套独特的唇形，符合其个性特征。设计过程中最关键的一步是确保唇形在动画中看起来真实可信。有些角色需要更多的探索，但我们最终为每个角色设计了20多个嘴形！一旦设计指南确定，我们就可以开始动画制作。我们为每个角色在课程中的常规姿势创建了动画状态，也为角色的嘴部设计了单独的状态。所有动画状态设置完毕后，最后一步就是将这些动画导入Rive的状态机，并与之前标注的嘴部输入结合起来。状态机如何控制角色动画的图示状态机如何混合唇形动画的图示。这里显示了4个唇形，但即使有超过20个形状，逻辑也是相同的。这些状态需要与角色动画状态同步运行！状态机设置完成后，我们将其导出为一个运行时文件，然后交给工程师进行应用程序的集成！集成过程当需要展示一个挑战时，我们会获取音频和时间信息，并利用这些时间信息同步触发动画状态机。这将数据传输量降到最低——远低于传输一个小视频——并让我们能够实时响应用户的操作。当你点击一个单词时，角色会说出并动画该单词；如果你在它说完之前完成练习，角色会及时停止说话。我们还可以展示闲置行为，如点头、眨眼和眉毛移动。最后，根据挑战的结果——你是答对还是答错——我们可以进入一个最终状态，展示角色的反应！ Duolingo 动画和技术的未来 Duolingo 一直在测试各种功能，这些嘴部运动也不例外。这个项目是一次有趣的实验，旨在使学习体验更加有趣，也是一次使用新软件和技术的机会。看到我们如何克服技术难题，并继续打造或改进其他有趣的功能，真是令人兴奋！请查看我们在2023年Duocon上的演讲，了解更多关于我们动画制作的方法！

Duolingo 创造了一个新的角色：创意技术专家，连接设计师和开发人员

Duolingo 最近推出了一种新角色——创意技术专家（creative technologists），旨在弥合设计与工程之间的沟通。这一角色专注于设计优先的方法，要求具备动画优化能力，并能有效与工程师沟通。通过使用 Rive 这一设计工具，创意技术专家能够直接创建应用程序中的互动动画，减少设计与工程之间的反复沟通，从而提升工作效率。创意技术专家的角色：该角色结合了设计和工程的技能，能够在设计和最终产品之间缩小差距。他们的职责包括优化动画资产、编写文档并与工程师沟通设计细节。 Rive 的应用： Rive 是一个用于构建互动运动图形的工具，使得动画师和创意技术专家可以直接创建应用中的动画，而无需复杂的技术规格。 Duolingo 首次使用 Rive 进行奖励动画，并逐步扩展到角色的语音同步等领域。团队协作与优化：创意技术专家与动画师和工程师紧密合作，确保动画的设计与实现的有效对接。他们帮助识别设计约束，优化项目的构建方式，从而减少未来的修改和更新成本。招聘与技能要求： Duolingo 寻找具备工程和设计背景的人才，特别是有状态机、VFX 和 Unity 等相关经验的人。理想的候选人应能通过技术测试，并有解决新工具或技术问题的能力。职业发展与行业趋势：创意技术专家的角色在行业中逐渐兴起，未来可能会有更多类似的职位出现，以满足设计与工程之间的需求。 Duolingo 计划在即将到来的 Duocon 会议上宣布更多基于 Rive 的项目，展示其在互动学习体验中的应用潜力。 Duolingo 创造了一个新的角色，连接设计师和开发人员 Duolingo 最近引入了一个介于设计和工程之间的新角色。这个角色专注于设计优先的方式，他们正在寻找能够与动画师一起优化设计并将这些优化传达给工程师的人。他们称之为 Creative Technologist。 Creative Technologist 负责弥合设计师和开发人员之间的鸿沟，也就是我们常说的“交接”。他们既有技术背景又有设计眼光，是左右脑兼备的人才。他们受雇时会特别要求成为 Rive 的专家。为什么选择 Rive？ Rive 是一个可以创建运行时交互动态图形的设计工具。Duolingo 的首位 Creative Technologist Jeff Masters 解释道：“以前，动画师会提供一个模型，并附上技术规范，说明如何用代码实现他们的想法。但现在，Rive 让我们的动画师和 Creative Technologist 可以直接创建应用程序中使用的实际素材，不再需要反复与工程师沟通外观问题。在 Rive 中，设计就是最终产品。” 动画副创意总监 Alex Chopjian 的设计和技术能力让他们的 CEO 希望有更多这样的动画师。他说：“在 Rive 中，设计与最终产品之间的差距非常小。你可以直接在浏览器中看到动画效果，而完全不需要接触代码。”...

LLM 知识图谱构建器：从零到 GraphRAG 只需五分钟

LLM 知识图谱构建器是 Neo4j 提供的一款创新工具，旨在将非结构化数据转化为动态知识图谱，支持生成式 AI 应用。该工具集成了检索增强生成（RAG）聊天机器人，使用户能够通过自然语言查询数据并获得可解释的洞察。用户无需编写代码，即可通过简单的步骤实现数据的提取与可视化，极大地简化了知识图谱的构建过程。工具介绍： LLM 知识图谱构建器可将 PDF、网页和 YouTube 视频等非结构化文本转化为知识图谱。该应用基于 React 前端和 Python FastAPI 后端，使用 Neo4j 的图形能力进行图谱构建。使用步骤：数据摄取：支持多种数据源，如 PDF、维基百科页面和 YouTube 视频。实体识别：利用 LLM 识别和提取文本中的实体及其关系。图谱构建：将识别的实体和关系转化为图格式。用户界面：提供直观的网页界面，方便用户上传数据源、可视化生成的图谱，并与 RAG 代理互动。创建知识图谱：用户可通过拖放文件或输入链接来上传数据，系统将自动识别和处理。提供预定义的图谱模式选项，用户可根据需求选择或自定义模式。探索与互动：生成的知识图谱以节点和边的形式展现，便于高效存储和查询复杂数据网络。用户可通过 RAG 代理询问与数据相关的问题，系统将根据存储的图谱信息提供回答。 LLM 知识图谱构建器：从零到 GraphRAG 只需五分钟使用 LLM 知识图谱构建器，在你的生成式 AI (GenAI) 应用中提取和使用知识图谱。 LLM 知识图谱构建器是 Neo4j 的 GraphRAG 生态系统工具之一，帮助你将非结构化数据转化为动态知识图谱。它集成了检索增强生成 (RAG) 聊天机器人，支持自然语言查询，并提供数据的可解释见解。什么是 Neo4j LLM 知识图谱构建器？ Neo4j LLM 知识图谱构建器是一款创新的在线应用，无需编写代码和 Cypher 查询，即可将非结构化文本转化为知识图谱，提供神奇的文本到图谱体验。它使用机器学习模型 (大语言模型：OpenAI、Gemini、Diffbot) 将 PDF、网页和 YouTube 视频转换为实体及其关系的知识图谱。...

Perplexity 的产品开发之路

本文主要介绍了Perplexity 的产品开发之路。Perplexity 是一家成立不到两年的公司，迅速崛起为一个受欢迎的搜索产品，用户数量已达数千万，并且年收入超过 2000 万美元。公司采用“AI 优先”的方法，通过利用人工智能来优化产品开发流程，减少协调成本，提升团队效率。Perplexity 的团队结构扁平，通常由小团队（两到三人）组成，强调自驱动和灵活性，预计未来技术型产品经理将成为公司最重要的人才。公司背景：Perplexity 在短时间内取得了显著的成就，最近融资 6300 万美元，估值超过 10 亿美元。其投资者包括 Nvidia、Jeff Bezos 等知名人士。 AI 优先策略：公司在构建产品的每一步都依赖 AI，鼓励员工在询问同事之前先向 AI 提问，以提高工作效率。团队结构：大多数项目由两到三人完成，只有两个全职产品经理，强调小团队的高效运作。决策与管理：公司采取去中心化的决策方式，鼓励团队成员自主做出快速决策，减少管理层级，提升响应速度。灵活的工作流程：Perplexity 的项目管理依赖于灵活的季度计划和稳定的周目标设定，团队成员在每周开始时设定优先级目标，并努力完成 75% 的目标。工具与协作：使用 Notion 进行文档管理和项目规划，利用 Unwrap.ai 整理和量化用户反馈，促进团队协作和信息透明。未来展望：预计随着 AI 技术的发展，技术型产品经理和具备产品品味的工程师将变得更加重要，团队将继续保持扁平化结构以应对快速变化的市场需求。 Perplexity 的产品开发之路不到两年前成立的 Perplexity 已成为我日常使用的产品，甚至取代了许多 Google 搜索——我并不孤单。这家员工不足 50 人的公司，用户数量已达到数千万。他们还实现了超过 2000 万美元的年度经常性收入 (ARR)，在搜索引擎领域与 Google 和 OpenAI 一较高下。最近筹集的 6300 万美元使公司的估值超过 10 亿美元，投资者包括 Nvidia、Jeff Bezos、Andrej Karpathy、Garry Tan、Dylan Field、Elad Gil、Nat Friedman、Daniel Gross 和 Naval Ravikant (可惜没有我 😭)。Nvidia 的 CEO Jensen Huang 说他“几乎每天”都在使用这款产品。...

开源 AI 是未来的发展方向 • Mark Zuckerberg

Mark Zuckerberg 认为开放源代码的人工智能（AI）是未来发展的关键。他将开放源代码与早期的 Unix 操作系统进行比较，指出 Linux 的成功是因为其开放性和可修改性。Zuckerberg 预见，开放源代码的 AI 将在未来发展得更快、更安全，并且能够满足不同组织的需求。他强调 Meta 正在积极推动开放源代码 AI 的标准化，特别是通过推出 Llama 3.1 系列模型，以便更广泛地支持开发者和企业。开放源代码的优势：开放源代码允许开发者根据自身需求训练和调整模型，避免被锁定在封闭的供应商生态中。组织可以在本地运行模型，保护敏感数据，提升安全性。 Llama 3.1 405B 模型的运行成本约为封闭模型（如 GPT-4o）的 50%，使其在经济性上具有竞争力。 Meta 的战略： Meta 通过开放源代码 AI 确保技术的可获取性，避免被竞争对手的封闭生态系统限制。开放源代码的 Llama 模型将促进生态系统的发展，包括与 Amazon、Databricks 和 Nvidia 等公司的合作。开放源代码对世界的影响：开放源代码 AI 可以更广泛地分配技术利益，减少权力集中在少数公司手中。 Zuckerberg 认为开放源代码的透明性使其在安全性上优于封闭模型f，能够更好地应对潜在的意图和非意图的危害。未来展望： Meta 计划通过构建内部团队和合作伙伴关系，推动 Llama 模型的广泛应用，期望在行业内引发开放源代码 AI 的广泛使用。 Zuckerberg 强调，开放源代码 AI 是促进经济机会和安全的最佳途径，呼吁大家共同参与这一进程。开源 AI 是未来的发展方向在高性能计算的早期，主要的科技公司都大力投资开发各自的封闭源代码版本的 Unix。当时很难想象有其他方法能开发出如此先进的软件。然而，后来开源的 Linux 逐渐受到欢迎——最初是因为它允许开发者随意修改代码且成本更低，随着时间的推移，它变得更加先进、安全，并拥有更广泛的生态系统，支持的功能比任何封闭的 Unix 都要多。今天，Linux 已成为云计算和大多数移动设备操作系统的行业标准基础——我们都因此受益，享受到更优质的产品。我相信 AI 将以类似的方式发展。今天，几家科技公司正在开发领先的封闭模型，但开源正在迅速缩小差距。去年，Llama 2 仅相当于前沿后面的一代模型。今年，Llama 3 已经能够与最先进的模型竞争，并在某些领域中表现出色。从明年开始，我们预计未来的 Llama 模型将成为行业中最先进的模型。但即使在此之前，Llama 已经在开放性、可修改性和成本效益方面处于领先地位。...

少样本提示提高工具调用效率 • Langchain

本文探讨了通过“少量示例提示”（few-shot prompting）来提高大型语言模型（LLM）在调用工具时的性能。研究表明，少量示例提示能够显著提升模型在多种任务上的表现。通过一系列实验，作者分析了不同提示构造方式对模型性能的影响，发现选择合适的示例和格式化方式是提高性能的关键。实验设置研究使用了两个数据集进行实验：Query Analysis 和 Multiverse Math。Query Analysis 测试模型如何基于用户问题选择搜索索引，而 Multiverse Math 则考察模型在更复杂的多次调用场景中的表现。少量示例提示技术实验中采用了多种少量示例提示技术，包括零-shot、静态和动态消息等方式。结果表明，动态选择的示例通常优于静态示例，且使用消息格式的表现优于字符串格式。性能评估通过检查工具调用的召回率和参数的匹配程度来评估模型的表现。实验结果显示，少量示例提示普遍提高了模型的准确性，尤其是 Claude 模型的表现提升显著。关键发现使用少量相关示例（如 3 个）可以与使用更多示例（如 9 个）达到相似的效果，显示出示例数量的边际效益递减。此外，小型模型在使用少量示例时，表现能够与大型模型相媲美。未来研究方向文章提出了未来的研究问题，包括负面示例的效果、最佳的示例检索方法以及在复杂任务中如何选择示例等，鼓励开发者探索更多优化 LLM 性能的可能性。少样本提示提高工具调用效率工具是大语言模型 (LLM) 应用的重要组成部分，我们一直在努力改进 LangChain 的工具接口（参见我们关于标准化工具调用和核心工具改进的文章）。我们还在研究如何提升 LLM 工具调用的性能。一种常见的方法是使用少样本提示，即在提示中加入示例输入和期望输出。研究表明，少样本提示能显著提升模型在多种任务中的表现。构建少样本提示的方法很多，但缺乏最佳实践。我们进行了几次实验，探讨不同技术如何影响模型和任务的性能，愿意与大家分享我们的结果。实验我们在两个数据集上进行了实验。第一个数据集是 Query Analysis，这是一个标准场景，模型根据用户问题调用不同的搜索索引。第二个数据集是 Multiverse Math，测试在更智能化的 ReAct 工作流程中进行函数调用（涉及对 LLM 的多次调用）。我们对多个 OpenAI 和 Anthropic 模型进行了基准测试，尝试用不同方法提供少样本示例，以找到最佳方案。查询分析第二个数据集要求模型选择调用哪个搜索索引。为了正确查询数据源，模型需要一些领域知识并细致理解各数据源的内容类型。问题设计得非常复杂，以挑战模型的工具选择能力。示例数据点 question: What are best practices for setting up a document loader for a RAG chain?...

精益创业方法的优点与不足 • Ethan Mollick

本文探讨了“精益创业法”（Lean Startup Method）的优缺点，强调了在创业过程中进行实验的重要性，同时指出该方法在某些方面可能导致创业者的误导。作者认为，创业教育可以通过结合科学方法和最新研究成果，帮助创业者更成功地启动和发展他们的企业。精益创业法的核心理念：由 Steve Blank 和 Eric Ries 提出的精益创业法强调行动导向，鼓励创业者通过“商业模式画布”识别商业假设，并快速构建最小可行产品（MVP）进行测试。创业者需根据反馈不断调整产品和市场，直到实现产品与市场的契合。实验的重要性：意大利学者的研究表明，采用科学方法进行系统性实验的创业团队表现更佳，能够更有效地进行调整并实现更高的收入。精益创业法的局限性：强调快速与客户沟通可能导致创业者过于关注短期反馈，而忽视了创新产品的潜在市场需求。 “商业模式画布”虽然有助于了解客户，但未能引导创业者思考其独特的商业假设，可能掩盖了创业想法的真正价值。改进建议：引用 Joshua Gans 等人的研究，建议创业者在进行实验之前先制定战略，明确为何自己的公司能够成功，从而更有效地进行实验和获取突破性见解。结合科学方法和最新的学术研究，能够帮助创业者更成功地推出基于证据的创业项目。精益创业方法的优点与不足当别人知道我是创业学教授时，他们往往会让我听听他们的创业计划，或者疑惑地说：“创业不是应该即兴发挥吗？怎么还能教呢？”因此，我听了很多创业计划（去年是区块链，今年是CBD），但我也在思考如何回答一个更大的问题：我们能教给创业者什么，让他们的创业更成功？幸运的是，过去十年我从两个不同的来源学到了很多宝贵的经验。第一个来源是由Steve Blank和Eric Ries开创的精益创业方法（Lean Startup Method），这方法在六年前由Blank在哈佛商业评论中详细介绍。简而言之，精益创业方法提出，成功创业的关键在于偏向行动。创始人应首先使用商业模式画布（Business Model Canvas）来理解其业务背后的假设，这需要他们填写九个涵盖“价值主张”和“客户细分”等主题的方框。然后，他们将关键问题转化为可测试的假设，快速且廉价地构建最小可行产品（MVP）来测试这些假设。如果测试证明假设正确，那就继续；否则，他们应调整方向，根据反馈修改产品或市场，直到找到产品与市场的最佳匹配，证明产品有市场需求。精益创业方法在硅谷一经推出便大受欢迎，初创企业纷纷接受这种新的实验精神。这种方法也相对容易教授，因此成为各地创业加速器和创业课程的常见内容。但精益创业并不是过去十年中唯一的重大变化，另一个较为低调的革命也在进行。学者们凭借更好的数据、更复杂的分析技术和新方法，开始破解创业成功的密码。传统的智慧正在接受检验。（创业公司是否总是需要联合创始人？年轻人是否更适合做创始人？）我们已经开始对精益创业方法有了一些重要的认识。首先，好消息是！证据强烈表明，初创企业应按照精益创业方法所倡导的方式进行实验。一组意大利学者进行了一项黄金标准的随机对照实验，研究了116家初创企业。半数企业学习了如何对他们的创业想法进行严格的实验，生成假设并系统地测试它们。另一半企业虽然也学习了实验方法，但没有被教导如何使用科学方法生成假设。像科学家一样行动的那组企业表现得更好——转向更多，避免了问题，最终产生了比对照组更高的收入。严格的实验显然对初创企业的成功至关重要。然而，其他研究表明，精益创业方法的某些方面实际上可能是有害的。在一篇新论文中，一组著名的创业学者指出了这种方法的两个主要问题：精益创业鼓励创始人“走出办公室”并尽快与客户交谈。但正如Steve Jobs所说：“知道自己想要什么不是客户的工作。”对快速从客户那里获取反馈的关注，使初创企业倾向于追求渐进式改进，关注客户今天的需求，而不是展望未来。此外，许多研究（例如Clay Christensen关于颠覆性创新的研究）表明，新颖性常常最初不受客户欢迎。如果你的想法是突破性的，而不是一个容易解释的渐进式产品，那么寻求早期客户的外部验证会更加困难。这个问题被商业模式画布所加剧。虽然画布所问的问题很有用——你应该知道你的客户是谁！——但它没有问最重要的问题：基于你的独特知识和信念，你对世界的假设是什么？填写画布的九个方框反而让你专注于创业过程结束时的样子——当你有了复杂的渠道和供应商关系等等——但在精益创业方法中没有达到这一最终状态的路线图。此外，画布的详细业务要素掩盖了使你的想法与众不同的真正见解。看看LinkedIn完成的众多画布示例，你会发现其中没有一个展示出使公司成功的关于网络和简历的特殊见解。为了生成关于你的创业为何独特的理论，你应该回到科学方法。从观察世界开始，利用你的观察生成理论，思考如何通过你的创业想法改变世界。那么，如何保留精益创业的优点而不保留其缺点呢？去年HBR的一篇文章提供了一条路径。Joshua Gans、Erin L. Scott和Scott Stern从企业战略研究中汲取灵感，提出了一种新的、更有效的创业实验方法。他们提供了一种以战略为起点的方法——一个关于你公司为何会成功的理论——并根据创始人的选择，建议进行合适的实验。通过将关键的突破性见解的开发权还给创始人而不是客户，这种方法有潜力成为精益创业的下一步进化。有了这些新工具和证据，我们真的可以教人们启动更成功的基于证据的初创企业。这些初创企业不仅仅是像精益创业方法那样收集证据，还基于最新的学术证据，来提高创业者的成功率。

Elon Musk 的“五步算法”：一个显著改善几乎所有事情的简单而巧妙的方法

每个人都有犯错的时候，无论是谁，这都是很常见的现象，也许是世界上最常见的错误。对于聪明的工程师来说，一个常见的错误是优化一个不应该存在的东西。为什么会这样呢？因为每个人在高中和大学，在高中和大学里，被训练了一种僵化的思维模式，那就是解题思维，解题一种收敛的逻辑，而非发散的逻辑。你不可能跟教授说你的问题太愚蠢了，那样你就可能被挂科。你必须接受教授的问题，并努力解答。因此，基本上每一个人，都在不知不觉中戴上了一个“精神枷锁”，这就是：竭尽全力的工作，却在优化优化那些根本不应该存在的东西。为了解决以上问题，我提倡一种严格执行的五步法。第一步：确保你的需求不那么愚蠢。通常来说，你的需求都十分愚蠢，这无关谁提出来的。如果是聪明人给你的需求和任务往往会更加危险，更有问题。因为，你甚至都不会质疑这些聪明人。第二步：尽力去除不必要的部分和流程，这一步非常重要。如果你没有偶尔重新添加一些内容，那么说明你删除的还不够彻底。一种常见的误区是：很多流程中添加的部分都是为了以防万一，但实际上，你可以为许多事情做出类似的以防万一的理由。第三步：简化或优化，注意是第三步，而不是第一步，否则他们就会优化一个根本不存在的东西。第四步：加快进度。你的行动太慢了，要快速行动，但不要在前三步还没做好的时候就急于加速。第五步：自动化。我个人曾多次在这五个步骤上犯错，所以我必须不断提醒自己，这个过程需要反复进行。 Elon Musk 的“五步算法”：一个显著改善几乎所有事情的简单而巧妙的方法 Elon Musk 称之为“算法”，这是他在 Tesla 的内华达和弗里蒙特工厂不懈提高生产能力过程中总结的经验教训的精华。根据 Walter Isaacson 在他的新书 Elon Musk 中的说法，Musk 在任何生产会议上都有很大的可能性提到这个算法。 “我经常重复这个算法，”Musk 说。“但我认为不断强调它是有帮助的。” 下次当你想在工作或生活中变得更高效时，可以试试 Musk 的算法。只需确保按照顺序完成每一步。(下面斜体部分是从 Isaacson 的书中引用的，引用了 Musk 的话。) 1. 质疑每一个需求。每一个需求都应该附有提出该需求的人的名字。你永远不应该接受一个来自某个部门的需求，例如“法律部门”或“安全部门”。你需要知道具体是谁提出的需求。然后你应该质疑它，不管这个人多聪明。来自聪明人的需求反而最危险，因为人们不太可能质疑它们。即使是来自我的需求，也要质疑。然后让这些需求变得不那么愚蠢。当我接管一家新工厂的生产时，主管们必须在生产线启动前签署质量确认。工作人员经常需要等待五到十分钟才能找到主管 (这也是需要解决的另一个问题；领导者应该在车间，而不是在办公室里)。为什么会有这个规定？公司 CEO 在一次昂贵的错误之后制定了这个规则。但如果操作员不能被信任判断他们的工作是否符合质量标准，他们就不应该成为操作员。许多规定都是基于一次性事件，不需要以流程、指导方针或规则来回应。相反，只需处理特定情况。从中学习，但不要因为个别事件就制定一成不变的规定。 2. 删除你能删除的任何部分或过程。你可能需要后来加回来。事实上，如果你没有最终加回至少 10% 的部分，那么你删除得还不够多。当我第一次成为主管时，我的一项工作是准备、打印并分发一份每日报告给大约 20 人。整个过程花费了一个多小时。有一天，我想知道是否有人实际上读了这份报告，所以我创建了它，但没有打印或分发。没有人注意到。所以我停止分发其他一些报告。创建了它们，但没有分发。没有人注意到。我们经常做事情只是因为我们一直这样做。或者因为我们认为需要这样做。或者因为这是我们的工作，因此它必须很重要。(我们的工作中的每一件事都很重要，对吗？) 3. 简化和优化。这应该在第二步之后进行。一个常见的错误是简化和优化一个不应该存在的部分或过程。在我停止分发那些报告的几周后，我问了一些人是否需要我再次分发这些报告。不需要。然后我问我们是否还需要收集相关数据。在大多数情况下，我们不需要，因为它已经在其他地方被收集。(我的部门一直在做重复工作，因为我们认为我们不能信任其他部门把它做对。) 在一些情况下，我们确实偶尔需要某些数据，所以我找到了自动化收集过程的方法。我还找到了一个让生产人员不参与数据收集过程的方法，这意味着他们可以花更多时间生产，而不是充当数据录入员。正如你马上会看到的，确保你不会自动化或优化一个根本不需要存在的过程。当然，通过使某件事变得更好，你可以取得百分比上的改进，但为什么不通过完全消除不必要的过程来节省 100% 的时间、精力和成本呢？ 4. 加快周期时间。每个过程都可以加速。但只有在你遵循前三个步骤之后才这样做。在 Tesla 工厂，我错误地花了很多时间加速后来发现应该被删除的过程。...

反思型智能体 • Langchain

反思是一种用于提高代理和类似 AI 系统质量与成功率的提示策略。本文概述了如何使用 LangGraph 构建 3 种反思技术，包括 Reflexion 和语言代理树搜索的实现。关键链接简单反思：（Python）反思：（Python）语言智能体树搜索：（Python）Youtube反思是一种提示策略，用于提升智能体和类似 AI 系统的质量和成功率。它通过提示大语言模型（LLM）反思和批评其过去的行为，有时还会结合外部信息，如工具观察。人们常提到“系统1”和“系统2”思维，系统1是反应迅速或本能的，而系统2则更为有条理和反思性。正确应用反思，可以帮助 LLM 系统摆脱纯粹的系统1思维模式，表现出更接近系统2的行为。反思需要时间！本文中的方法都用了一些额外的计算换取更好的输出质量。虽然这可能不适合低延迟应用，但对于知识密集型任务，响应质量比速度更重要，确实值得这样做。以下是三个示例：基本反思链接：（Python， Youtube）这个简单示例由两个 LLM 调用组成：一个生成器和一个反思器。生成器尝试直接响应用户请求，反思器则扮演老师角色，对初始响应提供建设性的批评。循环进行固定次数后，返回最终生成的输出。简单反思循环我们可以在 LangGraph 中定义以下循环： from langgraph.graph import MessageGraph builder = MessageGraph() builder.add_node("generate", generation_node) builder.add_node("reflect", reflection_node) builder.set_entry_point("generate") def should_continue(state: List[BaseMessage]): if len(state) > 6: return END return "reflect" builder.add_conditional_edges("generate", should_continue) builder.add_edge("reflect", "generate") graph = builder.compile() MessageGraph 表示一个有状态图，其中“状态”只是一个消息列表。每次调用生成器或反思节点时，它会将一条消息添加到状态的末尾。最终结果由生成器节点返回。这种简单的反思方式有时可以通过让 LLM 多次尝试改进输出，并让反思节点在批评输出时扮演不同角色，从而提高性能。然而，由于反思步骤不依赖于任何外部过程，最终结果可能不会显著优于原始结果。我们来探索一些可以改善这一情况的其他技术。反思链接：（Python， Youtube）...