Q* 是什么?

虽然 Q* 的提出已经过去大半年了,昨晚偶然看到 X博主 kimmonismus 这篇关于 Q* 的文章,翻译了一下重新回顾一下。Q* 是一种尚未公开的人工智能算法,可能代表了通向人工通用智能(AGI)的重要突破。该算法结合了 Q-learning 和 A* 搜索,旨在提高 AI 的推理能力和自学习能力。通过实现系统 2 思维,Q* 使 AI 能够进行复杂的多步骤推理,从而克服当前大型语言模型(LLMs)中的逻辑错误(即“幻觉”)。尽管关于 Q* 的具体细节尚不明确,但其潜在能力引发了广泛关注和讨论。 Q 的背景*: Q* 尚未正式发布,OpenAI 对其信息保持保密。最初的传闻出现在 2023 年 12 月,报道称 OpenAI 在其研究设施取得了科学突破,首次实现了模型的自我学习能力。 Q* 可能是通向 AGI 的关键,AGI 被定义为在大多数经济上有价值的任务中超越人类的自主系统。 技术细节: Q* 结合了 Q-learning 和 A* 搜索算法,前者使 AI 能够通过试错学习做出决策,后者用于寻找最优路径。 Q* 允许 AI 在没有外部干预的情况下自我学习,例如,通过解决数学问题来展示其推理能力。 系统 2 思维: 该算法强调复杂思维过程,要求 AI 逐步、迭代地解决问题,类似于人类的系统 2 思维(System 2 thinking)。 通过将思维过程分解为更小的步骤,Q* 可以减少错误并提高输出的准确性。 潜在应用: Q* 的成功可能会使 AI 在科学研究等领域具备更强的推理能力。 该算法的开发可能会导致新的 AI 系统,能够执行复杂的推理任务,进一步推动 AGI 的进程。 未来展望:...

August 5, 2024 · 3 min · fisherdaddy

Apple 的设备端和服务器基础模型

在2024年全球开发者大会上,苹果公司推出了“Apple Intelligence”系统,这是一种深度集成于 iOS 18、iPadOS 18 和 macOS Sequoia 的个人智能系统。该系统由多个高效的生成式模型组成,旨在适应用户的日常任务,提供个性化的服务。苹果智能的基础模型经过精细调整,能够高效、准确且负责任地执行特定任务,并强调了苹果在人工智能开发中的责任感和隐私保护。 模型介绍: Apple Intelligence 包含一个约30亿参数的本地语言模型和一个更大的基于服务器的语言模型,后者在苹果自有的私有云计算环境中运行。 这些模型支持用户和开发者的多种需求,包括文本撰写、通知总结、图像生成等。 责任感与隐私保护: 苹果制定了一系列责任人工智能原则,强调用户赋权、用户代表性、设计谨慎和隐私保护。 在训练模型时,苹果不使用用户的私人数据,并应用过滤技术以去除个人可识别信息和低质量内容。 训练与优化: 基础模型使用苹果的 AXLearn 框架进行训练,采用数据并行、张量并行等技术提高效率。 在后期训练中,苹果开发了两种新算法以提升模型的指令跟随质量。 通过多种创新技术优化模型在设备和私有云上的速度和效率。 模型适应性: 模型通过适配器进行微调,以便根据用户的日常活动动态调整任务能力。 适配器可以在预训练模型的基础上进行加载和切换,支持特定任务的高效处理。 性能评估: 苹果的模型在多个任务上表现优异,用户反馈显示其生成的摘要质量高于竞争对手。 在对抗性测试中,苹果的模型在处理有害内容和敏感话题时表现出色,显示出较低的违规率。 未来展望: 苹果期待在未来分享更多关于其生成模型家族的信息,包括语言、扩散和编码模型,以进一步支持用户的日常活动。 介绍 Apple 的设备端和服务器基础模型 在 2024 年的 Worldwide Developers Conference 上,我们推出了 Apple Intelligence,这是一种深度集成于 iOS 18、iPadOS 18 和 macOS Sequoia 的个人智能系统。 Apple Intelligence 包含多个高度智能的生成模型,这些模型专为用户的日常任务而设计,并且能够根据用户当前的活动进行实时调整。Apple Intelligence 中的基础模型已经过优化,能够提升用户的体验,包括撰写和润色文本、优先处理和总结通知、为家庭和朋友的对话生成有趣的图像,并在应用内简化操作,方便用户使用各种应用。 在接下来的概述中,我们将详细介绍这两个模型:一个约 30 亿参数的设备端语言模型,以及一个更大的服务器端语言模型,该模型通过 Private Cloud Compute 在 Apple Silicon 服务器上运行。这两个基础模型是 Apple 创建的一个更大规模的生成模型家族的一部分,旨在支持用户和开发者;其中包括一个用于在 Xcode 中构建智能的编程模型,以及一个帮助用户在视觉上表达自己的扩散模型,例如在消息应用中。我们期待不久后分享更多关于这一系列模型的信息。 更新 - 2024 年 7 月 29 日:本文中的数据已更新,以反映今日发布的技术报告中使用的模型版本和评估。更多详情请参阅论文:Apple Intelligence Foundation Language Models。...

July 31, 2024 · 2 min · fisherdaddy

Duolingo: 让我们的角色发声

本文介绍了如何为 Duolingo 的角色创建定制的文本到语音(TTS)声音,以增强语言学习体验。通过赋予角色独特的声音,不仅增加了角色的个性,还帮助学习者接触到多样化的语音,提升了他们的听力技能和语言学习的趣味性。 角色的魅力 Duolingo 的角色通过插画和动画得到了广泛的关注,这激励团队进一步发展这些角色,使语言学习更加有趣和引人入胜。角色的熟悉感为故事叙述提供了便利,尤其是在初学者的学习中,角色的个性化帮助学习者更好地理解故事情节。 定制语音的开发 团队为每个角色开发了独特的 TTS 语音,经过多个月的审查和试音,确保每个角色的声音能够准确传达其个性。不同语言的角色声音在保留角色特质的同时,也考虑了文化适应性。例如,角色 Lin 在日语中显得懒散而直言不讳,而在英语中则显得总是带着笑意。 技术与教学的结合 使用机器学习技术,团队创建了先进的 TTS 语音,能够在课程中应用任何句子。录音过程中,团队设计了多种句型和语境,以确保声音的自然性和教学效果。特别是在不同语境下,语音的节奏和语调需进行精确调整,以便为学习者提供可靠的发音示范。 学习者的体验 当前,学习者在英语课程中可以听到所有角色的声音,而在学习多种语言时,也能体验到不同语言对角色的多样化演绎。这种多样性不仅增强了学习的趣味性,还帮助学习者在真实语言环境中更灵活地运用所学知识。 让我们的角色发声 我们的角色终于找到了他们的声音!在这篇博客中,我们将分享如何为所有角色创建自定义的文本到语音 (Text-to-Speech, TTS) 声音。 图1: 角色让学习更有趣 在美术团队完成角色的绘制和动画制作后,我们发现社交媒体上大家对这些角色反响热烈。这份热情促使我们更加用心打磨这些角色,给他们更多的细节和背景。 我们意识到,这是一个让语言学习更加有趣且充满吸引力的好机会。同时,我们希望借此加强学习者与 Duolingo 之间的联系。通过引人入胜的故事,我们希望学习者能不断回到平台上学习,并且深入了解这些角色。 现在,我们还为每个角色添加了专属的声音。这不仅让角色更具个性,也为学习者提供了更多样的听力体验,这对于语言学习非常有帮助。在现实生活中,大家会遇到各种不同年龄、性别和背景的人,因此,在课程中听到不同的声音类型,有助于提升应对实际语言情境的能力。 那么,我们的角色有哪些? 为了完善这些角色,我们花了数月的时间设计他们的性格、背景故事以及相互关系。同时,我们也创作了一些以这些角色为主的故事,这有助于更好地展现他们的个性。 我们发现,角色的熟悉感有助于讲故事。在故事中,由于篇幅和语言水平的限制(特别是对于初学者),我们需要依赖这些角色鲜明的个性和他们之间的互动,来实现更强的故事叙述效果。比如,不需要每次都解释 Lily 的动机,她那种冷漠的态度已经让学习者对她的行为有了清晰的理解,即使是初级语言水平也能将故事讲得生动有趣。 图2: 寻找角色的声音 为了让角色更加生动,我们为每个角色制作了定制的 TTS 声音。这些声音不仅展现了角色的独特个性,还让语言学习过程更加生动有趣。 当然,为九个角色开发多语言版本的声音并不是一件容易的事。仅仅是为英文角色选角,我们就花了几个月的时间来筛选试音,并讨论哪个演员最符合角色特质。比如,这次 Eddy 的试音是否显得太过学究?Oscar 是否需要更低沉、更有共鸣的声音?以及 Lily 的冷淡风格能否不影响学习体验? 在为英文版角色选角并录音后,我们以这些录音为基础,制作了西班牙语、法语、德语和日语版本。即便有英文录音作为参考,每种语言仍然面临着独特的创意和技术挑战。例如,讽刺在日语中的表达方式与英语不同,那 Lily 的语气是否也需要改变呢?我们与语言学专家、语音学家和创意顾问一起合作,确保每种语言版本都能合适地表现角色的性格。 有些语言版本中的角色声音几乎与英文版相同,而有些则在某些性格特点上有所加强。比如,Lin 在日语中表现得冷静而直接,但在英语中却总是充满趣味。 图3: 构建他们的声音 在为角色录音后,我们使用机器学习技术来构建最先进的 TTS 声音。这些声音能够用于课程中的任何句子,即使是那些尚未编写的句子!尽管已有许多技术可以用来构建和开发声音,但 Duolingo 的需求有所不同,我们需要它们来帮助学习语言。 我们精心设计了录音的内容,以涵盖课程中可能遇到的各种情境——不同的语音组合、各种句型以及情感表达。这些多样化的录音对于真实再现学习者在课程中遇到的语言场景是非常必要的。我们也尝试突破技术的限制,力求在语调、语速和停顿方面达到最佳效果,使声音尽可能接近真实。 我们的目标是平衡配音演员的表现力和教学的具体需求。配音演员需要通过想象各种场景来赋予台词情感——有时这种“声学味道”会对技术造成挑战,因为 TTS 系统通常是基于中性的语音数据进行训练的。 我们非常重视 TTS 声音在实际课程中的表现。对于学习者来说,TTS 声音需要是发音和语言使用的可靠模范。例如,在英语句子“我读这本书”中,根据上下文“读”的发音会有所不同:在现在时态的课程中,它的发音与在过去时态的课程中是不同的。同样,在处理不同句型的节奏和语调时,我们也遇到了一些挑战。例如,“你想去吗?”的语调与“你想去哪里?”的语调是不同的。我们的 TTS 声音只能和我们提供给系统的语音示例一样好,因此我们的语言专家和工程师合作,为系统提供提示或在必要时进行纠正。 接下来你能听到谁的声音? 现在,学习我们英语课程的学习者可以在课程中听到所有角色的声音!如果你在 Duolingo 上学习多种语言,还能体验这些角色的多种演绎!

July 30, 2024 · 1 min · fisherdaddy

Duolingo 如何为角色添加动画

Duolingo 在为其世界角色动画赋予生命的过程中,采用了创新的技术手段,以确保角色能够生动地与学习者互动。通过使用 Rive 工具,Duolingo 实现了高效的口型动画制作,提升了用户学习体验,确保了动画的质量和可扩展性。 动画挑战:Duolingo 需要为其超过 40 种语言的 100 多个课程中的角色制作动画,但手动动画口型是不切实际的,因此寻求可扩展的解决方案。 Rive 工具的应用:Rive 是一种基于网络的实时互动动画工具,允许通过状态机(State Machine)编程控制动画状态的切换和混合,从而实现高效的动画制作。 语音技术的整合:为了准确制作口型动画,Duolingo 建立了丰富的语音技术生态系统,使用内部的语音识别和发音模型来获取每个单词和音素的时序信息。 嘴形设计:为确保角色的嘴形动画真实可信,Duolingo 设计了 20 多种嘴形,结合角色的个性和 Duolingo 的美学。 动画集成:完成动画后,通过 Rive 的状态机将动画与音频同步,确保角色能够实时响应用户的操作,例如在点击单词时角色能够发声并动画化。 未来展望:Duolingo 将继续探索新技术,以克服技术挑战,进一步提升学习体验,并在未来的项目中应用这些经验。 Duolingo 如何为角色添加动画 在为每个角色开发了独特的声音后,我们开始思考如何让它们更有活力——不仅仅是现有的闲置行为动画。我们希望确保我们的角色能成为学习者生动有趣的学习伙伴! 首先:动画化这么多的口型动作是一项巨大的工程! 我们教授超过40种语言,涵盖100多个课程,每个课程包含数千个句子和课时,所以要为我们十个世界角色的每个口型动作手动画是不可能的。我们需要一种可扩展的方法来处理每个角色的各种口型,同时保证文件大小足够小,以便在Android、iOS和Web平台上运行。此外,我们还希望确保动画质量不受影响! 我们发现,游戏引擎的替代方案可能是答案——一种能帮助我们用有限的资源生成几乎无限组合的工具。这就是我们了解到Rive的原因! 什么是 Rive? Rive 是一种基于网络的工具,用于制作实时互动动画和设计,类似于游戏引擎。它解决了我们许多问题:文件大小小巧,与Duolingo的应用架构无缝结合,从动画师到工程师的交接过程也很顺利。 但最吸引我们的是Rive的状态机:这是一个可视化的逻辑系统,用于连接动画(即“状态”)。它让我们能够通过编程控制调用的动画状态、调用方式以及如何过渡和融合。状态机的强大系统让这个项目能够在大规模上实现。我们知道Rive是实现口型同步动画的理想工具! Rive 内部展示! 语音技术的魔力 为了制作口型动作,我们需要对语音内容有详细的了解。当我们为文本到语音生成声音时,我们使用的解决方案没有提供发音和时间信息,但我们有一个为语言学习设置的丰富语音技术生态系统。为了生成精准的动画,我们会生成语音,将其通过我们的内部语音识别和发音模型,获取每个单词和音素(语音单位)的时间信息。每个声音都会映射到一个视觉表示或唇形,这是我们基于语言学特征设计的一套系统。 有了这些功能,我们创建了一个系统来生成课程内容所需的所有唇形时间数据。当然,我们还需要确保这些数据的准确性,并将其传递给数百万用户。我们不仅开发了生成内容的工具和流程,还在必要时进行审核和修正。 设计口型世界 在开始动画制作前,我们需要确保准确地表示与特定声音对应的嘴形。 角色唇形图示例 我们需要设计每一个嘴形,保持Duolingo的美学风格。此外,每个角色还需要一套独特的唇形,符合其个性特征。设计过程中最关键的一步是确保唇形在动画中看起来真实可信。 有些角色需要更多的探索,但我们最终为每个角色设计了20多个嘴形! 一旦设计指南确定,我们就可以开始动画制作。我们为每个角色在课程中的常规姿势创建了动画状态,也为角色的嘴部设计了单独的状态。所有动画状态设置完毕后,最后一步就是将这些动画导入Rive的状态机,并与之前标注的嘴部输入结合起来。 状态机如何控制角色动画的图示 状态机如何混合唇形动画的图示。这里显示了4个唇形,但即使有超过20个形状,逻辑也是相同的。这些状态需要与角色动画状态同步运行! 状态机设置完成后,我们将其导出为一个运行时文件,然后交给工程师进行应用程序的集成! 集成过程 当需要展示一个挑战时,我们会获取音频和时间信息,并利用这些时间信息同步触发动画状态机。这将数据传输量降到最低——远低于传输一个小视频——并让我们能够实时响应用户的操作。当你点击一个单词时,角色会说出并动画该单词;如果你在它说完之前完成练习,角色会及时停止说话。我们还可以展示闲置行为,如点头、眨眼和眉毛移动。最后,根据挑战的结果——你是答对还是答错——我们可以进入一个最终状态,展示角色的反应! Duolingo 动画和技术的未来 Duolingo 一直在测试各种功能,这些嘴部运动也不例外。这个项目是一次有趣的实验,旨在使学习体验更加有趣,也是一次使用新软件和技术的机会。看到我们如何克服技术难题,并继续打造或改进其他有趣的功能,真是令人兴奋! 请查看我们在2023年Duocon上的演讲,了解更多关于我们动画制作的方法!

July 30, 2024 · 1 min · fisherdaddy

Duolingo 创造了一个新的角色:创意技术专家,连接设计师和开发人员

Duolingo 最近推出了一种新角色——创意技术专家(creative technologists),旨在弥合设计与工程之间的沟通。这一角色专注于设计优先的方法,要求具备动画优化能力,并能有效与工程师沟通。通过使用 Rive 这一设计工具,创意技术专家能够直接创建应用程序中的互动动画,减少设计与工程之间的反复沟通,从而提升工作效率。 创意技术专家的角色: 该角色结合了设计和工程的技能,能够在设计和最终产品之间缩小差距。 他们的职责包括优化动画资产、编写文档并与工程师沟通设计细节。 Rive 的应用: Rive 是一个用于构建互动运动图形的工具,使得动画师和创意技术专家可以直接创建应用中的动画,而无需复杂的技术规格。 Duolingo 首次使用 Rive 进行奖励动画,并逐步扩展到角色的语音同步等领域。 团队协作与优化: 创意技术专家与动画师和工程师紧密合作,确保动画的设计与实现的有效对接。 他们帮助识别设计约束,优化项目的构建方式,从而减少未来的修改和更新成本。 招聘与技能要求: Duolingo 寻找具备工程和设计背景的人才,特别是有状态机、VFX 和 Unity 等相关经验的人。 理想的候选人应能通过技术测试,并有解决新工具或技术问题的能力。 职业发展与行业趋势: 创意技术专家的角色在行业中逐渐兴起,未来可能会有更多类似的职位出现,以满足设计与工程之间的需求。 Duolingo 计划在即将到来的 Duocon 会议上宣布更多基于 Rive 的项目,展示其在互动学习体验中的应用潜力。 Duolingo 创造了一个新的角色,连接设计师和开发人员 Duolingo 最近引入了一个介于设计和工程之间的新角色。这个角色专注于 设计优先的方式,他们正在寻找能够与动画师一起优化设计并将这些优化传达给工程师的人。他们称之为 Creative Technologist。 Creative Technologist 负责弥合设计师和开发人员之间的鸿沟,也就是我们常说的“交接”。他们既有技术背景又有设计眼光,是左右脑兼备的人才。他们受雇时会特别要求成为 Rive 的专家。 为什么选择 Rive? Rive 是一个可以创建运行时交互动态图形的设计工具。Duolingo 的首位 Creative Technologist Jeff Masters 解释道:“以前,动画师会提供一个模型,并附上技术规范,说明如何用代码实现他们的想法。但现在,Rive 让我们的动画师和 Creative Technologist 可以直接创建应用程序中使用的实际素材,不再需要反复与工程师沟通外观问题。在 Rive 中,设计就是最终产品。” 动画副创意总监 Alex Chopjian 的设计和技术能力让他们的 CEO 希望有更多这样的动画师。他说:“在 Rive 中,设计与最终产品之间的差距非常小。你可以直接在浏览器中看到动画效果,而完全不需要接触代码。”...

July 30, 2024 · 2 min · fisherdaddy

LLM 知识图谱构建器:从零到 GraphRAG 只需五分钟

LLM 知识图谱构建器是 Neo4j 提供的一款创新工具,旨在将非结构化数据转化为动态知识图谱,支持生成式 AI 应用。该工具集成了检索增强生成(RAG)聊天机器人,使用户能够通过自然语言查询数据并获得可解释的洞察。用户无需编写代码,即可通过简单的步骤实现数据的提取与可视化,极大地简化了知识图谱的构建过程。 工具介绍: LLM 知识图谱构建器可将 PDF、网页和 YouTube 视频等非结构化文本转化为知识图谱。 该应用基于 React 前端和 Python FastAPI 后端,使用 Neo4j 的图形能力进行图谱构建。 使用步骤: 数据摄取:支持多种数据源,如 PDF、维基百科页面和 YouTube 视频。 实体识别:利用 LLM 识别和提取文本中的实体及其关系。 图谱构建:将识别的实体和关系转化为图格式。 用户界面:提供直观的网页界面,方便用户上传数据源、可视化生成的图谱,并与 RAG 代理互动。 创建知识图谱: 用户可通过拖放文件或输入链接来上传数据,系统将自动识别和处理。 提供预定义的图谱模式选项,用户可根据需求选择或自定义模式。 探索与互动: 生成的知识图谱以节点和边的形式展现,便于高效存储和查询复杂数据网络。 用户可通过 RAG 代理询问与数据相关的问题,系统将根据存储的图谱信息提供回答。 LLM 知识图谱构建器:从零到 GraphRAG 只需五分钟 使用 LLM 知识图谱构建器,在你的生成式 AI (GenAI) 应用中提取和使用知识图谱。 LLM 知识图谱构建器 是 Neo4j 的 GraphRAG 生态系统工具之一,帮助你将非结构化数据转化为动态知识图谱。它集成了检索增强生成 (RAG) 聊天机器人,支持自然语言查询,并提供数据的可解释见解。 什么是 Neo4j LLM 知识图谱构建器? Neo4j LLM 知识图谱构建器是一款创新的在线应用,无需编写代码和 Cypher 查询,即可将非结构化文本转化为知识图谱,提供神奇的文本到图谱体验。 它使用机器学习模型 (大语言模型:OpenAI、Gemini、Diffbot) 将 PDF、网页和 YouTube 视频转换为实体及其关系的知识图谱。...

July 29, 2024 · 2 min · fisherdaddy

Perplexity 的产品开发之路

本文主要介绍了Perplexity 的产品开发之路。Perplexity 是一家成立不到两年的公司,迅速崛起为一个受欢迎的搜索产品,用户数量已达数千万,并且年收入超过 2000 万美元。公司采用“AI 优先”的方法,通过利用人工智能来优化产品开发流程,减少协调成本,提升团队效率。Perplexity 的团队结构扁平,通常由小团队(两到三人)组成,强调自驱动和灵活性,预计未来技术型产品经理将成为公司最重要的人才。 公司背景:Perplexity 在短时间内取得了显著的成就,最近融资 6300 万美元,估值超过 10 亿美元。其投资者包括 Nvidia、Jeff Bezos 等知名人士。 AI 优先策略:公司在构建产品的每一步都依赖 AI,鼓励员工在询问同事之前先向 AI 提问,以提高工作效率。 团队结构:大多数项目由两到三人完成,只有两个全职产品经理,强调小团队的高效运作。 决策与管理:公司采取去中心化的决策方式,鼓励团队成员自主做出快速决策,减少管理层级,提升响应速度。 灵活的工作流程:Perplexity 的项目管理依赖于灵活的季度计划和稳定的周目标设定,团队成员在每周开始时设定优先级目标,并努力完成 75% 的目标。 工具与协作:使用 Notion 进行文档管理和项目规划,利用 Unwrap.ai 整理和量化用户反馈,促进团队协作和信息透明。 未来展望:预计随着 AI 技术的发展,技术型产品经理和具备产品品味的工程师将变得更加重要,团队将继续保持扁平化结构以应对快速变化的市场需求。 Perplexity 的产品开发之路 不到两年前成立的 Perplexity 已成为我日常使用的产品,甚至取代了许多 Google 搜索——我并不孤单。这家员工不足 50 人的公司,用户数量已达到数千万。他们还实现了超过 2000 万美元的年度经常性收入 (ARR),在搜索引擎领域与 Google 和 OpenAI 一较高下。最近筹集的 6300 万美元 使公司的估值超过 10 亿美元,投资者包括 Nvidia、Jeff Bezos、Andrej Karpathy、Garry Tan、Dylan Field、Elad Gil、Nat Friedman、Daniel Gross 和 Naval Ravikant (可惜没有我 😭)。Nvidia 的 CEO Jensen Huang 说他“几乎每天”都在使用这款产品。...

July 29, 2024 · 2 min · fisherdaddy

开源 AI 是未来的发展方向 • Mark Zuckerberg

Mark Zuckerberg 认为开放源代码的人工智能(AI)是未来发展的关键。他将开放源代码与早期的 Unix 操作系统进行比较,指出 Linux 的成功是因为其开放性和可修改性。Zuckerberg 预见,开放源代码的 AI 将在未来发展得更快、更安全,并且能够满足不同组织的需求。他强调 Meta 正在积极推动开放源代码 AI 的标准化,特别是通过推出 Llama 3.1 系列模型,以便更广泛地支持开发者和企业。 开放源代码的优势: 开放源代码允许开发者根据自身需求训练和调整模型,避免被锁定在封闭的供应商生态中。 组织可以在本地运行模型,保护敏感数据,提升安全性。 Llama 3.1 405B 模型的运行成本约为封闭模型(如 GPT-4o)的 50%,使其在经济性上具有竞争力。 Meta 的战略: Meta 通过开放源代码 AI 确保技术的可获取性,避免被竞争对手的封闭生态系统限制。 开放源代码的 Llama 模型将促进生态系统的发展,包括与 Amazon、Databricks 和 Nvidia 等公司的合作。 开放源代码对世界的影响: 开放源代码 AI 可以更广泛地分配技术利益,减少权力集中在少数公司手中。 Zuckerberg 认为开放源代码的透明性使其在安全性上优于封闭模型f,能够更好地应对潜在的意图和非意图的危害。 未来展望: Meta 计划通过构建内部团队和合作伙伴关系,推动 Llama 模型的广泛应用,期望在行业内引发开放源代码 AI 的广泛使用。 Zuckerberg 强调,开放源代码 AI 是促进经济机会和安全的最佳途径,呼吁大家共同参与这一进程。 开源 AI 是未来的发展方向 在高性能计算的早期,主要的科技公司都大力投资开发各自的封闭源代码版本的 Unix。当时很难想象有其他方法能开发出如此先进的软件。然而,后来开源的 Linux 逐渐受到欢迎——最初是因为它允许开发者随意修改代码且成本更低,随着时间的推移,它变得更加先进、安全,并拥有更广泛的生态系统,支持的功能比任何封闭的 Unix 都要多。今天,Linux 已成为云计算和大多数移动设备操作系统的行业标准基础——我们都因此受益,享受到更优质的产品。 我相信 AI 将以类似的方式发展。今天,几家科技公司正在开发领先的封闭模型,但开源正在迅速缩小差距。去年,Llama 2 仅相当于前沿后面的一代模型。今年,Llama 3 已经能够与最先进的模型竞争,并在某些领域中表现出色。从明年开始,我们预计未来的 Llama 模型将成为行业中最先进的模型。但即使在此之前,Llama 已经在开放性、可修改性和成本效益方面处于领先地位。...

July 25, 2024 · 2 min · fisherdaddy

少样本提示提高工具调用效率 • Langchain

本文探讨了通过“少量示例提示”(few-shot prompting)来提高大型语言模型(LLM)在调用工具时的性能。研究表明,少量示例提示能够显著提升模型在多种任务上的表现。通过一系列实验,作者分析了不同提示构造方式对模型性能的影响,发现选择合适的示例和格式化方式是提高性能的关键。 实验设置 研究使用了两个数据集进行实验:Query Analysis 和 Multiverse Math。Query Analysis 测试模型如何基于用户问题选择搜索索引,而 Multiverse Math 则考察模型在更复杂的多次调用场景中的表现。 少量示例提示技术 实验中采用了多种少量示例提示技术,包括零-shot、静态和动态消息等方式。结果表明,动态选择的示例通常优于静态示例,且使用消息格式的表现优于字符串格式。 性能评估 通过检查工具调用的召回率和参数的匹配程度来评估模型的表现。实验结果显示,少量示例提示普遍提高了模型的准确性,尤其是 Claude 模型的表现提升显著。 关键发现 使用少量相关示例(如 3 个)可以与使用更多示例(如 9 个)达到相似的效果,显示出示例数量的边际效益递减。此外,小型模型在使用少量示例时,表现能够与大型模型相媲美。 未来研究方向 文章提出了未来的研究问题,包括负面示例的效果、最佳的示例检索方法以及在复杂任务中如何选择示例等,鼓励开发者探索更多优化 LLM 性能的可能性。 少样本提示提高工具调用效率 工具是大语言模型 (LLM) 应用的重要组成部分,我们一直在努力改进 LangChain 的工具接口(参见我们关于 标准化工具调用 和 核心工具改进 的文章)。 我们还在研究如何 提升 LLM 工具调用的性能。一种常见的方法是使用 少样本提示,即在提示中加入示例输入和期望输出。研究表明,少样本提示能显著提升模型在多种任务中的表现。 构建少样本提示的方法很多,但缺乏最佳实践。我们进行了几次实验,探讨不同技术如何影响模型和任务的性能,愿意与大家分享我们的结果。 实验 我们在两个数据集上进行了实验。第一个数据集是 Query Analysis,这是一个标准场景,模型根据用户问题调用不同的搜索索引。第二个数据集是 Multiverse Math,测试在更智能化的 ReAct 工作流程中进行函数调用(涉及对 LLM 的多次调用)。我们对多个 OpenAI 和 Anthropic 模型进行了基准测试,尝试用不同方法提供少样本示例,以找到最佳方案。 查询分析 第二个数据集要求模型选择调用哪个搜索索引。为了正确查询数据源,模型需要一些领域知识并细致理解各数据源的内容类型。问题设计得非常复杂,以挑战模型的工具选择能力。 示例数据点 question: What are best practices for setting up a document loader for a RAG chain?...

July 25, 2024 · 3 min · fisherdaddy

精益创业方法的优点与不足 • Ethan Mollick

本文探讨了“精益创业法”(Lean Startup Method)的优缺点,强调了在创业过程中进行实验的重要性,同时指出该方法在某些方面可能导致创业者的误导。作者认为,创业教育可以通过结合科学方法和最新研究成果,帮助创业者更成功地启动和发展他们的企业。 精益创业法的核心理念: 由 Steve Blank 和 Eric Ries 提出的精益创业法强调行动导向,鼓励创业者通过“商业模式画布”识别商业假设,并快速构建最小可行产品(MVP)进行测试。 创业者需根据反馈不断调整产品和市场,直到实现产品与市场的契合。 实验的重要性: 意大利学者的研究表明,采用科学方法进行系统性实验的创业团队表现更佳,能够更有效地进行调整并实现更高的收入。 精益创业法的局限性: 强调快速与客户沟通可能导致创业者过于关注短期反馈,而忽视了创新产品的潜在市场需求。 “商业模式画布”虽然有助于了解客户,但未能引导创业者思考其独特的商业假设,可能掩盖了创业想法的真正价值。 改进建议: 引用 Joshua Gans 等人的研究,建议创业者在进行实验之前先制定战略,明确为何自己的公司能够成功,从而更有效地进行实验和获取突破性见解。 结合科学方法和最新的学术研究,能够帮助创业者更成功地推出基于证据的创业项目。 精益创业方法的优点与不足 当别人知道我是创业学教授时,他们往往会让我听听他们的创业计划,或者疑惑地说:“创业不是应该即兴发挥吗?怎么还能教呢?”因此,我听了很多创业计划(去年是区块链,今年是CBD),但我也在思考如何回答一个更大的问题:我们能教给创业者什么,让他们的创业更成功?幸运的是,过去十年我从两个不同的来源学到了很多宝贵的经验。 第一个来源是由Steve Blank和Eric Ries开创的精益创业方法(Lean Startup Method),这方法在六年前由Blank在哈佛商业评论中详细介绍。简而言之,精益创业方法提出,成功创业的关键在于偏向行动。创始人应首先使用商业模式画布(Business Model Canvas)来理解其业务背后的假设,这需要他们填写九个涵盖“价值主张”和“客户细分”等主题的方框。然后,他们将关键问题转化为可测试的假设,快速且廉价地构建最小可行产品(MVP)来测试这些假设。如果测试证明假设正确,那就继续;否则,他们应调整方向,根据反馈修改产品或市场,直到找到产品与市场的最佳匹配,证明产品有市场需求。 精益创业方法在硅谷一经推出便大受欢迎,初创企业纷纷接受这种新的实验精神。这种方法也相对容易教授,因此成为各地创业加速器和创业课程的常见内容。但精益创业并不是过去十年中唯一的重大变化,另一个较为低调的革命也在进行。学者们凭借更好的数据、更复杂的分析技术和新方法,开始破解创业成功的密码。传统的智慧正在接受检验。(创业公司是否总是需要联合创始人?年轻人是否更适合做创始人?)我们已经开始对精益创业方法有了一些重要的认识。 首先,好消息是!证据强烈表明,初创企业应按照精益创业方法所倡导的方式进行实验。一组意大利学者进行了一项黄金标准的随机对照实验,研究了116家初创企业。半数企业学习了如何对他们的创业想法进行严格的实验,生成假设并系统地测试它们。另一半企业虽然也学习了实验方法,但没有被教导如何使用科学方法生成假设。像科学家一样行动的那组企业表现得更好——转向更多,避免了问题,最终产生了比对照组更高的收入。严格的实验显然对初创企业的成功至关重要。 然而,其他研究表明,精益创业方法的某些方面实际上可能是有害的。在一篇新论文中,一组著名的创业学者指出了这种方法的两个主要问题: 精益创业鼓励创始人“走出办公室”并尽快与客户交谈。但正如Steve Jobs所说:“知道自己想要什么不是客户的工作。”对快速从客户那里获取反馈的关注,使初创企业倾向于追求渐进式改进,关注客户今天的需求,而不是展望未来。此外,许多研究(例如Clay Christensen关于颠覆性创新的研究)表明,新颖性常常最初不受客户欢迎。如果你的想法是突破性的,而不是一个容易解释的渐进式产品,那么寻求早期客户的外部验证会更加困难。 这个问题被商业模式画布所加剧。虽然画布所问的问题很有用——你应该知道你的客户是谁!——但它没有问最重要的问题:基于你的独特知识和信念,你对世界的假设是什么?填写画布的九个方框反而让你专注于创业过程结束时的样子——当你有了复杂的渠道和供应商关系等等——但在精益创业方法中没有达到这一最终状态的路线图。此外,画布的详细业务要素掩盖了使你的想法与众不同的真正见解。看看LinkedIn完成的众多画布示例,你会发现其中没有一个展示出使公司成功的关于网络和简历的特殊见解。为了生成关于你的创业为何独特的理论,你应该回到科学方法。从观察世界开始,利用你的观察生成理论,思考如何通过你的创业想法改变世界。 那么,如何保留精益创业的优点而不保留其缺点呢?去年HBR的一篇文章提供了一条路径。Joshua Gans、Erin L. Scott和Scott Stern从企业战略研究中汲取灵感,提出了一种新的、更有效的创业实验方法。他们提供了一种以战略为起点的方法——一个关于你公司为何会成功的理论——并根据创始人的选择,建议进行合适的实验。通过将关键的突破性见解的开发权还给创始人而不是客户,这种方法有潜力成为精益创业的下一步进化。 有了这些新工具和证据,我们真的可以教人们启动更成功的基于证据的初创企业。这些初创企业不仅仅是像精益创业方法那样收集证据,还基于最新的学术证据,来提高创业者的成功率。

July 24, 2024 · 1 min · fisherdaddy