我们从一年与大语言模型 (LLMs) 的构建中学到了什么 (第三部分): 战略篇
我们在《我们从一年与大语言模型 (LLMs) 的构建中学到了什么 (第一部分):战术篇》中分享了操作 LLM 应用程序时精炼的战术见解。战术是具体的行动,用于实现特定目标。在《我们从一年与大语言模型 (LLMs) 的构建中学到了什么 (第二部分):运营篇》中,我们还探讨了支持战术工作的高级过程。 那么,这些目标从何而来?这就是战略的领域。战略回答了战术和运营背后的“是什么”和“为什么”问题。 我们提出了一些主张,如“在找到产品市场契合 (PMF) 之前不要使用 GPU”和“专注于系统而非模型”,以帮助团队更好地分配有限资源。我们还建议了一条迭代至优秀产品的路线图。最后一部分内容将回答以下问题: 构建 vs. 购买:何时应该训练自己的模型,何时应该利用现有 API?答案是“视情况而定”。我们会分享这些情况的具体影响因素。 迭代至优秀:如何打造持久的竞争优势,而不仅仅是使用最新的模型?我们将讨论构建强大系统和提供令人难忘体验的重要性。 以人为本的 AI:如何将 LLMs 有效地融入人类工作流,最大化生产力和幸福感?我们强调了构建支持和增强人类能力的 AI 工具的重要性,而不是完全取代人类。 入门指南:团队在开始构建 LLM 产品时的关键步骤是什么?我们会概述一个从提示工程、评估到数据收集的基本操作手册。 低成本认知的未来:快速降低的成本和不断增加的 LLM 能力将如何塑造 AI 应用的未来?我们将探讨历史趋势,并展示如何估算某些应用的经济可行性。 从演示到产品:从一个引人注目的演示到一个可靠的、可扩展的产品需要什么?我们强调了从原型到生产的严格工程、测试和改进的必要性。 要回答这些难题,让我们一步一步来思考…… 战略:在构建 LLM 产品时不被超越 成功的产品需要深思熟虑的规划和艰难的优先级排序,而不是无休止的原型制作或追随最新的模型发布。在最后一部分中,我们将展望未来,思考构建优秀 AI 产品的战略考量。我们还将探讨团队将面临的关键决策,例如何时构建和何时购买,并建议一个早期 LLM 应用开发的“操作手册”。 在找到产品市场契合 (PMF) 之前不要使用 GPU 要打造优秀的产品,你的产品需要不仅仅是依赖他人 API 的简单包装。但过于依赖自己训练模型的错误也可能更加昂贵。过去一年中,我们看到大量风险投资,包括令人震惊的 60 亿美元 A 轮融资,都用在了训练和定制模型上,却没有明确的产品愿景或目标市场。在本节中,我们将解释为什么立即跳到训练自己的模型是个错误,并探讨自托管的角色。 从头训练几乎永远没有意义 对于大多数组织来说,从头预训练一个大语言模型 (LLM) 是一个不可行的分散注意力的行为。 尽管这很诱人,而且看起来似乎每个人都在这么做,但开发和维护机器学习基础设施需要大量资源。这包括收集数据、训练和评估模型以及部署它们。如果你还在验证产品市场契合 (PMF),这些努力将分散你开发核心产品的资源。即使你拥有计算能力、数据和技术能力,预训练的 LLM 可能会在几个月内过时。 例如,BloombergGPT 是一个专门为金融任务训练的 LLM。该模型在 3630 亿个 Token 上进行了预训练,花费了 9 名全职员工(4 名来自 AI 工程团队,5 名来自 ML 产品和研究团队)的大量努力。尽管如此,它在一年内在这些金融任务上被 gpt-3....