在2024年全球开发者大会上,苹果公司推出了“Apple Intelligence”系统,这是一种深度集成于 iOS 18、iPadOS 18 和 macOS Sequoia 的个人智能系统。该系统由多个高效的生成式模型组成,旨在适应用户的日常任务,提供个性化的服务。苹果智能的基础模型经过精细调整,能够高效、准确且负责任地执行特定任务,并强调了苹果在人工智能开发中的责任感和隐私保护。
模型介绍:
- Apple Intelligence 包含一个约30亿参数的本地语言模型和一个更大的基于服务器的语言模型,后者在苹果自有的私有云计算环境中运行。
- 这些模型支持用户和开发者的多种需求,包括文本撰写、通知总结、图像生成等。
责任感与隐私保护:
- 苹果制定了一系列责任人工智能原则,强调用户赋权、用户代表性、设计谨慎和隐私保护。
- 在训练模型时,苹果不使用用户的私人数据,并应用过滤技术以去除个人可识别信息和低质量内容。
训练与优化:
- 基础模型使用苹果的 AXLearn 框架进行训练,采用数据并行、张量并行等技术提高效率。
- 在后期训练中,苹果开发了两种新算法以提升模型的指令跟随质量。
- 通过多种创新技术优化模型在设备和私有云上的速度和效率。
模型适应性:
- 模型通过适配器进行微调,以便根据用户的日常活动动态调整任务能力。
- 适配器可以在预训练模型的基础上进行加载和切换,支持特定任务的高效处理。
性能评估:
- 苹果的模型在多个任务上表现优异,用户反馈显示其生成的摘要质量高于竞争对手。
- 在对抗性测试中,苹果的模型在处理有害内容和敏感话题时表现出色,显示出较低的违规率。
未来展望:
- 苹果期待在未来分享更多关于其生成模型家族的信息,包括语言、扩散和编码模型,以进一步支持用户的日常活动。
介绍 Apple 的设备端和服务器基础模型
在 2024 年的 Worldwide Developers Conference 上,我们推出了 Apple Intelligence,这是一种深度集成于 iOS 18、iPadOS 18 和 macOS Sequoia 的个人智能系统。
Apple Intelligence 包含多个高度智能的生成模型,这些模型专为用户的日常任务而设计,并且能够根据用户当前的活动进行实时调整。Apple Intelligence 中的基础模型已经过优化,能够提升用户的体验,包括撰写和润色文本、优先处理和总结通知、为家庭和朋友的对话生成有趣的图像,并在应用内简化操作,方便用户使用各种应用。
在接下来的概述中,我们将详细介绍这两个模型:一个约 30 亿参数的设备端语言模型,以及一个更大的服务器端语言模型,该模型通过 Private Cloud Compute 在 Apple Silicon 服务器上运行。这两个基础模型是 Apple 创建的一个更大规模的生成模型家族的一部分,旨在支持用户和开发者;其中包括一个用于在 Xcode 中构建智能的编程模型,以及一个帮助用户在视觉上表达自己的扩散模型,例如在消息应用中。我们期待不久后分享更多关于这一系列模型的信息。
更新 - 2024 年 7 月 29 日:本文中的数据已更新,以反映今日发布的技术报告中使用的模型版本和评估。更多详情请参阅论文:Apple Intelligence Foundation Language Models。
我们对负责任的 AI 开发的关注
Apple Intelligence 的设计在每一步都遵循我们的核心价值观,并建立在开创性的隐私创新之上。
此外,我们还创建了一套负责任的 AI 原则,以指导我们开发 AI 工具以及支撑这些工具的模型:
为用户提供智能工具:我们识别出可以负责任地使用 AI 来创造工具的领域,以满足特定用户的需求。我们尊重用户选择如何使用这些工具来实现他们的目标。
代表我们的用户:我们打造的产品非常个性化,旨在真实地代表全球用户。我们不断努力避免在我们的 AI 工具和模型中延续刻板印象和系统性偏见。
细心设计:在我们的每一个流程阶段,包括设计、模型训练、功能开发和质量评估中,我们都采取了预防措施,以识别我们的 AI 工具可能被滥用或导致潜在伤害的情况。我们将继续并主动地通过用户反馈来改进我们的 AI 工具。
保护隐私:我们通过强大的设备端处理和开创性的基础设施(如 Private Cloud Compute)保护用户的隐私。在训练我们的基础模型时,我们不会使用用户的私人个人数据或用户交互。
这些原则贯穿于 Apple Intelligence 的架构中,该架构将功能和工具与专门的模型相连接,并对输入和输出进行扫描,以提供每个功能所需的信息,使其能够负责任地运行。
在本概述的其余部分中,我们将提供有关以下决策的详细信息:如何开发高效、快速且节能的模型;如何进行这些模型的训练;如何针对特定用户需求进行适配器微调;以及如何评估模型性能以避免有害影响。
图 1: Apple 基础模型的建模概述。
预训练
我们的基础模型是使用 Apple’s AXLearn 框架 进行训练的,这是我们在 2023 年发布的开源项目。它基于 JAX 和 XLA 构建,使我们能够在包括 TPU、云和本地 GPU 在内的各种训练硬件和云平台上高效、可扩展地训练模型。我们使用了数据并行、张量并行、序列并行和 Fully Sharded Data Parallel (FSDP) 的组合,在数据、模型和序列长度等多个维度上扩展训练。
我们使用许可数据训练我们的基础模型,包括选择的数据来增强特定功能,以及我们通过网络爬虫 AppleBot 收集的公开数据。网页发布者可以选择不允许 使用他们的网页内容来进行 Apple Intelligence 的训练。
我们在训练基础模型时从不使用用户的私人个人数据或用户交互,并应用过滤器以移除如社保号和信用卡号等公开可获得的个人可识别信息。我们还过滤低质量内容,以防其进入训练语料库。除了过滤,我们还进行数据提取、去重,并应用基于模型的分类器来识别高质量文档。
训练后
我们发现数据质量对模型的成功至关重要,因此我们在训练流水线中采用了混合数据策略,结合了人工标注数据和合成数据,并进行了全面的数据筛选和过滤程序。我们在训练后开发了两种新算法:(1) 使用教师委员会的拒绝采样微调算法,(2) 使用镜像下降策略优化和留一优势估计器的从人类反馈中进行强化学习 (RLHF) 算法。我们发现这两种算法显著提高了模型的指令执行质量。
优化
除了确保我们的生成模型具有高能力外,我们还使用了多种创新技术,在设备端和我们的私有云上对它们进行优化,以提高速度和效率。我们应用了一套广泛的优化措施来提高首个 Token 和扩展 Token 的推理性能。
设备端和服务器模型均使用了分组查询注意力。我们使用共享的输入和输出词汇嵌入表,以减少内存需求和推理成本。这些共享的嵌入张量被映射时没有重复。设备端模型使用的词汇量为 49K,而服务器模型使用的词汇量为 100K,其中包括额外的语言和技术 Token。
对于设备端推理,我们使用低位调色板化,这是一种关键的优化技术,可以实现必要的内存、功耗和性能要求。为了保持模型质量,我们开发了一个使用 LoRA 适配器的新框架,该框架采用混合的 2 位和 4 位配置策略——平均每权重 3.7 位——以达到与未压缩模型相同的精度。更激进地说,模型可以压缩到每权重 3.5 位,而质量不会显著下降。
此外,我们使用一个交互式模型延迟和功率分析工具 Talaria 来更好地指导每个操作的比特率选择。我们还使用了激活量化和嵌入量化,并开发了一种方法,以在我们的神经引擎上实现高效的键值(KV)缓存更新。
通过这套优化措施,在 iPhone 15 Pro 上我们能够实现每个提示 Token 大约 0.6 毫秒的首个 Token 延迟,并达到每秒生成 30 个 Token 的速率。值得注意的是,这种性能是在没有使用 Token 推测技术的情况下实现的,我们看到在使用该技术后 Token 生成速率得到了进一步的提升。
模型适配
我们的基础模型经过微调,以适应用户的日常活动,并能在任务执行过程中动态地进行自我专业化。我们使用适配器,即可以插入预训练模型的各个层的小型神经网络模块,来微调我们的模型以适应特定任务。对于我们的模型,我们调整了 Transformer 架构中解码层的注意力矩阵、注意力投影矩阵和逐点前馈网络中的全连接层。
通过仅微调适配器层,基础预训练模型的原始参数保持不变,保留了模型的一般知识,同时将适配器层调整为支持特定任务。
图 2: 适配器是一小部分模型权重集合,可以覆盖在通用基础模型上。它们可以动态加载和交换——使基础模型能够动态适应当前任务。Apple Intelligence 包含一组广泛的适配器,每个适配器都针对特定功能进行了微调。这是一种扩展我们基础模型功能的有效方式。我们使用 16 位来表示适配器参数,对于约 30 亿参数的设备端模型,秩为 16 的适配器通常需要数十兆字节。适配器模型可以动态加载、暂时缓存到内存中,并进行交换——使我们的基础模型能够在任务执行过程中动态地进行自我专业化,同时高效管理内存并保证操作系统的响应性。
为了促进适配器的训练,我们创建了一个高效的基础设施,使我们能够在基础模型或训练数据更新时快速重新训练、测试和部署适配器。适配器参数使用在“优化”部分中介绍的精度恢复适配器进行初始化。
性能与评估
我们的重点是提供生成模型,使用户能够在其 Apple 产品上进行交流、工作、表达自我并完成任务。在基准测试我们的模型时,我们关注于人类评估,因为我们发现这些结果与我们的产品中的用户体验高度相关。我们对特定功能适配器和基础模型进行了性能评估。
为了说明我们的方法,我们看看我们如何评估摘要适配器。由于电子邮件、消息和通知摘要的产品需求在微妙但重要的方面有所不同,我们在调色板化模型上微调了精度恢复低秩 (LoRA) 适配器,以满足这些特定需求。我们的训练数据基于从较大的服务器模型生成的合成摘要,经过拒绝采样策略过滤,仅保留高质量的摘要。
为了评估特定产品的摘要,我们使用了一组为每种用例精心抽样的 750 个响应。这些评估数据集强调了我们产品特性在实际生产中可能面临的多样化输入,并包括多种内容类型和长度的单个和堆叠文档的分层混合。作为产品功能,评估针对真实用例数据集的性能是很重要的。我们发现,总体而言,我们的适配器模型生成的摘要比可比较的模型更好。
作为负责任开发的一部分,我们识别并评估了摘要中固有的特定风险。例如,摘要有时会在不希望的方式中去除重要的细节。然而,我们发现摘要适配器在超过 99% 的针对性对抗性示例中没有放大敏感内容。我们将继续对抗性测试以识别未知的危害,并扩大我们的评估范围,以指导进一步的改进。
图 3: 三种摘要用例中“好”和“差”响应相对于所有响应的比例。根据评分者在五个维度上的评分,摘要被分类为“好”、“中立”或“差”。如果所有维度都被评分为好,则结果被归类为“好”(越高越好)。如果任何一个维度被评分为差,则结果被归类为“差”(越低越好)。我们的适配器模型整体生成的摘要优于可比的模型。
除了评估基础模型和适配器所支持的特定功能的性能外,我们还评估了设备端和服务器端模型的通用能力。我们使用了一个全面的评估集,包含了真实世界的提示,以测试模型的通用能力。这些提示在不同的难度级别上是多样化的,并涵盖了主要类别,如头脑风暴、分类、封闭问答、编码、提取、数学推理、开放问答、改写、安全性、摘要和写作等主要类别。
我们将我们的模型与开源模型 (Phi-3、Gemma、Mistral、DBRX、Llama) 以及大小相当的商业模型 (GPT-3.5、GPT-4) 进行比较1。我们发现,人类评分者更偏好我们的模型,而不是大多数可比的竞争模型。在这一基准测试中,我们的约 30 亿参数的设备端模型优于较大的模型,包括 Phi-3-mini、Mistral-7B、Gemma-7B 和 Llama-3-8B。我们的服务器模型与 DBRX-Instruct、Mixtral-8x22B、GPT-3.5 和 Llama-3-70B 相比,具有极高的效率。
图 4: Apple 基础模型与可比模型的对比评估中偏好响应的比例。我们发现人类评分者更偏好我们的模型。
我们使用了一组多样化的对抗性提示来测试模型在有害内容、敏感话题和真实性方面的表现。我们通过人类评分者对这些评估集的评分来测量每个模型的违规率,较低的数字为理想。面对对抗性提示时,设备端和服务器端模型都表现出很强的鲁棒性,其违规率低于开源和商业模型。
图 5: 有害内容、敏感话题和真实性方面的违规响应比例(越低越好)。我们的模型在面对对抗性提示时表现出很强的鲁棒性。
在人类评分者看来,我们的模型比竞争模型在这些提示中更安全和更有帮助。然而,考虑到大语言模型的广泛能力,我们理解我们安全基准的局限性。我们正在积极与内部和外部团队合作,进行手动和自动的红队测试,以继续评估我们模型的安全性。
图 6: Apple 基础模型与可比模型在安全提示上的对比评估中偏好响应的比例。人类评分者认为我们的响应更安全和更有帮助。
为了进一步评估我们的模型,我们使用 Instruction-Following Eval (IFEval) 基准测试来比较其指令执行能力与大小相当的模型。结果表明,我们的设备端和服务器端模型比大小相当的开源和商业模型更好地执行详细指令。
图 7: Apple 基础模型和大小相当的模型的指令执行能力 (IFEval)(越高越好)。
我们在内部摘要和写作基准测试中评估了我们模型的写作能力,这些基准测试包括了各种写作指令。这些结果不包括我们的摘要特定适配器(如图 3 所示),也没有专注于写作的适配器。
图 8: 在内部摘要和写作基准测试中的写作能力(越高越好)。
结论
在 WWDC24 上推出的 Apple 基础模型和适配器支撑了 Apple Intelligence,这是一个深度集成于 iPhone、iPad 和 Mac 的新个人智能系统,为语言、图像、操作和个人上下文提供强大的能力。我们的模型旨在帮助用户在他们的 Apple 产品上完成日常活动,并在每个阶段都负责任地开发,遵循 Apple 的核心价值观。我们期待很快分享更多关于我们更广泛的生成模型家族的信息,包括语言、扩散和编码模型。
[1] 我们与以下模型版本进行了比较:gpt-3.5-turbo-0125、gpt-4-0125-preview、Phi-3-mini-4k-instruct、Mistral-7B-Instruct-v0.2、Mixtral-8x22B-Instruct-v0.1、Gemma-1.1-2B、Gemma-1.1-7B、Llama-3-8B-Instruct 和 Llama-3-70B-Instruct。开源和 Apple 模型以 bfloat16 精度进行评估。