快速了解一下 Google 发布的 Gemini 3 Flash Preview

Google 在 2025 年 12 月 18 日发布了 Gemini 3 Flash Preview，这是一款专为开发者设计的新一代 AI 模型。它具备前沿的智能水平，旨在实现大规模生产应用。该模型的核心突破在于打破了以往在“速度”与“智能”之间必须做出妥协的局面，能够同时提供卓越的性能和极高的响应速度。

Gemini 3 Flash 在性能上超越了上一代的 Gemini 2.5 Pro，但其运行速度更快，且成本仅为 Gemini 3 Pro 的四分之一不到。凭借先进的视觉、空间推理能力以及代码执行功能，该模型适用于从编程辅助到游戏开发、深度伪造检测等多种复杂场景。

xxx

关键细节

性能与基准测试

超越前代：Gemini 3 Flash 在多项基准测试中表现优异，例如在博士级推理基准 GPQA Diamond 中得分达到 90.4%，超越了 Gemini 2.5 Pro。
速度提升：根据人工智能分析基准测试，该模型的速度是 Gemini 2.5 Pro 的 3 倍。
推理能力：具备最先进的视觉和空间推理能力，支持缩放、计数和编辑视觉输入。

定价与成本效率

极低成本：在 Gemini API 和 Vertex AI 中，输入价格为每百万 token 0.50 美元，输出为 3 美元。
成本节约机制：标配上下文缓存功能，在重复使用 token 的情况下可降低 90% 的成本；通过 Batch API 异步处理可节省 50% 的成本。

实际应用案例

编程开发：在 SWE-bench Verified 测试中达到 78% 的准确率，优于 Gemini 3 Pro 的代理编码技能。它已集成到 Google Antigravity 平台，支持快速迭代开发。
游戏领域：Latitude 使用该模型在其游戏引擎中生成更智能的角色和世界，实现了以往只有专业级模型才能达到的质量。
深度伪造检测：Resemble AI 利用该模型进行近乎实时的多模态分析，速度比 Gemini 2.5 Pro 快 4 倍。
法律文档分析：法律科技公司 Harvey 利用该模型处理复杂的合同分析，推理能力较 Gemini 2.5 Flash 提升了 7% 以上。

获取方式

Gemini 3 Flash 现已全面向开发者和企业开放，用户可以通过以下渠道访问：

Google AI Studio 和 Gemini API
Google Antigravity
Gemini CLI
Android Studio
Vertex AI

Aritificial Analysis 的评测

Artificial Analysis 对 Gemini 3 Flash Preview的评测结果出来了，先说结论：

智能水平排名第二，仅次于 Gemini 3 Pro 和 GPT-5.2
幻觉率也非常高，高达 91%，这里的幻觉率是指本应拒绝回答或承认不知道答案时，却给出错误回答的频率
多模态能力排名第二，仅次于 Gemini 3 Pro Preview
速度比 Gemini 2.5 flash 慢了 22%，每秒大概 218 token

以下是原文翻译：

Google 发布了 Gemini 3 Flash Preview - 价格比 Gemini 3 Pro Preview 便宜一半，在 Artificial Analysis 智能指数上得分为 71 分，比 Gemini 2.5 Flash (9月版) 提高了 13 分，使其成为同成本下最智能的模型。

Gemini 3 Flash Preview 拥有特别强大的知识和推理能力，在知识和幻觉基准测试 AA-Omniscience 中获得了最高分，并在 Humanity’s Last Exam 中排名第二。

Google 现在在这两项评估中均占据前两名，巩固了其在模型知识方面的领导者地位。这种性能的提升是有代价的，在运行 Artificial Analysis 智能指数时，Gemini 3 Flash Preview 的 Token 用量是 Gemini 2.5 Flash (9月版) 的两倍多，使其成为我们测试过的 Token 用量最高的模型之一。

关键要点：

1️⃣ 显著的智能提升： Gemini 3 Flash Preview 在 Artificial Analysis 智能指数的几乎所有评估中都有显著提升。它在推理场景中表现尤为出色，在 Humanity’s Last Exam (35%) 中仅次于 Gemini 3 Pro Preview 位居第二，在 MMLU-Pro (89%) 和 GPQA Diamond (90%) 中均排名第三（落后于 Gemini 3 Pro Preview 和 GPT-5.2 xhigh）。

2️⃣ AA-Omniscience 表现： Gemini 3 Flash Preview 在我们的知识和幻觉基准测试 AA-Omniscience 中获得了最高分。这是由准确率（正确百分比）的提高驱动的，而不是更低的幻觉率。该模型拥有所有受测模型中最高的知识准确率，但幻觉率为 91%，比 Gemini 2.5 Flash 和 Gemini 3 Pro Preview 高出 3 个百分点。我们将幻觉率衡量为模型在本应拒绝回答或承认不知道答案时，却给出错误回答的频率。

3️⃣多模态能力： Gemini 3 Flash Preview 是一个多模态模型，能够接受文本、图像、视频和音频作为输入。它在 MMMU-Pro（一个测试图像输入推理能力的基准测试）中得分位居所有模型第二，仅次于 Gemini 3 Pro Preview。

4️⃣ 显著增加的 Token 用量： Gemini 3 Flash Preview 在 Artificial Analysis 智能指数上消耗了约 1.6 亿（160M）个 Token，是 Gemini 2.5 Flash (9月版) 用量的两倍多。这使其成为我们测试过的 Token 用量最高的模型之一，超过了 Kimi K2 thinking 和 Grok 4 (thinking) 等其他高用量模型。

5️⃣$ 成本效益：尽管 Token 用量很高，但以运行 Artificial Intelligence Index 的总成本衡量，Gemini 3 Flash Preview 仍然是同等智能水平下最具成本效益的模型。这是由于其低廉的 Token 价格，每 100 万输入/输出 Token 分别为 0.5 美元/3 美元。

6️⃣ 速度： Gemini 3 Flash Preview 比 Gemini 2.5 Flash (9月版) 慢 22%，测得速度为每秒 218 个输出 Token。但这仍然比同等智能水平的模型快得多，例如 GPT-5.1 (high) (125 tokens/s)、Kimi K2 Thinking (82 tokens/s) 和 DeepSeek V3.2 (Reasoning) (30 tokens/s)。

7️⃣ 其他细节： Gemini 3 Pro Preview 拥有 100 万 Token 的上下文窗口，并支持工具调用、结构化输出和 JSON 模式。

关键细节#

性能与基准测试#

定价与成本效率#

实际应用案例#

获取方式#

Aritificial Analysis 的评测#