Google 在 2025 年 12 月 18 日发布了 Gemini 3 Flash Preview,这是一款专为开发者设计的新一代 AI 模型。它具备前沿的智能水平,旨在实现大规模生产应用。该模型的核心突破在于打破了以往在“速度”与“智能”之间必须做出妥协的局面,能够同时提供卓越的性能和极高的响应速度。
Gemini 3 Flash 在性能上超越了上一代的 Gemini 2.5 Pro,但其运行速度更快,且成本仅为 Gemini 3 Pro 的四分之一不到。凭借先进的视觉、空间推理能力以及代码执行功能,该模型适用于从编程辅助到游戏开发、深度伪造检测等多种复杂场景。

关键细节
性能与基准测试
- 超越前代:Gemini 3 Flash 在多项基准测试中表现优异,例如在博士级推理基准 GPQA Diamond 中得分达到 90.4%,超越了 Gemini 2.5 Pro。
- 速度提升:根据人工智能分析基准测试,该模型的速度是 Gemini 2.5 Pro 的 3 倍。
- 推理能力:具备最先进的视觉和空间推理能力,支持缩放、计数和编辑视觉输入。
定价与成本效率
- 极低成本:在 Gemini API 和 Vertex AI 中,输入价格为每百万 token 0.50 美元,输出为 3 美元。
- 成本节约机制:标配上下文缓存功能,在重复使用 token 的情况下可降低 90% 的成本;通过 Batch API 异步处理可节省 50% 的成本。
实际应用案例
- 编程开发:在 SWE-bench Verified 测试中达到 78% 的准确率,优于 Gemini 3 Pro 的代理编码技能。它已集成到 Google Antigravity 平台,支持快速迭代开发。
- 游戏领域:Latitude 使用该模型在其游戏引擎中生成更智能的角色和世界,实现了以往只有专业级模型才能达到的质量。
- 深度伪造检测:Resemble AI 利用该模型进行近乎实时的多模态分析,速度比 Gemini 2.5 Pro 快 4 倍。
- 法律文档分析:法律科技公司 Harvey 利用该模型处理复杂的合同分析,推理能力较 Gemini 2.5 Flash 提升了 7% 以上。
获取方式
Gemini 3 Flash 现已全面向开发者和企业开放,用户可以通过以下渠道访问:
- Google AI Studio 和 Gemini API
- Google Antigravity
- Gemini CLI
- Android Studio
- Vertex AI
Aritificial Analysis 的评测

Artificial Analysis 对 Gemini 3 Flash Preview的评测结果出来了,先说结论:
智能水平排名第二,仅次于 Gemini 3 Pro 和 GPT-5.2
幻觉率也非常高,高达 91%,这里的幻觉率是指本应拒绝回答或承认不知道答案时,却给出错误回答的频率
多模态能力排名第二,仅次于 Gemini 3 Pro Preview
速度比 Gemini 2.5 flash 慢了 22%,每秒大概 218 token
以下是原文翻译:
Google 发布了 Gemini 3 Flash Preview - 价格比 Gemini 3 Pro Preview 便宜一半,在 Artificial Analysis 智能指数上得分为 71 分,比 Gemini 2.5 Flash (9月版) 提高了 13 分,使其成为同成本下最智能的模型。
Gemini 3 Flash Preview 拥有特别强大的知识和推理能力,在知识和幻觉基准测试 AA-Omniscience 中获得了最高分,并在 Humanity’s Last Exam 中排名第二。
Google 现在在这两项评估中均占据前两名,巩固了其在模型知识方面的领导者地位。这种性能的提升是有代价的,在运行 Artificial Analysis 智能指数时,Gemini 3 Flash Preview 的 Token 用量是 Gemini 2.5 Flash (9月版) 的两倍多,使其成为我们测试过的 Token 用量最高的模型之一。
关键要点:
1️⃣ 显著的智能提升: Gemini 3 Flash Preview 在 Artificial Analysis 智能指数的几乎所有评估中都有显著提升。它在推理场景中表现尤为出色,在 Humanity’s Last Exam (35%) 中仅次于 Gemini 3 Pro Preview 位居第二,在 MMLU-Pro (89%) 和 GPQA Diamond (90%) 中均排名第三(落后于 Gemini 3 Pro Preview 和 GPT-5.2 xhigh)。
2️⃣ AA-Omniscience 表现: Gemini 3 Flash Preview 在我们的知识和幻觉基准测试 AA-Omniscience 中获得了最高分。这是由准确率(正确百分比)的提高驱动的,而不是更低的幻觉率。该模型拥有所有受测模型中最高的知识准确率,但幻觉率为 91%,比 Gemini 2.5 Flash 和 Gemini 3 Pro Preview 高出 3 个百分点。我们将幻觉率衡量为模型在本应拒绝回答或承认不知道答案时,却给出错误回答的频率。
3️⃣多模态能力: Gemini 3 Flash Preview 是一个多模态模型,能够接受文本、图像、视频和音频作为输入。它在 MMMU-Pro(一个测试图像输入推理能力的基准测试)中得分位居所有模型第二,仅次于 Gemini 3 Pro Preview。
4️⃣ 显著增加的 Token 用量: Gemini 3 Flash Preview 在 Artificial Analysis 智能指数上消耗了约 1.6 亿(160M)个 Token,是 Gemini 2.5 Flash (9月版) 用量的两倍多。这使其成为我们测试过的 Token 用量最高的模型之一,超过了 Kimi K2 thinking 和 Grok 4 (thinking) 等其他高用量模型。
5️⃣$ 成本效益: 尽管 Token 用量很高,但以运行 Artificial Intelligence Index 的总成本衡量,Gemini 3 Flash Preview 仍然是同等智能水平下最具成本效益的模型。这是由于其低廉的 Token 价格,每 100 万输入/输出 Token 分别为 0.5 美元/3 美元。
6️⃣ 速度: Gemini 3 Flash Preview 比 Gemini 2.5 Flash (9月版) 慢 22%,测得速度为每秒 218 个输出 Token。但这仍然比同等智能水平的模型快得多,例如 GPT-5.1 (high) (125 tokens/s)、Kimi K2 Thinking (82 tokens/s) 和 DeepSeek V3.2 (Reasoning) (30 tokens/s)。
7️⃣ 其他细节: Gemini 3 Pro Preview 拥有 100 万 Token 的上下文窗口,并支持工具调用、结构化输出和 JSON 模式。