(插图: 幕后付出了诸多努力。 Le Bouchon Ogasawara,位于东京涩谷。 图片来源:Ernest)
tl;dr
- TOPS (每秒万亿次运算, Trillions of Operations Per Second) 是衡量 AI 芯片和 NPU 芯片计算能力的重要指标,它表示处理器每秒能执行的万亿次运算次数。
- 我们可以用“煎鸡蛋”来形象理解 TOPS: 普通 CPU 就像一位每次只能煎一个鸡蛋的厨师,而高 TOPS 值的 AI 芯片则像一位可以同时煎无数鸡蛋的超级厨师。
- TOPS 是对比 AI 芯片性能的重要参考,但在评估 AI 硬件时,我们还应该综合考虑能效、内存带宽等因素。 此外,TOPS 值通常代表的是理论峰值性能,实际性能还需要结合具体应用场景进行评估。
什么是 TOPS(通俗易懂版)
TOPS,全称 每秒万亿次运算 (Trillions of Operations Per Second),是衡量人工智能 (AI) 芯片或神经处理单元 (NPU) 计算能力的关键指标。它表示处理器每秒能够执行的最大运算次数,以万亿为单位。 随着计算能力的不断提升,未来可能会出现更大的单位来替代 “万亿”。
为了更直观地理解 TOPS,我们可以用一个生活化的例子来解释:
将 AI 计算 想象成 煎鸡蛋的过程,而 数据 则是 待煎的鸡蛋。
一个普通厨师(相当于普通 CPU)可能一次只能煎一个鸡蛋,而一个超级厨师(相当于 AI 芯片)则可以同时煎一万亿个鸡蛋! TOPS 就好比衡量这位 “超级厨师” 能力的指标,告诉我们他每秒可以 “处理” 多少个 “数据鸡蛋”。
TOPS 是理解和比较 AI 芯片性能的重要参考之一,但并非唯一标准。
在评估 AI 硬件,例如 AI 手机或 AI 电脑时,我们还需要考虑其他因素,如能效、内存带宽和软件生态系统等。 通过 TOPS,我们可以比较不同 AI 芯片的计算能力,为选择适合特定应用的 AI 硬件设备提供参考。
什么是 TOPS(深入解析版)
在深入了解 TOPS 之前,我们首先需要理解什么是 “运算”:
在数字电路和计算机科学中,“运算” 通常指的是基本的数学或逻辑计算。 对于 AI 芯片或 NPU 来说,这些运算主要包括:
- 浮点运算: 例如加法、减法、乘法和除法。
- 矩阵运算: 大规模矩阵乘法是深度学习中最常见的运算之一。
- 向量运算: 包括点积(也称标量积)和叉积(也称向量积)等。
- 激活函数: 例如 ReLU,Sigmoid 和 Tanh 等。
- 卷积运算: 广泛应用于卷积神经网络 (CNN)。
这些运算通常以 FP32 (32 位浮点) 或 FP16 (16 位浮点) 格式进行。 部分 AI 芯片也支持精度更低的格式,例如 INT8 (8 位整数),以提高性能并降低能耗,这类格式通常用于推理。
TOPS 的计算公式可以简化为:
TOPS = (每个时钟周期的运算次数) × (时钟频率) / 1 万亿
举例来说,如果一个 AI 芯片在每个时钟周期可以执行 1000 次运算,且时钟频率为 1GHz,那么它的理论峰值性能就是 1 TOPS。
1000 次运算/周期 × 1GHz = 1000 × 10^9 次运算/秒 = 10^12 次运算/秒 = 1 TOPS
在理解 TOPS 时,需要注意以下几点:
- TOPS 通常代表的是理论峰值性能, 实际性能可能会受到内存带宽和芯片架构等因素的影响。
- 对于不同类型的运算 (如 FP32、FP16、INT8),TOPS 的数值可能会有所不同。
- 高的 TOPS 值并不一定意味着在所有 AI 任务中都有更好的表现,因为实际性能还取决于软件优化以及具体任务的特点。
TOPS 性能对比表
(请主要关注 “INT8 Ops” 列,左右滑动可查看更多数据) (包含 CES 2025 的信息)
INT8 Ops | FP32 FLOps | 公司名称 | 类型 | 目标市场 | 产品系列 | 产品名称 | 产品世代 | 代号 | 发布年份 | 首次应用 | 制造工艺 | CPU | GPU | NPU | 内存技术 | 内存带宽 | TDP | 备注 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
73 TOPS | n/a | AMD | SoC | PC | Ryzen AI 300 | Ryzen AI 9 365 | n/a | Strix Point | 2024 | n/a | TSMC 4nm FinFET | n/a | AMD Radeon™ 880M | n/a | DDR5-5600 或 LPDDR5X-7500 | n/a | 28.0 | - 总计 73 TOPS (NPU 提供 50 TOPS)。 |
80 TOPS | n/a | AMD | SoC | PC | Ryzen AI 300 | Ryzen AI 9 HX 370 | n/a | Strix Point | 2024 | n/a | TSMC 4nm FinFET | n/a | AMD Radeon™ 890M | n/a | DDR5-5600 或 LPDDR5X-7500 | n/a | 28.0 | - 总计 80 TOPS (NPU 提供 50 TOPS)。 |
50 TOPS | n/a | AMD | SoC | HP 移动, PC | Ryzen AI 300 | Ryzen AI Max (PRO) 385 | n/a | Strix Halo | 2025 | HP ZBook Ultra G1a, HP Z2 Mini G1a, ASUS ROG Flow Z13 | n/a | (Zen 5) 8 核 (16 线程),L3 缓存 = 40 MB | AMD Radeon 8050S 32 CUs (RDNA 3.5) | XDNA 2 NPU | LPDDR5X-8000 | 256 GB/s | n/a | |
50 TOPS | n/a | AMD | SoC | HP 移动, PC | Ryzen AI 300 | Ryzen AI Max (PRO) 390 | n/a | Strix Halo | 2025 | HP ZBook Ultra G1a, HP Z2 Mini G1a, ASUS ROG Flow Z13 | n/a | (Zen 5) 12 核 (24 线程),L3 缓存 = 76 MB | AMD Radeon 8050S 32 CUs (RDNA 3.5) | XDNA 2 NPU | LPDDR5X-8000 | 256 GB/s | n/a | |
50 TOPS | n/a | AMD | SoC | HP 移动, PC | Ryzen AI 300 | Ryzen AI Max PRO 380 | n/a | Strix Halo | 2025 | HP ZBook Ultra G1a, HP Z2 Mini G1a, ASUS ROG Flow Z13 | n/a | (Zen 5) 6 核 (12 线程),L3 缓存 = 22 MB | AMD Radeon 8040S 16 CUs (RDNA 3.5) | XDNA 2 NPU | LPDDR5X-8000 | 256 GB/s | n/a | |
50 TOPS | n/a | AMD | SoC | HP 移动, PC | Ryzen AI 300 | Ryzen AI Max+ (PRO) 395 | n/a | Strix Halo | 2025 | HP ZBook Ultra G1a, HP Z2 Mini G1a, ASUS ROG Flow Z13 | n/a | (Zen 5) 16 核 (32 线程),L3 缓存 = 80 MB | AMD Radeon 8086S 40 CUs (RDNA 3.5) | XDNA 2 NPU | LPDDR5X-8000 | 256 GB/s | n/a | |
50 TOPS | n/a | AMD | NPU | n/a | Ryzen | XDNA 2 | n/a | AI | 2024 | Ryzen AI 9 HX 370 | n/a | n/a | n/a | n/a | n/a | n/a | n/a | |
1961.2 TOPS 3922.3 TOPS (带稀疏性) | 122.6 TFLOPS | AMD | GPU | 数据中心 | AMD 数据中心 GPU (AMD Instinct) | MI300A | n/a | n/a | 2023 | n/a | n/a | n/a | n/a | n/a | HBM3 | 5300 GB/s | 550.0 | |
2614.9 TOPS 5229.8 TOPS (带稀疏性) | 163.4 TFLOPS | AMD | GPU | 数据中心 | AMD 数据中心 GPU (AMD Instinct) | MI300X | n/a | n/a | 2023 | n/a | XCD: TSMC N5 IOD: TSMC N6 | n/a | n/a | n/a | HBM3 | 5300 GB/s | 750.0 | |
2614.9 TOPS 5229.8 TOPS (带稀疏性) | 163.4 TFLOPS | AMD | GPU | 数据中心 | AMD 数据中心 GPU (AMD Instinct) | MI325X | n/a | n/a | 2024 | n/a | XCD: TSMC N5 IOD: TSMC N6 | n/a | n/a | n/a | HBM3E | 6000 GB/s | 750.0 | |
n/a | n/a | ARM | IP | n/a | Neoverse | Neoverse E1 | n/a | n/a | n/a | n/a | n/a | n/a | n/a | n/a | n/a | n/a | ||
n/a | n/a | ARM | IP | n/a | Neoverse | Neoverse N1 | n/a | Ares | 2019 | Ampere Altra, AWS Graviton2 | n/a | n/a | n/a | n/a | n/a | n/a | ||
n/a | n/a | ARM | IP | 数据中心 (基础设施处理器) | Neoverse | Neoverse N2 | n/a | Perseus | 2020 | Microsoft Azure Cobalt 100 | n/a | n/a | n/a | n/a | n/a | n/a | ||
n/a | n/a | ARM | IP | 数据中心 (基础设施处理器) | Neoverse | Neoverse N3 | n/a | Hermes | n/a | n/a | n/a | n/a | n/a | n/a | n/a | n/a | ||
n/a | n/a | ARM | IP | 数据中心 (基础设施处理器) | Neoverse | Neoverse V1 | n/a | Zeus | 2020 | AWS Graviton3 | n/a | n/a | n/a | n/a | n/a | n/a | - 首次公告来自 2018 年在圣何塞举行的 Arm TechCon 大会。 | |
n/a | n/a | ARM | IP | 数据中心 (基础设施处理器) | Neoverse | Neoverse V2 | n/a | n/a | 2022 | NVIDIA Grace, AWS Graviton4, Google Axion | n/a | n/a | n/a | n/a | n/a | n/a | ||
n/a | n/a | ARM | IP | 数据中心 (基础设施处理器) | Neoverse | Neoverse V3 | n/a | Poseidon | n/a | n/a | n/a | n/a | n/a | n/a | n/a | n/a | ||
825 TOPS ??? | n/a | 阿里巴巴 | SoC | 数据中心(AI 推理) | 含光 | 含光 800 | 1 | n/a | 2019 | n/a | 台积电 12nm | n/a | n/a | n/a | n/a | n/a | 280.0 | - 16x PCIe gen4 - SRAM,无 DDR |
n/a | n/a | 阿里巴巴 | SoC | 数据中心(基础设施) | 倚天 | 倚天 710 | 1 | n/a | 2021 | 阿里云 ECS g8m | N5 | 128 Neoverse N2 核 | n/a | n/a | n/a | n/a | n/a | |
n/a | n/a | 亚马逊 | SoC | 数据中心(基础设施)(横向扩展) | AWS Graviton | Graviton | 1 | Alpine | 2018 | Amazon EC2 A1 | 台积电 16nm | Cortex A72 | n/a | n/a | DDR4-1600 | 51.2 GB/s | 95.0 | - 32 通道 PCIe gen3 |
n/a | n/a | 亚马逊 | SoC | 数据中心(基础设施)(通用) | AWS Graviton | Graviton 2 | 2 | Alpine+ | 2019 | Amazon EC2 M6g, M6gd, C6g, C6gd, C6gn, R6g, R6gd, T4g, X2gd, G5g, Im4gn, Is4gen, I4g | 台积电 7nm | 128 Neoverse N1 核 | n/a | n/a | DDR4-3200 | 204.8 GB/s | 110.0 | - 64 通道 PCIe gen4 |
n/a | n/a | 亚马逊 | SoC | 数据中心(基础设施)(ML、HPC、SIMD) | AWS Graviton | Graviton 3 | 3 | n/a | 2021 | Amazon EC2 C7g, M7g, R7g; 带本地磁盘:C7gd, M7gd, R7gd | 台积电 5nm | 64 Neoverse V1 核 | n/a | n/a | DDR5-4800 | 307.2 GB/s | 100.0 | - 32 通道 PCIe gen5 |
n/a | n/a | 亚马逊 | SoC | 数据中心(基础设施) | AWS Graviton | Graviton 3E | 3 | n/a | 2022 | Amazon EC2 C7gn, HPC7g | n/a | 64 Neoverse V1 核 | n/a | n/a | n/a | n/a | n/a | |
n/a | n/a | 亚马逊 | SoC | 数据中心(基础设施)(向上扩展) | AWS Graviton | Graviton 4 | 4 | n/a | 2023 | Amazon EC2 R8g | n/a | 96 Neoverse V2 核 | n/a | n/a | DDR5-5600 | 537.6 GB/s | n/a | - 96 通道 PCIe gen5 |
63.3 TOPS | 0.97 TFLOPS | 亚马逊 | SoC | 数据中心(AI 推理) | AWS Inferertia | Inferertia 1 | 1 | n/a | 2018 | Amazon EC2 Inf1 | 台积电 16nm | 16 NeuroCore v1 | n/a | n/a | n/a | 50 GB/s | n/a | |
380 TOPS | 2.9 TFLOPS | 亚马逊 | SoC | 数据中心(AI 推理) | AWS Inferertia | Inferertia 2 | 2 | n/a | 2022 | Amazon EC2 Inf2 | 台积电 5nm | 24 NeuroCore v2 | n/a | n/a | n/a | 820 GB/s | n/a | |
380 TOPS | 2.9 TFLOPS | 亚马逊 | SoC | 数据中心(AI 训练) | AWS Trainium | Trainium 1 | 1 | n/a | 2020 | Amazon EC2 Trn1 | 台积电 7nm | 32 NeuroCore v2 | n/a | n/a | n/a | 820 GB/s | n/a | |
861 TOPS | 6.57 TFLOPS | 亚马逊 | SoC | 数据中心(AI 训练) | AWS Trainium | Trainium 2 | 2 | n/a | 2023 | Amazon EC2 Trn2 | 台积电 4nm | 64 NeuroCore v2 | n/a | n/a | n/a | 4,096 GB/s | n/a | |
n/a | n/a | 亚马逊 | SoC | n/a | AWS Trainium | Trainium 3 | n/a | n/a | 2025 | n/a | 台积电 N3 (?) | n/a | n/a | n/a | n/a | n/a | n/a | |
11 TOPS | 748.8 GFLOPS | 苹果 | SoC | 移动 | A | A14 Bionic | n/a | APL1W01 | 2020 | iPhone 12 | 台积电 N5 | Firestorm + Icestorm | n/a | n/a | LPDDR4X-4266 | 34.1 GB/s | n/a | |
15.8 TOPS | 1.37 TFLOPS | 苹果 | SoC | 移动 | A | A15 Bionic | n/a | APL1W07 | 2021 | iPhone 13 | 台积电 N5P | Avalanche + Blizzard | n/a | n/a | LPDDR4X-4266 | 34.1 GB/s | n/a | |
17 TOPS | 1.789 TFLOPS | 苹果 | SoC | 移动 | A | A16 Bionic | n/a | APL1W10 | 2022 | iPhone 14 | 台积电 N4P | Everest + Sawtooth | n/a | n/a | LPDDR5-6400 | 51.2 GB/s | n/a | - 6GB LPDDR5 |
35 TOPS | 2.147 TFLOPS | 苹果 | SoC | 移动 | A | A17 Pro | n/a | APL1V02 | 2023 | iPhone 15 Pro, iPhone 15 Pro Max | 台积电 N3B | 6 核 (2 个性能核 + 4 个能效核) | Apple 设计的 6 核 | 16 核神经网络引擎 | LPDDR5-6400 | 51.2 GB/s | n/a | - 8GB LPDDR5 |
35 TOPS | n/a | 苹果 | SoC | 移动 | A | A18 | n/a | n/a | 2024 | iPhone 16 | 台积电 N3P | 6 核 (2 个性能核 + 4 个能效核) | Apple 设计的 5 核 | 16 核神经网络引擎 | n/a | n/a | n/a | |
35 TOPS | n/a | 苹果 | SoC | 移动 | A | A18 Pro | n/a | n/a | 2024 | iPhone 16 Pro | 台积电 N3P | 6 核 (2 个性能核 + 4 个能效核) | Apple 设计的 6 核 | 16 核神经网络引擎 | n/a | n/a | n/a | |
11 TOPS | 2.6 TFLOPS | 苹果 | SoC | 移动, PC | M | M1 | n/a | APL1102 | 2020 | n/a | 台积电 N5 | 高性能 “Firestorm” + 高能效 “Icestorm” | n/a | n/a | LPDDR4X-4266 | 68.3 GB/s | n/a | |
11 TOPS | 10.4 TFLOPS | 苹果 | SoC | 移动, PC | M | M1 Max | n/a | APL1105 | 2021 | n/a | 台积电 N5 | n/a | n/a | n/a | LPDDR5-6400 | 409.6 GB/s | n/a | |
11 TOPS | n/a | 苹果 | SoC | 移动, PC | M | M1 Pro | n/a | APL1103 | 2021 | n/a | 台积电 N5 | n/a | n/a | n/a | LPDDR5-6400 | 204.8 GB/s | n/a | |
22 TOPS | 21 TFLOPS | 苹果 | SoC | 移动, PC | M | M1 Ultra | n/a | APL1W06 | 2022 | n/a | 台积电 N5 | M1 Ultra 由两个 M1 Max 单元组成,通过 UltraFusion 互连连接,总共有 20 个 CPU 核心和 96 MB 系统级缓存 (SLC)。 | n/a | n/a | LPDDR5-6400 | 819.2 GB/s | n/a | |
15.8 TOPS | 2.863 TFLOPS, 3.578 TFLOPS | 苹果 | SoC | 移动, PC | M | M2 | n/a | APL1109 | 2022 | n/a | 台积电 N5P | 高性能 @3.49 GHz “Avalanche” + 高能效 @2.42 GHz “Blizzard” | n/a | n/a | LPDDR5-6400 | 102.4 GB/s | n/a | |
15.8 TOPS | 10.736 TFLOPS, 13.599 TFLOPS | 苹果 | SoC | 移动, PC | M | M2 Max | n/a | APL1111 | 2023 | n/a | 台积电 N5P | n/a | n/a | n/a | LPDDR5-6400 | 409.6 GB/s | n/a | |
15.8 TOPS | 5.726 TFLOPS, 6.799 TFLOPS | 苹果 | SoC | 移动, PC | M | M2 Pro | n/a | APL1113 | 2023 | n/a | 台积电 N5P | n/a | n/a | n/a | LPDDR5-6400 | 204.8 GB/s | n/a | |
31.6 TOPS | 21.473 TFLOPS, 27.199 TFLOPS | 苹果 | SoC | 移动, PC | M | M2 Ultra | n/a | APL1W12 | 2023 | n/a | 台积电 N5P | n/a | n/a | n/a | LPDDR5-6400 | 819.2 GB/s | n/a | |
18 TOPS | 2.826 TFLOPS, 3.533 TFLOPS | 苹果 | SoC | 移动, PC | M | M3 | n/a | APL1201 | 2023 | MacBook Pro | 台积电 N3B | n/a | n/a | n/a | LPDDR5-6400 | 102.4 GB/s | n/a | |
18 TOPS | 10.598 TFLOPS, 14.131 TFLOPS | 苹果 | SoC | 移动, PC | M | M3 Max | n/a | APL1204 | 2023 | n/a | 台积电 N3B | n/a | n/a | n/a | LPDDR5-6400 | 307.2 GB/s, 409.6 GB/s | n/a | |
18 TOPS | 4.946 TFLOPS, 6.359 TFLOPS | 苹果 | SoC | 移动, PC | M | M3 Pro | n/a | APL1203 | 2023 | n/a | 台积电 N3B | n/a | n/a | n/a | LPDDR5-6400 | 153.6 GB/s | n/a | |
38 TOPS | 3.763 TFLOPS | 苹果 | SoC | 移动, PC | M | M4 | n/a | APL1206 | 2024 | iPad Pro (第 7 代) | 台积电 N3E | 10 核 (4 个性能核 + 6 个能效核) | Apple 设计的 10 核 | 16 核神经网络引擎 | LPDDR5X-7500 | 120 GB/s | n/a | |
38 TOPS | n/a | 苹果 | SoC | 移动, PC | M | M4 Max | n/a | n/a | 2024 | MacBook Pro M4 Max | 台积电 N3E | 14 核 (10 个性能核 + 4 个能效核) 16 核 (12 个性能核 + 4 个能效核) | Apple 设计的 16 核 Apple 设计的 20 核 | 16 核神经网络引擎 | LPDDR5X-8533 | 409.6 GB/s (36GB), 546 GB/s (48GB, 64GB, 128GB) | n/a | |
38 TOPS | n/a | 苹果 | SoC | 移动, PC | M | M4 Pro | n/a | n/a | 2024 | MacBook Pro M4 Pro, Mac mini M4 Pro | 台积电 N3E | 12 核 (8 个性能核 + 4 个能效核) 14 核 (10 个性能核 + 4 个能效核) | Apple 设计的 32 核 Apple 设计的 40 核 | 16 核神经网络引擎 | LPDDR5X-8533 | 273 GB/s | n/a | |
n/a | n/a | 苹果 | SoC | 移动, PC | M | M5 | n/a | n/a | 2025 | n/a | 台积电 N3P | n/a | n/a | n/a | n/a | n/a | n/a | - 2.5D 封装 (台积电 SOIC) |
n/a | n/a | 谷歌 | SoC | 数据中心(基础设施) | GCP CPU | Axion | n/a | Axion | 2024 | GCP Compute Engine ??? | n/a | ?? Neoverse V2 核 | n/a | n/a | n/a | n/a | n/a | |
1.6 TOPS | n/a | 谷歌 | SoC | 移动 | Google Tensor (Edge TPU) | G1 | 1 | Whitechapel | 2021 | Pixel 6, Pixel 6 Pro, Pixel 6a | 三星 5 nm LPE | 八核: 2.8 GHz Cortex-X1 (2×) 2.25 GHz Cortex-A76 (2×) 1.8 GHz Cortex-A55 (4×) | Mali-G78 MP20 @ 848 MHz | Google Edge TPU | LPDDR5 | 51.2 GB/s | n/a | |
n/a | n/a | 谷歌 | SoC | 移动 | Google Tensor (Edge TPU) | G2 | 2 | Cloudripper | 2022 | Pixel 7, Pixel 7 Pro, Pixel 7a, Pixel Fold, Pixel Tablet | 三星 5 nm LPE | 八核: 2.85 GHz Cortex-X1 (2×) 2.35 GHz Cortex-A78 (2×) 1.8 GHz Cortex-A55 (4×) | Mali-G710 MP7 @ 850 MHz | Google Edge TPU | LPDDR5 | 51.2 GB/s | n/a | |
27 TOPS | n/a | 谷歌 | SoC | 移动 | Google Tensor (Edge TPU) | G3 | 3 | Zuma (开发板:Ripcurrent) | 2023 | Pixel 8, Pixel 8 Pro, Pixel 8a | 三星 4nm LPP | 九核: 2.91 GHz Cortex-X3 (1×) 2.37 GHz Cortex-A715 (4×) 1.7 GHz Cortex-A510 (4×) | Mali-G715 MP10 @ 890 MHz | Google Edge TPU (Rio) | LPDDR5X | 68.2 GB/s | n/a | |
45 TOPS | n/a | 谷歌 | SoC | 移动 | Google Tensor (Edge TPU) | G4 | 4 | Zuma Pro | 2024 | Pixel 9, Pixel 9 Pro | 三星 4nm LPP | 八核: 3.1 GHz Cortex-X4 (1×) 2.6 GHz Cortex-A720 (3×) 1.92 GHz Cortex-A520 (4×) | Mali-G715 MP10 @ 940 MHz | n/a | LPDDR5X | n/a | n/a | - 8Gen3 = 45 TOPS, D9300 = 48 TOPS |
n/a | n/a | 谷歌 | SoC | 移动 | Google Tensor (Edge TPU) | G5 | 5 | Laguna Beach (开发板:Deepspace) | 2025 | Pixel 10, Pixel 10 Pro | 台积电 N3 + InFO-POP 封装 | n/a | n/a | n/a | n/a | n/a | n/a | |
23 TOPS | n/a | 谷歌 | SoC | 数据中心(AI 推理) | TPU | TPUv1 | 1 | n/a | 2015 | n/a | 28nm | n/a | n/a | n/a | DDR3-2133 | 34 GB/s | 75.0 | - TPU 的核心:脉动阵列 - 矩阵乘法单元 (MXU):一个大型的脉动阵列 - PCIe Gen3 x16 |
45 TOPS | 3 TFLOPS | 谷歌 | SoC | 数据中心(AI 推理) | TPU | TPUv2 | 2 | n/a | 2017 | n/a | 16nm | n/a | n/a | n/a | n/a | 600 GB/s | 280.0 | - 16GB HBM - BF16 |
123 TOPS | 4 TFLOPS | 谷歌 | SoC | 数据中心(AI 推理) | TPU | TPUv3 | 3 | n/a | 2018 | n/a | 16nm | n/a | n/a | n/a | n/a | 900 GB/s | 220.0 | |
275 TOPS | n/a | 谷歌 | SoC | 数据中心(AI 推理) | TPU | TPUv4 | 4 | n/a | 2021 | n/a | 7nm | n/a | n/a | n/a | n/a | 1,200 GB/s | 170.0 | - 32GB HBM2 |
393 TOPS | n/a | 谷歌 | SoC | 数据中心(AI 推理) | TPU | TPUv5e | 5 | n/a | 2023 | n/a | n/a | n/a | n/a | n/a | n/a | 819 GB/s | n/a | |
918 TOPS | n/a | 谷歌 | SoC | 数据中心(AI 推理) | TPU | TPUv5p | 5 | n/a | 2023 | n/a | n/a | n/a | n/a | n/a | n/a | 2,765 GB/s | n/a | |
n/a | n/a | 谷歌 | SoC | 数据中心(AI 推理) | TPU | TPUv6? Trillium? | 6 | n/a | 2024 | n/a | n/a | n/a | n/a | n/a | n/a | n/a | n/a | |
n/a | 31 TFLOPS | Graphcore | SoC | 数据中心 | Colossus | Colossus MK1 GC2 IPU | 1 | n/a | 2017 | n/a | 台积电 16nm | 1216 个处理器核心 | n/a | n/a | n/a | 45,000 GB/s | n/a | |
n/a | 62 TFLOPS | Graphcore | SoC | 数据中心 | Colossus | Colossus MK2 GC200 IPU | 2 | n/a | 2020 | n/a | 台积电 7nm | 1472 个处理器核心 | n/a | n/a | n/a | 47,500 GB/s | n/a | |
n/a | n/a | Graphcore | SoC | 数据中心 | Colossus | Colossus MK3 (待定) | 3 | n/a | n/a | n/a | n/a | n/a | n/a | n/a | n/a | n/a | ||
n/a | n/a | 英特尔 | SoC | HP 移动, PC | n/a | n/a | n/a | Arrow Lake | n/a | n/a | n/a | n/a | n/a | n/a | n/a | n/a | ||
120 TOPS | n/a | 英特尔 | SoC | LP 移动 | Core Ultra | Core Ultra | Series 2 | Lunar Lake | 2024 | n/a | 台积电 N3B (计算单元), 台积电 N6 (平台控制器单元) | P 核:Lion Cove E 核:Skymont | Xe2 | NPU 4 | n/a | n/a | n/a | - 总计 120 TOPS (NPU 4 提供 48 TOPS + GPU 提供 67 TOPS + CPU 提供 5 TOPS)。 |
34 TOPS | n/a | 英特尔 | SoC | 移动 | Core Ultra | Core Ultra | Series 1 | Meteor Lake | 2023 | n/a | Intel 4 (7nm EUV, 计算单元), 台积电 N5 (图形单元), 台积电 N6 (Soc 单元, I/O 扩展单元) | P 核:Redwood Cove E 核:Crestmont | Xe-LPG | NPU 3720 | n/a | n/a | n/a | - 总计 34 TOPS (NPU 提供 11 TOPS + GPU 提供 18 TOPS + CPU 提供 5 TOPS)。 |
0.5 TOPS | n/a | 英特尔 | NPU | n/a | n/a | NPU 1 | 1 | n/a | 2018 | n/a | n/a | n/a | n/a | n/a | n/a | n/a | ||
7 TOPS | n/a | 英特尔 | NPU | n/a | n/a | NPU 2 | 2 | n/a | 2021 | n/a | n/a | n/a | n/a | n/a | n/a | n/a | ||
11.5 TOPS | n/a | 英特尔 | NPU | n/a | n/a | NPU 3 | 3 | n/a | 2023 | n/a | n/a | n/a | n/a | n/a | n/a | n/a | ||
48 TOPS | n/a | 英特尔 | NPU | n/a | n/a | NPU 4 | 4 | n/a | 2024 | Lunar Lake | n/a | n/a | n/a | n/a | n/a | n/a | ||
n/a | n/a | 联发科 | SoC | 移动 | 天玑 | 天玑 9000 | 9000 | n/a | 2021 | Redmi K50 Pro OPPO Find X5 Pro 天玑版 vivo X80 / X80 Pro 天玑版 | 台积电 N4 | 1× Cortex-X2 @ 3.05 GHz 3× Cortex-A710 @ 2.85 GHz 4× Cortex-A510 @ 1.8 GHz | Mali-G710 MP10 @ 850 MHz | 联发科 APU 590 | n/a | n/a | n/a | - 5G NR Sub-6GHz, LTE |
n/a | n/a | 联发科 | SoC | 移动 | 天玑 | 天玑 9000+ | 9000 | n/a | 2022 | 小米 12 Pro 天玑版 华硕 ROG Phone 6D Ultimate iQOO Neo 7 OPPO Find N2 Flip | 台积电 N4 | 1× Cortex-X2 @ 3.2 GHz 3× Cortex-A710 @ 2.85 GHz 4× Cortex-A510 @ 1.8 GHz | Mali-G710 MC10 | 联发科 APU 590 | n/a | n/a | n/a | - 5G NR Sub-6GHz, LTE |
n/a | n/a | 联发科 | SoC | 移动 | 天玑 | 天玑 9200 | 9000 | n/a | 2022 | vivo X90, vivo X90 Pro OPPO Find X6 OPPO Find N3 Flip | 台积电 N4 | 1× Cortex-X3 @ 3.05GHz 3× Cortex-A715 @ 2.85GHz 4× Cortex-A510 @ 1.8GHz | Mali-Immortalis-G715 MP11 @ 981 MHz | 联发科 APU 690 | n/a | n/a | n/a | - 5G NR Sub-6 GHz, 5G mmWave, LTE |
n/a | n/a | 联发科 | SoC | 移动 | 天玑 | 天玑 9200+ | 9000 | n/a | 2023 | iQOO Neo8 Pro vivo X90s Redmi K60 至尊版 | 台积电 N4 | 1× Cortex-X3 @ 3.35 GHz 3× Cortex-A715 @ 3.0 GHz 4× Cortex-A510 @ 2.0 GHz | Mali-Immortalis-G715 MC11 | 联发科 APU 690 | n/a | n/a | n/a | - 5G NR Sub-6 GHz, 5G mmWave, LTE |
n/a | n/a | 联发科 | SoC | 移动 | 天玑 | 天玑 9300 | 9000 | n/a | 2023 | vivo X100, vivo X100 Pro OPPO Find X7 | 台积电 N4P | 1× Cortex-X4 @ 3.25 GHz 3× Cortex-X4 @ 2.85 GHz 4× Cortex-A720 @ 2.0 GHz | Mali-Immortalis-G720 MC12 @ 1300 MHz | 联发科 APU 790 | n/a | n/a | n/a | - 5G NR (Sub-6 GHz & mmWave), 4G LTE, 四频 GNSS (BeiDou, Galileo, GLONASS, GPS, NavIC, QZSS), Bluetooth 5.4, Wi-Fi 7 (2x2) |
n/a | n/a | 联发科 | SoC | 移动 | 天玑 | 天玑 9300+ | 9000 | n/a | 2024 | vivo X100S, vivo X100X Pro | 台积电 N4P | 1× Cortex-X4 @ 3.4 GHz 3× Cortex-X4 @ 2.85 GHz 4× Cortex-A720 @ 2.0 GHz | Mali-Immortalis-G720 MC12 @ 1300 MHz | 联发科 APU 790 | n/a | n/a | n/a | - 5G NR (Sub-6 GHz & mmWave), 4G LTE, 四频 GNSS (BeiDou, Galileo, GLONASS, GPS, NavIC, QZSS), Bluetooth 5.4, Wi-Fi 7 (2x2) |
n/a | n/a | 联发科 | SoC | 移动 | 天玑 | 天玑 9400 | 9000 | n/a | 2024 | vivo X200, OPPO Find X8 / Pro | 台积电 N3 | 1× Cortex-X925 @ 3.63 GHz 3× Cortex-X4 @ 2.8 GHz 4× Cortex-A725 @ 2.1 GHz | Mali-Immortalis-G925 MC12 @ ??? MHz | n/a | n/a | n/a | ||
n/a | n/a | 微软 | SoC | 数据中心(基础设施) | Azure Cobalt | Cobalt 100 | 1 | n/a | 2024 | Azure VM Dpsv6, Dplsv6, Epsv6 | n/a | 128 Neoverse V2 核 | n/a | n/a | LPDDR5 ??? | n/a | n/a | - PCIe gen5 - CXL 1.1 - 从项目启动到芯片仅用 13 个月。 |
1,600 TOPS | n/a | 微软 | SoC | 数据中心(AI 推理) | Azure Maia | Maia 100 | 1 | n/a | 2024 | Microsoft Copilot | 台积电 N5 + CoWoS-S | n/a | n/a | n/a | n/a | 18,000 GB/s ??? | 500.0 | - 32Gb/s PCIe gen5x8 - 设计 TDP = 700W - 实际 TDP = 500W |
988 TOPS (494?) | 30.9 TFLOPS | NVIDIA | SoC | 桌面 | GeForce RTX 50 | GeForce RTX 5070 | Blackwell | n/a | 2025 | n/a | 台积电 4NP (定制 N4P) | 6,144 192:96:48:192 | GB205-300 | n/a | GDDR7 | 672 GB/s | 250.0 | |
1406 TOPS (703?) | 43.9 TFLOPS | NVIDIA | SoC | 桌面 | GeForce RTX 50 | GeForce RTX 5070 Ti | Blackwell | n/a | 2025 | n/a | 台积电 4NP (定制 N4P) | 8,960 280:140:70:280 | GB203-300 | n/a | GDDR7 | 896 GB/s | 300.0 | |
1801 TOPS (900?) | 56.3 TFLOPS | NVIDIA | SoC | 桌面 | GeForce RTX 50 | GeForce RTX 5080 | Blackwell | n/a | 2025 | n/a | 台积电 4NP (定制 N4P) | 10,752 336:168:84:336 | GB203-400 | n/a | GDDR7 | 960 GB/s | 360.0 | |
3352 TOPS (1676?) | 104.8 TFLOPS | NVIDIA | SoC | 桌面 | GeForce RTX 50 | GeForce RTX 5090 | Blackwell | n/a | 2025 | n/a | 台积电 4NP (定制 N4P) | 21,760 680:340:170:680 | GB202-300 | n/a | GDDR7 | 1792 GB/s | 575.0 | |
n/a | 15.1 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4060 | n/a | AD107-400 | 2023 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6 | 272 GB/s | 115.0 | - PCIe 4.0 x8 |
n/a | 22.1 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4060 Ti | n/a | AD106-351 | 2023 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6 | 288 GB/s | 160.0 | - PCIe 4.0 x8 |
n/a | 29.1 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4070 | n/a | AD104-250 | 2023 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6X | 504 GB/s | 200.0 | - PCIe 4.0 x16 |
n/a | 35.48 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4070 Super | n/a | AD104-350 | 2024 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6X | 504 GB/s | 220.0 | - PCIe 4.0 x16 |
n/a | 40.1 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4070 Ti | n/a | AD104-400 | 2023 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6X | 504 GB/s | 285.0 | - PCIe 4.0 x16 |
n/a | 44.10 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4070 Ti Super | n/a | AD103-275 | 2024 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6X | 672 GB/s | 285.0 | - PCIe 4.0 x16 |
n/a | 48.7 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4080 | n/a | AD103-300 | 2022 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6X | 717 GB/s | 320.0 | - PCIe 4.0 x16 |
n/a | 52.22 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4080 Super | n/a | AD103-400 | 2024 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6X | 736 GB/s | 320.0 | - PCIe 4.0 x16 |
n/a | 82.6 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4090 | n/a | AD102-300 | 2022 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6X | 1008 GB/s | 450.0 | - PCIe 4.0 x16 |
n/a | 73.5 TFLOPS | NVIDIA | GPU | 桌面 | GeForce RTX 40 | GeForce RTX 4090 D | n/a | AD102-250 | 2023 | n/a | 台积电 N4 | n/a | n/a | n/a | GDDR6X | 1008 GB/s | 425.0 | - PCIe 4.0 x16 |
n/a | 124.96 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | A10 | Ampere | n/a | 2021 | n/a | n/a | n/a | 1× GA102-890-A1 | n/a | GDDR6 | 600 GB/s | n/a | |
624 TOPS | 312.0 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | A100 | Ampere | n/a | 2020 | n/a | 台积电 N7 | n/a | 1× GA100-883AA-A1 | n/a | HBM2 | 1555 GB/s | 400.0 | |
n/a | 73.728 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | A16 | Ampere | n/a | 2021 | n/a | n/a | n/a | 4× GA107 | n/a | GDDR6 | 4x 200 GB/s | n/a | |
n/a | 18.124 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | A2 | Ampere | n/a | 2021 | n/a | n/a | n/a | 1× GA107 | n/a | GDDR6 | 200 GB/s | 60.0 | |
n/a | 165.12 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | A30 | Ampere | n/a | 2021 | n/a | n/a | n/a | 1× GA100 | n/a | HBM2 | 933.1 GB/s | n/a | |
n/a | 149.68 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | A40 | Ampere | n/a | 2020 | n/a | n/a | n/a | 1× GA102 | n/a | GDDR6 | 695.8 GB/s | n/a | |
3500 TOPS (3.5 POPS) | n/a | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | B100 (SXM6 卡) | Blackwell | n/a | 2024 | n/a | 台积电 4NP (定制 N4P) | n/a | n/a | n/a | HBM3E | 8000 GB/s | 700.0 | |
4500 TOPS (4.5 POPS) | n/a | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | B200 (SXM6 卡) | Blackwell | n/a | 2024 | n/a | 台积电 4NP (定制 N4P) | n/a | n/a | n/a | HBM3E | 8000 GB/s | 1000.0 | |
n/a | n/a | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | B300 (从 B200 Ultra 重命名) | Blackwell | n/a | 2024 | n/a | 台积电 4NP (定制 N4P) | n/a | n/a | n/a | HBM3E | 8000 GB/s (待定) | n/a | |
n/a | 756.449 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | H100 (PCIe 卡) | Hopper | n/a | 2022 | n/a | 台积电 4N (定制 N4) | n/a | 1× GH100 | n/a | HBM2E | 2039 GB/s | n/a | |
1980 TOPS (1.98 POPS) | 989.43 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | H100 (SXM5 卡) | Hopper | n/a | 2022 | n/a | 台积电 4N (定制 N4) | n/a | 1× GH100 | n/a | HBM3 | 3352 GB/s | 700.0 | |
1980 TOPS (1.98 POPS) | 67 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | H200 (SXM5 卡) | Hopper | n/a | 2023 | n/a | 台积电 4N (定制 N4) | n/a | n/a | n/a | HBM3E | 4800 GB/s | 1000.0 | |
n/a | 121.0 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | L4 | Ada Lovelace | n/a | 2023 | n/a | n/a | n/a | 1x AD104 | n/a | GDDR6 | 1563 GB/s | n/a | |
n/a | 362.066 TFLOPS | NVIDIA | GPU | 数据中心 | Nvidia 数据中心 GPU (Nvidia Tesla) | L40 | Ada Lovelace | n/a | 2022 | n/a | n/a | n/a | 1× AD102 | n/a | GDDR6 | 2250 GB/s | n/a | |
n/a | 2.774 TFLOPS | 高通 | SoC | 移动 | 骁龙 8 | 骁龙 8 Gen 3 | 8 | n/a | 2023 | n/a | 台积电 N4P | 1× 3.30 GHz Kryo Prime (Cortex-X4) + 3× 3.15 GHz Kryo Gold (Cortex-A720) + 2× 2.96 GHz Kryo Gold (Cortex-A720) + 2× 2.27 GHz Kryo Silver (Cortex-A520) | Adreno 750 @ 903 MHz | n/a | LPDDR5X | 76.8 GB/s | n/a | |
n/a | 1.689 TFLOPS | 高通 | SoC | 移动 | 骁龙 8 | 骁龙 8s Gen 3 | 8 | n/a | 2024 | n/a | 台积电 N4P | 1× 3.0 GHz Kryo Prime (Cortex-X4) + 4× 2.8 GHz Kryo Gold (Cortex-A720) + 3× 2.0 GHz Kryo Silver (Cortex-A520) | Adreno 735 @ 1100 MHz | n/a | LPDDR5X | 76.8 GB/s | n/a | |
45 TOPS | 4.6 TFLOPS | 高通 | SoC | PC | 骁龙 X | 骁龙 X Elite | X | n/a | 2023 | n/a | 台积电 N4 | Oryon | Adreno X1 | Hexagon | LPDDR5X-8448 @ 4224 MHz | 135 GB/s | n/a | - 总计 75 TOPS (NPU 提供 45 TOPS)。 |
45 TOPS | 3.8 TFLOPS | 高通 | SoC | PC | 骁龙 X | 骁龙 X Plus | X | n/a | 2024 | n/a | 台积电 N4 | Oryon | Adreno X1-45 1107 MHz (1.7 TFLOPS) Adreno X1-45 (2.1 TFLOPS) Adreno X1-85 1250 MHz (3.8 TFLOPS) | Hexagon | LPDDR5X-8448 @ 4224 MHz | 135 GB/s | n/a | |
45 TOPS | n/a | 高通 | NPU | n/a | Hexagon | Hexagon | n/a | n/a | n/a | 骁龙 X Plus | n/a | n/a | n/a | n/a | n/a | n/a | - Hexagon 是高通公司一系列数字信号处理器 (DSP) 和后来的神经处理单元 (NPU) 产品的品牌名称。Hexagon 也被称为 QDSP6,代表“第六代数字信号处理器”。 | |
n/a | 2.1 TFLOPS | 高通 | GPU | n/a | Adreno | Adreno X1-45 | X | Adreno 726 | n/a | n/a | 台积电 N4 | n/a | n/a | n/a | LPDDR5X-8448 @ 4224 MHz 或 LPDDR5X-8533 @ 4266.5 MHz | 125.1 GB/s 或 136.5 GB/s | n/a | - Adreno X1-45 内部称为 Adreno 726,表明它是骁龙 7+ Gen 2 中 Adreno 725 的升级版。 |
n/a | 4.6 TFLOPS | 高通 | GPU | n/a | Adreno | Adreno X1-85 | X | Adreno 741 | n/a | 骁龙 X Plus | 台积电 N4 | n/a | n/a | n/a | LPDDR5X-8448 @ 4224 MHz 或 LPDDR5X-8533 @ 4266.5 MHz | 125.1 GB/s 或 136.5 GB/s | n/a | - Adreno X1-85 内部称为 Adreno 741,表明它是骁龙 8 Gen 1/8+ Gen 1 中 Adreno 730 的升级版。 |
参考资料
- AI TOPS 和 NPU 性能指标指南 | 高通
- 嵌入式 - TOPS AI 与真实世界性能
- 用于 AI 的神经网络处理器和 DSP | Synopsys
- TOPS、内存、吞吐量和推理效率
- AI-Benchmark
REF: https://www.ernestchiang.com/en/notes/general/tops-comparison-table-by-brand/