字节重磅发布 Seed1.5-VL 技术报告:全新多模态模型能力揭秘

字节今天发布了最新多模态模型:Seed1.5-VL 的技术报告,该模型是个闭源模型,对应火山引擎上的 模型ID 为:doubao-1-5-thinking-vision-pro-250428(默认开启思考模式,可以自定义是否开启思考模式,打开的参数为:“thinking”:{“type”:“enabled”},关闭的参数为:“thinking”:{“type”:“disabled”})。这个模型在五一假期前就在火山引擎上上线了,我第一时间做了一些评测,实际能力确实如报告里的指标数据展示的那样,可以和 o4-mini-high 和 gemini 2.5 pro 掰掰手腕,同时也支持了目标位置定位这种检测任务,据我了解在全球通用大模型里只有 gemini 和 doubao 这两家的视觉模型支持视觉定位,包括 gemini 2.5 pro、gemini 2.5 flash 以及 doubao-1.5-vision-pro、doubao-1.5-thinking-vision-pro。 先快速看下这个模型的亮点 5.32 亿参数的视觉编码器,20B 活跃参数的 MoE 在 60 个公开 VLM 基准测试中有 38 个取得了 SOTA 结果,已应用于教育、医疗、聊天机器人和可穿戴设备等。 在各种能力上表现出色,包括复杂推理(像 Rebus 这样的视觉谜题)、OCR、图表理解、视觉定位、三维空间理解以及视频理解。 在交互式智能体任务中展现出领先表现,尤其在 GUI 控制和游戏表现方面体现出强大能力。 一些细节 架构 (Architecture) 主要包含三个组件: SeedViT: 用于编码图像和视频的视觉编码器。这是一个基于 Vision Transformer (ViT) 架构的模型,拥有 5.32 亿参数。 MLP Adapter: 将视觉特征投影到多模态 tokens。 LLM: 用于处理多模态输入。 原生分辨率处理: Seed1.5-VL 设计用于处理各种分辨率的图像,通过原生分辨率转换来保留最大的图像细节。 视频处理: 采用动态帧分辨率采样策略,动态调整采样帧率和分辨率,并在每个帧前添加时间戳 token 以增强时间感知能力。每个视频的最大 token 预算为 81,920,提供六个预定义的分辨率级别 {640, 512, 384, 256, 160, 128} 来平衡时间和空间采样。 预训练 (Pre-training) 模型在 3 万亿多模态 token 上进行预训练,数据涵盖通用图像-文本对、知识数据、 OCR 数据(超过 10 亿样本)、视觉 Grounding 和 Counting 数据( 2 亿自动标注样本、 1....

May 14, 2025 · 2 min · fisherdaddy