Google Veo3 一经发布就引起了广泛关注,它最大的特点是可生成带有音频的视频片段(例如街头的汽车噪音、鸟鸣、人物对话等),大幅超越当前所有的视频生成模型。正如 Google DeepMind 首席执行官 Demis Hassabis 所说:我们正在“走出视频生成的无声时代”。
最近一个 TikTok 用户用 Google Veo3 生成了一段“用刀切玻璃水果”的 ASMR(治愈系) 视频而爆红,目前播放量已破2300万,获赞230万。
有网友把这个博主上述所有的视频拼接成了一个视频,大家可以感受下治愈的声音和画质:
如何复刻
看完上面的你视频,你有可能非常好奇这个视频到底是如何制作的,有什么办法可以复刻出来。下面我来教大家一个方法:
第一步:把你想要复刻的视频下载到本地。(如果你不知道怎么下载,问下豆包之类的 AI 助手,实在不行用手机或电脑录屏也是个办法)
第二步:把该视频上传到 Google AI Studio,模型使用 Gemini 2.5 Pro。
- 如果该视频是个完整的一个场景的片段,输入 Prompt:“这个视频是由 AI 生成的,请帮我写出你认为最合适的能生成这个视频的的 Prompt”。
- 如果该视频是由多个切片视频组合而成,例如上述视频,可以输入这样的 Prompt:“这个视频是由 AI 生成的,请帮我写出你认为最合适的能生成这个视频的的 Prompt。注意,这个视频由多个视频拼接而成,AI 生成的视频最大 8s,请帮我给出每个视频切片对应的最佳 Prompt。”
第三步:从AI 给的一个或多个 Prompt 中选择你喜欢的,或者逐个尝试一下效果,如果不满意你可以继续追问来优化。我们看看对于上述视频,AI 给出的 Prompt 是什么:
A video showing a sequence of actions in a cinematic close-up: First, a chef’s knife makes one perfect slice through a glass strawberry, and the slice falls onto a wooden board. Immediately after, the knife makes a second slice, then a third, creating a small, neat pile of glowing red slices. The inside of the strawberry glows brightly with each cut. Hyper-realistic, 8K.
第四步:把 AI 给出的 Prompt 复制到 Gemini 中(需要开 Gemini Pro 会员才能试用 veo3,19刀一个月),选择视频(Veo3),点击生成,等待片刻,你就能看到一个非常逼真的视频了。另外,如果你没有 Gemini pro 会员,可以尝试使用Replicate 这种第三方服务来试用 Veo3,但缺点就是价格非常贵,一个视频大概 6 刀。
豆包效果怎么样?
喜欢看 AI 资讯的同学们应该都知道,豆包的模型最近很猛,从文本模型、图像模型再到视频模型,基本都追到了全球 TOP1 的水平。
文本模型基本和 Gemini 的 RoadMap 很像,比如都支持了坐标定位和视频理解。目前全球大模型里,只有 gemini 和豆包的模型两者都支持,特别是坐标定位。至于原因,大概率是因为年初原谷歌DeepMind 副总裁吴永辉加入字节跳动,并担任大模型团队Seed 基础研究负责人。他在谷歌工作近 17 年,从研究工程师一路晋升至 DeepMind 研究副总裁,并获评 “Google Fellow”(谷歌一级专家,L10 职级)。另外,在 2023 年 Google Brain 与 DeepMind 合并后,吴永辉参与开发 Gemini 大模型系列,是 Gemini 1.5 论文中明确列为 “Core Contributor 核心贡献者” 的技术负责人之一。
图像模型就更不用说了,基本是国内最好的生图模型,也是全球图像生成模型中仅次于 OpenAI GPT Image-1 的存在。
视频模型最近更是猛,超越可灵、Google Veo3 登顶了视频生成模型榜单。
我最近也深度使用了一段时间豆包的视频生成模型,效果确实不错,和 Google 的 Veo3 比的缺点就是没有声音,据说 seed 团队目前正在开发带有声音的视频生成模型,预计年底发布。
为了测试豆包的视频生成效果,我使用豆包的视频模型(我这里再在火山引擎上制作的,基本是按条收费,一条视频大约 1.8 元,注意这里模型要选择 Doubao-Seedance-1.0-pro),输入了上述 Prompt,结果如下:
Google Veo3 VS 豆包 Doubao-Seedance-1.0-pro
例子1:匹诺曹的 vlog
Prompt:selfie vlog style video, a photo realistic pinocchio (a boy 100% made of wood with wooden arms) wearing Lederhosen and a hat with a feather, walking on a bustling downtown sidewalk, and says “so, anyway, like, what I was saying was that, yeah, my inbox is absolutely blowing up with all of these DMs wanting to buy my merch.” suddenly, his nose slowly grows to a dramatic length (it makes a noise as it grows). he says “I mean, like, um, it was, uh…”
Google Veo3 结果:
豆包 Doubao-Seedance-1.0-pro 结果:
从结果上看,Google Veo3 胜出。豆包的效果虽然还可以,但没有完整的上述的指令,比如匹诺曹的鼻子没有变长,也不是第一视角拍摄。
例子2:滚动的玻璃弹珠
Prompt:A cinematic close-up, low-angle tracking shot of a green glass marble rolling along the metal bars of a xylophone. Sunlight streams through a window in the background, creating a warm, hazy atmosphere. The focus follows the marble with a shallow depth of field. The sound of the marble making light, melodic clinks as it rolls over the bars.
Google Veo3 结果:
豆包 Doubao-Seedance-1.0-pro 结果:
从结果上,虽然 Google Veo3 在玻璃弹珠滚动刀有缝隙的地方稍微有些瑕疵,但还是要比豆包的这个效果要好一些。