更新背景:Veo 3的迭代升级
谷歌于近日推出视频生成模型Veo 3.1,作为2025年5月发布的Veo 3的升级版本,该模型在三大核心维度实现突破:
- 新增音频生成能力,填补此前AI视频工具“无声音”的短板;
- 提升编辑控制粒度,支持对象增删与风格融合;
- 优化图像转视频质量,生成画面更真实,对用户提示指令的遵循度更精准。
核心功能:从“画面生成”到“全感官创作”
Veo 3.1在功能上既延续了Veo 3的优势,又新增关键能力,进一步降低专业视频创作门槛:
1. 音频生成:让视频“有声有色”
Veo 3.1为所有编辑功能新增音频生成能力,无论是角色驱动生成、首尾帧补中间内容,还是视频扩展,输出的视频片段均会自动匹配声音元素,提升内容完整性与沉浸感。
2. 精细化编辑:支持对象“增删改”
- 新增对象添加:用户可向视频中插入新对象,系统自动适配原有画面风格,避免违和感;
- 即将上线对象移除:该功能将集成至视频编辑工具Flow,未来可直接删除视频中现有对象,提升编辑灵活性。
3. 延续经典编辑能力
保留Veo 3的核心编辑特性,包括:参考图像驱动角色生成、首尾帧AI补中间内容、基于末尾帧扩展现有视频,满足多样化创作需求。
部署渠道:多平台开放,用户基础雄厚
Veo 3.1将通过四大渠道向用户与开发者开放,覆盖个人创作与企业开发场景:
- 视频编辑器Flow:面向个人用户的可视化编辑工具;
- Gemini应用程序:集成至谷歌AI生态应用,提升创作便捷性;
- Vertex AI:面向企业开发者的云服务平台;
- Gemini API接口:支持第三方开发者接入,拓展应用场景。
据谷歌披露,自Flow工具2025年5月上线以来,用户已在该平台创作超过2.75亿个视频,显示出强大的用户粘性与市场需求。
行业解读:AI视频技术的两大演进方向
Veo 3.1的更新被业内视为AI视频生成技术的典型进化路径,主要体现在两个维度:
- 质量提升:从“能生成”向“生成优”迈进,画面真实度、提示词理解准确度持续优化;
- 能力细化:从“整体生成”向“局部修改”升级,支持对象增删、音频匹配等精细操作,更贴近专业创作流程。
技术现状:仍处快速迭代期
尽管Veo 3.1进步显著,但AI视频生成技术仍有改进空间:视频连贯性、物理规律准确性、复杂场景处理能力等方面,各家模型均在持续优化。此外,Veo 3.1的音频与画面同步质量、对象融合自然度等细节,还需通过用户实际使用进一步验证。
Veo 3.1的发布,标志着谷歌在AI视频生成领域的持续深耕。其音频功能的加入与精细化编辑的升级,不仅提升了工具的实用性,也为AI视频技术的发展提供了“从功能补全到体验优化”的参考路径。随着多平台部署的推进,Veo 3.1或将进一步推动AI视频创作在自媒体、营销、教育等领域的普及。