谷歌发布Veo 3.1视频生成模型：新增音频功能和精细化编辑能力

更新背景：Veo 3的迭代升级

谷歌于近日推出视频生成模型Veo 3.1，作为2025年5月发布的Veo 3的升级版本，该模型在三大核心维度实现突破：

Veo 3.1在功能上既延续了Veo 3的优势，又新增关键能力，进一步降低专业视频创作门槛：

Veo 3.1为所有编辑功能新增音频生成能力，无论是角色驱动生成、首尾帧补中间内容，还是视频扩展，输出的视频片段均会自动匹配声音元素，提升内容完整性与沉浸感。

保留Veo 3的核心编辑特性，包括：参考图像驱动角色生成、首尾帧AI补中间内容、基于末尾帧扩展现有视频，满足多样化创作需求。

Veo 3.1将通过四大渠道向用户与开发者开放，覆盖个人创作与企业开发场景：

据谷歌披露，自Flow工具2025年5月上线以来，用户已在该平台创作超过2.75亿个视频，显示出强大的用户粘性与市场需求。

Veo 3.1的更新被业内视为AI视频生成技术的典型进化路径，主要体现在两个维度：

尽管Veo 3.1进步显著，但AI视频生成技术仍有改进空间：视频连贯性、物理规律准确性、复杂场景处理能力等方面，各家模型均在持续优化。此外，Veo 3.1的音频与画面同步质量、对象融合自然度等细节，还需通过用户实际使用进一步验证。

Veo 3.1的发布，标志着谷歌在AI视频生成领域的持续深耕。其音频功能的加入与精细化编辑的升级，不仅提升了工具的实用性，也为AI视频技术的发展提供了“从功能补全到体验优化”的参考路径。随着多平台部署的推进，Veo 3.1或将进一步推动AI视频创作在自媒体、营销、教育等领域的普及。