告别“走马观花”:谷歌 Agentic Vision 让 AI 像侦探一样审视图像

谷歌近日为其轻量化模型 Gemini 3 Flash 引入了名为 “Agentic Vision(代理视觉)” 的突破性功能。这一升级标志着 AI 视觉能力的本质飞跃:它不再仅仅是对图像进行静态的“快照式”扫描,而是具备了类似人类专家的主动探索与深度推理能力。

1. 从“感知”到“行动”的范式转移 传统的视觉 AI 在面对信息密集的图片(如复杂的电路图、模糊的远景路牌或细小的法律条款)时,往往因为试图“一次性吞下全局”而丢失核心细节。Agentic Vision 引入了**“思考—执行—观察”**的闭环机制。

2. 像调查员一样工作 当用户提出复杂问题时,Gemini 3 不再急于给出答案,而是会:

  • 制定计划: 分析图像中哪些区域是解题关键。

  • 编写并运行代码: 自动生成 Python 代码,对图像进行高清局部的剪裁、旋转或标注

  • 深度取证: 像拉近相机镜头一样,基于这些局部的高清细节进行二次分析,最终拼凑出真相。

3. 落地与未来 数据显示,这种“动态调查”模式将复杂视觉任务的准确率提升了 5% 至 10%。目前,开发者已可通过 Gemini AI Studio 调用此功能。不久后,普通用户也能在移动端的“思维模式(Thinking Mode)”中,体验到这位随身“视觉侦探”的强大逻辑。