发布时间:2026-02-15 作者:admin
Google Deepmind正为旗下Gemini 3 Flash模型增添一项名为“代理视觉”的新功能。该模型将不再被动地浏览图像,而是能够主动对图像展开调查——不过并非所有功能特性都会自动生效。
传统的AI模型在单次处理图像时,若遗漏了细节便只能依靠猜测。Google Deepmind期望借助Agentic Vision改变这一状况,如今模型能够通过生成并运行Python代码,对图像进行逐步缩放、裁剪与操作。
该系统依托思考-行动-观察的循环机制运行。模型会先对请求与图像展开分析,进而制定相应计划。之后,它会生成并执行Python代码,像图像裁剪、旋转或注释这类操作都包含在内。执行结果会被纳入上下文窗口,以便模型在给出响应前对新数据进行核查。按照谷歌的说法,代码执行能让各类视觉基准的质量提升5%至10%。
不过,这个概念并非全新——OpenAI通过其o3模型引入了类似的功能。
蓝图分析初创公司报告准确性提升
作为现实世界中的一个实例,谷歌提到,PlanCheckSolver.com 是一个用于检查施工蓝图是否合规的平台。该初创企业称,借助Gemini 3 Flash对高分辨率图纸进行迭代检查,其准确率提升了5%。模型会对屋顶边缘、建筑剖面等区域进行裁剪,然后逐一展开分析。
在图像注释方面,模型能够在图像上绘制边界框并添加标签。谷歌曾借助手指计数的例子对此进行演示——模型会在每根手指上分别用一个框和对应的数字来标记,以此防止出现计数错误。
针对视觉数学问题,模型能够在Python环境里对表格进行解析并执行计算,以此避免生成幻觉结果。之后,它还可以把计算结果以图表的形式呈现出来。
许多功能仍然需要明确的指令
谷歌方面表示,并非旗下所有功能都能实现自动运行。目前,模型虽已具备自主处理细节放大的能力,但像旋转图像、视觉数学类的功能,仍需要用户给出明确提示才能完成操作。该公司称,将在后续的更新中逐步解决这些功能限制问题。
Agentic Vision目前仅适用于Flash模型。谷歌称,计划将其扩展至其他型号尺寸,同时添加网页搜索、反向图片搜索等工具。
Agentic Vision 能够在 Google AI Studio 以及 Vertex AI 里借助 Gemini API 来使用。Gemini 应用已经启动推广工作,用户可以在模型下拉菜单里选择“思考”选项。同时,还配备了演示应用和开发者文档。
发布于 2026-03-10 16:05:18
发布于 2026-03-10 16:05:14
发布于 2026-03-10 16:04:40
发布于 2026-03-10 16:04:34
发布于 2026-03-10 16:04:30
发布于 2026-03-10 16:03:55