首页攻略资讯正文

GoogleDeepmind让Gemini3Flash具备了借助代码主动探索图像的能力

发布时间：2026-02-15 作者：admin

Google Deepmind正为旗下Gemini 3 Flash模型增添一项名为“代理视觉”的新功能。该模型将不再被动地浏览图像，而是能够主动对图像展开调查——不过并非所有功能特性都会自动生效。

传统的AI模型在单次处理图像时，若遗漏了细节便只能依靠猜测。Google Deepmind期望借助Agentic Vision改变这一状况，如今模型能够通过生成并运行Python代码，对图像进行逐步缩放、裁剪与操作。

该系统依托思考-行动-观察的循环机制运行。模型会先对请求与图像展开分析，进而制定相应计划。之后，它会生成并执行Python代码，像图像裁剪、旋转或注释这类操作都包含在内。执行结果会被纳入上下文窗口，以便模型在给出响应前对新数据进行核查。按照谷歌的说法，代码执行能让各类视觉基准的质量提升5%至10%。

不过，这个概念并非全新——OpenAI通过其o3模型引入了类似的功能。

蓝图分析初创公司报告准确性提升

作为现实世界中的一个实例，谷歌提到，PlanCheckSolver.com 是一个用于检查施工蓝图是否合规的平台。该初创企业称，借助Gemini 3 Flash对高分辨率图纸进行迭代检查，其准确率提升了5%。模型会对屋顶边缘、建筑剖面等区域进行裁剪，然后逐一展开分析。

在图像注释方面，模型能够在图像上绘制边界框并添加标签。谷歌曾借助手指计数的例子对此进行演示——模型会在每根手指上分别用一个框和对应的数字来标记，以此防止出现计数错误。

针对视觉数学问题，模型能够在Python环境里对表格进行解析并执行计算，以此避免生成幻觉结果。之后，它还可以把计算结果以图表的形式呈现出来。

许多功能仍然需要明确的指令

谷歌方面表示，并非旗下所有功能都能实现自动运行。目前，模型虽已具备自主处理细节放大的能力，但像旋转图像、视觉数学类的功能，仍需要用户给出明确提示才能完成操作。该公司称，将在后续的更新中逐步解决这些功能限制问题。

Agentic Vision目前仅适用于Flash模型。谷歌称，计划将其扩展至其他型号尺寸，同时添加网页搜索、反向图片搜索等工具。

Agentic Vision 能够在 Google AI Studio 以及 Vertex AI 里借助 Gemini API 来使用。Gemini 应用已经启动推广工作，用户可以在模型下拉菜单里选择“思考”选项。同时，还配备了演示应用和开发者文档。

复制本文链接攻略文章为firedg所有，未经允许不得转载。

同类推荐

查看更多 →

攻略资讯

查看更多 →

猜你可能喜欢的

查看更多 →

热门精选

更多 →

《加速世界VS刀剑神域》AVS全角色被动技能数据整理
发布于 2026-04-04 23:51:05
《谋杀：灵魂疑犯》完整剧情与全流程视频解说
发布于 2026-04-04 23:48:08
《恶魔幸存者2：记录破坏者》免费DLC正式推出
发布于 2026-04-04 23:45:09
炼金与魔法配置需求炼金与魔法最低配置需求清单
发布于 2026-04-04 23:42:06
黑暗女精灵DarkElf配置需求基础配置要求汇总
发布于 2026-04-04 23:39:06
《暗黑破坏神3》设计团队透露：秘境试炼玩法即将被移除
发布于 2026-04-04 23:37:06

精彩专题

更多 →

最新热游

更多 →

守望先锋像素版
动作射击 / 46.71MB

2026-04-22 更新

查看
猜歌我最牛红包版
休闲益智 / 33.58MB

2026-04-22 更新

查看
乐乐果园红包版
赛车竞速 / 69.65MB

2026-04-22 更新

查看
快来消星星红包版
赛车竞速 / 16.31MB

2026-04-22 更新

查看
植物大战僵尸2拓展版
策略塔防 / 476.3MB

2026-04-22 更新

查看
尤雅世界全部解锁版
休闲益智 / 67.83MB

2026-04-22 更新

查看
学霸养成记红包版
赛车竞速 / 60.24MB

2026-04-22 更新

查看
疯狂果园红包版
赛车竞速 / 17.47MB

2026-04-22 更新

查看