实测豆包新上线的视觉大模型1.6-vision，OpenAI GPT5要失眠了

花花 · 发表于 2025-10-2 13:03:42

内测了快三周的豆包-Seed-1.6-vision，用了上百张图片，我觉得是时候分享一下了。

大家平时会好奇现在主流模型里有哪几个是带图像理解的吗？

我好奇。用多了OpenAI感觉这都是常规功能了，盘了一圈下来，GPT5、Gemini 2.5 Pro、Qwen-3-Max-Preview、ChatGLM、Kimi K1.5里就剩DeepSeek V3.1只能识别图片里的文字的了。

那把范围缩小一点呢？在图片理解的基础上带图片工具的：

这个很好理解，缩放、裁剪、旋转、划线都是图片工具的一种。

当下真的幻视我七八年前用OpenCV打比赛，不知道还有没有人记得这张包浆照片，当年但凡是做图像处理的都应该用过来改色、或者丢给CNN（卷积神经网络）来识别。

所以我也是拿出了OpenAI o3的成名作，通过放大图片的细节来找地点。

I took this pic earlier today. Can you find the name of the biggest ship you can see, and where it will dock next?

这次能分析出地点的大模型数量下降到1.5个了。

从Gemini-2.5-Pro的思考过程来看它似乎有放大焦点的操作，但是看不到图片预览，所以算0.5个。

有了对照组之后，豆包这次Seed-1.6-vision更新的含金量就拉满了。

它内置了4种图像处理工具：

不跟GPT5-Thinking来场1对1 SOLO可惜了，于是我跟我的钱包一拍即合，给两家都充了套餐，来一场超全面图像测评，同时这也可能是第一篇做分类做图像推理case比较全的文章了，我在找案例的时候就很希望能遇到一篇这样的文章。

老样子，这次测试所有图片和对话记录我都打包好啦，公众号回复“豆包V”就行

因为目前Seed-1.6-vision需要通过response_api格式来调用图像工具，

所以我基于好朋友@苍何的doubao-image-process项目，改了一版支持火山引擎对象存储TOS的，

https://github.com/freestylefly/doubao-image-process

缩放｜ZOOM

先来个缩放热热身，判断图里是什么车。

Seed-1.6-vision：

上来就精确找到了车牌的位置，我甚至都没有让它通过车牌判断是什么车，而且得到了车牌信息后，会通过联网搜索确定车身上的细节是不是就跟小米SU7 Ultra能不能一一匹配。

GPT5-thinking：

同样是通过车牌来补充信息，没有缩放或者裁剪原图。

再来一个噩梦难度的：只有一艘船，船上也没信息，加了点滤镜，所以天气信息不多。

Seed-1.6-vision：

它还可以基于已经裁剪放大的图片后进行2次放大，看看他的思考过程就知道有多难了，前后盘点了八个地点，中间也提到了正确答案山东威海。

GPT5-thinking：

它说的那么笃定，我都有点质疑我自己了。

所以伊朗基什岛（Kish Island）西岸的"希腊沉船"到底长得有多像，不能说一模一样，只能说毫无关系。

旋转｜ROTATE

再来提点难度，就算是我自己把屏幕转180度后也有点看不清。

Seed-1.6-vision：

所幸它还可以两次三次放大图片细节，单次就是2倍放大，也就是可以提升到iphone17 pro max同款的八倍镜。

GPT5-thinking：

这边的选手表现咋样呢？可算舍得用PIL工具了，同样是旋转、裁剪、图像增强一条龙。

我还有点好奇能不能做到180镜像反转，

讲道理这个case我真的看了半天，Seed-1.6-vision也被我骗到了，第三轮终于意识到字本身还要翻转才看，最终识别的准确率有54%

隔壁GPT5-thinking的识别准确率只有15.4%，能看出来它已经在努力放大细节了，但是每个字的划分区域不够准确导致的错误。

左边是豆包，右边是GPT5

框选｜GROUNDING

有什么比找不同更适合框选呢？

该说不说，Seed-1.6-vision找的是真准，没有圈多余的地方。

有对照组后，GPT5-thinking画的圈圈就有点不太准了，

再来一个日常的，这时候有框选的话就可以一个个排除问题了。

Seed-1.6-vision（上）画的红框又比GPT5-thinking（下）准了不少，从Seed-1.6-vision的思考过程能看出来点细节，

看到这图里的蓝色点吗？用的是point功能，先标注出了物体的中心再画框，能不准吗。

绘线几何｜POINT

刚好提到point，我还给模型们准备了数学几何题。

Seed-1.6-vision在单次思考的过程也不是只会在固定的两点画线的，point可以随意移动，超长的上下文让它可以一次输出十几张过程图。

GPT5-thinking这波属于是“虚空画线”了，看来是用的PIL没有定点和连线的功能，

当然，这道题他们两个都答对了。

最后再来两个我测试过程中遇到的小彩蛋，Seed-1.6-vision在回答图像逻辑题和图像里主体之间的逻辑关系也有很高的准确率。

一句话总结就是好用，实打实的好用。默认开启的图像工具降低了写提示语的成本，两两组合还可以完成画线，准点画框、旋转+八倍放大的操作。求赶紧同步发布到可以直接使用的网页端，降低使用门槛，这样我们都可以用上我们自己的，最好的模型。

@ 作者 / 卡尔

		自动登录	找回密码
密码			立即注册