找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 38|回复: 0

实测豆包新上线的视觉大模型1.6-vision,OpenAI GPT5要失眠了

[复制链接]

2097

主题

0

回帖

6479

积分

管理员

积分
6479
发表于 2025-10-2 13:03:42 | 显示全部楼层 |阅读模式


内测了快三周的豆包-Seed-1.6-vision,用了上百张图片,我觉得是时候分享一下了。

大家平时会好奇现在主流模型里有哪几个是带图像理解的吗?

我好奇。用多了OpenAI感觉这都是常规功能了,盘了一圈下来,GPT5、Gemini 2.5 Pro、Qwen-3-Max-Preview、ChatGLM、Kimi K1.5里就剩DeepSeek V3.1只能识别图片里的文字的了。

那把范围缩小一点呢?在图片理解的基础上带图片工具的:



这个很好理解,缩放、裁剪、旋转、划线都是图片工具的一种。

当下真的幻视我七八年前用OpenCV打比赛,不知道还有没有人记得这张包浆照片,当年但凡是做图像处理的都应该用过来改色、或者丢给CNN(卷积神经网络)来识别。



所以我也是拿出了OpenAI o3的成名作,通过放大图片的细节来找地点。

I took this pic earlier today. Can you find the name of the biggest ship you can see, and where it will dock next?



这次能分析出地点的大模型数量下降到1.5个了。

从Gemini-2.5-Pro的思考过程来看它似乎有放大焦点的操作,但是看不到图片预览,所以算0.5个。



有了对照组之后,豆包这次Seed-1.6-vision更新的含金量就拉满了。

它内置了4种图像处理工具:

不跟GPT5-Thinking来场1对1 SOLO可惜了,于是我跟我的钱包一拍即合,给两家都充了套餐,来一场超全面图像测评,同时这也可能是第一篇做分类做图像推理case比较全的文章了,我在找案例的时候就很希望能遇到一篇这样的文章。

老样子,这次测试所有图片和对话记录我都打包好啦,公众号回复“豆包V”就行

因为目前Seed-1.6-vision需要通过response_api格式来调用图像工具,

所以我基于好朋友@苍何的doubao-image-process项目,改了一版支持火山引擎对象存储TOS的,

https://github.com/freestylefly/doubao-image-process

缩放|ZOOM

先来个缩放热热身,判断图里是什么车。



Seed-1.6-vision:

上来就精确找到了车牌的位置,我甚至都没有让它通过车牌判断是什么车,而且得到了车牌信息后,会通过联网搜索确定车身上的细节是不是就跟小米SU7 Ultra能不能一一匹配。





GPT5-thinking:

同样是通过车牌来补充信息,没有缩放或者裁剪原图。



再来一个噩梦难度的:只有一艘船,船上也没信息,加了点滤镜,所以天气信息不多。



Seed-1.6-vision:

它还可以基于已经裁剪放大的图片后进行2次放大,看看他的思考过程就知道有多难了,前后盘点了八个地点,中间也提到了正确答案山东威海。





GPT5-thinking:

它说的那么笃定,我都有点质疑我自己了。



所以伊朗基什岛(Kish Island)西岸的"希腊沉船"到底长得有多像,不能说一模一样,只能说毫无关系。



旋转|ROTATE

再来提点难度,就算是我自己把屏幕转180度后也有点看不清。



Seed-1.6-vision:

所幸它还可以两次三次放大图片细节,单次就是2倍放大,也就是可以提升到iphone17 pro max同款的八倍镜。





GPT5-thinking:

这边的选手表现咋样呢?可算舍得用PIL工具了,同样是旋转、裁剪、图像增强一条龙。



我还有点好奇能不能做到180镜像反转,



讲道理这个case我真的看了半天,Seed-1.6-vision也被我骗到了,第三轮终于意识到字本身还要翻转才看,最终识别的准确率有54%



隔壁GPT5-thinking的识别准确率只有15.4%,能看出来它已经在努力放大细节了,但是每个字的划分区域不够准确导致的错误。



左边是豆包,右边是GPT5





框选|GROUNDING

有什么比找不同更适合框选呢?



该说不说,Seed-1.6-vision找的是真准,没有圈多余的地方。



有对照组后,GPT5-thinking画的圈圈就有点不太准了,



再来一个日常的,这时候有框选的话就可以一个个排除问题了。



Seed-1.6-vision(上)画的红框又比GPT5-thinking(下)准了不少,从Seed-1.6-vision的思考过程能看出来点细节,





看到这图里的蓝色点吗?用的是point功能,先标注出了物体的中心再画框,能不准吗。



绘线几何|POINT

刚好提到point,我还给模型们准备了数学几何题。



Seed-1.6-vision在单次思考的过程也不是只会在固定的两点画线的,point可以随意移动,超长的上下文让它可以一次输出十几张过程图。





GPT5-thinking这波属于是“虚空画线”了,看来是用的PIL没有定点和连线的功能,



当然,这道题他们两个都答对了。

最后再来两个我测试过程中遇到的小彩蛋,Seed-1.6-vision在回答图像逻辑题和图像里主体之间的逻辑关系也有很高的准确率。









一句话总结就是好用,实打实的好用。默认开启的图像工具降低了写提示语的成本,两两组合还可以完成画线,准点画框、旋转+八倍放大的操作。求赶紧同步发布到可以直接使用的网页端,降低使用门槛,这样我们都可以用上我们自己的,最好的模型。

@ 作者 / 卡尔
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|花享网 ( 琼ICP备2024046163号-1 )

GMT+8, 2025-12-1 18:00 , Processed in 0.437925 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表