找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 35|回复: 0

一手实测MiniMax新模型,我发现有点东西

[复制链接]

2101

主题

0

回帖

6491

积分

管理员

积分
6491
发表于 2025-10-29 08:01:03 | 显示全部楼层 |阅读模式
MiniMax 发布了它们自家的模型,

M2。

而上一次的更新,

我记得还是在 6月。

虽然才4个月的时间,

但是,我真的快忘记他们家原来还有模型...

短短 4 个月时间,

我们经历了,

GPT-5、Claude 4.5、DeepSeek-V3.2、GLM 4.6,Kimi K2还有Qwen,

这里面很多模型甚至都更新了两个版本已经。

现在终于轮到了MiniMax了。

不同于之前的巨无霸M1,

新的M2模型,

230B 总参数,10B 参数激活,倒是显得有些小巧可爱了。

而且,相比于M1,

上下文窗口从之前的1M,缩减到了204K。

我猜,大概是算力不够以及长上下文窗口真的没有那么好训。

虽然能理解,但是也还是觉得可惜。

别说国产,就是全球范围内,能有1M的长上下文,除了Google,也没别人了。

好在,看Benchmark,他们提升了不少。



根据 Artificial Analysis的排行,

综合了MMLU-Pro,GPQA Diamond等多个Benchmark的评定,

M2 已经挤入前五了。

看起来效果还不错,

那,我也上手实际体验了一下这个新的模型效果,

让我们来分别来看下。

指令遵循

我常考的模型指令遵循能力的case:

<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important">    <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="Create a 3-paragraph text, without the letter "O" or "o", explaining how airplanes works" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>Create a 3-paragraph text, without the letter "O" or "o", explaining how airplanes works </span><span>
</span></code></pre></p>
让模型写三段话,不能有大写或者小写的字母o。



回答正确。

指令遵循能力还不错。

我测过的模型里,极少数能完整做对这个case。

再看一个,

<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important">    <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="请帮我把 I love MiniMax-M2-Preview 倒过来写" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>请帮我把 I love MiniMax-M2-Preview 倒过来写</span><span>
</span></code></pre></p>


回答错误。

这个有点意外,感觉应该还算简单,反而这个还答错了。

推理能力

也是一个常考的case:

<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important">    <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何 </span><span>
</span></code></pre></p>


回答错误。

emmm... 说了考虑立体几何的情况下,没回答正确,也是比较少见。

对比一下现在国产头部的GLM 4.6 的回答:



GLM 4.6 回答正确。

可以看得出还是有些差距的。

写作能力:

这里,我尝试让模型来模仿下鲁迅先生的文字风格,进行下创作:

<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important">    <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="使用鲁迅先生的文字风格,创作一篇1000字的短文,讽刺当下职场中的 996 、对女性的歧视、对男性 35 岁门槛等现象。" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>使用鲁迅先生的文字风格,创作一篇1000字的短文,讽刺当下职场中的 996 、对女性的歧视、对男性 35 岁门槛等现象。 </span><span>
</span></code></pre></p>


我感觉文字写的还行,但是风格上我个人觉得不太像鲁迅,还是少了鲁迅先生的那种辛辣的讽刺感觉。

代码能力

说实话,

模型的编码能力是每次升级的重点提升方向。

而且,基本每个厂商都会说自己的编码能力非常优秀,

但是实际使用体验的时候表现真的是参差不齐。

所以,M2 的代码能力也自然是关注的重点。

下面所有的例子都是我接入Claude Code 进行测试。

让我们先来看一个经典的SVG例子,

<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important">    <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="画一个svg,xbox 控制器" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>画一个svg,xbox 控制器</span><span>
</span></code></pre></p>


emm... 还凑合能看看我觉得,

画的可爱版画风。

然后是,经典的小球测试:

<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important">    <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="使用 p5.js(无需 HTML)创建 10个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>使用 p5.js(无需 HTML)创建 10个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。</span><span>
</span></code></pre></p>


emmm...

感觉还是差点意思啊,

我感觉现在发布的模型很少有不能完成这个小球任务的了...

再来看一个前端测试case:

<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important">    <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="设计并创建一个非常有创意、精心且细致的体素艺术场景:主题是上海的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。可以使用任何库来实现,但最终请把所有内容整合在一个单独的 HTML文件里,这样我可以直接粘贴后在 Chrome 中打开运行" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>设计并创建一个非常有创意、精心且细致的体素艺术场景:主题是上海的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。</span><span>
</span><span>可以使用任何库来实现,但最终请把所有内容整合在一个单独的 HTML文件里,这样我可以直接粘贴后在 Chrome 中打开运行  </span><span>
</span></code></pre></p>


看上去还是有点简陋...

不过这个case 我跑了好几个模型,效果都比较一般其实。

效果最好的,是之前测试号称是Gemini 3 的神秘模型,lithiumflow。

给大家看眼 SOTA 的效果:



上海黄浦江边的三件套,这个是我目前看到最好的。

还有一个常见的复刻 MacOS系统:

<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important">    <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="做一个MacOS桌面系统,包括计算器,文本编辑器,还有safari网页,图标可以用svg代替" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>做一个MacOS桌面系统,包括计算器,文本编辑器,还有safari网页,图标可以用svg代替</span><span>
</span></code></pre></p>
熟悉的AI紫色,以及可以看到功能实现上还是有些bug。

坦诚讲,

感觉代码这块提升感知还没那么强。

本来还想测试一个爬虫case,

测试一下M2写脚本的能力,但是没跑通。

当然,

M2 本身也支持了接入Claude Code,以及其他的AI编程工具。

参考文档在这:https://platform.minimaxi.com/docs/guides/text-ai-coding-tools#claude-code

如果你也想试试的话,

欢迎尝试。

我理解这波更新是MiniMax 不得不走的一步棋,

即使可能效果目前还不是最好,

特别是隔壁同样以视频生成出名的快手,也杀入了AI编程的战场,

MiniMax 更需要照常进行模型的迭代来稳住自己的生态位,保持在牌局上的竞争力。

虽然从我自己的实际体验来看,M2的表现中规中矩。

但是并不妨碍它登上benchmark的高位。

这种跑分与体感的撕裂,真的已经是当下大模型竞赛的常态。

我们正身处一个周周有更新,月月有新王的疾速时代。

相隔四个月的时间,在AI领域足以发生天翻地覆的变化。

但至少,它证明了MiniMax仍在这场残酷的马拉松赛道上,还没有掉队。

在这场没有终局的牌桌上,没有谁能真正的一劳永逸。

真正的考验,也永远在下一次更新。

哦对了,听说海螺的新版本快来了,

让我们一起期待吧。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|花享网 ( 琼ICP备2024046163号-1 )

GMT+8, 2025-12-1 19:07 , Processed in 0.208577 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表