一手实测MiniMax新模型，我发现有点东西

花花 · 发表于 2025-10-29 08:01:03

MiniMax 发布了它们自家的模型，

M2。

而上一次的更新，

我记得还是在 6月。

虽然才4个月的时间，

但是，我真的快忘记他们家原来还有模型...

短短 4 个月时间，

我们经历了，

GPT-5、Claude 4.5、DeepSeek-V3.2、GLM 4.6，Kimi K2还有Qwen,

这里面很多模型甚至都更新了两个版本已经。

现在终于轮到了MiniMax了。

不同于之前的巨无霸M1，

新的M2模型，

230B 总参数，10B 参数激活，倒是显得有些小巧可爱了。

而且，相比于M1，

上下文窗口从之前的1M，缩减到了204K。

我猜，大概是算力不够以及长上下文窗口真的没有那么好训。

虽然能理解，但是也还是觉得可惜。

别说国产，就是全球范围内，能有1M的长上下文，除了Google，也没别人了。

好在，看Benchmark,他们提升了不少。

根据 Artificial Analysis的排行，

综合了MMLU-Pro,GPQA Diamond等多个Benchmark的评定，

M2 已经挤入前五了。

看起来效果还不错，

那，我也上手实际体验了一下这个新的模型效果，

让我们来分别来看下。

指令遵循

我常考的模型指令遵循能力的case:

<pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <code data-raw-code="Create a 3-paragraph text, without the letter "O" or "o", explaining how airplanes works" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap">Create a 3-paragraph text, without the letter "O" or "o", explaining how airplanes works 
</code></pre>
让模型写三段话，不能有大写或者小写的字母o。

回答正确。

指令遵循能力还不错。

我测过的模型里，极少数能完整做对这个case。

再看一个，

<pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <code data-raw-code="请帮我把 I love MiniMax-M2-Preview 倒过来写" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap">请帮我把 I love MiniMax-M2-Preview 倒过来写
</code></pre>

回答错误。

这个有点意外，感觉应该还算简单，反而这个还答错了。

推理能力

也是一个常考的case:

<pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <code data-raw-code="一个长五点五米的竹竿，能否穿过一扇高四米，宽三米的门？请考虑立体几何" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap">一个长五点五米的竹竿，能否穿过一扇高四米，宽三米的门？请考虑立体几何 
</code></pre>

回答错误。

emmm... 说了考虑立体几何的情况下，没回答正确，也是比较少见。

对比一下现在国产头部的GLM 4.6 的回答：

GLM 4.6 回答正确。

可以看得出还是有些差距的。

写作能力：

这里，我尝试让模型来模仿下鲁迅先生的文字风格，进行下创作：

<pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <code data-raw-code="使用鲁迅先生的文字风格，创作一篇1000字的短文，讽刺当下职场中的 996 、对女性的歧视、对男性 35 岁门槛等现象。" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap">使用鲁迅先生的文字风格，创作一篇1000字的短文，讽刺当下职场中的 996 、对女性的歧视、对男性 35 岁门槛等现象。 
</code></pre>

我感觉文字写的还行，但是风格上我个人觉得不太像鲁迅，还是少了鲁迅先生的那种辛辣的讽刺感觉。

代码能力

说实话，

模型的编码能力是每次升级的重点提升方向。

而且，基本每个厂商都会说自己的编码能力非常优秀，

但是实际使用体验的时候表现真的是参差不齐。

所以，M2 的代码能力也自然是关注的重点。

下面所有的例子都是我接入Claude Code 进行测试。

让我们先来看一个经典的SVG例子，

<pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <code data-raw-code="画一个svg，xbox 控制器" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap">画一个svg，xbox 控制器
</code></pre>

emm... 还凑合能看看我觉得，

画的可爱版画风。

然后是，经典的小球测试：

<pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <code data-raw-code="使用 p5.js（无需 HTML）创建 10个彩色球在旋转六边形内弹跳的效果，考虑重力，弹性，摩擦和碰撞。" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap">使用 p5.js（无需 HTML）创建 10个彩色球在旋转六边形内弹跳的效果，考虑重力，弹性，摩擦和碰撞。
</code></pre>

emmm...

感觉还是差点意思啊，

我感觉现在发布的模型很少有不能完成这个小球任务的了...

再来看一个前端测试case:

<pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <code data-raw-code="设计并创建一个非常有创意、精心且细致的体素艺术场景：主题是上海的建筑风景。让整个场景看起来震撼、多样化，并使用色彩丰富的体素。可以使用任何库来实现，但最终请把所有内容整合在一个单独的 HTML文件里，这样我可以直接粘贴后在 Chrome 中打开运行" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap">设计并创建一个非常有创意、精心且细致的体素艺术场景：主题是上海的建筑风景。让整个场景看起来震撼、多样化，并使用色彩丰富的体素。
可以使用任何库来实现，但最终请把所有内容整合在一个单独的 HTML文件里，这样我可以直接粘贴后在 Chrome 中打开运行 
</code></pre>

看上去还是有点简陋...

不过这个case 我跑了好几个模型，效果都比较一般其实。

效果最好的，是之前测试号称是Gemini 3 的神秘模型，lithiumflow。

给大家看眼 SOTA 的效果：

上海黄浦江边的三件套，这个是我目前看到最好的。

还有一个常见的复刻 MacOS系统：

<pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <code data-raw-code="做一个MacOS桌面系统，包括计算器，文本编辑器，还有safari网页，图标可以用svg代替" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap">做一个MacOS桌面系统，包括计算器，文本编辑器，还有safari网页，图标可以用svg代替
</code></pre>
熟悉的AI紫色，以及可以看到功能实现上还是有些bug。

坦诚讲，

感觉代码这块提升感知还没那么强。

本来还想测试一个爬虫case，

测试一下M2写脚本的能力，但是没跑通。

当然，

M2 本身也支持了接入Claude Code，以及其他的AI编程工具。

参考文档在这：https://platform.minimaxi.com/docs/guides/text-ai-coding-tools#claude-code

如果你也想试试的话，

欢迎尝试。

我理解这波更新是MiniMax 不得不走的一步棋，

即使可能效果目前还不是最好，

特别是隔壁同样以视频生成出名的快手，也杀入了AI编程的战场，

MiniMax 更需要照常进行模型的迭代来稳住自己的生态位，保持在牌局上的竞争力。

虽然从我自己的实际体验来看，M2的表现中规中矩。

但是并不妨碍它登上benchmark的高位。

这种跑分与体感的撕裂，真的已经是当下大模型竞赛的常态。

我们正身处一个周周有更新，月月有新王的疾速时代。

相隔四个月的时间，在AI领域足以发生天翻地覆的变化。

但至少，它证明了MiniMax仍在这场残酷的马拉松赛道上，还没有掉队。

在这场没有终局的牌桌上，没有谁能真正的一劳永逸。

真正的考验，也永远在下一次更新。

哦对了，听说海螺的新版本快来了，

让我们一起期待吧。

		自动登录	找回密码
密码			立即注册

一手实测MiniMax新模型，我发现有点东西

相关帖子