|
|
MiniMax 发布了它们自家的模型,
M2。
而上一次的更新,
我记得还是在 6月。
虽然才4个月的时间,
但是,我真的快忘记他们家原来还有模型...
短短 4 个月时间,
我们经历了,
GPT-5、Claude 4.5、DeepSeek-V3.2、GLM 4.6,Kimi K2还有Qwen,
这里面很多模型甚至都更新了两个版本已经。
现在终于轮到了MiniMax了。
不同于之前的巨无霸M1,
新的M2模型,
230B 总参数,10B 参数激活,倒是显得有些小巧可爱了。
而且,相比于M1,
上下文窗口从之前的1M,缩减到了204K。
我猜,大概是算力不够以及长上下文窗口真的没有那么好训。
虽然能理解,但是也还是觉得可惜。
别说国产,就是全球范围内,能有1M的长上下文,除了Google,也没别人了。
好在,看Benchmark,他们提升了不少。
根据 Artificial Analysis的排行,
综合了MMLU-Pro,GPQA Diamond等多个Benchmark的评定,
M2 已经挤入前五了。
看起来效果还不错,
那,我也上手实际体验了一下这个新的模型效果,
让我们来分别来看下。
指令遵循
我常考的模型指令遵循能力的case:
<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="Create a 3-paragraph text, without the letter "O" or "o", explaining how airplanes works" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>Create a 3-paragraph text, without the letter "O" or "o", explaining how airplanes works </span><span>
</span></code></pre></p>
让模型写三段话,不能有大写或者小写的字母o。
回答正确。
指令遵循能力还不错。
我测过的模型里,极少数能完整做对这个case。
再看一个,
<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="请帮我把 I love MiniMax-M2-Preview 倒过来写" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>请帮我把 I love MiniMax-M2-Preview 倒过来写</span><span>
</span></code></pre></p>
回答错误。
这个有点意外,感觉应该还算简单,反而这个还答错了。
推理能力
也是一个常考的case:
<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何 </span><span>
</span></code></pre></p>
回答错误。
emmm... 说了考虑立体几何的情况下,没回答正确,也是比较少见。
对比一下现在国产头部的GLM 4.6 的回答:
GLM 4.6 回答正确。
可以看得出还是有些差距的。
写作能力:
这里,我尝试让模型来模仿下鲁迅先生的文字风格,进行下创作:
<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="使用鲁迅先生的文字风格,创作一篇1000字的短文,讽刺当下职场中的 996 、对女性的歧视、对男性 35 岁门槛等现象。" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>使用鲁迅先生的文字风格,创作一篇1000字的短文,讽刺当下职场中的 996 、对女性的歧视、对男性 35 岁门槛等现象。 </span><span>
</span></code></pre></p>
我感觉文字写的还行,但是风格上我个人觉得不太像鲁迅,还是少了鲁迅先生的那种辛辣的讽刺感觉。
代码能力
说实话,
模型的编码能力是每次升级的重点提升方向。
而且,基本每个厂商都会说自己的编码能力非常优秀,
但是实际使用体验的时候表现真的是参差不齐。
所以,M2 的代码能力也自然是关注的重点。
下面所有的例子都是我接入Claude Code 进行测试。
让我们先来看一个经典的SVG例子,
<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="画一个svg,xbox 控制器" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>画一个svg,xbox 控制器</span><span>
</span></code></pre></p>
emm... 还凑合能看看我觉得,
画的可爱版画风。
然后是,经典的小球测试:
<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="使用 p5.js(无需 HTML)创建 10个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>使用 p5.js(无需 HTML)创建 10个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。</span><span>
</span></code></pre></p>
emmm...
感觉还是差点意思啊,
我感觉现在发布的模型很少有不能完成这个小球任务的了...
再来看一个前端测试case:
<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="设计并创建一个非常有创意、精心且细致的体素艺术场景:主题是上海的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。可以使用任何库来实现,但最终请把所有内容整合在一个单独的 HTML文件里,这样我可以直接粘贴后在 Chrome 中打开运行" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>设计并创建一个非常有创意、精心且细致的体素艺术场景:主题是上海的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。</span><span>
</span><span>可以使用任何库来实现,但最终请把所有内容整合在一个单独的 HTML文件里,这样我可以直接粘贴后在 Chrome 中打开运行 </span><span>
</span></code></pre></p>
看上去还是有点简陋...
不过这个case 我跑了好几个模型,效果都比较一般其实。
效果最好的,是之前测试号称是Gemini 3 的神秘模型,lithiumflow。
给大家看眼 SOTA 的效果:
上海黄浦江边的三件套,这个是我目前看到最好的。
还有一个常见的复刻 MacOS系统:
<p><pre style="background:#282b2e;border-radius:8px;color:#a9b7c6;font-size:90%;line-height:1.5;margin:10px 8px;overflow-x:auto;text-align:left;padding:0 !important"> <span style="display:flex;padding:10px 14px 0"></span><code data-raw-code="做一个MacOS桌面系统,包括计算器,文本编辑器,还有safari网页,图标可以用svg代替" data-show-line-number="false" style="display:-webkit-box;font-size:90%;line-height:1.75;margin:0;overflow-x:auto;padding:0.5em 1em 1em;text-align:left;text-indent:0;white-space:nowrap"><span>做一个MacOS桌面系统,包括计算器,文本编辑器,还有safari网页,图标可以用svg代替</span><span>
</span></code></pre></p>
熟悉的AI紫色,以及可以看到功能实现上还是有些bug。
坦诚讲,
感觉代码这块提升感知还没那么强。
本来还想测试一个爬虫case,
测试一下M2写脚本的能力,但是没跑通。
当然,
M2 本身也支持了接入Claude Code,以及其他的AI编程工具。
参考文档在这:https://platform.minimaxi.com/docs/guides/text-ai-coding-tools#claude-code
如果你也想试试的话,
欢迎尝试。
我理解这波更新是MiniMax 不得不走的一步棋,
即使可能效果目前还不是最好,
特别是隔壁同样以视频生成出名的快手,也杀入了AI编程的战场,
MiniMax 更需要照常进行模型的迭代来稳住自己的生态位,保持在牌局上的竞争力。
虽然从我自己的实际体验来看,M2的表现中规中矩。
但是并不妨碍它登上benchmark的高位。
这种跑分与体感的撕裂,真的已经是当下大模型竞赛的常态。
我们正身处一个周周有更新,月月有新王的疾速时代。
相隔四个月的时间,在AI领域足以发生天翻地覆的变化。
但至少,它证明了MiniMax仍在这场残酷的马拉松赛道上,还没有掉队。
在这场没有终局的牌桌上,没有谁能真正的一劳永逸。
真正的考验,也永远在下一次更新。
哦对了,听说海螺的新版本快来了,
让我们一起期待吧。 |
|