AI News HubLIVE
站内改写2 分钟阅读

MiniMax M3 vs. GLM 5.2:自主编程任务代码生成对比

在Thinkbench基准测试中,GLM 5.2在正确性上领先(92%完全通过),而MiniMax M3成本更低、速度更快。代码修改任务表现相当,但全新构建任务GLM更稳健。在处理模糊指令时,MiniMax倾向于构建更完整的系统。

来源Hacker News AI作者: oceanwaves

在最新的自主编程任务基准测试中,GLM 5.2和MiniMax M3两款模型的表现引发了广泛讨论。基于Thinkbench评估框架,研究人员对两款模型进行了72项任务的测试,其中60项为隐藏评分任务,12项为仅观察任务。结果显示,GLM 5.2在正确性上略胜一筹,实现了92%的完全通过率和0.976的平均分数,而MiniMax M3的完全通过率为84%,平均分数为0.961。然而,考虑到成本和延迟,MiniMax显然更具优势:其评分运行成本仅为6.67美元,而GLM需要18.47美元;平均延迟方面,MiniMax为45秒,GLM为80秒。

在具体任务类型上,两款模型在代码修改任务(如bug修复、功能添加和修复到绿色)上的表现几乎无差别,平均分数均接近1.0。真正的差距出现在全新项目构建任务中,GLM 5.2在此类任务上表现更为稳健,尤其是在包结构、API设计和边界情况处理方面。例如,在'ticketflow'任务中,GLM获得了满分,而MiniMax因包布局问题导致评分较低。不过,MiniMax也在某些任务中展现出优势,如'patchwise'和'migrato'任务中取得了更高分数。

对于模糊指令的处理,观察任务揭示了不同倾向。MiniMax M3倾向于构建更完整的系统,包括锁机制、持久化、策略对象、回退路径和装饰器等,而GLM 5.2则更贴近指令的直白理解。例如,在审计日志任务中,MiniMax添加了哈希链验证、查询构建器和权限强化,而GLM保持了较简洁的实现。这种差异既可能有用,也可能过度。

基准测试方法严格:每个任务进行三次试验,隐藏评分器仅在模型停止编辑后介入。客户端配置方面,两款模型均通过Fireworks AI的服务器less端点运行,但价格差异显著:MiniMax的输入价格为每百万token 0.45美元,而GLM为2.10美元;输出价格分别为1.80美元和6.60美元。

综合评估,GLM 5.2更适合需要从零开始构建完整可运行项目的场景,尽管成本更高。MiniMax M3则是代码修改任务中的性价比之选,尤其在有审查环节的bug修复和功能添加中表现出色。研究人员建议,最理想的架构仍是由更高级的协调器(如GPT-5.5或Claude Opus)负责决策和审查,而将具体编码工作交给这些模型。