最近,法国的AI公司Mistral搞了个大新闻,推出了个叫Leanstral的代码验证智能体,把开源Lean编程语言用在了里头。他们觉得,要想让AI生成的代码靠谱,光靠人工检查太慢了,得给AI配备个“监督员”,也就是他们这次搞出来的验证智能体。这玩意儿能帮忙证明代码是对的、测试代码有没有问题、检查代码规范什么的。Mistral直接把Leanstral的权重给放了出来(Apache 2.0协议),放在了Mistral Vibe里面当智能体用,还免费提供了API端点让大家调用。他们还拿了个叫FLTEval的基准测试来测,结果显示Leanstral-120B-A6B的表现挺好,比GLM5-744B-A40B、Kimi-K2.5-1T-32B和Qwen3.5-397B-A17B这些竞争对手都要强。不过呢,更让大家关注的是它的价格。 Mistral说了,“你们要是觉得Claude太贵了,试试Leanstral吧。”这家公司说这个模型性价比特别高,运行起来特便宜。比如拿pass@2来比的话,Leanstral能拿26.3分,比Sonnet高6分呢,可它只花了36美元;Sonnet得花549美元才能拿到这个分数。要是换成pass@16的话,Leanstral拿了31.9分,比Sonnet高8分;而它只要花290美元就能搞定。说到现在最牛的Anthropic的Claude Opus 4.6,在FLTEval上确实比Leanstral高一些(39.6分对31.9分),但你知道Opus得花多少钱吗?1650美元!再看Leanstral在pass@16时只要290美元。而且它单次运行只要18美元就能到21.9分。为了证明它真的会解决实际问题,Mistral拿了个Proof Assistant Stack Exchange上的真问题给它练手——一个Lean 4代码里的bug。结果呢?这个智能体不光编出了测试代码把问题复现了出来,还自己把缺陷给找着修好了。 Mistral还顺便发布了Mistral Small 4,这是个全能选手。它能做推理、写代码、聊指令对话这些事儿合二为一了。大家以后就不用换来换去了。 接下来看看问答环节: Q1:Leanstral是啥?有啥特别之处? A:这是个用Lean编程语言做的代码验证智能体。特别的地方是它能做形式化验证,减少人工检查的工作量;而且价格便宜性能高。 Q2:性价比体现在哪儿? A:比如在FLTEval测试里的pass@2模式下花36美元拿26.3分;Sonnet拿这个成绩要花549美元。pass@16模式下拿31.9分只需290美元;Opus拿39.6分得花1650美元。 Q3:Mistral Small 4能干啥? A:这是个通用模型能处理推理、写代码和对话指令。用户不用在不同的模型里来回切换。