mistral搞了个大新闻，推出了个lean 编程语言

最近，法国的AI公司Mistral搞了个大新闻，推出了个叫Leanstral的代码验证智能体，把开源Lean编程语言用在了里头。他们觉得，要想让AI生成的代码靠谱，光靠人工检查太慢了，得给AI配备个“监督员”，也就是他们这次搞出来的验证智能体。这玩意儿能帮忙证明代码是对的、测试代码有没有问题、检查代码规范什么的。Mistral直接把Leanstral的权重给放了出来（Apache 2.0协议），放在了Mistral Vibe里面当智能体用，还免费提供了API端点让大家调用。他们还拿了个叫FLTEval的基准测试来测，结果显示Leanstral-120B-A6B的表现挺好，比GLM5-744B-A40B、Kimi-K2.5-1T-32B和Qwen3.5-397B-A17B这些竞争对手都要强。不过呢，更让大家关注的是它的价格。 Mistral说了，“你们要是觉得Claude太贵了，试试Leanstral吧。”这家公司说这个模型性价比特别高，运行起来特便宜。比如拿pass@2来比的话，Leanstral能拿26.3分，比Sonnet高6分呢，可它只花了36美元；Sonnet得花549美元才能拿到这个分数。要是换成pass@16的话，Leanstral拿了31.9分，比Sonnet高8分；而它只要花290美元就能搞定。说到现在最牛的Anthropic的Claude Opus 4.6，在FLTEval上确实比Leanstral高一些（39.6分对31.9分），但你知道Opus得花多少钱吗？1650美元！再看Leanstral在pass@16时只要290美元。而且它单次运行只要18美元就能到21.9分。为了证明它真的会解决实际问题，Mistral拿了个Proof Assistant Stack Exchange上的真问题给它练手——一个Lean 4代码里的bug。结果呢？这个智能体不光编出了测试代码把问题复现了出来，还自己把缺陷给找着修好了。 Mistral还顺便发布了Mistral Small 4，这是个全能选手。它能做推理、写代码、聊指令对话这些事儿合二为一了。大家以后就不用换来换去了。接下来看看问答环节： Q1：Leanstral是啥？有啥特别之处？ A：这是个用Lean编程语言做的代码验证智能体。特别的地方是它能做形式化验证，减少人工检查的工作量；而且价格便宜性能高。 Q2：性价比体现在哪儿？ A：比如在FLTEval测试里的pass@2模式下花36美元拿26.3分；Sonnet拿这个成绩要花549美元。pass@16模式下拿31.9分只需290美元；Opus拿39.6分得花1650美元。 Q3：Mistral Small 4能干啥？ A：这是个通用模型能处理推理、写代码和对话指令。用户不用在不同的模型里来回切换。