在AI编程领域,一款备受瞩目的代码模型CodeStral再次迎来重大更新,此次升级使其与DeepSeek V2.5和Claude 3.5并驾齐驱,共同荣登Copilot竞技场榜首。
此次发布的CodeStral 2501版本,不仅在性能上实现了飞跃,其上下文窗口也大幅扩展至256k,是前一代的8倍之多。这一改进意味着模型能够处理更加复杂和长远的代码上下文,为开发者提供更加精准的代码补全和生成建议。
据Mistral团队介绍,CodeStral 2501采用了更高效的架构和分词器,使得生成速度相较于前一代提升了约2倍。这一显著的性能提升,无疑将极大地提升开发者的编码效率。
在多个基准测试中,CodeStral 2501均取得了SOTA(State-Of-The-Art,即当前最优)的成绩,特别是在代码补全(FIM)能力方面表现突出。Continue.dev的联合创始人Ty Dunn更是高度评价了CodeStral 2501,认为它标志着FIM领域的一次重大进步。
在Copilot竞技场上,CodeStral 2501以并列第一的身份傲视群雄,其得分相较于前一代版本提高了12分,增幅达到1.2%。紧随其后的是CodeStral的上一版本2405,而Llama 3.1、Gemini 1.5 Pro和GPT-4o等模型则位列其后。尽管榜单中没有o1的身影,但其加入或许将改变当前的竞争格局。
Copilot竞技场由卡内基梅隆大学和UC伯克利的研究人员与LMArena合作推出,旨在通过用户出题和模型匿名输出的方式,评估代码模型的性能。这一平台可以看作是LLM竞技场的代码专用版本,同时也是一款开源编程工具,支持在VSCode中同时运行多个模型,方便用户进行比较和选择。
在Humaneval等传统测试中,CodeStral 2501同样取得了SOTA的成绩。在Python语言和SQL数据库测试中,CodeStral 2501在多个测试指标上均位列第一,展现出强大的跨语言处理能力。CodeStral还支持80多种编程语言,并在多种常用语言中均取得了SOTA的成绩。
尽管CodeStral 2501在Java上的成绩相较于前一代有所下降,但在FIM表现(单行精确匹配)方面,其平均成绩以及Python、Java和JS三个单项均取得了显著进步,并优于OpenAI FIM API等其他模型。这一成绩再次证明了CodeStral 2501在代码生成和补全方面的强大实力。
目前,CodeStral 2501已经可以通过Mistral的合作方Continue在VSCode或Jetbrains系列IDE中使用。对于动手能力强的用户,也可以通过API自行部署,价格实惠且灵活。这一代码模型的推出,无疑将为开发者提供更加高效和智能的编程体验。