人工智能界近日迎来了一则引人注目的新闻,关于斯坦福大学与华盛顿大学研究人员的最新研究成果。
据报道,李飞飞等研究人员成功训练出名为s1的人工智能推理模型,且费用不到50美元。该模型在数学和编码能力测试中,据称表现出与OpenAI的O1和DeepSeek的R1等尖端推理模型相当的水平。这一消息迅速在AI界引发了广泛讨论和关注。
然而,随着《科创板日报》记者的深入调查和业内人士的访谈,s1模型的“低成本”秘密逐渐浮出水面。据透露,s1模型的训练并非从零开始,而是基于阿里云的通义千问(Qwen)模型进行了监督微调。这意味着,s1模型之所以能以如此低的成本实现高效推理能力,是因为它站在了一个已经具备强大能力的开源基础模型之上。
根据李飞飞团队的研究论文,s1模型的训练仅使用了1000个样本数据。在AI训练领域,这一数据量通常被认为是微不足道的,远不足以训练出一个具备推理能力的模型。然而,上海交通大学人工智能学院的谢伟迪副教授指出,仔细研究论文后会发现,s1模型的神奇之处在于它利用了通义千问模型作为基座进行微调,这1000个样本数据更像是对已有模型能力的进一步优化,而非从零开始的全新训练。
国内某知名大模型公司的CEO也表达了类似的观点。他表示,从论文原文来看,所谓的50美元训练成本,实际上只是使用了从谷歌模型中提炼出的1000个样本,对通义千问模型进行了监督微调。这种微调的成本确实很低,但显然是在已有领先模型的基础上实现的。
不仅如此,国内外还有多个团队声称以极低的成本训练出了具有推理能力的新模型。然而,通过阅读这些团队的论文原文,人们发现它们无一例外都是基于通义模型作为基座进行的。这进一步证明了通义千问模型在AI训练中的重要作用。
谢伟迪强调,以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果。但如果换成其他基座模型,新模型的能力并不会有任何提升。因此,他认为真正神奇的是Qwen模型,而不是s1模型。
尽管s1模型的低成本训练在一定程度上展示了AI训练的潜力,但其局限性也不容忽视。首先,这种低成本训练依赖于已有的强大基座模型,如果没有这样的基座模型,低成本训练的效果将大打折扣。其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。低成本训练的成功也引发了关于AI模型知识产权和伦理问题的讨论。