在农历新年的第一天,阿里巴巴旗下的阿里云发布了一款具有全球领先性能的大模型——通义千问旗舰版Qwen2.5-Max。
北京时间1月29日凌晨,Qwen2.5-Max正式亮相。阿里云通义团队透露,该模型采用了最新的混合专家(MoE)架构,并基于超过20万亿个标记的预训练数据进行训练。这一庞大的数据集使得Qwen2.5-Max在多项权威基准测试中表现出色,全面超越了当前全球领先的开源MoE模型和最大的开源稠密模型。
据了解,Qwen2.5-Max在知识、编程、综合评估以及人类偏好对齐等多个方面均展现出卓越的能力。在与Claude-3.5-Sonnet、GPT-4o、DeepSeek-V3及Llama-3.1-405B等模型的对比测试中,Qwen2.5-Max几乎全面领先。这一成果不仅彰显了阿里巴巴在人工智能领域的深厚积累,也引发了资本市场对中国AI资产价值的重新审视。
除了Qwen2.5-Max外,阿里云还于同日开源了全新的视觉理解模型Qwen2.5-VL。该模型推出了3B、7B、72B三个版本,其中旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越了GPT-4o与Claude3.5。这一系列的创新成果进一步巩固了阿里巴巴在AI领域的领先地位。
受新模型发布的影响,阿里巴巴美股在1月28日和29日连续上涨。投资者对阿里巴巴在AI领域的创新能力和市场前景表示看好。有业内人士分析认为,阿里云不仅发布了与全球顶尖模型比肩甚至更优的模型,而且具备完整的云生态,这或将成为推动其股价上涨的重要因素。
在DeepSeek等创业公司备受关注的同时,国内互联网大厂的大模型能力同样不容小觑。阿里通义千问、字节豆包、腾讯混元等大厂的大模型在技术上并不逊色于DeepSeek,只是在发展战略上有所不同。这些大厂往往出于商业化等方面的考量,不会完全开源其模型代码和训练方法。
值得注意的是,DeepSeek在文本生成能力和理解能力方面表现出色,尤其擅长中文语境下的长文本和复杂语境。然而,与豆包等多模态大模型相比,DeepSeek在多模态生成能力方面尚有欠缺。多模态大模型不仅融合了图片、音频、视频等多种模态,而且对算力底座要求更高,需要支持大规模训练任务,并确保端侧应用的实时性和高效性。
DeepSeek还面临着“蒸馏”争议。所谓“蒸馏”,是一种用预先训练好的复杂模型输出的结果作为监督信号来训练简单模型的方法。DeepSeek被指使用了数据蒸馏技术生成的高质量数据来提升训练效率。然而,这一做法也引发了关于知识产权和模型独特性的讨论。尽管如此,“蒸馏”作为一种常用的大模型训练方法,在业界仍具有一定的普遍性和争议性。