科技巨头meta震撼发布Llama 4,开源AI领域迎来新里程碑。
在人工智能领域,meta再次展现了其强大的研发实力。近日,这家美国科技巨头正式推出了Llama 4系列模型,标志着开源AI技术又向前迈进了一大步。此次发布的Llama 4包含Scout和Maverick两个版本,均为meta迄今为止最先进的模型,且在多模态性方面表现尤为突出。
meta在开源AI领域的历史地位不容忽视。早在ChatGPT问世仅七个多月后,meta便率先开源了Llama 2,并允许免费商用,这一举措极大地推动了开源模型社区的发展。此次Llama 4的发布,不仅是对DeepSeek等新兴开源势力的有力回应,更是meta在开源AI技术上的又一次重大突破。
Llama 4系列模型在规模、多模态能力和长文本处理上均取得了显著进步。其中,Llama 4 Scout专为文档摘要和大型代码库推理任务设计,拥有1090亿参数和16位专家;而Maverick则专注于多模态能力,支持视觉和语音输入,具备顶级的多语言与编程能力,参数规模高达4000亿。meta还预览了其最强大的模型——Llama 4 Behemoth,总参数达到惊人的2万亿,是“新模型中的教师”。
Llama 4系列模型首次采用了混合专家(MoE)架构,这一架构也被DeepSeek系列模型所采用。相较于传统的稠密模型,MoE架构在训练和推理时计算效率更高,因为单独的token只会激活全部参数中的一小部分。这一创新使得Llama 4在处理复杂任务时更加高效。
多模态能力是Llama 4的另一大亮点。作为原生多模态模型,Llama 4采用了早期融合技术,能够利用海量的无标签文本、图片和视频数据一起进行预训练,实现文本和视觉token的无缝整合。meta通过训练两个模型来赋予它们广泛的视觉理解能力,支持多图像输入与文本提示的无缝交互,用于视觉推理和理解任务。
在长文本能力上,Llama 4也取得了突破性的进展。Llama 4 Scout模型支持高达1000万token的上下文窗口,刷新了开源模型的纪录。这一超大上下文窗口使得Llama 4在处理长文档、复杂对话和多轮推理任务时表现出色。
随着Llama 4的发布,开源AI领域的竞争愈发激烈。meta作为开源模型社区的领头羊,面临着来自DeepSeek和阿里巴巴通义千问系列开源大模型等强劲对手的挑战。阿里巴巴通义千问近期开源的端到端全模态大模型Qwen2.5-Omni在全球最大的AI开源社区Hugging Face的大模型榜单上登顶,展现了其在开源AI领域的强大实力。
与此同时,OpenAI也透露了其模型发布计划,表示将在几周后发布最新的推理模型o3和基座模型o4-mini,并在几个月后推出GPT-5。而DeepSeek方面,虽然尚未明确R2模型的发布时间,但其与清华大学研究团队联合发布的重磅论文为提升大语言模型的推理能力提供了全新方法论,预示着DeepSeek下一代推理模型R2的即将到来。