字节跳动近日正式推出了其自研的深度思考模型——豆包1.5,这一发布标志着该公司在AI技术领域的又一重要进展。该模型由火山引擎面向企业市场推出,旨在提供高效、智能的解决方案。
豆包1.5深度思考模型采用了MoE架构,总参数达到200B,激活参数为20B。尽管与同样采用MoE架构的DeepSeek-V3模型相比,豆包1.5的参数规模较小,但在多项评测中,其表现却毫不逊色。特别是在专业领域的推理任务中,豆包1.5展现出了强大的实力,数学推理AIME 2024测试得分与OpenAI的o3-mini-high持平,编程竞赛和科学推理测试成绩也接近OpenAI的顶尖模型。
除了卓越的性能,豆包1.5深度思考模型还具备高效算法和高性能推理系统,能够在保障高并发的同时,将延迟降低至20毫秒。这一特性使得豆包模型API服务在处理大规模数据时,能够迅速响应,提供实时、准确的智能推理服务。
豆包深度思考模型还推出了多模态版,这一版本具备视觉推理能力,能够像人类一样对看到的事物进行联想和思考。这一功能的加入,极大地拓展了智能推理的应用边界。例如,豆包多模态版可以解读复杂的企业项目管理流程图表,快速提取关键信息,并根据流程图准确回答客户问题。在分析航拍图时,它还能结合地貌特征判断区域开发的可行性。
在现场演示中,豆包深度思考模型展示了其强大的应用潜力。上传一份可口可乐财报后,模型能够迅速提取财报中的关键数据指标,如不同区域的营收和增长情况,并深入分析数据表现差异的原因。同样,当上传一份西餐厅菜单图片,并给出点餐需求和预算指令时,豆包模型能够智能推荐符合需求的菜品组合,从开胃菜到甜点一应俱全。
自去年5月首次发布豆包系列模型以来,字节跳动不断推出新的模型版本,持续提升模型能力。尽管豆包多款主力模型的发布时间晚于同行,但凭借其出色的性能和价格优势,赢得了市场的广泛认可。截至2025年3月底,豆包大模型的日均tokens调用量已达到12.7万亿,较去年发布时增长了上百倍。
火山引擎总裁谭待在接受采访时表示,豆包大模型的成功得益于基础信息处理能力的提升和成本的下降。去年,火山引擎将豆包大模型的定价降低了一个数量级,使得更多企业能够负担得起智能推理服务的费用。今年,豆包模型在深度思考能力上的突破又带来了新的增长动力。
展望未来,火山引擎将押注视觉推理能力和Agent相关技术作为大模型的增长点。谭待认为,现实世界中的很多应用场景都依赖于视觉驱动,因此具备视觉推理能力的豆包模型将在更多场景中助力企业实现智能化转型。同时,火山引擎还推出了OS Agent解决方案,旨在通过智能交互模型和基础框架的搭建,推动Agent技术的广泛应用。
据发布会现场介绍,OS Agent解决方案包含了豆包UI-TARS模型以及一系列云服务和工具,能够实现对代码、浏览器、电脑、手机等设备的智能操作。其中,豆包UI-TARS模型将屏幕视觉理解、逻辑推理、界面元素定位和操作等功能整合在一起,突破了传统自动化工具的局限性,为Agent的智能交互提供了更接近人类操作的模型基础。
为了应对大规模推理需求带来的挑战,火山引擎还推出了AI云原生ServingKit推理套件。这一套件能够加快模型部署速度,降低推理成本,GPU消耗相比传统方案降低了80%。这一技术的推出,将进一步提升豆包大模型的应用效率和普及程度。