字节跳动在近期的一次重大技术发布会上,正式推出了其全新的豆包视觉理解模型,标志着视觉理解技术也步入了“厘时代”的崭新阶段。这一创新举措,无疑为企业用户提供了前所未有的高性价比多模态大模型服务。
在火山引擎Force大会上,豆包视觉理解模型惊艳亮相,其每千个tokens的输入费用仅为3厘,这一价格优势意味着企业仅需一元钱便能处理多达284张720P分辨率的图片,相较于市面上的同类服务,成本降低了85%。这一突破性定价,无疑将极大地推动AI技术的普及与应用发展。
豆包视觉理解模型不仅具备精准的视觉内容识别能力,更在理解和推理方面展现出卓越实力。它能够根据图像信息进行复杂的逻辑运算,无论是分析图表、处理代码,还是解答学科问题,都游刃有余。该模型还拥有细腻的视觉描述和创作能力,为用户带来了更加丰富多样的使用体验。
据了解,豆包视觉理解模型已顺利接入豆包App及PC端产品,其便捷性和高效性得到了用户的广泛好评。豆包战略研究负责人周昊表示,豆包团队一直致力于提升用户的输入体验,通过不断优化多模态输入功能,包括语音、视觉等,使得用户能够更加快速、方便地使用豆包产品。这些先进的模型技术,现已通过火山引擎平台向企业客户全面开放。
在发布会上,豆包3D生成模型也首次公开亮相。该模型与火山引擎的数字孪生平台veOmniverse强强联合,能够高效完成智能训练、数据合成以及数字资产制作等任务,为AIGC创作提供了一套强大的物理世界仿真模拟器。
豆包大模型的多款产品也迎来了重要更新。豆包通用模型pro已全面对标GPT-4,但使用价格仅为后者的八分之一。音乐模型从原先只能生成60秒的简单结构,升级到了能够创作3分钟的完整音乐作品。而文生图模型2.1版本,更是首次在业界实现了精准生成汉字和一句话P图的产品化能力,并已成功接入即梦AI和豆包App。
火山引擎总裁谭待在会上透露,豆包视频生成模型1.5版将于2025年春季推出,具备更强的长视频生成能力。同时,豆包端到端实时语音模型也将很快上线,为用户带来多角色演绎、方言转换等全新功能。谭待强调,尽管豆包大模型发布时间相对较晚,但其凭借快速的迭代和进化,已成为国内技术最领先、功能最全面的大模型之一。
数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较首次发布时增长了33倍。豆包大模型已广泛应用于各行各业,与八成主流汽车品牌建立了合作关系,并接入了多家手机、PC等智能终端,覆盖终端设备约3亿台。在智能终端上,豆包大模型的调用量在半年内增长了100倍。
在企业生产力相关的场景中,豆包大模型同样备受青睐。近三个月来,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长了16倍,硬件终端场景增长了13倍,AI工具场景增长了9倍,学习教育等场景也实现了大幅增长。谭待认为,豆包大模型市场份额的快速增长,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,让AI真正成为每家企业都能轻松使用的高效科技。
火山引擎在发布会上还升级了火山方舟、扣子和HiAgent三款平台产品,助力企业构建自身的AI能力中心,高效开发AI应用。火山方舟推出了大模型记忆方案,并引入了prefix cache和session cache API,以降低延迟和成本。同时,火山方舟还推出了全域AI搜索服务,提供场景化搜索推荐一体化和企业私域信息整合等功能。
云原生作为过去十年最重要的计算范式,如今正迎来大模型时代的变革。火山引擎认为,下一个十年的计算范式将从云原生迈入AI云原生的新时代。为此,火山引擎推出了新一代计算、网络、存储和安全产品,以满足大模型时代的需求。在计算层面,火山引擎GPU实例通过vRDMA网络,支持大规模并行计算和P/D分离推理架构,显著提升训练和推理效率,降低成本。在存储方面,新推出的EIC弹性极速缓存能够实现GPU直连,使大模型推理时延降低至原来的五十分之一,成本降低20%。在安全层面,火山引擎将推出PCC私密云服务,构建大模型的可信应用体系,实现用户数据在云上推理的端到端加密,且性能优异,推理时延与明文模式相比差异在5%以内。