百度在近期举办的AI DAY活动中,震撼发布了业内首个融合全新互相关注意力机制的端到端语音语言大模型。同时,文小言品牌也迎来了全面焕新与功能升级,成为首个接入该创新模型的应用,并新增了多模型融合调度、图片问答、AI生成图片与视频等强大功能。
百度AI产品创新业务领军人物薛苏表示:“AI的未来已不再是单纯的技术参数竞赛,关键在于如何通过多模型的协同合作,真正为用户带来实际价值。文小言致力于通过开放的生态系统,整合顶尖模型能力,打造出既强大又简洁的AI产品。”
文小言此次升级的核心亮点在于其“多模型融合调度”技术。该技术通过整合百度自研的文心X1、文心4.5等顶级模型,并引入DeepSeek-R1、可灵等第三方优质模型,实现了多模型间的智能协同。用户只需选择“自动模式”,系统即可智能选择最优模型组合,或根据用户需求灵活选择单一模型完成任务,从而显著提升了响应速度和任务处理能力。
例如,当用户要求设计三种不同风格的南偏东客厅效果图时,文小言能够准确理解装修风格差异,利用文心X1进行深度推理,快速生成三幅风格各异但视角一致的装修效果图。用户只需拍摄一张茅台镇的照片,文小言就能借助文心4.5的多模态分析能力,准确识别地理位置、当地产业、建筑风格等详细信息。
文小言还进一步增强了全新语音大模型、图片问答、AI生成图片与视频等能力,全面优化了用户体验。全新语音大模型支持方言对话、复杂知识问答及随时打断等场景,用户可以进行语音知识问答或进行趣味角色扮演。
据百度语音首席架构师贾磊介绍,该模型是百度在业内率先推出的基于全新互相关注意力机制的端到端语音语言大模型。在满足一定交互指标的情况下,大模型的调用成本相比行业平均水平降低了50%-90%,推理响应速度极快,将语音交互等待时间缩短至约1秒,极大地提升了交互的流畅性。同时,在大模型的加持下,实现了流式逐字的LLM驱动的多情感语音合成,使语音充满情感、逼真且拟人,进一步提升了交互的听觉体验。
图片问答功能让用户可以通过拍摄或上传图片,并以文字或语音提问的方式直接获取深度解析。例如,拍摄一道数学题可以实时生成解题思路与视频解析;上传多款商品图可以对比参数、价格,辅助用户做出购物决策;拍摄杯子设计图后,AI可以自动解析风格并生成同款手机壳、支架等周边产品。
文小言还新增了“图个冷知识”功能,为用户带来更多趣味性。用户可以预设“历史学者”、“科技达人”等角色视角,为同一图片赋予多维解读。例如,当用户询问“猫窗探秘:为何猫爱窗边”时,文小言能从狩猎本能、能量获取、领地意识等角度给出独特的解读。