百度文小言焕新升级：多模融合驱动智能交互新体验

在近期举办的百度 AI DAY 上，百度文小言宣告了品牌重塑与功能迭代的重磅消息。此次升级涵盖了全新的视觉设计，而更关键的是引入了突破性的多模型融合调度技术，这一创新将显著提升其在语音识别与图像问答领域的表现。

百度文小言焕新升级：多模融合驱动智能交互新体验插图

多模型融合调度技术成为此次升级的核心亮点。通过整合百度自主研发的文心 X1、文心4.5 等先进模型，并引入 DeepSeek-R1 和可灵等第三方优质模型，用户能够根据具体需求灵活选用最适配的模型。只需一键开启 “智能模式”，系统便会自动匹配最优模型组合，大幅提升响应效率与任务执行能力，真正实现了便捷高效的问题解决体验。

在语音交互领域，文小言全新升级的语音大模型支持多地方言交流、复杂知识问答，甚至允许用户随时中断对话。这不仅让用户能够轻松获取知识解答，还能享受趣味性的角色扮演互动，极大地丰富了交互场景。百度语音首席架构师贾磊介绍，这款模型是业内首个基于创新互相关注意力（Cross-Attention）技术的端到端语音语言大模型，其调用成本较行业平均水平降低 50%-90%，推理响应速度更是快至 1 秒左右，为用户带来前所未有的流畅交互体验。

此外，文小言还推出了创新性的图片问答功能。用户只需拍摄或上传图片，即可通过文字或语音提问，获取详尽的解析内容。例如，拍摄数学题目可实时获得解题思路与视频讲解；上传商品图片则能辅助比较参数与价格，助力购物决策。新增的 “图个冷知识” 功能更是趣味横生，用户可预设 “历史学者” 或 “科技达人” 等不同视角，从多维度解读同一图片，进一步提升了互动的趣味性与多样性。

百度文小言此次的全面升级，无疑为用户带来了更智能、更便捷的交互体验，预示着未来人机互动将迈向更加多元化的全新阶段。