豆包大模型全面升级：语言模型提升20.3%，图像、语音再进阶

2024-08-30 10:34:24 来源：今日热点网

小大

军事APP 头条APP

在近日举办的火山引擎AI创新巡展上海站活动中，火山引擎谭待对外表示，相比于5月15日正式发布的版本，豆包语言模型在3个月内，整体综合能力提升了20.3%。

谭待表示，这意味着豆包大模型可以在越来越多的生产力环节中得到应用，在企业服务中更具竞争力。

具体来说，角色扮演能力提升了38.3%，语言理解方面提升33.3%，同时在长文任务，以及数学、专业知识、代码能力等方面也都有不同程度增强。

在图像创作方面，豆包大模型对“文生图模型”进行了升级迭代。新的模型在长文本图文匹配能力方面表现得更加精准，使用户通过文字描述，就可以对图片生成提出更精确的需求。

另外，对于多主体、多位置、人物手部结构等复杂问题，新模型均有大幅提升。新的文生图模型对于中国风格的人物、物品、艺术风格都有着更深理解，未来在设计、广告、营销、电商等多领域，都可以帮助企业解决更多实际问题。

语音模型方面，语义识别准确性进行了相关升级。

对此，谭待在现场举例加以说明。他表示，自2022年冬奥会后，越来越多的人开始喜欢滑雪运动，但在滑雪运动领域中，存在非常多专业的术语，如立刃、搓雪等等，在以往，模型对此很难识别。

但是现在，通过更加精准的上下文理解，人们在讲滑雪相关话题时，模型就可以更好地加以理解。

谭待认为，语音大模型的进一步演进，是实现AI与人之间实时流畅的对话，即在对话中，人可以像与其他人对话一样，去随机打断AI、纠正AI，甚至与AI争辩，而不是像回合制游戏一样，你说一句，我说一句。

对此，火山引擎将大模型与实时音频技术（RTC）相结合，从而能够提供端到端的大模型实时对话能力，企业可以在自身的AI应用中具体应用这一实时语音功能，让用户真正做到和模型非常直接、自由的对话。

通过视频Demo，谭待还在现场具体演示了大模型实时对话能力。他表示，通过将大模型与RTC结合，人与AI之间实现了更加自然的对话，首先是对话可以随时插话、打断，实现了如同真人之间的对话效果。

同时，在以上的前提下，AI声音仍然具备很好的表现力和情感色彩，让用户体验到与真人交流的感觉，并且AI也更加“懂”用户。

最后，通过大模型推理与RTC端到端优化的叠加，火山引擎已经可以将这种人机对话的延迟做到1秒以内，即使在网络环境很差，可能80%丢包的情况下，仍然可以保持非常清晰、流畅的通话质量。

谭待表示，相信这样的新技术，可以让AI时代的人机交互，上升到一个新的高度。

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

2021三季度企业级SSD市场统计：三星出货份额过半

我国仍有1.4亿老年人使用功能机数字鸿沟问题凸显

8GB+256GB版本！OPPO Find N预售抢购一空

培养一名航天员到底有多难？

个保法颁布一周年：个性化广告发展需平衡隐私保护与用户体验

2022-11-14 11:53:20个保法颁布一周年：个性化广告发展需平衡隐私保护与用户体验

2022年全球折叠手机总销量将首度超过千万部大关

2022-02-09 11:40:212022年全球折叠手机总销量将首度超过千万部大关

印度市场智能手机出货量出炉：vivo占比排名第三

2022-02-08 11:19:13印度市场智能手机出货量出炉：vivo占比排名第三

平板电脑进入新的竞争阶段重新夺回市场主导权

2022-02-07 16:52:08平板电脑进入新的竞争阶段重新夺回市场主导权

2021年四季度中国手机市场苹果占有率位居第一

2022-01-27 13:33:342021年四季度中国手机市场苹果占有率位居第一

预测2022年中国市场智能机销量达3.4亿部同比增长8%

2022-01-26 14:57:26预测2022年中国市场智能机销量达3.4亿部同比增长8%