智源评测出炉：豆包大语言模型排名第一，多模态能力获得三项第二

12月19日，智源研究院发布最新一期大模型综合及专项评测结果。在覆盖国内外100余个开源和商业闭源大模型的评测中，豆包通用模型pro获得大语言模型主观评测最高分；在多模态模型评测中，豆包视觉理解模型排名视觉语言模型第二，成绩仅次于GPT-4o；豆包文生图模型、豆包视频生成模型（即梦P2.0 pro）也分别在相应测试中获得全球第二。

图片1.png

据智源研究院介绍，大模型评测平台FlagEval联合了全国10余家高校和机构合作共建。此次公布的榜单中，大语言模型主观评测重点考察的是模型的中文能力，多模态模型评测榜单中，视觉语言模型主要考察的是模型在图文理解、长尾视觉知识、文字识别以及复杂图文数据分析能力。FlagEval大模型角斗场则是向用户开放的模型对战评测服务，反映了用户对模型的偏好。

在大语言模型主观评测中，豆包通用模型pro的知识运用和推理能力均获得最高分，简单理解、数学能力、安全等项目也排名前三，最终综合成绩排名第一。在FlagEval大模型角斗场榜单中，基于模型对战的用户投票结果，豆包通用模型pro得分排名第二，仅次于OpenAI的o1-mini。

在多模态模型评测榜单中，GPT-4o在视觉语言模型中排名第一，豆包视觉理解模型获第二。在中文的通用知识、文字识别中，豆包表现突出，相比国外模型有较大优势。在文生图测试中，混元和豆包排名前两位；在文生视频测试中，国产模型更是优势显著，可灵1.5高品质版、即梦P2.0 pro、爱诗科技PixVerse v3和海螺AI排名前列。

据悉，豆包视觉理解模型在不久前的火山引擎Force大会上首次发布，现已对企业客户开放使用。火山引擎方面表示，豆包大模型通过算法、工程、软硬件结合的技术创新，大幅优化使用成本，让每一家企业都能用得起，推动AI技术普惠和应用发展。

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

2021三季度企业级SSD市场统计：三星出货份额过半

我国仍有1.4亿老年人使用功能机数字鸿沟问题凸显

8GB+256GB版本！OPPO Find N预售抢购一空

培养一名航天员到底有多难？

中华网数码

智源评测出炉：豆包大语言模型排名第一，多模态能力获得三项第二

力量与速度的完美诠释：雷克沙THOR OC DRR5 6000内存条

双11购物狂欢盛大开启！三款ROG键盘值得入手

个保法颁布一周年：个性化广告发展需平衡隐私保护与用户体验

2022年全球折叠手机总销量将首度超过千万部大关

印度市场智能手机出货量出炉：vivo占比排名第三

平板电脑进入新的竞争阶段重新夺回市场主导权

相关新闻

智源评测出炉：豆包大语言模型排名第一，多模态能力获得三项第二

广州国际美妆周“皮肤健康美学”学术交流会在南方美谷盛大召开

【新时代文明实践】情暖汪家：“三下乡” 惠民生，践初心促振兴

鹤壁爱民医院：以爱之名，守护健康

预见趋势共赢未来 | 第三届湾商大会暨湾区未来产业发展论坛隆重举行

向公伟领航奥特奇蒙药荣登制药工业百强，探索蒙药现代化发展

庆祝中马建交50周年纪录片《繁星在上》开播

上海虹桥机场生命树前快闪音乐会，惊喜献礼来往游客

喜报！方林健荣膺“科创之星”及科技创新风云人物双项殊荣

聚焦工业热泵绿色潜能｜冰轮环境亮相第十二届中国节能与低碳发展论坛

数码推荐

数码图片

罗宾汉与杨超越携手下的时尚宣言与科技温暖

平安寿险理赔款：上天眷顾有准备之人，保险守护希望

高梵KIDS与奈娃家族梦幻联动，上海国际时装周掀起黑金宝贝风潮

CIOE中国国际光博会开幕，伯恩光学持续引领行业技术趋势

新闻排行

从“小树苗”到“大森林” 成都...

探索新赛道哪个领域能成为家电...

2021年全球TV出货下降6.2% 面板...

巨头争相布局全屋智能市场向AI...

Mini LED市场不及预期产业陷...

海南省市场监管局抽查10批次快热...

智能化开辟产品创新边界智能坐...

中国制造主导高端冰箱进入新一...

苹果或正开发Apple Music新功能...

欧洲智能手机2021年“现状”：三...