中华网数码

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:滚动新闻>

合合信息丨破解中文语料难题,加速大模型性能飞跃

合合信息丨破解中文语料难题,加速大模型性能飞跃
2024-08-19 14:43:06 来源:今日热点网

近日,在2024年世界人工智能大会(WAIC)上,合合信息推出TextIn智能文档处理台,旨在解决当前大模型训练面临的数据局限与质量问题,特别是针对中文语料稀缺和复杂文档解析的难题,为行业提供了强有力的“加速器”。

随着人工智能技术的飞速发展,大模型展现出前所未有的强大能力,其背后离不开海量高质量数据的支撑。然而,数据的质量与数量成为制约大模型性能进一步提升的关键因素。尤其是在中文领域,全球通用的大模型训练集中,中文语料占比极低,且高质量数据难以获取。这一现状不仅限制了大模型在中文环境下的应用效果,也阻碍了国内大模型厂商的快速发展。

面对这一挑战,合合信息凭借其在文档处理领域的深厚积累,推出了TextIn智能文档处理台。该台集成了TextIn文档解析、TextIn Embedding(文本向量数据模型)以及OpenKIE三大核心工具,旨在从源头提升语料质量,加速大模型的训练与迭代。

大模型使用文档解析引擎之前(左框)和之后(右框)的效果对比。结果表明,使用后大模型具备了更快速、优秀的文档要素分析、表格内容识别能力。

TextIn文档解析引擎是该亮点之一。它能够快速、准确地解析书籍、论文、研报等各类复杂文档,破解版面解析障碍,为模型训练提供纯净、结构化的数据。针对银行基金对账单等复杂表格场景,TextIn不仅速度快,而且具备强大的理解能力,能够智能还原文档的阅读顺序,确保数据的准确无误。此外,该台还能处理柱状图、折线图等多种图表数据,将其拆解为易于理解的格式,帮助大模型更好地理解图表中的信息。

除了文档解析,TextIn Embedding模型也是该台的重要组成部分。该模型通过深入学习大量中文语料,能够迅速定位目标信息,提取有效文本特征,提高大模型在信息搜索和问答方面的质量、效率和准确性。相比其他开源模型,TextIn Embedding模型具有体积小、占用资源少、支持可变输出维度等优势,能够更好地适应不同场景的需求。

此外,OpenKIE信息抽取工具也为TextIn智能文档处理台增色不少。该工具能够自动抽取文档中的关键信息,并直接应用于其他系统,极大地提高了工作效率。在大模型文档处理场景中,合合信息与百川智能等头部企业合作,共同破解了多文档元素识别、版面分析等难题,将百页文档的整体处理速率提升超过10倍。

合合信息智能创新事业部总经理唐琪表示,TextIn智能文档处理台目前已覆盖金融、医学、财经、媒体等47个场景,共支持3200余类文档的处理。该台已被多家头部大模型厂商纳入预训练流程,并积累了小批量开发者用户。

未来,合合信息将继续深耕文档处理领域,为大模型的训练与应用提供更多优质“燃料”,推动人工智能技术的持续进步。


责任编辑:kj005

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com
关键词:

个保法颁布一周年:个性化广告发展需平衡隐私保护与用户体验

2022-11-14 11:53:20个保法颁布一周年:个性化广告发展需平衡隐私保护与用户体验

2022年全球折叠手机总销量将首度超过千万部大关

2022-02-09 11:40:212022年全球折叠手机总销量将首度超过千万部大关

印度市场智能手机出货量出炉:vivo占比排名第三

2022-02-08 11:19:13印度市场智能手机出货量出炉:vivo占比排名第三

平板电脑进入新的竞争阶段 重新夺回市场主导权

2022-02-07 16:52:08平板电脑进入新的竞争阶段 重新夺回市场主导权

2021年四季度中国手机市场苹果占有率位居第一

2022-01-27 13:33:342021年四季度中国手机市场苹果占有率位居第一

预测2022年中国市场智能机销量达3.4亿部 同比增长8%

2022-01-26 14:57:26预测2022年中国市场智能机销量达3.4亿部 同比增长8%

相关新闻