合合信息丨破解中文语料难题，加速大模型性能飞跃

2024-08-19 14:43:06 来源：今日热点网

小大

近日，在2024年世界人工智能大会（WAIC）上，合合信息推出TextIn智能文档处理平台，旨在解决当前大模型训练面临的数据局限与质量问题，特别是针对中文语料稀缺和复杂文档解析的难题，为行业提供了强有力的“加速器”。

随着人工智能技术的飞速发展，大模型展现出前所未有的强大能力，其背后离不开海量高质量数据的支撑。然而，数据的质量与数量成为制约大模型性能进一步提升的关键因素。尤其是在中文领域，全球通用的大模型训练集中，中文语料占比极低，且高质量数据难以获取。这一现状不仅限制了大模型在中文环境下的应用效果，也阻碍了国内大模型厂商的快速发展。

面对这一挑战，合合信息凭借其在文档处理领域的深厚积累，推出了TextIn智能文档处理平台。该平台集成了TextIn文档解析、TextIn Embedding（文本向量数据模型）以及OpenKIE三大核心工具，旨在从源头提升语料质量，加速大模型的训练与迭代。

大模型使用文档解析引擎之前（左框）和之后（右框）的效果对比。结果表明，使用后大模型具备了更快速、优秀的文档要素分析、表格内容识别能力。

TextIn文档解析引擎是该平台的亮点之一。它能够快速、准确地解析书籍、论文、研报等各类复杂文档，破解版面解析障碍，为模型训练提供纯净、结构化的数据。针对银行基金对账单等复杂表格场景，TextIn不仅速度快，而且具备强大的理解能力，能够智能还原文档的阅读顺序，确保数据的准确无误。此外，该平台还能处理柱状图、折线图等多种图表数据，将其拆解为易于理解的格式，帮助大模型更好地理解图表中的信息。

除了文档解析，TextIn Embedding模型也是该平台的重要组成部分。该模型通过深入学习大量中文语料，能够迅速定位目标信息，提取有效文本特征，提高大模型在信息搜索和问答方面的质量、效率和准确性。相比其他开源模型，TextIn Embedding模型具有体积小、占用资源少、支持可变输出维度等优势，能够更好地适应不同场景的需求。

此外，OpenKIE信息抽取工具也为TextIn智能文档处理平台增色不少。该工具能够自动抽取文档中的关键信息，并直接应用于其他系统，极大地提高了工作效率。在大模型文档处理场景中，合合信息与百川智能等头部企业合作，共同破解了多文档元素识别、版面分析等难题，将百页文档的整体处理速率提升超过10倍。

合合信息智能创新事业部总经理唐琪表示，TextIn智能文档处理平台目前已覆盖金融、医学、财经、媒体等47个场景，共支持3200余类文档的处理。该平台已被多家头部大模型厂商纳入预训练流程，并积累了小批量开发者用户。

未来，合合信息将继续深耕文档处理领域，为大模型的训练与应用提供更多优质“燃料”，推动人工智能技术的持续进步。

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

2021三季度企业级SSD市场统计：三星出货份额过半

我国仍有1.4亿老年人使用功能机数字鸿沟问题凸显

8GB+256GB版本！OPPO Find N预售抢购一空

培养一名航天员到底有多难？

中华网数码

合合信息丨破解中文语料难题，加速大模型性能飞跃

个保法颁布一周年：个性化广告发展需平衡隐私保护与用户体验

2022年全球折叠手机总销量将首度超过千万部大关

印度市场智能手机出货量出炉：vivo占比排名第三

平板电脑进入新的竞争阶段重新夺回市场主导权

2021年四季度中国手机市场苹果占有率位居第一

预测2022年中国市场智能机销量达3.4亿部同比增长8%

相关新闻