近日,在2024年世界人工智能大会(WAIC)上,合合信息推出TextIn智能文档处理平台,旨在解决当前大模型训练面临的数据局限与质量问题,特别是针对中文语料稀缺和复杂文档解析的难题,为行业提供了强有力的“加速器”。
随着人工智能技术的飞速发展,大模型展现出前所未有的强大能力,其背后离不开海量高质量数据的支撑。然而,数据的质量与数量成为制约大模型性能进一步提升的关键因素。尤其是在中文领域,全球通用的大模型训练集中,中文语料占比极低,且高质量数据难以获取。这一现状不仅限制了大模型在中文环境下的应用效果,也阻碍了国内大模型厂商的快速发展。
面对这一挑战,合合信息凭借其在文档处理领域的深厚积累,推出了TextIn智能文档处理平台。该平台集成了TextIn文档解析、TextIn Embedding(文本向量数据模型)以及OpenKIE三大核心工具,旨在从源头提升语料质量,加速大模型的训练与迭代。
大模型使用文档解析引擎之前(左框)和之后(右框)的效果对比。结果表明,使用后大模型具备了更快速、优秀的文档要素分析、表格内容识别能力。
TextIn文档解析引擎是该平台的亮点之一。它能够快速、准确地解析书籍、论文、研报等各类复杂文档,破解版面解析障碍,为模型训练提供纯净、结构化的数据。针对银行基金对账单等复杂表格场景,TextIn不仅速度快,而且具备强大的理解能力,能够智能还原文档的阅读顺序,确保数据的准确无误。此外,该平台还能处理柱状图、折线图等多种图表数据,将其拆解为易于理解的格式,帮助大模型更好地理解图表中的信息。
除了文档解析,TextIn Embedding模型也是该平台的重要组成部分。该模型通过深入学习大量中文语料,能够迅速定位目标信息,提取有效文本特征,提高大模型在信息搜索和问答方面的质量、效率和准确性。相比其他开源模型,TextIn Embedding模型具有体积小、占用资源少、支持可变输出维度等优势,能够更好地适应不同场景的需求。
此外,OpenKIE信息抽取工具也为TextIn智能文档处理平台增色不少。该工具能够自动抽取文档中的关键信息,并直接应用于其他系统,极大地提高了工作效率。在大模型文档处理场景中,合合信息与百川智能等头部企业合作,共同破解了多文档元素识别、版面分析等难题,将百页文档的整体处理速率提升超过10倍。
合合信息智能创新事业部总经理唐琪表示,TextIn智能文档处理平台目前已覆盖金融、医学、财经、媒体等47个场景,共支持3200余类文档的处理。该平台已被多家头部大模型厂商纳入预训练流程,并积累了小批量开发者用户。
未来,合合信息将继续深耕文档处理领域,为大模型的训练与应用提供更多优质“燃料”,推动人工智能技术的持续进步。
责任编辑:kj005
文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com