海天瑞声DOTS-LLM大模型服务平台正式发布，数据底座赋能大模型技术产业

2023-11-09 11:19:51 来源：中国创投网

小大

由世界互联网大会和浙江省人民政府主办的2023年世界互联网大会“互联网之光”博览会于11月7日在中国浙江乌镇开幕。海天瑞声CTO黄宇凯在“互联网之光”博览会上正式发布DOTS-LLM大模型服务平台。该平台提供大模型开发全生命周期管理服务，覆盖从数据采标、数据管理、模型训练、模型评测在内的全栈能力。为大模型企业提供更加高效卓越的数据处理服务，助力大模型产业的快速发展。

海天瑞声CTO黄宇凯在“互联网之光”博览会现场发布DOTS-LLM大模型数据服务平台

大模型发展浪潮的背后是数据、算法、算力的合力推动。随着数据处理技术的不断发展，能够获取和处理的数据量更大、质量更高、种类更多，数据为大模型的训练提供了丰富的“养分”。同时，大模型的发展也为数据的利用开辟了新的可能，使得我们能够更有效地挖掘数据的价值，进一步推动人工智能领域的发展。

数据赋能大模型性能跃迁

数据采集阶段

大模型的训练需要大规模数据集，以确保模型的覆盖性和准确性。这一阶段的数据标注数量和质量都十分重要，需要确保训练数据的准确性和可信度。

数据预处理阶段

对数据进行清洗和去噪，以去除噪音和异常值，确保数据的质量。并进行特征提取和转换，以使数据适合模型训练，提高模型的性能和效率。这些步骤是构建高效、准确大模型的关键。

模型训练阶段

为了确保模型的准确性和泛化能力，需要无偏数据集，避免数据偏见导致模型偏差。此外，超参数调整也是至关重要的环节，通过调整和优化模型的超参数，我们可以获得更好的训练效果。同时也需要大规模的计算资源加速训练过程。

模型评测阶段

使用数据集对模型进行评测，以确保模型在未见过的数据上具有良好的泛化能力。同时，选择和应用适当的评测指标，如知识性、安全性、逻辑推理能力等，来全面评测模型的性能。为了获得更准确、可靠的评测结果，需要在大规模数据集进行评测，以确保模型在训练和测试过程中的覆盖性和准确性。

目前，大模型领域的数据处理仍面临诸多挑战。

首先，数据获取和标注过程需要投入大量的人力物力，增加了开发成本。其次，由于版权数据及垂类数据收集难度较大，进一步加大了数据获取的难度。此外，数据偏见和多样性覆盖不足的问题也不容忽视，会在一定程度上影响模型的性能和准确性。最后，如何在利用数据的同时保护个人隐私和数据安全，是大家重点关注的问题。为了更好的推动大模型数据领域的发展，亟需解决以上痛点问题。

DOTS-LLM 核心功能点

海天瑞声DOTS-LLM大模型服务平台汇集了海天瑞声多年积累的行业经验和专业技能，通过深度优化的算法技术，赋能大模型开发全生命周期管理。

大模型开发全生命周期管理

数据采标

高质量文本数据集及专业数据服务

随着数据需求急剧增长，安全合规的获取数据变得愈发关键，同时也更具挑战。卓越高效、安全合规的采标能力是海天瑞声的核心技术之一。海天瑞声以多年积累的数据采标能力为基础，并通过标准化平台进行精准的标记、清洗，支持RLHF、分类、改写、生成等任务，为大模型的数据处理和模型训练提供可靠的数据基础。

数据管理

内置数据处理算法，高效精准的数据管理体验

通过内置多种处理算法，显著提升数据处理流程的效率。支持多维度条件检索，使用户能够快速、准确地获取特定数据，减少查找和筛选数据的时间。同时，该模块还提供了丰富的可视化方案，帮助用户更好地理解数据的特征、趋势和关联性。这使得用户能够更直观地了解数据分布情况，并根据这些信息做出优化决策。

模型训练

全面的模型训练和管理体验

海天瑞声DOTS-LLM大模型服务平台支持20多种第三方大型模型的接入。针对大模型应用场景，以高质量标注数据和SFT&RLHF等方法对大模型进行微调。同时，通过多种可视化方案，帮助用户更好地理解模型训练过程和决策依据，从而更好地调整模型参数和优化模型性能。此外该平台还支持多机多卡并行训练和增量训练，以提高训练效率。

模型评测

模型准确性和稳定性多维评测

海天瑞声的专家团队提供全面的模型评测服务，通过通用语言能力与安全可靠性两大维度展开，主要涵盖阅读理解、逻辑推理、知识运用、生成创作、安全性、鲁棒性六大能力以及19个子能力，以确保模型在不同场景下的稳健性和鲁棒性。更好的验证模型的实用性，并使其更加符合客户的需求和预期。

作为国内领先的人工智能数据服务商，海天瑞声一直致力于为人工智能企业提供高品质的数据。此次推出的DOTS-LLM大模型数据服务平台，以期更好的满足大模型企业在数据方面的需求。

未来，海天瑞声将继续深耕数据领域，不断完善和拓展我们的服务，以应对快速变化的数据环境，助力客户在大模型时代取得更大的成功，为人工智能产业提供更加坚实的数据基石，推动人工智能技术的快速发展。

责任编辑：kj005

文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com

关键词：

2021三季度企业级SSD市场统计：三星出货份额过半

我国仍有1.4亿老年人使用功能机数字鸿沟问题凸显

8GB+256GB版本！OPPO Find N预售抢购一空

培养一名航天员到底有多难？

中华网数码

海天瑞声DOTS-LLM大模型服务平台正式发布，数据底座赋能大模型技术产业

个保法颁布一周年：个性化广告发展需平衡隐私保护与用户体验

2022年全球折叠手机总销量将首度超过千万部大关

印度市场智能手机出货量出炉：vivo占比排名第三

平板电脑进入新的竞争阶段重新夺回市场主导权

2021年四季度中国手机市场苹果占有率位居第一

预测2022年中国市场智能机销量达3.4亿部同比增长8%

相关新闻

今是科技G-seq500自主知识产权纳米孔基因测序仪实现客户端应用

向世界展示创新力量，GNC健安喜受邀参加中国国际进口博览会!

双十一家装节钜惠来袭，米兰软装携手张柏芝送你免单大奖

厦门思明首个“交房即交证”项目出炉：打破“证”结，品质交付

2023四川成职电商阿坝行——马尔康市白湾乡活动举办

产融数字化领航者大树科技助力中小微企业持续健康发展

乌镇十年“网”商天下恒昌携世界互联网大会共建网络空间命运共同体

263邮箱25周年庆：共青春向未来

齐河分中心召开普通国省道干线安全警示教育现场会

J.D. Power发布2023年中国售后服务满意度研究，易车解读服务三大变化

数码推荐

数码图片

我的空运我做主，喜鹊到货源大厅功能上线！

重磅|滤镜主义落户大英带来高科定制抗衰新体验

聚焦国货、引领潮流，源机购带你智享科技生活

生活甚好，居心地，东芝冰箱诠释年轻人空间尺度生活哲学

新闻排行

从“小树苗”到“大森林” 成都...

探索新赛道哪个领域能成为家电...

2021年全球TV出货下降6.2% 面板...

巨头争相布局全屋智能市场向AI...

Mini LED市场不及预期产业陷...

海南省市场监管局抽查10批次快热...

智能化开辟产品创新边界智能坐...

中国制造主导高端冰箱进入新一...

苹果或正开发Apple Music新功能...

欧洲智能手机2021年“现状”：三...

海天瑞声DOTS-LLM大模型服务平台正式发布，数据底座赋能大模型技术产业

相关新闻

数码推荐

数码图片

我的空运我做主，喜鹊到货源大厅功能上线！

重磅|滤镜主义落户大英 带来高科定制抗衰新体验

聚焦国货、引领潮流，源机购带你智享科技生活

生活甚好，居心地，东芝冰箱诠释年轻人空间尺度生活哲学

新闻排行

重磅|滤镜主义落户大英带来高科定制抗衰新体验