进入2023年,关于与ChatGPT的热论就没有停歇过。
这期间,数据标注平台估值高涨、文本公司需求激增、AI大厂开始分拆数据标注团队……那个被“选择性无视”、被“认为没有讨论价值”的数据标注行业,再一次支棱起来了。
脉脉职场人对此现象也发出了引人深思的问题:别人不做的时候,国产AI什么都没有,ChatGPT横空出世后,国产AI全都有了?
到底是真的研发生产出来了,还是单纯蹭热度入局AI市场?这就不得而知了。
目前,国内不少正在布局ChatGPT的文本公司,对数据的需求激增。
对标海外各家大厂的大模型与数据标注平台的合作,Google的LaMDA选择与美国供应商合作,预训练语料库大小为2.81T;Meta的BlenderBot3与亚马逊MTurk合作,预训练语料库大小为180B;OpenAI的ChatGPT/InstructGPT与upwork和Scale AI合作,虽然没有公布详细数据,但预计预训练语料库不会太小。
不难看出,每个大模型的背后依然有数据标注平台的服务支撑。而此时,国内不少追随者已经开始对ChatGPT背后的文本数据构建产生兴趣。
Forrester分析师卢冠男此前曾表示,“ChatGPT对训练数据的标注方式提出了新的思路,所以在训练数据的工程准备上,企业也需要摸索和改进。”
据知情人士透露,“目前,已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。”
新一波AI浪潮留给数据标注公司的机会并不少。就算是无法直接吃到大模型红利的传统业务,也可以依靠AI应用的增多分到一杯羹。
这意味着,一段时间内传统数据标注的总需求大概率不会减少。而这种阶段,或许也是"时间窗口期"——数据标注公司能一边依靠传统业务积累营收,一边依托收入投入新业务建设。
这种经营模式对数据标注行业而言并不陌生。只不过,过去它们的自我迭代方向是利用自动化手段撕下"堆叠人力"标签。
"数据标注公司需要升级自己的人才梯队。甚至,具备AI研发背景的创始人会是更合适的数据标注创业者。"一位长期参与AI建设的专家如此预判,原因是,这样的创业者更可能合理地传递各行业客户的RLHF需求。
面对新一代AI浪潮,没有人可以躺着挣钱——这是每一次技术迭代冲击背后,暗中标注好的"价格"。至于国内各大AI大厂能够在这场浪潮中获得怎样的营收,那就要看他们如何各显神通了!
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com