梨花文化的AI测评应用上线之前,团队做过一轮内测。他们请了十几个用户录了同一首诗的朗诵音频,丢进当时市面上排名靠前的通用大模型,看看能测评出什么结果。
输出不太好看。
这些特意选取的用户大多五十岁往上,有人带方言口音,有人吐字含混,有人因为紧张语速忽快忽慢。通用模型对标准普通话识别率很高,但碰到这批音频,错误率飙到了一个没法用的水平。更关键的问题是,即便识别对了文字,模型也给不出更多关于发声质量的判断,比如气息够不够稳,共鸣位置对不对,情感表达到了什么程度。
“那一轮测试之后我们就确认了一件事,”阿翘说,“通用大模型解决不了我们的问题。”
阿翘是梨花文化的AI产品负责人。2026年的AI行业不缺大模型,开源的、闭源的、千亿参数的、万亿参数的,每隔几周就有新的刷榜消息。但在阿翘看来,模型能力的天花板已经不是瓶颈。真正稀缺的东西在模型下游:谁能把这些能力接进一个真实的、具体的、有大量用户在用的场景里,并且让它真的好使。
“大模型不缺了,缺的是真正能够落到场景的产品。”这句话背后是梨花在AI应用层摸索了两年多的实践。
1
梨花文化做的事情,用一句话概括:通过AI技术为用户的文化素养赋能,覆盖朗诵、声乐等品类,累计服务超过2300万用户。这个规模意味着他们手上有大量真实的、活的用户数据,而这些数据长在一个非常垂直的场景里。
阿翘加入梨花之后,接手的第一个任务就是搞清楚:AI到底能在这个场景里解决什么问题。
“最容易犯的错误,是拿着技术找场景。”他说,“先有一个很厉害的模型,然后到处看哪里能用。这个思路在通用场景里可能成立,但在垂直领域基本行不通。”
梨花的路径是反过来的:先把用户在学习过程中遇到的具体问题拆出来,再看哪些问题可以用AI解决,哪些不能。
拆完之后,有几个问题浮到了最上面。
第一个:用户不知道自己练得好不好。声音是一个看不见摸不着的东西。一个人朗诵完一段文字,他自己觉得“还行”,但到底气息稳不稳、节奏对不对、发音是否清晰、情感表达是否到位,和老师朗诵的差距到底在哪里,他判断不了。线下有老师当面听,线上几千人同时在学,老师不可能逐一反馈。
第二个:用户练习缺乏陪伴。课听完了,练习全靠自觉,没有即时反馈,没有纠正,很容易练偏或者直接放弃。
第三个:用户之间的水平差异极大。有人从零开始,有人已经有一定基础,用同一套内容覆盖所有人,对用户的体验很差,很多用户并不一定能马上理解老师的意思,或者是理解了但是没办法模仿,效率很低。
这三个问题对应了梨花后来做出的三个AI产品:AI测评系统、AI陪练师、AI导师。
2
AI测评系统是最先啃的硬骨头。
阿翘的团队需要让AI“听懂”一段声音。这里的“听懂”远不是语音转文字那么简单。他们需要AI能判断:这个人的普通话是否标准,发音是否准确,气息支撑够不够,发声位置是靠前还是靠后,咬字清晰度怎么样,情感表达处在什么层次,节奏控制是否稳定等等。
这些维度在传统声乐和播音教学中都存在,但业内此前没有人把看不见摸不着的声音变成分数,来直观看到差距和问题。
梨花的做法是,从自己积累的4.8亿份声音样本中提取特征,跟专业教研团队一起定义评价维度,再训练专门的模型。最终落地的系统整合了75种AI测评算法,发音错误识别准确率达99.2%。团队内部管它叫声音CT,用户录一段音频传上来,几秒钟之内,系统就能给出一份多维度的诊断报告,精确到哪一个音节的哪一个指标有问题。
“通用模型做不了这件事,”阿翘说,“因为它没有垂直数据,不知道这个群体的声音特征分布长什么样。”
这就是垂直场景AI的核心逻辑:模型能力是基础设施,但真正形成壁垒的是垂直数据和对场景的深度理解。2300万用户、持续产生的学习行为数据、专业教研团队对声音维度的定义能力……这些东西叠加在一起,构成了一条别人很难复制的护城河。
3
测评解决了“你练得怎么样”的问题。接下来的问题是:知道哪里不对了,然后怎么办。
AI陪练师干的就是这件事。用户练完一段,AI实时反馈,哪里气息断了,哪个音节含糊,哪一句的情感可以再往前走一步。不用等老师上课,不用约一对一,随时练随时出结果。
但阿翘发现,反馈准不准只是及格线。真正决定用户留不留下来的,是反馈的方式。
“一个五十多岁的人,刚鼓起勇气练了一段,AI上来给他列一屏的错误,红色标注密密麻麻。他什么感受?觉得自己太差了,不想练了。”
这个问题逼着团队去想一件技术之外的事:AI应该用什么样的语气跟人说话。
答案得归功于AI陪练师、AI导师、AI测评背后搭载的梨花自研的垂类大模型“26维人格情感伴学大模型”。它不只是让AI说对的话,还要让AI用对的方式说话——什么时候该鼓励,什么时候可以指出问题,语气应该温和到什么程度,什么时候可以适度推一把。
“我们调研了很长时间,才理解一件事:对于很多用户来说,AI陪练师的第一优先级不是专业度,是情绪安全感。他得先觉得这个东西不会伤害他,才愿意持续用它。”
这个判断听起来不像技术人员说的话,更像是一个长期观察用户的产品人的总结。阿翘确实花了很多时间在用户端。他去看用户和AI陪练师的交互记录,看哪些反馈方式带来了更高的练习频次,哪些表述导致了用户的沉默和流失。
“做AI产品最危险的心态,是觉得技术够好就行了。技术是底层,但产品最终对着的是人。”
4
阿翘对AI行业有一个观察:大模型之间的能力差距正在收窄,真正拉开距离的地方在往应用层转。
“模型层比的是算力、数据量、参数规模,这些是大公司的游戏。应用层比的是你对场景的理解深度、你的垂直数据质量、你跟用户之间的反馈循环有多紧密。这些东西,砸钱砸不出来。”
梨花现在的AI产品体系覆盖了“学—练—评—创秀—展演”的完整链路:AI导师做个性化教学引导,AI陪练师管练习反馈,AI测评系统做能力诊断,AIGC工具帮用户把学习成果变成可以展示的数字作品,再往后接上线下的研学活动和舞台展演。从“学会”到“被看见”,每一步都有AI在起作用,但没有任何一步是纯AI在做。
“你把这条链路拆开看,每一个环节都有AI在起作用,但没有任何一个环节是纯AI在做。AI负责效率、规模和陪伴,人负责补齐、温度和判断。这是我们做下来之后最确定的一件事。”
阿翘的办公桌上放着一台AI声学学习机的工程样机,屏幕上还停着上一轮测试的页面。
他说自己做AI产品这两年,想法变了不少。刚入行的时候,觉得最重要的事是把模型调好、把算法调准。做了一段时间之后发现,算法调到95分和调到97分之间的差距,远没有用户愿不愿意打开这个功能来得关键。
“AI行业有一个默认的叙事:技术越先进,产品就越好。但到了应用层,这个逻辑经常是反的。用户不关心你的模型有多少参数,他关心的是我刚才练的那段朗诵,到底哪里不对,你能不能用我听得懂的话告诉我,而且别让我觉得自己很差。”
这大概就是懂场景的意思,从用户的椅子上坐下来,用他的耳朵去听,用他的手指去点屏幕,用他的心情去感受每一条AI反馈。
责任编辑:kj005
梨花文化的AI测评应用上线之前,团队做过一轮内测输出不太好看这些特意选取的用户大多五十岁往上,有人带方言口音,有人吐字含混,有人因为紧张语速忽快忽慢&ldquo...
一、行业拐点已至:国产化替代进入深水区作为工业自动化的 "动力中枢",精密行星减速机的自主可控正成为中国制造业升级的核心命题二、钧晟动力:全系列精准对标,实现无...
2026年6月9日,顾家家居举办健康舒适好睡眠·无忧焕新2.0升级发布会,正式宣布顾家卧室「以旧换新」全面升级为「无忧焕新2.0」针对家居焕新领域...
6月8日至9日,第八届仿真技术应用大会暨工业仿真软件产业生态共建与应用发展论坛在海南省文昌市成功举行大会主论坛会场本届会议由中国工业合作协会主办;亚洲仿真联盟、...
东南亚榴莲集中上市,一年一度的榴莲消费旺季如期到来恰逢6月榴莲产季高峰和京东618来临,京东京喜自营今年首次使用榴莲AI无损检测系统,首批AI榴莲检测机已正式投...