梨花会客厅｜大模型的尽头是小场景

2026-06-10 14:10:10 来源：今日热点网

小大

梨花文化的AI测评应用上线之前，团队做过一轮内测。他们请了十几个用户录了同一首诗的朗诵音频，丢进当时市面上排名靠前的通用大模型，看看能测评出什么结果。

输出不太好看。

这些特意选取的用户大多五十岁往上，有人带方言口音，有人吐字含混，有人因为紧张语速忽快忽慢。通用模型对标准普通话识别率很高，但碰到这批音频，错误率飙到了一个没法用的水平。更关键的问题是，即便识别对了文字，模型也给不出更多关于发声质量的判断，比如气息够不够稳，共鸣位置对不对，情感表达到了什么程度。

“那一轮测试之后我们就确认了一件事，”阿翘说，“通用大模型解决不了我们的问题。”

阿翘是梨花文化的AI产品负责人。2026年的AI行业不缺大模型，开源的、闭源的、千亿参数的、万亿参数的，每隔几周就有新的刷榜消息。但在阿翘看来，模型能力的天花板已经不是瓶颈。真正稀缺的东西在模型下游：谁能把这些能力接进一个真实的、具体的、有大量用户在用的场景里，并且让它真的好使。

“大模型不缺了，缺的是真正能够落到场景的产品。”这句话背后是梨花在AI应用层摸索了两年多的实践。

梨花文化做的事情，用一句话概括：通过AI技术为用户的文化素养赋能，覆盖朗诵、声乐等品类，累计服务超过2300万用户。这个规模意味着他们手上有大量真实的、活的用户数据，而这些数据长在一个非常垂直的场景里。

阿翘加入梨花之后，接手的第一个任务就是搞清楚：AI到底能在这个场景里解决什么问题。

“最容易犯的错误，是拿着技术找场景。”他说，“先有一个很厉害的模型，然后到处看哪里能用。这个思路在通用场景里可能成立，但在垂直领域基本行不通。”

梨花的路径是反过来的：先把用户在学习过程中遇到的具体问题拆出来，再看哪些问题可以用AI解决，哪些不能。

拆完之后，有几个问题浮到了最上面。

第一个：用户不知道自己练得好不好。声音是一个看不见摸不着的东西。一个人朗诵完一段文字，他自己觉得“还行”，但到底气息稳不稳、节奏对不对、发音是否清晰、情感表达是否到位，和老师朗诵的差距到底在哪里，他判断不了。线下有老师当面听，线上几千人同时在学，老师不可能逐一反馈。

第二个：用户练习缺乏陪伴。课听完了，练习全靠自觉，没有即时反馈，没有纠正，很容易练偏或者直接放弃。

第三个：用户之间的水平差异极大。有人从零开始，有人已经有一定基础，用同一套内容覆盖所有人，对用户的体验很差，很多用户并不一定能马上理解老师的意思，或者是理解了但是没办法模仿，效率很低。

这三个问题对应了梨花后来做出的三个AI产品：AI测评系统、AI陪练师、AI导师。

AI测评系统是最先啃的硬骨头。

阿翘的团队需要让AI“听懂”一段声音。这里的“听懂”远不是语音转文字那么简单。他们需要AI能判断：这个人的普通话是否标准，发音是否准确，气息支撑够不够，发声位置是靠前还是靠后，咬字清晰度怎么样，情感表达处在什么层次，节奏控制是否稳定等等。

这些维度在传统声乐和播音教学中都存在，但业内此前没有人把看不见摸不着的声音变成分数，来直观看到差距和问题。

梨花的做法是，从自己积累的4.8亿份声音样本中提取特征，跟专业教研团队一起定义评价维度，再训练专门的模型。最终落地的系统整合了75种AI测评算法，发音错误识别准确率达99.2%。团队内部管它叫声音CT，用户录一段音频传上来，几秒钟之内，系统就能给出一份多维度的诊断报告，精确到哪一个音节的哪一个指标有问题。

“通用模型做不了这件事，”阿翘说，“因为它没有垂直数据，不知道这个群体的声音特征分布长什么样。”

这就是垂直场景AI的核心逻辑：模型能力是基础设施，但真正形成壁垒的是垂直数据和对场景的深度理解。2300万用户、持续产生的学习行为数据、专业教研团队对声音维度的定义能力……这些东西叠加在一起，构成了一条别人很难复制的护城河。

测评解决了“你练得怎么样”的问题。接下来的问题是：知道哪里不对了，然后怎么办。

AI陪练师干的就是这件事。用户练完一段，AI实时反馈，哪里气息断了，哪个音节含糊，哪一句的情感可以再往前走一步。不用等老师上课，不用约一对一，随时练随时出结果。

但阿翘发现，反馈准不准只是及格线。真正决定用户留不留下来的，是反馈的方式。

“一个五十多岁的人，刚鼓起勇气练了一段，AI上来给他列一屏的错误，红色标注密密麻麻。他什么感受?觉得自己太差了，不想练了。”

这个问题逼着团队去想一件技术之外的事：AI应该用什么样的语气跟人说话。

答案得归功于AI陪练师、AI导师、AI测评背后搭载的梨花自研的垂类大模型“26维人格情感伴学大模型”。它不只是让AI说对的话，还要让AI用对的方式说话——什么时候该鼓励，什么时候可以指出问题，语气应该温和到什么程度，什么时候可以适度推一把。

“我们调研了很长时间，才理解一件事：对于很多用户来说，AI陪练师的第一优先级不是专业度，是情绪安全感。他得先觉得这个东西不会伤害他，才愿意持续用它。”

这个判断听起来不像技术人员说的话，更像是一个长期观察用户的产品人的总结。阿翘确实花了很多时间在用户端。他去看用户和AI陪练师的交互记录，看哪些反馈方式带来了更高的练习频次，哪些表述导致了用户的沉默和流失。

“做AI产品最危险的心态，是觉得技术够好就行了。技术是底层，但产品最终对着的是人。”

阿翘对AI行业有一个观察：大模型之间的能力差距正在收窄，真正拉开距离的地方在往应用层转。

“模型层比的是算力、数据量、参数规模，这些是大公司的游戏。应用层比的是你对场景的理解深度、你的垂直数据质量、你跟用户之间的反馈循环有多紧密。这些东西，砸钱砸不出来。”

梨花现在的AI产品体系覆盖了“学—练—评—创秀—展演”的完整链路：AI导师做个性化教学引导，AI陪练师管练习反馈，AI测评系统做能力诊断，AIGC工具帮用户把学习成果变成可以展示的数字作品，再往后接上线下的研学活动和舞台展演。从“学会”到“被看见”，每一步都有AI在起作用，但没有任何一步是纯AI在做。

“你把这条链路拆开看，每一个环节都有AI在起作用，但没有任何一个环节是纯AI在做。AI负责效率、规模和陪伴，人负责补齐、温度和判断。这是我们做下来之后最确定的一件事。”

阿翘的办公桌上放着一台AI声学学习机的工程样机，屏幕上还停着上一轮测试的页面。

他说自己做AI产品这两年，想法变了不少。刚入行的时候，觉得最重要的事是把模型调好、把算法调准。做了一段时间之后发现，算法调到95分和调到97分之间的差距，远没有用户愿不愿意打开这个功能来得关键。

“AI行业有一个默认的叙事：技术越先进，产品就越好。但到了应用层，这个逻辑经常是反的。用户不关心你的模型有多少参数，他关心的是我刚才练的那段朗诵，到底哪里不对，你能不能用我听得懂的话告诉我，而且别让我觉得自己很差。”

这大概就是懂场景的意思，从用户的椅子上坐下来，用他的耳朵去听，用他的手指去点屏幕，用他的心情去感受每一条AI反馈。

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

Omdia：2026Q1欧洲智能手机市场增长2%，平均售价创历史新高

消息称苹果升级iPhone防盗，解锁状态被抢会立刻锁机

三星开始向全球Galaxy S23系列手机推送One UI 8.5更新

5月新机大战再添一员！vivo S60系列官宣5月29日发布

中华网数码

梨花会客厅｜大模型的尽头是小场景

戴尔推出Dell Pro Micro E迷你主机，4279元

明基带来专业显示器PD2732U：99% Adobe RGB / Display P3色域

全球首款千分千帧！LG发布原生1000Hz FHD电竞显示器

比5070 Ti要低20%左右？NVIDIA RTX 5070跑分成绩曝光

相关资讯

TRYX首款全息视效水冷HOLO，6月10日正式发售！