访希尔贝壳CEO卜辉:做AI模型的数据“营养师”
2025-08-16 01:08      作者:曲忠芳     来源:中国经营网

中经记者 曲忠芳 北京报道

当大模型的Scaling Law(规模定律)效应逐步放缓,大模型创新重心从预训练转向强化学习与推理优化,AI数据服务公司的战略价值也日益凸显。近期,数据标注初创企业Scale AI被Meta斥资143亿美元收购49%股权,估值跃升至290亿美元;另一家数据公司Surge AI正在以250亿美元的估值筹集新一轮10亿美元的融资,以扩展其数据处理能力。

数据标注是一门好生意吗?在大模型技术演进的道路上,数据标注市场发生了什么样的变化?语音大模型与语言大模型、视频大模型对于数据的需求有哪些共通点和差异点?……针对这些业界关注的问题,《中国经营报》记者近日采访了希尔贝壳和语音之家(AIshell & SpeechHome)创始人兼CEO卜辉。

希尔贝壳创立于2017年,适值语音产业变化剧烈的一年——智能音箱大战激战正酣,语音交互成为AI的强交互入口,由此打开了智能家居、智能车载等人机交互环境的市场。成立至今,卜辉和希尔贝壳团队见证语音AI的技术跃迁,同时作为语音AI领域创业者的典型样本,在产业链中锚定了数据服务这一垂直赛道,同时构建了面向AI语音开发者的专业社区。


数据壁垒:AI落地的“最后一公里”

《中国经营报》:Meta对于Scale AI的股权并购引起了一系列变动,你觉得这传递了哪些市场信号?

卜辉:这意味着科技巨头、资本市场已经认识到数据的稀缺性和战略价值,当算法开源、算力降本成为基础,谁能掌握高质量、场景化的数据,谁就能主导未来的模型竞赛。海外相关公司频繁融资,并向全球扩张,国内数据公司切入垂直领域,形成差异化,这种热度的背后,本质上是大模型落地需要大量场景化、定制化数据的驱动。

当然需要注意的是,Scale AI“站队”Meta,引发了谷歌、OpenAI、微软等客户企业的警惕与担忧,他们纷纷缩减或计划终止与Scale AI的合作。这表明数据服务公司的中立性成为一个至关重要的竞争要素。


《中国经营报》:希尔贝壳是从语音起家,是如何定位于数据服务这个垂直赛道的?

卜辉:成立最初,我们是想做技术服务,把数据和技术都开源,去赋能学术研究和产业界,但是很快我们发现技术路径的商业化难题,因为技术路线是直接从技术到产品端变现,而产品端又很难变现。简单来说,一台智能音箱做出来可能并不难,但是却难以产生收益。在这种情况下,希尔贝壳决定专注做数据服务。语音技术已经广泛普及,当时很多中小型企业想要进入语音技术圈子时既缺少人才,又缺少数据,所以我们将数据服务定为公司主营业务,通过提供场景化数据服务,比如智能家居、智能机器人、智能车载等场景的高质量数据集,以此来解决语音模型落地的“最后一公里”问题。

创业时没想到的是,我们以数据开源带动了技术开源后的数据服务价值,这是我们至今仍在享受的“福利”。


《中国经营报》:你这里所说的“以数据开源带动技术开源的数据服务价值”是什么意思?

卜辉:众所周知,人工智能三要素是算力、算法和数据。当下AI及大模型技术的发展离不开算法的开源,离不开算力及其硬件设施的更新迭代。

当算法开源、算法框架迭代速度放缓,算力不断进化,那么是什么让算力变成模型?答案是数据,算力通过数据去训练模型性能。在这种情况下,数据成了做AI的唯一壁垒。如何判断一家公司的AI模型技术是否强,现在不是看这个模型表现多强,而是看它背后的数据是否有独特性。如果你的数据具有壁垒,那么你的模型势必有壁垒。


现实挑战:数据服务转化为商业成果 

《中国经营报》:近两三年来大模型技术的普及对于语音AI行业产生了什么影响?

卜辉:从大模型的发展路线来看,最早我们能够体验大模型的是文本层,如ChatGPT,通过文本交互让用户感觉到交互的背后像一个人一样。接着又出现了图文生成,即输入文本它能生成图片,再往后发展到输入文本生成视频,不过这些视频只有画面,没有声音。直到2024年5月OpenAI发布GPT-4o,它向外界展示了人机交互对话自然流畅,包括富有情感的表达,这再一次将语音AI带回至公众焦点。

这一发展节奏说明两个方面:一方面是语音技术所需要的训练数据相比文本的门槛更高;另一方面是语音技术在大模型出现后发生了颠覆性的变化。

所谓颠覆性的变化可以简单总结为两点:第一是模型框架的实时交互速度明显提升,减少了以往的延时问题,人机对话能够更自然流畅,这背后离不开文本大模型的支撑;第二是交互体验的变化,过去的人机语音交互大致划分为语音识别、语音合成和声纹识别三项技术。在大模型环境下,语音识别、声纹识别能够实现更多语种、更多说话人的识别,因为它使用大量互联网数据扩大了模型规模、提升了识别能力;语音合成技术则出现了大量具有情绪化、能够体现用户情绪的合成数据,语音技术不仅能“听得见”,而且还能“听得懂”人的自然语音。


《中国经营报》:现在多模态成为大模型的主流趋势,这对于语音技术的竞争是否有影响?

卜辉:语音AI的竞争焦点发生了变化,以前大家拼的是语音识别率,现在拼的是如何与视频、文本等模态融合,提供完整的智能交互体验。单点技术很难形成竞争力,多模态协同才是未来方向。


《中国经营报》:数据壁垒如何转化成商业成果?它面临哪些关键的挑战?

卜辉:关键的挑战主要有三个:第一,数据成本高,尤其是特定场景下的采集与标注;第二,数据需要不断更新迭代,才能跟上模型的进化节奏;第三,客户需求越来越精细化,从“要一堆数据”变成“要能直接提升模型性能的数据”。


《中国经营报》:AI公司普遍面临投入与回报的平衡难题,希尔贝壳怎么看待这个问题?

卜辉:AI公司的模型角逐随着DeepSeek的开源,逐渐走向垂类模型、模型应用等实现商业化。随着模型的进化,音视频生成会是当下大模型需要挑战的方向,会继续投入大量数据的需求解决人机交互、生成等性能提升的问题。当前我们一直在做的是抓住国家政策在高质量数据集建设上的有力支持和模型技术企业对数据服务的强需求机会,提供“模型+数据管理+数据集处理+数据标注”的一整套方案,同时在研发端布局模型评测和多模态数据处理,旨在打造未来的竞争力。

(编辑:张靖超 审核:李正豪 校对:燕郁霞)



相关推荐