海天瑞声创始人贺琳：为大模型“火箭”加燃料

首页 > 滚动 > > 内容页

海天瑞声创始人贺琳：为大模型“火箭”加燃料｜专访董事长

2023-07-11 19:14:05 来源：每日经济新闻

■相关公司：海天瑞声（SH688787,股价92.15元，市值56亿元）

■核心竞争力：具备标准化数据集产品规模化生产能力，累计完成超过1300个自有知识产权的训练数据标准化产品的建设，在全球企业中稳居前列。较早地布局并建立了多语种能力。

(资料图片)

■机构眼中的公司：国内AI训练数据龙头提供商，自动驾驶业务打开成长空间

■所属概念：数据服务人工智能 AIGC

11.2公里/秒，是火箭能够成功摆脱地球引力束缚，飞离地球的速度。而瞬间的燃料燃烧所提供的推动力，是帮助火箭一次又一次加速直至进入外太空的助力。

与《每经人物·专访董事长》记者交流时，海天瑞声董事长贺琳觉得，作为一切人工智能技术最上游的数据，就是人工智能这艘火箭的“燃料”。海天瑞声正是一家生成“燃料”的公司。

海天瑞声是国内最早投入AI训练数据的专业服务商之一，2023年，不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下。而身处潮水之中，贺琳对未来的思考依旧谨慎。

大模型狂热：初印象非常惊艳，但对预期“审慎乐观”

2023年初，贺琳在海天瑞声公司年会上的发言稿，80%由ChatGPT完成。

“非常的惊艳，有点不（敢）相信。”这是贺琳对ChatGPT的初印象，“当然，也有不尽如人意的地方，我觉得这才是我们要努力的方向。”ChatGPT的出现，让这家数据公司突然站到了资本市场舞台中央。

2023年开年以来，海天瑞声股价一路走高，3月一度涨至191.96元/股，较其2021年8月上市时翻了一番。而海天瑞声方面，则已多次在投资者互动平台发布提示，称公司与OpenAI没有合作，也尚不能预期大模型业务将带来多少收入。

“年初，我们还在仔细观察、论证这个技术到底对数据有什么样的需求。”贺琳认为，合适的入局时机应该是当这项技术能够真正在行业中落地的时候，这意味着其有真正的应用场景，而非伪场景。“我们要确定这个需求是真的，且有人会为这个需求买单，这才是一个正常的商业逻辑。”

同时，当行业落地时刻到来，数据的需求量也会迎来大规模提升。“这给公司带来的上升空间，我认为是非常乐观的，（目前）我们还是抱着乐观审慎的态度去看、去跟踪、去研究这项技术。”

“判断一个行业，我们会更深刻地去想这个行业到底需要什么样的数据，只有想清楚这件事，我们才会走过去，我们当初对自动驾驶领域的布局就遵循了这个逻辑。”贺琳介绍。

布局自动驾驶行业是海天瑞声在2021年定下的战略方向，在贺琳看来，自动驾驶赛道已经符合这个判断逻辑。从L2到L4，自动驾驶已经有相当多的应用落地，同时，自动驾驶的数据需求量十分巨大。

她判断，自动驾驶是一个人命关天、对安全要求非常高的技术，它需要大量数据来打磨，去覆盖各个不常见的场景来保证安全性，因为任何极端天气或极端场景都可能导致误判。“怎么避免？就需要大量的数据去训练，让模型接触到更多长尾的场景来提高它的安全性。”

今年4月18日，海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。

数据需求增加背后：系统性差距依旧存在

贺琳曾就职于中国科学院声学研究所，从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作。

成立于2005年的海天瑞声，最初诞生于贺琳在这份工作中捕捉到的行业痛点。“我们当时在课题组其实也会遇到（缺少）数据的问题，解决办法就是工作人员，加上研究生、博士生，自己来做数据。”尽管彼时实验室的数据量相对较少，但也已经算是一项繁琐的工作。

随着技术的发展，智能语音从实验室走向大规模应用阶段，更多场景的覆盖需求，意味着数据需求随之大规模增加。与此同时，在与一些就职于大型企业或研究机构的前同事交流时，贺琳发现，大家都在关注数据的问题。“（大家）认为数据是一个非常大的瓶颈，阻碍他们技术的落地。所以我就在想，那是不是可以由我出来做这件事情，帮助大家解决这个困难。”

时至今日，贺琳觉得，彼时促使她创业的瓶颈依旧存在。

在她看来，数据的需求是跟着技术的发展而变化的，随着技术在各个行业中落地，就会有更多的数据需求爆发。“像现在大模型起来，很多人都认为，数据差距是一个造成系统性差距的非常重要的原因，所以大家认为数据还是很重要的要素，这个瓶颈依然存在。”

不同的是，贺琳创业之初，国内竞争对手少，海天瑞声得以在市场快速突围。而如今，国内已经出现一批新的数据公司，先发优势成为当下数据公司核心竞争力的基础。“其实，这个行业有很多的技术壁垒和‘know-how’，也是需要不断打磨项目，才能去沉淀自己的技术、学会各类‘know-how’的，这是靠项目积累出来的，而不是短期能很快积累起来的过程。”

“燃料”的诞生：庞大参数支撑大模型

海量数据如何最终成功支撑起庞大参数的大模型运行？需要首选了解一个概念——数据集。

贺琳介绍，数据集的产生是一个非常复杂的过程，其中包括设计阶段、采集阶段、处理阶段以及最后的质检阶段。

在设计环节，需要先去了解数据集是为了解决哪个问题，这个问题需要什么样的数据，需要多大的量，需要什么样的场景，以及采集的样本、规模、内容，包括采集的设备、标注的规范等等；采集环节则是按照设计的方案，到大千世界采集，有可能是声音，有可能是图像、图片，又或是手写的字、道路的场景。采集完成后则需要进入清洗、标注环节。最后生产出的数据集需要通过双层的质检流程，最终才能生产出一个合格的数据集。

这其中，清洗规则的好坏、标注的准确性都会极大地影响数据集的质量，进而影响模型的效果。

贺琳举例说，海天瑞声的大模型数据清洗率是5%，即清洗出来正确的数据仅仅占原数据的5%，这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题，“我们通常说95%、98%或者是99%，不同的准确率对模型训练的结果有非常大的影响”。

“数据的清洗和标注流程对于模型的质量至关重要，它们可以提高数据的质量和准确性，帮助模型更好地去学习，也为模型的评估奠定了一个很好的基础。”贺琳表示。

贺琳认为，高质量的数据包括了数据的丰富度，场景的丰富度，数据的准确性、一致性等，这都是衡量高质量数据的标准。她也认同，高质量数据的提供，需要高质量人工的支持。

“有一些高质量的数据，尤其是行业数据，确实需要更高层次的人去处理。因为我们也了解到，像OpenAI这样的公司，它背后也有一个很强大的数据处理团队，他们要把对行业的‘know-how’或者是更高层的一些知识灌输到数据里。”她表示。

浪潮的下一步：离开人工，实现智能

“有多少智能，就有多少人工。”这句话依旧得到大部分人的认同。

在海天瑞声这家“燃料”制造商，优质“燃料”的诞生，同样需要最了解“火箭”的人来把控。

贺琳介绍，海天瑞声的管理层除拥有比较好的学术背景外，也都有在外企或大厂等机构的工作、管理经验。“他们以前是数据的使用者，加入公司以后，他们非常知道数据的使用者需要什么样的数据，这可以让他们更快速地对市场有预判，也会更好地跟业界交流。”

她同时坦言，为不同行业提供的数据，需要具备不同行业专业知识的人来处理。“至少在初期包括规则探讨、打磨标签、尺度和标准的把握阶段需要有专业的人，但把规则定下后，可能通过一些训练，让基础的人员能具备这样的训练能力。”

但是，在贺琳看来，“有多少智能就有多少人工”是一个误解。“确实，这个行业有很多的人力，但人力是在技术的支撑下做这些事，没有技术支撑，可能人力需要现在的10倍都不止。所以，我们这种综合性的数据服务商一直都在追求用更自动、更智能的方式来完成数据的任务，不断解放人力。”

贺琳希望，能一步步减少人工对人工智能的参与，大模型的浪潮，正在加速实现这个目标。“让计算机自动处理数据，永远都是我们的追求。”

据她介绍，公司也在探讨未来的两大工作方向，一个是打造一批针对通用领域、垂直领域，且具备单模态和多模态属性的、供给大模型使用的数据集产品。另外，海天瑞声也在计划启动数据生产垂直大模型的研发项目，希望用大模型技术来支撑数据的生产。“大家都说大模型将给众多垂直行业带来重大积极影响，其实数据处理本身也是一个垂直行业，我们希望用大模型的能力来更自动化地把数据处理这件事情做好。”

“人工智能的背后是人工”也是有可能发生改变的。“现在背后依然确实需要很多的人工，但是我们一直在尽量想办法减少人工。包括加入很多算法，提高对数据做预标注的准确率，准确率越高，人工参与的程度越低。”

但贺琳也坦言，这件事并不容易。“其实，如果真的把这个事都做成了，人工智能就完成了。因为不需要人的介入，相当于它处理的东西都跟人想的是一样的。”但另一方面，当技术达到一定突破后，伦理、法规、安全等问题就会出现，如何解决这些问题，也是今后整个人工智能行业面临的难题。

新的变革契机：多模态需求将推高行业门槛

每一次的火箭升空，都需要大量的燃料助推。

贺琳认为，当人工智能技术迎来新的变革时，对数据提供商来说就是一次契机。“我觉得可能也是根据一些需求，比如像苹果手机的siri出来以后，大家就会认为在语音上有一些突破，这些数据的需求就会暴增。”

贺琳觉得，在整个人工智能行业，数据就像人类学习知识时使用的教科书，“你的教科书越全面，信息越准确，学习的结果就会越好，其实机器也是一样的”。她认为，数据集本质上就是人类把自己对大千世界、万事万物的一些认知和判断方法加载到数据上，然后让机器去学习，使机器得出来的对事物的判断结果更加趋近于人类。在她看来，这就是数据公司的价值。

而在大模型的热潮之下，多模态的能力成为一个关键词。贺琳表示，多模态数据是未来的一个方向。“多模态的数据里蕴含了更多更丰富的信息，对机器做判断也会提供更多的信息来源，但多模态的数据（获取）的难度也非常大。”

她进一步介绍，首先，多模态数据要求的量很大，合规取得这些数据的难度就会更大；其次，多模态数据采集的设备也非常昂贵，对数据公司的财务能力是一种考量。此外，多模态数据对齐的问题、对齐的标准等，都是多模态数据的难点。

贺琳认同一点，多模态能力会导致数据公司的入门门槛提高。“包括我们可能还要去做一些数据生成技术，用我们的一些单一形态的数据来合成多模态的数据，这都要求公司有更高维度的研发能力。”

目前，贺琳依旧认为，数据这个方向是海天瑞声未来的定位，因为这个领域要做的事情太多了。“随着技术的发展进入千行百业，每一个行业都需要认真地去了解这个行业的‘know-how’是什么、如何解决这个行业的一些关键痛点。那么多行业呢，我们有足够大的空间去拓展。”

而深入行业，则需要公司本身有一定的研发能力，同时，在进入行业时，需要有行业专家的参与，通过真实的项目打磨，进而逐渐积累。“这不是个一蹴而就的事情，需要一个长期持续的过程。”她表示。

贺琳相信，通用人工智能终将有一天会实现，但这也需要一个过程，即便技术达到了，还有伦理的问题、安全的问题、合规的问题。这些都解决了之后，如何解决行业的问题，也有很长的一段路要走。

而在这条路上，她认为，数据公司将会扮演越来越重要的角色。在这个过程中，算法可能会相对趋于稳定，但仍需大量的、类型迥异的数据对算法进行训练，才能解决行业的问题。

（文章来源：每日经济新闻）

标签：

海天瑞声创始人贺琳：为大模型“火箭”加燃料｜专访董事长

海天瑞声创始人贺琳：为大模型“火箭”加燃料｜专访董事长

央行：今年上半年人民币存款增加20.1万亿元

站着也能开车了！福特新专利曝光 开车秒变开坦克

直播电商救得了美邦服饰吗？

张兰败诉，4亿元没了！因她做了这事

警惕！厦门一医院11天接诊450多例！孩子发热，大人也中招！

快看漫画退出登录的方法

国际原油呈震荡上涨行情 本轮油价要涨？

今天周大生黄金首饰价格行情(2023年7月11日)

厦门国际投资递表港交所：旗下拥有两家银行，去年净利润同比下滑35％

千亩荷塘花又开 如皋平园池迎来第七届荷花节

老人当街遗弃双胞胎女婴？四川南充警方：依法行拘

吉首市：“村花”青年直播带货 网红经济赋能乡村振兴

刚刚，李晓星重磅发声！

安阳工作站副站长何毓灵：“一片甲骨”何以惊天下

勇救落水群众而献出宝贵生命 铜陵市民徐毅晖入选二季度全国见义勇为勇士榜

恒辉安防(300952)：现已成功研发出适用于各领域有电子设备可以触屏的导电石墨烯手套等产品；暂无研发vr使用的触觉手套类产品

李国庆早晚读书被强制执行

紫荆国际金融委任季毅为执行董事

国航一京沪航班空中颠簸有乘客空姐被“抛”上天花板？业内：晴空颠簸无法预测 系好安全带

生猪：预期走弱，远月弱势运行

Chat类大模型引新一轮热潮 企业抢抓行业机会

打通科研成果落地“最后一公里”

A股上市险企上半年业绩预期乐观 下半年负债端面临一定压力

外媒：每天消耗100万只！蟋蟀面粉制品走上意大利人餐桌

习近平会见俄罗斯联邦委员会主席

姆巴佩和罗本（涵漠ZL：罗纳尔多：姆巴佩是最出色的球员）

谷实生物拟对全资子公司唐山谷实增资55万 增资完成后持股85%

今年6月 江苏八大类商品及服务价格同比“五涨二降一平”

Alex 水瓶座本周运势详解7.10—7.16

深圳举行集中签约分享会 切实满足企业生产等需求

电影小微企业4月1日起可按月申请退还增量留抵税额

大雾！湖南18条高速通行受影响 157个收费站临时交通管制

网传“广西德保县四岁确诊小孩独自去隔离” 为不实信息

广西新增确诊病例连续下降至个位数

深圳举行集中签约分享会 切实满足企业生产等需求

电影小微企业4月1日起可按月申请退还增量留抵税额

大雾！湖南18条高速通行受影响 157个收费站临时交通管制

网传“广西德保县四岁确诊小孩独自去隔离” 为不实信息

广西新增确诊病例连续下降至个位数

诈骗手段翻出新花样 防骗牢记一条：“出钱免谈”

河南禹州各高速路口疫情防控卡点均已撤除

站着也能开车了！福特新专利曝光开车秒变开坦克

国际原油呈震荡上涨行情本轮油价要涨？

千亩荷塘花又开如皋平园池迎来第七届荷花节

吉首市：“村花”青年直播带货网红经济赋能乡村振兴

勇救落水群众而献出宝贵生命铜陵市民徐毅晖入选二季度全国见义勇为勇士榜

国航一京沪航班空中颠簸有乘客空姐被“抛”上天花板？业内：晴空颠簸无法预测系好安全带

Chat类大模型引新一轮热潮企业抢抓行业机会

A股上市险企上半年业绩预期乐观下半年负债端面临一定压力

谷实生物拟对全资子公司唐山谷实增资55万增资完成后持股85%

今年6月江苏八大类商品及服务价格同比“五涨二降一平”

深圳举行集中签约分享会切实满足企业生产等需求

深圳举行集中签约分享会切实满足企业生产等需求

诈骗手段翻出新花样防骗牢记一条：“出钱免谈”