9月19日下午,位于在北京海淀区五道口优盛大厦的海天瑞声办公区一片忙碌。记者走进这里时,不少员工正对着整齐排列的电脑噼里啪啦地敲着键盘。
图片来源于网络,如有侵权,请联系删除
海天瑞声研发中心员工正在办公
近年来,随着数字经济快速发展,作为北京国际科技创新中心核心区、国家战略科技力量重要承载地,海淀区聚集了一大批走在数字技术和数字经济前沿的企业。海天瑞声就是其中之一。
公开资料显示,海天瑞声是全球领先的AI训练数据服务商,于2021年登陆科创板。
“海天瑞声自成立以来始终致力于为AI产业链上的各类企业、研发机构提供AI算法模型开发训练所需的专业数据集。”海天瑞声副总经理、首席财务官、兼董事会秘书吕思遥一边带着记者参观各业务部门,一边说道。
作为我国最早从事AI训练数据的专业服务商之一,海天瑞声经过多年发展,其业务类型已经实现标准化产品、定制化服务、相关应用服务全覆盖。
“公司所提供的训练数据涵盖智能语音,也就是常说的语音识别、语音合成等,还有计算机视觉、自然语言等多个核心领域。”吕思遥说,“这是我们的录音室,现在工作人员正在根据经过结构化设计的内容进行原始数据的采集,也就是一个录音的过程,之后会进行数据清洗和标注,最后是质检。”
海天瑞声录音室员工正在进行语音数据采集
吕思遥介绍,目前,公司的产品和服务线已覆盖全球超过200个主要语种及方言,积累了近1500个自有知识产权的AI训练数据产品,客户累计数量达到881家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的各类主流企业,教育科研机构以及部分政企机构。
数据、算法、算力是人工智能的三大核心要素,而数据是一切智慧物体的学习资源。“训练数据就像一本精心制作的教科书,可以为学生(即算法/机器)提供掌握新科目所需的知识。教材质量越好、内容越丰富,算法/机器就学得越好。数据的任务就是帮助算法训练出更接近于人类判别的模型。”吕思遥说。
你可以把这项工作,理解为给AI当‘训练师’。”她补充说。
吕思遥告诉记者,海天瑞声的数据服务已经实现了语音、图像、文本的全覆盖。“目前公司自主研发了一体化数据处理平台DOTS,形成了百余个专业级数据处理工具,支撑语音、视觉、文本三大AI数据类型,同时在数据中台管理模块中融入数据流程管理、质量把控、数据安全管理,可实现高效、高质的训练数据生产。”吕思遥进一步介绍道,“平台以基础算法作为底层技术,目前我们在16种算法框架下,研发了200余个模型,应用于各类数据的处理,形成高效的人机协同机制,应对越来越大的数据规模需求和越来越高的数据质量需求。”近年来,自动驾驶行业快速发展,自动驾驶数据需求爆发式增长。在此背景下,海天瑞声抓住机遇,及时布局和提升自动驾驶业务核心能力,并于今年4月正式推出DOTS-AD自动驾驶平台。
海天瑞声自动驾驶平台DOTS-AD
“海天瑞声希望通过专业的数据处理能力赋能自动驾驶技术的高速发展。”吕思遥说,DOTS-AD平台历经亿级(帧数)量产项目打磨,能够支持万人以上同时在线作业。可以有针对性地面向业务场景痛点,全面支持2D/3D/4D标注。数据处理的过程更加自动化,灵活满足不同项目的多维度需求。在某些特定任务领域,与传统的人工标注相比,效率提升高达8倍。
记者了解到,截至目前,海天瑞声已服务70家自动驾驶领域客户,覆盖传统车企、新势力车企、自动驾驶技术公司等。
眼下大模型势头正盛,众多科技公司纷纷布局大模型。吕思遥介绍,海天瑞声也已有所布局。
今年6月,海天瑞声启动了IPO后首次定向增发再融资计划。相关公告显示,公司拟募集资金总额约为7.9亿元,全部用于“AI大模型训练数据集建设项目”和“数据生产垂直大模型研发项目”建设,上述项目均围绕海天瑞声主营业务进行。
“2023年可以被看作是大模型的元年,但从数据角度来看,当前国内数据资源虽然丰富,但优质的中文大模型训练数据仍然稀缺。因此,海天瑞声将围绕这个方向进行坚定的研发投入,一方面,通过提供覆盖预训练、强化学习及应用拓展阶段的海量、高质量专业大模型数据集,更好地支撑我国大模型领域的各类训练需求。另一方面,通过建设自主可控的数据生产垂直大模型,对公司现有数据生产平台工具体系进行升级、迭代。”吕思遥说。
“以大模型为新动能的人工智能产业即将进入新一轮加速发展期,同时我国对数据要素市场的政策推动已经启动,海天瑞声将在相关部门指导下,进一步参与数据要素市场建设,持续提升智能化数据处理能力、提供全方位的数据解决方案,助力数字经济与实体经济深度融合。”她说。
来源:中国证券报·中证网 作者:王舒嫄
温馨提示:最新动态随时看,请关注。
推荐阅读: