“你能想象吗?每个工作日,我一半以上的时间都要花在数据标注上。”百度算法工程师李杉(化名)告诉新京报贝壳财经记者。
数据标注是指对图片、语音、文本、视频中的数据进行筛选、清洗、分类、注释、添加对应的标签。在进行数据标注的过程中,李杉一刻也不敢放松,因为他深知数据标注的精准程度会直接影响模型是否聪明好用。
数据是人工智能技术前进的燃料,大量非结构化的数据,需要经过标注转化成结构化数据,系统才能识别。伴随着自动驾驶、大模型等尖端技术的兴起,市场对高质量数据标注的需求迅速攀升。在政策层面,国家也愈发重视数据标注行业的发展。
日前,国家发改委等四部门发布《关于促进数据标注产业高质量发展的实施意见》(下称《意见》),其中提出,到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。培育一批具有影响力的科技型数据标注企业,打造一批产学研用联动的创新载体,建设一批成效明显、特色鲜明的数据标注基地,形成相对完善的数据标注产业生态。
时代在变,数据标注行业也在变。从简单的识别能力到推理能力,再到其他专业能力的储备,数据标注师的从业门槛正在提升;从人工标注到人机协同,数据标注企业之间的竞争转向了技术维度,如何与细分行业做好结合显得更为重要,技术壁垒将逐步提高,新一轮变革已经开始了。
甩掉“低端”标签
简单容易上手、没有门槛,任何人都可以成为一个数据标注师。在大多数人的刻板印象中,数据标注师和工厂里拧螺丝的流水线员工没有什么差别,他们几乎没办法和“白领”扯上关系,更别说像人工智能这样充满科技感的前沿领域。
对图片进行标记,识别人、机动车、广告牌等不同物体之后,数据标注的工作就完成了,没有过多的知识储备也能快速适应。9年前加入这个行业的刘吉对此感受颇深。“当时还是以传统机械学习为主,在长文本方面,我们需要做的就是拆分关键词,比如对美团用户的留言进行分析,没有过高的技术含量;图片方面的需求集中在人脸识别,都很简单。”
2018年,深度学习成为推动人工智能技术发展的主要方向,自动驾驶也成了科技行业的焦点,数据标注行业在这个时候迎来了第一次爆发。在刘吉的记忆里,当时市面上涌现了一大批做数据标注的公司。
但这次爆发并没让数据标注行业发生质变,数据标注师们需要处理的数据虽然变多了,但难度并没有提升,也就是拖动鼠标选取图片内容,然后为选中的内容打上不同的标签。各家公司比拼的关键,就是看谁能给出更低的价格。
直到大模型的出现,数据标注行业的改变才真正开始。AI需要执行多复杂的任务,就需要多复杂的数据。“举个例子,之前数据标注的工作可能是识别一张图片中的动物是猫还是狗,但现在需要从更多的维度给这张图片做标签,是猫、是宠物猫、是哪个品种、市场价格区间大概在多少,都需要更多的维度进行分析。”李杉说道。
对于长文本的分析,也不再仅仅是拆词这么简单,还要解读出这句文本背后的语义、情绪,有时还需要给用户做出画像。逻辑能力、推理能力已经成为数据标注师的“标配”,他们的工作不再是“拉框”那么简单。
图为刘吉供职的京数云数据标注公司。
数据标注不是一个新鲜事物,但是一个新的产业。在国家数据局对《意见》的解读中,“自动化”“专业化”“高端化”正在成为数据标注产业的新标签。刘吉在2019年创立了自己的公众号“AI数据标注猿”,2020年开始更新文章,通过开源共享分享行业知识。“我看好数据标注行业,同时也想记录这个行业的变化,为行业发展贡献一点自己的力量。”刘吉说。
从“单一”到“多元”
数据标注因大模型翻红,也因大模型而产生新的规则。
在行业发展初期,市面上以基础大模型为主。经过一年的发展,专业化垂直大模型成了新的趋势,落地和商业化是下一轮比拼重点,因此数据标注不仅要求高质量,还要和业务匹配。“其实不同部门对数据标注的要求并不统一,还是和业务需求相关,没有一个固定的标准。”李杉解释称。
新京报贝壳财经记者在和多位数据标注行业从业者的对话交流中发现,“业务导向”成了他们提及最多的词汇。恺望数据创始人兼CEO(首席执行官)于旭认为,“数据其实是模型背后的生产力资源,当小模型发展成大模型,再到大模型落地和应用,对数据标注的要求也逐步提高,是一种由轻加工向深加工转变的过程。”
在第三方招聘软件上,月之暗面发布的“AI数据标注师”的职位要求为:本科及以上学历,经济大类、新闻、国际关系等相关专业优先;3年以上战略、商业分析、咨询优先;有良好的数据分析和建模能力,有较好的逻辑思维和独立判断思维。
在职位描述上,要求理解金融财经场景中用户的诉求;负责实际应用场景中金融财经类数据的标注和质检工作;基于数据需求,完成大模型数据构建工作,设计规则标准进行数据生产。
月之暗面为该岗位提供了不低的薪资待遇,一位“AI数据标注师”的月薪最高可达四万元。与之对比,传统数据标注师的月薪在三千元左右,即使是管理岗或质检岗,六千元左右的薪资也与月之暗面的“AI数据标注师”相去甚远。
“现在数据标注师正处在从行业技能到职业技能的转变过程中,职业的逻辑是对专业技能要求的提升。”刘吉认为。新京报贝壳财经记者注意到,2020年2月,数据标注员作为人工智能训练师的一个工种,被正式纳入国家职业分类目录。
这也对数据标注公司的经营能力提出了更高要求。“早期的数据公司的确可以通过大规模对人的管理和运营,将生产力规模提上去,只是下一阶段的比拼更看重如何和产业、行业结合在一起,更快更准落地。”于旭指出。
从拼价格到拼技术
“看到国家这么重视数据标注行业,我感到兴奋的同时,其实也更期待这个行业可以更加规范。”云测数据总经理贾宇航告诉新京报贝壳财经记者。
在数据标注技术含量并不高的阶段,想要拿下订单,低价是最有力的武器。“在客户面前,我们没有什么议价能力,价格是他们是否选择合作的唯一评判标准。”刘吉回忆称。
为了降低运营成本,进而在竞标中拿出更有竞争力的价格,数据标注公司通常会开在人力成本和办公场地租金较低的四五线城市。
当数据标注走向“自动化”“专业化”“高端化”之后,比拼的维度也由低价竞争转向技术竞争。
过去两年,恺望数据的服务对象以自动驾驶企业为主。于旭也在这个过程中看到了自动驾驶行业存在的问题,比如数据量不足、数据价格过低、数据匹配的标准化规则尚未形成等。
去年9月,北京亦庄智能城市研究院与恺望数据联手打造的国内首个“车路云”数据协同平台正式发布并上线,该平台专注于自动驾驶车辆感知数据和智能交通场景,可提供智能数据应用服务。
于旭希望该平台通过集成数据存储、监管与再加工技术,将数据通过生产线系统化的方式流通起来,实现行业数据的共享与复用,这一创新形式通过把相似的数据整合,提高了个性化结果的生成效率。
云测数据则将自建标注基地和专业人才储备作为自己的核心竞争力。贾宇航认为,人工智能行业正在走向细分领域,专业化的趋势加强,有经验的人处理过的数据会比没有经验的人更加专业。此外,云测数据还将提升数据流转的效率,将打通与各个企业间的数据闭环作为主要发力点。
然而,数据标注行业正处在发展初期,究竟哪种技术路线可以最终成功,还需要时间的验证。
多位受访者都认为,随着数据产业的不断发展,技术壁垒会更加凸显。于旭记得,2022年刚开始创业时,投资人出现了两极分化,一类是完全没听过数据标注,另一类是非常了解数据标注,当然,刻板印象也很深,认为这就是一个人力密集型的行业,没有什么价值。但2023年和2024年,投资人的态度发生了明显转变。“尤其是国资背景的投资人,对我们越来越看重了。”
当技术发展越来越快,也会伴随着质疑声,例如,数据标注师是否会被AI取代?多位受访者的观点是,具备专业背景的数据标注师不仅不会消失,需求还会增加,但一些只会简单标注的数据标注师则会逐渐被AI取代。
正如于旭所说,“如果我们需要做一些与本地生活相关的业务,比如出行业务,那么,具有携程或者飞猪工作背景的员工,也是我们非常需要的。”
新京报贝壳财经记者 张晗
编辑 王真真
校对 刘军 穆祥桐