GPT风口下的数据标注员:人工智能背后的“师长教师”和AI局外人_数据_人工智能
ChatGPT大火后,数据标注员迅速进入大众视野,也成了就业新风口。他们有的年薪百万,有的日结两百,但在ChatGPT风口上,作为人工智能背后“老师”的他们却也是局外人,存在被替代的风险。
所谓数据标注员即指,对人工智能原始数据集进行标注、分类、剖析和洗濯来帮助演习机器学习算法和人工智能模型的职业。数据标注员以入行门槛低,上手快,薪资报酬好也广受县城青年欢迎,目前全国已经建立起多座超千人数据标注基地。
然而,数据标注行业这一新风口同样存在“教会徒弟,饿去世师傅”的可能,随着人工智能大模型的迭代这一职业可能面临被替代的风险。目前国外已经涌现AI自动标注替代人工标注的案例。那么,在人工智能行业飞速发展确当下,对普通人来说数据标注员是一份好事情吗?数据标注这一细分赛道发展前景如何?目前正面临哪些问题?未来,数据标注行业会被AI标注颠覆吗?
对此,新京报贝壳财经采访了数位数据标注员、数据标注行业创业者以及人工智能领域有标注需求的甲方公司卖力人、学界人士,试图解答上述问题。
4分钱一个框,每天拉够2500个,数据标注员造诣业新风口
作为人工智能背后的“老师”,小雷并不十分明白“什么是人工智能”,也不是很理解“自己是怎么教人工智能学习的”。从每天早上9点上班开始,他的脑筋里就只有一件事——怎么完成单日2500个框,达到95%合格率的哀求。
几个月前,小雷辞去了工厂车间的事情,应聘成为了一名数据标注员。相较于制造业的灰尘、酷暑和寒冷,新事情办公室内有空调和暖气,整洁干净的办公桌上还摆放着新鲜的绿植。
宽敞通亮的办公室里聚拢了包括小雷在内的50多名20-30岁的年轻人,他们大多具备大专院校及以上教诲水平,乘着人工智能的风口成为了行业基层的数据标注员,每天的事情便是对海量数据进行洗濯、分类、画框、注释、标记等操作,转换成符合算法工程师哀求的标准交付。
以自动驾驶领域的3D点云标注为例,小雷的单位规定单日标注任务量为2500个框,底薪2500元,合计每个框4分钱,逾额完成任务还有绩效人为,这对学历不高,身处河南县城的青年来说,已经算是一份薪资中等偏上的事情。
所谓数据标注即指对未经处理过的语音、图片、文本、***等数据进行加工处理,从而转变成机器可识别信息的过程。数据标注是人工智能获取演习数据的紧张渠道,运用处景广泛。从语音转录、人脸识别、自动驾驶到AI谈天,人工智能模型演习所须要的海量数据目前险些全部依赖数据标注员手工标注。
不过,与大众印象中高新技能行业每每须要高学历人才不同,2021年版的《人工智能演习师国家职业技能标准》对该职业的能力特色描述为“具有一定的学习能力、表达能力、打算能力;空间感、色觉正常”,普通受教诲程度则为“初中毕业(或相称文化程度)”。
高需求量、低用工门槛为学历层次相对较低的普通人供应了进入办公室事情的机会。2018年,山西转型综合改革示范区与百度互助,建造了基地占地面积超1万平米,数据标注员超2000多名的数据标注基地;在新疆和田,有4000人在当地的数字经济家当园从事数据标注事情;在山东的第一个数据标注基地,已经有1500名从业者。
数据标注员正在事情。受访者供图
基层数据标注员:层层外包下有的得手薪资千余元,职员流动频繁
结束上一份电商事情后,高小贝回到太原老家,在朋友的先容下开始打仗数据标注行业。付费后,高小贝进入培训公司的3D点云项目组,从0根本到逐渐上手再到开始接单,高小贝用了40多天,项目标注单价则为1毛8分钱。
第一次项目回款,高小贝收到了三千四百多元,撤除培训用度,还有少部分结余。
与高小贝比较,小雷入职前并未参加任何培训,从完备不懂到单日完成2500个框且精确率95%,单位只给了小雷一周不到的韶光,由于从事韶光较短,闇练度欠佳,再加上常常返工重标,纵然每天多加班2-3个小时,小雷效率最高的时候,单日事情量也只有2000个框旁边。
所谓3D点云项目单日2500个框,并不虞味着仅是圈出图片中的障碍物,实际上,标注员在事情时还要把稳障碍物的尺寸、ID、方向,以及点云是否框全,是否漏框了轮胎点,是否框入了地面点,同时还要判断车在高速行驶时涌现的残影是否框选等。小雷认为3D点云标注事情并不算难,但详细操作哀求比较繁芜,以是很难在单日内大批量标注。
“标注本身便是个重复性的事情。上手不难,难的是都不愿意培养,都喜好直接能干的。”前数据标注员田师长西席如此见告贝壳财经。由于缺少培养机制,再加上职业发展天花板有限,从事数据标注行业靠近一年后,本科毕业的田师长西席选择了辞职。
同为3D点云标注项目,小雷公司开出的标注单价为每个框4分钱,而高小贝所在的培训公司单价则为1毛8分钱,为何会涌现如此大的单价差异?
实际上,多位数据标注行业受访者向证明,行业内层层外包的征象比较严重,从有标注需求的甲方公司到中标的乙方公司,再到框架下的二包、三包,乃至四包公司,每层都会抽取一定的用度,末了落到标注员身上,标注单价4分钱并不罕见。一位有标注需求的甲方公司项目卖力人向贝壳财经透露,自家公司的***事宜描述标注,报价一条9毛,末了分到标注员手中单价可能只有几分钱。
此外,由于标注事情的层层外包,标注公司交付时的沟通本钱也随之变高,甲方的需求经由层层传达后常常涌现沟通不及时,标注标准来回变革的情形,因此返工重标也是大多数基层数据标注员不得不面对的问题之一。
数据标注员低入门门槛的同时也意味着低竞争力,所谓的数据标注行业在中低端市场正逐渐演化为传统的人力资源密集行业。
在每天加班的情形下,小雷一个月得手薪资也只有一千多元,且要忍受由于永劫光操作电脑、鼠标而带来的眼睛干涩、手部酸痛感。目前,小雷选择了辞职探求新的事情。
层层外包模式下,也有原来的从业者,选择了创业。
考虑到从事数据标注事情个人产出有限,且行业表现为多劳多得,高小贝选择了复制裂变,自己投资开办了一家数据标注公司。不到一年的韶光内,她的标注公司全职人数达到了20人,公司标注部门每月净营收在2.5万-4万元之间。
此外,从自己的创业经历出发,高小贝的公司还开拓了标注孵化业务,供应对个人以及团队的数据标注培训,目前公司已经孵化分公司3家,孵化人数则达到了16人。“市场上割韭菜的公司居多,高额加盟费、分包转包各种情形搞得整体市场一塌糊涂。但总的来看,行业本身很适宜小成本创业、赔率低,如果创业者能接到优质订单,在团队管理、培训流程上得到辅导,行业前景还是不错的。”高小贝说。
收入两极分解,高本色人才年薪百万背后?
林霖(化名)也是数据标注行业的头部玩家,他以传统人力资源行业起身,后转型数据标注行业。
“今年人工智能天生赛道爆发,我们公司已经接到了大批量数据标注外包需求,估量今年可以做到十倍营收增长。”林霖对贝壳财经表示。
他认为,数据标注行业发展潜力巨大,不断扩展团队规模,提升团队整体本色才能接到一手优质的标注项目。林霖的团队目前全职员工人数上千,个中本科生占比较大,公司在河南、湖南、重庆等多地均设有数据标注基地,做事的客户紧张是头部的互联网和人工智能企业。
2020年转型数据标注行业,经历了行业非线性增长的几年,林霖的公司抢占了数据标注行业的小风口,在天生式人工智能标注领域已是业内最大团队之一。
林霖向贝壳财经透露,数据标注员的均匀薪资一样平常略高于公司当地均匀薪资,尤其是高本色标注人才,薪资报酬则更高。“目前我知道最高的,纯粹做数据标注,不参与算法、研发等,差不多在90-100(万年薪)。”
普通数据标注员月薪两三千,高等数据标注从业者年薪百万,为何会有如此大的薪资差距?
林霖向贝壳财经阐明,普通数据标注员仅须要对一个标注题目卖力,高等数据标注从业者则须要对一个标注环节,乃至对全体标注需求卖力;此外,标注业务也根据难易程度分为不同等级,例如在自动售货机订单审核项目,人工仅需抽查机器判断的已售商品是否准确即可,如是否将果粒橙识别为适口可乐,对标注员个人能力哀求不高,而在ChatGPT问答规则设计项目中,好的标注员在回答“背诵苏轼《水调歌头》”提问时,不仅会给出诗词全文,还会揣摩提问者提问意图,给出苏轼在中国诗词史上地位如何、此首诗词干系的背景、诗词衍生的其他内容等等。“一个精良的数据标注员能通过关键词,识别出提问者背后的真实需求是什么,进而设计规则。”在林霖的公司不乏中科院博士从事数据标注事情。
与大部分人印象中数据标注员低门槛好上手不同,林霖透露,数据标注行业实在不乏对高本色人才的需求,例如医药行业、金融行业干系的标注更方向于探求有干系教诲经历或从业背景的人才标注,ChatGPT人机对话项目则方向于探求笔墨理解能力好的人才操作。
“教会徒弟,饿去世师傅”?数据标注员会被AI标注替代吗?
随着人工智能自主学习能力的不断加强,人工智能研究者们已经开始考试测验向机器“喂养”未标注的数据与部分半标注的数据,不依赖人工标注的自监督学习和数据标注也已在业界涌现。来自苏黎世大学的一篇名为《在文本注释任务上,ChatGPT优于众包工人》的论文显示,用ChatGPT给文本做数据标注的本钱不到0.003美元一条,显著低于人力本钱。
“教会徒弟,饿去世师傅”的传言正在弥漫,数据标注员终极会被AI标注替代吗?
多位学界人士对贝壳财经表示,低门槛的数据标注事情的确会被人工智能标注取代,如果大模型的性能已经知足需求,那么直接用大模型的预测作为标签,来蒸馏小模型即可,如ChatGPT已经能够成熟田主动识别和分类文本,并对文本的情绪进行剖析和评估。不过,也有学界人士见告,虽然自动标注发展越来越成熟,但精确率并未达到100%,而是普遍集中在50-70%。此外,不少数据标注项目实在稍有门槛,对付某些特定领域的标注,人工智能暂时还不能取代人类。
林霖则表示,自己非常看好数据标注行业未来的发展。他认为,人工智能行业的发展无穷无尽:从语音标注到人脸标注,再到自动驾驶领域的3D点云标注,以及近几年大热的ChatGPT类标注。
“与其担心没有项目可接,不如提高自己与时俱进的能力”。高小贝则见告,人工智能领域有一句流传甚广的老话非常适用,即“人工智能行业,有多少人工就有多少智能”。
新京报贝壳财经 李梦涵 罗东骏
编辑 岳彩周
校正 卢茜
本文系作者个人观点,不代表本站立场,转载请注明出处!