这一劳动力市场印度世界最大年夜!80%“数据工人”来自村镇_数据_印度
这是2023年2月15日在美国旧金山拍摄的waymo公司无人驾驶出租车 新华社/美联
AI数据标注职业产生之初,标注员们每每能得到相对丰硕的薪酬,且部分标注事情的门槛较低,入职难度不大。但如今,AI数据标注员正逐步向人力本钱更低的城市下沉。
一贯以软件外包有名,且人力本钱较低的印度,就在此背景下崛起为天下主要的外包数据标注做事商,乃至被认为是最有潜力成为天下最大的数据标注劳动力市场。很多人不知道的是,80%以上印度AI数据标注师(或称数据工人)来自屯子和小城镇。
1 抢抓“数据标注”市场
在间隔新德里市中央约30分钟车程的诺伊达数据注释公司Cogito Tech的办公隔间内,数百名刚从大学毕业的年轻人,正在用数字工具识别和标记他们屏幕上的图像。Cogito Tech与美国公司Labelbox互助,紧张为通过演习机器实行人工智能干系任务的公司开拓数据标签软件。
在印度南部喀拉拉邦小镇曼纳卡德一间不起眼的办公室里,十几位女工紧盯电脑屏幕,为自动驾驶汽车的车载摄像头摄录的车辆、交通信号灯、道路标志和行人的图像进行高亮显示和标记。这项事情最有寻衅性的,是精确标记被称为LIDAR(光探测和测距)的远程传感器捕获的数据,该传感器为自动驾驶汽车创建3D舆图,以得到对周围物体的感知信息。
在印度西部城市普那(Pune)的郊区卡拉迪(Kharadi),忙完一天的事情后,一些村落民会习气性地打开智好手机上的一个运用程序,对动手机用他们的母语马拉地语(马哈拉施特拉邦地方措辞)朗读故事或念一段句子。作为印度人工智能初创公司Karya的数据工人,他们的声音将用于演习马拉地语的人工智能模型。
有30万注册用户的印度数据标注众包平台Playment,每天吸引着超过2万名“高技能顶级玩家”,他们看似在玩游戏,实际上是在为自动驾驶汽车、机器人以及无人机等项目手动标识数据,帮助公司加速其机器学习,并从中赚取每人每月2万~3万卢比(1卢比约合0.086元公民币)收入。
这些案例中的主角,都可以被称为“数据标注师”。
由于演习数据的数量和质量对人工智能模型的准确性和有效性至关主要,而标记演习数据集不仅是一项耗时、繁芜的繁琐事情,且须要大量劳动力,因此缺少适当资源的科技公司便开始寻求外包数据注释做事。印度过去数年来的IT外包实践,恰好使其成为这种外包数据标注的主要目的地。
印度软件与做事业企业协会(NASSCOM)高等副总裁兼首席计策官古普塔在接管专注IT趋势的《剖析印度》杂志采访时表示,数据标注在印度算是一个新兴行业,每个人都意识到它带来的巨大机会——人工智能须要被精确标注、分类和匿名处理的海量数据。
“数据标注公司在印度纷纭出身,就适应了这一日益增长的市场需求,为此许多公司正在利用环球‘零工'人才库。”印度人工智能公司HEAL Software Inc.首席发卖和营销官穆克莱见告《剖析印度》杂志。“印度为数据标注市场供应了巨大的人才库,他们具有基本的打算机技能,可以随时利用智好手机,与美欧的时差乃至都可能成为一种资产。”穆克莱强调。
NASSCOM在一份关于数据标注市场潜力的报告中称,截至2021年,约有7万印度人从事数据标注事情,其市场规模估计为2.5亿美元,约60%的收入来自美国。估量到2030年,印度的数据标注市场代价可能超过70亿美元,通过全职和兼职就业模式雇用的数据标注劳动力将达100万人。印度目前是天下上最大的数据注释劳动力市场之一。
2 他们来自村落庄和小城镇
据NASSCOM调查,目前印度超过80%的数据标注员来自屯子和小城镇;超过90%的数据标注公司在二三线城市建立了中央。印度屯子和小城镇无疑在新兴的天生式人工智能(GenAI)的发展机会中发挥着重要浸染。
代表印度数据标注公司较高水平的Infolks,便是由科拉瑟里在其家乡喀拉拉邦的一个偏远小村落落库马拉普图尔创建的。科拉瑟里创业能取获胜利,也得益于他的数据标注师经历。
据媒体宣布,家境贫寒的科拉瑟里在十二年级(印度高中阶段)时便辍学。为养家糊口,他曾考试测验打过多种零工。2014年,23岁的科拉瑟里在亚马逊公司旗下的众包平台Mechanical Turk上注册,并开始为环球各地的公司供应数据标注做事。只管没有任何学位,也不知道什么叫数据标注,但这些并不妨碍科拉瑟里出色的发挥。两年半韶光内,他完成了30多万项数据标注任务,被批准率高达99.8%。
科拉瑟里在众包平台上的高评级受到一家从事数据标注的德国公司关注,这家公司希望他成立一个团队。于是在2016年,科拉瑟里凭借2.5万卢比的初始投资和6名员工,在自己的家乡启动了Infolks。
经由几年景长,与该公司互助的企业客户已超过130家,个中包括戴姆勒(2022年更名为梅赛德斯-奔驰集团股份公司)以及不少国际大牌科技公司。Infolks大约75%的业务集中于自动驾驶汽车领域,此外还为医疗保健、机器人和农业等领域的客户供应数据标注做事。
值得一提的是,无论奇迹发展如何,科拉瑟里始终坚持把事情机会留在自己的家乡,“公司的愿景是将我们的村落落打造成一个环球性村落落,并为屯子地区年轻人供应发展机会”。
目前,Infolks雇用的几百名员工大部分来自库马拉普图尔及其周边地区,新员工在接管为期两个月的图像标注工具培训后,便可上岗。“经由适当培训,所有人都可以在没有任何AI技能背景的情形下进行图像标注——你只须要快速学习”,科拉瑟里常常这样以亲自经历勉励新入职者。
米塔创立的NextWealth公司,也是一家立志为小镇青年创造就业机会的人工智能公司。在此之前,米塔曾在印度信息技能巨子维布络有限公司(Wipro)担当首席技能官长达20年。目前NextWealth的6个中央雇有5000名员工,从事人工智能和机器学习数据做事以及后台事情,这些中央均开设于一些印度不有名的小城镇。
米塔在接管《剖析印度》杂志专访时表示,天生式人工智能的美妙之处在于,它不会将来自偏远地区的人们拒之门外。他认为,小城镇的毕业生已被证明具有高度的可培训性和大规模可用性,他们关注细节,具有积极的事情态度。与大城市比较,小城镇员工的流失落率更低,岗位更具稳定性。
3 “授予肃静的事情”
在印度的数据标注师中,最富特色确当属为人工智能初创公司Karya供应数据的村落庄众包员工。Karya在梵文中意为“授予肃静的事情”。该公司不仅雇用大量屯子地区妇女,还专门建立了基于智好手机的数字事情平台,旨在通过语音、文本、图像和***创建高质量的数据集,以演习涉及12种濒临消逝的印度地方措辞和方言的大型措辞模型。
Karya见证了大量成功案例,来自乡下的“数据标注师”的故事不仅被多家媒体宣布,也勉励着更多屯子人加入到人工智能入门级事情中。
纳亚克来自印度东部奥里萨邦一个盛产手工艺装饰品的村落,一次有时机会使她成为Karya公司的数据工人。在纳亚克看来,她的事情非常大略、自由且收入不菲——在任何空闲韶光里,拿脱手机点开一个运用程序,然后用其母语奥里亚语(奥里萨邦地方措辞)说话,当语音文本被录下来后就可得到报酬。
事情的第一周,纳亚克便拿到4000卢比薪水,这比她和丈夫通过制作手工艺品换取的每月不敷1000卢比的收入赶过数倍。
村落民昌德里卡是Karya在卡纳塔卡邦雇用的数据工人,仅仅通过大声朗读其母语卡纳达语文本,她便可赚取每小时约5美元的人为,这险些是印度官方最低人为的20倍。一旦语音剪辑被验证为准确,她还会额外得到50%的奖金。
通过自己的声音改变自家经济状况,这令村落庄数据标注师们感到很振奋,虽然他们并不理解自己事情的意义是什么。为此公司为员工想出了一个最大略的阐明:“你们正在教打算机说你们的母语”。Karya运营总监萨希什库马尔见告《剖析印度》杂志,“对付措辞录音,屯子人实际上比城市人做得更好,他们不随意马虎分心,事情时心神专注。”
如今,与微软和谷歌均有互助关系的Karya公司,数据网络事情已经惠及印度24个邦的3.5万屯子人口,员工通过智好手机完成了超过3500万小时的付费数据任务,每位员工每小时的报酬不少于5美元。
微软印度研究院研究员古哈见告印度《经济时报》,Karya网络的数据质量远远优于其利用过的任何其他来源。这表明,“如果你公正地支付工人人为,他们就会更多地投入事情,终极结果便是得到更好的数据”。
4 AI会取代AI数据工人吗
帕德玛普里亚于2021年在Infolks开始从事数据标注事情——给道路上的图像等贴标签,以演习无人驾驶汽车的人工智能模型。帕德玛普里亚见告《印度快报》专栏作家迈赫罗塔,这份事情让她能够养家糊口,成为家里的顶梁柱。不过这也让她总是担心,机器总有一天会学到统统,导致人类失落业。
帕德玛普里亚的老板科拉瑟里彷佛也有同样的预感。迈赫罗塔在她的文章中援引科拉瑟里的话说,“(既然)呼叫中央的事情已经由机器人接管,那么数据标注事情也可能会消逝。几年前,我们乃至没有听说过这个行业。我不知道它什么时候会结束,但这一天总会到来。”
毕竟在AI面前,无论本钱还是效率,人类险些毫无上风。苏黎世大学研究创造,在本钱上,ChatGPT均匀每个标注本钱低于0.003美元,仅为众包平台的1/20;在效率上,如在干系性、态度、主题等任务中,ChatGPT是人类的4倍。
来自美国卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究职员更是创造:GPT-4在数据集标注表现上优于他们雇用的最闇练的众包员工。有评论认为,AI数据标注员须要做好被AI取代的准备。目前在自动驾驶领域,已经有车企开始采取AI进行标注。
印度排名前列的数据标注公司iMerit的技能和营销副总裁纳塔拉詹则有另一番见地。他对印度前沿技能信息网站FactorDaily表示,基于AI的自动标注工具并不是一种威胁,由于自动标注工具本身便是人工标注演习的结果。当你试图办理某个问题时,这些自动化工具只能帮你达到有限水平,但要超越这个水平,还须要定制标注。纳塔拉詹强调,即便AI已经达到某种水平,也永久不会达到百分之百,它将始终是一个不断学习和改进的过程。
基于上述乐不雅观剖析,一些印度业内人士表示,印度的数据标注市场和标注公司还未发展到顶峰。正如NASSCOM所指出的,目前印度数据标注市场仍在加速发展,75%的参与者处于初始和成长期。这意味着印度的数据标注业还有巨大成长空间,而市场的壮大必将吸引更多从事数据标注的劳动力参与进来。
栏目主编:秦红 笔墨编辑:宋彦霖
来源:作者:环球杂志
本文系作者个人观点,不代表本站立场,转载请注明出处!