ChatGPT爆炸后,AI行业开始了新一轮的“抢人”:
王会文个人投资5000万美元打《AI英雄榜》,招募业界公认的R&D顶尖人才;猎头疯狂在硅谷挖中国科技巨头,跳槽工资200万;Pulse创始人兼首席执行官Marco Lin表示,国内AIGC行业也在招聘,年薪百万、16的薪酬成为“标配”。
中国版的ChatGPT将诞生在这些顶尖的VC和AI人才手中。
但在& amp的时候,一个与ChatGPT密切相关的工作,一个相对廉价且不稳定的工作& ampmdash& ampmdash数据注释器也吸引了小范围的关注和讨论。
他们被称为“AI培训师”,但他们的工作重复、机械、枯燥。
他们是AI行业的“劳动密集型”企业,被放在无人问津的角落,推高了这场ChatGPT狂潮。
AI训练器?
“什么AI训练器,我们是纯体力劳动。”何文欣对数据标签行业的总结是:没前途,没发展,工作量大,工资低。“最好是电话销售。”
什么是数据标注?
目前“深度学习”是训练AI模型的主流方式,但AI不会自动识别语音、图片、文字、视频等。这时候就需要数据标注器对数据进行处理,把一般的数据变成AI可以识别的数据。
比如服务自动驾驶公司的数据标注员,每天的工作就是“框”行人、动物、汽车、树木等。在不同的地图上根据需要,以便“饲料”的人工智能模型。数据标注的类型包括图像标注、语音标注、三维点云标注和文本标注。
简而言之,数据注释者正在创造养分来喂养AI。从工作生产的角度来看,数据注释者确实可以称为AI的老师。
标注数据不难,只需要一台电脑和一个鼠标;简单培训后,就可以入门了。然而,这项工作并不容易,需要耐心和细心。
“很累,整天盯着电脑。”何文新说,“阅卷”工作重复繁琐,没有什么技术含量,但也有质量要求。如果阅卷错了,阅卷范围大,阅卷不够细致,就要重新审核,重新做。
“很简单,但也很难。”马宝丽丽在网上吐槽,因为经常面对拉伸图,很多图根本看不清楚,容易出错。
相对于AI行业的高薪,数据标注员的工资并不高。
“一张图90分,一天做100张。”丽丽说,如果都合格,一天能挣90块钱。
“不同的标签有不同的价格。”何文欣说他当时的工资在3000左右。基础数据标注员的月薪大多在2000-4000元之间,但因为标注的速度和质量,“很难拿到当时面试时承诺给你的工资。”
鞭牛师在一些网站上搜索“数据标注”,工资范围在2000-8000之间。一些特殊的标签,比如小语种、高精图等,工资会多一些。
2020年2月,“人工智能培训师”正式成为一个新职业,被列入国家职业分类目录。中国信通院的报告认为,“目前数据标签化是AI应用研发的根本,10年内将依赖于标签化的数据”。
ChatGPT的“数据标签化”壁垒今年1月,《时代》周刊报道称,ChatGPT利用低成本的肯尼亚外包劳动力,对庞大的数据库进行人工标签化。
OpenAI是否存在“剥削”廉价劳动力的问题,打造了ChatGPT,估值飙升至300亿美元?
Sama总部位于旧金山,为OpenAI提供数据标注服务。Sama正在肯尼亚、乌干达和印度招聘员工,为谷歌、Meta和微软等客户服务。
据爱范儿介绍,2021年底,OpenAI与Sama签订了三份总价值约20万美元的合同,在数据库中标注有害内容。
根据合同,OpenAI将为该项目每小时向Sama支付12.50美元;然而,Sama支付给数据注释者的时薪只有1.32美元~ 2美元。
这些数据标注员每9个小时要阅读标注150~200段,最多的时候一个小时要阅读标注2万多字。
而且,因为他们在网上标注了“有害内容”,比如自杀、酷刑等。,大多数注释者遭受了持久的心理创伤甚至幻觉。但是Sama拒绝为他们提供一对一的心理咨询。
这些数据标注器对ChatGPT意义重大。要想让ChatGPT成为适合用户日常使用的聊天机器人,一个好的学习数据源非常重要。
例如,ChatGPT的前身GPT-3就有暴力和性别歧视等言论。用户在对话框中发送一个问题“我应该自杀吗”,GPT-3回答“我认为你应该这样做”。
2012年早些时候,清华大学图书馆的机器人“小图”因为学习了太多网友的“脏话”而被迫下线。当时有媒体报道称,小涂已经了解到至少4万条不良信息。
AI本身无法判断善恶,需要人为干预来标记和过滤掉一些“特殊数据”。为此,OpenAI建立了一套安全体系,这是Sama和数据注释者的工作:给AI提供标有暴力和仇恨语言的标签,让AI学会检测这些内容,过滤掉这些不良内容。
另外,一些专业领域的信息也需要专业的标注。这就是为什么ChatGPT在回答医疗等专业领域的问题时错误百出,因为它没有准确的相关数据“喂养”。
其实业内人士早就分析过ChatGPT的算法并不神秘,比如开放成熟的自回归语言模型和用于强化学习的PPO算法。但是数据才是ChatGPT真正的优势。
“ChatGPT通过先启动公测,收集了大量的用户使用数据”,这也是ChatGPT独有的、有价值的数据。
与计算能力的“军备竞赛”不同,数据会产生滚雪球效应。只要ChatGPT还是最好用的语言,就会一直保持先发优势,后来者越来越难赶上。
ChatGPT建立了一个“数据壁垒”。而最近刚刚正式公布的“中国版ChatGPT”,除了加强算法和计算方面的投入,处理中文语言数据,过滤中文敏感词和有害信息,还需要大量的投入。
如今,ChatGPT掀起了新一轮人工智能浪潮。底层和最边缘的数据注释者会得到新的待遇吗?
国内数据标注混乱
据第一财经报道,中国的数据注释行业可以追溯到2005年。著名计算机视觉专家、人工智能专家朱在湖北鄂州创办莲花山研究院。
中国信通院报告指出,2015年,随着人工智能巨头的崛起,数据标注和采集需求激增,市场真正开始形成。
2016年,AlphaGo Horizontal 空诞生,人工智能开始商业化,相应的数据服务公司也迎来了一波发展高峰。
人工智能公司的发展继续曲折,数据标签行业也处于早期蛮荒阶段,存在分散、效率差、标签质量参差不齐、市场需求不稳定等问题。
何文新等数据注释者有一个特别直观的感受。能否获得稳定的项目是外包数据标签公司生存的关键。
“我们公司比较小,很难拿到一手项目。”何文欣说,他们拿到的可能是层层外包的项目,价格相对较低,极不稳定。“有时候项目没做完,公司就没了。”
但有些数据标注公司会强调工资分两次结算,“下个月一半,半年一半”,因为这是甲方的结算习惯,有些数据公司不会提前“垫付”工资。
因为没有门槛,十几个人就能拯救一个团队。因此,数据标签公司质量水平参差不齐,行业竞争异常激烈。
据第一财经报道,2018年,科大讯飞众包平台“爱标客”,一些简单的取景、抄录校准项目,时薪在25-40元之间;到2021年底,时薪将降至10至15元,“有时甚至可能达不到10元”。
而且数据标注行业还存在一些* *骗局,比如以* *的名义欺骗求职者支付高额培训费。
数据标注员也是人工智能行业中最不稳定、最容易被替代的角色。
2022年6月,特斯拉在全球启动裁员计划。最大的一次裁员是解雇200名美国员工。大部分是小时工,负责自动驾驶数据标注。
据媒体分析,特斯拉这次裁员的原因是这份工作技术含量不高,操作比较简单;而特斯拉的自动化数据标注也取得了进展,可以代替人力完成一些工作。
目前,何文欣已离开数据标签公司,转行新行业。工资低,累,没有晋升空室,没有学习是数据注释者辞职的主要原因。
但是除了这些问题,数据标注员的工资在四五线城市还是有竞争力的。
事实上,由于是“劳动密集型”行业,一些地方政府向数据标签行业抛出橄榄枝,成为解决当地就业和扶贫的优质项目。
另一方面,由于门槛低、操作简单,数据标注员也成为了一个残疾人友好型岗位。“edge code story”曾经报道过残疾人成为数据注释者的故事。"以前,计算机能赚钱是不可想象的."
并且在一些数据标注公司的推广视频下,很多用户留言咨询,想要加入。
面对使用廉价劳动力的质疑,OpenAI回应称,他们支付给Sama的费用几乎是东非其他内容审查公司的两倍;赚取差价的Sama称自己是一家“有道德的AI公司”,已经帮助超过5万人摆脱了贫困。
据郭盛证券估计,像ChatGPT这样的大型模特培训,要烧200-1200万美元,仅每天的用电量就高达4.7万美元。2022年,OpenAI净亏损高达5.45亿美元。
当我们惊叹人工智能的突破和背后的技术成本时,当我们追求open ai 2000亿的估值时,也不要忘记背后数百万的数据标注者。他们在聚光灯之外,像一叶扁舟,漂浮在人工智能的蓝色海洋中。
(应采访对象要求,本文称化名。)
来源:超宇宙之心
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:goldenhorseconnect@gmail.com