“抬头是山,低头是煤(méi)。”曾在山西传统煤矿工(gōng)作8年, 整天(tiān)盯(dīng)在电脑屏幕前监测(cè)矿(kuàng)井瓦(wǎ)斯浓(nóng)度的郭梅(méi)从来(lái)没有想过,有一天自己的工作会(huì)和人工智能有了联系。
两年前,因为孩子(zǐ)来(lái)省会城市太(tài)原上(shàng)学,郭梅在附近求职,做起了数据标注。同样是盯在电脑屏(píng)幕(mù)前,现(xiàn)在郭梅每天的工作是给(gěi)图片、文本或者声音(yīn)进行标注,再把它们交给(gěi)机器(qì)训(xùn)练和学习。从一(yī)开始每(měi)天只能(néng)标注两三百张,到现在(zài)的日均完成1300多张,郭梅按件计(jì)酬(chóu)的收入逐渐提(tí)升,已高于当(dāng)地平均收入水平。
人工智能行业里有句话:有多少智能,背后就有多少人工。像郭梅一样,AI数据标注师成(chéng)为了(le)随着人工智(zhì)能发展而出现的新兴就业(yè)岗(gǎng)位(wèi)。2020年2月,“人工智能训练师”正式成为新职业并纳入(rù)国(guó)家职业分类目录。
他们被(bèi)称为人(rén)工智能背后的人。数据采集和(hé)标注是他(tā)们的(de)主要工作(zuò),目的就是要教会AI认识(shí)数据,转化(huà)成(chéng)AI能消化和吸(xī)收的“语(yǔ)言”。有了足够多、足(zú)够(gòu)好的数据,AI才能够(gòu)学会像人类(lèi)一样去感知、思考和决策,更好地为人类服务。
这项工作看起来(lái)简(jiǎn)单枯燥,但意义(yì)非常。“就像一台车没有(yǒu)汽油(yóu)走(zǒu)不了,数据就是人工智能发展的燃料。有(yǒu)了我们的数据,机器(算法)不断迭代,就能推(tuī)动人工智能往(wǎng)更好的方(fāng)向发展。” 从事数据标注的山西麟诺公司(sī)总经理李应维(wéi)对第一财(cái)经表示(shì)。
“从(cóng)没想(xiǎng)过做人工智能”
20出(chū)头的李宇龙从未亲眼见(jiàn)过自动驾(jià)驶汽车(chē),但他(tā)的工作(zuò)却和自(zì)动(dòng)驾驶的AI算法息息相关。
他(tā)曾经在生产电子(zǐ)类(lèi)产品的工厂工作,转做(zuò)AI数据标注(zhù)后,老板(bǎn)交给他(tā)的第一(yī)个项目就是“车道线打点(diǎn)”。
简单来说(shuō),就是给无人驾驶进行车道(dào)线标(biāo)注。当(dāng)无人车(chē)行驶到一段路时,会自(zì)动(dòng)连(lián)续(xù)拍摄图片(piàn),李(lǐ)宇龙要做的,就是对图片(piàn)上车辆所行驶(shǐ)的车(chē)道旁边两侧的线进行标注,识别虚线还是实线,匹配所对应的(de)属性,从而告诉人工智能遇到(dào)虚(xū)线时车(chē)辆可以进行变道,实线不可以进行变道。
当(dāng)时的李宇龙(lóng),还(hái)不知道数据(jù)标注师到底是什么,更对(duì)人工智能没有具(jù)体(tǐ)概(gài)念,老板只交给他(tā)一套规则,让他按照规则在电(diàn)脑上认车道线(xiàn)。好学的(de)他在(zài)短时(shí)间内就掌握了规则和(hé)难点,总结出(chū)了标注车(chē)道(dào)的规律。
他把(bǎ)自己的工作比作“幼(yòu)教“,当他拿出一(yī)个红苹果给机器(qì)并教会它(tā)识(shí)别,再拿一个绿苹果给它时(shí),因为颜色差(chà)异,机器就无法认出了。李宇(yǔ)龙的工作(zuò)就是不断地帮助机器识(shí)别不(bú)同的颜色、大小,甚至是被咬(yǎo)了一口的苹果(guǒ)或是坏苹(píng)果(guǒ),直到随便(biàn)拿出一个苹果,它都能认出来。
李宇龙告诉(sù)第一财(cái)经记(jì)者,数据标(biāo)注(zhù)的工作是“按件计酬”,他的日均(jun1)收入在300元左(zuǒ)右。数据显(xiǎn)示,2019年(nián),太原市的城镇居(jū)民全年人均可支配收入(rù)36362元(yuán)。他说(shuō),自己的工资水平在整个基地(dì)标注师日均(jun1)收入中处于(yú)中等水平(píng),“据我(wǒ)了(le)解,有人日均收入甚(shèn)至能破(pò)千(qiān)。”
对(duì)于自己的工作,李宇龙说,刚(gāng)开(kāi)始(shǐ)接触时,只(zhī)把它(tā)看做一(yī)个重复性的工作,并没有想太多。直到后来接触项目多了,涉(shè)及的领(lǐng)域包括教育(yù)、安防、金融、交(jiāo)通医疗和电商等,每(měi)天(tiān)都在(zài)挑战学习能力,也会想要更深入了解自己(jǐ)标注的内容可以应用到的行业(yè)。 虽然还没(méi)有坐过无(wú)人车,但他说,现在看到无人驾驶的(de)时(shí)候(hòu),会(huì)想到这(zhè)里面也包含(hán)了自己的标注(zhù)成果。
像李宇龙、郭梅的(de)工(gōng)作一(yī)样,第一财经记者看到,在每一间数据标注的办公室里,都是类似的(de)工作(zuò)场景:一排排电(diàn)脑(nǎo)屏幕前,年(nián)轻的数(shù)据标注(zhù)师根(gēn)据(jù)各自分配的任务,对文本、图片、语音和视频做标记(jì)、标重点、打标签、框对象、做注(zhù)释等方式对(duì)数据(jù)集作出标注,他们(men)可能在为无人车标注车道线、红绿灯,也可(kě)能(néng)是在为肺部影像标注病毒(dú)数据。
以人(rén)脸(liǎn)为例(lì),目前(qián)能实现对约150个(gè)特(tè)征点的标注。疫(yì)情期间,采集(jí)大量(liàng)的戴口(kǒu)罩的人脸照片后,数据标注师对人脸的眉(méi)毛、眼(yǎn)镜、颧骨等人脸关(guān)键点进行精准标注,标(biāo)注特征点越多,AI就越能精确识别出戴(dài)口罩(zhào)场景下的人脸。最终(zhōng)实现即使不摘口罩,也能精确(què)测量体温,或(huò)是通过人(rén)脸闸机。
是(shì)不是“AI富士康”?
数据标注(zhù)产业(yè)促进了(le)不少城(chéng)镇和农村就业,在河南、河(hé)北(běi)、贵州等地(dì),还出(chū)现了一些特色的(de)“数(shù)据标注村”。
据IDC统计(jì),全球每(měi)年生产的数据量(liàng)将从(cóng)2016年(nián)的16.1ZB猛增至2025年的163ZB,其中80%-90%是非结构化数据,这些数据经(jīng)过清洗与标注才能(néng)被唤醒价值(zhí)。在(zài)我国,每年需要进行标注的(de)语音数据(jù)超过200万小(xiǎo)时(shí),图片则有数亿张,这就产生(shēng)了源源不(bú)断的清洗与(yǔ)标注需求。 李应维对(duì)第一财经记者说, 他预计(jì)明年(nián)企业的(de)用工(gōng)将翻一倍,从(cóng)160多人扩(kuò)展(zhǎn)到300人左右(yòu)。
李应维公司所在的百度(山(shān)西(xī))人工智能(néng)基(jī)础数据产业基地,已(yǐ)经成为中国人员和产值规(guī)模第一的单体(tǐ)数(shù)据标(biāo)注基地。AI数据(jù)标注(zhù)师从业人员超过2000人(rén),实现营业收入超亿元,企(qǐ)业入驻(zhù)35家(jiā)。该基(jī)地计划在未来5年培养5万名AI数据标注师,并引入更(gèng)多AI合作(zuò)伙伴。
百度(dù)(山西)人工智(zhì)能基础数据(jù)产业基地(dì)负责人尉赤告诉记(jì)者(zhě),人工(gōng)智能是个高速发(fā)展的(de)行业,数据服务又(yòu)与人工智能息息相(xiàng)关(guān)。“我(wǒ)们(men)的线(xiàn)上众包注(zhù)册用户有将近2000万人,目前每个月在线上(shàng)为我们提供服务(wù)的人将近5万人。如果按照行业增长速度来看,培养5万(wàn)人还(hái)不(bú)一定(dìng)够(gòu)。”
不过(guò),数据(jù)标注师看(kàn)上去是人工智(zhì)能领域一个“入门(mén)”工种:技术门槛低,招工(gōng)人群范围(wéi)广泛。他们通过(guò)每(měi)天数千次的(de)重复(fù)动(dòng)作,和最前(qián)沿科技的(de)人工(gōng)智能产生联(lián)系。也因此,外界给这个行业贴(tiē)上(shàng)了“AI富(fù)士康”的标(biāo)签。
数据标注(zhù)带来了技术(shù)红利,但如(rú)果人工智能发展到(dào)一定程度,甚至有可能够取代数据标注师(shī)的工作。
艾瑞咨询在(zài)一份人工智能相(xiàng)关报告(gào)指出(chū),随着算(suàn)法需求越来越旺盛,依赖人工标注(zhù)不能满足市(shì)场(chǎng)需(xū)求,因(yīn)此增强数据(jù)处理平台持续学习能(néng)力,由机器持续学(xué)习人工标注,提升预标注和自动标(biāo)注能力对人工的替代率将成趋势(shì)。此外,随着 AI对(duì)数据(jù)的要求越(yuè)来越高(gāo),数据标注行(háng)业也正逐步进入(rù)精细(xì)化(huà)阶(jiē)段。
对(duì)于数据标注这一职业的未来,李应维对记者(zhě)举例,自己公司(sī)一名员工(gōng)入职后,因为表(biǎo)现(xiàn)优异,不久已被百(bǎi)度公(gōng)司聘用。而且,数据标注师也在为人工智(zhì)能培养和发(fā)现人才。
尉赤则认为,目(mù)前大家(jiā)更多(duō)地聚焦在数据加工这件事,但如果再往(wǎng)前看,更多的是数(shù)据的优化、还有一些(xiē)相(xiàng)关的解决(jué)方案。数据标注是(shì)一个很好(hǎo)的入门,进来(lái)之后有机会更(gèng)深度(dù)参与到产业(yè)链协作(zuò)当中,例如后续当数据标(biāo)注越来(lái)越机器(qì)化,人工和(hé)自动化之间(jiān)要(yào)有机(jī)的协同,这也对员工提出了更高的要求(qiú)。
此外,当数据标注越来越机(jī)器(qì)化,人工智能训练师是一个转(zhuǎn)换工种的机会,标注员们(men)现(xiàn)在标注(zhù)数据,未来可(kě)能向数据治理、数(shù)据解决方案设计和(hé)项目管理等方向发(fā)展。
例如,现在李宇龙的工(gōng)作重心已(yǐ)经转向(xiàng)培(péi)训,同时接触(chù)到更多的项(xiàng)目管理,根据(jù)每(měi)个项目对应的特点判断(duàn)与之匹配的能力。 在他看来,自己比很多传(chuán)统行业(yè)的人们更早地接触到未来的发展方向和未来的生活、工(gōng)作(zuò)场(chǎng)景,“看到了未来的发展需求,也就比(bǐ)别人更早找到更(gèng)多发(fā)展(zhǎn)机会。”