过去(qù)我们过多地(dì)把目光聚(jù)焦于“人工智能(néng)三(sān)要(yào)素”中的算力和模型上;但随着人工智能的深入,好的(de)算(suàn)力和模型已(yǐ)不再是稀有物种,被标注好的优质数据却成为(wéi)时下最为稀缺的“黑金(jīn)”。AI的崛起离不开“好(hǎo)的”数据(jù)作为地基(jī),这也是云测数据成立的初衷所(suǒ)在。现在戳右边链接上新智元小(xiǎo)程序了解更多!
算力(lì)、模型和数据(jù)构成了人工智(zhì)能(néng)的(de)三要素,过去,我们过多的把(bǎ)目光聚(jù)焦于(yú)算力(lì)和模型上,殊不(bú)知,随着人工智能的深入(rù),好的算力和模型已(yǐ)不再是稀有(yǒu)物种,反而那(nà)些被标注(zhù)好(hǎo)的优质数据成为时下最为(wéi)稀缺的(de)“黑金”。
“公(gōng)司的壁垒不再是算法,而(ér)是数据(jù)。让算法利用足够的数(shù)据,使(shǐ)得产品运(yùn)行起(qǐ)来。”人(rén)工智能和机器学习领域国(guó)际(jì)的权威学者吴恩达在发表以“AI is the new electricity”为主题的演讲时,就重点(diǎn)强调了(le)数据的重要性。无(wú)独(dú)有偶,李开复在清华大学“清华学堂计算机科(kē)学实验班(bān)”题为《人工智能的黄金时代》的演讲中(zhōng)也讲到了此类观点,“如果你有垄断性的大数据,你就会有很大的优势(shì)。”
以上种种,都表明着一(yī)件事,即AI的崛起(qǐ)离不开“好的”数据作为地基,这也是云测数据(jù)成立的(de)初衷所在。
溯源云(yún)测数据的(de)AI数据(jù)服务之路
“自2011年切入企服市场以来(lái),Testin云测(cè)不断致力于助力产业智能(néng)化,除了测试业务我们已经成(chéng)为专业领(lǐng)域的垄断(duàn)品牌,专注于AI数据服(fú)务的(de)云测数据也(yě)成为数据领域(yù)的标杆品牌。目前(qián)我(wǒ)们整个数据服务团队(duì)规模已(yǐ)超(chāo)过(guò)1000人,通过标审(shěn)分(fèn)离的流程化作(zuò)业模式和(hé)数(shù)据安全机制,更好的保证数据的高(gāo)质量产出和数据隐私性(xìng),从而更(gèng)好地为人工智能落地提供(gòng)定制化(huà)‘数据(jù)养料’。”在(zài)接受钛媒(méi)体专访(fǎng)时(shí),云测数(shù)据总经理贾宇航如是说。
AI数据(jù)服务(wù)作为(wéi)一个非标领域,往(wǎng)往需(xū)要根(gēn)据不同行业领域、不同的需求进行特定化的场景定制,而(ér)数据(jù)标注的过(guò)程,规范化、标准(zhǔn)化以及可(kě)机读(dú)性又不可(kě)或缺,这就意味着云测数据所从事的领(lǐng)域,并没有捷径可以(yǐ)走。
早期的数据标(biāo)注服务(wù)门槛并不高(gāo),几(jǐ)个(gè)人、几台电(diàn)脑(nǎo)便可展开(kāi)操作,导(dǎo)致了行业鱼(yú)龙混杂、同质化竞争等现象,而这时的(de)人(rén)工智能也处在初期(qī)发展阶段。但当人(rén)工(gōng)智能(néng)驶入深水区(qū),“应用人智能”声势逐渐火(huǒ)热,相对(duì)应的算法对(duì)数据的精(jīng)准程度和(hé)质量要求也水涨船高,就要求着作为(wéi)AI数据(jù)服务的提(tí)供者,要为人工智(zhì)能提供(gòng)定(dìng)制化的(de)、还原应用场景的优质数据。
针对于此,贾宇航告诉钛媒体,“以(yǐ)人脸关键点识别为例(lì),早(zǎo)先的相(xiàng)关数据标注往往用一(yī)句(jù)话便可描(miáo)述完它的任(rèn)务(wù)需求,到(dào)了现在(zài),已经发(fā)展(zhǎn)到几百个关(guān)键(jiàn)点。通常(cháng)数量级的人脸数据标注任务(wù),有时候4张A4纸都未必能写(xiě)完这些(xiē)需(xū)求,而人脸的数据(jù)标注只是众多领域的任务需求之一。”
庞大数(shù)据标注任务量级之下,是(shì)当下业(yè)内需求端(duān)对精准(zhǔn)和高(gāo)质数据的普遍共识(shí)。
这就要求着数据(jù)服务要(yào)在数据标注和采集上(shàng)下足功夫,而小(xiǎo)团队的能力范围则显得捉襟见肘(zhǒu)。回(huí)归到数据标注面向多领域这件事(shì)的本(běn)质时,你又会发现(xiàn),光(guāng)靠人多或(huò)者说采用(yòng)“众(zhòng)包”模(mó)式往往只能解决量的需(xū)求(qiú),数据标注人员(yuán)是否能统一化协同管理以及是否(fǒu)具备相关领域知(zhī)识,才(cái)是决定(dìng)某项数据(jù)任务完成质量的好(hǎo)坏。
同(tóng)时,这也是云测数据当下正专(zhuān)注的事(shì)情(qíng)。正如医生可以标注得好ct诊疗片(piàn),而(ér)云测数据(jù)团队(duì)在进行自动驾驶车外(wài)环境数据(jù)标注时发现,那(nà)些能够(gòu)快速、精(jīng)准进(jìn)行数据标(biāo)注的人员往(wǎng)往拥(yōng)有驾驶经验(yàn)。
云测数据快速成长的秘诀是什么?
至此(cǐ),我们还需要思考一个问题(tí),为(wéi)什么云测数(shù)据能做到且做好AI数(shù)据服(fú)务?
通(tōng)过观(guān)察Testin云测的发展(zhǎn)历史,我们便能找到(dào)答案(àn)。
自2011年Testin云测成立到(dào)现在,已经为全球超过百(bǎi)万的企业(yè)及开发者提供服务,积(jī)累了丰富且完善的技术能(néng)力和流程(chéng)化管理能(néng)力。而云测(cè)数(shù)据(jù)AI数据服务正(zhèng)式开展(zhǎn)于2017年(nián),换句换说,Testin云测的数据业务线从一出生(shēng)便拥有7年企业服务所(suǒ)积(jī)攒的经验,并继(jì)承了行业独立第三方(fāng)的角(jiǎo)色,天然的(de)“以客户(hù)为中心”的企服基因(yīn)是云测数据区别于同行的最大护城河,而(ér)客户(hù)最为关键的诉求则是“降(jiàng)本增效”。
“与企业服务在美国环境更侧(cè)重标准不同(tóng)的(de)是,中国更重服务,通过这么多年的观察(chá)我们发现(xiàn),是否能切实满足用户的真实需求,其实是一个非常重要(yào)的点,并(bìng)不(bú)是说企业一定要做出一个平台或(huò)者一个工(gōng)具,更多是从企业或行(háng)业需求出(chū)发,构建对应(yīng)的(de)服务(wù)模式。”贾宇(yǔ)航对(duì)钛媒(méi)体补充到。
以新零售(shòu)门店巡检为例(lì),通(tōng)常来说,每个门店(diàn)每月(yuè)都要巡(xún)检一(yī)次(cì),门店巡检模式是让一个(gè)人拿着(zhe)调研表去盘点,随着人工成(chéng)本的(de)增加(jiā),而门(mén)店数越来越(yuè)多现实(shí)情(qíng)况,已经让这成(chéng)为一笔不小(xiǎo)的开销。通过引入AI数据(jù)服务,现在工作人员可以拿一个(gè)手机APP直接巡检(jiǎn),物(wù)品的(de)数量、sku的数(shù)量(liàng)以及对应(yīng)的sq数量,都(dōu)能一目了然(rán)。
“从不同客(kè)户反(fǎn)馈得(dé)知,通过我们云测数据的数据标注服务而(ér)落(luò)地(dì)AI产(chǎn)品的(de)企业(yè),可为企(qǐ)业减少大概1/3的(de)人工成(chéng)本。”贾宇航(háng)如(rú)是说。
门店(diàn)巡检只是案例之一(yī),就目前来说(shuō),云测数据主要关注智能驾驶、智慧城市、智慧金融和智(zhì)能家居几大方(fāng)向,这(zhè)也是当下市场需求最大的几个领(lǐng)域(yù)。面对不同的数据领域,云测数据通过流水(shuǐ)化作业,将各个环节打造成不同(tóng)模块,并配合自己的流程(chéng)管理(lǐ)工具,优化人员(yuán)管理、数据(jù)采集、数(shù)据(jù)清洗和数据标注的各(gè)个环(huán)节流程,确保内部的持续高效能运(yùn)转,最终保(bǎo)证AI数据高质产出。
根(gēn)据(jù)IDC调查显示,目前中国大数据发展处于应(yīng)用落地阶段,整个市场(chǎng)预(yù)计未来五年将保(bǎo)持持续增长的(de)趋势,年复合增长率(lǜ)将(jiāng)达到17.3%。而得(dé)益于人工智(zhì)能、5G、区块链、边缘计算(suàn)的发(fā)展,未(wèi)来多方技术融合,数据增长必然呈现井喷态势,数据采集和标准业务作为其伴生体,必然有较大的(de)增(zēng)长空间。
得益于对AI趋势(shì)的(de)判断,Testin云测认为,“人工(gōng)智能(néng)正在逐(zhú)渐往应用人工(gōng)智(zhì)能”方向发展,因而云测(cè)数据在成立之初,就确定了(le)定制(zhì)化“精准高质(zhì)、独(dú)立安全”业务方针。本着(zhe)这张“王牌”,云测(cè)数(shù)据部门迅速扩充,在以(yǐ)往企业服务经验的(de)完美嫁接(jiē)之下,最终(zhōng)让(ràng)云测数(shù)据(jù)成为AI数据服务领域的头部(bù)企业。”
“云(yún)测数据业务规模量每年(nián)都(dōu)在(zài)以倍数的规(guī)模增长(zhǎng),这也(yě)与我们所(suǒ)处赛道的市场深度息息相关,在(zài)我看(kàn)来,整(zhěng)个市场仍然呈现非线(xiàn)性的几何增长态势(shì),还有(yǒu)很多机会蕴含其中,有(yǒu)待挖掘(jué)。”谈及(jí)云测数据业务线发展(zhǎn)状态时,贾宇航如是(shì)说。
“安全”是AI数据(jù)服务提供商绕不开的命题
机会(huì)之下,企业端(duān)在提供(gòng)优质数据的(de)同时,也(yě)要注意数据服务(wù)过程中的规范和安全(quán)。
在这方面,云测数据通过自建(jiàn)数据采集实(shí)验室和自建数(shù)据(jù)标注基地的方(fāng)式,规范管理(lǐ)专职(zhí)数(shù)据服务团(tuán)队。这(zhè)种(zhǒng)措施除了保(bǎo)证标注数据的质量和(hé)效率,也最大(dà)限度地保证了(le)数据产出的安全隐私性。
贾(jiǎ)宇(yǔ)航对钛媒体强调到,云(yún)测数据自伊(yī)始便将数据(jù)安全放(fàng)在首(shǒu)位,集中表现在以下几(jǐ)个方面:
第一,不滥用数(shù)据,数据交付后清毁数据不留底,绝不二次(cì)使用;
第二,不侵犯隐私,与所有(yǒu)数据采集的(de)用户都(dōu)签订(dìng)数据授权协议,确(què)保AI企业用于训练的数据合(hé)法合规;
第三,建立相关(guān)的数据保障机(jī)制,如从防火墙的设置、内部信(xìn)息系统的管护(hù)、乃至标准化的(de)流程作业体系(xì)等。
正如(rú)Testin云测CMO张鹏飞多(duō)次(cì)强调:“即(jí)便说(shuō)云测数据(jù)从安全(quán)到隐(yǐn)私防(fáng)护这套体系(xì)会(huì)加(jiā)重运营成本,但从我们行业大局发展(zhǎn)来看,只(zhī)有以这种负责(zé)的态(tài)度来执行工作,我们的行业才能(néng)‘良(liáng)币驱除劣币’。”