早上,王(wáng)爷(yé)爷吃完(wán)饭,机器人“小(xiǎo)明”赶紧提醒王(wáng)爷爷要在半小时之内吃药,吃完药王爷爷坐在(zài)电视机前,“小明(míng)”告诉王爷爷老花镜在茶几的(de)第一个(gè)抽屉中(zhōng)。午休过后,王爷爷要出门散步,“小明(míng)”告诉(sù)王爷爷外面只(zhī)有10度,需要穿外套(tào),并拿上(shàng)伞。
以上的情景绝对不只(zhī)是畅想(xiǎng),随着老龄化和少子化(huà)程度的(de)加深(shēn),机器人会越来(lái)越多走(zǒu)进老年人家庭,成为智(zhì)能养(yǎng)老小助手。但是每个老人(rén)的脾气、性格、需求各不相同,因此要求机器(qì)人能够不断学习,理解老人的(de)隐性需求(qiú),真正(zhèng)能够陪(péi)伴老人。如何满足这些个性化的需求?从人(rén)工智能(néng)的角度分析,就要让机器(qì)人不断(duàn)学习,认识老人(rén)的家庭环境(jìng),理解老人的需求(qiú),但是目前,不管(guǎn)是从机器视觉(jiào)方面,还是自然语言理解方面都面(miàn)临巨大的挑(tiāo)战(zhàn)。
在英特(tè)尔中(zhōng)国研究院2018年(nián)媒(méi)体开放日上,英特(tè)尔的(de)研究人员从计算机视觉(jiào)、自(zì)然语言识别、强(qiáng)化学习等(děng)领域(yù)分享了英(yīng)特尔的研究成果,让(ràng)我们看到未来机器人的(de)发展方向。
目前的(de)技术(shù)瓶颈
机器人进入家(jiā)庭,首先需要认(rèn)识主(zhǔ)人(rén),只(zhī)有认(rèn)识了主人才能进(jìn)行全方位(wèi)的服务,比如主人习(xí)惯什么时候起床,如果起床(chuáng)晚了是否(fǒu)需(xū)要进行提醒?喜(xǐ)欢吃(chī)什么(me)食物,当家里没有了是否需要提(tí)醒子女(nǚ)购买?对于主人和重要物品,目前(qián)是基于(yú)深(shēn)度学习(xí),进行大(dà)量训练(liàn)进行识别,但是即使进行了大(dà)量训练,可能有时候还会出错(cuò),比如(rú)针对老花镜进行了(le)一万张图片的(de)训练,人工智能还(hái)是有可能认错(cuò)主人的老花镜。
另外,由于每个家庭的需求不同,机器人无(wú)法进行预编(biān)译处理,需(xū)要个性化定制。比如有些人(rén)喜欢(huān)静,家里不能随便走(zǒu)动,有些人喜欢(huān)动,需要随时(shí)满足主人的呼唤(huàn)。主人的起床时(shí)间不同(tóng),无法预(yù)先编程,需要根(gēn)据个(gè)人的特点进行观(guān)察。因此,做好机器人不仅需要(yào)人(rén)脸识(shí)别、底层(céng)语义分析,还需要高层语(yǔ)义分(fèn)析,从而让(ràng)机器人的智能程(chéng)度满足个性化需求。
进入家庭后需要(yào)自主(zhǔ)学(xué)习
现在的人脸识别(bié)一般是对正脸(liǎn)进行识别,对于侧脸识别(bié)可能就没有(yǒu)那么灵了(le),如果在家中机器人只(zhī)能识别(bié)正(zhèng)脸将会发生很多尴尬,用户的交互体(tǐ)验也会大打折扣(kòu),因(yīn)此有人想出了通过人体特(tè)征进行辨识,比如衣服,但是当主(zhǔ)人换了衣服机器人(rén)又无(wú)法辨识。英(yīng)特尔所采取的方式是将人脸特征和人体特征相(xiàng)结合,人体特(tè)征不(bú)需要预先(xiān)把人各种各样的衣服都(dōu)要看一遍或者姿态(tài)看一遍才能认,通过人体特征认人,而是通过人脸开始不断地(dì)自我学习,机器人(rén)刚开始通(tōng)过(guò)人脸识别主人,经过一周(zhōu)的交互和观察,可以从各(gè)个角(jiǎo)度(dù)把(bǎ)主人准确地识别出来(lái)。
因(yīn)为主人可能会换(huàn)衣服,机(jī)器人还(hái)会发(fā)生错误,这(zhè)时候(hòu)机器人需要和(hé)主人主动交(jiāo)互,把可能的错(cuò)误进行确(què)认(rèn),这是自我学(xué)习的认人功能。同时,英特尔还研发了一(yī)些自(zì)适应物体识别(bié),比如:药(yào)瓶,通过对一帧的图像标注之(zhī)后,把物(wù)体在线建一(yī)个(gè)模型,后(hòu)续可以把这个物体的边界准确的分割(gē)出来,这(zhè)等于认(rèn)识物体是可(kě)以通过向用户学习的过程实现。
portant;" />
机(jī)器人的主动学习和强化(huà)学习(xí)
让机器人理解:“昨(zuó)天我在客(kè)厅(tīng)里吃药,药瓶(píng)去哪里(lǐ)了?”
在家庭(tíng)生活中(zhōng),王爷(yé)爷可能(néng)问机器人:昨天我在(zài)客厅里吃药(yào),药瓶去哪里了?这个问题貌似非(fēi)常简单(dān),可能三岁小朋友也能理解(jiě),但是对机器人来说里面有很(hěn)难(nán)跨越的技术鸿沟。其中(zhōng)王爷爷是对人的识别,吃(chī)药是动作识别(bié),药(yào)瓶是物体识别,这(zhè)些需要底(dǐ)层识别模块来实(shí)现。再看“昨天”和“客厅”这两(liǎng)个关(guān)键词,客厅是对空间的(de)理解,昨天是(shì)对时间信的理解。如何让机器人理解这句(jù)话?首先(xiān)最(zuì)底层要进(jìn)行(háng)人物(wù)识(shí)别、物(wù)体(tǐ)识别(bié)、情绪检测、动作检测(cè),接下来,有一个(gè)三维语义环境,就是把底(dǐ)层检测(cè)到的信息和物(wù)理(lǐ)环境对应起来,比如人在(zài)什么位置,物体在什么位置(zhì),这件事发(fā)生在什(shí)么位置,这(zhè)些信息只(zhī)有在(zài)三维语义环境的模块中对应上,机(jī)器人才能够理(lǐ)解事件发(fā)生的意义。
英特尔利用(yòng)三维语义环境和个性(xìng)化知识库(kù)这(zhè)两个模块来解(jiě)决这些(xiē)问题(tí),从(cóng)底(dǐ)层的感(gǎn)知模块走到应用,但是底层的感知模块不(bú)可能做到百分之(zhī)百精准(zhǔn)。这个错误会往(wǎng)上层传播,到了空间层,我们希望把底层(céng)的这些信(xìn)息(xī)打上空(kōng)间智(zhì)能(néng)的标签,位置(zhì)跟空间相(xiàng)对(duì)的情况,包括跟空间的三维建模,都是在这一层次(cì)进行(háng)的。理想的情况机(jī)器人到了家里,马(mǎ)上建立(lì)空间模型,并且能够(gòu)理解空间的含义。到了知识库层面(miàn),能够很(hěn)好的记忆(yì)这个知识,基于这个知识进行推理、应用,但是目前的技术还存(cún)在问(wèn)题,不(bú)可能做到百分之百精(jīng)准。
三维语义环境所做的(de)是(shì)从感知(zhī)层得到信息,比(bǐ)如药瓶的位置,用坐标的方(fāng)式(shì)标记出(chū)来,接下(xià)来空间智能要(yào)理解这个(gè)空(kōng)间是客厅还是餐厅,到(dào) 这一层次才能(néng)跟人交流,进而判断出客厅,然后顺(shùn)利在(zài)客厅(tīng)找到药瓶(píng)。可以看出,空间(jiān)智能主要的工作是快速对空间进行建模,并理解这个空间。关(guān)于个性化(huà)的知识图谱(pǔ),主要功能是记(jì)忆和推理,所面临的最大挑战来自于(yú)我们想记(jì)录的知识。人类知识分两块:一块是稳定(dìng)的知(zhī)识,就像谷歌和Facebook力图想存的知识(shí),谷歌叫Google Graph,这些知识(shí)可以事先做(zuò)好(hǎo),并且经过专家审核(hé);另外一种是个性(xìng)化知(zhī)识,是动态变化的,机器人来(lái)到家庭之(zhī)前无法提前获取,为(wéi)了(le)获取(qǔ)这样的知识,我们的(de)挑战必须(xū)要有一个(gè)合适的知识表示,合适的知识推(tuī)理,而且这个知识图谱(pǔ)要(yào)能容忍底(dǐ)层产生的错误。
强化学习让机器人能够(gòu)完成主(zhǔ)动服(fú)务
当机器人能够理解语言(yán)的时(shí)候,说明机器人已经(jīng)具备了和(hé)人沟通的能力,但是想要实现真正的照顾别人,机器人需(xū)要更深的理(lǐ)解能力,不光是被动地去服务,还能主动的猜测主人的(de)意图(tú)。从王爷爷(yé)的(de)例子来看,当王爷爷(yé)需要药瓶时(shí)机器人可以拿给他是一种情(qíng)况,如果机器人看到王爷爷(yé)在找东西,能够猜测他(tā)想找药瓶还是找水(shuǐ),就(jiù)能(néng)提供(gòng)主动服务。这(zhè)里(lǐ)会用到强化学习,它教给机器(qì)人三个功能:一是如何学习新(xīn)的能力;二是如何做的一次比一次好;三是如何主(zhǔ)动地提供正确服务(wù)。
关于一次比(bǐ)一次做的好这一点,需要通过小样本(běn)的强化学习来解决(jué)。我们(men)希望机(jī)器人一次比一次做得好,需要猜测,而猜测本身也是需要优化的。猜(cāi)测的目的主(zhǔ)要有(yǒu)两方面(miàn),一是有(yǒu)时(shí)候不能(néng)进行标注,比(bǐ)如(rú)王(wáng)爷爷走向桌子可能是找(zhǎo)水,走向柜子可能是找药,但是这(zhè)个事情无法去标(biāo)注,机器人(rén)需(xū)要去主动采集样本(běn),通过回(huí)报自(zì)己进行标(biāo)注。强化学习需要不断探索和(hé)优(yōu)化,从而让机器人更加智能。
当然,机器人(rén)的学(xué)习还面临巨大的挑战(zhàn),比如:人(rén)的关节都是全向关节,而机(jī)器人(rén)不能做到这一点(diǎn),每一个关(guān)节只能向(xiàng)一个(gè)方向旋转。如果我们希望把人(rén)的一个动作映射到(dào)机(jī)器人上(shàng),需要做一个推广,使它能(néng)够适(shì)应机器人(rén)独特的运动特性。另外(wài),我们应用时还要考虑(lǜ)到采样成本(běn)的预算,当学习一个(gè)新的性能时,机器人必须一(yī)次学会。我们需要考虑采样成本和比较(jiào)更高级的需求,来达(dá)到对于实际机器人学习来(lái)说可(kě)用的程度(dù)。
关于人工智能会替代人类的(de)说(shuō)法已经(jīng)深入人心(xīn),曾经(jīng)引来一波恐慌,听完英特尔研究院的工程师讲解,笔者(zhě)觉得那个时(shí)代(dài)还很遥远,机器人需要经过漫长的自我(wǒ)学习才能达到熟练(liàn)理解空间和语义的阶段,要实现(xiàn)真正的智能(néng)似乎还需要(yào)计算能力(lì)和(hé)存储能力的进一步的提高,硬件技术和软件算(suàn)法还需要很大(dà)的进步空间。