最具“情商”的新一代(dài)智能机器人(rén)来了!能读(dú)懂上下(xià)文
也许(xǔ)你也有过这(zhè)样的经历,向智能客服咨询问题,却陷入毫无进展的对话(huà)里:
-你们(men)家的面膜都是纯天然的?
-亲亲,我们家的面膜都是芦荟(huì)精华提取(qǔ),纯天(tiān)然(rán)的(de)哦~
-我皮肤有点干,推荐(jiàn)一款呗~
-冬天皮肤干燥(zào)推荐给亲(qīn)亲(qīn)我们(men)的保湿精(jīng)华乳~
-我是要买面膜,你是机(jī)器人吧,让人来说话。
作为(wéi)顾客(kè),此时你大概要叹一句“人(rén)工智能真不智能”。这些所谓“智能”客服们往往只(zhī)能做到(dào)一问一答,一旦对(duì)话涉及稍微复杂的情(qíng)境,它们就开始答非所问。
让人(rén)工(gōng)智能学会根据上下文去处理(lǐ)信息(xī),是自然语言处(chù)理技术一个关键(jiàn)的门槛,也是多年来整(zhěng)个学术界和(hé)工业界都在努力攻克的难题。尽管在通用NLP领域,gpt-2,BERT等算法模型的出现(xiàn),让语义理解取得(dé)了(le)重大进展,但(dàn)是由于专业性强、垂(chuí)直语料库不足等原(yuán)因,某(mǒu)些亟待落地(dì)的应用场景,例如(rú)高(gāo)强度的客服对话,还深陷在开头出现(xiàn)的“人(rén)工智(zhì)障”泥潭中(zhōng)。
最近,这(zhè)个难题迎来了新进展。晓多(duō)科(kē)技(下称“晓多”)开发(fā)的(de)基(jī)于(yú)上下文(wén)的语义识别项目,以(yǐ)深度学习的(de)方(fāng)式,让智能问答机器人能够像人类一样,结合语境(jìng)去(qù)理(lǐ)解(jiě)复杂场景下的(de)对话,并且进行持(chí)续的(de)自我(wǒ)学习,无需人(rén)工设置规则,也能不断扩展和覆盖更多的场(chǎng)景。
从一问(wèn)一答到(dào)读懂(dǒng)语(yǔ)境
为(wéi)什么人工智(zhì)能会有这些“不智能”的表现?这是因为目前市(shì)面上主流(liú)的智能问答机(jī)器人,大部分都是根据单个句子(zǐ)来识别顾(gù)客的意图,从而进行一问一答(dá)的任务(wù)型对话。但在(zài)日(rì)常聊天(tiān)对话中,我们(men)习惯口语(yǔ)化表(biǎo)达,尤(yóu)其在打(dǎ)字时,一般不会大段大段地发送,而会使用很多断句,这种(zhǒng)零(líng)碎的表(biǎo)达使得机器(qì)人无法从单(dān)个句子中准(zhǔn)确识(shí)别(bié)出你(nǐ)的真实(shí)意图,造成答非(fēi)所问的情况。
这对于(yú)服务业来(lái)说是(shì)一(yī)个(gè)致命伤。
和普通的(de)闲(xián)聊机(jī)器(qì)人不同(tóng),智能客服必须做到对(duì)各种场景的精准(zhǔn)识别。因为智能客服(fú)面对(duì)的(de)工(gōng)作,是(shì)要(yào)及时地、明确地(dì)解决顾客的(de)问(wèn)题(tí)。
当你和闲聊机器人逗趣的时候,它答非所问的话(huà)并不会让你烦(fán)躁,反而觉得很有(yǒu)趣味;但当你只想赶紧退货或者得到赔偿时,智能客(kè)服的胡言乱语足够让(ràng)烦躁的顾客给这家店铺打上(shàng)0星,并在评论区洋洋洒(sǎ)洒(sǎ)好几(jǐ)百字,控诉店铺服务不到位。
在(zài)商品售前阶段也是这(zhè)样,智能客服错(cuò)误的(de)回复或答非所问,都会(huì)影响顾客(kè)的体验度,平台(tái)商家竞(jìng)争激烈的(de)情(qíng)况下(xià),得(dé)不到满意答复(fù)的顾(gù)客可能(néng)会很(hěn)快放弃,选(xuǎn)择另外一家(jiā)店铺,从(cóng)而造成(chéng)顾客的大量流失。
单句识别与上下文识别的差别
解(jiě)决(jué)这一问(wèn)题的关键,在于要让(ràng)机(jī)器人像(xiàng)人一样,学会联系上下文,结合语境来对话(huà),而不仅仅对单(dān)个(gè)句子作出(chū)反应。
目前市面上(shàng)其他机(jī)器人(rén)都(dōu)不支(zhī)持上下文语(yǔ)义,他们是在靠规则和流程设(shè)置关键词。也就是说,这个情景中需要什么信息,就(jiù)要设计出对应的问题(tí),让机(jī)器人按照固定的顺序提(tí)问,顾客按照要求回答完所有(yǒu)问题,机(jī)器人才能根据所有信息来进行回应。
例(lì)如(rú),顾客要(yào)购买飞机票,就要设定(dìng)机器(qì)人首先询(xún)问顾(gù)客起点(diǎn)、终点(diǎn)、时间,再问顾客想要什(shí)么等级的座位(wèi)等等,通过这些固定问(wèn)题的答案,把需要的信息补充完整,最终给出推荐(jiàn)。
在(zài)这种情(qíng)况下,每一个(gè)场景(jǐng)都需要人工去设定(dìng)对应的规则,效(xiào)率十(shí)分低下。尤其在电商领(lǐng)域(yù),从(cóng)售(shòu)前(qián)到(dào)售中,再到售后,涉及(jí)到的问题是方(fāng)方面面的,更别说还有购物品(pǐn)类的区别,场景的扩展是(shì)指(zhǐ)数级的,靠人工设定规则去做到全(quán)覆盖(gài),说是(shì)天方夜谭也(yě)不为过。
如果能够将目前(qián)人工智(zhì)能领域(yù)大热的深度学习(xí)应用到这一问题的解决上,让机器人能够通过自己学习,掌握基(jī)于上下文的语义理解,并持(chí)续学习扩展(zhǎn)到各(gè)个场景中,就可以大大地提(tí)高(gāo)智能机器人(rén)面对复杂场景的精准(zhǔn)应对能(néng)力,同时提(tí)高它覆盖各种场景的效率。怀着这样的(de)想法,晓多(duō)开始了上下文语义(yì)项目。
让机器人自己“划重点”:记住重要信息,忘(wàng)记不重要(yào)的
机器人自己学会理解上下文,困难在哪里?晓多算法(fǎ)工程师、本次上下文语义项目的(de)负责人张翀向(xiàng)大数据文摘介绍,最关键的问题(tí)在于要让机器人(rén)像人一样记(jì)得上文的重要信(xìn)息,并且知道这些信息和当(dāng)前(qián)问句(jù)的关联。
在这个问题(tí)上(shàng),目前(qián)学(xué)术界和业界并没有现成的(de)解(jiě)决方案。对此,张(zhāng)翀介绍,晓多为(wéi)新一代(dài)问答机器人创(chuàng)新(xīn)设计了一个深度(dù)学习模(mó)型,包(bāo)含四个模块(kuài):记忆与(yǔ)遗忘、提(tí)炼、融合、输出。
记忆(yì)与(yǔ)遗忘模块赋予(yǔ)机器人记住(zhù)上文关键信(xìn)息的能力。没有记忆能力的机器(qì)人(rén),只会对最近(jìn)的一句话作出反应,而晓多(duō)的模型(xíng)可以帮助机器人(rén)把前后的诉求(qiú)关联起(qǐ)来,及时作出准确的推(tuī)荐。
点击图(tú)片(piàn)查看详细(xì)内容(róng)
在技术上,晓多做出了一(yī)个(gè)此前业界还没有实(shí)现过的创新应(yīng)用,参(cān)照一个(gè)名叫长短期记忆网络(LSTM)的结构,设计(jì)实(shí)现会(huì)话级别的记忆和遗忘。
晓多(duō)的又一创新,是(shì)应用于提(tí)炼模块的注意(yì)力机制。它会(huì)自动对(duì)上文的(de)每(měi)一(yī)条信息(xī)进行计算(suàn),算出这些(xiē)信息与当前句子对(duì)应的重要程度,重要程度高(gāo)的,就(jiù)会被(bèi)保留下来。
假如顾客得到(dào)了满意的产品推荐之后,又提出“什么时候发货(huò)”的问题,注意(yì)力机制通过(guò)计算,就会发现上文的重(chóng)要程度(dù)并不高(gāo),这样,无(wú)用的(de)信息就会被过滤(lǜ),与(yǔ)当前对话有关(guān)联的上文信息(xī)被(bèi)选取出来,进入下(xià)一个模块(kuài)中。
在融(róng)合(hé)模块中,机器人会对提炼出的(de)上文关键信息和当前聊天消息结(jié)合,来识(shí)别顾客的(de)意图。晓多采用的方式是在(zài)向量空间做梳理,简单(dān)来(lái)说,可以理解为提取(qǔ)上文关键信息是在机(jī)器(qì)人大脑内部的(de)一个操作,这(zhè)之后,再在一个抽(chōu)象(xiàng)的空间里(lǐ),把提取出来的关键(jiàn)信息与当(dāng)前的单句进行综(zōng)合,最终输出一(yī)个(gè)结合(hé)上文信(xìn)息和(hé)当前单句所做出的判断(duàn)。
这个模型在实(shí)验(yàn)中(zhōng)得(dé)到的数据令人惊(jīng)喜。晓多(duō)从真实电商(shāng)聊天?志(zhì)中抽取了若(ruò)?涉及上下?的问答样(yàng)本(běn),构造两份意图识别测试(shì)集,分(fèn)别对(duì)应两个电商领域,对?发现结合上下?预测(cè)的模型效果远超只根据单句预测的模型:
recall(召(zhào)回率)=机(jī)器(qì)人(rén)正确识(shí)别的问(wèn)题数/问题总数;
Precision(精(jīng)确率)=机(jī)器人正确识别的问题数(shù)/机器人(rén)已识别的(de)问题数;f1core=2*precision*recall/(precision + recall) ,表示综合考虑(lǜ)召回率和精确率的评(píng)分;
这些工作并不(bú)是想(xiǎng)到就(jiù)可以(yǐ)做到的(de),对机器(qì)人的训练需(xū)要(yào)大量的数(shù)据(jù),迁移(yí)学习能(néng)力是晓(xiǎo)多能够实现这些创新的关键。
“人工(gōng)智能的深(shēn)度学习,突出(chū)的特(tè)点就是对数据的依赖(lài)非常大(dà),”张翀说,“因为深(shēn)度学习模型的参数(shù)非常多(duō),你可以理解为它(tā)是一个(gè)更复(fù)杂的智能体,数据是它学(xué)习的依据,它(tā)要学习的东(dōng)西越多,需要的数据就更多,而你给它的(de)数据越多,它也越聪明。”
目前,晓多的标注团队从上百亿的(de)数据中进(jìn)行分析提取的价值样本,提供给机(jī)器学习进行数据训练。
如果每(měi)一步都需要(yào)人工设(shè)计(jì),从发(fā)现场景(jǐng)、总结(jié)规(guī)律,到最(zuì)后开发、测(cè)试、上线(xiàn),可(kě)能需要(yào)至少两周(zhōu)的时间才能扩展一个场景,张翀介绍说,而使(shǐ)用(yòng)这(zhè)样的数据标注让机器进(jìn)行(háng)深度(dù)学习,只需要几天的(de)时(shí)间,就可以(yǐ)同时扩(kuò)展几十(shí)个场景、几百个产品。
各个行(háng)业的电(diàn)商客服需要(yào)应对的场景虽然有(yǒu)很多(duō)差异(yì),但有(yǒu)一些数据却(què)是(shì)通用的,包括关于快递物流的问答等。晓多对标注好的数据进行了模(mó)块(kuài)拆(chāi)分,区(qū)分出通用数据,当机器人需要对新行业进行学习时,可以直接使(shǐ)用这些标注好的通用数据,实现迅速的(de)扩展学习。
谈(tán)到数据、算法和计算能力的关系,张(zhāng)翀认为,数据是基础,大数据为机(jī)器学习(xí)装上(shàng)引(yǐn)擎;算(suàn)法是核心,将人工智能带到全(quán)新高度;而计算能力是保障,为算法的实现提供坚实的后(hòu)盾。
不止于此,顾(gù)客体验迎来后智能化(huà)时代
从售前(qián)的商品导购,到售中咨(zī)询运费、活动赠品等(děng),目前,晓(xiǎo)多(duō)的(de)上(shàng)下文(wén)语义(yì)项目已经(jīng)投(tóu)入使用,覆盖了多种电商(shāng)服务场景(jǐng)。这仅仅只是这项技(jì)术投入应(yīng)用(yòng)的第一(yī)步(bù),晓多的业务计(jì)划中,还涉及到更(gèng)多的业(yè)务铺开。在售前,顾客可能会要求客(kè)服进(jìn)行商品推荐,他们(men)的需求点信息包含在整个(gè)对话过程中(zhōng)。传统的客服机(jī)器人只能根据顾(gù)客(kè)最后的需求进行推(tuī)荐,而晓多机器人(rén)会对顾(gù)客(kè)的会话信(xìn)息(xī)进行(háng)分析(xī),更加准(zhǔn)确(què)地识(shí)别到顾客的真实需(xū)求,推荐给顾客(kè)符合(hé)心意的(de)产(chǎn)品。
点击图(tú)片(piàn)查看详细内容
另外(wài),对于电商(shāng)行业中热门(mén)的服装领域来说(shuō),售(shòu)前的服装尺码推荐(jiàn)是(shì)客服经常(cháng)会(huì)遇到的(de)问题,店铺内大量商品的尺码(mǎ)各不相同,尺码问(wèn)题会耗(hào)费客(kè)服大量的人力。通过上下文识别(bié)的手段,客服机器人可以(yǐ)获取顾客的(de)尺码信息(xī),准(zhǔn)确地进行尺码(mǎ)推荐。
点(diǎn)击图片查看详细内容
在销售过程中,顾(gù)客常常(cháng)要询问运费问(wèn)题,这(zhè)就涉及到了首次购买和退换货两种(zhǒng)场景。没有上(shàng)文语境,机器人就(jiù)只能解读(dú)出“运(yùn)费”,而不能(néng)准确地判断顾客询问的是首(shǒu)次购物运费还(hái)是退换货运(yùn)费,可能导致错误(wù)的回复(fù)。而在加入(rù)了(le)上下文理解后,机器人能(néng)够准确判断顾客的(de)实际问题(tí),准确地回复此类问题。
点击图片(piàn)查看(kàn)详细(xì)内容
另一(yī)个(gè)常见的售中(zhōng)场景是关于(yú)活(huó)动赠品的问题。当(dāng)店(diàn)铺进行活动(dòng)优惠提供赠品时,顾客的提问可(kě)能不是针(zhēn)对商品,而是针对赠品,需要(yào)机器人通过(guò)语境来识别,防止(zhǐ)混淆这两(liǎng)个方面的(de)提问(wèn),给出张(zhāng)冠李戴(dài)的答案(àn)。
这(zhè)项技术不但(dàn)可以应用(yòng)在智能(néng)对话上(shàng),智能营销、智能质检、情绪识别……客服行(háng)业(yè)中还存在着更多未(wèi)被开发的可能性。
对于晓多(duō)来说,这意(yì)味着他们为顾客提供的服务,向超(chāo)专家级更进(jìn)了(le)一步。“我们现在可能只是把它应用(yòng)在语(yǔ)义识别上,但后续我们在(zài)其(qí)它(tā)业务(wù)线上还可以继续(xù)铺开(kāi)。我们把它当成一个基础的能力,一(yī)个(gè)支撑我们整(zhěng)个公司(sī)的算法产品。”张(zhāng)翀说。
晓多(duō)也期(qī)待着,上下文语义识别可以作(zuò)为(wéi)技术基(jī)石(shí)应用到行业各个方面,通过推(tuī)开这项技术的应用(yòng),机器(qì)人可以自(zì)动生成尺码表(biǎo),自动获(huò)取个(gè)性化对话内容进行系(xì)统自动萃取(qǔ)对(duì)接等等,机(jī)器人(rén)行业一直以来由(yóu)人工配置的时代可能走向终结,而迎来(lái)一个从(cóng)数据中(zhōng)学(xué)习后智能化自动生成的时代。