自然语言处理(英(yīng)文(wén)Natural Language Processing,简称NLP)是人工智能(néng)(英(yīng)文Artificial Intelligence,简称AI)领域的重要研究课题,被誉为人(rén)工智能技术的一个掌上明珠;它研究能实现人与(yǔ)计算(suàn)机之间用自然语言进行有效通信的各(gè)种理论和方法,涉及(jí)面极为广(guǎng)泛。国际知名学者周海(hǎi)中先生曾经(jīng)指出:“自然语(yǔ)言(yán)处理是极有吸引力(lì)的(de)研究领(lǐng)域,它具(jù)有重大的理论意义和实用价值。”目前,NLP已成为推动科技发展的(de)强(qiáng)大动(dòng)力,并成为世界(jiè)各(gè)国综合国(guó)力竞争(zhēng)的(de)焦点。
NLP主(zhǔ)要(yào)研(yán)究能实现人与(yǔ)计算机(jī)之间用(yòng)自然语言进(jìn)行(háng)有效通信的各种理论和方法。而用(yòng)自然语(yǔ)言与计算机进(jìn)行通信,有着(zhe)十(shí)分(fèn)重要的实际(jì)应用意义,也有着革命性(xìng)的理论意义。实(shí)现人机间自然语言通信意味着要使计算机既(jì)能理解自然语言文(wén)本的(de)意义,也(yě)能以自然语(yǔ)言(yán)文本来表达给定的意(yì)图、思想等;前者称为(wéi)自然(rán)语言理解(英文Natural Language Understanding,简称(chēng)NLU),后者称为自(zì)然语(yǔ)言生成(英文Natural Language Generation,简称(chēng)NLG)。因此,NLP大(dà)体包括了NLU和NLG两(liǎng)个(gè)部分;因为处理(lǐ)自然语言的关键是要(yào)让计算机(jī)“理解”自(zì)然语言,所以通常把NLU视为(wéi)NLP,也(yě)称(chēng)为计算(suàn)语言学。
NLP是(shì)一门融语(yǔ)言学、计算机科学、数学(xué)于(yú)一体的科学。因此(cǐ),这一领域(yù)的研(yán)究将涉及自然语言,即人们日(rì)常使用的语(yǔ)言,所以它(tā)与语言(yán)学的研究有着密切的联系,但又有重要的区别。NLP并不是(shì)一般地(dì)研究自然语(yǔ)言,而(ér)是研制能有效地(dì)实现自然语言通信的计算机系统,特别是其(qí)中的软件系统。因而它是计算机科学(xué)的一部分(fèn)。可以说,NLP是计算机科学(xué)、语言学、AI等关注计(jì)算机和人类语言之间的(de)相(xiàng)互(hù)作用的领域。目前,人们对AI的需求也从计算智(zhì)能、感知智能(néng)到了以NLP为代表的认知智能的(de)层(céng)面。没有成功(gōng)的(de)NLP,就不(bú)会(huì)有真正的认(rèn)知智(zhì)能。
由于AI包括感知智(zhì)能(néng)(比如图(tú)像识别、语言识别(bié)和手势识别等(děng))和认知(zhī)智(zhì)能(néng)(主要(yào)是语(yǔ)言(yán)理解知识(shí)和推理(lǐ)),而语言(yán)在认知智能(néng)起到最核心的作用(yòng)。如果能把语言问题(tí)解决了,AI最难的部分也(yě)就基本解决了。美国微软公司创(chuàng)始人比尔·盖茨先生曾经表示,“语言理解是人工智能领域皇冠上的明(míng)珠(zhū)”。前微软公司全球执行副(fù)总裁沈向洋先生也(yě)在公(gōng)开演讲时说:“懂语(yǔ)言者得天下(xià)……下一(yī)个十年,人工智(zhì)能的突破在自然语(yǔ)言的理解(jiě)……人工智能对人(rén)类影响最为深刻的就是自(zì)然(rán)语(yǔ)言方(fāng)面”。由于理解自(zì)然语(yǔ)言需要关于(yú)外在(zài)世(shì)界的广泛知识(shí)以及运用操作(zuò)这些知识的能(néng)力(lì),所(suǒ)以NLP也被视为解决AI完备(AI-complete)的(de)核心问题之(zhī)一。可以说,NLP目(mù)前是AI领域(yù)的重要研究课题,对它的研究也(yě)是充满(mǎn)魅力和挑战的。
当前AI技术在认知智能(néng)层面仍面临诸多挑战。如果我们有所推进的话,我们(men)的认知智能就会进一步提升,包括(kuò)语言(yán)的理解水(shuǐ)平、推理水平(píng)、回(huí)答(dá)问题能力(lì)、分析能力、解决问题的能力、写作能力(lì)、对(duì)话能力等。然后再加上感(gǎn)知智能的进步,声音、图象、文字的识别和生成的(de)能力,以及(jí)多模态文、图交叉的能力,通(tōng)过文字(zì)可以生成(chéng)图象,根据(jù)图象可以生成描(miáo)述的文字等等,我们就可以推进(jìn)很多人类的应用(yòng),包括搜索(suǒ)引擎、智(zhì)能客服,包括教育、财政、电子商务等(děng)各个(gè)方(fāng)面的应用;也可以把AI技术(shù)用(yòng)在(zài)我们(men)的产业上,帮助产业实现数字化转型。
最早的NLP研究(jiū)工作是机器翻译。1949年(nián),美国知名科学家沃伦·韦弗(fú)先(xiān)生首(shǒu)先提出了(le)机器翻译设计方案(àn)。20世纪(jì)60年代,许多科学家对机器(qì)翻译曾有大规模的研究(jiū)工作,耗费了巨额费用;但他们显然是低估了自然(rán)语言的复杂性,语言(yán)处理的理论(lùn)和技术均不成熟,所以进展不大。当(dāng)时的主要做法是存储(chǔ)两种语言的单词、短语(yǔ)对应译法的大辞(cí)典,翻译时一一对应,技术上只是调整(zhěng)语(yǔ)言的同条顺序。但日常(cháng)生(shēng)活中语言的翻(fān)译远不是如(rú)此简单(dān),很多时候还要参考某句话前(qián)后的(de)意思,需(xū)要上下(xià)文联系(xì)起来(lái)才(cái)能(néng)正确翻译——这就是机译技(jì)术难度高之所在(zài)。
大约20世纪90年代开始,NLP领域发生了巨大的变化(huà)。这(zhè)种变化有两个明显的特征:(1)对(duì)系统(tǒng)的输入,要求研制(zhì)的(de)NLP系统能处理大规(guī)模(mó)的(de)真实文本,而不是如以前的研(yán)究性系统那样,只能处理很少的词条(tiáo)和典型(xíng)句子。只有这样,研制的系统才有真(zhēn)正的实(shí)用(yòng)价值。(2)对系统的输出(chū),鉴于真实地(dì)理(lǐ)解自然语言(yán)是十分(fèn)困难的,对系统并不要求(qiú)能对自然语言文本进行深(shēn)层的(de)理解,但(dàn)要能从中(zhōng)抽取有用的信息。同时,由于(yú)强调(diào)了(le)“大规(guī)模”和“真实文本(běn)”,所以下面两方面的基础性工(gōng)作也得到了重视和加强:(1)大规模真实语料库的研制。大规(guī)模的经过(guò)不同深度加工的真(zhēn)实文本的语料(liào)库,是(shì)研究自然语言统(tǒng)计性(xìng)质的基础;如(rú)果(guǒ)没有这样(yàng)的语(yǔ)料库(kù),统(tǒng)计方法只能是无源之水。(2)大(dà)规(guī)模、信息丰富的词典的编制工作。因此(cǐ)规模为几万,十几万,甚至几十(shí)万词,含(hán)有丰富的信息(如包(bāo)含(hán)词的搭配信息(xī))的计算机(jī)可用词典对NLP的重要(yào)性是很(hěn)明显的。
系统的(de)输入与输出这两个特征在(zài)NLP的诸多领(lǐng)域都(dōu)有所体现,其发展直接促进(jìn)了(le)计算机自动检索技(jì)术(shù)的出(chū)现和兴起(qǐ)。实际上,随着计算机技术的不断发展,以海量计算为(wéi)基础的机器学(xué)习(xí)、数据(jù)挖掘、数据建模等技术的表现(xiàn)也愈发优异(yì)。NLP之所以(yǐ)能够度(dù)过(guò)“寒冬”,再次发(fā)展(zhǎn),也(yě)是因为计算机科(kē)学与统(tǒng)计(jì)科(kē)学的不断结合,才让人类甚至机器能够不断从大量数据中发现“特征”并加以学习(xí)。不过(guò)要(yào)实现对自(zì)然(rán)语言真正意义上的理解,仅(jǐn)仅从(cóng)原始(shǐ)文本中(zhōng)进行学习是(shì)不够的,我们还需要新的方法和模型。
目前存(cún)在的问题主要有(yǒu)两个方(fāng)面:一方面,迄(qì)今(jīn)为止的语(yǔ)法都(dōu)限于分析一(yī)个孤立的(de)句(jù)子,上下文关系和谈话环(huán)境对本句的约(yuē)束和影响还(hái)缺乏系统的(de)研究,因此分析歧义、词(cí)语(yǔ)省(shěng)略、代词所指(zhǐ)、同一(yī)句话在(zài)不同场合或(huò)由不同(tóng)的人(rén)说(shuō)出来(lái)所具有的不(bú)同含义等问题,尚(shàng)无(wú)明确规律可(kě)循(xún),需要加强语义学(xué)和语(yǔ)用学的研究(jiū)才能逐步解决。另一(yī)方面,人(rén)理解(jiě)一(yī)个句子不(bú)是单(dān)凭语法,还(hái)运用了大量的有关知(zhī)识,包括(kuò)生(shēng)活知识和专门知识,这些知(zhī)识无(wú)法全(quán)部贮(zhù)存在计算机里。因此一(yī)个书(shū)面理解系统只能(néng)建立在有限的词汇(huì)、句(jù)型和(hé)特定的主题范围内;计算机(jī)的贮存量(liàng)和运转速(sù)度大大提(tí)高之(zhī)后(hòu),才有可能适当扩大(dà)范围。
由于语(yǔ)言工程、认知科学等主要局(jú)限于实(shí)验室,目前来(lái)看数据处理可能(néng)是NLP应用场景(jǐng)最多(duō)的(de)一个发展方向(xiàng)。实(shí)际上,自(zì)从进(jìn)入(rù)大数据时代,各大平台就没有停止(zhǐ)过对用户数(shù)据(jù)的深(shēn)度挖掘。要(yào)想提取(qǔ)出有(yǒu)用的信息,仅提取关键(jiàn)词、统计词频等(děng)是远(yuǎn)远(yuǎn)不够的,必须(xū)对用户数据(尤其是发(fā)言、评论(lùn)等)进(jìn)行语义上(shàng)的理解。另外,利用离线大(dà)数据统计分析的方法进行NLP任务的研(yán)究(jiū)是目前(qián)非常有潜力的一种研究范式,尤其是谷歌、推特、百度(dù)等大公司在这(zhè)类应用上的成功经验,引领了目前大数据研究的浪潮。
NLP是为各类企(qǐ)业及开发者提供的用(yòng)于文本分析及挖掘的(de)核(hé)心工具,已经(jīng)广(guǎng)泛应用在电商、金(jīn)融、物流、医疗、文化(huà)娱乐等行业客(kè)户的多(duō)项业务中。它可帮助用(yòng)户搭建内(nèi)容搜索(suǒ)、内容推荐(jiàn)、舆情识别及分(fèn)析、文本结构化(huà)、对话机器(qì)人(rén)等智(zhì)能产品,也能够通过合(hé)作,定制个性(xìng)化的解决方案。由于(yú)理(lǐ)解自然(rán)语(yǔ)言,需要关于(yú)外(wài)在世界的广泛知识(shí)以及(jí)运用操作这些知(zhī)识的能力,所以NLP也被视为(wéi)解决强AI的核心问题之一,其未来一般也因此密切结(jié)合AI发展,尤其是设计一个(gè)模仿人脑的神经网络。
训练(liàn)NLP文本(běn)解析AI系统需要采集大(dà)量多源头数据(jù)集,对科学家(jiā)来说是一项(xiàng)持续的挑战:需要使用最(zuì)新的深度学习模型,模仿人类大脑中神经元(yuán)的行(háng)为,在(zài)数百万甚至数十亿的注释(shì)示例中(zhōng)进(jìn)行训练(liàn)来(lái)持续改(gǎi)进。当下一种(zhǒng)流行的NLP解决方案(àn)是(shì)预训练(liàn),它改进了对未标记(jì)文本进行训练的通(tōng)用(yòng)语言模(mó)型,以执行特(tè)定任(rèn)务;它(tā)的(de)思想就是(shì),该模型的参数不再是随机初始化,而是先有一个任务进行训练(liàn)得到一(yī)套模(mó)型(xíng)参数,然后(hòu)用这套参(cān)数对模型进行初始化,再进行训(xùn)练,以获(huò)得更好的预测性(xìng)见(jiàn)解。
目前我们已经进入了以(yǐ)互联网为主要标志的海量信息(xī)时代,这些信息(xī)大部分(fèn)是以自(zì)然语言表(biǎo)示的。一方面(miàn),海量信息也为计(jì)算(suàn)机学(xué)习人类语言提(tí)供(gòng)了更多的“素材”;另一方面(miàn),这(zhè)也(yě)为(wéi)NLP提供了更加宽广的应用舞(wǔ)台。例如,作为NLP的重要应用,搜索引擎(qíng)逐渐成(chéng)为(wéi)人们(men)获(huò)取(qǔ)信息的重(chóng)要工(gōng)具,出现了以谷歌(gē)、百度等为代表的(de)搜索引擎巨头;机器翻译也从实验室走入(rù)寻常百(bǎi)姓家(jiā);基于自然语(yǔ)言处理的中文输(shū)入法(fǎ)(如搜狗、微软(ruǎn)、谷歌等输入法)成为计算机用户(hù)的必(bì)备工具;带有(yǒu)语音识别的计算机和手机也(yě)正大(dà)行其道,协助(zhù)用户更有效地(dì)生活、工作和(hé)学习(xí)。
现在,NLP领域(yù)已经有了大量的人工标注知识,而深(shēn)度学(xué)习可以通(tōng)过有监督学习得到相关的语义知识(shí),这种知识和人类(lèi)总结的(de)知(zhī)识(shí)应该存(cún)在某(mǒu)种对应关系,尤(yóu)其是(shì)在(zài)一些浅层语义方面。因为人工标注,本质上已(yǐ)经给深度学习提供了(le)学习的目(mù)标;只是深度学习(xí)可以不眠不休地学(xué)习,这种逐步靠(kào)拢学习目标的过程,可能远比人类总结过程来得(dé)更快更好。这一点,从谷(gǔ)歌公司旗下DeepMind研究(jiū)团队(duì)开发(fā)的围棋(qí)软件(jiàn)AlphaGo短时间内(nèi)连胜两位人(rén)类(lèi)围棋(qí)高手的事(shì)实,似乎能(néng)够得到验(yàn)证。
深度学习(xí)在NLP中的应用非常广(guǎng)泛,可以说横(héng)扫(sǎo)NLP的(de)各个应用,从底层的分词、语言模型、句法分析、语音识别等(děng)到高层的语义理解、语用阐释、对话管理、知识(shí)问答等方面都几乎都有深度学习的(de)模型,并且取得了不错(cuò)的(de)效果。有关研究已(yǐ)从(cóng)传统的(de)机(jī)器学习算法转变成更有(yǒu)表现力的(de)深(shēn)度学(xué)习模型,如卷积神经网络和回归神(shén)经网络(luò)。不过,目(mù)前的深(shēn)度学习技术还不具备理(lǐ)解和使用自然(rán)语言所(suǒ)必需的概念(niàn)抽象(xiàng)和逻辑(jí)推理能(néng)力,还有待今后进(jìn)一(yī)步的(de)研(yán)究。
互(hù)联(lián)网(wǎng)搜索引(yǐn)擎已(yǐ)经(jīng)有(yǒu)一段时(shí)间让人们使用会(huì)话语言和术语来(lái)在线搜(sōu)索(suǒ)事物。现(xiàn)在,谷歌公司的(de)云(yún)端硬盘(pán)用户已经可以使(shǐ)用这一功能。用户可以搜索存储在谷歌云端硬盘中的文件和内容,就像使用谷歌搜(sōu)索提供(gòng)的(de)对云端硬盘内置(zhì)NLP的新支(zhī)持一样。该功能(néng)使用户可(kě)以使用(yòng)通常用词组表达的(de)查询以及在实际(jì)对话中将要使用的查(chá)询来更轻松地找到(dào)所需的内容。谷歌公司在在线和移动搜索(suǒ)、移动应用程序以及GoogleTranslate等服务(wù)中(zhōng)广泛使用NLP;该(gāi)公司在这一领域的研究(jiū)是(shì)为提高机器阅读和理(lǐ)解人类语言能(néng)力(lì)所做的更广(guǎng)泛努力的一部分。随着谷歌调整其算法,NLP应该会随着时间的推移(yí)变得更好。
前不久(jiǔ),英国(guó)剑桥量子计(jì)算公(gōng)司(sī)(CQC)宣布(bù),他们利用自然语言的“固有量子”结构,开辟了一个(gè)全新的可(kě)能应用领域。其通过将(jiāng)语法(fǎ)句子(zǐ)翻译成量子线路,然(rán)后在量子计算机上实现生成的程(chéng)序,并(bìng)实际执行问答。这是(shì)第一次在(zài)量子计(jì)算机(jī)上执行NLP。通过使用CQC的一流的、平台无关的可重定(dìng)目标编译器t|ket)™,这些(xiē)程序在IBM量子计算(suàn)机上成功执(zhí)行(háng)并得到结果,整(zhěng)个突(tū)破(pò)朝着实现“意义感知(zhī)”和“语法(fǎ)知悉”的NLP方向迈出了有意义的一(yī)大步——这是计算机时代(dài)早(zǎo)期以来计算机科学家及计算语(yǔ)言学家追寻的(de)梦想。
美国哈佛大学医学院的研究人(rén)员借助NLP技术最近开发出一(yī)种(zhǒng)工具(jù),可以评(píng)估新冠肺炎(COVID-19)患者的(de)病例、社交媒体和健康卫生(shēng)数据(jù)。他们率(lǜ)先(xiān)努力通过(guò)使用机器学习技术查看来自各种来源的数据(jù)和信(xìn)息(包括患者记录、社交媒(méi)体(tǐ)和公共卫生(shēng)数据)来寻(xún)找新冠肺炎(yán)病毒的解决(jué)方案。借助NLP工具,他们还可以搜(sōu)索有关(guān)新冠肺炎病毒(dú)的在线信息(xī),并了(le)解爆发的(de)当前位置(zhì)。另外,研究人员还利用NLP技术对新冠肺炎、药物和(hé)疫苗(miáo)等密集展开(kāi)研究,同时包括临床诊断与治疗以及流行病学研究等(děng)。
中国阿里达摩院(yuàn)的NLP研究(jiū)团队提出了优化(huà)模型Struct BERT,能让机器更(gèng)好地掌握人(rén)类(lèi)语法,加深对自然语言(yán)的理解。使用该模(mó)型(xíng)好比给机器内(nèi)置一个“语法识别器”,使机(jī)器(qì)在面(miàn)对语序错乱或(huò)不符合语法习惯的词句时,仍能准确理解并给出(chū)正(zhèng)确的(de)表达和回应,大大提高(gāo)机器对词语(yǔ)、句子以及语言整体(tǐ)的(de)理解力。这一技术已广泛(fàn)使用于阿(ā)里旗下阿里小蜜、蚂蚁金(jīn)服(fú)、优酷(kù)等(děng)业务。阿里达(dá)摩院的语言(yán)模型和(hé)阅读理解技术也(yě)被(bèi)用(yòng)于(yú)行业赋能(néng),推进AI技术在医疗、电(diàn)力、金融等行业的(de)落地。据(jù)悉(xī),StructBERT模型在(zài)2020年(nián)被评(píng)为全球性能最强的NLP系统(tǒng)。
知名市(shì)场(chǎng)分(fèn)析机(jī)构Mordor Intelligence的一份报告指出,在过去的几年(nián)中,深度(dù)学习(xí)架构和(hé)算法在市(shì)场格局中取得了令人瞩目的进(jìn)步,而语(yǔ)音(yīn)分析解决方案正在主导着这一市场,因为传统的基(jī)于文本的分析已不足(zú)以处理(lǐ)复杂(zá)的(de)业务(wù)问题(tí)。据估计,2025年NLP市(shì)场(chǎng)规模(mó)将(jiāng)比2017年增长14倍(bèi),从30亿美元左右增长到430亿美元以上。
总之,随着互联网的普及和海量信息(xī)的涌现(xiàn),作为AI领(lǐng)域的重(chóng)要研究(jiū)课题和掌上明珠,NLP正在人们的(de)生活、工作、学习(xí)中扮演着越来越(yuè)重要的角色(sè),并将在科技进步与(yǔ)社会发展的过程中发挥越来越重要的作(zuò)用。
文/林峰、李(lǐ)炎(作者(zhě)单(dān)位分别为美国(guó)波士顿大学工学院、普渡大(dà)学科技学院)