leyu乐鱼


    1. 咨询热线:021-80392549

      leyu乐鱼 QQ在线 leyu乐鱼 企业微信
      leyu乐鱼
      leyu乐鱼 资讯 > AI挖掘技术 > 正文

      自然语(yǔ)言(yán)处理(NLP)的一般处理流程!

      2020/05/253630

      自然语言处理(NLP)的一般处理(lǐ)流程!

      自(zì)然语(yǔ)言处理(lǐ)(NLP)的一般处理流程!


      1. 什么是NLP

      自(zì)然(rán)语言(yán)处理 (Natural Language Processing) 是人工智(zhì)能(AI)的(de)一个子领域(yù)。自(zì)然语言处(chù)理是研究在人(rén)与人交互中以及在人与计算(suàn)机交(jiāo)互中的语言问题(tí)的一门学科。为了(le)建设(shè)和(hé)完善(shàn)语言模型(xíng),自(zì)然语言处理建立计算框(kuàng)架(jià),提出相应的方法来不断的完(wán)善(shàn)设计各种实(shí)用系统,并(bìng)探讨这(zhè)些实用系统的(de)评测(cè)方法。

      2. NLP主要研究方向

      信息抽取:从(cóng)给定文(wén)本(běn)中抽取重要(yào)的信(xìn)息,比如时间、地点、人物、事件(jiàn)、原(yuán)因、结果、数(shù)字、日期(qī)、货币、专有名词等(děng)等。通俗说(shuō)来,就是要了(le)解谁在什么时(shí)候、什么原因、对谁、做(zuò)了什么(me)事、有什么结果(guǒ)。

      文本生(shēng)成:机器像人(rén)一样使用自然语言进行表达和(hé)写作。依据输(shū)入(rù)的不同,文本生(shēng)成技(jì)术主要包括数据到文本(běn)生成(chéng)和文本到文本生成。数据到(dào)文本生成(chéng)是指将包含键值对的数(shù)据转化为自然语(yǔ)言文(wén)本;文(wén)本(běn)到文(wén)本生成对(duì)输入文本进行(háng)转化(huà)和处理从而产生新的文本(běn)。

      问答系(xì)统:对一个自然语言表达的问(wèn)题,由问答系统给出一(yī)个(gè)精准的答(dá)案。需要对自然语言查询语句(jù)进行某种(zhǒng)程度的语义分(fèn)析,包(bāo)括实体链接、关系识(shí)别,形成逻辑表达(dá)式,然后到知(zhī)识库中查找可能的(de)候选答案并通过一个排序机制找出最(zuì)佳的答案。

      对话系统:系统(tǒng)通过一系(xì)列的(de)对话,跟用户进行聊(liáo)天(tiān)、回(huí)答、完(wán)成某一项任务。涉(shè)及到用户(hù)意图理解、通用(yòng)聊天引擎、问答引擎、对(duì)话管(guǎn)理等技术。此(cǐ)外,为了体现(xiàn)上下文相关,要具备(bèi)多轮对(duì)话能力(lì)。

      文本挖掘:包括文本聚类(lèi)、分类、情感分析以及对挖掘的信息(xī)和知识的可视化、交(jiāo)互式(shì)的(de)表达界面。目前(qián)主流的技术都是基于(yú)统(tǒng)计机(jī)器学习(xí)的。

      语音识别和生成:语音识(shí)别是将输(shū)入计算机的语(yǔ)音(yīn)符号识(shí)别转(zhuǎn)换成书(shū)面语表(biǎo)示。语音生成又称文(wén)语转换、语音合(hé)成,它是指将(jiāng)书面文本自动转换成对应(yīng)的语(yǔ)音表征。

      信息过滤:通过计算(suàn)机系(xì)统自动(dòng)识别和过滤符(fú)合特定条(tiáo)件的文档信息。通常指网(wǎng)络有害(hài)信息的自动识别和过滤,主要(yào)用于信息安(ān)全(quán)和防护,网(wǎng)络内容(róng)管理等(děng)。

      舆情分(fèn)析:是指(zhǐ)收(shōu)集和处理(lǐ)海量(liàng)信息,自动化地对网(wǎng)络舆(yú)情进(jìn)行(háng)分析(xī),以实现及时应对网络舆情的(de)目的。

      信息检索:对大规模的文档进行索引。可(kě)简单对文档(dàng)中的词汇,赋之以不(bú)同的权重来建(jiàn)立索引,也可建立更(gèng)加深层的索引。在查询的时候,对(duì)输入(rù)的查询表(biǎo)达式比(bǐ)如一个检索(suǒ)词或者(zhě)一个句子进行分析(xī),然(rán)后在索引里面查找匹配的候选(xuǎn)文档,再根据一个(gè)排序机制把候选文档排序(xù),最后输出排序得分(fèn)最高的(de)文档。

      机器翻译:把输入的(de)源语言文本(běn)通过自动翻译(yì)获得另(lìng)外一种语言的文本。机器翻译(yì)从最早的基于规则的(de)方法(fǎ)到二十年前的基于统计的方法,再到今(jīn)天的基于神经网络(编码-解(jiě)码(mǎ))的方法,逐渐形成了一套比较严(yán)谨的方法体系。

      3. NLP的(de)发展

      1950年前:图灵测试(shì) 1950年前阿兰·图灵图灵测试(shì):人和机器进行交流,如(rú)果(guǒ)人无法判断(duàn)自己交流的(de)对(duì)象是人还是机器,就说明这(zhè)个机器具有智能。

      1950-1970:主流:基于规则形式语言理论

      乔姆(mǔ)斯基,根据(jù)数学中的(de)公理化(huà)方法研究自然语言,采用代(dài)数和集合论把形式语言定(dìng)义为符号的序列。他试图使(shǐ)用有限的规则描述无限(xiàn)的语言现象,发现人类普遍的(de)语(yǔ)言(yán)机制,建立所谓的普(pǔ)遍语(yǔ)法。

      1970-至(zhì)今:主流(liú):基于(yú)统计(jì) 谷歌、微软、IBM,20世(shì)纪70年代,弗里德(dé)里克·贾里尼(ní)克及其领导的IBM华生实验室将语音(yīn)识别率从70%提升(shēng)到(dào)90%。 1988年(nián),IBM的彼得·布朗提出(chū)了(le)基于(yú)统计的机器翻译方法。 2005年(nián),Google机(jī)器(qì)翻译打败基于规则的Sys Tran。

      2010年以后:逆袭(xí):机器(qì)学习(xí)

      AlphaGo先后战胜李世石、柯洁等,掀起人(rén)工智能热潮(cháo)。深(shēn)度学习、人工神(shén)经网络成为热词。领域(yù):语音(yīn)识别、图像识别、机器翻译、自动驾驶(shǐ)、智能家居。

      4. NLP任务的一(yī)般步骤

      下面图片看不清楚的,可以百度脑(nǎo)图(tú)查(chá)看,点击链接


      5. NLP、CV,选(xuǎn)哪个?

      NLP:自然语(yǔ)言处理,数据是文本。

      CV:计算机(jī)视(shì)觉,数据是(shì)图像。

      两者(zhě)属于不(bú)同的领域,在遇到这(zhè)个问(wèn)题(tí)的时候,我(wǒ)也是犹(yóu)豫了很久(jiǔ),想了(le)很多,于是(shì)乎得出一个结论:都是利用深度学习去解决现实世(shì)界存在的问(wèn)题,离开了CV,NLP存活不了(le);离(lí)开了NLP,CV存活不了。两者就像兄弟姐(jiě)妹一样,整个“家庭”不(bú)能分割但个体又(yòu)存在差异!

      NLP/CV属于两个不同的研(yán)究领域,都(dōu)是很好的领域,可以根据自(zì)己的爱好作出适合自己的(de)选择,人工智能是一(yī)个多学科交叉(chā)的领(lǐng)域,需要的不仅仅是单方面(miàn)的能力,而是多方(fāng)面(miàn)的能力。对(duì)于(yú)每个人(rén)来说都有自己的侧重点,选(xuǎn)择自己擅长(zhǎng)的领域(yù)里持续深耕,就(jiù)会有所成就!

      关(guān)键词(cí): AI挖掘技术




      AI人工智能网声明:

      凡(fán)资讯(xùn)来源注明为其他媒(méi)体(tǐ)来源的信息,均(jun1)为转载自其(qí)他媒(méi)体,并不代表本网站(zhàn)赞同(tóng)其观点,也不(bú)代表本网(wǎng)站对其真实(shí)性负责(zé)。您若对该文章(zhāng)内容有任(rèn)何疑问(wèn)或质疑,请立即与网站(www.ankang.huangnan.sys.jixi.ww38.viennacitytours.com)联系,本网站将迅速给您(nín)回应并做处理。


      联系电话:021-31666777   新闻、技(jì)术文章投稿QQ:3267146135   投稿邮(yóu)箱:syy@gongboshi.com

      工(gōng)博士(shì)人工(gōng)智能网
      leyu乐鱼
      扫描二维码关注微信(xìn)
      扫码(mǎ)反馈

      扫一(yī)扫,反(fǎn)馈当前页面

      咨询反馈
      扫码关注(zhù)

      微(wēi)信公众号

      返回顶(dǐng)部

      leyu乐鱼

      leyu乐鱼