leyu乐鱼


    1. 咨询(xún)热线:021-80392549

      leyu乐鱼 QQ在(zài)线 leyu乐鱼 企业微信
      leyu乐鱼
      leyu乐鱼 资讯 > 人(rén)工智能 > 正(zhèng)文(wén)

      嘘!AI正在悄悄听懂你说的(de)话

      2019/02/12机(jī)器人457

      小时(shí)候看特务电影(yǐng)时,特工们往(wǎng)往有(yǒu)一(yī)项必备的技(jì)能,就是隔(gé)着几(jǐ)百米远(yuǎn)盯着正在说话的对象,从嘴型判(pàn)断出(chū)对方在说(shuō)什么。有了这(zhè)种记(jì)忆(yì),导致如今看什(shí)么语音识别技术(shù)都觉得相当一般——我(wǒ)都说(shuō)出声儿了你(nǐ)才听(tīng)懂,算什么AI好汉。

      不(bú)过最近一项专利申请表明,微软正在向特工学习,推出了无声语音识别技(jì)术。当AI也能像(xiàng)特工一样,无声之(zhī)中辩人言,我们的世界(jiè)究竟(jìng)会有什么不同?

      除去(qù)唇语识别,AI还有(yǒu)什么方式悄悄听懂你的话?

      说起无(wú)声语音识别,可能很多人(rén)第一反应就是复制人类(lèi)的方式(shì),利用图像(xiàng)识别进行辩读唇语。而(ér)利用(yòng)唇(chún)语(yǔ)进行语音识别这种方式也由来已久,但是识别的准确率一直不算高(gāo)。DeepMind曾在2016年做过测试,经过1万小时的新闻视频训练,AI唇语准确(què)率达到了46.8%。国(guó)内(nèi)有(yǒu)一家企业曾(céng)经提供过相关(guān)数据:在对中文新(xīn)闻视频(pín)的识别中,准确率达到了70%。而搜狗所推出(chū)的驾驶场景下的唇语识别(bié),因为涉及(jí)到的词汇(huì)量很少,准确率能够(gòu)达到90%。

      可以发现(xiàn),相(xiàng)比现在(zài)主流语音识别(bié)动辄95%、97%的准确(què)率,唇(chún)语识别准确程度实在是有些拿(ná)不上台面。对于中(zhōng)文这种一字一音节的(de)语言来说还好,对于英文这(zhè)种连音很多(duō)的语言来说,唇语识(shí)别(bié)要跨越的门槛确实不(bú)小。

      另一方面来看,唇语识别所涉(shè)及到伦(lún)理(lǐ)问题实在过于严重。唇语识别(bié)的“射程(chéng)”太远,如果这种技(jì)术真的发展成熟,意味着天网之下的我(wǒ)们在(zài)交谈时将再无隐私。在隐私焦虑越来越浓的今天,哪家企业公开(kāi)研究(jiū)这项技术,只(zhī)怕是觉得(dé)自己家(jiā)的公关部(bù)门过(guò)得太清闲。

      因(yīn)此包括(kuò)微软在内的产业和学界,都(dōu)在寻找一种更精准也更隐私的(de)无(wú)声语(yǔ)言识别(bié)。目前看来,无声语音识别(bié)的技(jì)术方向可(kě)以被(bèi)分为两(liǎng)个(gè)“派系”,一是(shì)“气宗”,另一个是“电宗”。

      微软(ruǎn)所提(tí)交的(de)专利,就是典型的(de)“气宗”——在终端(duān)上(shàng)添(tiān)加传感器(qì),通(tōng)过感知用户说话时的气流来(lái)判断(duàn)用户(hù)说话的内容。这种终端(duān)如同一只小型麦(mài)克风,置于(yú)用户嘴边,用户在说话时形成的(de)气流会在设备中(zhōng)形(xíng)成反(fǎn)射,经(jīng)过训(xùn)练,可以将这(zhè)些气流反射的信号和文(wén)字一(yī)一(yī)对应。

      而“电(diàn)宗”则更(gèng)加(jiā)神(shén)奇,我们知(zhī)道人在说话时需要调动整(zhěng)个(gè)下半(bàn)张脸的肌肉,不同的文字发音所调动(dòng)肌肉的方式也并不相同。通过对面(miàn)部EMG(肌电)信号的采(cǎi)集,来(lái)学习人(rén)类说话时面部EMG信(xìn)号特征,并通过(guò)神经网络(luò)的训(xùn)练将EMG信号(hào)和文字对应起来。

      可以看出(chū)这(zhè)两种无(wú)声语音识别都有一个共同(tóng)的特点,那就是自主性和私密性(xìng)。不(bú)管(guǎn)是EMG信号(hào)采集还是气流采集,都需(xū)要在讲话者身(shēn)上佩戴好设(shè)备,而不是(shì)像图像技术一(yī)样(yàng),能够在远程(chéng)且讲话者(zhě)不知(zhī)情的情况下进行采集分析。

      无声语音识别变成真·气功?

      不论是气宗(zōng)还(hái)是电宗,这些无声(shēng)语音识别技术都面临着同样的(de)问题——既然要用户把话说出来才能进(jìn)行识别,那为什么(me)不直(zhí)接应用(yòng)语音识别来(lái)进行文字(zì)转换(huàn)和翻译(yì),非要(yào)弄一些和“气功”一样没有切(qiē)实应用场(chǎng)景的花招?

      其实无(wú)声语音识别的应用,可能不像(xiàng)大家想(xiǎng)象的(de)那样广泛,它既不能以最高效的方式帮助听(tīng)障人士,也(yě)不允(yǔn)许被应用于(yú)监听等(děng)等(děng)工作。但在一些关键场合下,无声语音识别却可以(yǐ)发挥出(chū)奇用。

      我们(men)可(kě)以(yǐ)一起开动脑筋,想想在哪里(lǐ)人们(men)需要说话,但却(què)听(tīng)不到彼此(cǐ)的声音。答案很(hěn)简单(dān),要么(me)是在声音无法传播的地方,要么是在一(yī)些特别(bié)嘈(cáo)杂的(de)地方。于(yú)是无声语音识别(bié)就有了如下的(de)应用(yòng)场景:灾害现场、舱(cāng)外探索、水下作业……

      在这类场所中(zhōng),人们或许为(wéi)了(le)躲避被污染的空气、或许为了呼吸氧(yǎng)气,都会(huì)穿(chuān)上类(lèi)似(sì)生(shēng)化(huà)服、宇(yǔ)航员服等等特(tè)殊服装。穿上之(zhī)后既看不到(dào)对方的表情,也听(tīng)不到对(duì)方的声音,更没办法用语(yǔ)音交(jiāo)互去控制其他设备了。同(tóng)时环境情况(例如氧气不够充(chōng)足)往往不允许人们以正常的(de)声音说话,加上防(fáng)护服的封闭状况(kuàng)会引起声音的回响,以往的(de)有声语(yǔ)音识别在这种情况下很难发挥作用。

      这时可以(yǐ)被安(ān)置在防护服内(nèi)部的无声语音识别就显得(dé)很有价值,讲话(huà)者只(zhī)需要做出口型就能向外(wài)界传递信(xìn)息。

      除此(cǐ)之外还有嘈杂的马路、工厂车(chē)间(jiān)、机场(chǎng)……

      在这些场所中,想要让(ràng)对(duì)方听清自己的声音,往往需要扯着(zhe)嗓(sǎng)子吼。想让语音(yīn)识别(bié)准确拾(shí)音(yīn),更是难上加难。这时利用无声语音识别(bié)就会轻松很多,不仅可以准确表达信息,也(yě)能让(ràng)一(yī)些处于这种(zhǒng)场合的工作人员戴上隔音耳(ěr)塞保(bǎo)护自己的听(tīng)力。

      实际(jì)上目前在欧洲一(yī)些型号的(de)战斗(dòu)机中,就因为机舱内噪音巨大、飞行(háng)员之间无法沟(gōu)通,已经应用上了EMG信号无声语音识别技术。

      当然,目(mù)前相(xiàng)比(bǐ)语音(yīn)识别技术(shù)、甚(shèn)至(zhì)相比(bǐ)唇(chún)语语音识别,无声语音识别技术的(de)发展阶段还很初级,应用效率也不高。

      实(shí)际上无声(shēng)语音识别是一项典(diǎn)型的(de)“美好而无用”的AI技术,它既完美体现了一系(xì)列技术的排列(liè)组合(hé),例如(rú)EMG信号无(wú)声(shēng)语(yǔ)音(yīn)识别所体现出的(de)AI与神(shén)经(jīng)学(xué)的结合(hé);又在应用上极(jí)大程度(dù)的受(shòu)限,即使在一些声(shēng)音(yīn)难(nán)以传(chuán)播的场景(jǐng)下,也要考虑计算条件、识别语音后信息再传递的媒介,更不用提复杂(zá)的数据(jù)收集工作(zuò)了。

      但我们有(yǒu)理由相信,在未来AI技术越来越普及化、应用成本越来(lái)越(yuè)低时(shí),总会出现(xiàn)一些(xiē)极端场景应用(yòng)上这些(xiē)看似无用的技术——也许未来有一天,战斗机(jī)的控(kòng)制也要应用上(shàng)语音交互呢?

      关(guān)键词(cí): 人工智(zhì)能(néng) 机器人




      AI人工(gōng)智能网声明:

      凡(fán)资讯来源注明为其他媒体来源的(de)信息(xī),均(jun1)为转载(zǎi)自其(qí)他媒体,并不代表(biǎo)本网(wǎng)站赞同(tóng)其观点,也不代表本网(wǎng)站对其真实性负责。您若对该文章内(nèi)容(róng)有(yǒu)任何疑问或质(zhì)疑,请立即与网(wǎng)站(www.ankang.huangnan.sys.jixi.ww38.viennacitytours.com)联系,本网站将迅速给您回应并做处理。


      联系电(diàn)话:021-31666777   新(xīn)闻、技(jì)术文章投(tóu)稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

      精选资讯更多

      相关资讯更多

      热门搜索

      工博士人工智能网
      leyu乐鱼
      扫描二维码关注微(wēi)信(xìn)
      扫码反馈

      扫一扫(sǎo),反馈当前页面

      咨询反馈
      扫码关注

      微信(xìn)公(gōng)众号

      返回顶部

      leyu乐鱼

      leyu乐鱼