要(yào)说(shuō)AI技术(shù)里(lǐ)什么最火,机器视(shì)觉绝对算一个;而要说(shuō)机器视觉技术里(lǐ)什么最火,大概毫无争议就(jiù)属3D机(jī)器视(shì)觉了。
所(suǒ)谓3D机(jī)器视觉,是指在一般的机器视觉技术的基础(chǔ)上,加(jiā)入对立体(tǐ)空(kōng)间中(zhōng)三(sān)维(wéi)模型的理解(jiě)。这(zhè)项技术不仅涉及AI,而是一门机(jī)器视觉、图形学与数(shù)据(jù)感(gǎn)知(zhī)技术的交叉学科。想想也知道,让机器认识3D画面是非(fēi)常有价值的。毕竟人的视觉(jiào)理(lǐ)解就是3D的,想要让AI尽量贴近真(zhēn)人的感知方式,3D是(shì)必须攻克的(de)难(nán)题。
在(zài)产业场景上(shàng),3D机器视(shì)觉是无人驾驶和高精(jīng)地图的重要(yào)技术条件,在VR/AR上应用也非(fēi)常广泛,而无人(rén)机航拍(pāi)与测绘也(yě)离不开这(zhè)门技(jì)术(shù)。在(zài)苹果把3D结构(gòu)光技术炒火了之后,手机中的3D机器视觉也(yě)已经成为兵(bīng)家必争之地——假如说,这(zhè)些厉害的技术都是赛(sài)车(chē),那么3D机器视觉就是他们在路上都会遇到的收费站(zhàn)……
今天在机器视觉顶会中,差不多会有(yǒu)半壁江山(shān)那么多的(de)论(lùn)文都是跟3D有(yǒu)关。前(qián)沿探索(suǒ)可谓疯狂进行。然而重点来了,关于这(zhè)一(yī)领域,似乎大(dà)部分吃瓜群众还是只(zhī)知道一个结(jié)构光而已(yǐ)。
有(yǒu)哪些(xiē)三维图像+机器视觉的新技术趋势,今天正隐(yǐn)藏在未知(zhī)迷(mí)雾中眺望这个(gè)世界?今天我(wǒ)们来说几种很有科幻感的(de)技术突破点(diǎn)。说(shuō)不定这些(xiē)能力(lì)明年(nián)就会出现在你的手机、VR设备和无(wú)人机中,又或许即将成(chéng)为某个被资(zī)本疯(fēng)狂亲吻的创业(yè)热潮。
超大(dà)场景的3D数据感(gǎn)知
3D机器视觉(jiào)包括(kuò)很(hěn)多方(fāng)面,既有让智(zhì)能体去理解3D数据,也包括如何通过机器视觉(jiào)的解决方案(àn),去获(huò)取3D模型数据。
传统意义上的(de)3D数据获取,或者称其为3D感知技术,一般来说可以利用多角度拍照或者深度传感器的方式实现3D数据收集。这种技术的局(jú)限在于,收集的3D数据不能太大(dà)。
然而在3D资料要求(qiú)不(bú)断升级的今(jīn)天,对于超大场景的(de)3D数据感知,正在成为一个热门议题。比如(rú)无(wú)人驾(jià)驶中使用的城市高精地图,就可以看(kàn)做一个个超大3D场(chǎng)景(jǐng)的拼接(jiē)。智能城市领域(yù)运用到的很多城市数(shù)据推演,也要根植(zhí)于对城市3D场景的收集。
portant;" />
机器视觉正在为超(chāo)大场景的3D数据(jù)感知提(tí)供很多(duō)新(xīn)的(de)方法。比如自动化的成像(xiàng)方法,像视觉SLAM在线处理连续帧的图像,实(shí)现实时重建(jiàn)巨大(dà)3D场景。再(zài)比如(rú)说对航拍数据进行点云分割和点云数据的语义理解(jiě),帮(bāng)助快速低成本获取(qǔ)城市3D数据。
总(zǒng)体来看,今(jīn)天超大场景的3D数(shù)据(jù)感知(zhī),有(yǒu)三个主要应用方向,很可能分别成为各(gè)自技术领域中新的投资和(hé)创业(yè)热点:
1、建筑物的3D高精度模型,运用在(zài)工程(chéng)监理(lǐ)、智能设(shè)计、物(wù)流(liú)和智能城(chéng)市领域。
2、高精地图与3D数据感知的结合,这(zhè)是无(wú)人(rén)驾驶的重要一(yī)环。
3、室内外(wài)一体的3D建模,这对(duì)于智能家居设计、环境监控、VR/AR体(tǐ)验来说都有重要帮(bāng)助。
手(shǒu)机(jī)与3D视觉(jiào)进入蜜月期
3D结构光,今天已经当之无愧成为了高(gāo)端手机(jī)的标配,成为了继双摄、三摄与屏下指纹(wén)之后又一个手机(jī)行业争抢(qiǎng)的热点。
然而手机上的3D视觉技术远不止于结构光,从算法、传(chuán)感硬件,到影(yǐng)像系统解(jiě)决方(fāng)案,都可(kě)能成为手机与3D视觉进一步耦合的关键因素。
今天来看,有3个相关趋(qū)势非(fēi)常可能成为明(míng)年的热点。一(yī)个(gè)是(shì)基于芯片端进行的3D视觉(jiào)算(suàn)法加速,这很(hěn)可能成为(wéi)手机AI的下一(yī)个进化方向。第二个(gè)是高纠错(cuò)能力的3D视觉(jiào)算法将(jiāng)会普(pǔ)及,在终端(duān)实现3D数据收集和本地建模将会成为新的热点。第三个是后置摄像(xiàng)头加(jiā)入(rù)3D视觉(jiào)解(jiě)决方案指日可待。
从芯片端,到(dào)开(kāi)发平(píng)台,再到数据集、传感(gǎn)系统,3D机(jī)器视觉(jiào)正在(zài)多个领域影(yǐng)响手(shǒu)机战场的走向,在这些领域储(chǔ)备技术武(wǔ)器(qì),也很可(kě)能成为明年手机战场厮杀的(de)关键节点。
portant;" />
AR/VR中的位姿估计(jì)技术
为什么我们在玩AR体验的时候,经常会觉得手机里的东西放在摄像头视野(yě)中并(bìng)不真实,像(xiàng)是(shì)漂浮在(zài)地板上(shàng)一样。
这就是因为位姿估计算法不够精准,无法正确定位物体的空间关系。在机器视觉(jiào)技术的进化下,今天很多位姿估计(jì)技(jì)术正在同步进化。比(bǐ)如基于动态特征提取算法,达成的动作定位今天已经比较(jiào)成熟。
这东西听(tīng)起(qǐ)来挺玄乎,到(dào)底是干啥用的呢?它的最大应用场景,就是在VR/AR正(zhèng)确处理场景中(zhōng)动(dòng)态(tài)物(wù)体的(de)空间(jiān)关(guān)系和运动轨迹。比如(rú)你在VR里玩(wán)踢球游戏,球应该在什么位置挨踢,以什么(me)轨迹撞墙,都有赖(lài)于位姿估计算法(fǎ)来(lái)校(xiào)准。
在(zài)机器视觉算法的帮助下,更精(jīng)细的位姿估计正在到来,而这(zhè)也加速了成熟MR体验的到来。另一方(fāng)面,在VR设备或(huò)者手机当中,基于摄像头与传感器协同运(yùn)作来(lái)完成位姿估计,也是(shì)沉浸技术中(zhōng)即将发生的一个亮点。
portant;" />
通过散乱(luàn)数(shù)据达成三维建模
3D机器视觉的最重要任何,肯定是(shì)基于(yú)数据来实现(xiàn)3D建模(mó)。这个应用在产业端十(shí)分(fèn)重要,地理信息系统、勘探、工程,以及(jí)无人(rén)驾(jià)驶,都需要大量的3D建模工作来参(cān)与。
而消费者(zhě)级的(de)3D建(jiàn)模今天也在到来,我们已经可以(yǐ)看到在手(shǒu)机端通(tōng)过3D结构(gòu)光来完成数据收(shōu)集,从而达成3D建模的玩法。
跟3D感知一(yī)样,3D建模也是利用摄像头或(huò)者传(chuán)感器来收集数据,最终通过不同的(de)解决方(fāng)案(àn)完(wán)成建(jiàn)模。
然而这个领域还是有很多问题等待解决。比如说(shuō),今天(tiān)我们进行3D建(jiàn)模时,还需要非常痛苦的一点(diǎn)点收集数据,必须保证(zhèng)数据的(de)对齐(qí)和精准排列。否则出来的3D模(mó)型就(jiù)是杂乱无章的。这显然让大(dà)众完3D建模(mó)的热情减退,并且给很(hěn)多工程级项目(mù)增(zēng)添了非常多难度。
AI的到来,正在(zài)帮助这种情况有所改变。在深度学(xué)习算法的帮助下(xià),机器视(shì)觉领域正在研究如何在散乱、不规则、巨大数(shù)量(liàng)的数据中完成(chéng)3D建模。这需(xū)要对抗生成以及先验表示等非常多的方案,但带来(lái)的效果(guǒ)非常值得期(qī)待。
portant;" />
比如说今天已经有3D建模(mó)方(fāng)案,在深度学习的帮助下实现对密林的重(chóng)建(jiàn)。然而(ér)其用(yòng)来进行点(diǎn)云(yún)建模的图像数据中(zhōng),有很多被树叶遮挡(dǎng)的部分。这时候(hòu)就(jiù)可以用(yòng)AI来增强3D建模的先(xiān)验知识,主动(dòng)“脑补”出(chū)遮挡物(wù)背(bèi)后的真实(shí)样子。
不仅是(shì)修复遮(zhē)挡模型和(hé)瑕疵数据,机器视觉技术与(yǔ)3D建模的融合(hé),还(hái)可以让很多无人设备具有更(gèng)雪亮(liàng)的“眼睛”。比如无(wú)人驾(jià)驶汽车(chē),或(huò)许可以基(jī)于“大(dà)脑”中的3D建模算法,来脑补(bǔ)智(zhì)能摄像头尚未发现的环境。这点在复杂立交桥和停(tíng)车场中(zhōng)格外有(yǒu)用。
在消(xiāo)费者端,3D建模与机器视觉的结合(hé)也将带来新的(de)想象力(lì),比如消费(fèi)者可以根据照片来重建精准的(de)3D模型,或(huò)者傻瓜式完(wán)成建模要用的(de)数据(jù)收集(jí)。让不那(nà)么专(zhuān)业的人(rén)也能建(jiàn)设出专业的3D模型,这个改变背后的想象力惊人(rén)。
更好的深度传感器解(jiě)决方案
还有一个机器视觉技术和3D的交汇,主要发生在无人机领域。
无人机今天进行测绘(huì)和航拍时,必(bì)须附带(dài)对(duì)空(kōng)间的理解能力,否则(zé)拍照不准事小(xiǎo),撞了(le)南(nán)墙事大。而这个能力主要来自于摄像头和传感器进行空间阅读。
随着消(xiāo)费级无人机的不断升级,人们(men)对无(wú)人机拍摄效果要求也不断升高。无人机必(bì)须不断在(zài)更远(yuǎn)的距(jù)离、更极端(duān)的天气、更(gèng)复(fù)杂的运动中拍摄画面。然而传(chuán)统的(de)传感系统解决方(fāng)案(àn)已经快要跟不上(shàng)用(yòng)户的期许(xǔ)。
今天的消(xiāo)费(fèi)级(jí)无人机,一般采(cǎi)取两种(zhǒng)感(gǎn)知解决方案,一(yī)种是双目视觉技术,比(bǐ)如大(dà)疆的某些产品;一(yī)种是结(jié)构光传(chuán)感器,比如微软(ruǎn)的Kinect。而这两种主流方案都是(shì)有一定局限的(de),比(bǐ)如感(gǎn)知(zhī)范围都有限,难以(yǐ)完成远距离(lí)作业。再比如双目(mù)视觉技术在黑夜中会失灵,所以无人机夜拍(pāi)一(yī)直是个大坑,然而(ér)结构光技术应对不来强光,一(yī)到(dào)中午(wǔ)无人机(jī)就石乐志(zhì)也是很心塞的。
更好的解决(jué)方案,在于(yú)将传感器与智能摄像头(tóu)结(jié)合起来,达成可以适应(yīng)不同天候(hòu)与天气,并(bìng)且可以长(zhǎng)距离感知的新型(xíng)传感系统解决方案(àn)。
今天,用机器视觉(jiào)技术中的(de)很多算(suàn)法,协调不(bú)同的传感设备(bèi)工作,让无人机(jī)变成“多眼无人(rén)机”,正(zhèng)在成为流行的解决方案。机器视觉算(suàn)法(fǎ)大量加入无(wú)人机传感器,还可(kě)能带(dài)来轨迹拍摄能力提升,让无人机获(huò)得拍摄整体(tǐ)环境,或者精准捕捉动态物体,比(bǐ)如说运动中(zhōng)的(de)动物和车(chē)辆(liàng)的能力。
以上几个技术趋(qū)势(shì),都(dōu)可能成为机器视觉(jiào)和图形学应用的下一步热点。这个(gè)领域看似偏门,事(shì)实上却能影响今天科技(jì)市场中的(de)风吹草动(dòng)。
让机器看(kàn)到立体(tǐ)世界的游(yóu)戏才刚刚开始,机器与人(rén)类在某一(yī)天可以用同样的视角相互凝(níng)视,或许才是(shì)这个(gè)故事的终点。