想象(xiàng)一(yī)个计算机程序能够直观地识别出在无声的钢琴演奏视频(pín)中演奏(zòu)的是哪首乐曲,或(huò)许并(bìng)不夸张(zhāng)。然而,一个新的人(rén)工智能系统却更进一步(bù),以(yǐ)数字方式逼真(zhēn)地再现了钢(gāng)琴演(yǎn)奏(zòu)的声音。
这项技术被称为Audeo,由华盛(shèng)顿大(dà)学的一个团队设计。研究(jiū)人员使用钢琴家保罗·巴顿的YouTube视频对系(xì)统进行了培(péi)训和测试。培训包(bāo)括约17.2万(wàn)巴顿演奏巴赫(hè)和莫扎特等著(zhe)名古典作曲家(jiā)音乐的视频(pín)帧(zhēn)。
在分析(xī)一段无声视频时,所产生的系(xì)统首先会观察(chá)哪些(xiē)键被按下的顺序,确定各个(gè)音(yīn)符及其排列方(fāng)式。也(yě)就是(shì)说,它还能感(gǎn)知(zhī)到每个键(jiàn)被(bèi)击打的力度和(hé)被(bèi)按住(zhù)的时间(jiān)--这(zhè)让它能(néng)计算出(chū)每个音符的强度(dù),以及它(tā)在随后(hòu)弹奏的音符(fú)下面持续的时间长度。它(tā)还考虑到(dào)了钢琴独特的声学特性。然后,这些数据被转换为一种可以(yǐ)被(bèi)现有的数字(zì)合成器理解(jiě)的(de)格式。据(jù)报道,当该合成器(qì)回(huí)放音乐文(wén)件时,它听起来非常像原始的钢(gāng)琴音乐。
在对Audeo的测试中,它的任务是(shì)根(gēn)据巴顿演奏的静音视频重现钢琴(qín)音乐,而不是系统所训练的(de)音乐作品。当SoundHound等音乐识(shí)别应用分析这些再现时,它(tā)们能够以大约86%的准确率识别(bié)出(chū)乐(lè)曲。相比(bǐ)之下,当这些应用分析相同(tóng)视频中(zhōng)的原始钢(gāng)琴音(yīn)频时,其识(shí)别准(zhǔn)确率攀升至93%。随着(zhe)技术的进一(yī)步发展,这种(zhǒng)差(chà)距(jù)应该会缩(suō)小。
“我们(men)希望我们的研究能(néng)够实现与音乐互(hù)动的新方法,”该研究的(de)高级作(zuò)者Eli Shlizerman副教授说。“例如(rú),未来的(de)一个应用是,Audeo可以扩(kuò)展到虚(xū)拟钢琴,摄像头(tóu)只记录一个人(rén)的(de)手。此外,通过将摄(shè)像头放在真(zhēn)实的钢琴之上,Audeo有可能协助教(jiāo)学生如何演奏的新方(fāng)法(fǎ)。”