机器学习是许多(duō)生物学家用来分析大量数据的计算工具,帮助(zhù)他们识别潜在的新(xīn)药。麻省理工学院的研究人员现在(zài)已经在这些类型(xíng)的机器学习算法中(zhōng)加入了一个新的特性,从而提高了他们(men)的预测能力。
利用这种新的方(fāng)法,计算(suàn)机模型可(kě)以解释他(tā)们分析数据的不(bú)确(què)定性(xìng),麻省理工(gōng)学院的研(yán)究(jiū)小(xiǎo)组发现了几种有(yǒu)希望的化(huà)合物,这些化合(hé)物的目(mù)标是导致结核病(bìng)的细菌(jun1)所需的一种(zhǒng)蛋白质。
这种方法以前曾被计算机科学家使用过,但(dàn)尚未(wèi)在生物学上得到应用(yòng),也可能在(zài)蛋白质设计和许多其他生物学领域有用(yòng),西蒙斯数(shù)学系教授、麻省理(lǐ)工学(xué)院计算机科学和(hé)人工智(zhì)能实验室(CSAIL)计算和生物(wù)学小(xiǎo)组负责人邦尼·伯杰(Bonnie Berger)说。
“这项技术是已知的机器学习子领域的一(yī)部分,但人们(men)还没有把它引入(rù)生物学(xué),”Berger说。“这(zhè)是(shì)一个范式的转变,绝对是生(shēng)物探索的(de)方(fāng)式。”
Berger和Bryan Bryson是麻省理工学院的(de)生(shēng)物工程助(zhù)理(lǐ)教授,也是MGH、MIT和哈佛的拉(lā)根研究所(suǒ)的(de)成员,他们是这项研究的高级(jí)作者。细胞系统。麻省理工学(xué)院研(yán)究生BrianHie是论文的主要作者。
更(gèng)好(hǎo)的(de)预测(cè)
机器学习是一种计算机建模,在这种(zhǒng)模型中,算(suàn)法学习根据已经看到的(de)数(shù)据进行预测。近年来(lái),生物学家开始利用机器学习来搜索潜(qián)在(zài)药物化合物的庞(páng)大(dà)数据(jù)库,以(yǐ)找到与特(tè)定目标相互作用的分子。
这种方法的一个局限性是,当他们分析的数(shù)据与他们(men)接受训练的(de)数(shù)据相似时,这些算法表现得(dé)很好(hǎo),但(dàn)它们并不擅长(zhǎng)评估那些(xiē)与他们(men)已经看(kàn)到的分子有很大不同的(de)分子。
为了克服这一问题,研(yán)究人员使(shǐ)用了一(yī)种叫做高斯(sī)过程的技术,将不确定性值分配给算法(fǎ)所训练的数据。这样,当模型(xíng)分析(xī)训练数据时,他们也会考虑到(dào)这(zhè)些预测的可(kě)靠(kào)性。
例如,如果进(jìn)入模型的数据预测某一(yī)特定分子(zǐ)与目(mù)标蛋白质的结合程度,以及这些预测的不(bú)确定(dìng)性,该模型可以利用(yòng)这(zhè)些信(xìn)息对蛋白质-目标(biāo)相互作用(yòng)进行预测,这(zhè)是它以前(qián)从未见过的(de)。该模型还估(gū)计了(le)自己预测的确定性。在分析新的(de)数据时,模型的预测(cè)对(duì)于与训练数据有很大不同的分(fèn)子来说,其确定性可能较低。研究人员可(kě)以利用这(zhè)些信息来帮助(zhù)他们决定实(shí)验测试哪些分子(zǐ)。
这种方法的另一个优点是(shì)该算法只(zhī)需要少量的训练(liàn)数(shù)据。在(zài)这项研究中,麻省理工学院(yuàn)的研究小组用72个小分子及其与400多(duō)个蛋(dàn)白质的相(xiàng)互(hù)作用(yòng)(称为蛋白激酶)对模(mó)型进行了训(xùn)练。然(rán)后,他们能够使用这个算法分析近11000个(gè)小分子,这些(xiē)小分子是从锌(xīn)数据库中提取(qǔ)的,锌数据库(kù)是(shì)一个公(gōng)开(kāi)可用的储存库,含有数百万种化合物。其中许多(duō)分(fèn)子与训练数据中的分子非常(cháng)不(bú)同。
利用这一方法,研究人员(yuán)能够识别出(chū)与他(tā)们所加入的蛋白激酶具(jù)有非常强的结合亲缘关系的(de)分子。其中包括三种人类激(jī)酶,以及在结(jié)核(hé)分枝杆菌中发(fā)现的(de)一种(zhǒng)激酶。这种激酶,PknB,是(shì)细菌生存的关键,但不是任何一线(xiàn)结核病抗生素的(de)目(mù)标。
研究人(rén)员随后通过实验测试了(le)他们的一些最成功之处,以了解他们与目(mù)标的结合程度,并发现模型的预测非常准确(què)。在模型给出的最确定(dìng)的分(fèn)子中,大约90%被证明是真正(zhèng)的命(mìng)中--远高于现有用于药(yào)物筛(shāi)选(xuǎn)的(de)机器学习模型的(de)30%到40%的命中率。
研究人员还(hái)使用相(xiàng)同的(de)训练数据来训练不包(bāo)含(hán)不确定性的传统机器学习算法,然后让它分析相同的11000个分子库。他说:“没有(yǒu)不确定性,这个(gè)模型就会变得非常混乱,它提出了与激酶相(xiàng)互作用的非(fēi)常(cháng)奇怪的化学结构(gòu)。”
然后,研究人员采(cǎi)取(qǔ)了一些最有前途的PknB抑制剂,并测(cè)试(shì)他们在(zài)细菌培养培养基中(zhōng)生长(zhǎng)的(de)结核分枝杆菌,并发现它们抑制细菌(jun1)的生长。这(zhè)些抑制剂也在感染细菌的人(rén)免(miǎn)疫(yì)细(xì)胞(bāo)中起作用。
一个好的起点(diǎn)
这种方(fāng)法的(de)另一个(gè)重要因素是,一(yī)旦研(yán)究人员(yuán)获得额(é)外的实验(yàn)数据,他们就可以将(jiāng)其添加到模型中(zhōng),并对其进行再培训(xùn),从而进(jìn)一(yī)步改进(jìn)预测。研究(jiū)人员说,即使是少量的数据也能帮助模(mó)型变得更好(hǎo)。
Hie说(shuō):“每次迭代都(dōu)不需要非常大的数(shù)据集(jí)。”“你可(kě)以用10个(gè)新的例子重新训练(liàn)这个模型,这是一个(gè)生物学(xué)家很容易(yì)产(chǎn)生的东西。”
布莱(lái)森说,这项研(yán)究是多年(nián)来首次提出新的分子,可以(yǐ)针对PknB,并且应该给(gěi)药(yào)物开发人员(yuán)一个很好的起点,可以尝试(shì)开发针对(duì)激(jī)酶的药物。他说:“我们现在为他们提供了一些新的线索,超出了已经(jīng)公布的范围。”
研(yán)究人员还表(biǎo)明,他们可以利(lì)用(yòng)同样的(de)机器学习来提(tí)高绿色(sè)荧光蛋白的荧光输出,绿色(sè)荧光蛋(dàn)白(bái)通(tōng)常用于标记活细胞(bāo)内的分(fèn)子。它也可以(yǐ)应用于许多其他类(lèi)型的生物(wù)学研究,Berger说(shuō),他现在正用(yòng)它来分析推动肿瘤发(fā)展的(de)突变。