​氨基酸链片段可预测蛋白质功能

  • 时间:
  • 浏览:0
  • 来源:1分6合-1分6合平台_1分6合网投平台

就在好多个月前,DeepMind推出了AlphaFold系统,這個被称为生物界“AlphaGo”的系统也能预测并生成蛋白质3D型态。而近日,来自MIT的研究人员开发了一个多多多 新的研究模型,也能直接预测氨基酸链片段是要怎样决定蛋白质功能的。這個发现都都还可不可以帮助研究人员设计和测试新的蛋白质,从而用于药物研发和联 物学研究。

亲戚亲戚朋友都知道,蛋白质是维持亲戚亲戚朋友生命所必需的庞大而错综复杂的物质。蛋白质具体能完成那些样的功能,主要取决于它独特的三维型态。时候 了解蛋白质的型态,对于预测其对时候 药物的反应来说,是一个多多多 非常重要的环节。

然而,尽管有了数十年的研究和多种成像技术的辅助,亲戚亲戚朋友仍然只了解到了无数蛋白质型态中的很小一帕累托图,还有什么都有未知型态的蛋白质功能尚未揭晓。针对這個情况汇报,来自MIT的研究人员开发出了一种方式,“学习”了蛋白质序列中每个氨基酸位置上容易计算的表征。时候 ,研究人员将那些表征输入机器学习模型,让模型直接预测单个氨基酸片段的功能,而不不任何蛋白质型态的数据。

首先,研究人员使用了来自蛋白质型态分类数据库(SCOP)的约260 0种蛋白质,将那些蛋白质按照型态和氨基酸序列的例如性进行分类,并对机器学习模型进行训练。对于每一对蛋白质,研究人员总要根据其SCOP类别计算出一个多多多 型态例如性评分。时候 ,研究人员将随机的蛋白质型态对及其氨基酸序列输入机器学习模型,通过编码器将它们转加进数值表示出来,称为嵌入(embedding)。每个嵌入都中含了一对氨基酸序列的例如性信息。

该模型的示意图(图片来源:arxiv.org)

该模型将一个多多多 嵌入对齐,时候 计算出例如度评分,以预测其代表的蛋白质三维型态的例如性。时候 ,计算是是是因为将這個评分与真实的SCOP例如性评分进行比较,并向编码器发送反馈信号。是是是因为模型的预测分数与真实分数相差较远,则会进行一定的调整。

一起去,该模型预测了每次嵌入的“接触图”(contact map),即每个氨基酸与该蛋白质中时候 氨基酸的距离,并将其预测的接触图与来自SCOP的已知接触图进行比较,时候 向编码器发送反馈信号。這個步骤促进模型更好地明确氨基酸在蛋白质型态中的确切位置,从而进一步了解每个氨基酸的功能。

对于某个氨基酸链,该模型都都还可不可以为三维型态中的每个氨基酸位置生成一个多多多 嵌入。时候 ,机器学习模型都都还可不可以使用那些序列嵌入,根据其预测的三维型态接触图,来准确预测每个氨基酸的功能。在一个多多多 应用实例中,研究人员使用该模型预测有那些蛋白质都都还可不可以通过细胞膜,其预测结果比现有的先进模型都都还可不可以更加准确。

接下来,研究人员计划将该模型应用到更多的预测任务中,例如弄清楚那些序列片段都都还可不可以与小分子结合,这对于药物研发工作来说是至关重要的。研究人员表示,这项研究最终将都都还可不可以应用于人类健康和药物基因组学,是是是因为它促进检测破坏蛋白质型态的有害突变。

参考资料:

[1]Bepler,et al.,(2019).Learning protein sequence embeddings using information from structure.ICLR 2019,arXiv:1902.08661

[2]MIT CSAIL’s AI predicts a protein’s function from chains of amino acids.Retrieved March 26,2019,from https://venturebeat.com/2019/03/22/mit-csails-ai-predicts-a-proteins-function-from-chains-of-amino-acids/

[3]Model learns how individual amino acids determine protein function.Retrieved March 26,2019,from http://news.mit.edu/2019/machine-learning-amino-acids-protein-function-0322

注:文章内的所有配图皆为网络转载图片,侵权即删!