Deepmind 基于AI的预测蛋白质建模的早期发展

2024.06.10 胡说科技

    谷歌人工智能专家，DeepMind，在能够证明人工智能的有用性，以帮助完成仅基于其基因序列预测蛋白质的3D结构的复杂任务方面，已经声称具有“重要的里程碑”。
    了解蛋白质结构在疾病诊断和治疗中非常重要，可以提高科学家对人体的认识－并有助于支持蛋白质设计和生物工程。
    在一篇关于使用AI来预测蛋白质如何折叠的项目的博客文章中写道：“AlphaFold ［DeepMind的AI］生成的蛋白质的3D模型比以前的任何蛋白质更准确－制作在生物学的核心挑战之一取得重大进展。”
    有各种科学方法可用于预测DNA中残留氨基酸的蛋白质分子的天然3D状态（即蛋白质链如何折叠以达到天然状态）。
    但是对3D结构进行建模是一项非常复杂的任务，因为蛋白质折叠可能存在多少排列，这取决于诸如氨基酸之间的相互作用等因素。
    甚至还有一个众包游戏（FoldIt）试图利用人类的直觉来预测可行的蛋白质形式。
    DeepMind表示，其方法依赖于多年前使用大数据试图预测蛋白质结构的研究。
    具体而言，它正在将深度学习方法应用于基因组数据。
    “幸运的是，由于基因测序成本的快速降低，基因组学领域的数据非常丰富。因此，在过去几年中，依赖于基因组数据的预测问题的深度学习方法变得越来越流行。DeepMind关于这个问题的工作产生了AlphaFold，我们今年提交给了CASP ［蛋白质结构预测技术关键评估的社区范围实验］。
    deepmind团队专注于从头开始建模目标形状的难题，而不使用先前解析的蛋白质作为模板。我们在预测蛋白质结构的物理特性时达到了高度的准确性，然后使用两种不同的方法来构建完整蛋白质结构的预测。
    DeepMind它使用的两种方法依赖于使用深度神经网络训练来预测其基因序列中的蛋白质特性。
    其网络预测的属性是：（a）氨基酸对之间的距离和（b）连接这些氨基酸的化学键之间的角度。第一个发展是对常用技术的进步，这些技术可以估计氨基酸对是否彼此接近。
    通过训练了一个神经网络来预测蛋白质中每对残基之间的距离的单独分布。然后将这些概率组合成评估所提出的蛋白质结构的准确度的分数。还训练了一个单独的神经网络，它使用所有距离汇总来估计拟议结构与正确答案的接近程度。
    然后，它使用新方法尝试构建蛋白质结构的预测，搜索与其预测相匹配的已知结构。
    “第一种方法建立在结构生物学中常用的技术上，并且用新的蛋白质片段反复替换蛋白质结构的片段。训练一个生成神经网络来发明新的片段，用于不断提高所提出的蛋白质结构的得分。”
    “第二种方法通过梯度下降优化得分－一种常用于机器学习的数学技术，用于进行小的，渐进的改进－这导致了高度精确的结构。这种技术适用于整个蛋白质链而不是必须在组装前单独折叠的碎片，这降低了预测过程的复杂性。“
    DeepMind使用计算方法将迄今为止所取得的成果描述为“蛋白质折叠进展的早期迹象” －声称它们证明了“AI用于科学发现的实用性”。
    虽然它也强调深度学习方法仍处于早期阶段，具有任何“可量化的影响”。
    尽管在能够对治疗疾病，管理环境等方面产生可量化的影响之前还有很多工作要做，但我们知道这种潜力是巨大的。