“人工智能与蛋白质折叠” | 许锦波教授北大“大学堂”顶尖学者讲座-北京未来基因诊断高精尖创新中心

“人工智能与蛋白质折叠” | 许锦波教授北大“大学堂”顶尖学者讲座

　　应北京大学“大学堂”顶尖学者讲学计划的邀请，芝加哥丰田计算技术研究所许锦波教授于2021年10月27日作题为“人工智能与蛋白质折叠”的学术讲座。

　　10月27日上午，许锦波教授参观BIOPIC，并与中心研究员们进行了深入交流讨论，下午在燕京学堂报告厅进行学术报告。报告由北京大学李兆基讲席教授谢晓亮主持。

　　许锦波作报告

　　准确描述蛋白质结构和功能是理解生命过程的基础。许锦波简要介绍了人工智能预测蛋白质结构的背景知识。根据Anfinsen法则，蛋白质“正常折叠”出的三维结构由它的一级结构所决定，因此知晓氨基酸序列便可以预测出蛋白质结构。传统的预测方法主要是基于模板结构的建模方法，该类方法的缺点是不确定在PDB（Protein Data Bank）中能找到对应的模板（例如膜蛋白），且预测出的结构更像模板而不是真实的结构。许锦波表示，蛋白质中包含上千个原子，自由度高而且能量图景不光滑难以优化，这给传统预测方法带来了很大挑战。

　　许锦波回顾了蛋白质结构预测的发展历史。2016年前，预测蛋白质结构方法（例如片段拼接方法等）需要消耗大量计算资源，且成功率低。为了解决这一难题，科学家转变研究思路：从需要预测的蛋白质氨基酸序列出发，检索相关数据库得到其多序列比对数据（multiple-sequence alignments，MSAs），进而得到氨基酸残基对的关系矩阵（如接触矩阵和距离矩阵），最终预测出结构。

　　2016年，许锦波团队开发出基于ResNet的RaptorX-Contact方法。该方法将蛋白质中所有氨基酸残基对相互作用作为Image Map处理，同时预测全部的氨基酸残基相互作用，将结构预测问题转换为图像处理中的图像语义分割问题，并结合深度卷积残差网络（ResNet）进行预测。许锦波表示，在CASP12（Critical Assessment of protein Structure Prediction）蛋白质结构预测竞赛中，RaptorX-Contact方法得分居首位，第一次证明了深度学习方法预测蛋白质结构的可行性。值得一提的是，此方法对膜蛋白结构预测及蛋白相互作用的结构预测依然有效。他特别举例介绍到，5f5pH蛋白质与其同源蛋白质3thfA具有部分结构相似性，传统方法因使用模板结构，预测的结果更接近同源蛋白3thfA，而RaptorX-Contact方法无需拷贝模板结构，因此能预测出与模板结构不同的正确结构。

　　2017-2019年间，许锦波团队成功实现从接触矩阵预测到距离矩阵预测的飞跃，使蛋白质结构预测准确度更加精准。其团队2021年发表在Nature Machine Intelligence杂志上的最新成果证明了机器学习不仅仅是对共进化信息的去噪与信号放大，还可以学到更深层的系列-结构关联及预测人工设计的蛋白质结构。

　　对于人工智能预测蛋白质结构未来的发展趋势，许锦波认为将主要集中在更好的使用序列与结构信息以及新型的深度学习网络架构等方向上。随后，他还简要介绍了目前刚刚发表的AlphaFold2。他认为在残基层面上，AlphaFold2要优异于其它算法，但对于高分子量、具有多个结构域的蛋白质来说，准确预测它们结构域之间的空间位置关系依然存在挑战。

　　谢晓亮主持

　　现场提问

　　报告结束后，许锦波与现场师生们就人工智能预测蛋白质结构相关问题进行了热烈的交流讨论。本次活动由北京大学主办，北京大学生物医学前沿创新中心（BIOPIC）、国际合作部承办，并得到了光华教育基金会、北京大学教育基金会的支持。讲座同步在燕云直播平台，北京大学微信公众号、视频号、快手、抖音、哔哩哔哩等官方账号直播，播放量高达14.5万人次。