图片来源:张阳
2024年诺贝尔化学奖颁给了计算蛋白质设计和结构预测领域,《环球科学》2024年10月刊也推出了“AI重塑结构生物学”专题。诺奖公布前不久,我们独家专访了该专题的审校者、新加坡国立大学计算机科学和生物化学教授以及癌症科学研究所高级研究员张阳老师,聊了聊蛋白质结构预测领域发展史,以及AlphaFold对该领域的影响。

本刊记者 | 黄雨佳

《环球科学》:

张老师好!首先有请张老师简单介绍一下自己的研究背景。

张阳(新加坡国立大学教授):

谢谢!我们实验室主要致力于人工智能(AI)和计算生物学研究,多年来一直关注蛋白质折叠和结构预测问题,以及它的逆问题——蛋白质设计问题。最近,我们又进一步拓展了研究方向,开始做RNA和短肽的设计与结构预测,以及探索与药物设计相关的课题。

其实我一开始并非计算生物学方向。在我本科、硕士和博士阶段,我研究的是理论物理和粒子物理,主要关注物质世界中的基本粒子及其相互作用。直到我在中国科学院做博士后期间,欧阳钟灿院士一篇关于红细胞形状的论文引起了我的极大兴趣,这才开始转做生物物理研究。

我最初的研究课题是利用蒙特卡罗方法(Monte Carlo method)来研究DNA和RNA分子的弹性属性,在此过程中,我也提出了一种比较新的蒙特卡罗算法。直到我在美国科学家杰弗里·什科尔尼克(Jeffrey Skolnick)的实验室做博士后,我才开始比较深入地接触蛋白质结构预测问题。

《环球科学》:

在AlphaFold诞生之前,蛋白质结构预测领域已经存在了许多年,却一直未能取得像AlphaFold这样的突破。所以用计算机算法来预测蛋白质结构为什么是一件很困难的事呢?

张阳:

用计算机预测蛋白质结构的难点,体现在数学和物理两个方面。从数学角度,蛋白质是不同氨基酸串在一起的一维长链,它在细胞环境下会折叠成三维结构,而具体折叠成什么结构,取决于氨基酸序列。

物理学角度,要解决蛋白质折叠和结构预测问题,我们既要理解蛋白质内部原子间的相互作用,又要能解决高维构象空间的搜索问题。对于前者,由于蛋白质内原子间的相互作用在微观尺度上非常复杂,因此我们目前还无法精准描述这种相互作用的物理学力场。对于后者,由于蛋白质可以有很多种不同构象,设计一个能有效搜索并找到自由能最低构象的算法对计算机而言是极具挑战

50多年前,分子生物学家赛勒斯·利文索尔(Cyrus Levinthal)估计,如果假定每个氨基酸有两个键角,并假定每个键有3种可能状态,那么对于一个只有100个氨基酸(蛋白质通常有数百甚至上千个氨基酸)的比较小的蛋白质,99个肽键意味着最多有3198种不同构象,约等于1094种构象。而每个氨基酸的角度状态实际远不止3种,所以这样一个小蛋白质的可能构象数目,已经远远超过我们可观测宇宙中的原子总数(目前估计大约是1080)。即便是重点搜索相空间中重要区域的蒙特卡罗方法,也无法在有限时间内穷尽所有可能的重要构象。

因此,基于物理的传统算法在蛋白质结构预测领域面临极大困难。近年来,AI和深度学习技术为解决这些问题提供了新的途径。

《环球科学》:

作为一个发展了几十年的领域,您能简单介绍一下蛋白质结构预测领域目前有哪些算法吗?

张阳:

在不同时代,蛋白质结构预测算法有不同分类。让我们将时间轴暂且分为AI出现之前和之后。在AI出现之前,蛋白质结构预测领域已经有至少50年的发展历史。在这半个世纪中,逐渐形成了两类主要的预测算法——基于物理的从头预测ab initio prediction)和基于模板的蛋白质结构预测方法(template-based modeling)。

到了后期,又出现了把这些不同算法进行融合的算法,也就是以我们实验室开发的I-TASSER为代表的综合算法。这种算法首先会从蛋白质数据库(PDB)中寻找结构模板,然后将这些模板进行切割,再利用从头预测算法中的物理学力场,通过蒙特卡罗方法将这些片段重新组装,最终构建出完整的三维结构。综合算法融合了不同算法的优势,所以比传统单一算法的鲁棒性和精度更高,后来逐渐成了主流算法

但是,在AI出现之后,又有了两类基于AI的算法。第一类较早的方法会先使用机器学习预测蛋白质的局部性质,再从局部特征转换为整体的三维结构。从第一步过渡到第二步时,存在一个较为手动的过程。在第二步中结构的优化依赖于算法的选择,不属于AI范畴。

而第二类是所谓的端到端预测,就是用蛋白质的一维序列直接训练学习蛋白质的三维结构。谷歌DeepMind团队推出的AlphaFold2是第一个成功实现了蛋白质端到端结构预测的机器学习算法。由于省略了中间步骤,完全依靠深度神经网络自动学习处理,将AI的优势发挥到了极致,所以它比第一类算法的自动化程度更高,精度也更好。

总体而言,深度学习算法在蛋白质结构预测的精度上已经全面超过了传统算法。其主要优势在于可以控制、训练非常大规模的可调参数,而基于统计物理的传统算法一般只有几十最多数百个可调参数。如果把蛋白质分子处理成一个统计系统,后者这种有限的可调参数给它对蛋白质复杂相互作用的描述带来了一种天然的局限性。值得强调的是,蛋白质结构预测中的深度学习是AI在结构预测领域的应用,最多算是对现有AI技术的应用和推广,而不是新的AI算法的开发。

《环球科学》:

那在基于深度学习的这些工作中,除了AlphaFold,还有其他表现出色的工具吗?

张阳:

其实,Meta公司开发的ESM和ESMFold也表现得非常出色。相比于AlphaFold,ESMFold更接近ChatGPT。它将蛋白质的氨基酸序列视为一种语言,类似于ChatGPT处理人类语言文本的方式,以此揭示蛋白质的结构、演化过程及其特有的“语法”规律,从而帮助我们预测蛋白质的折叠和结构。最近,他们还发布了ESM3,可以使用同一模型框架,同时进行蛋白质结构、功能预测和蛋白质序列设计,是该领域的一个重要进展。

与AlphaFold采用监督学习(supervised learning)不同,ESM3采用的是无监督学习(unsupervised learning)。所谓监督学习,就是在解决具体问题之前,明确告知神经网络学习目标,不断优化损失函数以达到最小化。这种方法相对更直观和容易。但ESM3不是直接训练蛋白质结构预测,而是通过分析大量蛋白质序列,学习其中的内在“语法”,最终也能用于蛋白质结构预测。这有点像金庸小说中的武林高手修炼内功,虽然不直接参与对抗,但经过长期修炼,最终也能与专攻外家功夫的高手一较高下。因此,尽管ESM3在结构预测精度上略逊于AlphaFold,但它在理解蛋白质“语言”、功能预测和序列设计方面具有独特的优势

《环球科学》:

您之前也参加过许多次全球蛋白质结构预测比赛(CASP),但我注意到,您既参加了自动服务器也参加了人工组,而AlphaFold只参加了人工组。您能介绍一下这两个组的区别吗?

张阳:

人工组是结合人工干预与计算机程序,来预测最优结构。由于允许人工干预,因此预测过程相对较慢。对于每个蛋白质,CASP组织者会提供三周的时间,供参赛者提交最终的预测结果。

人工组的优势在于,如果某个结构有问题,研究人员可以手动调整特定区域的位置或方向;如果初始模板选择不当,人工干预可以重新选择模型,进行结构优化和组装。AlphaFold之所以参加人工组,可能是因为他们尚未完全将参赛程序自动化,或者希望利用更多时间,确保对每个蛋白质的预测结果尽可能达到最优。

自动服务器组则完全依赖计算机程序,预测结果由算法自动生成。每个参赛者都会设立一个在线服务器,CASP组织者将蛋白质序列投递至服务器,自动生成并收集预测结果。原则上,预测过程不需要人工干预,每个蛋白质的预测必须在72小时内完成。由于人工组有更多时间,且可以参考自动服务器组的结果,因此其平均表现通常优于自动组。然而,自动服务器组的结果完全由计算机独立生成,因此原则上来讲更能客观地反映算法本身的效力

事实上,CASP最初的前3届比赛只有人工组,因为当时的计算机程序并不够成熟,人工干预在预测中起着重要作用。一个典型例子是英国剑桥大学(University of Cambridge)的阿列克谢·穆尔津(Alexey Murzin)教授。他并未开发专门的计算机预测程序,而是通过目视观察结合蛋白质结构知识来识别蛋白质结构。另一个手动预测的例子是波兰科学家克日什托夫·吉纳尔斯基(Krzysztof Ginalski),他在第5届CASP比赛中表现出色。他发现除了手工调整结构,功能性分析对结构建模也至关重要。

《环球科学》:

所以您在CASP比赛中都取得了怎样的成绩呢?

张阳:

我2005年离开什科尔尼克实验室并成立自己的课题组,在2006年首次参加了第7届CASP比赛。从那一届开始,尤其在自动服务器组,我们实验室都取得了不错的成绩。比如,利用I-TASSER算法,我们以Zhang-Server的名字参赛,在第7届和第8届CASP比赛中都取得了第一名的成绩,与第二名拉开了显著的差距。自第9届CASP比赛开始,我们又推出了QUARK算法。自此,我们的Zhang-Server和QUARK双双参赛,并始终在第9至第14届CASP比赛的自动服务器组中位列前两名

最近,随着AI和深度学习技术的发展,我们也把深度学习引入了I-TASSER,开发了一种名为D-I-TASSER的新算法,其中的“D”就是深度学习(deep learning)的意思。I-TASSER本身是基于物理和统计的算法,而D-I-TASSER结合了深度学习,将AI与物理结合,帮助解决一些单纯依赖深度学习无法解决的问题。例如,蛋白质折叠时会形成不同的构象,而深度学习只能提供单一末态构象。通过D-I-TASSER的模拟,我们可以生成多个构象,并通过聚类分析这些构象的自由能分布。同时,D-I-TASSER的蒙特卡罗方法可以生成连续的构象链,帮助我们理解蛋白质的折叠过程。

而且,我们也在多域蛋白质和蛋白质复合体结构预测上做了一些尝试。多域蛋白质和蛋白质复合体都是在三级结构之外存在新的自由度,但复合体的自由度更大。对于前者,我们开发了I-TASSER-MTD,把I-TASSER推广到做结构域之间的预测,这是首个专注于多域蛋白质结构预测并实现完全自动化的算法。在复合体结构预测方面,我们也开发了DMFold算法。在最近的第15届CASP比赛中,这两种算法在多域蛋白质和蛋白质复合体的结构预测上的精度远远超过了其他团队。

《环球科学》:

一些人认为,AlphaFold的出现意味着结构生物学的终结,AlphaFold的追随者也蜂拥而至。所以相比于AlphaFold,您和其他团队所使用的方法有什么不同吗?

张阳:

不可否认,AlphaFold的成功有许多正面影响,它使这一原本较为小众的领域得到了更多重视,也向我们证明了蛋白质结构预测是一个可以解决的问题,尽管目前的解决方案可能有些“暴力”或非美学。但AlphaFold的成功也引发了跟风效应,目前许多高引用的论文只是重写AlphaFold的程序甚至直接搭建AlphaFold在线服务器。我觉得,一个有独立思考的科学家应当有自己的品位,专注于解决自己认为有趣或重要的问题

AlphaFold并未解决所有问题。除了你们专题文章中已经提到的许多局限之外,AlphaFold等深度学习算法的另一问题是“黑箱”:过多的可调参数使我们很难了解模型中到底发生了什么。换句话说,机器学习的主要劣势是它无法直接告诉我们蛋白质在细胞中折叠的物理过程。在蛋白质折叠研究上,无论是传统方法还是AI,都还没能取得显著突破。

相较而言,基于物理的传统算法含有较少的可调参数,每一个能量项都有确定的物理意义,这有助于我们理解蛋白质相互作用的物理学起源。另外,基于物理学势的算法可以模拟计算蛋白质折叠的具体过程,并且计算每一个状态的自由能和熵,帮助我们了解蛋白质折叠的动态过程。因此,虽然基于物理的传统算法目前的结构预测精度比不上深度学习,但在解释蛋白质折叠的物理以及模拟蛋白质动态过程方面,仍然有深度学习不可替代的特性

我们课题组的一个努力是思考能否试图打破这个“黑箱”。可能由于我的物理学背景,我希望不仅要知其然,还要知其所以然,因此,我们做了两方面努力。首先,我们尝试将基于物理和统计的I-TASSER算法与深度学习结合,解决一些单纯依赖深度学习无法解决的问题,例如生成多个构象并分析其自由能分布,帮助我们理解蛋白质的折叠过程。

其次,我们也试图利用AI来学习蛋白质折叠的物理势场。正如前面所说,传统物理算法的主要瓶颈在于缺乏精确的物理力场。如果AI能帮助我们学习并构建这一力场,就能与传统的模拟算法结合,精确再现和理解蛋白质的折叠过程。对于我这种比较守旧和执着于物理本质的人来说,似乎只有这样才算是真正完美地解决了蛋白质结构预测的问题。我们目前在这方面已经有了一些初步结果,但离最终目标还有很长的路要走。不过,无论成功与否,这代表我们追求理想的一个方向。

《环球科学》:

也有一些人认为,AlphaFold2的出现也意味着CASP比赛的终结。所以现在业内人士对于CASP比赛是怎样的看法呢?您觉得CASP比赛还有意义吗?

张阳:

CASP比赛和AlphaFold是两件不同的事。CASP曾经极大地推动了蛋白质结构预测领域的发展。AlphaFold2出现后,CASP可能会开始探索单链单结构域预测之外的其他更具挑战性的问题,例如多域蛋白、蛋白质复合体以及RNA结构预测等。不过,这些改变只能说明结构预测领域本身的进步,并不妨碍CASP在结构生物学中继续发挥其重要的推动作用。CASP仍然会继续见证并推动这个领域新技术的进步和发展。

我个人也希望,CASP能够将这项重要赛事扩展到解决与蛋白质相关的物理学基本问题上,进一步推动这一方向的发展。例如,深入理解蛋白质的力场、构象变化、动力学以及起伏等物理属性,而不仅仅是静态结构,这将赋予CASP更多意义。令人欣慰的是,CASP已经开始关注这些问题,例如最近的比赛中包括了突变和多态结构预测的内容

《环球科学》:

最后一个问题是,您审校这篇文章时,曾提到这个专题中列举的工作比较片面,所以除了前面提到的工作之外,还有没有哪些您觉得非常重要的工作是这篇文章里没有提到的呢?

张阳:

其实,蛋白质结构预测领域并非只有AlphaFold,它的成功建立在数代人长期努力的基础上。正如那句谚语,“冰冻三尺非一日之寒”。几年前,在AlphaFold2刚刚问世时,我和博士生合写了一篇综述文章,比较全面地综述了蛋白质结构预测过去50多年来发展历程。我们在文中绘制了一棵“发展树”,标示了各个年代重要的里程碑事件。如果有同学对蛋白质结构预测的历史感兴趣,可以参考这篇论文。

《环球科学》:

好的!非常感谢张老师接受我们的采访!

作者 环球科学

《环球科学》杂志