产品中心
技术交流
扫描二维码
Nature|蛋白质的AI设计仍然面临的五个问题
文章来源:智药邦 2024年11月15日 08:02 上海
2024年11月4日,Nature发表文章Five protein-design questions that still challenge AI,讨论了蛋白质的AI设计仍然面临的五个问题。
德国慕尼黑大学的Alena Khmelinskaia说:“希望设计定制蛋白质就像订餐一样简单。想象一下一台自动售货机,任何研究人员都可以用它来指定所需的蛋白质的功能、大小、位置、partners和其他特征。理想情况下,你会得到一个完美的设计,能够同时完成所有这些事情。”
蛋白质设计,这一曾被视为遥不可及的梦想,如今正随着计算技术与机器学习的飞速发展而逐步变为现实。传统方法依赖于微生物的变异来产生所需蛋白质,过程繁琐且效率低下。然而,机器学习算法的兴起彻底颠覆了这一领域。
借助如RFdiffusion、Chroma等AI工具,研究人员能在电脑上轻松生成新的蛋白质结构,并通过ProteinMPNN等算法找到匹配的氨基酸序列。更令人振奋的是,RoseTTAFold和AlphaFold等技术的出现,使得预测新蛋白质能否正确折叠成为可能。这一系列技术进步极大地缩短了从设计到验证的周期,提高了蛋白质设计的成功率。2024年诺贝尔化学奖的颁发,更是对AlphaFold等蛋白质结构预测与设计程序的极高认可。这不仅证明了人工智能在蛋白质设计领域的巨大潜力,也预示着这一技术将为人类带来前所未有的福祉。然而,挑战依然存在。这篇Nature的采访揭示了蛋白质设计所面临的最大难题,以及专家们提出的解决方案。尽管前路尚有坎坷,但随着技术的不断进步和科研人员的不懈努力,我们有理由相信,蛋白质设计的未来将更加光明,其带来的益处也将更加深远。
构建可靠的结合物
蛋白质设计领域早期面临的核心挑战之一,是如何精确预测蛋白质间的相互作用,这对于制药行业尤为重要。因为特定蛋白质的“结合物”能够作为药物,精准地激活或抑制疾病通路。在这一背景下,2024年诺贝尔化学奖得主、西雅图华盛顿大学的计算蛋白质设计先驱David Baker及其团队,通过开发RFdiffusion和AlphaProteo等生成式人工智能程序,极大地简化了这一复杂任务。
Baker指出,这些生成式AI工具能够像手一样精确地为特定目标(如癌症蛋白)设计出结合物。例如,在2023年,他的团队就利用RFdiffusion技术成功制造出了一种传感器蛋白,该蛋白在附着于特定肽类激素时会发光,这一成果展示了生成式AI在蛋白质设计上的巨大潜力。
蛋白质设计先驱David Baker蛋白质-蛋白质结合算法的成功,很大程度上得益于其“语言”的简洁性:所有天然蛋白质均由相同的20个氨基酸构成。这种统一性为机器学习提供了丰富的数据和理想的学习案例,如Generate Biomedicines的计算机科学家John Ingraham所言,PDB(蛋白质数据库)中成千上万的结构和蛋白质-蛋白质相互作用数据,为AI学习提供了坚实的基础。然而,挑战并未因此消失。对于与药物和其他小分子结合的蛋白质,由于可用训练数据相对较少,AI设计的结合蛋白可靠性往往较低。此外,许多制药公司的小分子结构及其与蛋白质的相互作用数据都是严格保密的,这进一步限制了AI的学习范围。谷歌DeepMind公司的计算生物学家Jue Wang指出,现有公共数据的注释质量参差不齐,且结构多样性有限,这可能导致训练出的模型无法学习到通用的化学规则。 尽管如此,DeepMind还是通过发布AlphaFold3等更新版本,不断提升AI预测蛋白质与小分子结合影响的能力。据该公司表示,与现有预测方法相比,AlphaFold3在蛋白质与其他分子类型的相互作用预测上至少提高了50%,对于某些重要相互作用类别的预测准确率更是翻倍。然而,Baker强调,挑战远未解决。例如,即使一个结合蛋白能够很好地与目标结合,也并不意味着它就能发挥预期的生物功能。有些结合蛋白可能激活靶点,而有些则可能阻断靶点,而AlphaFold等程序并不总能区分这两种情况。此外,生成式AI系统还容易“幻化”出自然界中不存在的蛋白质结构,这反映了AI在追求最优解时可能忽视生物物理学的实际限制。为了克服这些挑战,Ingraham认为,更好地理解生物物理学以及获取更多关于蛋白质如何与分子结合的高质量数据至关重要。他的公司正在通过整合尽可能多的蛋白质相互作用和功能数据,以及模型生成的设计高通量数据,来寻找通用的解决方案。这一努力旨在充分利用现有的蛋白质信息,推动蛋白质设计领域向更高层次发展。
新催化剂
科学家们正致力于利用计算工具设计具有全新功能的酶,如清除二氧化碳的催化剂或分解塑料的酶,以期解决环境问题。虽然从具有类似功能的天然酶出发看似合理,但蛋白质结构与功能之间的复杂关系却构成了重大挑战。相似的形状并不总意味着相似的功能,而看似无关的酶却可能执行相同任务。
天然酶虽为进化产物,但其结构未必是设计新酶的理想起点。研究人员需深入分析酶在进化中的保守序列,以确定哪些部分对功能至关重要。然而,即使进化保守的序列也可能包含看似无用实则关键的氨基酸链,它们影响着蛋白质与其他分子的结合或构象变化。为应对这一挑战,研究人员正开发新方法以识别并利用这些关键部分。Baker及其团队利用射频扩散技术创造了水解酶,并通过机器学习分析酶的活性位点,进而构建全新蛋白质。尽管他们已成功设计出能以新方式水解底物的酶,但将活性位点转移到新蛋白质环境中仍面临挑战。蛋白质的动态性使得这一任务更加复杂。蛋白质并非静态物体,而是处于不断运动中。当动态变化出现时,现有的建模方法往往难以准确预测。因此,研究人员需进一步探索蛋白质的动态特性,以更精确地设计具有全新功能的酶。尽管挑战重重,但科学家们仍对计算工具在蛋白质设计领域的潜力寄予厚望。
构象变化
蛋白质构象多变,受温度、pH值、化学环境及分子结合等因素影响。然而,实验通常只能捕捉到最稳定构象,难以揭示蛋白质活跃态。计算所有可能构象对超级计算机也是巨大挑战,因一个仅含100个氨基酸的蛋白质就有3的100次方种可能构象。Microsoft Research的机器学习科学家Kevin Yang说,要真正了解蛋白质的工作原理,研究人员需要了解其潜在运动和构象的全部范围--这些替代形式不一定在PDB中。机器学习虽能助力缩小范围,但受限于训练数据不足。为解决此问题,研究人员正设计大型蛋白质库,通过变异揭示蛋白质动态变化。同时,设计能在两种构象间切换的蛋白质,既助训练AI模型,又可为构建复杂分子机器提供构件。
此外,有团队开发算法如AF-Cluster,引入随机性探索其他构象,但适用性尚待验证。总体而言,蛋白质构象的多样性和动态性为研究和设计带来了巨大挑战,也激发了科研人员不断探索新的解决方法。
复杂的创造
除了酶,研究人员还在探索设计其他功能多样的蛋白质,如自组装结构、载体、产生物理力或纠正折叠错误等。计算设计已在医疗领域取得突破,如SKYCovione疫苗的成功,展示了计算蛋白质设计的实际应用潜力。
现在,研究人员正利用机器学习开发更多功能,如空心纳米粒子用于药物传输。然而,对于更复杂结构如细菌鞭毛,因缺乏足够理解透彻的例子,机器学习仍面临挑战。因此,人类研究人员需要思考构成分子机器的部件,并使用设计工具逐一创建。这些部件可能包括分子开关、车轮、车轴及逻辑门系统等。Kortemme的实验室正在设计可纳入合成信号转导级联的细胞信号分子,以拓展蛋白质设计的应用范围。Wang强调,在蛋白质的巧妙重组中,人类的聪明才智将发挥关键作用。研究人员正致力于制造蛋白质的螺丝、螺栓、杠杆和滑轮等基础构件,并探索其创新应用。未来,如何巧妙利用这些构件,将决定蛋白质设计的无限可能。
从错误中学习
尽管蛋白质设计在预测算法上取得进步,但仍然很难一次就生成准确结果。Steinegger指出,算法验证与软件发展存在时间不匹配,导致算法难以从错误中吸取教训。此外,研究人员往往不公布负面结果,限制了有用信息的共享。为解决这些问题,Khmelinskaia强调合作的重要性,认为建立涵盖多方面技能的团队是挑战,但合作能加速研究进展。Yang也表示,计算机资源和数据已就绪,合作将推动领域更快发展。
【关于逐典】
上海逐典生物科技有限公司,坐落于中国(上海)自由贸易试验区,获得ISO9001质量体系认证,是一家从事重组蛋白研发和销售的高新科技企业。
逐典生物始终秉持以客户为中心的理念,针对重组蛋白的结构设计、纯化工艺及其稳定剂型相关的多项关键技术进行优化。专业定向蛋白变复性技术,可将大肠杆菌大量表达的变性固体蛋白转变成高活性可溶性蛋白。凭借技术优势,逐典生物新品研发周期短且可控性强,为重组蛋白的高质高效研发提供保障,为企业生产降本增效。
公司自成立以来成功开发百余种高活性细胞因子及多种高活性蛋白酶,覆盖细胞培养、病毒纯化以及质量分析等生物工艺各个环节。可广泛应用于科研、医药生产及IVD(体外诊断试剂)等领域,满足各类用户所需。