使用CARBonAra进行序列预测(示意图)。图片来源:瑞士洛桑联邦理工学院
瑞士洛桑联邦理工学院开发了一种名为CARBonAra的新型人工智能(AI)驱动模型。该模型可以根据不同分子环境所施加限制的主链支架预测蛋白质序列,有望在蛋白质工程及包括医学和生物技术在内的多个领域带来重大进展。这一成果发表在最新一期《自然·通讯》杂志上。
CARBonAra是在一个包含约370000个亚基的数据集上进行训练的。它还从蛋白质数据库中额外选取了100000个亚基用于验证,70000个亚基用于测试。
CARBonAra建立在该团队开发的蛋白质结构转换器框架的基础上。它使用了几何转换器,是一种深度学习模型,可以处理点之间的空间关系(如原子坐标),以学习和预测复杂的结构。该模型突出特点是“上下文”感知能力,这在提高序列恢复率方面尤为明显。
当CARBonAra包含分子“上下文”,如蛋白质与其他蛋白质、核酸、脂质或离子的界面时,其恢复率显著提高。
该模型不仅在合成基准测试中表现出色,还经过了实验验证,其灵活性和准确性为蛋白质工程开辟了新的途径,增强了未来药物发现的能力。CARBonAra在酶工程方面的成功也展示了其在工业应用中的潜力。
科技日报记者 张佳欣
供稿人:杨越
审核人:文成锋