科技日报记者 张佳星
“随着基础模型的成熟,生命科学大模型可以准确地执行未经专门训练的蛋白质预测任务。”10月10日,百图生科凭借其研发的生命科学基础大模型以及大分子设计能力与跨国药企赛诺菲达成合作,百图生科首席技术官宋乐介绍,双方将共同利用大模型提升生物治疗药物筛选和发现的效率。
通过人工智能进行准确预测往往需要大量标记数据,然而生命科学行业中的标记数据存在供应不足的问题。如何在没有基础数据的前提下,仍能够准确预测蛋白结构呢?
百图生科研发团队创新思路,使用普通未标记数据训练模型来为多个下游任务模型提供基础信息。宋乐解释,“我们利用公有和私有资源的数据集构建起一张基础蛋白质生物地图,以指导我们的计算模型。”
这一策略有望使得包括免疫学、神经学、肿瘤学和罕见疾病在内的多个领域能够基于有限的数据进行更精准预测。在中国生命科学大模型的赋能下,双方的合作将促成赛诺菲的专有数据、蛋白质工程创新和深厚的生物制剂开发经验更有效地被利用和挖掘。
“赛诺菲的专有数据集、数字基础设施、药物研发专业知识等将与百图生科的蛋白质大语言模型、高性能计算能力等充分融合。”赛诺菲全球研究平台负责人Matt Truppo表示,合作将优化突破性生物疗法的研发过程。
此前,赛诺菲已经与众多人工智能企业达成合作,加速新药研发进程。此次与百图生科达成合作主要是被其研发的生命科学大模型的独创性所吸引。该模型摆脱了人工智能预测对特有标记数据的依赖,而是通过基础蛋白质语言模型替代,让人工智能了解到蛋白构象过程的内在规律。该基础模型运用来自数十亿蛋白质序列的1000亿个数据点进行训练,为人工智能预测蛋白构象打下了“通用知识”储备的基础。
据介绍,双方将共同创建蛋白质大语言模型和人工智能任务模型,以实现生物药设计和多参数优化,双方还将通过自动化和集成工作流程,实现高质量数据的可持续收集,以加速新药研发进程。