蛋白质设计领域常用的“扩展配方”正面临一个意想不到的瓶颈。Ligo的研究人员发现,自然蛋白质序列数量庞大,但折叠类型高度冗余——这意味着仅靠折叠更多自然序列来扩展训练数据,可能无法带来预期的结构多样性提升。
为什么业界热衷“折叠更多序列”
AlphaFold3等深度学习模型的成功,让生物分子设计进入生成式AI时代。业界发现,提高模型性能的基本“配方”是:扩展模型规模、扩展计算资源、扩展训练数据。对于结构预测模型,核心突破在于将海量蛋白质序列转化为3D结构数据——通过折叠预测,把基因组学产生的数十亿条序列变成可用于训练的结构示例。MGnify等宏基因组数据库提供了大量从未被培养过的微生物蛋白序列,被视为潜在的无限训练素材。
序列多样性≠折叠多样性
然而Ligo在尝试用折叠天然序列来扩展酶设计训练数据时发现了问题:蛋白质序列可以看起来差异很大,但在折叠空间中其实非常接近。以AFDB聚类中的一个典型案例为例,结构聚类A0A242HMU2_f1中,三条蛋白质的序列一致性仅为23.9%至28.3%,却共享同一折叠(TM-score > 0.75)。
自然蛋白进化倾向于反复使用那些稳定、可表达且易于改造的折叠,而非均匀分布在所有可能的结构空间。这意味着,当研究者试图通过折叠更多序列来增加训练数据时,很可能只是在同一折叠家族内增添变体,而非真正引入新的结构类型。
对于依赖数据规模的深度学习系统,这种隐含的冗余性会悄悄侵蚀扩展努力带来的收益。如何识别并利用真正具有结构多样性的序列,或许是下一代生物分子设计模型需要解决的关键问题。
编注:信源为Ligo技术博客,研究侧重数据扩展策略与折叠冗余问题,未涉及具体药物研发进展或商业化路径。