AI制药的扩展瓶颈：蛋白质序列多≠折叠类型多

蛋白质设计领域常用的“扩展配方”正面临一个意想不到的瓶颈。Ligo的研究人员发现，自然蛋白质序列数量庞大，但折叠类型高度冗余——这意味着仅靠折叠更多自然序列来扩展训练数据，可能无法带来预期的结构多样性提升。

为什么业界热衷“折叠更多序列”

AlphaFold3等深度学习模型的成功，让生物分子设计进入生成式AI时代。业界发现，提高模型性能的基本“配方”是：扩展模型规模、扩展计算资源、扩展训练数据。对于结构预测模型，核心突破在于将海量蛋白质序列转化为3D结构数据——通过折叠预测，把基因组学产生的数十亿条序列变成可用于训练的结构示例。MGnify等宏基因组数据库提供了大量从未被培养过的微生物蛋白序列，被视为潜在的无限训练素材。

序列多样性≠折叠多样性

然而Ligo在尝试用折叠天然序列来扩展酶设计训练数据时发现了问题：蛋白质序列可以看起来差异很大，但在折叠空间中其实非常接近。以AFDB聚类中的一个典型案例为例，结构聚类A0A242HMU2_f1中，三条蛋白质的序列一致性仅为23.9%至28.3%，却共享同一折叠（TM-score > 0.75）。

自然蛋白进化倾向于反复使用那些稳定、可表达且易于改造的折叠，而非均匀分布在所有可能的结构空间。这意味着，当研究者试图通过折叠更多序列来增加训练数据时，很可能只是在同一折叠家族内增添变体，而非真正引入新的结构类型。

对于依赖数据规模的深度学习系统，这种隐含的冗余性会悄悄侵蚀扩展努力带来的收益。如何识别并利用真正具有结构多样性的序列，或许是下一代生物分子设计模型需要解决的关键问题。

编注：信源为Ligo技术博客，研究侧重数据扩展策略与折叠冗余问题，未涉及具体药物研发进展或商业化路径。