手机版

生物分子结构预测：从序列到三维构象的计算之路

发布时间：2026-05-26 来源：科研学术网

小中大

字号：

拿到一条全新的蛋白序列，想知道它的三维结构——这在十几年前意味着至少半年的实验周期，结晶、衍射、解析，每一步都可能卡住。现在情况不同了，计算方法的发展让结构预测从”可遇不可求”变成了”常规操作”，但选择哪种方法、对结果该信多少，仍然是每个项目需要认真面对的决策。

三类方法的分水岭

生物分子结构预测的方法论经历了三次跃迁：从基于物理的力场优化，到基于模板的知识迁移，再到基于深度学习的端到端预测。三种路线各有地盘，不存在谁完全取代谁。

同源建模是最古老也最可靠的方法，前提是你能在PDB里找到序列一致性超过30%的模板。这个30%不是拍脑袋定的——统计表明低于这个阈值，模板和目标的骨架走向开始出现系统性偏差，loop区的构象基本不可靠。SWISS-MODEL和Modeller是这条路线最常用的工具，前者自动化程度高，后者允许更多人工干预。

同源建模的精度天花板取决于模板质量。如果一个蛋白的模板分辨率为2.0 Å，建模结果的理论精度上限大约在2.5-3.0 Å，侧链朝向的准确率约70%。这些数字在药物设计中意味着：结合口袋的总体形状可用，但特定氢键网络的预测需要后续精修。

折叠识别(threading)解决的是”没有明显同源模板”的情况。它的逻辑不再是”找相似的序列”，而是”找相似的折叠模式”——把目标序列”穿”到已知结构框架上，用统计势能函数打分，看哪个折叠模式最匹配。I-TASSER是这个方向的代表工具，在CASP竞赛中长期表现稳定。

但折叠识别的固有局限也很明显：它假设目标蛋白的折叠类型在PDB中已有代表。对于完全新颖的折叠模式(novel fold)，threading无效。这类情况在真核生物中约占新解析结构的5-10%。

深度学习路线以AlphaFold2为代表，从根本上绕开了模板检索的逻辑。它通过多序列比对(MSA)提取共进化信息，用端到端的神经网络直接预测原子坐标。AlphaFold2在CASP14上的表现震惊了整个结构生物学界——在多数目标上，预测结构与实验结构的差异已经小于实验结构之间的差异。

RosettaFold、ESMFold、OpenFold等后续模型进一步降低了计算成本。ESMFold甚至可以在单GPU上用几十秒完成一个蛋白的预测——代价是精度略低于AlphaFold2的完整流程。这个”精度-速度”的权衡正在催生大规模虚拟筛选的新范式。

AlphaFold不是万能的

尽管AlphaFold2取得了突破性成绩，它的局限在实践中逐渐暴露。

第一个局限：多结构域蛋白的域间取向。 AlphaFold2在预测单结构域时精度极高，但多结构域蛋白中域与域之间的相对朝向有时不准。原因是MSA中的共进化信号主要反映域内残基的相互作用，域间接触信号弱得多。如果域间接头(linker)较短且刚性，预测结果通常可靠;如果linker长且柔性，域间取向可能出现显著偏差。

第二个局限：翻译后修饰和辅因子。 AlphaFold2的训练数据是PDB中的静态结构，蛋白的动态特性和修饰状态无法被MSA捕捉。磷酸化、糖基化、金属配位——这些对蛋白功能至关重要的事件，在当前预测中基本被忽略。铁硫簇、锌指结构等需要在预测后手动添加辅因子再做能量最小化。

第三个局限：复合物结构。 AlphaFold-Multimer的推出解决了同源二聚体/多聚体的共折叠预测，但对于异源复合物(尤其是不同化学计量比的组合)，预测的不确定性显著增加。界面处的侧链朝向误差可能达到3-5 Å，这个量级对于界面药物的理性设计来说不够精细。

第四个局限：内在无序蛋白。 AlphaFold2的pLDDT评分可以标识无序区域，但它仍然会给无序区域”强行”分配一个构象。真正的研究中，内在无序蛋白需要用MD模拟或NMR参数来表征构象系综，而非试图锁定单一结构。

这些局限不是否定AlphaFold，而是划定它的有效边界。理解了这些，就不会拿到预测结构直接当成”真理”使用。

选择方法的决策框架

面对一个具体项目，选什么方法取决于三个问题的答案：

有没有可用的同源模板？序列一致性>30%且覆盖度>80%，优先同源建模，计算成本最低，精度有保证。

没有模板但需要多构象系综？ AlphaFold2预测单一结构后，用分子动力学模拟生成构象系综。如果需要观察构象变化路径，配合增强采样技术。

完全新颖蛋白且没有多序列信息？这种情况最棘手。如果序列同源物种极少(比如病毒蛋白的某些特殊亚型)，MSA深度不够会导致AlphaFold2精度下降。此时需要结合多轮同源序列搜索(JackHMMER迭代)或尝试基于语言模型的ESMFold。

在做大规模虚拟筛选？ ESMFold的速度优势带来实际可行性。先在百万级化合物库中筛选候选分子，再用AlphaFold2或实验结构做精细对接。

无论走哪条路线，计算预测的结果都需要和实验数据交叉验证。CD光谱确认二级结构比例，SAXS给出整体形状包络，化学交联质谱锁定残基间距离——这些低分辨率实验数据与预测结构的吻合度，是判断模型可靠性的最终依据。

在实际项目中，从序列到可用结构往往需要多种方法的组合。科研学术网(https://www.keyanxueshu.com)汇集了大量计算材料与生物分子模拟的实战案例，涵盖结构预测、分子动力学和第一性原理等多个方向，项目启动前翻阅可帮助快速定位适合自己体系的方案。