手机版
           

生物分子结构预测:从序列到三维构象的计算之路

发布时间:2026-05-26   来源:科研学术网    
字号:

拿到一条全新的蛋白序列,想知道它的三维结构——这在十几年前意味着至少半年的实验周期,结晶、衍射、解析,每一步都可能卡住。现在情况不同了,计算方法的发展让结构预测从”可遇不可求”变成了”常规操作”,但选择哪种方法、对结果该信多少,仍然是每个项目需要认真面对的决策。

三类方法的分水岭

生物分子结构预测的方法论经历了三次跃迁:从基于物理的力场优化,到基于模板的知识迁移,再到基于深度学习的端到端预测。三种路线各有地盘,不存在谁完全取代谁。

同源建模是最古老也最可靠的方法,前提是你能在PDB里找到序列一致性超过30%的模板。这个30%不是拍脑袋定的——统计表明低于这个阈值,模板和目标的骨架走向开始出现系统性偏差,loop区的构象基本不可靠。SWISS-MODEL和Modeller是这条路线最常用的工具,前者自动化程度高,后者允许更多人工干预。

同源建模的精度天花板取决于模板质量。如果一个蛋白的模板分辨率为2.0 Å,建模结果的理论精度上限大约在2.5-3.0 Å,侧链朝向的准确率约70%。这些数字在药物设计中意味着:结合口袋的总体形状可用,但特定氢键网络的预测需要后续精修。

折叠识别(threading)解决的是”没有明显同源模板”的情况。它的逻辑不再是”找相似的序列”,而是”找相似的折叠模式”——把目标序列”穿”到已知结构框架上,用统计势能函数打分,看哪个折叠模式最匹配。I-TASSER是这个方向的代表工具,在CASP竞赛中长期表现稳定。

但折叠识别的固有局限也很明显:它假设目标蛋白的折叠类型在PDB中已有代表。对于完全新颖的折叠模式(novel fold),threading无效。这类情况在真核生物中约占新解析结构的5-10%。

深度学习路线以AlphaFold2为代表,从根本上绕开了模板检索的逻辑。它通过多序列比对(MSA)提取共进化信息,用端到端的神经网络直接预测原子坐标。AlphaFold2在CASP14上的表现震惊了整个结构生物学界——在多数目标上,预测结构与实验结构的差异已经小于实验结构之间的差异。

RosettaFold、ESMFold、OpenFold等后续模型进一步降低了计算成本。ESMFold甚至可以在单GPU上用几十秒完成一个蛋白的预测——代价是精度略低于AlphaFold2的完整流程。这个”精度-速度”的权衡正在催生大规模虚拟筛选的新范式。

AlphaFold不是万能的

尽管AlphaFold2取得了突破性成绩,它的局限在实践中逐渐暴露。

第一个局限:多结构域蛋白的域间取向。 AlphaFold2在预测单结构域时精度极高,但多结构域蛋白中域与域之间的相对朝向有时不准。原因是MSA中的共进化信号主要反映域内残基的相互作用,域间接触信号弱得多。如果域间接头(linker)较短且刚性,预测结果通常可靠;如果linker长且柔性,域间取向可能出现显著偏差。

第二个局限:翻译后修饰和辅因子。 AlphaFold2的训练数据是PDB中的静态结构,蛋白的动态特性和修饰状态无法被MSA捕捉。磷酸化、糖基化、金属配位——这些对蛋白功能至关重要的事件,在当前预测中基本被忽略。铁硫簇、锌指结构等需要在预测后手动添加辅因子再做能量最小化。

第三个局限:复合物结构。 AlphaFold-Multimer的推出解决了同源二聚体/多聚体的共折叠预测,但对于异源复合物(尤其是不同化学计量比的组合),预测的不确定性显著增加。界面处的侧链朝向误差可能达到3-5 Å,这个量级对于界面药物的理性设计来说不够精细。

第四个局限:内在无序蛋白。 AlphaFold2的pLDDT评分可以标识无序区域,但它仍然会给无序区域”强行”分配一个构象。真正的研究中,内在无序蛋白需要用MD模拟或NMR参数来表征构象系综,而非试图锁定单一结构。

这些局限不是否定AlphaFold,而是划定它的有效边界。理解了这些,就不会拿到预测结构直接当成”真理”使用。

选择方法的决策框架

面对一个具体项目,选什么方法取决于三个问题的答案:

有没有可用的同源模板? 序列一致性>30%且覆盖度>80%,优先同源建模,计算成本最低,精度有保证。

没有模板但需要多构象系综? AlphaFold2预测单一结构后,用分子动力学模拟生成构象系综。如果需要观察构象变化路径,配合增强采样技术。

完全新颖蛋白且没有多序列信息? 这种情况最棘手。如果序列同源物种极少(比如病毒蛋白的某些特殊亚型),MSA深度不够会导致AlphaFold2精度下降。此时需要结合多轮同源序列搜索(JackHMMER迭代)或尝试基于语言模型的ESMFold。

在做大规模虚拟筛选? ESMFold的速度优势带来实际可行性。先在百万级化合物库中筛选候选分子,再用AlphaFold2或实验结构做精细对接。

无论走哪条路线,计算预测的结果都需要和实验数据交叉验证。CD光谱确认二级结构比例,SAXS给出整体形状包络,化学交联质谱锁定残基间距离——这些低分辨率实验数据与预测结构的吻合度,是判断模型可靠性的最终依据。

在实际项目中,从序列到可用结构往往需要多种方法的组合。科研学术网(https://www.keyanxueshu.com)汇集了大量计算材料与生物分子模拟的实战案例,涵盖结构预测、分子动力学和第一性原理等多个方向,项目启动前翻阅可帮助快速定位适合自己体系的方案。

结构预测的精度在持续提升,但”预测结构不是终点,理解功能才是”——这个原则始终没变。

图说天下

×
gromacs计算
lammps计算
VASP计算
分子对接
分子自组装