蛋白互作分子对接与传统的小分子-蛋白对接有一个本质区别——蛋白-蛋白界面通常有1200-2000 Ų的埋藏面积,涉及20-40个残基对,界面在结合过程中可能发生主链位移(loop关闭)和侧链重排。两个分子量几万到十几万Da的蛋白,在对接中既要处理几何互补又要处理静电互补还要考虑柔性——比小分子对接多了两个数量级的计算复杂度。

ZDOCK(及后续的ZDOCK-Pro)走的是快速傅里叶变换路线——将蛋白A和B分别放在三维网格上,在每个相对平移/旋转方向上计算两个网格的几何/静电/能量互补性,相关卷积用FFT在倒空间中加速。FFT把O(N⁶)的六维搜索降到O(N³logN),使全空间六维采样在小时-天内可完成。
ZDOCK的输出是一个ranked list——按对接打分排列的数千个候选pose。top 2000-36000个pose通常包含了~50-70%的正确结合模式(以CAPRI基准为参考),但ranking精度受限——很多正确pose不在top 1甚至top 10。刚性FFT的致命弱点:对接中蛋白保持刚性,预处理阶段的构象选择直接决定了FFT找到的界面的正确度。
关键操作:如果目标蛋白存在holo构象(结合态晶体结构)和apo构象(未结合态),用holo构象做ZDOCK搜到的正确接口复现率(~60-80%)远高于apo构象(~20-40%)——因为holo结构已经包含了结合诱导的结构重排,FFT的刚体近似不再成为障碍。对于只有apo结构的情况,优先使用ensemble docking——从MD模拟中取多个代表性构象,每个构象独立FFT对接→合并聚类——比死磕单个apo构象的成功率高20-30%。
ClusPro在ZDOCK的FFT初始采样后,加了两级筛选:第一步用基于RMSD的聚类(把几千个候选pose归并到几十个cluster),第二步用基于pairwise统计势的重打分来重排cluster。ClusPro的聚类半径(默认9 Å Cα RMSD)将千级pose压缩到~30个cluster,选取cluster size最大的10个作为输出。
ClusPro对蛋白-抗体和酶-抑制剂型PPI的成功率较高(CAPRI benchmark中50-60%情况下正确接口在top 10 cluster内),但对signalosome和transient PPI(瞬时相互作用、界面小、结合面800-1000 Ų、亲和力μM级)表现明显下降——这些界面的pairwise统计信号弱于界面更大的稳定复合物,仅靠聚类size无法区分正确和假阳性cluster。
ClusPro的另一个局限是静电加成项不是显式计算的——ClusPro将一个静电有利项乘在shape complementarity的基础上,对界面富含极性残基的PPI(如抗体-抗原,经常有10+氢键和盐桥)这种隐式的静电加权可能低估极性互补的重要性。
HADDOCK的核心理念是将实验数据(突变、化学交联、NMR滴定等)转化为模糊相互作用约束(AIRs)——”残基A的某部分在结合态中可能与残基B的某部分距离<6 Å”——这类信息作为距离约束驱动对接。HADDOCK含三段式分子动力学优化:刚体对接→半柔性优化(侧链+界面水)→显式水MD精修。
HADDOCK的优势在于利用了实验约束来缩小搜索空间,因此在界面柔性建模(侧链重排、loop位移)方面超越了刚性FFT方法。在CAPRI challenge中,HADDOCK在有可靠信息约束的子集中成功了~70%的案例。但HADDOCK的成败核心在约束质量——错误或虚假的约束会把采样空间引向错误的界面,goodhart在”优化约束满足→丢失真实物理结合”的风险。
界面水分子在HADDOCK中的处理是一个独特优势——HADDOCK允许界面保留部分溶剂水分子,并在对接优化中对水分子做位置采样。一个界面水的参与可以使极性互补项修正2-4 kcal/mol,对氢键网络的完整性不可忽视。
抗体-抗原、稳定的酶-抑制剂复合物:ZDOCK/ClusPro轻量快速,成功率可接受。
有NMR/突变/交联数据的PPI确定:HADDOCK利用约束信息显著提升成功率。
Transient PPI、大的构象变化:单一对接方法均不可靠,需要MD+对接的迭代策略或AlphaFold-Multimer预测复杂结构做比对验证。
蛋白互作分子对接的方法选择,本质上是”有多少结构柔性需要建模”与”有多少实验信息可以约束”之间的权衡。两者都不够充分时,对接结果的可靠性需要后续MD模拟来验证。
更多内容请访问 https://www.keyanxueshu.com/
分子动力学模拟计算:GROMACS蛋白质-配体复合物稳定性验证全流程
GROMACS分子动力学模拟:一个离子液体体系中锂离子传输的机理研究
全原子分子动力学模拟原理:从力场参数到轨迹分析的完整链条
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
蛋白定点突变预测在热稳定性改造中的计算策略:从RosettaΔΔG到AlphaFold2多突变扫描
分子动力学模拟RMSD:从轨迹对齐到分段分析的蛋白构象稳定性判断方法
LAMMPS计算径向分布函数:参数设置与物理含义的深度剖析
LAMMPS粗粒化建模:从全原子映射到CG力场参数拟合的实战路径
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
分子动力模拟解析蛋白质在水-有机溶剂界面的结构失稳全过程
VASP可以计算分子能量吗:气相分子DFT的周期边界修正与Gaussian交叉验证
分子动力学模拟对接:MD精修配体构象与对接打分互补的筛选策略
全原子分子动力学模拟原理:力场选择、时间步长与系综耦合的物理账本
分子结构预测:从DFT全局优化到ML辅助搜索的实战复盘
VASP分子动力学模拟:一个高温下MgO熔体结构的AIMD分析
siRNA序列高通量筛选:从靶标mRNA到有效siRNA序列的计算设计流程
污染扩散模拟计算:一个化工园区大气扩散项目的完整复盘