分子对接预处理常被当成”点几下AutoDock Tools”的机械操作。但在一个真实的药物设计项目中,预处理阶段如果漏掉了活性位点金属离子的配位数核对、或者把配体不可旋转的酰胺键误标成了可旋转——对接的pose可能从正确的结合构象偏出3-4 Å,后面的MM/PBSA精修全部建立在错误的起点上。

蛋白PDB文件里混杂着大量非蛋白组分——结晶水、缓冲离子、共晶配体、辅因子、翻译后修饰(PTM)残基——这些组分的取舍不能在”全部删除”和”全部保留”之间二选一。
结晶水的判断标准:条件1——与蛋白重原子形成≥2条氢键(距离<3.5 Å,角度>120°)。条件2——B因子<40(结构有序度高)。条件3——在活性位点腔体内(距离结合位点<5 Å)。满足条件1+2即为结构水→保留。仅满足条件1(桥接水)→需结合生物学功能判断。仅满足条件3(活性位点溶剂水)→通常删除,但在抗药性突变研究中保留活性位点水可能揭示突变对水网络的影响。
金属离子的配位数核对是预处理中最容易遗漏的一步。Zn²⁺在锌指蛋白和金属蛋白酶中常见的配位几何是四面体(配位数4),Mg²⁺在激酶的ATP结合位点偏爱八面体(配位数6)。如果蛋白结构中的金属离子配位数不对(分辨率不足导致配位残基的侧链位置偏差),能量最小化可能把配位几何”优化”成更不稳定的构型。在预处理阶段手动核实金属离子的配位残基列表和配位距离(Zn²⁺-N/O距离通常2.0-2.3 Å,Mg²⁺-O距离通常2.0-2.2 Å),能提前拦截这类问题。
辅因子(NAD, FAD, ATP, Heme)的处理需要特殊参数文件。这些辅因子不是标准氨基酸,AutoDock的原子类型表不认识它们的原子类型。需要用专用工具生成辅因子的pdbqt文件。如果辅因子是催化活性的必需组件(如CYP450的Heme铁中心),半对接(将辅因子与蛋白一起固定,只对接辅因子附近的配体结合位点)优于全对接。
配体从SMILES/2D SDF到3D对接用pdbqt,过程中最难处理的是可旋转键的标记。Vina/AD4的对接算法只旋转被标记为”active”的键,对环内键、酰胺键和双键默认不可旋转——这个默认是对的(酰胺C-N键有部分双键特性,旋转能垒>15 kcal/mol),但三键两侧可旋转(炔基线性几何不存在旋转,但实际搜索中仍可允许)、以及磺酰胺的S-N键(旋转能垒约8-10 kcal/mol——在AMBER GAFF力场中常设可旋转但AD4默认标记不可旋转,对含磺胺类药效团的配体需要手动干预)。
配体的电荷分配也直接影响静电互补打分。Gasteiger快速但粗糙——对于含饱和N+的季铵型配体,Gasteiger可能低估正电荷的离域程度;用HF/6-31G*做单点能→RESP电荷虽然耗时但给出更准的静电分布。对于虚拟筛选(几百上千个配体),Gasteiger电荷是唯一可行的选项;对于先导化合物优化(几十个配体),用RESP电荷做精修能提升pose排序的一致性。
对接盒尺寸设置的矛盾在于:盒子要大到包含整个结合腔(包括柔性环的位移空间),但又要小到排除非结合区的假阳性pose。以激酶ATP结合位点为例,盒子中心放在铰链区(hinge region)的主链羰基/酰胺位置,XYZ边长设22×20×18 Å(或22×22×22 Å立方体)通常足够覆盖从铰链区到DFG-motif结合腔的全部空间。
如果结合腔内有一个关键的结构水保留在蛋白中,盒子必须包含这个水的空间——否则对接采样会尝试用配体的官能团去”填补”水的空间,得出的pose违背了氢键网络的能量最优。
对于同时占据ATP结合位点和变构位点的双底物抑制剂,单个盒子可能容不下整个配体——这是分子对接的固有局限,需要的替代方案是用二分对接法或直接用MD做配体插入。
分子对接预处理的质量直接决定了后续对接结果的”基线精度”——预处理没做好的体系,对接10次都未必有一次能恢复到正确的结合构象。预处理做好了,对接的pose基本在第一或第二cluster。
更多内容请访问 https://www.keyanxueshu.com/
分子动力学模拟计算:GROMACS蛋白质-配体复合物稳定性验证全流程
GROMACS分子动力学模拟:一个离子液体体系中锂离子传输的机理研究
全原子分子动力学模拟原理:从力场参数到轨迹分析的完整链条
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
蛋白定点突变预测在热稳定性改造中的计算策略:从RosettaΔΔG到AlphaFold2多突变扫描
分子动力学模拟RMSD:从轨迹对齐到分段分析的蛋白构象稳定性判断方法
LAMMPS计算径向分布函数:参数设置与物理含义的深度剖析
LAMMPS粗粒化建模:从全原子映射到CG力场参数拟合的实战路径
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
分子动力模拟解析蛋白质在水-有机溶剂界面的结构失稳全过程
VASP可以计算分子能量吗:气相分子DFT的周期边界修正与Gaussian交叉验证
分子动力学模拟对接:MD精修配体构象与对接打分互补的筛选策略
全原子分子动力学模拟原理:力场选择、时间步长与系综耦合的物理账本
分子结构预测:从DFT全局优化到ML辅助搜索的实战复盘
VASP分子动力学模拟:一个高温下MgO熔体结构的AIMD分析
siRNA序列高通量筛选:从靶标mRNA到有效siRNA序列的计算设计流程
污染扩散模拟计算:一个化工园区大气扩散项目的完整复盘