分子对接的流程看起来是个线性的七步走——下载蛋白结构→去水加氢→定义活性位点→准备配体→设对接盒子→跑对接→看打分——但每一步都是筛选点。中间有一步处理错了(比如结晶水该留不该删的取舍、配体质子化状态设错),后面的打分和排序全在错误的起点上越跑越远。

PDB数据库是蛋白结构的常规入口,但下载下来的原始结构不是”即插即用”的——PDB文件里嵌着结晶试剂、缓冲分子、甘油、PEG等小分子,都要手动清掉。X射线晶体结构(占PDB的~85%)的一个关键信息是B因子——残基中原子B因子>60的区段通常对应柔性环/linker区域,对接的精度天然有限。冷冻电镜结构的分辨率(3-4 Å级别)对侧链取向的确定度较差,对接前可能需要先用MD做局域松弛。
蛋白结构的准备步骤中,氢原子的添加是第一个不可逆操作。不同pH下的His质子化状态(HIE/HID/HIP)和Cys的硫醇/硫醇盐平衡直接改变活性位点的氢键网络。一个经验法则是:pH 7.4下His通常取HIE(Nε-质子化)或HID(Nδ-质子化),具体由局部氢键环境决定。在AutoDock Tools里加氢用的是默认质子化,对于特殊活性位点(如催化三联体、金属配位中心)需要手动核查质子化状态是否与催化机制一致。
水分子处理的黄金标准是”看位置”。结晶水如果兼为结构水(与蛋白形成≥2条氢键、B因子<40)→保留,它们对活性位点的形状和静电环境有结构贡献。表面结晶水(B因子>60、只形成一条氢键)→删除,它们很可能只是结晶时的”乘客”而非功能水。对接盒内的桥接水(位于蛋白-配体界面、溶解于结合腔的单一水分子)的处理是个开放问题——有时保留能提升对接pose的准确率,但概率性较低,通常默认为删除。
对接盒子的定义决定了配体搜索的空间范围。盒子太小→遗漏真实结合位点;盒子太大→搜索空间指数级膨胀→打分函数在噪声中”蒙”了一个高分的假阳性pose。
以ATP结合位点为例——ATP分子本体~25 Å长,考虑到结合腔周围的氨基酸残基需要提供氢键供体/受体,盒子至少留出5-8 Å的额外空间,总盒长边约30-35 Å。对于变构位点,盒子定位的线索来自已知的变构调控因子共晶结构——没有这些信息的话,盲目扫大范围盒子的成功率极低。
盒子的间距(spacing)参数在Vina中是1.0 Å。间距越大→网格越粗→打分函数的分辨率下降(但速度提升)。0.375 Å的精细间距比1.0 Å在金丹结合位点的pose预测精度上有~10-15%的提升,但计算时间翻几倍。对常规虚拟筛选,0.5-1.0 Å已足够;对精准pose预测,用小间距重对接一轮是常规做法。
配体从SMILES或2D SDF到3D对接用的mol2/pdbqt,需要经历3D构象生成→电荷分配→可旋转键定义三步。3D构象生成的目标不是”最稳定构象”而是”能量可及的构象空间”——对接算法会在结合腔中采样配体的扭转空间,初始构象只是采样的起点。
电荷分配影响静电互补项的打分。Gasteiger电荷(AutoDock默认)是基于电负性均衡原理的经验值,对中性和弱极性配体工作良好。但对于含多个可离子化基团的配体(多肽、核苷酸类似物),AM1-BCC或RESP电荷(从QM计算拟合的静电势电荷)能给出更准确的静电分布。
配体质子化状态在对接pH下的设置直接影响氢键网络和静电互补。对接pH=7.4时,羧基(pKa4)去质子化,氨基(pKa9.5)质子化,这些基团的电荷态在准备配体时必须确认。如果准备了一组同系物但其中有不同的可滴定基团,质子化状态不对可能导致结合能排序的系统偏差。
Vina的输出是按打分排序的前N个pose(默认N=9)以及预测的结合亲和力(kcal/mol)。打分低于-7.0 kcal/mol通常提示中等-强结合,-8.0到-10.0是强结合,优于-10.0要警惕”假阳性”——打分函数对高度疏水的大型配体有时会给出夸大的高分。
pose的一致性比单一pose的打分更重要。跑完对接后检查前3个pose的RMSD——如果前3个pose都在同一cluster(RMSD<2.0 Å),说明打分函数在结合腔中找到了一致的最优结合模式;如果前3个pose的RMSD>5.0 Å互相发散,配体在结合腔中有多个可竞争的结合模式——要么结合腔太大、要么配体太小,对接的可靠度打折扣。
分子对接的流程中,最耗时的不在”对接”本身(一个配体在普通台式机上跑Vina只要1-5分钟),而在蛋白准备阶段的质量把控——确认活性位点的水分子、金属离子和关键残基的质子化状态,这一步的疏忽在后面的任何环节都弥补不回来。
更多内容请访问 https://www.keyanxueshu.com/
分子动力学模拟计算:GROMACS蛋白质-配体复合物稳定性验证全流程
GROMACS分子动力学模拟:一个离子液体体系中锂离子传输的机理研究
全原子分子动力学模拟原理:从力场参数到轨迹分析的完整链条
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
蛋白定点突变预测在热稳定性改造中的计算策略:从RosettaΔΔG到AlphaFold2多突变扫描
分子动力学模拟RMSD:从轨迹对齐到分段分析的蛋白构象稳定性判断方法
LAMMPS计算径向分布函数:参数设置与物理含义的深度剖析
LAMMPS粗粒化建模:从全原子映射到CG力场参数拟合的实战路径
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
分子动力模拟解析蛋白质在水-有机溶剂界面的结构失稳全过程
VASP可以计算分子能量吗:气相分子DFT的周期边界修正与Gaussian交叉验证
分子动力学模拟对接:MD精修配体构象与对接打分互补的筛选策略
全原子分子动力学模拟原理:力场选择、时间步长与系综耦合的物理账本
分子结构预测:从DFT全局优化到ML辅助搜索的实战复盘
VASP分子动力学模拟:一个高温下MgO熔体结构的AIMD分析
siRNA序列高通量筛选:从靶标mRNA到有效siRNA序列的计算设计流程
污染扩散模拟计算:一个化工园区大气扩散项目的完整复盘