小分子对接模拟的典型应用场景是虚拟筛选——从一个百万级的类药分子库中筛选出几百个候选分子做实验验证。这个管线的核心问题不是”能否找到结合物”,而是”筛出来的分子中真正结合的占比是多少”——即富集因子。如果top 1%的对接结果有50%的命中率,筛选是有效的;如果top 1%的命中率只有2%,那么对接基本无效。

类药分子(分子量300-500 Da、ClogP 1-5、可旋转键2-8)的构象空间通常包含5-50个在~3 kcal/mol能量窗口内的可及构象。这个数量并不夸张——但对接模拟只用一个初始构象出发(不管用什么搜索算法),从某局部区出发的优化有内在的偏差。如果初始构象离结合构象的RMSD>2 Å,对接模拟可能需要大量采样步数才能跨过中间的构象变换障碍。
小分子对接模拟的一个预处理环节是被严重低估的:构象预生成。用RDKit或OMEGA生成配体在能量窗口(通常≤10 kcal/mol)内的所有可及构象,每个构象独立对接,再对所有构象的docking score取最小值——这个做法的成功率比单构象对接高出15-25%。代价是计算量成倍增长:如果10个构象×每个对接~1分钟=总时间10分钟/配体,百万级库的总时间变成千万分钟——不现实。折中方案是筛选中只用单个最低能构象,hit验证阶段换多构象对接+重打分。
从ZINC或Enamine REAL下载的原始配体库动辄数百万个化合物,但原始库包含大量非类药分子——PAINS(泛活性干扰化合物)、反应性基团、非类药性质。按照规则过滤后,适合筛选的库通常缩小到原始库的30-50%。
PAINS过滤是第一条防线。PAINS是一组已知在多种assay中假阳性的化学骨架(如罗丹明、醌、儿茶酚等)——它们在生化assay中通过非特异性机制(胶体聚集、氧化还原循环、金属螯合)产生活性信号。对接打分也无法区分PAINS的”非特异性强结合”和真正的特异性结合——因为对接打分只看蛋白-配体的几何/能量互补,不识别结合机制的污染风险。最好的策略是在配体库准备阶段直接用PAINS filter剔除这类化合物,不给假阳性任何进入筛选的机会。
类药性过滤(Lipinski规则、Veber规则、QED评分)的目的是锁住口服生物利用度可接受的化学空间。但对于靶向蛋白-蛋白界面、或中枢神经系统穿透要求(需要更小分子量和更高脂溶性)的特异性项目,通用规则需要按项目需求调整。
富集因子EF1%衡量筛选管线的浓缩效率:EF1% = (hit rate in top 1% scored)/(hit rate in whole library)。如果随机筛选的命中率是0.1%(1/1000),对接筛选的top 1%命中率是5%→EF1%=50——意味着对接把活性分子浓缩到了top 1%的区域,富集了50倍。
但富集因子的绝对值依赖于”decoy”(已知非结合物)的质量。如果decoy的理化性质分布与配体不一致(如配体普遍更大、更疏水),对接可以用理化性质——而非形状互补/静电互补——来”作弊式”把配体和decoy分开。这就是DUD-E基准用property-matched decoy的原因。在自家体系做富集验证时,必须确保decoy在同一化学空间内采样,否则富集因子的虚高会让人以为对接非常有效——实际筛选落到实验上可能低效得令人失望。
BEDROC(Boltzmann-Enhanced Discrimination of ROC)在ROC AUC的基础上,给排在最前面的分子更高的权重——因为实际的筛选中只会买top 100-500个分子测活性,排在前面的准确性远比全库ROC AUC更实际。BEDROC α=20(优先头部~8%),这个指标比AUC更能反映”卖的那几百个分子好不好”。
虚拟筛选的top 1%(如1万分子的库中取前100个)通常包含30-50%的假阳性。三道后处理过滤可以进一步压缩假阳性比例:
过滤1:化学相似性聚类。将top hits按ECFP4指纹聚类(Tanimoto距离<0.4),每个cluster只保留top 1-2分子——避免买回去10个分子本质上是同一骨架的轻微修饰,浪费实验资源。
过滤2:目视检查(visual inspection)。看top 50-100个pose的电子密度交互:关键氢键是否完整、疏水堆积是否紧密、是否有未匹配的极性原子暴露在疏水区域。这一步可能筛掉20-30%的pose——对打分高但氢键网络残缺的pose(疏水堆积主导打分的假阳性)要特别警惕。
过滤3:重对接重打分。候选分子用更精细的参数(exhaustiveness=64、更小的对接间隔、多个初始构象)重对接,再辅以MM/GBSA或基于知识的重打分——这一步可以剔除初始对接中”侥幸”获得高分的假阳性。
小分子对接模拟的真正产出不是”一批候选分子”,而是”经过多轮过滤、富集验证和人工质控的短名单”——这样送到实验台上的命中率才有可能从1-2%提升到20-30%。
更多内容请访问 https://www.keyanxueshu.com/
分子动力学模拟计算:GROMACS蛋白质-配体复合物稳定性验证全流程
GROMACS分子动力学模拟:一个离子液体体系中锂离子传输的机理研究
全原子分子动力学模拟原理:从力场参数到轨迹分析的完整链条
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
蛋白定点突变预测在热稳定性改造中的计算策略:从RosettaΔΔG到AlphaFold2多突变扫描
分子动力学模拟RMSD:从轨迹对齐到分段分析的蛋白构象稳定性判断方法
LAMMPS计算径向分布函数:参数设置与物理含义的深度剖析
LAMMPS粗粒化建模:从全原子映射到CG力场参数拟合的实战路径
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
分子动力模拟解析蛋白质在水-有机溶剂界面的结构失稳全过程
VASP可以计算分子能量吗:气相分子DFT的周期边界修正与Gaussian交叉验证
分子动力学模拟对接:MD精修配体构象与对接打分互补的筛选策略
全原子分子动力学模拟原理:力场选择、时间步长与系综耦合的物理账本
分子结构预测:从DFT全局优化到ML辅助搜索的实战复盘
VASP分子动力学模拟:一个高温下MgO熔体结构的AIMD分析
siRNA序列高通量筛选:从靶标mRNA到有效siRNA序列的计算设计流程
污染扩散模拟计算:一个化工园区大气扩散项目的完整复盘