手机版

小分子对接模拟：类药配体的虚拟筛选与富集分析

发布时间：2026-06-22 来源：科研学术网

小中大

字号：

小分子对接模拟的典型应用场景是虚拟筛选——从一个百万级的类药分子库中筛选出几百个候选分子做实验验证。这个管线的核心问题不是”能否找到结合物”，而是”筛出来的分子中真正结合的占比是多少”——即富集因子。如果top 1%的对接结果有50%的命中率，筛选是有效的；如果top 1%的命中率只有2%，那么对接基本无效。

类药配体的化学空间：三维构象的隐形成本

类药分子（分子量300-500 Da、ClogP 1-5、可旋转键2-8）的构象空间通常包含5-50个在~3 kcal/mol能量窗口内的可及构象。这个数量并不夸张——但对接模拟只用一个初始构象出发（不管用什么搜索算法），从某局部区出发的优化有内在的偏差。如果初始构象离结合构象的RMSD>2 Å，对接模拟可能需要大量采样步数才能跨过中间的构象变换障碍。

小分子对接模拟的一个预处理环节是被严重低估的：构象预生成。用RDKit或OMEGA生成配体在能量窗口（通常≤10 kcal/mol）内的所有可及构象，每个构象独立对接，再对所有构象的docking score取最小值——这个做法的成功率比单构象对接高出15-25%。代价是计算量成倍增长：如果10个构象×每个对接~1分钟=总时间10分钟/配体，百万级库的总时间变成千万分钟——不现实。折中方案是筛选中只用单个最低能构象，hit验证阶段换多构象对接+重打分。

配体库的准备：过滤标准直接决定筛选效率

从ZINC或Enamine REAL下载的原始配体库动辄数百万个化合物，但原始库包含大量非类药分子——PAINS（泛活性干扰化合物）、反应性基团、非类药性质。按照规则过滤后，适合筛选的库通常缩小到原始库的30-50%。

PAINS过滤是第一条防线。PAINS是一组已知在多种assay中假阳性的化学骨架（如罗丹明、醌、儿茶酚等）——它们在生化assay中通过非特异性机制（胶体聚集、氧化还原循环、金属螯合）产生活性信号。对接打分也无法区分PAINS的”非特异性强结合”和真正的特异性结合——因为对接打分只看蛋白-配体的几何/能量互补，不识别结合机制的污染风险。最好的策略是在配体库准备阶段直接用PAINS filter剔除这类化合物，不给假阳性任何进入筛选的机会。

类药性过滤（Lipinski规则、Veber规则、QED评分）的目的是锁住口服生物利用度可接受的化学空间。但对于靶向蛋白-蛋白界面、或中枢神经系统穿透要求（需要更小分子量和更高脂溶性）的特异性项目，通用规则需要按项目需求调整。

虚拟筛选的富集指标：EF1%与ROC AUC

富集因子EF1%衡量筛选管线的浓缩效率：EF1% = (hit rate in top 1% scored)/(hit rate in whole library)。如果随机筛选的命中率是0.1%（1/1000），对接筛选的top 1%命中率是5%→EF1%=50——意味着对接把活性分子浓缩到了top 1%的区域，富集了50倍。

但富集因子的绝对值依赖于”decoy”（已知非结合物）的质量。如果decoy的理化性质分布与配体不一致（如配体普遍更大、更疏水），对接可以用理化性质——而非形状互补/静电互补——来”作弊式”把配体和decoy分开。这就是DUD-E基准用property-matched decoy的原因。在自家体系做富集验证时，必须确保decoy在同一化学空间内采样，否则富集因子的虚高会让人以为对接非常有效——实际筛选落到实验上可能低效得令人失望。

BEDROC（Boltzmann-Enhanced Discrimination of ROC）在ROC AUC的基础上，给排在最前面的分子更高的权重——因为实际的筛选中只会买top 100-500个分子测活性，排在前面的准确性远比全库ROC AUC更实际。BEDROC α=20（优先头部~8%），这个指标比AUC更能反映”卖的那几百个分子好不好”。