手机版
           

小分子对接模拟:类药配体的虚拟筛选与富集分析

发布时间:2026-06-22   来源:科研学术网    
字号:

小分子对接模拟的典型应用场景是虚拟筛选——从一个百万级的类药分子库中筛选出几百个候选分子做实验验证。这个管线的核心问题不是”能否找到结合物”,而是”筛出来的分子中真正结合的占比是多少”——即富集因子。如果top 1%的对接结果有50%的命中率,筛选是有效的;如果top 1%的命中率只有2%,那么对接基本无效。

类药配体的化学空间:三维构象的隐形成本

类药分子(分子量300-500 Da、ClogP 1-5、可旋转键2-8)的构象空间通常包含5-50个在~3 kcal/mol能量窗口内的可及构象。这个数量并不夸张——但对接模拟只用一个初始构象出发(不管用什么搜索算法),从某局部区出发的优化有内在的偏差。如果初始构象离结合构象的RMSD>2 Å,对接模拟可能需要大量采样步数才能跨过中间的构象变换障碍。

小分子对接模拟的一个预处理环节是被严重低估的:构象预生成。用RDKit或OMEGA生成配体在能量窗口(通常≤10 kcal/mol)内的所有可及构象,每个构象独立对接,再对所有构象的docking score取最小值——这个做法的成功率比单构象对接高出15-25%。代价是计算量成倍增长:如果10个构象×每个对接~1分钟=总时间10分钟/配体,百万级库的总时间变成千万分钟——不现实。折中方案是筛选中只用单个最低能构象,hit验证阶段换多构象对接+重打分。

配体库的准备:过滤标准直接决定筛选效率

从ZINC或Enamine REAL下载的原始配体库动辄数百万个化合物,但原始库包含大量非类药分子——PAINS(泛活性干扰化合物)、反应性基团、非类药性质。按照规则过滤后,适合筛选的库通常缩小到原始库的30-50%。

PAINS过滤是第一条防线。PAINS是一组已知在多种assay中假阳性的化学骨架(如罗丹明、醌、儿茶酚等)——它们在生化assay中通过非特异性机制(胶体聚集、氧化还原循环、金属螯合)产生活性信号。对接打分也无法区分PAINS的”非特异性强结合”和真正的特异性结合——因为对接打分只看蛋白-配体的几何/能量互补,不识别结合机制的污染风险。最好的策略是在配体库准备阶段直接用PAINS filter剔除这类化合物,不给假阳性任何进入筛选的机会。

类药性过滤(Lipinski规则、Veber规则、QED评分)的目的是锁住口服生物利用度可接受的化学空间。但对于靶向蛋白-蛋白界面、或中枢神经系统穿透要求(需要更小分子量和更高脂溶性)的特异性项目,通用规则需要按项目需求调整。

虚拟筛选的富集指标:EF1%与ROC AUC

富集因子EF1%衡量筛选管线的浓缩效率:EF1% = (hit rate in top 1% scored)/(hit rate in whole library)。如果随机筛选的命中率是0.1%(1/1000),对接筛选的top 1%命中率是5%→EF1%=50——意味着对接把活性分子浓缩到了top 1%的区域,富集了50倍。

但富集因子的绝对值依赖于”decoy”(已知非结合物)的质量。如果decoy的理化性质分布与配体不一致(如配体普遍更大、更疏水),对接可以用理化性质——而非形状互补/静电互补——来”作弊式”把配体和decoy分开。这就是DUD-E基准用property-matched decoy的原因。在自家体系做富集验证时,必须确保decoy在同一化学空间内采样,否则富集因子的虚高会让人以为对接非常有效——实际筛选落到实验上可能低效得令人失望。

BEDROC(Boltzmann-Enhanced Discrimination of ROC)在ROC AUC的基础上,给排在最前面的分子更高的权重——因为实际的筛选中只会买top 100-500个分子测活性,排在前面的准确性远比全库ROC AUC更实际。BEDROC α=20(优先头部~8%),这个指标比AUC更能反映”卖的那几百个分子好不好”。

去假阳性:对接后的三道过滤

虚拟筛选的top 1%(如1万分子的库中取前100个)通常包含30-50%的假阳性。三道后处理过滤可以进一步压缩假阳性比例:

过滤1:化学相似性聚类。将top hits按ECFP4指纹聚类(Tanimoto距离<0.4),每个cluster只保留top 1-2分子——避免买回去10个分子本质上是同一骨架的轻微修饰,浪费实验资源。

过滤2:目视检查(visual inspection)。看top 50-100个pose的电子密度交互:关键氢键是否完整、疏水堆积是否紧密、是否有未匹配的极性原子暴露在疏水区域。这一步可能筛掉20-30%的pose——对打分高但氢键网络残缺的pose(疏水堆积主导打分的假阳性)要特别警惕。

过滤3:重对接重打分。候选分子用更精细的参数(exhaustiveness=64、更小的对接间隔、多个初始构象)重对接,再辅以MM/GBSA或基于知识的重打分——这一步可以剔除初始对接中”侥幸”获得高分的假阳性。

小分子对接模拟的真正产出不是”一批候选分子”,而是”经过多轮过滤、富集验证和人工质控的短名单”——这样送到实验台上的命中率才有可能从1-2%提升到20-30%。

更多内容请访问 https://www.keyanxueshu.com/

图说天下

×
gromacs计算
lammps计算
VASP计算
分子对接
分子自组装