手机版

高通量分子对接：从万级化合物库筛选到先导化合物发现

发布时间：2026-04-28 来源：科研学术网

小中大

字号：

高通量分子对接是虚拟筛选规模化最重要的工具，但把’跑得多’和’筛得准’画等号，是这个方向里最常见的认知偏差。一个新冠3CL蛋白酶抑制剂虚拟筛选项目，化合物库规模是15万，目标是两周内给出50个候选化合物的完整分析报告。这个deadline本身就是压力测试：常规流程根本跑不完。

项目的第一个决策点是什么时候引入聚类分析。如果对15万个分子全部做精筛级别的对接，计算资源撑不住;如果只用粗筛打分排序，误筛率会明显上升。项目组采用的策略是两级打分制：先用快速打分函数(比如Smina或Vina的简化版)对全部15万分子做预排序，取top 5%即7500个分子进入第二轮，然后用完整Vina打分配合exhaustiveness=16做精筛打分，最后按打分排序取top 200做聚类分析。

聚类分析：防止打分函数偏差的系统性过滤

聚类在高通量分子对接里的作用，往往被低估。很多人以为打分排序够用，但打分函数的系统性偏差会让某一类结构特征被整体高估或低估。聚类分析在这里的作用是把骨架相似性纳入考量，确保最终名单的多样性。项目在聚类时用了Murcko骨架分析，把top 200按骨架分成30个cluster，每个cluster取打分最高的代表分子，候选名单从200缩减到了58个，多样性明显提升。

这个环节有一个细节值得记录：聚类时发现有两个打分排名前10的分子属于同一个cluster，且骨架完全相同，只是末端取代基不同。这类情况在虚拟筛选里很常见——打分差异很可能来自打分函数对末端基团的误差，而不是真实的亲和力差异。两个分子都推进，既浪费资源又有同质化风险，聚类分析在这里提供的多样性视角是打分函数给不了的。

计算资源配置：集群 vs 云端

15万规模的高通量分子对接，计算资源是硬约束。项目组当时有两个选择：用本地40核集群排队跑，或者用云端实例弹性扩容。本地集群的优势是成本低，劣势是排队时间不可控;云端的优势是并行度灵活，劣势是费用按实例小时计。这个项目最终选了混合策略：精筛打分阶段用本地集群(可预估时间表)，聚类和MD验证阶段弹性调用云端实例(计算量可预估且可中断)。

两周内完成15万分子筛选、聚类分析和58个候选的MD验证，时间表精确到天。这个目标能实现，关键不在工具多先进，而在于流程设计合理、每个环节的过滤阈值设置有依据。高通量分子对接最终筛出的50个候选分子，经过体外活性测试，其中6个IC50低于10微摩尔——这个命中率对于没有已知配体结构的新靶点来说，已经是很不错的结果。