手机版
           

高通量分子对接:从万级化合物库筛选到先导化合物发现

发布时间:2026-04-28   来源:科研学术网    
字号:

高通量分子对接是虚拟筛选规模化最重要的工具,但把’跑得多’和’筛得准’画等号,是这个方向里最常见的认知偏差。一个新冠3CL蛋白酶抑制剂虚拟筛选项目,化合物库规模是15万,目标是两周内给出50个候选化合物的完整分析报告。这个deadline本身就是压力测试:常规流程根本跑不完。

项目的第一个决策点是什么时候引入聚类分析。如果对15万个分子全部做精筛级别的对接,计算资源撑不住;如果只用粗筛打分排序,误筛率会明显上升。项目组采用的策略是两级打分制:先用快速打分函数(比如Smina或Vina的简化版)对全部15万分子做预排序,取top 5%即7500个分子进入第二轮,然后用完整Vina打分配合exhaustiveness=16做精筛打分,最后按打分排序取top 200做聚类分析。

聚类分析:防止打分函数偏差的系统性过滤

聚类在高通量分子对接里的作用,往往被低估。很多人以为打分排序够用,但打分函数的系统性偏差会让某一类结构特征被整体高估或低估。聚类分析在这里的作用是把骨架相似性纳入考量,确保最终名单的多样性。项目在聚类时用了Murcko骨架分析,把top 200按骨架分成30个cluster,每个cluster取打分最高的代表分子,候选名单从200缩减到了58个,多样性明显提升。

这个环节有一个细节值得记录:聚类时发现有两个打分排名前10的分子属于同一个cluster,且骨架完全相同,只是末端取代基不同。这类情况在虚拟筛选里很常见——打分差异很可能来自打分函数对末端基团的误差,而不是真实的亲和力差异。两个分子都推进,既浪费资源又有同质化风险,聚类分析在这里提供的多样性视角是打分函数给不了的。

计算资源配置:集群 vs 云端

15万规模的高通量分子对接,计算资源是硬约束。项目组当时有两个选择:用本地40核集群排队跑,或者用云端实例弹性扩容。本地集群的优势是成本低,劣势是排队时间不可控;云端的优势是并行度灵活,劣势是费用按实例小时计。这个项目最终选了混合策略:精筛打分阶段用本地集群(可预估时间表),聚类和MD验证阶段弹性调用云端实例(计算量可预估且可中断)。

两周内完成15万分子筛选、聚类分析和58个候选的MD验证,时间表精确到天。这个目标能实现,关键不在工具多先进,而在于流程设计合理、每个环节的过滤阈值设置有依据。高通量分子对接最终筛出的50个候选分子,经过体外活性测试,其中6个IC50低于10微摩尔——这个命中率对于没有已知配体结构的新靶点来说,已经是很不错的结果。

图说天下

×