本报讯 近日,中国科大生命科学与医学部瞿昆教授课题组、北京生命科学研究所黎斌研究员课题组,以及中国科大数学科学学院陈发来教授课题组联合完成了一项大规模研究。他们通过对百万量级单细胞多组学数据进行分析,系统评估了14种单细胞模态预测算法和18种单细胞多组学整合算法的性能。相关研究成果于9月25日发表在《自然·方法》上。
在本次研究中,团队收集了来自47个数据集的上百万个单细胞多组学数据,涵盖多个生物样本和实验平台。他们设计了一套全面的评估流程,结合算法的准确性、鲁棒性和计算资源消耗等多维度指标,系统评估了领域内最常用的算法。结果显示,在蛋白质丰度预测方面,totalVI和scArches表现最为优异;在染色质可及性预测中,LS_Lab算法排名领先。在多组学整合分析中,Seurat、MOJITOO和scAI在垂直整合上表现突出,而totalVI和UINMF在水平整合和马赛克整合任务中展现了卓越性能。
本次研究不仅为算法设计提供了新思路,还为未来多组学数据的分析和应用奠定了重要基础。为帮助科研人员选择合适的分析工具,研究团队在GitHub上发布了完整的分析流程、代码和测试数据集,供同行使用和改进。
研究团队还通过深入探讨这些算法的数学原理,发现降噪处理是提高单细胞数据预测精度的关键。在性能评估中,机器学习算法(如基于奇异值分解的LS_Lab和Guanlab-dengkw)以及基于概率模型的深度学习算法(如totalVI)均表现出显著优势。然而,研究还指出,现有模态预测算法在某些关键蛋白的预测性能上仍有待提升,染色质可及性预测的准确性也需进一步优化。
中国科大博士后胡银雷、博士研究生万思远和罗袁涵宇为论文的共同第一作者,瞿昆教授、黎斌研究员和陈发来教授为论文的通讯作者。
(生命科学与医学部 数学科学学院 科研部)