在哺乳动物细胞核中,染色体通过复杂的折叠形成三维基因组结构,而拓扑相关结构域(TADs)是其关键特征之一,这些结构在细胞发育与疾病发生中发挥着重要作用。然而,如何精准检测TAD仍然是一个亟待解决的挑战。尽管已经提出多种检测方法,但由于背景噪声及TAD结构的复杂嵌套关系,准确识别这些结构单元仍然面临困难。2024年12月2日,中国科学院深圳先进技术研究院资治科研究员团队联合华中农业大学李立教授团队,在《Genome Biology》杂志在线发表了题为“HTAD: a human-in-the-loop framework for supervised chromatin domain detection”的研究成果。
原文链接: https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03445-x
团队首先基于数据,建立了一个包含大量潜在TAD样本的数据库,通过简化方向性指数(sDI)对Hi-C矩阵进行初步筛选。随后,采用主动学习(Active Learning)策略对筛选样本进行有效标注,成功训练出具有高敏感度和高精度的TAD识别模型。实验结果表明,HTAD在TAD边界定位和复杂结构识别方面表现出色,尤其在多个数据集上展现了强大的稳定性与适应性。总之,HTAD的推出为三维基因组结构的研究提供了新工具,提升了分析的准确性和可靠性,未来有望在复杂基因组模式解析中发挥重要作用,推动相关研究的进展。
论文的第一作者是资治科课题组的成员沈威,资治科研究员和李立教授为该论文的通讯作者。该研究得到了国家自然科学基金、华中农业大学自主科技创新基金、广东省合成基因组重点实验室和深圳市合成基因组重点实验室的资助。
资治科课题组主要研究方向包括细胞信号网络的调控原理与合成控制、细胞系统的数学建模和机器学习模型预测。目前,团队长期招聘计算生物学、生物信息学、细胞生物学和分子生物学等方向的博士后和研究助理。有意申请者请将个人简历发送至 zk.zi@siat.ac.cn。