Nature子刊:AI算法破解癌细胞基因特征,准确率可达99%!
AI又立功了。
这次一项新的AI机器学习算法「Ikarus」,可破解癌细胞和正常细胞的基因特征差别。
这项研究由MDC生物信息学家Altuna Akalin团队完成,并发表在Nature子刊「Genome Biology」上。
另外,负责本次研究的机构MDC(Max Delbrück center)还是德国四大研究机构之一的亥姆霍兹联合会的16个研究中心之一。
既然这么大来头,那这份研究为啥重磅?
从浩如烟海的数据集里筛选出一种「共通的特征」,人类肯定比不上AI。
而要将癌细胞和正常细胞区分开来,就需要筛选出它们之间的共通特征。
这次MDC的研究团队开发的Ikarus发现了肿瘤细胞中的共通模式(Pattern),它由一系列基因组特征组成,并且常见于各种类型的癌症。
另外,算法还检测到了从未和癌症挂钩的基因种类。
于是研究团队提出了一个简单的问题:
是否有可能制作一个分类器,将肿瘤细胞与多种癌症类型的正常细胞正确区分开来?
于是就有了Ikarus的诞生。它囊括两个步骤:
1、通过整合多个经过专业注释的单细胞数据集,以基因集的形式发现全面的肿瘤细胞特征;
2、训练稳健的逻辑回归分类器以严格区分肿瘤和正常细胞,然后使用定制的细胞-细胞网络进行细胞标签的基于网络的传播。
团队负责人Altuna Akalin说:
为开发一种强大、灵敏和可重复的计算机肿瘤细胞分选仪,我们已经在使用不同测序技术获得的各种癌症类型的多个单细胞数据集上测试了Ikarus,以确定它适用于不同实验环境。
惊人的成功率
该论文的第一作者Jan Dohmen表示,在专家已经清楚地区分健康细胞和癌细胞的情况下,获得合适的训练数据是一项重大挑战。
单细胞测序数据集通常很冗杂。
这意味着它们包含的关于单个细胞分子特征的信息不是很精确,因为在每个细胞中检测到不同数量的基因,或者因为样本的处理方式并不总是相同。
Dohmen和该研究的联合负责人Vedran Franke博士说,
我们筛选了无数出版物并联系了相当多的研究小组,以获得足够的数据集。团队最终选择来自肺癌和结直肠癌细胞的数据来训练算法,然后再将其应用于其他类型肿瘤的数据集。
在训练阶段,Ikarus需要找到一个「特征基因列表」,然后将其用于对细胞进行分类。
我们尝试并改进了各种方法,Ikarus最终使用两个列表:一个用于癌症基因,另一个用于来自其他细胞的基因,弗兰克解释道。
经过训练之后,该算法就能够区分其他类型癌症中的健康细胞和肿瘤细胞,比如来自肝癌或神经母细胞瘤患者的组织样本。
而在其他样本中的结果令人雀跃,成功率出奇地高,最高可达99%。
「我们没想到会有一个共同的特征可以如此精确地定义不同类型癌症的肿瘤细胞」,Akalin说。
「但我们仍然不能说这种方法是否适用于所有类型的癌症」,Dohmen补充道。
不只是癌细胞区分
为了将Ikarus变成一种可靠的癌症诊断工具,研究人员现在希望在其他类型的肿瘤上对其进行测试。
在最初的测试中,Ikarus已证明该方法还可以将其他类型(和某些亚型)的细胞与肿瘤细胞区分开来,不仅限于肿瘤细胞检测。
它可用于检测任何细胞状态,比如细胞类型,唯一的要求是细胞状态至少存在于两个独立的实验中。
Akalin说:
我们希望使这种方法更加全面,进一步发展它,以便它可以区分活检中所有可能的细胞类型。
在空间测序数据集上应用自动肿瘤分类可以直接注释组织学样本,从而促进自动化数字病理学。
在医院,病理学家通常只在显微镜下检查肿瘤的组织样本,以识别各种细胞类型。这是一项费时费力的工作。
有了Ikarus,这一步骤有朝一日可能成为一个完全自动化的过程。
另外,Akalin指出,这些数据可用于得出关于肿瘤直接环境的结论。这可以帮助医生选择最好的疗法。对于癌组织和微环境的构成,通常表明某种治疗或药物是否有效。
另外,AI也可能有助于开发新的药物。
「Ikarus让我们能够识别出可能导致癌症的基因,然后可以使用新的治疗剂来靶向这些分子结构」Akalin说。
图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。