基于AIAIBDA免疫大数据的人工智能
肿瘤早期筛查

(国家发明专利授权:ZL20201061088.0)

肿瘤早筛具有重大意义

中国癌症发病率高

根据世界卫生组织癌症研究机构(IARC)发布的《2020年世界癌症报告》,2020年中国新发癌症457万例,死亡300万例,分别占全球新发与死亡病例的23.7%和30.2%,位居全球第一,且近十年来癌症发病率和死亡率均呈持续上升趋势。

图1. 2020年中国癌症新发人数占比

图2. 2020年中国癌症死亡人数占比

中国癌症早诊断率低

根据世界卫生组织数据,1/3的癌症可以通过早期诊断而得到治疗。肿瘤早期体积小,未发生转移,较容易切除,早期癌症的治愈率可高达90%。然而,中国目前新发癌症患者80%以上属于中晚期,所有癌症的五年生存率仅为40.5%,远低于美国的67.1%。

图3. 中国癌症早期发现率和5年生存率

图4. 中国癌症中晚期发现率和5年生存期

癌症的早期筛查能有效降低患病率,并提高患者生存率。以结直肠癌为例,根据《2020 年中国结直肠癌筛查与早诊早治指南》,结直肠癌的发生发展大多遵循“腺瘤-癌”序列,从癌前病变进展到癌一般需要 5-10 年时间,为疾病的早期诊断和临床干预提供了宝贵时间窗口。此外结直肠癌的预后与诊断分期紧密相关,I 期结直肠癌的 5 年相对生存率超90%,而发生远期转移的 IV 期结直肠癌 5 年相对生存率在 15%以下。对于其他癌种,早期筛查与诊断同样有利于即早干预治疗,提升患者生存率。

因此,癌症早查早治,对提高生存率及生存质量,意义重大;推广普及癌症早期筛查,很有必要!

益安博®基于AIAIBDA的肿瘤早筛平台

经过多年的不懈努力,我们开展了数十项覆盖健康人群、15种实体肿瘤患者群体、5种血液肿瘤患者群体、8种神经退行性疾病患者群体的大队列临床试验,采集了超过1万份临床数据样本,获得数十亿条TCR/BCR序列信息,积累了海量的病例和免疫组库数据。通过生物信息学和机器学习算法分析,特别是在多模态大语言模型(Multimodal Large Language Model, MLLM)的加持下,我们对免疫特征-癌症关系的分析已取得丰硕的成果,成功研发基于人工智能的免疫大数据分析平台AIAIBDATM,并以此为技术底座,训练了多种癌症的早筛模型,支撑着公司多个免疫特征-癌症预测应用的落地。

静脉采血2-5毫升,通过免疫组库高通量测序,利用益安博基于AIAIBDA的肿瘤早筛平台分析处理,即可给出是否患癌、患何种癌的报告!

(市场主管:何经理(155 2818 1919,微信同号),来电请说明来意,谢谢支持!)

图5. AIAIBDA平台架构图

技术背景

在自然语言处理(NLP)领域,自谷歌2018年开源其基于Transformer架构的预训练语言模型BERT之后,大语言模型迅速登上历史舞台,百花齐放、异彩纷呈,极大推进了NLP的发展进程。这类模型利用注意力机制,具有自监督和可并行运算的特点,无需大量标注数据即可并行地训练人类积累的海量语料库,常常具备令人惊叹的性能。

蛋白序列与人类自然语言有相通之处。近年来,学界开展了多项将蛋白序列作为语料送入语言模型进行训练的研究,也取得了显著的成绩。这类模型通常能学习到蛋白序列中各氨基酸的相互关系,具有强大的表征学习能力。

图6. Transformer模型结构示意图

我们也深入开展了蛋白语言模型的研究,在开源模型基础上,结合我们在免疫组库方面积累的海量TCR/BCR序列数据,通过转移学习(Transfer Learning)的方式,训练出独特的TCR/BCR蛋白“方言”模型,能更好地表征免疫组库序列数据,成为我们AIAIBDA平台的核心底层技术之一。

算法背后的生物学原理

免疫特征与疾病具备对应关系

肿瘤的发生是因为体内细胞发生了基因突变,造成细胞恶性增生。这些突变基因所表达的蛋白有可能成为肿瘤最早的生物标志物被免疫系统识别,诱导T/B细胞特异性克隆增生。不同疾病,会诱发不同的T/B细胞克隆增生。因此,作为T/B细胞标志的TCR/BCR携带了我们所要分析的疾病特征性免疫数据。

图7. 疾病/癌症早筛示意图

图8. 疾病/癌症早筛示意图

准确判断32种疾病和肿瘤

经过多年研究,我们已经建立32种疾病的囊括数十亿条TCR序列记录的数据库,针对每种肿瘤,我们用几十万到几百万条特征序列来判断。通过分析外周血中的TCR基因,我们可以快速准确地判断各类肿瘤。

图10. 疾病/癌症早筛示意图