人工智能辅助恶性肿瘤诊断的应用进展

王祥旭,潘伟,等
人工智能是利用计算机算法执行类似人类的智能行为并完成相关任务的技术,最早于20世纪50年代提出[1],源于数学和计算机科学,是一种迭代的“自学习”技术,可发现数据间的内在联系,并更快地执行任务。

0、引言

基因组学、代谢组学和影像组学的不断发展,为肿瘤患者精准医疗提供了大数据支撑,但也给肿瘤医师数据分析带来巨大挑战。人工智能(artificial intelligence,AI)尤其是深度学习(deep learning,DL)能够大批量处理高维数据,在影像识别方面AI能够自动识别和动态监测靶病灶,辅助临床医师获得更准确的影像学评估,提高工作效率,减少工作负荷,在肿瘤诊断、复发检测和个体化诊疗方面具有重要价值。尽管AI在肿瘤辅助诊断领域取得了丰硕成果,但在临床实践中尚面临数据可及性、模型鲁棒性(Robustness)和泛化性以及结果可解释性等诸多挑战。本文主要对AI基本原理、前沿进展、面临挑战和未来展望等方面探讨AI在恶性肿瘤诊断领域的应用进展。

1、AI概述及基本原理

人工智能是利用计算机算法执行类似人类的智能行为并完成相关任务的技术,最早于20世纪50年代提出[1],源于数学和计算机科学,是一种迭代的“自学习”技术,可发现数据间的内在联系,并更快地执行任务。

机器学习(machine learning,ML)是AI的分支,兴起于20世纪80年代。ML主要研究计算机如何模拟或实现人类的学习行为,获取新知识、完善已有知识框架和自身性能。ML可在无明确编程指令的情况下执行任务,发现数据间的隐藏关系[2],进行数据分析,常用的Logistic回归、线性回归、决策树、随机森林(random forest,RF)、朴素贝叶斯和K-means聚类分析、多层感知机(multi-layer perceptron,MLP)、支持向量机(support vector machine,SVM)等[3]均属于ML,其中Logistic回归广泛用于肿瘤学研究[4]。ML可分为有监督学习、无监督学习和增强学习。有监督学习是将有明确标签的数据按一定规则或比例随机分为训练集和验证集,对训练数据进行拟合获得模型,通过验证集检验该模型的效能,从而得出结论,常用于处理数据回归和分类问题。例如,通过统计儿童性别、各年龄阶段的身高和体重等数据,得出儿童身体发育模型(回归),进而用于判断普通儿童的发育状态(分类)。无监督学习是指数据没有分类标签,计算机根据数据间的相似性或差异进行聚类[5],使同类数据差异最小,不同类数据差异最大,常用于数据降维处理和聚类分析。例如人脸识别系统,客户端将面部图像进行特征提取(降维),与用户信息一起输入服务器终端,当需要识别时内部系统会对新的面部特征与终端进行匹配,即使与录入时的光线、角度不同,仍能准确识别用户身份(聚类)。增强学习,是指先利用未分类数据进行训练,建立初步模型,再通过反馈性评价模型优劣指导下一步学习,通过不断地试错和反馈进行“自我学习”,一般解决序列决策和智能控制问题。我们熟知的“Alpha-Go”和“无人驾驶汽车”就是增强学习模型的典型代表,其中无人驾驶汽车是通过车载传感器感知车辆周围环境,并根据车况和路况控制车转向和速度,从而实现安全行驶。

人工神经网络(artificial neural networks,ANN)和深度学习是机器学习的新领域,旨在通过计算机模拟人类大脑进行数据分析。AI、ML和DL三者关系,见图1。ANN源于人大脑神经元相互连接的生物学习模式[6],具有级联、变化和分层等能力。DL是ANN的进阶,使用分层ANN开发更为复杂的学习模型,以理解不同维度的数据[7]。DL包括深度信念网络(deep belief network,DBN)、卷积神经网络(convolution neural networks,CNN)和递归神经网络(recurrent neural network,RNN)等,其中卷积神经网络算法在图像处理方面具有独特优势,已用于临床影像数据特征提取和分析,递归神经网络算法通过对时间序列数据进行分析,用于疾病动态监测。传统ML需将原始数据进行特征提取并处理为结构化数据集,无法直接处理非结构化的数据。DL能直接处理包括图像、声音、语言在内的非结构化数据,在临床影像分类、病历文本分析和肿瘤诊断[8-9]方面具有优势。

QQ截图20200828092910.png

AI:artificial intelligence;ML:machine learning;DL:deep learning.

图1 AI、ML和DL三者关系图

2、AI与恶性肿瘤诊断

AI可利用异质性数据辅助肿瘤诊断、判断预后、制定个体化诊疗方案[10-13],还可连接众多的移动设备,如智能手机或可穿戴装备等终端,开发“数字生物标记物”,预测临床结果。DL在肿瘤诊疗领域的相关研究近年来突飞猛进,见图2。下面我们将深入探讨AI在皮肤肿瘤、肺癌、前列腺癌、乳腺癌及卵巢癌诊断和肿瘤放疗的应用进展。

QQ截图20200828092910.png

图2近十年“Medline/PubMed”中“Deep learning”在肿瘤诊疗领域文章发表情况

2.1 AI与皮肤肿瘤

皮肤肿瘤位于体表,其诊断主要依靠病变部位的颜色变化和形态特征,并通过病理确诊。AI中CNN算法可有效处理皮肤肿瘤的图像数据,进行分割、内部特征提取和分类。2018年德国海德堡大学一项前瞻性研究[14]显示,AI较皮肤科医生能更准确地诊断皮肤黑色素瘤。该研究通过卷积神经网络(CNN)深度学习20例恶性黑色素瘤和80例良性痣的图片,与17个国家58名皮肤科医生的诊断进行比对,结果显示,CNN算法的诊断符合率(AUC)为0.86,高于皮肤科医生的0.79(P<0.01);特异性为82.5%,高于皮肤科医生71.3%(P<0.01)。斯坦福大学研究人员[15]收集2 032种不同皮肤病变共计129 450幅病理图像,根据病理分为:(1)良性痣与恶性黑色素瘤;(2)良性脂溢性角化病与角化细胞癌;采用CNN算法对图像进行特征提取,并进行疾病分类,实现了多种皮肤疾病的自动诊断,其中恶性黑色素瘤和角化细胞癌的诊断准确率高达96%。随着AI的进一步推广,将提高皮肤科医师,特别是基层医师的皮肤肿瘤诊断准确率。

2.2 AI与乳腺癌

AI用于诊断乳腺肿瘤,主要为乳房成像计算机辅助诊断系统(computer-aided diagnosis system,CADS),不受放射科医师的读片模式、疲劳、分心等因素影响,能有效提高乳腺癌诊断敏感度[16-17]。IBM研究所[18]利用13 234例女性的52 936幅乳房钼靶图像,其中9 611例为训练集,3 603例为测试集,结合机器学习和深度学习进行乳腺癌诊断,其诊断水平与放射科医师相当,且显著降低了漏诊率(AUC=0.91)。AI不仅能准确识别乳腺钼靶图像,也可对乳腺癌病理图像进行分类诊断。土耳其研究人员[19]在2014年国际模式识别会议(ICPR-2014)公布了乳腺病理图像良恶性判断的AI算法。该研究采用聚类分割与Blob分析相结合的方法,将图像分为前景和背景,自动裁剪细胞图像块,并进行特征提取,再采用无监督机器学习主成分分析(principal component analysis,PCA)和线性判别分析(linear discriminant analysis,LDA)相结合的降维算法,最后通过有监督机器学习支持向量机(SVM)对有丝分裂和无分裂细胞进行分类,实现了乳腺癌AI病理诊断(AUC=0.97)。

2.3 AI与肺癌

医学成像与AI结合在鉴别良恶性肺结节、提高肺癌早期诊断和鉴别诊断中发挥重要作用。谷歌人工智能团队[20]提出基于肺CT图像预测肺癌风险的深度学习算法,使用深度学习CNN算法对NLST数据库中6 716例CT图像进行训练和模型构建,1 139例肺部CT图像进行验证。该AI模型实现了癌性肺结节的自动化筛选,提高了肺癌筛查的准确性,同时减少了放射科医师的读片工作量和漏诊率(AUC=0.94)。在肺癌治疗方面,波士顿哈弗医学院Xu等[21],通过深度学习利用CNN算法和递归神经网络(RNN)算法相结合,将268例局部晚期非小细胞肺癌(non-small cell lung cancer,NSCLC)患者多个时间点的影像数据整合,实现了对NSCLC患者不同治疗方式的疗效和预后评价。在免疫治疗疗效评估方面,Fumet团队采用有监督机器学习弹性网算法建立了基于放射组学的CD8+T细胞表达特征的预测模型,可评估NSCLC患者浸润CD8+T细胞的数目,进而预测PD-1/PD-L1单抗的治疗效果[22]。

2.4 AI与前列腺癌

多点前列腺穿刺活检、多参数磁共振成像(MP-MRI)、彩色多普勒超声三结合是前列腺癌诊断的主要手段。人工智能与影像组学结合可实现前列腺癌自动检测、定位、分期和动态监测。约翰霍普金斯大学Anas等[23]利用CNN和RNN算法进行空间特征提取和前列腺超声图像时间信息整合,提出一种基于深层学习的前列腺图像实时分析技术。该研究通过2 238幅超声图像进行训练,637和1 017幅图像分别用于验证和测试,结果显示2 mm误差范围内平均Dice系数为93%,平均表面距离误差为1.10 mm,提示AI技术可精准进行良恶性肿瘤判断和自动化定位。

2.5 AI与卵巢癌

卵巢癌早期症状隐匿,约75%的患者确诊时已进入晚期[24],因此在初始治疗前,准确预测卵巢癌临床分期、治疗效果和预后具有重要意义。日本慈惠大学研究人员[3]通过收集334例上皮型卵巢癌患者和101例卵巢良性肿瘤患者的临床信息,包括治疗前年龄,CA125、CA19-9、白蛋白等32种血液生物标志物数据,利用随机森林、条件随机森林(conditional random forest,CRF)、朴素贝叶斯、支持向量机和Logistic回归等多种有监督机器学习算法建立卵巢癌特异性预测模型,用于评估患者的临床分期、病理类型、手术预后等(AUC=0.978),并进一步利用无监督学习PAM聚类算法,发现了早期EOC的风险亚组,为卵巢癌早筛和个体化治疗提供了依据。天津中心医院刘丽等[25]利用CNN、AlexNet和GoogLeNet等多种神经网络和RF相结合,开发了基于彩色多普勒超声的卵巢癌良恶性预测模型,其中GoogLeNet模型敏感度为96.78%,特异性为92.84%,AUC为0.975。复发是影响卵巢高级别浆液腺癌患者预后的主要因素,四川大学华西医院团队[26]对245例患者术前CT图像进行机器学习,建立卵巢癌非侵入性复发预测模型,可有效区分高、低危复发风险亚组,并可预测3年复发率(AUC=0.772~0.825,P=0.0038~0.0164)。

2.6 AI助力肿瘤放疗

随着放射组学和人工智能在放疗领域研究的不断深入,以AI为基础的智能组学放疗(AI-omics radiotherapy)实现了分子水平的精准放疗[27]。智能组学放疗主要包括放疗决策、靶区勾画和疗效评价三个方面。放疗决策方面,根据个体的生物组学信息和生物学特征精准选择放疗方式和剂量;靶区勾画方面,根据影像组学和AI结合,自动将正常组织和肿瘤区分,并通过虚拟现实(VR)和增强现实(AR)技术实现全息放疗靶区构建;疗效评价方面,动态观察放疗过程中组学信息变化,并及时针对性的调整放疗策略[28-29]。以AI为基础的放射组学在脑肿瘤、鼻咽癌、肺癌等多种实体瘤可实现自动靶区勾画,有效减少重要器官损伤。美国哈弗医学院Shusharina等[30]采用卷积神经网络(CNN)对206例脑胶质瘤和胶质母细胞瘤的CT和MR图像进行分割学习,实现脑肿瘤、脑室、大脑镰和小脑幕等结构的准确自动分割,2 mm误差范围内Dice系数为91%~97%,与放疗医师靶区勾画范围具有很好一致性。中山大学孙颖教授团队[31]利用3D卷积神经网络(CNN)对818例鼻咽癌的MR图像进行靶区自动勾画训练,并在203幅独立MR图像数据进行验证,平均表面距离2.0 mm误差范围内Dice系数为79%,该AI模型可提高鼻咽癌靶区勾画的准确性,对肿瘤控制和患者预后有积极意义。肺部肿瘤靶区勾画易受呼吸运动影响,给放疗的准确性和安全性提出挑战,宾夕法尼亚大学Lin等[32]将随机森林(RF)、多层感知器(MLP)、LightGBM和XGBoost四种机器学习算法相结合,评估呼吸运动影响下肺肿瘤前后、左右、上下运动模式,以准确预测肺肿瘤运动范围,实现精准动态的勾画靶区。

3、结论和展望

尽管AI在肿瘤辅助诊断领域取得了一定成果,但其在临床实践转化方面仍面临诸多挑战[33],主要挑战可归纳为三个方面:(1)数据的可及性:AI是数理科学,可靠的AI模型需大量高质量训练数据支撑,但很多医院或研究机构出于研究保密或患者隐私保护,很难实现数据共享,数据的“孤岛现象”是困扰AI临床应用的关键问题。(2)模型鲁棒性和泛化性:鲁棒性是指模型的抗干扰能力,泛化性指模型对未训练数据的预测能力,即A医院数据获得的模型在B医院预测的准确性。模型的鲁棒性和泛化性主要受限于数据本身的一致性和数据标签注释的主观性。不同的拍照设备、光照条件和个体间差异将影响图像数据的一致性,不同的检验仪器、检验试剂也对临床数据影响较大。(3)结果可解释性:AI尤其是DL通常被认为是“黑匣子”,因为其内部决策过程被成千上万的训练参数所掩盖。实践中AI算法的权重和特征通常是不可解释的,因此,临床医师很难充分把握模型的工作过程和具体影响因素。随着多中心研究的开展、公共数据库平台的开放,将进一步推进大数据可及性;多种可视化工具的开发,也为AI结果解读提供更多参考。

随着AI在医疗领域的应用发展,AI在数据安全和个人隐私保护方面应备受关注[34],AI数据收集使用,须坚守伦理道德和法律法规,避免泄露患者隐私,从而让AI技术更好应用于肿瘤诊疗,服务患者。未来AI能否完全代替医生,尚需时间检验,目前可以肯定的是,AI可辅助医师诊疗,减轻临床工作量,缓解医疗资源压力,促进医学进步和医疗服务质量的提高。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论