《眼科新进展》  2020年4期 396-400   出版日期:2020-04-05   ISSN:1003-5141   CN:41-1105/R
人工智能深度学习技术在常见眼病辅助诊断的应用现状和进展


????????人工智能(artificial intelligence,AI)[1]于1956年由McCarthy将其定义为"制造智能机器的科学"[2]。机器学习(machine learning,ML)是指使计算机自身具有学习能力。深度学习(deep learning,DL)(也称为深度结构学习、深度机器学习或者是深度神经网络)是一类算法的集合,用大量人工神经元广泛连接而组成的人工网络。DL在机器学习、专家系统、信息处理等领域获得了显著成就,是AI的重要研究领域,近些年引起世界上广大研究人员的青睐[3]。AI在各个领域广泛应用,给人们的生活带来了极大的便捷,如专家系统、智能机器人、虹膜识别、无人驾驶等。在医学领域,如电子病历系统、药物研发、基因测序等。目前,医学影像辅助诊断已获得的研究成果表明,AI在医疗保健领域的日益融合有望在未来几年重塑和改变临床医学实践[4]。在眼科学涉及的领域有自动视网膜图像分析系统(automatic retinal image analysis system,ARIAS)[5]、光学相干断层扫描(optical coherence tomography,OCT)分析、视野分析等。随着DL技术发展,AI平台从常见致盲的眼部疾病,例如青光眼、年龄相关性黄斑变性(age-related macular degeneration,AMD)和糖尿病视网膜病变(diabetic retinopathy,DR)等,也逐渐推广到其他眼科疾病诊治,包括早产儿视网膜病变[6]、白内障[7]、圆锥角膜[8]和基底细胞癌切除术后的眼部结构重建[9]。本文对运用AI及DL技术在辅助检测常见致盲眼病的应用现状和进展进行综述。
1 DL的原理
????????AI、ML和DL这3个术语有时可以作为同义词,但是分辨和区分三者很重要。AI是指系统能灵活、有效、创造性地进行信息获取、信息处理、信息利用的能力。适用于能够通过模仿人类智能执行任务的计算机系统的开发,如视觉感知、决策制定和语音识别等。算法和大数据是AI的主要组成部分:算法是桥梁,大数据是基础,对大数据的分析将会影响诸如基因组分析、靶向治疗药物检测和治疗商业化等领域,以及许多其他应用。
????????ML是AI的一个子领域,它可以在有经验的任务中不断改进,自己学习,能不断总结经验、吸取教训及自我完善。学习是AI的重要特征和获取知识的能力。ML技术的目的是在给定的数据中自动识别复杂的模式,因此,在新的数据中允许作出推论和预测。ML技术代表着一种用于分析高维和高度复杂属性的医学数据工具,允许多种模式的数据及先验知识的合并和减少干扰性数据[10]
????????DL是指由用于提取和转换特征数的一连串多层人工神经网络算法组成[11]。受人脑结构的启发,模拟人类大脑神经系统的结构和功能,卷积神经网络由成千上万能执行复杂任务的独立神经元组成,例如基于像素和体素密度的图像识别和分类。在网络中上一层的输出结果作为下一层的输入数据,最后一层揭示输出的诊断结果。训练这种类型的网络系统需要重复调整在大多数教学案例中所谓的反向传播算法中获得的连接参数和权值。系统反复重复这个过程,直到输出的诊断结果和人类划分正确范围的参考标准一致。DL可视为传统人工神经网络的革新,可以分为监督(基于分类器)或者无监督(基于分析模型)。后者代表的是DL中具有巨大吸引力的模块之一,不需要手动标识特征,自主分析大量数据集以发现潜在的模式。从临床上说,代替研究者手动编码算法,例如微动脉瘤(microaneurysm,MA)、新生血管性复叶和DR眼底图像相似,但给它们输入图像标签作为重度非增殖性糖尿病视网膜病变,当具有足够多的标签数据时,计算机最终学会识别。为了实现自我训练,DL神经网络依赖于拥有一个多种且足够大的可以使用的数据集。在眼科学背景下,DL技术有可能可以识别自己的识别模式超出人类可以解释和分析范围。传统的机器学习技术不能有效地利用医学图像中蕴含的丰富信息,而DL技术可以通过模拟人脑的分层神经网络结构,对输入数据逐级提取从底层到高层的特征,建立从底层信号到高层语义的映射关系,具有自动提取特征、构建复杂模型的能力,更重要的是DL方法能从像素级的原始数据中逐级提取特征。
2 眼科辅助诊断中的运用 
2.1 DR 糖尿病引起的眼部并发症很多,其中DR是糖尿病最严重的并发症之一,是50岁以上患者致盲眼病之一。随着生活水平的提高,糖尿病患者数量呈逐年递增趋势,预计至2040年全球将有6亿糖尿病患者,其中1/3伴有DR[12]。视网膜图像被广泛用于DR的诊断和提高诊疗依据,随着糖尿病患者数量的日益增加,仅仅依靠眼科医师对视网膜图像的人工分级进行DR的年度筛查具有极大的挑战性。近年来市场上开发了大量用于自动检测DR的程序,如ARIAS,可以提供临床上经济有效的视网膜病变检测。Mushlin等[13]开发的DL系统已经获得美国食品和药品管理局批准用于DR诊断,达到 87.2%的灵敏感度和90.7%的特异度。这些系统有望显著提高DR的诊断能力,筛查系统将降低人工分级的依赖和负担、提升整体效率以及在开发或远程医疗保健环境中提供DR的筛查。Tufail等[14]根据DR国际临床分级标准将视网膜图片人为分级并筛选,使用3种ARIAS进行分析:iGradingM(英国,曼切斯特)、Retmarker(葡萄牙)和EyeArt(美国,加利福尼亚州)。研究者发现关于DR的分级,Retmarker和EyeArt与人工分级相比具有较好的灵敏度和更好的成本效益。虽然现在市场上涌现出大批ARIAS,但是视网膜病变的病因繁杂,将每一个都兼容并运用不同的算法还比较困难。Torok等[15]研究显示,52例糖尿病患者中,39例有DR迹象,提取每眼泪液蛋白质组学和视网膜图像样本,蛋白质组学的分析结果和眼底图像上检测的MA数作为机器学习系统的输入信息,采用监督学习技术,10倍交叉验证结果显示,单独使用MA检测方法其灵敏度和特异度分别是84%和81%,使用蛋白质组学进行分析其灵敏度和特异度分别是87%和68%,将二者数据整合后分析时其灵敏度和特异度分别是93%和78%。展现了DL技术多因素分析的显著优势,两种不同类型的数据其输出结果虽然相互独立但又相互补充。
????????视网膜眼底图像广泛用于DR的诊断和提供治疗依据,为了提高疾病筛查的诊断和应用ML方法并基于滑动窗口对眼底图像进行分类,Krishnamoorthy等[16]设计了一种糖尿病眼底图像复原的方法。该方法的初始阶段基于滑动窗口方法选取眼底图像中视杯的特征,据此,可以评估DR的疾病状态。糖尿病眼底图像复原的方法是基于直方图的值使用滑动窗口获得特征数据。在第二阶段,使用支持向量模型,可以有效对DR进行分级。每个候选组的疾病等级排序为开发实用的DR自动诊断系统提供了非常有希望的结果。使用糖尿病眼底图像复原方法对眼底图像进行的实验,研究了灵敏度、特异度、排序效率和特征选择时间等因素。
????????Lam等[17]为了开发一种使用有限的一组训练数据集来定位和识别视网膜图像中多种类型的发现而无需硬编码特征提取的自动化方法,将这些方法推广到罕见疾病检测的一个步骤,在检测中,有可用的有限数量的训练数据。2名眼科医生验证了243幅视网膜图像,标记了图像的重要部分,从Kaggle数据集生成了1324幅图像块,包含出血、MA、渗出、视网膜新生血管或正常外观结构。这些图像块被用来训练一个标准卷积神经网络来预测这5个类别的存在。使用滑动窗口方法生成整个图像的概率图。该方法在148张MA和47张渗出的全视网膜图像的eOphta数据集上得到验证。对于MA和渗出,分别实现了受试者工作特征曲线下面积(the area under the receiver operator characteristic curve,AUC)为0.94和0.95的区域像素级分类,以及精确回忆曲线下0.86和0.64的病灶区域。区域训练的卷积神经网络可以生成特定病变的概率图,能够检测和区分细微的病变,而每个病变只需有几百个训练例子。
????????DR是工作人群失明的主要原因,视网膜血管渗漏引起的MA是DR的早期征兆。MA的微小病变和视网膜背景之间的低对比度使得自动MA检测比较困难。DL技术被用于自动提取特征和分类问题,尤其是用于图像分析。Shan等[18]提出了堆叠稀疏自动编码器从像素级强度中学习高级特征被反馈到分类器中,将每个图像块分类为MA或非MA。公共基准DIARETDB用于测试数据,在89个图像中,共有2182个具有MA损伤的图像斑块用作阳性数据,通过随机滑动窗口操作产生另外6230个没有MA损伤的图像斑块,作为负数据。在没有任何血管移除或复杂的预处理操作的情况下,堆叠稀疏自动编码器直接从原始图像块中学习,自动提取特征以使用Softmax分类器对图像块进行分类。通过采用微调操作,使用10倍交叉验证实现了91.3%改进的F-测量值和平均0.96的AUC。
????????Dsw等[19]就一种DL系统运用于多种族群体糖尿病患者进行了报道。虽然组成训练集的视网膜图像来全部自新加坡DR筛查项目(SIDRP),但由另外10个来自不同国家临床糖尿病患者多种族群体数据集进一步进行外界验证。研究人员强调了在临床上开发和测试DL应用的重要性,这些应用采用来自不同类型相机和不同种族的具有代表性的DR筛查群体的不同质量不同视网膜图像。
????????除了检测DR(定义为重度NPDR或PDR),DL算法也被训练用于识别白内障、青光眼[20]或AMD[21],研究人员曾指出除了关于临床糖尿病筛查计划,其他威胁视力的筛查也应该是强制性的。
2.2 白内障 全球因白内障致失明者大约2500万人,导致低视力者3倍于此数字,即约6000万。因此,白内障是防盲治盲最优先考虑的眼病,手术可使白内障失明者视力恢复正常或有用视力,手术时机对于白内障患者至关重要。但因白内障病史较长,需长期随访检查,在发展中国家和低收入地区给白内障防盲工作带来了困难。为解决以上问题,李建强等[22]基于临床眼底图像,使用深度卷积神经网络(convolutional neural network,CNN)直接从输入的原始数据中学习有用的特征,对比分析 CNN 自动提取的特征与预定义特征的性能表现。然后利用反卷积神经网络量化分析 CNN 各个中间层的特征,进一步研究输入图像中对 CNN 的预测贡献最大的像素集,探究 CNN 表征白内障的具体过程。结果使用DL方法构建的分类器在分类任务中达到 0.818 6 的平均准确率。与现有的预定义特征集相比,利用深度 CNN 自动提取的特征集能提供更好的白内障特征表示。
????????先天性白内障是一种典型的罕见疾病,且伴不可逆视力丧失,晶状体混浊在出生时即已存在,随年龄增长而加重,约占新生盲的30%。近年运用AI在对先天性白内障需要及时手术介入以移除混浊的晶状体以及严格的随访来管理术后并发症等方面获得极大的作用。Long等[23]使用DL算法的深度CNN创建先天性白内障检测器,涉及3个功能的AI代理网络:(1) 人群中先天性白内障筛查的识别网络,旨在从大量人群中识别潜在的患者;(2)先天性白内障患者风险分层评估网络; (3) 策略师协助眼科医生作出诊疗决策的网络。并且进行了一项基于网站的多医院临床试验和"大海捞针"测试来验证它的多功能性和效用,结果显示出较好的准确性和效率。
2.3 青光眼 青光眼是我国主要致盲原因之一,也是全世界致盲的第二位原因,青光眼引起的视功能损伤是不可逆的,后果极为严重,因此预防青光眼盲十分重要。只要早发现并联合早期合理治疗,绝大多数患者可终止病情进展,保持有用的视功能。大范围普及青光眼筛查项目是早期发现青光眼切实可行的重要手段。但局限于医疗设施水平以及眼科医生的诊疗水平和数量,每年因青光眼而失明的人数并没有得到很好的控制。Chen等[24]开发了一种CNN的DL技术用于自动诊断青光眼。例如DL系统中的CNN可以推断图像的层次表示,以区分青光眼和非青光眼协助诊断。所提出的DL架构包含6个学习层次:4个卷积层和2个完全连接的层。在ORIGA和SCES数据集上进行了大量实验,结果显示,2个数据库青光眼检测中AUC分别为 0.831 和0.887,远优于现有技术。
????????Asaoka等[25]使用DL方法从健康眼的视野中区分可疑开角型青光眼患者的视野,其共分析了51例开角型青光眼患者的171个可疑青光眼视野和来自87名健康参与者的108个视野。 52个总偏差、平均偏差和模式标准偏差值被用作DL分类器中的预测因子:深度前馈神经网络(feedforward neural network,FNN),以及其他机器学习方法,包括随机森林、梯度增强、支持向量机和神经网络(neural network,NN)。AUC用于评估每种方法的鉴别准确度。使用深度FNN分类器获得较大的AUC为92.6%[95%置信区间(confidence interval,CI),89.8%~95.4%] ,与其他所有机器学习方法相比:随机森林为79.0%(95%CI,73.5%~84.5%),梯度增强为77.6%(95%CI,71.7%~83.5%),支持向量机和NN分别为 71.2% (95% CI,65.0%~77.5%)和66.7%(95%CI,60.1%~73.3%)。研究表明使用深度FNN分类器区分健康视野与可疑青光眼的视野具有显著的准确度,为青光眼早期诊断、及时转诊和治疗提供了便捷。
2.4 AMD AMD多为50岁以上患者双眼先后或同时发病,视力呈进行性损害,其发病率随年龄增加而增高[26]。运用AI及DL技术来开发基于眼底图像自动检测AMD的方法,以自动评估这些图像并推进AI进展。深度卷积神经将经过精确训练以执行自动分级AMD的网络与使用转移学习和通用功能的替代DL方法以及经过培训的临床分级员进行比较。Fang等[27]使用几个需要进行不同数据分区的实验,机器算法和人类评分员在评估超过130 000 张来自4613名具有不同年龄、性别和种族/民族的图像,参照黄金标准包括国家研究所健康年龄相关的眼病研究数据集评估准确度、接受器工作特性、AUC以及kappa评分。深度CNN方法得出的准确度介于88.4%(0.5%)和91.6%(0.1%)之间。接收器工作特征AUC在0.94和0.96之间,kappa系数(SD)在0.764(0.010)和0.829(0.003)之间,表明与金标准年龄相关的眼疾病研究数据集基本一致。应用基于DL技术从眼底图像自动评估AMD可以产生与人类相似的水平。这项研究表明,自动化算法可以在AMD当前的管理中发挥类似于人类专家分级的作用,并且可以解决筛查或监测的大量费用。
????????频域光学相干断层扫描(spectral-domain optical coherence tomography,SD-OCT)已广泛用于多种眼科疾病诊断的辅助检查,为了开发在SD-OCT中使用DL来自动检测AMD。Treder等[28]使用AMD患者和健康对照组总共1112个横截面SD-OCT图像进行研究。在第一步中,一个开源的多层深度CNN,预先训练来自ImageNet的120万张图像,使用1012个横截面SD-OCT扫描训练和验证(AMD:701;健康:311)。在此过程中,计算了训练准确性、验证准确度和交叉熵。开源DL框架TensorFlowTM(Google Inc.,Mountain View,CA,USA)用于加速DL过程。最后,使用上述DL过程的信息,在检测100个未经训练的横截面SD-OCT图像(AMD:50;健康:50)中测试创建的深度CNN分类器。计算出AMD测试分数为0.98 或推测更高。经过500次迭代训练,训练准确度和验证准确性均为100%,交叉熵为0.005。 AMD测试组的AMD评分为(0.997±0.003)分,健康对照组为(0.920±0.085)分。两组之间差异非常显著(P<0.001)。通过使用TensorFlowTM的DL方法,可以高灵敏度和特异度地检测SD-OCT中的AMD。随着更多的图像数据生成,这种分类器的扩展可用于其他黄斑疾病或AMD的进一步深入研究,这表明该模型的应用可作为临床决策支持。在未来,另一种可能的应用将涉及通过自动检测隐藏图像信息预测不同疾病的治疗进展和成功的几率。
3 DL技术的缺陷
????????DL技术在辅助检测眼病及疾病预测等方面具有良好的性能,但仍然存在一些亟待解决的问题:(1)虽然有越来越多的文献支持DL在眼科学中的应用,但最重要的工作是继续采取临床验证和最终的实施,目前许多团体已经证明DL系统在公共数据集上使用具有良好的性能,但DL系统没有在现实的筛选计划中进行大量测试;(2)DL根据疾病和训练集创建疾病预测模型,训练集的噪声数据将会影响预测模型的性能,许多研究使用的训练集是来自相对同质的患者群体,且将每只眼睛视为独立,忽略了患者整体眼睛的协变量[29]以及视野宽度、视野、图像放大率、图像质量和参与者种族等;(3)在眼科学中开发AI模型的另一个挑战是关于罕见疾病因其数据可用性有限;(4)还存在诸如青光眼之类的疾病,在疾病表型的定义中存在不一致和观察者间的变异性。该算法从它们呈现的内容中学习,如果给予AI图像的训练集太小或不能代表真实的患者群体,则该软件不太可能产生准确的结果;(5)AI目标是在较大的图像集上进行训练,包含多种类型的图像,如不同的眼底照相机、视野成像、散瞳与非散瞳图像等。但目前没有标准的训练集,在训练集中缺乏统一的诊断参考标准和解决评分者分歧的方法;(6)算法有时无法准确区分潜在的伪像与真实;(7)现在可能最多的关注还是DL的"黑匣子"性质,其产出的基本原理由算法生成,算法由医生和编程它们的工程师共同完成,由于专业不同就可能产生理解偏差,这是由编程的工程师最终决定的。所以应大量培养具有医学知识的计算机人才。此外,目前尚缺乏综合预测模型,只能进行少数单一疾病预测,众多疾病预测模型并且缺乏疾病标准预测模型将削减临床效益。最后,无监督DL技术有待进一步发掘和完善,应将自动图像分析技术融入临床实践,但这最终是否会导致医生技能和临床敏锐度下降而过分依赖技术也是人们所担忧的问题。
4 展望
????????DL技术与临床的日益融合将会给疾病大面积的筛查带来便捷,能够更加完善疾病的一级预防,给更多的患者带来希望,不仅能缓解医疗机构的压力,而且将会解决临床资源分配不足的问题,并且能以更高的准确度和更好的敏感度预测疾病,增加临床诊断的客观过程,无疲劳操作,可以帮助临床更好地调整治疗方案。基于眼科影像分析运用AI及DL技术辅助检测眼科疾病将会是业界的热门课题,希望未来能够建立更加系统的预测模型,纳入更多的评估因素进行多模态分析。
????????随着现代具有诊断意义的设备以及影像学和基因组学的发展,关于疾病早期诊断和患者管理有了可以使用的新数据源。DL作为一项临床决策依据的技术,用于提高疾病检测和监测的灵敏度和特异度,增加临床作出决策过程中的客观性,显著增强了诊断成像的能力,有益于大范围开展疾病筛查计划。虽然国内外学者在此领域中开展了一些研究工作,并取得了阶段性的成果,但仍需进一步深入研究。