《眼科新进展》  2023年4期 253-259   出版日期:2023-04-05   ISSN:1003-5141   CN:41-1105/R
人工智能在干眼临床诊断中的应用专家共识(2023)


干眼(DE)是世界范围内最常见的眼部疾病之一,其患病率为5%~ 50%,患病率的高低除了受人种、环境因素影响外,也与所用的诊断标准有一定关系[1]。DE患者主要是因为其眼部不适症状前来医院就诊[1],但DE缺乏非常明确的诊断和治疗方法[2]。DE的症状主要包括眼部刺激、畏光和视力波动等,进而可导致眼部疼痛,并可能导致角膜的永久损伤。流行病学研究表明,DE女性高发[3],并且其患病率随年龄增长而增加[1]。当前人们工作和生活方式有所改变,电子产品的依赖、角膜接触镜的广泛使用以及睡眠障碍患病率的增长,导致不同年龄人群DE的发病率都有增加趋势[4]。其他相关危险因素还包括糖尿病[5]和空气污染[6]。DE还可能影响患者生活质量、降低工作效率,从而造成重大的直接或间接公共卫生成本增加以及个人经济负担加重。只有快速、准确地对DE进行诊断,并进行精准化的治疗,才能为患者提供更高的生活质量和工作效率。
人工智能(AI)是1956年在达特茅斯学院(Dartmouth College)的一次会议上提出的概念[7]。“机器学习(ML)”一词后来由阿瑟·萨缪尔(Arthur Samuel)于1959年提出,并声明“计算机应具有运用各种统计技术进行学习的能力,而不必采用显式编程”[8]。ML算法可以根据输入端数据,采用有监督或无监督的方法进行学习和预测。随着图形处理单元的出现、数学模型的进步以及大数据的发展,深度学习(DL)技术引起了人们的极大兴趣,并在包括医疗行业在内的很多行业得到了应用[9]。DL通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示[10]。随着硬件和算法能力的改善[11-12],DL现在被广泛用于图像识别、语音识别和自然语言处理。DL方法使用完整的图像,并将整个图像与诊断输出相关联,不依赖于图像特征的人工提取。
已有很多研究讨论并总结了AI在眼部疾病中的应用,包括糖尿病视网膜病变的筛查[13]、年龄相关性黄斑变性的检测[14]和早产儿视网膜病变的诊断[15]等。然而,对于DE中AI的临床诊断应用尚缺乏共识,我们对AI在DE临床诊断中的应用进行了总结,分析了目前的应用情况,形成本共识。
1 DE的临床诊断
DE是指由于泪液的量或质的异常引起的泪膜不稳定和(或)眼表面的损害,从而导致眼不适症状的一类疾病。在健康眼中,10 s后泪膜自然“破裂”,眼睑用眨眼方式进行泪膜复原以保护眼表。DE的主要眼部表现包括:泪液量减少、泪膜破裂更迅速[荧光素染色下泪膜破裂时间(TBUT)缩短][16]。目前可用的DE诊断指标往往与患者报告的临床症状严重程度不相关,没有单一的临床检查被认为是诊断DE的决定性指标[1],因此,通常联合使用多项测试,并辅以问卷调查进行诊断。测定泪液物理参数的试验包括TBUT、泪液分泌试验、泪液渗透压测量和泪河高度测量。其他在DE诊断和分类中使用的测试包括角膜荧光素染色、角膜敏感性、眨眼频率、睑板腺红外照相、泪膜脂质层干涉成像、像差测量和成像技术、活体共聚焦显微镜(IVCM)以及视功能检查。
2 AI在DE临床诊断中的应用 
2.1 TBUT TBUT越短,泪膜越不稳定,发生DE的概率越高。ML被用来检测TBUT影像中的角膜干燥区和估测TBUT[17-20]。与眼科医师的评估结果相比,利用莱文伯格-马夸特算法(Levenberg-Marquardt algorithm)探测干燥区域的准确率达到91%[13]。应用马尔可夫随机场(Markov random fields),根据干燥度对像素进行标记估测TBUT,与临床医师评估结果相比平均相差2.34 s[20]。多项式函数也被用来确定角膜干燥区[18],该方法对测试集影像的分析结果与4位专家所得结果相比,准确率相当[19]。上述这些研究结果表明,与专家相比,使用AI方法自动获得的TBUT在可接受的范围内。
2.2 泪膜干涉测量和裂隙灯图像 泪膜干涉技术是一种高效实用的工具,它可以提供泪膜脂质层影像,可以帮助诊断DE。ML系统已应用于干涉测量和裂隙灯图像中,用于基于泪膜形态学特征的脂质层分类[21-28]、脂质层厚度估计[29-30]、DE诊断[31-32]、眼红测定[33]和泪河高度估计[34-36]
DE诊断可以基于以下形态学特征:开放式网格状、封闭式网格状、波浪状、非晶态和彩色条纹状[21]。大多数研究通过ML利用这些性质对干涉仪脂质层图像进行自动分类。García-Resúa等[22]使用经过试验的K近邻算法模型(K-nearest neighbors model)对图像进行分类,分类准确率达到86.2%。Remeseiro等[23-25]构建了用于最终分类的各种支持向量机(SVM)模型,在其中一项研究中,在训练和测试过程使用了相同的数据集,但结果并不理想[24],而另一项研究未说明训练集的数据情况[23],这样的研究很难获得认可。Peteiro-barral等[26]使用5种不同的ML模型对图像进行评价,与其他研究相反,该研究未将无定形脂质形态作为可能的分类之一。da Cruz等[27-28]比较了6种不同的ML模型,发现无论采用何种预处理步骤,随机森林都是最好的分类模型。在图像预处理阶段应用Ripley’s K函数取得了最佳性能,并且Greedy Stepwise技术与ML模型可同时用于特征选择[28]。由于所有模型都是通过交叉验证来评估的,因此考虑在临床常规使用之前,系统应该在新图像上进行外部验证。
Hwang等[29]研究了泪膜脂质层厚度能否用于区分睑板腺功能障碍(MGD)严重程度,该研究利用ML方法对Lipiscanner和裂隙灯影像的泪膜脂质层厚度进行估算,取得了良好的效果;对图像进行预处理并采用漫水填充算法和Canny边缘检测对瞳孔虹膜进行定位和提取,两种不同MGD严重程度组间差异有统计学意义,提示该技术可用于MGD严重程度的评估。角膜切片图像也可用于测定泪膜脂质层厚度。Fu等[30]利用广义线性模型对两种不同的图像分析方法进行比较,发现两种方法之间存在较高的相关性,研究者认为简单的技术足以评价泪膜脂质层厚度。然而,Fu等[30]的研究仅纳入28名受试者。
分形维数估计技术的应用是为了研究从干涉仪影像中提取特征用于DE诊断[31]。该技术速度快且AUC 值为0.786,而现有方法的AUC值为0.824。泪膜脂质干涉仪图像的分析采用了SVM模型[32],从图像中提取的特征被传递到SVM模型中,SVM模型将图像分类为健康受试者、水样缺乏型DE或蒸发过强型DE。该模型与1位经验丰富的眼科医师的诊断一致性很高,Kappa值为0.82,该模型在检测水样缺乏型DE时性能最佳。
眼红是DE的重要指标。只有1项已审查的研究描述了与DE相关的眼红度自动评估系统[33]。该研究从26名有DE病史的受试者中获得了眼表的裂隙灯照相图像,采用索贝尔(Sobel)算子提取表征眼红强度和水平血管成分的特征,根据提取的特征应用多元线性回归模型预测眼红,达到了100%的精度,可以认为这样一个客观系统能够代替临床医师在多中心临床研究中的主观评分。
泪河含有75%~90%的泪液体积[34],因此,泪河高度可作为水样缺乏型DE的定量指标。将连通区域标记算法应用于裂隙灯图像时,预测的泪河高度与使用软件(ImageJ [37])测量高度的Pearson相关系数高达0.626~0.847[35]。ML系统比4位有经验的眼科医师更精确,泪河高度也可使用卷积神经网络(CNN)在眼表综合分析仪图像上进行评估[36]。自动ML系统达到了82.5%的准确率,这比一个训练有素、工作时间有限的临床医师更高效、结果更为一致。
很多研究仅涉及SVM这一ML方法,而没有测试其他ML模型的性能。然而,有3项研究测试了几类模型,发现SVM并没有表现出最佳的性能[26-28]。由于应用和评价指标的不同,这些研究很难进行比较。尽管取得了令人鼓舞的结果,但是大多数研究[22,24-31,34,35]并没有开展外部数据验证评估其系统。这些系统应在独立的数据上进行测试,才能考虑应用于临床。此外,一些研究的训练集和测试集的图像数量较少[30,33],尚达不到临床应用要求,这些算法模型应该在更多的受试者上进行测试。
2.3 睑板腺红外照相 根据 2017年国际干眼小组的报告,蒸发过强型干眼占据干眼人群的大多数,且最主要原因为MGD。临床研究也证实,大部分的干眼患者伴有MGD[38]。因此,对于睑板腺功能的评价在DE的分类诊断中具有非常重要的意义。睑板腺形态缺失与睑板腺功能密切相关,通过睑板腺红外照相我们可以清晰地观察到睑板腺腺体的形态。目前对于睑板腺形态的AI分析,大部分研究采用的算法模型是CNN,其睑板腺分割的准确率均达到了90%以上。
但是CNN对于单根腺体的分割存在像素周围情景条件丢失的问题:相邻的发生“粘连”的腺体之间无法自动分割,从而被判断为一根腺体;相邻腺体发生交叉时,被横跨“切断”的腺体部分也无法自动连接成同一根腺体,而会被识别为两根。这会导致腺体的数量、长度、弯曲度等指标的失实,也是目前使用CNN的研究者共同遇到的最大的问题所在。为了解决CNN的这一问题,轮廓预测、距离图回归等方法被尝试使用。为了增强图像的空间连续性,条件随机场(CRFs)等被用来作为图像的后处理步骤,CNN和CRFs模型的组合也已经被用于探索情景感知和全局CNN训练。生成对抗网络(GAN)在训练网络减少损失的同时,能够通过识别输出是否真实来学习到适当的损失函数。既往在CNN中输出像素被独立地有条件地处理,整个处理过程与其他像素无关,从而造成像素周围情景条件的丢失,而GAN则考虑一个更大的接受域,并可以学习和减少这种情景感知的损失。Khan等[39]探索了Conditional GAN(CGAN)对于睑板腺分割的能力,并和其他算法做了比较,认为该技术在量化睑板腺不规则性方面是可行的。Yu等[40]使用Mask R-CNN DL框架在结膜(验证损失<0.35,全类平均精度>0.976)和睑板腺(验证损失<1.00,全类平均精度>0.920)的识别中实现高准确度来计算具有精确值的睑板腺损失的比例,结果表明,该方法可以提高睑板造影图像评价的准确性。
2.4 泪液渗透压 泪液渗透压是衡量泪液浓度的指标,泪液渗透压增高可辅助诊断DE。Cartes等[36]在此基础上研究了利用ML检测DE的方法,他们比较了4种不同的ML模型,在测试阶段,在渗透压测量中加入了噪声信号,没有噪音的原始数据用于最终的评估,结果显示,逻辑回归模型达到85%的精度。然而,由于模型是在相同的数据上测试的,因此,该测试结论不能代表模型对新数据的泛化能力。
2.5 OCT 角膜上皮增厚可能是角膜异常的征兆,此外,角膜厚度有可能成为DE的诊断参数。Kanellopoulos等[41]建立了一个线性回归模型,以寻找使用前节OCT(AS-OCT)测量的角膜厚度与DE之间可能的相关性。然而,模型表现和判读结果均未见相关报道,使研究的实用性难以评估。Fujimoto等[42]研究发现,用于测定角膜厚度的仪器类型对结果有影响:他们对轻度DE、重度DE及健康受试者进行检查,比较AS-OCT和Pentacam眼前节分析仪测量值,并采用多元回归方法检测两种技术测量的中央角膜厚度和最薄角膜厚度的差异,结果显示,对于DE严重的个体,两种技术在多变量回归模型中得到的多元线性回归模型的回归系数(β coefficients)方面给出了明显不同的结果[43]。采用AS-OCT临床检查图像可用于诊断DE,使用VGG19 CNN对单独OCT图像进行测试和验证,两个类似的CNN模型在外部测试集上进行了评估,两者都取得了令人印象深刻的高准确度,AUC值分别为0.99和0.98[44]。结果的真实度可能与大量的测试数据(29 000张图片)有关,这些数据对于DL至关重要。Stegmann等[45]分析了健康受试者的OCT图像用于自动检测泪河高度,他们对2个不同的CNN进行测试和评估,并将模型检测到的泪河高度与1位有经验的评分者的评价结果进行比较,结果显示,最佳CNN平均准确率为99.95%,灵敏度为0.963 6,特异度为 0.999 8。该系统有望实现泪河OCT图像的快速、准确分割,但需要更多来自不同OCT系统的图像(包括非健康受试者)来验证和改进分析。
两项研究[44-45]表明,CNN可以作为图像分析的合适工具。由于在解决图像相关任务(包括特征提取)方面有很好的效果,CNN很可能会在DE领域备受欢迎。
2.6 蛋白质组学分析 蛋白质组学分析描述样品中蛋白质的定性和定量组成。Grus等[46]比较了糖尿病性DE、非糖尿病性DE和健康对照者的泪液蛋白,以便在组间进行区分。该研究采用了判别分析和主成分分析结合K-均值聚类算法,这两种模型在预测3组受试者时都只得到了较低的精度,然而,对于判别分析和K-均值聚类算法,DE和非DE患者分类的准确率分别为72%和71%。而在另一项研究中,使用DL的方法分析泪液蛋白,将被试区分为健康或患有DE,准确率为89%[47];采用判别分析,准确率达到71%。此外,结合重要蛋白质和深度神经网络进行分类的方法[48]也具有较高的准确性、敏感性和特异性。González等[49]采用判别分析方法对泪液蛋白质组进行了分析,选取最重要的蛋白质检测人工神经网络,将泪液样本分类为水样缺乏型DE组、MGD组和健康对照组,模型总体精度为89.3%;主成分分析结果显示,健康对照组、水样缺乏型DE组和MGD组数据点分离良好,表明蛋白质是分类这3组对象的良好候选者,该系统达到了所有已综述的蛋白质组学研究的最高准确率。综合考虑这4项研究[47-49]的结果表明,单独应用或与其他技术联合应用的神经网络在检测泪液蛋白质组中DE相关蛋白模式方面比判别分析更佳。
Jung等[50]使用基于模块化分析的网络模型来描述与DE相关的免疫和炎症反应的泪液蛋白质组,对DE患者泪液和泪液中的模式进行了调查,但由于仅纳入10例研究对象,因此尚需要更大的患者队列进行研究以验证结果。
2.7 干眼与眨眼检测 眨眼是眼表泪膜更新的重要手段,也是与干眼发病息息相关的生理过程[51]。临床上往往根据眨眼过程中眼睑闭合的程度,将其分为完全眨眼和不完全眨眼。不完全眨眼的定义目前尚未统一,部分研究者认为眼睑未完全闭合即为不完全眨眼[52],也有研究者提出眼睑闭合少于2/3才是不完全眨眼[53]。这种差异既来源于研究者们临床经验的不同,也与眨眼检测技术的发展不足有关。长久以来,眨眼检测依赖于高速摄像机摄录的眨眼动态视频[54],但单纯依赖人眼审阅视频来区分眼睑的动态运动过程相当困难。而一段1 min的眨眼视频就可能包含数千张图像,想要实现逐帧的量化评估则会消耗大量的人力和物力。
随着AI DL技术的发展与进步,利用算法实现眨眼检测得到了越来越多的青睐。Drutarovsky等[55]在公开数据集上提出使用光流法捕捉眼睛运动情况,并利用眼睑纵向运动进行眨眼检测的算法,对眼睑区域的划分准确率高达99%。Choi等[56]则使用了Adaboost和分组算法,对眨眼的检测达到96%的准确率。但这些算法大多是在人脸上识别是否眨眼,并不能分类眨眼是否完全。因此,Zheng等[57]提出了能够针对眨眼视频实现眨眼量化分类的TAU-Net模型,该模型的Dice系数达到了0.958 7。在此基础上,Zheng等[58]又对眨眼检测得到的不完全眨眼率等指标与干眼疾病指标进行了分析,显示了干眼患者很可能具有更高的不完全眨眼率,而应用AI检测不完全眨眼指标也能提示DE患病。
2.8 IVCM IVCM是一种新兴的非侵入性技术,广泛用于在细胞水平上观察角膜的微观形态[59]。越来越多的证据表明,角膜神经支配在眼表稳态和疾病中的作用,例如在DE中作用的重要性[60]。Jing等[61]应用IVCM检测角膜神经形态和朗格汉斯细胞数量,联合角膜神经分割网络(CNS-Net)来测量角膜神经,Pentacam HR系统测量角膜固有像差和角膜表面规则性指数,结果表明,DE患者较对照组更常出现前房和总角膜像差增加,角膜神经的平均密度和最大长度均减少且基底下神经纤维的最大长度与朗格汉斯细胞的数量呈显著正相关。Setu等[62]研究了自动分割和评估IVCM图像中的角膜神经纤维和树突状细胞,数据表明,角膜神经纤维模型实现了平均86.1%的灵敏度和90.1%的特异度,树突状细胞模型实现了平均89.37%的精确度、94.43%的召回率和91.83%的F1评分,并有可能在IVCM成像的临床实践中实施。
3 结束语
AI在眼科[63](包括小儿眼科[64]")疾病诊断,尤其是DE诊断中的临床应用越来越广泛,在TBUT、泪膜干涉测量和裂隙灯图像、睑板腺红外照相、泪液渗透压、AS-OCT、蛋白质组学分析、干眼与眨眼检测及IVCM等干眼临床诊断指标自动分析中应用效果好。同时,该领域专家已经研究出了很多试图解开DL系统的“黑箱”性质的技术,以增加DE临床诊断AI应用的可解释性。
形成共识专家组成员
执笔专家: 
邵 毅
南昌大学第一附属医院
陈 蔚
温州医科大学附属眼视光医院
杨卫华
暨南大学附属深圳眼科医院
谭 钢
南华大学附属第一医院
迟 玮
中山大学中山眼科中心
陈新建
苏州大学
张 慧
昆明医科大学第一附属医院
许言午
华南理工大学
陶 勇
首都医科大学附属北京朝阳医院
胡 亮
温州医科大学附属眼视光医院
李贵刚
华中科技大学同济医学院附属同济医院
胡建章
福建医科大学附属协和医院
计 丹
中南大学湘雅医院
黄锦海
复旦大学附属眼耳鼻喉科医院
邵婷婷
复旦大学附属眼耳鼻喉科医院
赵 慧
上海交通大学医学院附属第一人民医院
石文卿
复旦大学附属金山医院
彭 娟
广州医科大学附属第二医院
李 程
厦门大学眼科研究所
参与起草的专家(按姓名拼音排列): 
陈 波
四川省人民医院
陈景尧
昆明医科大学附属延安医院
陈 俊
江西中医药大学
陈 序
荷兰马斯特里赫特大学
成 喆
长沙爱尔眼科医院
戴 琦
温州医科大学附属眼视光医院
邓德勇
上海和平眼科医院
观志强
汕头大学·香港中文大学联合汕头国际眼科中心
耿志鑫
天津视达佳科技有限公司
韩 忆
厦门大学眼科研究所
贺 佳 
济宁医学院
何 媛
西安医学院第二附属医院
胡守龙
河南省儿童医院
胡瑾瑜
南昌大学第一附属医院
黄永志
四川大学附属华西医院
黄彩虹
厦门大学眼科研究所
黄丽华
萍乡卫生职业学校
黄晓丹
浙江大学医学院附属第二医院
黄晓明
四川眼科医院
贾艳妮
山东省眼科医院
康红花
厦门大学眼科研究所
黎 彪
萍乡市人民医院
黎颖莉 
南方医科大学附属珠江医院
李 洁
温州眼医眼视光医疗科技有限公司
李 娟
陕西省眼科医院
李乃洋 
中山市人民医院
李清坚 
复旦大学附属华山医院
李秋玉
湖北省妇幼保健院
李 岩
天津普瑞眼科医院
李植源
郴州市第一人民医院
李中文
温州医科大学附属宁波市眼科医院
李宗源
中国人民解放军总医院
廖许琳
香港中文大学
林 松 
天津医科大学眼科医院
刘光辉
福建中医药大学附属人民医院
刘 华
锦州医科大学附属三院
刘琳琳
赣南医学院第一附属医院
刘昭麟
南华大学附属第一医院
刘玉姬
江西省广丰人民医院
刘祖国
厦门大学眼科研究所
娄 岩
中国医科大学
潘红飙
中国科学技术大学附属第一医院
曲冬懿
北京爱尔福康眼科医院
申 眉
厦门大学附属翔安医院
施 策
浙江大学医学院附属第二医院
宋秀胜
湖北省恩施州中心医院
苏 婷
武汉大学人民医院
苏兆安
浙江大学医学院附属第二医院
孙宇辉 
北京致远慧图科技有限公司
谭叶辉
南昌大学第一附属医院
唐丽颖
厦门大学附属中山医院
佟莉杨
温州医科大学附属宁波市眼科医院
王 烽
梅州市人民医院
王 贺
徐州医科大学附属医院
王乐韵
中科院动物研究所
王少攀
厦门大学人工智能研究所
王 燊
北京茗视光眼科
王晓刚
山西省眼科医院
王 鑫
北京医准智能科技有限公司
王雪林
江西医专第一附属医院
王 岩
内蒙古医科大学附属医院
王耀华
南昌大学附属眼科医院
吴 漾
复旦大学附属中山医院厦门医院
夏 蔚
苏州大学附属第一医院
谢华桃
华中科技大学同济医学院附属协和医院
徐三华
南昌大学第一附属医院
姚 勇
广州希玛林顺潮眼科医院
杨海军
南昌普瑞眼科医院
杨文利
首都医科大学附属北京同仁医院
杨启晨
四川大学附属华西医院
杨青华
中国人民解放军总医院
杨 舒
昆明市第一医院
杨玮枫
海南大学
杨怡然
河南省立眼科医院
杨于力
陆军军医大学第一附属医院
俞益丰
南昌大学第二附属医院
余 瑶
南昌大学第一附属医院
袁 晴
九江市第一人民医院
张 冰
杭州市儿童医院
张 丽
浙江大学医学院附属第二医院
张丽娟
南昌大学第一附属医院
张艳艳
温州医科大学附属宁波市眼科医院
张雨晴
重庆大学附属第二医院
赵一天
中科院宁波医工所
郑 博
湖州师范学院信息工程学院
郑明彬
南方科技大学第二附属医院
郑钦象
温州医科大学附属眼视光医院
钟 菁
中山大学中山眼科中心
邹 洁
南昌大学第一附属医院
朱欣悦
上海交通大学医学院附属第一人民医院
利益冲突:
所有作者均声明不存在利益冲突。本共识的制定未接受任何企业的赞助。
共识声明:
所有参与本共识制定的专家均声明,坚持客观的立场,以专业知识、研究数据和临床经验为依据,经过充分讨论,全体专家一致同意后形成本共识,本共识为中国医药教育协会眼科影像与智能医疗专委会和中国人口文化促进会角膜病与眼表疾病分会部分专家起草。
免责声明:
本共识的内容仅代表参与制定的专家对本共识的指导意见,供临床医师参考。尽管专家们进行了广泛的意见征询和讨论,但仍有不全面之处。本共识所提供的建议并非强制性意见,与本共识不一致的做法并不意味着错误或不当。临床实践中仍存在诸多问题需要探索,正在进行和未来开展的临床研究将提供进一步的证据。随着临床经验的积累和治疗手段的涌现,未来需要对本共识定期修订、更新,为患者带来更多临床获益。