《眼科新进展》  2019年1期 36-40   出版日期:2019-01-05   ISSN:1003-5141   CN:41-1105/R
基于计算机文本挖掘的白内障氧化应激相关基因功能富集及药物治疗分析


        白内障是世界范围内最普遍的致盲性眼病,目前除了手术外,并无其他有效的治疗方法。白内障手术技术已经进入屈光时代,无论是手术导航、飞秒激光,还是高端人工晶状体的广泛应用,都给白内障患者的视觉质量带来了突飞猛进的提升,伴随新技术而来的不仅是手术费用的大幅度增加,还有新的手术并发症的出现。因此对于白内障的基础研究,仍然存在巨大意义和广泛前景。在白内障发病机制的探索中,学者们已经研究得比较深入,其中氧化应激作为其核心的病理过程[1],参与了众多信号通路的传导,引起了相关基因和蛋白表达的复杂变化[2],这显示,面对前人研究的海量数据,是否可以利用生物信息学的手段进行数据挖掘,然后对挖掘出的数据进行阐释;是否可以对这些基因和蛋白以及信号通路所对应的功能,和它们之间的相互作用,进行有针对性地研究,特别是有可能的药物研发,这不但可以为白内障的临床治疗提供新的线索,也可以进一步阐明白内障的发病机制,这种方法已然成为近年很多疾病领域的研究利器。而本研究则是利用若干个生物信息学的工具,筛选出与白内障和氧化应激相关的基因并对它们进行分析,最后筛选出针对这些基因所研发的药物,而这些药物可能成为将来治疗白内障的新靶点。
1 资料与方法
1.1 文本挖掘 利用生物信息学网站(http://pubmed2ensembl.ls.manchester.ac.uk/)进行文本挖掘。搜索关键词为:“cataract”AND“antioxidative stress”,搜索出与这两个关键词相关的基因。保存此基因集,作为下一步数据分析。
1.2 基因富集分析 应用GeneCodis工具进行基因富集分析(http://genecodis.cnb.csic.es/)。GeneCodis是基于互联网对基因进行模块富集功能分析的工具,其整合了互联网多个信息库,可以将基因的生物学过程(biological processes)按照生物学功能注释标准词汇表(gene ontology,GO)术语进行聚类,也可以将不同的GO术语按照相同的基因进行聚类,最后再应用统计学的显著性差异进行排序。GeneCodis同样可以对信号通路进行富集分析-即差异基因涉及到了哪些信号通路,它整合了京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)的通路资源。因此我们对引用文本挖掘得到的基因集进行生物学过程和信号通路的富集分析,并对得到的基因集进行下一步分析。
1.3 蛋白质-蛋白质相互作用网络分析 将上一步基因富集分析得到的结果进行蛋白质相互作用网络分析,此步应用基于互联网的STRING工具(http://string-db.org)进行。STRING工具整合了基于PubMed的文本挖掘数据、实验生物化学证据、共表达以及多个数据库的资源,它提供了一个平台,可以用来评估蛋白质之间的关系、联合以及相互作用。首先点选STRING工具中的“多种蛋白质”按钮,然后将GeneCodis筛选出的基因集对应的蛋白质名称逐条输入文本框,之后选择“人类”种属,然后点击“检索”进行分析,本研究将STRING的置信区间水平设置为最高(≥0.9)。筛选出的基因进行下一步分析。
1.4 药物-基因相互作用分析 将最后筛选出的基因集作为潜在的靶点,用来搜索已知的药物和有机化合物。这里用到的生物信息学工具是DGIdb(http://dgidb.genome.wustl.edu/),它整合了包括DrugBank、PharmGKB、ChEMBL、NCBI Entrez、Ensembl、PubChem等临床试验数据以及PubMed已经发表文献中的数据等27个数据库的药物-基因相互作用数据信息。进入DGIdb工具网站,点选“检索基因——药物关联”按钮,之后将STRING工具筛选出的基因填入文本框,之后点选“查找基因——药物关联”按钮,即可得到与此基因相互作用的药物。对于靶基因药物比较多的基因,选取评分前十位的药物;然后,对于已知的有严重全身不良反应和明确存在眼部并发症的药物进行剔除;而对于还处于基础实验阶段的尚未进入临床试验的药物,虽然其靶点可以确定,可是由于其适应证、药效动力学、药物作用机理、剂型、使用方法、药物毒性等几乎全部无法确定,同样给予剔除;最后,对于给药途径,选取的基本都为口服或者静脉/皮下注射,对于一些特殊给药途径的药物,如神经鞘膜下注射等,也给予剔除。
2 结果
2.1 文本挖掘 通过文本挖掘,找到9995个与白内障相关的基因,2485个与抗氧化应激相关的基因,而与这两个关键词都相关的基因共有103个。
2.2 基因功能富集及信号通路富集 通过GeneCodis的基因功能富集,从103个基因中筛选出22个基因,这22个基因对应了31个生物学过程的GO术语。基因富集的统计显著性计算采用矫正的超几何方法(P value,P值),按照P值由小到大进行排序,排在前三位的GO术语分别为:线粒体中细胞色素C的释放(P=4.10×10-7),包含4个基因;细胞凋亡的负调控(P=2.35×10-6),包含6个基因;线粒体膜电位的调控(P=3.04×10-6),包含3个基因。选取排序在前10位的GO术语中所包含的基因(表1)。同时,将22个基因进行KEGG信号通路的功能富集,然后依旧按照P值由小到大排序,前三位的通路分别为:肌萎缩性脊髓侧索硬化症(P=9.69×10-9),包含了5个基因;癌症相关信号通路(P=1.56×10-6),包含了6个基因;亨廷顿舞蹈症(P=8.69×10-5),包含了4个基因。选取排序在前7位的KEGG通路中所包含的基因(表2)。通过以上基因的生物学过程和KEGG通路功能富集筛选,最终得到11个基因。





2.3 蛋白质相互作用分析 利用STRING工具,将通过基因富集和信号通路富集得到的11个基因所表达的蛋白进行蛋白质相互作用分析,得到9个具有相互作用蛋白所对应的基因,它们分别是:超氧化物歧化酶1(superoxide dismutase-1,SOD1)、超氧化物歧化酶2(superoxide dismutase-2,SOD2)、谷胱甘肽过氧化物酶1(glutathione peroxidase-1,GPX1)、过氧化氢酶(catalase,CAT)、细胞色素C(cytochrome C,CYCS)、白细胞介素6(interleukin-6,IL6)、肿瘤坏死因子(tumor necrosis factor,TNF)、半胱氨酸蛋白酶3(caspase-3,CASP3)、B淋巴细胞瘤2(B-cell lymphoma-2,BCL2)。
2.4 基因-药物相互作用筛选 利用DGIdb工具在线搜索了针对上述靶基因已经研发或者正在研发中的药物170种。最终筛选出31种药物。这31种药物包括经典广泛使用的抗肿瘤药物、止疼药物和抗炎药物等,也有正处在临床试验中各个阶段的药物,但目前其适应证中均无眼科的适应证。见表3。



3 讨论
        白内障手术里程碑式的大踏步前进,让人们越来越忽略白内障的药物治疗研究,其实,学者们对于白内障发病机制的研究已经进行得非常深入,涉及到基因、蛋白、信号通路,本研究则是利用前人的研究成果,进行文本数据的挖掘,之后利用几个大家熟知的生物信息学工具,对有可能成为治疗白内障的药物进行一个粗浅的预测,虽然预测的结果并不一定能成为临床用药的根据,但是可以作为一个方向,或者提供了一种研究方法,则是本研究的目的所在。
        通常的方法是利用基因芯片进行基因富集分析,而本研究直接利用pubmed2ensembl工具对于已经证实的与白内障相关的基因以及抗氧化应激的基因进行交叉筛选,进一步确定了在白内障发病中与抗氧化应激有关的基因群。这种对于生物学文献进行的文本挖掘可以产生高效的研究假设,揭示基因和病理过程中新的可能的关系[3-4]。当文本挖掘和生物学知识以及其他生物信息学工具相结合应用的时候,对于已知药物新领域的潜在应用,我们有可能得到新的证据支持[5-6]
        通过文本挖掘得到的103个基因组成的基因群,我们对其进行基因富集分析。发现这个基因群富集的GO术语与细胞的呼吸链明显相关,并且与细胞凋亡的正向与负向调节过程以及营养状态相关,当然还包括细胞分化、氧化相关分子的跨膜转运等。而对于细胞通路KEGG的富集分析,我们发现:白内障氧化应激的过程与肌萎缩性脊髓侧索硬化症的通路高度相关,同时也与肿瘤、亨廷顿舞蹈症以及肺结核等的通路相关,这都能给我们启示,对于这几种已知疾病的治疗,也许可以应用在白内障的发病中。通过以上的基因富集分析提示我们,白内障的发病机制非常复杂,涉及到多种基因的调控以及广泛的信号通路改变,到此我们应该进行下一步的研究,对于基因表达的产物-蛋白质相互作用进行预测,毕竟基因的生物学功能是通过蛋白质来执行的。
        蛋白质-蛋白质相互作用分析,我们应用了STRING工具,这一步分析的目的是从基因富集得到的基因集中进一步筛选出具有紧密的相互作用的基因,希望能够进一步揭示白内障的发病机制。这些基因按照功能归类,分为氧化酶类:SOD1、SOD2、GPX1、CAT;细胞因子类:CYCS、IL6、TNF;蛋白酶类:CASP3以及凋亡抑制因子:BCL2。SOD是重要的抗氧化酶,广泛分布于各种生物体内,是氧自由基的自然天敌,其在生物体内水平的高低意味着衰老与死亡的直观指标;而CAT与SOD类似,存在于各种生物体中,它可以促使过氧化氢分解为分子氧和水,从而使细胞免于遭受过氧化氢的毒害,是生物防御体系的关键酶之一。已经有研究表明,在白内障患者的房水及混浊的晶状体中,SOD和CAT的含量较正常对照组均有明显的下降[7]。而GPX1是机体内广泛存在的另一种过氧化物分解酶,它的硒半胱氨酸活性中心可以使有毒的过氧化物还原成无毒的强基化合物,从而保护细胞膜的机构及功能不受破坏,在年龄相关性白内障动物模型中,GPX1 mRNA的表达量随着其白内障的严重程度逐渐减少[8],在GPX1基因突变鼠中,白内障的严重程度明显升高[9]。线粒体同样是ROS攻击的目标之一,而线粒体的靶向抗氧化剂(如CYCS)的研究平台的建立,则具有广泛的治疗潜力,这项工作已经在国外开展,而且专门针对氧化应激相关的眼部疾病[10]。而其他细胞因子如IL-6和TNF在眼内的失衡,则被认为是造成先天性白内障和后囊下混浊的可能因素之一[11]。而对于大家更为熟悉的经典凋亡蛋白CASP3,研究已经证实了在紫外线诱导的人晶状体上皮细胞凋亡过程中发挥重要作用[12]。BCL2对晶状体上皮细胞的凋亡呈负向调节作用[2]
        对于基因-药物相互作用分析的部分,针对于靶基因的药物,包括抑制剂、促进剂和相互作用未知(即无法简单地利用抑制或者促进来概括,本研究统一定义成未知),这些药物大部分已经在临床应用多年,其少部分的临床安全性还在观察当中,总体来说安全性有保障,但是这些药物目前为止都没有在眼部进行过局部应用,而全身应用的药物也尚未见针对于白内障的临床试验。因此可以说,对于这些已经存在且应用多年的药物,我们不妨在大胆假设、谨慎执行的原则下,改进药物的剂型,评估其对于眼部的疗效和安全性。例如,caspase3的抑制剂恩利卡生的研发,它通过降低介导炎症和细胞凋亡酶的活性,来阻断整个肝脏疾病的发展[13],目前疗效肯定,如果将其在安全性允许的范围内进行眼部的局部应用,不排除具有改善白内障的发病及进展的可能性。而药物的研发是一个复杂的过程,这可能涉及到不止单个基因或蛋白的功能,人类最终攻破白内障,可能需要针对多个基因、蛋白和信号通路进行整体的研发。希望在不久的将来,我们能够迎来白内障药物治疗的曙光。
        综合以上分析,本研究通过应用文本挖掘工具,对前人的研究进行提炼,之后应用基因富集工具,在生物学过程和信号通路上进行基因的功能富集筛选,之后建立对应蛋白的互作网络来进一步确定结合紧密的基因和蛋白,最终筛选出已经存在的可能成为治疗白内障的药物,而这些药物是否能成为打开白内障治疗大门的钥匙,则需要我们进一步的探索。