英国

注册

 

发新话题 回复该主题

下一种肆虐人类的病毒是什么AI预测出 [复制链接]

1#
308仪器 http://pf.39.net/bdfzj/131204/4302701.html

新冠病*自年开始席卷全球,至今仍未完全结束。如今,新冠疫情已经给人们的生产生活造成了极大的干扰和破坏,且新冠病*只是一大批日益增多的动物传染病病*中的一种,新冠不是第一种人畜共患病,也不会是最后一种,其他比较“知名”的人畜共患病还包括埃博拉、中东呼吸综合征、西尼罗河热以及裂谷热等等。很多研究表明,人类活动的扩张、对野生生态的破坏,加剧了某些疾病从动物向人类自身的传播概率。近年来,大多数新出现的人类传染病(如COVID-19)都是人畜共患的——由源自其他动物物种的病*引起,如果能及早识别这类高风险病*,则可以改善相关研究和监测重点,有望预防此类疾病未来再次暴发。9月29日,来自英国格拉斯哥大学的研究人员在PLOSBiology期刊上发表的一篇论文中介绍,他们使用病*基因组的机器学习技术(一种人工智能模型)可以预测任何动物病*感染到人类的可能性,这为预测评估人畜共患病潜力提供了一个新工具。

图|人畜共患病病*监测工作中捕获的蝙蝠(来源:PLOSBiology)

破解挑战的思路方法

确定人畜共患病的威胁是一项重大挑战,因为在大概万种动物病*中,只有其中少数可能会感染人类。现有的人类感染风险模型依赖于新发现病*未知的病*表型信息(例如,病*可以感染的物种多样性),或是病**株的风险水平(如细胞质中的复制能力),这些都限制了所讨论的病*被表征之前的预测价值。研究人员认为,由于现在大多数病*都是使用非靶向基因组测序发现的,通常涉及许多同时发现的表型数据有限,因此理想的方法是仅从序列数据中量化相关暴露后人类感染性的相对风险。目前已有的模型可以从基因组序列中识别出充分表征的人类感染病*,然而,通过在非常密切相关的病*(即同一物种的*株)上训练算法,可能忽略与感染能力相关的病*基因组的次要特征,此类模型不太可能找到在病*间泛化的人畜共患病状态信号。因此,预测可能对当前病*多样性知识中的大量偏差高度敏感。经验和理论证据表明,病*基因组中存在可概括的人类传染性信号。与广泛的动物宿主分类群相关的病*(如灵长类动物、啮齿类动物)可以使用其基因组组成的各个方面进行区分,包括二核苷酸、密码子和氨基酸偏差。这种病*基因组组成的测量方式是否足够特异性以在物种水平区分宿主范围仍不清楚,但它们的特异性可能通过几种常见的假设机制产生:首先,针对病*基因组中核苷酸基序的抗病*免疫方面,可能会选择不同人类相关病*中的常见突变;其次,病*基因组中特定密码子的频率通常与其宿主的频率相似,这可能是由于提高了mRNA翻译效率或准确性所致;最后,即使没有对不同病*基因组施加共同选择压力的机制,病*的系统发育相关性也可以预测人类传染性的可能,因为通常假设密切相关的病*具有共同的表型和宿主范围。基于先前已发表的报告评估人类感染能力的大型病*数据集,研究人员开发了机器学习模型,该模型可使用从病*和人类基因组序列中提取的特征,来预测任何动物感染病*在给定生物相关暴露的情况下感染给人类的可能性。

18种病*人畜共患潜力非常高

研究人员从包含动物感染物种的36个病*家族的个RNA和DNA病*物种中收集了具有代表性的基因组序列,将每种病*标记为能够感染人类,或者不使用已发表的报告作为基本事实,并训练模型对病*进行相应分类。在这些数据中,识别潜在的或未记录的人畜共患病是研究分析的一个先验目标。他们首先评估了与人类感染病*的亲缘关系是否会提高人畜共患病的可能性。梯度增强机器(GBM)分类器,可根据序列相似性搜索确定的病*分类学或近亲属中人类感染病*的频率进行训练。

图|从病*基因组中机器学习预测人类传染性(来源:PLOSBiology)

接下来,研究人员量化了根据基因组组成(即密码子使用偏差、氨基酸偏差和二核苷酸偏差)进行训练的GBMs性能,直接从病*基因组(“病*基因组特征”)或基于病*基因组组成的相似性计算不同的人类基因转录本(“人类相似性特征”):干扰素诱导基因产物(ISG)、管家基因和所有其他基因。此外,为了评估模型的敏感性和特异性,研究人员将来自袋装模型的人类感染预测概率的平均值转换为二元分类(即,人类感染与否),将预测概率0.的病*预测为人类感染。这些二元预测正确地确定了71.9%的主要或完全感染人类的病*,以及69.7%的人畜共患病*为人类感染,尽管病*家族之间的表现各不相同。由于二元分类忽略了迭代之间的变异性和病*相对于彼此的等级,研究人员又进一步将预测的人畜共患病概率转换为潜在的人畜共患病类别,根据该方案,预计大多数(92%)已知的人类感染病*具有中等(21.5%)、高(47.1%)或非常高(23.4%)的人畜共患潜力,而只有8%具有低人畜共患病潜力。

图|在训练数据中确定的推定未识别的人畜共患病(来源:PLOSBiology)

基于论文中模型的分析,目前共有18种病*被认为具有非常高的人畜共患潜力,其中至少有3种(Auravirus,Ndumuvirus,UgandaSvirus)具有人类感染的血清学证据。在整个数据集中,77.2%的预测具有非常高的人畜共患病潜力的病*已知会感染人类。值得

分享 转发
TOP
发新话题 回复该主题