21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系(组图)
日前,Nature制作了5张新冠病毒可视化图表,直观展示疫情变化趋势、科研人员发文速度等。西电李雁妮教授和北大刘兵教授等学者联合发表了一篇关于新冠病毒全基因序列相似性的研究,涉及21个国家的377个COVID-19及相关病毒的全基因序列,离病毒溯源更进一步。
日前,Nature制作了关于这次新冠病毒疫情的五张图表,以一种非常直观的方式为我们呈现了病毒确诊病例的变化趋势、R0值对比、科研人员发布研究的速度、旅行限制对碳排放和空气质量的影响、以及和2003年SARS相比的大流行情况等。
Nature可视化图表:新冠病毒与SARS时间表对比,这次中国真速度
目前,全球已经有超24万人感染新冠肺炎,中国境外确诊已超过境内确诊病例。第一张图展示了中国和其他国家确诊病例的变化趋势,2月中旬后中国确诊数放缓,其他国家3月开始陡增。
第二张图展示了COVID-19与其他疾病R0值和致死率的对比。目前对COVID-19病死率的估计表明,新冠病毒的致死率低于其他大规模疫情的病原体,如SARS、MERS和埃博拉。但是这种感染似乎比季节性流感等其他疾病更容易传播。新冠病毒的基本繁殖数R0值约2到2.5。
第三张图展示了旅行限制对碳排放和空气质量的影响。中国为控制疫情所做的努力似乎已经遏制了能源消耗和空气污染。NASA和欧洲航天局收集的卫星数据显示,全国范围内大气中二氧化氮(NO2,是化石燃料燃烧过程中产生的)含量急剧下降。初步分析表明,农历新年后的NO2污染比往年同期减少了10–30%。
第四张图是新冠病毒与SARS时间表对比。SARS疫情持续了三个月后才被确认为是一种独特的疾病。然后,在接下来将近两个月的时间里,还在寻找病原体:病毒本身的鉴定和基因组测序主要来自中国以外的研究人员。
相比之下,在第一个已知的COVID-19病例发生三周后,中国已经通知世卫组织,出现了类似肺炎的病例激增。两周后,这种冠状病毒被分离出来,进行了基因测序,并开发出了一种诊断测试,为中国提供了所需的工具,并启动了全球有史以来最大规模的传染病遏制行动之一。
最后一张图展示了新冠病毒相关研究随时间的变化。这次疫情的爆发促进了对新冠病毒及其引起的疾病的大规模研究。截至3月12日,有关新冠病毒的论文、预印本和初步报告约有900篇。
接下来我们就和大家分享一个关于新冠病毒的新研究。
21个国家的377个全基因组序列,探究COVID-19病毒之间的相似性和进化关系
西安电子科技大学教授李雁妮等人和北京大学讲席教授刘兵发表了一篇关于新冠病毒全基因序列相似性的研究,题为“Similarities and Evolutionary Relationships of COVID-19 and Related Viruses”(COVID-19与相关病毒的相似性及其进化关系)。
研究人员通过对377个COVID-19新冠病毒及相关病毒的全基因序列进行了相似性及进化关系的计算分析,得到了一些潜在有趣的结果,可能会对相关领域专家找到病毒的源头、有效的检测试剂、疫苗及治疗药物的研发等有所帮助。下面为大家解读这篇研究。摘要:我们收集了377个公开发布的COVID-19病毒、先前已知的4种引起流感的冠状病毒HCov-229E、HCov-OC43、HCov-NL63和HCov-HKU1以及致命的致病性P3/P4病毒:SARS、MERS、Victoria、Lassa、Yamagata、埃博拉和登革热的全基因组序列。本文作者利用他们最新研发的大序列数据分析工具I-MLCS、现有的MEGA 6.0系统和聚类算法,对来自21个不同国家的COVID-19病毒序列以及COVID-19病毒与其相关病毒的相似性和进化关系进行了计算分析。
图1.数据来源和采样/测序时间。表1.不同月份的COVID-19病毒序列之间的平均相似度
相似性分析表明,两株以菊头蝠为宿主的COVID-19病毒(TG13和 RaTG13)与以人为宿主的COVID-19病毒有很高的相似度,但以穿山甲为宿主的病毒与以人为宿主的病毒平均相似度更高一些。进化关系分析表明:来自5个国家所测序的约13株COVID-19病毒很可能与第一代COVID-19病毒及其起源有关,或可能引导研究人员找到该病毒源头。刘兵教授还透露,他们对表1中的相似性进行了统计测试,发现病毒在过去四个月中经历了具有统计意义的显著突变,这使得开发好的疫苗更加困难。
介绍:自2019年12月以来,严重的新冠病毒COVID-19所引发的肺炎疫情从武汉迅速蔓延到全国,据中国CDC(中国疾病控制中心)报告:截止2020.3.8号,中国已累计确诊病人80868人,累计死亡病例3101人,更为严重的是,目前该疫情已在世界100多个国家或地区爆发蔓延。因此,有效地控制与扼制新冠病毒COVID-19疫情、治愈感染病人、免受由疫情所带来的巨大经济损失是当前世界面临的最紧迫与重要问题。
本文报告了作者对新冠病毒COVID-19全基因序列(以下简称序列)本身,以及COVID-19病毒序列与其它相关病毒序列之间的相似性与进化关系的计算及分析。由于新冠病毒COVID-19是一种新型病毒,对它的研究才刚刚开始。不同于现有的研究,本文工作是一种大规模的新冠病毒COVID-19及相关病毒的全基因序列的比较计算研究,共涉及了来自21个国家的377个COVID-19及相关病毒的全基因序列。
更重要的是,作者首次对这377个病毒的全基因序列进行了相似性及同源/进化分析。正如本文将要呈现的,这种大规模的对COVID-19及相关病毒的全基因序列的深度计算与挖掘,将揭示COVID-19及相关病毒间的一些重要关系与发现。本文工作中,作者共收集了公开发布的215个COVID-19全基因序列(包括:宿主为人的194个序列、宿主为菊头蝠的13个序列、宿主为穿山甲的6个序列,以及宿主为环境的2个序列),已有的四种流感冠状病毒HCov-229E (3个) , HCov-OC43 (78个), HCov-NL63 (16个) 和 HCov-HKU1 (4个), 以及7种高致病致命的7种 P3/P4病毒, SARS (11个)、MERS (11个)、Victoria (5个)、 Lassa (6个)、Yamagata (5个)、Ebola (11个)和Dengue (12个),以上序列总计377个。
本文的序列数据来源于以下数据库:GenBank or NCBI[7] (National Center for Biotechnology Information), GISAID[8] (Global Initiative on Sharing All Influenza Data), CDC[9](Center for Disease Control and Prevention)等,序列的平均长度为3万左右。由于新冠病毒COVID-19肺炎的发病机理、病毒检测、疫苗与治疗药物的研发等,在很大程度上决取于对COVID-19全基因序列的分析研究,因此,本文研究将会为生物、医疗与健康领域的相关专家们,在追溯COVID-19病毒的起源、传播路径、研发有效的检测试剂、疫苗与治疗药物,以及有效地控制与扼制该疫情提供有价值的决策信息/数据支持。值得注意的是,这项工作是COVID-19全基因序列及相关病毒序列的一个大规模计算与挖掘研究,我们目的并非为了获得广泛的生物学解释,除了一些最低限度的,而是拟从大序列数据的比对计算中,分析与挖掘出可能有价值的信息。
图2.四种流感冠状病毒与以人为宿主的COVID-19之间的平均相似度。
图3. COVID-19与七种致命的致病性P3 / P4病毒序列之间的平均相似度。
图4.不同宿主中COVID-19病毒序列之间的平均相似度。
这项工作的核心发现(所有的分析都只使用完整的基因组序列)
1.通过对过去4个月来(2019.12~2020.3 )所收集的194个以人为宿主的新冠病毒COVID-19全基因序列的相似性分析结果表明:序列间具有平均高达99.8%的相似度;采用MEGA 6.0对它们的同源/进化关系分析表明:来自不同国家的新冠病毒COVID-19已发生了一定程度的变异;
2. COVID-19与已知的四种流感冠状病毒(HCov-229E, HCov-OC43, HCov-NL63和HCov-HKU1)的相似度在55.6%~56.1%之间,它表明:新冠病毒COVID-19与已知的四种流感冠状病毒不同;
3. 以人为宿主的新冠病毒COVID-19与高致病与致命的P3/P4病毒中的SARS和MERS最像,与SARS的平均相似度达到82.6%,并且MEGA 6.0计算结果报告:COVID-19与SARS同源;
4. 以人为宿主的新冠病毒COVID-19序列与宿主为穿山甲的COVID-19序列相似度高于以宿主为菊头蝠的COVID-19序列相似度,其平均相似度差值达13%~20%。但有两株以宿主为菊头蝠的COVID-19序列(TG13和RaTG13)除外,病毒株TG13和RaTG13与人为宿主的新冠病毒COVID-19序列的相似度高达95.9%;
5. 宿主为人的新冠病毒COVID-19序列与宿主为环境的COVID-19序列的相似度高达99.7%,且两者为同源关系;
6. 采用MEGA 6.0对来自21个国家的共计194个宿主为人的新冠病毒COVID-19序列同源进化关系的计算结果表明:来自5个国家的13株病毒序列,即:中国(China 7/85)、泰国(Thailand 2/2)、日本(Japan 2/9)、美国(USA 1/32)和韩国(South Korea 1/9)极有可能相关于,或导致我们找到第一代病毒或病毒源。值得注意的是,由于存在世界范围内的旅行,本文决没有上述来自5个国家的13株病毒序列一定/可能是病毒源国之意,仅表明,这13株病毒序列为我们可能追溯查找到第一代病毒或病毒源提供了必要有价值的线索。
图5.第一代COVID-19毒株的国家、序列号和测序日期。
图6.来自21个国家的21个COVID-19病毒株的两棵进化树(每个国家一个毒株)。
图7.图5中21个COVID-19毒株的进化树。
图8.15种病毒的相似度矩阵。
图9. 15种病毒的全连接加权图和聚类结果。
图10.两个病毒簇的两棵进化树。“COVID-19与相关病毒的相似性及其进化关系”研究作者简介
李雁妮,博士,教授,计算机科学与技术、软件工程学科博士/硕士生导师。
分别于1981、2005和2013获西安电子科技大学计算机应用学士学位、软件工程硕士学位和计算机应用技术工学博士学位。2017年9月~12月在美国伊利诺伊大学芝加哥分校做高级研究访问学者;
2019年4月~9月在加拿大尼皮辛大学做高级研究访问学者。目前主要研究领域为:大数据分析、机器学习与多目标优化等基础理论与应用。
以第一作者撰写专著二部,其中,《C++程序设计语言》获国家“十.一五”规划教材、国家普通高等教育精品教材。
近年来,在研究领域上以第一作者身份发表SCI/顶级会议论文20余篇,并主持或作为主要成员完成纵向/横向项目10余项。作为主要参加人,项目《复杂数据管理理论与关键技术》,获2019年陕西省教育厅科技进步一等奖,项目《非结构化数据管理与挖掘关键技术及应用》获2019年陕西省自然科学二等奖。
刘兵(Bing Liu)现为北京大学的讲席教授(目前从伊利诺伊大学芝加哥分校(UIC)休假),为ACM Fellow、AAAI Fellow和IEEE Fellow。从爱丁堡大学获得人工智能专业博士学位,研究领域主要包括:终身机器学习、情感分析、数据挖掘、机器学习和自然语言处理等。在国际顶级会议/期刊发表了大量学术论文,撰写专著4部,Google Scholar Citation达60000以上。其中2篇论文获得KDD Test-of-Time奖, 1篇论文获WSDM Test-of-Time奖, 1篇论文获WSDM Test-of-Time荣誉奖(honorable mention)。他的开创性研究工作被媒体广泛报道,包括纽约时报的首页文章。获2018 ACM SIGKDD创新奖。 于2013-2017年担任ACM SIGKDD主席,并曾担任多个顶级数据挖掘会议的程序主席,包括KDD,ICDM,CIKM,WSDM,SDM和PAKDD。同时担任多个顶级期刊的副编辑,包括TKDE, TWEB, DMKD和TKDD,以及多个自然语言处理、人工智能、网络和数据挖掘会议的领域主席或高级程序委员会成员。