全基因组关分析价值与简介
全基因组关联分析 (GWAS) 被广泛用于寻找复杂遗传疾病关联基因,是重要的人群遗传学的基础。这项工具可以实现没有假设前提的研究——研究者通过人类血液提取DNA,测定基因型,从而研究人的所有遗传突变位点和人类疾病的关系。目前一些大型队列或基因银行也在通过自身的发展,不断推动GWAS领域发展。
第一个正式发布的GWAS,覆盖7个病种,包括1.4万个样例,3000个控制组
(WTCCC 2007 Nature)
将全球23个Biobank联结到一起,囊括200万人以上的数据
(Global Biobank meta-analysis initiative)
全基因组关联分析数据(GWAS summary stats)能作为桥梁,连接内部数据和各种外部数据,有三大优势:
数据可来自双样本设定(Two-sample setting)
传统方法中,疾病研究中的暴露和结局都来自同一个样本。比如,当我们需要了解吸烟和肺癌的关系时,就要通过收集同一个样本吸烟和肺癌的情况,寻找两者之间的关联。借助遗传数据,则能在样本A中收集吸烟的情况,样本B收集另一人群肺癌的情况,使用全基因组关联分析结果对两者有机结合,做出因果关系的推论。
跨疾病类型的广泛应用前景(Phenome-wide association study)
通过这个设定,能更容易进行队列建设,如针对样本A的队列只需要收集吸烟信息,针对样本B着重研究肺癌情况。这样既可以节省研究者的精力,也可以结合外部数据,进行全表观组的研究。研究不是集中在某一个疾病上,如在样本A收集了吸烟信息,在样本B收集了肺癌信息,在样本C收集了其他癌症信息,就可以研究吸烟和所有癌症的关系。
大样本优势(Large-scale studies)
最新的关于血脂的GWAS样本量,有近1000万人的数据,可以进行世界各地的样本收集。在大样本的基础上,可以结合新的遗传流行病方法,如孟德尔随机化方法学 (Mendelain randomization) 提示因果关系。和传统的探索关联分析相比,孟德尔随机化、基因风险评分等方法针对人群遗传学数据,拥有非常广泛的应用前景,如流行病学研究、药物研发甚至是新冠结局的研究。相关平台也能支持大规模的实验,成本相对更低,且效果较好。
GWAS模型
(来源:郑捷,创新+沙龙讲座资料)
全基因组关联分析数据库与运用平台
随着人类遗传学研究的发展,疾病数量呈指数增加,样本库的完善和发展,也使得数据体量与日俱增,但GWAS结果存在数据量庞大及各信息组织之间数据格式不统一,为研究者使用数据造成了障碍。相对于报告标准 (reporting standard)已经较为完整的RCT、孟德尔随机化的领域,GWAS到目前为止,还未形成类似的标准体系。
(来源:郑捷,创新+沙龙讲座资料)
郑捷研究员师从David Evans教授,自2015年至今一直在致力于推广GWAS结果的标准化,在数据清理、数据标准化、数据库建立、数据库效率升级等领域累积了一系列的经验。借助这些经验,郑老师极其团队希望借助这些经验,推动建立中国和世界的GWAS结果标准。
GWAS汇总结果数据库(The IEU OpenGWAS database)
收集了全球各地近4万种GWAS的汇总结果,包含1.8亿基因与疾病的关联。除数据库本身,也配套制作了生态系统(data eco-system),覆盖数据QC、存储、读取、运用等环节
(来源:郑捷,创新+沙龙讲座资料)
运用平台之一:LD Hub
在数据库的基础上,2015年开始,与Broad Institute(哈佛/MIT联合中心)合作,共同推出第一代GWAS数据及方法学运用平台:LD Hub。它包含800多个GWAS的结果数据库,用户可通过网上的运算平台,上传相应信息,接收平台返还的运算结果。该平台主要运用LD score regression进行分析,它是一种成熟的计算人类疾病遗传度和遗传相关性的方法。结合GWAS数据,LD Hub平台降低了研究者使用遗传学数据库进行研究分析的门槛,有助于推动人类遗传学向全表型组研究(Phenome-wide association study)的进展。
(来源:郑捷,创新+沙龙讲座资料)
运用平台之二:MR Base
孟德尔随机化(MR)是运用人群数据探索暴露与结局的因果关系的方法学,已经较为成熟,但需要花费大量时间和精力来整理数据格式,极大的限制了大范围运用的可能性。MR Base致力于GWAS数据与MR方法学的结合,能够大大节省了实验设计的时长,原本需要长时间、大量邮件沟通,请求不同数据的实验设计,通过该平台重复,用时仅10分钟就可完成运算。
(来源:郑捷,创新+沙龙讲座资料)
运用平台之三:EPiGRAPHDB
从结果运算的角度来看,GWAS为研究提供了数据库层面的第一步结果,第二步是使用数据库数据,放到LD Hub或MR Base之类的平台上运算,得出新的结果。EpiGRAPHDB平台重在解决运算后的结果如何展示、整合的问题,它整合了基因组、多组学、流行病,医学等结果的可视化展示,具有涵盖不同种类结果,采用标准化的结构,便于用户快捷查询的特点。此外,这个平台可以借助机器学习,对多角度证据链进行整合,为医学新发现、新突破助力。
EpiGRAPHDB平台展示
(来源:郑捷,创新+沙龙讲座资料)
基因多组学数据分析在临床应用的案例
孟德尔随机化和药物靶点的找寻
以一项实验设计为例,选择蛋白质为暴露,从IEU OPENGWAS Database和MR Base中获取疾病数据,整合全球范围内2600多种蛋白,一一匹配作为结果的158种疾病和72种风险因素,通过GWAS和运算平台,获得了数十万的运算结果。其中,274组蛋白-疾病的配对提示了因果关系,8个蛋白-疾病和现有药物的药效是复核的,提示了可靠性,其他配对则提示了新的药物靶点,探索出药物覆盖多种疾病的范围。
(Nature Genetics, 2020)
有文献指出,有人类基因组学支持的药物靶点,其制药成功率会提高2倍 (Nelson, M.R. et al. The support of human genetic evidence for approved drug indications. Nat. Genet. 47, 856–860, 2015)。而对比现有的RCT信息,有组学孟德尔随机支持的药物和基因靶点,将帮助制药成功率提高5-7倍。不难看出,有GWAS和对应平台的能力加持,多组学孟德尔随机化方法能更加有效的支持药物研发。
嘉宾问答
问:针对一些获取活检样本并不容易,甚至不合伦理的疾病,该如何应用多组学的研究?
郑老师:不太容易获取的活检样本确实会影响到后续的多组学研究。但相对RCT,一些不可突破伦理限制的研究倒是可以通过遗传学的多组学研究来进行。比如研究吸烟和肺癌的关系,我们不可能让被试者去吸烟来开展研究,但是可以通过遗传学大数据库,来探究吸烟人群和肺癌人群之间有无相关性,甚至于因果关系。
问:怎样应用这类数据库结合AI开展可普及的数据分析,帮助临床医生在临床遗传资讯中用好GWAS?
郑老师:人工智能已经应用到了各类领域之中,如EPiGRAPHDB就利用了自然语言学习,把格式化的数据进行处理,在短时间内帮助研究者了解到某一性状和某一基因和疾病之间的关联,是通过什么途径得到的。这样一来,大量文献回顾的时间过程就被节约下来了,在很短的时间内,它可以帮助研究者找到暴露和结果之间的所有具有可能性的链接,并对这些链接打分。研究者可以筛选打分较高的项目,进一步开展更加具体的研究。
文中使用的图片及资料或已经过授权,或已标注引用来源,其他机构和个人请勿自用于改编和二次传播
创新+系列沙龙自6月创办以来,已邀请五位具有海内外优秀背景的专家学者,带来精彩纷呈的研究探索与实践分享。
金秋9月,上海市数字医学创新中心将继续邀请业内优质企业的高管、技术专家,定期举办企明星沙龙,分享数字技术在医疗领域的商业化动向,与创新+相辅相成,以更为全面的行业视角,洞见数字医学的创新未来。