国际千人基因组计划数据库怎么用起来?

生信宝典

共 3085字,需浏览 7分钟

 ·

2021-09-18 08:55

从公共数据库中下载基因组或外显子组数据,一般需注意以下几项:
1. 使用权限
2. 物种及参考基因组版本
3. 数据来源及引用:GEO、千人基因组计划等
4. 表型:种族、健康状况、性别、年龄和家系信息
5. 数据类型:遗传变异、体细胞变异;SNV、InDel或SNV;基因芯片或测序(测序仪、单双端及读长
6. 文件类型:fastq、bam、vcf或gvcf

国际千人基因组计划

项目起始。人类基因组计划耗费10多年后在2003年绘出人类的完整基因组图谱。作为某种延续,也得益于测序通量的提高,国际千人基因组计划(The 1000 Genomes Project, 1000G/1KGP)从2008年启动,到2012年即获得了超过1000人的基因组数据,是科学界首次实现千人规模以上的基因组对比分析(2012年)。

1000G建立的人类遗传变异资源由国际基因组样本资源(The International Genome Sample Resource, IGSR)维护和共享。IGSR官网:

http://www.internationalgenome.org/

项目规划。1000G旨在绘制当时(2012年)最为详尽、最有医学应用价值的人类基因组遗传多态性图谱。其后数据不断扩充,分析结果不断更新和迭代。目前已经有超过2500个人的基因组。2500个人的全部基因组可产生50TB(5万GB)的数据量,包含8万亿个DNA碱基对。

参与单位。华大基因是1000G的主要发起单位之一,承担了非洲人群和400个黄种人的全基因组测序。其它单位有英国桑格研究所和美国国立人类基因组研究所等。

人群分布每个亚群一般包含几十到一百多个健康人。例如:尼日利亚伊巴丹区域的约鲁巴人;肯尼亚Webuye的Luhya人和Kinyawa的Maasai人;居住于美国西南部的非洲人后裔居住于东京的日本人;居住于北京的中国人;居住于丹佛的中国人;意大的Toscani居民;美国犹他州的北欧和西欧人后裔;美国休斯顿的Gujarati印第安人;美国洛杉矶的墨西哥人后裔。项目后期的人群多样性有大幅增加。

1000G数据库的应用

任何两个人在基因水平上99%是一样的,小部分的基因组序列因人而异。每个看起来很健康的人其实都携有数百个罕见的基因变异,其中有些基因变异已证实与某些疾病风险有关。这些基因变异究竟在什么情况下才会实质性地增加患病风险,目前不得而知(聊生信:我们会关注相关的研究与应用进展)

发现罕见的基因变异1000G可以帮助发现一些携带者占总人口比例不到1%的基因变异。这些罕见基因变异或许与疾病有关,例如可能增加心脏病或癌症的患病风险。对基因变异进行研究有助于开发预防、治疗相关疾病的方法。

作为人群对照可以帮助研究者不再泛泛地找一些人的基因组(几个或几十个)用于对比,而是直接调阅他们长期生活区域的人群基因组数据,开展更加有针对性的比较。

应用汇总发现疾病发病机理、疾病的易感性、对药物和环境因素的反应性常见疾病的诊断、个性化预测、预防和治疗;在大的范围内定位人群突变基因、帮助发现人类遗传疾病的相关基因、鉴定特定遗传病人群中的罕见致病基因、更精确地定位已发现的遗传风险因素、挖掘出更多未知的致病遗传因素;药物基因组学、人类群体遗传学、人类进化史。

样本列表的选择和下载

1000G包含的个体主要是来自不同人群的(自我声称)健康的样本(people who declared themselves to be healthy),可方便地下载到原始数据。但作为对照时需要注意:只有少部分样本进行了深度测序,大部分数据都是低深度测序。
主要数据组成
Pilot:    试点,比对到NCBI36
Phase1:约1000例,低深度和外显子数据,GRCh37
Phase2:约1700例,分析方法有更新
Phase3:约3000例,GRCh37,2504例的样本信息公开
1000 Genomes on GRCh38:约2700例样本
GRCH38的不同版本(GRCH38.p1, GRCH38.p2等)是对GRCH38的修补(patch),坐标系不会改变。
数据入口(data portal)
https://www.internationalgenome.org/data-portal/sample
先选择测序技术:

另有全基因组、小RNA、Nanopore、PacBio和单细胞测序,及基因型芯片数据

再选择人群:

最后选择数据集合:

先选择了外显子组(Exome);CHB(北京,n=103CHS(南方汉族人群,n=113);数据集合:30x on GRCh38。终有216个样本符合。

点击Download the list下载得到样本名称:

需要根据这些样本列表从1000G数据库下载感兴趣的各类变异文件,我们后续的推文再介绍。


撰写:宋红卫

校对:宋红卫

更多人类遗传学知识、文献和分析技术
请关注和星标聊生信


往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集




浏览 76
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报