点(SNP、V、indel)检出。预期目标:开发多个体全基因组数据的比对软件、多态性识别软件、组装软件。承担单位:深圳华大基因研究院课题负责人:李英睿学术骨干:高扬、朱红梅、秦楠经费比例:27%课题3、生物信息学和群体遗传学分析研究内容:1、负责3000Gb以上个人基因组数据的处理和分析工作。包括利用自主开发完成的软件实现比对、多态性位点检出、相位分析、多态性位点注释、群体遗传学分析等。2、针对生物信息学数据分析的特点,定制高性能计算机解决方案,事先大规模重测序数据的管理、展示与共享。1)数据传输、存储与分析。解决1018数量级数据传输可能存在的高I/O问题,设计高效的数据存储、备份方案,便于数据分析和计算。2)数据展示。将个人基因组数据以数据库的形式存储、以web页面的方式展示给用户,供用户查询和下载。3)数据共享。制定适用于大型合作项目的数据质控、共享、同步方案。预期目标:完成不少于3Tb数据的基因组比对、多态性检出工作。完成群体遗传学分析。提供超大规模数据的传输、展示与共享的解决方案。承担单位:深圳华大基因研究院课题负责人:王俊学术骨干:杨国华、樊伟、方林经费比例:41%各课题间相互关系本项目的开展将完全由深圳华大基因研究院的团队完成。课题设置分为三个主要部分:样品收集和数据产出、生物信息方法开发、数据分析以及数据管理和展示。总负责人:王俊。子课题一是整个课题的材料准备和数据产出部分。产生的不少于3000Gb多个体全基因组重测序将用于构建高分辨率的中国(东亚)人群遗传变异图谱。目前世界上没有现成的软件和流程可用于处理如此大规模的数据,子课题二的设置主要是针对本项目中所产生的数据,开发相应的软件和分析方法,为子课题三提供分析流程。子课题三是对子课题一、二所产生的数据和分析方法的综合应用。运用子课题二中开发的分析流程分析子课题一产出的大规模数据,并完成数据展示、共享工作。