当前位置:首页 > 投稿 > 创建基因数据的超级计算系统,人和未来亮相AWS技术峰会
创建基因数据的超级计算系统,人和未来亮相AWS技术峰会
作者:发布时间:2017-07-28 14:53:43来源:

一个成人体内大约有1014个细胞具有相同的遗传物质——DNA, 基因是DNA上的功能片段,是人体健康的最重要内在因素,也是人与人之间差异的根本所在。而基因检测分析技术,不仅可以用于精确筛查和诊断遗传疾病和体细胞突变疾病等,也可以与生活习惯、用药、病史、环境等因素相结合对人体健康进行个性化干预和指导。

在日前举办的2017AWS技术峰会上,猎云网(微信:ilieyun)接触到了人和未来生物科技有限公司(简称:人和未来),公司成立于2014年,总部设在北京,在长沙和杭州各有分支机构,人和未来拥有自主研发的基因测序和基因分析技术平台,是一家利用基因技术(BT)和信息技术(IT)为精准医疗和精准健康行业提供解决方案的国家高新技术企业。

插图1

由于这是一家基因技术和IT技术深度交叉的企业,所以一直以来,公司对外发声都是从技术的逻辑出发,联合创始人兼CTO宋卓在接受采访时表示:“目前所有的健康管理都还缺少基因这个维度,我们希望加入基因这个维度来帮助人们做到精准的健康管理,这是国内外整个健康医疗行业的发展趋势;其次基因测序行业现在面临一个大的痛点就是基因数据的爆炸式增长,预计2017年全国范围内的基因产业数据将超过100PB,而如此大规模的数据,给数据的存储传输、计算解读提出了严峻的考验,而我们作为一家同时具备BT+IT技术能力的企业,也希望能为整个行业提供了一种更适合我们这个行业的IT解决方案。”

据了解,人和未来创始团队早在2009在圣地亚哥就展开了基因检测临床转化的研究,而团队经过市场调研,当时中国基因检测面临的市场窘境是认知度太低,所以一直在做技术储备直到2014年才正式注册成立公司。宋卓认为:对于基因测序行业来说,获取样本很重要,在国外获取样本的速度因为各种管制相对很慢,而目前在国内,好的技术以及获取样本的便捷度,可以让中国在基因测序这条路上,在很短的时间内赶上国外甚至超过国外。

基因测序创新带来行业新应用

目前在健康领域里,人和未来通过自身全产品线的高质量基因检测服务商业客户,除了临床医院,人和未来将检测服务拓展到了保险、体检以及健康管理渠道。宋卓表示:“基因检测只是第一步,后续应该要有相应的干预、普及教育和管理措施,形成从监测到干预的精准健康医疗服务闭环。”

人和未来在业务方向上大致分为三个板块:健康管理、临床诊断和大数据分析。

健康管理方面,通过对人体基因的检测和解读,能够提供不同类型的疾病预防服务,制定个性化的健康管理方案。目前已拥有易感基因风险评估服务,利用基因检测技术,通过遗传基因、体征数据、生活方式等对每个用户疾病风险进行评估,并提供专属健康管理方案和个性化用药等干预手段;肿瘤早期筛查,仅抽取10ml外周血,通过高精度分子检测,安全无创实现对肿瘤的早期筛查和预防;肠道菌群检测,采用二代高通量测序,分析个体肠道健康状况,提出精准干预方案。

插图2

而针对临床需求,借助基因检测技术和医学遗传学的综合解读能力,可以为胎儿染色体疾病,新生儿遗传病以及癌症的个性化诊疗,从分子生物学层面提出解决策略,实现精准医疗。在肿瘤液体活检方面,人和未来自主研发了ctBEST™技术,检测灵敏度达到0.01%。无创产前检测利用超低频基因突变检测技术,通过对母体外周血液样本中存在的胎儿游离DNA进行测序,可以判断胎儿是否患唐氏、爱德华氏综合症等,准确率达99.5%。

以上都属于人和未来自主研发的NGS基因测序及生物信息解决方案已经可以实现的具体应用,此外,人和未来在基因检测领域也获得了很多官方资质,例如:国家基因检测技术应用示范中心、基因信息大数据应用技术湖南省工程研究中心,国家高通量基因测序试点单位等等,同时公司和湘雅医学院有着密切的合作关系。

针对BT行业的IT技术解决方案

除了在BT领域取得的研发成果,针对BT行业特殊的发展现状和瓶颈,人和未来在2014年成立初期就考虑到一个问题,健康医疗大数据的压缩存储、传输和计算能力会成为影响整个行业发展效率的制约因素。随着基因检测的应用范围越来越广,基因测序的成本越来越低,收益人群也越来越多,导致基因数据的规模呈爆炸性增长趋势。以Illumina公司最新产品Novaseq测序仪为例,满负荷运转产生数据速度为6TB/30小时,考虑到一个人的基因组测序数据文件大小大约为200 GB,也就是说该机器相当于每小时产出一个人的基因组测序数据。

目前,分析一个人基因组200 GB数据的单机计算耗时为30小时,这样的数据分析计算速度来应对激增的大数据潮流,结果必然是数据分析赶不上生成速度,导致大量数据堆积。

关于基因信息大数据已经产生了两个行业痛点:1、计算慢、成本高;2、数据大,传输难。

插图3

人和未来依托AWS云平台构建云计算加速系统,以新型的数据分发技术、数据混洗技术为基础,通过开发高性能分布式数据库StageDB,结合生物基因组知识,能够实现18分钟内计算完成人类基因组400 GB(55x)数据的分析任务,使计算性能和计算资源规模之间的关系近似于理想的线性关系,计算费用仅为百元人民币,分析结果准确性高达99.9%。

宋卓介绍:“这项技术的实现相当于打了三场战役。首先,针对超大型数据向250台AWS EC2服务器的高速分发,人和未来根据基因组生物学特性和高性能计算数据均衡性需求开发了独特的大数据切分技术,将原本66分钟的任务压缩到1分钟内完成,使得整体分析任务的计算时间降低到3-4小时。第二场战役,公司研发人员采用了AWS S3对象存储方案,开发了数据混洗技术,对切分出的海量数据文件进行了重排,实现了20-25分钟内完成109条DNA片段在基因组上按照位置进行排列的任务,将整个计算时间压缩进60分钟。进一步在数据存储方面进行攻关,我们开发了一套高层次化的Key-Value数据库StageDB,使得上一步的数据重排时间减小到40秒,整体时间缩短为18分钟。”

在硬件加速方面,人和未来自主设计和研发了基因数据分析的FPGA硬件加速卡,并构建了基因数据分析专用计算机GTX-One。该单机能够在15分钟内完成30X全基因组的比对和突变分析。

除此之外,人和未来开发了集基因大数据压缩存储、满带宽传输、数据分发三大功能一体的解决方案GTX.Zip,通过超高的基因数据压缩效率实现存储成本的大幅下降,通过压缩后数据传输、满负载传输、边压缩边传输等特性为基因大数据的分发和传输提供了除寄送硬盘以外的高效可操作性方案。宋卓预测:“基因测序成本下降趋势超摩尔定律,2000年的时候,基因测序成本高达30亿美元,而随着技术的创新迭代,到2019年,基因测序成本将有望控制到100美元的水平,能够成为一种普及性的服务。”

人和未来创始团队也比较有特色,本身具有资本、技术和市场三重属性加持,而CEO十分低调,几乎没有接受过媒体采访。据了解,公司创始人兼CEO袁梦兮拥有美国宾夕法尼亚州立大学金融经济双学士学位,康奈尔大学MBA学位,曾就职于高盛、世界银行、IDG资本等金融机构;联合创始人兼CTO宋卓博士,毕业于美国范德比尔特大学,研究方向为人类遗传学和生物信息学,拥有生物和计算交叉学科背景。联合创始人兼COO黄文静拥有浙江大学国际贸易及战略管理学士、 硕士学位,美国康奈尔大学MBA学位,曾在P&G担任客户经理,以及在美国礼来制药负责品牌战略规划和公司移动医疗创新战略实施。

目前,人和未来团队共有员工近300人,其中技术中心设在长沙,技术团队90人左右,主要负责技术研发和产品转化,宋卓透露,公司在成立之初,曾获得天使投资人数千万元资本支持,并且公司在成立的第一年就实现了盈利。

分享到

热门推荐

VR网站 更多+

  • 鸥课学院

    2017-09-12
  • 玖的VR

    2017-08-10
  • 虚幻引擎社区

    2017-07-15

热门活动

热门专题

合作伙伴

虚拟现实媒体|站点地图|关于我们|招聘信息|VR新闻滚动|联系我们|商务合作
Copyright © 2014-2015 VRRB.CN All Rights Reserved
VR日报 深圳大海传媒科技有限公司版权所有 冀ICP备2023013353号 网站邮箱:gexsf@hotmail.com