自从 20 世纪 80 年代人类基因组测序计划启动以来,生命科学进入了高速发展阶段,越来越多的生物基因测序完成,各种高通量技术引起生物数据的快速增长,众多基因、癌症、医学研究机构和制药公司不断产生的海量数据,如何及时获取、快速分析、安全储存和智能管理这些庞大的数据是基因行业用户急需解决的问题。然而,传统的超算模型的基础架构和单一系统越来越不合适做生物信息分析了。
多样化计算
生信分析变得越来越先进和复杂,除了传统的批量计算,Spark也越来越多的被引入到生信分析流程中来(比如GATK4 Spark版本)。如何隐藏计算框架的差异,统一动态的构建所需要的计算框架,协助生信分析科学家组织更复杂的生物信息分析流程?这些需要计算平台提供多计算框架支持,同时简化流程的组织和编排。
- 生信科学家在Bioflow执行引擎上完全不需要关心计算框架的差异,可以轻松构建一个混合计算框架的流程。
- Bioflow 提供了丰富的表达方式:BSL(Bioinics Specific Language)、WDL以及可视化编排。这大大的降低了生信科学家对并行编程能力的要求,在简单的语言描述下,组织高质量,高并行,健壮的复杂分析流程。
- Bioflow计算平台不单单是一个分布式调度器,而且还是生信分析的高级执行引擎。包括了完整流程编排,流程管理,作业管理,工具管理,权限管理等等。
有别于通用硬件+通用软件堆砌的生物信息分析系统。BioStack是为生物信息专门设计的自底向上的完整的数据系统,一次性解决生物信息数据的存储、数据管理、分析计算和特征数据挖掘。是高度垂直的、全栈的、更专业的生物信息分析系统。
Bioflow 还集成了很多常用的经典流程,WES,WGS,RNASeq 等等。同时,计算平台集成开发了多样化的数据可视化工具和公共数据库,协助生信分析人员轻松的理解分析结果,并且简化解读的流程。
尽最大的可能让生信分析科学家关注“生物信息科学”,减少“工程负担”。
免责声明: 本站资料及图片来源互联网文章,本网不承担任何由内容信息所引起的争议和法律责任。所有作品版权归原创作者所有,与本站立场无关,如用户分享不慎侵犯了您的权益,请联系我们告知,我们将做删除处理!