一、什么是生命大数据
生命是这个世界重要的组成部分,生命活动是通过生物作为载体形成的,在生物学和统计学上这样的生物体称之为生物样本。生物样本在生命活动中产生大量的数据,主要包括生物体数据和行为数据。生物体数据是指单个样本或者群体样本贯穿整个时间和空间形成的生物组学数据和生物样本元数据,是对生物体样本在客观世界的描述。其中生物组学数据沿着中心法则的转化依此形成:基因组数据、转录组数据、表观组数据、蛋白质组数据、代谢组数据、时空组数据等,组学数据从根本上解释了生物体的生物学过程。生物元数据常被称为表型数据,是描述生物样本的元数据,没有明确的边界,只要是有意义的、可描述的、可量化的属性就行,主要反映一个样本的某种存在形式和状态。生物样本数据可以从生态、群体、个体、组织等宏观角度来观测,也可以从细胞、分子等微观角度来采集,同时在不同观测角度上又具有组份、结构、顺序等描述维度。
数据是事物的抽象存在,人类建立了一套通过数据来描述和认识世界的知识体系,所以数据的形成是人类文明形成的基石。随着数字化和信息化技术的进步,自然科学研究的对象逐渐由事物本身转变为描述事物的数据,进而形成了新的自然科学研究范式,即由吉姆·格雷提出的自然科学研究第四范式:“随着数据的爆炸性增长,计算机将不仅仅能做模拟仿真,还能进行分析总结,得到理论。”。“大数据科学”通常的实施路径为使用应用数学将研究问题转化成数学模型,再通过计算数学将数学模型转变成计算模型,计算模型作为软件工程的输入需求经过程序设计得到计算软件。“大数据科学”处理的大数据一般来自于真实世界,能反映真实世界的客观情况,避免了“实验科学”中样本特殊性对结论代表性的影响。故而围绕真实世界大样本、多维度、多链接的大数据研究,对于自然科学的研究和应用具有很重要的意义。
生命大数据是一个全新的概念,对于生命大数据暂时没有权威的定义,但是从事基因组学、群体遗传学、蛋白分子结构等方向的研究人员,日常工作就是通过大规模计算处理大量数据得到研究结果,从某种角度来讲他们一直在从事生命大数据。在互联网领域IBM提出了大数据的“5V”特征,即:大数据量、多样性、真实性、增值性和快速交互。但是生命科学是围绕认识种族、发育、遗传、活动、生殖、病变的科学,在应用场景上与互联网领域相较发生了巨大变化,故对于生命大数据的认识不能照搬互联网大数据的理解。其中生命大数据处理的生命数据更多是将生命数字化后的数据,如基因数据、影像数据、分子结构数据等,而互联网大数据处理的更多是通过各种感受器采集的信息,如:文本、图片、视频等。综上,对于生命大数据可理解为通过“大数据科学”的范式处理各种生命数据,得到有价值结果的过程。
二、生命大数据的应用
生命大数据在生命科学领域越发重要,近年来大规模人群基因组学研究项目方兴未艾,相关成果陆续发布,标志着生命科学产业和精准医学正式进入了基因大数据时代。据不完全统计全球有20多个国家和地区宣布启动基因组计划,人群规模从数十万、数百万到全民,大量的人群被纳入人类遗传资源研究的队列。群体遗传学研究是生命大数据重要的应用场景,因为多组学数据的规模及遗传资源的多样性,决定了需要大规模的遗传样本才能更好的描述人群的遗传背景。除了群体遗传学研究,在大规模的慢性疾病研究队列、公共卫生流行病学研究中也有很广泛的应用空间。在分子生物学研究中,科研人员利用大数据技术分析已有蛋白质分子的同源结构预测未知的蛋白质分子高级结构,取得了很好的效果。生命大数据在分子遗传学上研究生命活动规律、生命的本质、生命的发育规律,以及各种生物之间和生物与环境之间相互关系,最终能够达到治疗诊断遗传病、提高农作物产量、改善人类生活、保护环境等目的。
在生命健康产业方面,生命大数据的应用处于起步阶段,从国家卫生健康战略规划到互联网公司的跨界入局呈多种形态发展。通过对已有病历数据的挖掘可以形成智能辅助诊断系统,提升临床诊断的有效性并优化了医疗资源的合理配置。如果能在病历数据的基础上综合检测数据(生化检测数据、分子检测数据、影像数据等)和参考数据(临床诊断标准、参考基因组、遗传变异图谱等),则能大大的优化智能辅助诊疗模型,实现复杂医学知识库与个性化医学服务的有机结合。健康医疗大数据是推进医疗健康管理体系改革的重要技术手段,也是推进循证医学向精准医学发展的重要技术手段之一。在健康管理方面,随着个人智能穿戴设备的快速普及,形成了在科学运动、健康饮食方面的简单应用场景。但是受限于生物数据的无创采集技术及遗传信息的缺乏,对健康检测数据进行挖掘利用的价值还没有凸显出来。
从长远的角度看,生命大数据最终是要实现对生命的数字模拟。具有完整的组学数据、元数据和行为数据可以对生物体进行模拟,再加上对生物体形成影响的外部环境数据即可形成对生命活动进行模拟。如果这些数据是持续的,那么则可以对模拟的生命进行预测,到那个时候活在硬盘里将不是梦。
三、生命大数据实践途径
数字经济时代下,数据是最重要的生产要素。生命大数据就是将生命数据作为原料的产业,这条产业链由上而下为数据的采集、清洗、汇集、治理、挖掘与利用。当然整个过程中都要以项目目的为导向,围绕数据价值从低密度向高密度转化为宗旨开展工作。
生命数据的采集:数据的采集是最重要的一步,因为这是数据价值的源头,包含了数据的所有价值,直接影响到目标的达成。当前具有重大价值的生命数据主要还是通过专业的医疗手段来采集,获取成本高且数据类型单一。同时数据的持续性也难以保障,生命数据的波动范围和数据的阈值范围对于生命活动具有同等重要的意义。数据的采集严重依赖生物信号的数字化技术以及数据主权确权的技术。
生命数据的清洗:将采集的数据根据项目目的进行过滤,清除不相关数据及噪音数据,并按统一数据标准规范进行整理的过程。数据的清洗关系着数据价值的丢失和数据价值密度提升的效率,直接影响到模型输出的指标。数据的清洗需要注意数据价值的判断、数据度量的统一等。
生命数据的汇集:在互联网发达的今天,通过互联网汇集数据是首要的选择,但是需要保障网络传输中的数据安全。对于结构化数据可以通过B/S结构以服务上报的形式汇集,对于非结构化数据可以通过C/S结构采用各种文件传输协议进行数据传输。
生命数据的治理:数据治理是指将零散、混乱的数据进行管控变为有序统一数据的过程。汇集的数据是多元、多类型的,根据不同数据结构特点设计不同的管控方案。对于一些公共数据一般整理为独立文件形式,结构化数据通过数据库来存储和管理,非结构化数据采用文件系统存储和管理,基于大数据的特点一般都采用分布式技术来支持,例如:Hbase、HIVE、HDFS等。除了对数据进行存储和管理外,还需要建立不同数据之间的联系使之聚合,例如建立数据索引、数据标签、数据转化等。
生命数据的挖掘:数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及实时更新等后处理。由于处理的数据量大,算力需求大,通常采用分布式计算来支撑。
生命数据的利用:在群体遗传学研究中,通过大数据处理群体样本的基因数据和表型数据,可以在群体层面上分析遗传的结构、遗传上的特点、遗传与性状的关联等,在遗传基线、进化过程、疾病机制等方面有重要应用。近些年出现了大量的智能辅助诊断系统,通过对大量病例的学习建立临床性状、检测指标与疾病的关系,帮助临床的诊疗。根据公共卫生以防为主、关口前移的思路,对于健康检测数据的大数据应用前景更加光明。
在实际的项目中,生命大数据实施途径可能不尽相同,但是围绕生命数据进行价值密度提升的宗旨是不变的。
四、生命大数据涉及的技术
生命大数据是生命科学和数据科学的交叉领域,涉及遗传学、分子生物学、基因组学、医学、应用数学、统计学、机器学习和计算科学等众多学科领域。近年来部分高校将这一领域独立出来成立了生物信息学,较系统的建立了相关知识体系。大数据具有三大要素即:算力、算法和数据,这里简单围绕生命大数据的这三方面解释相关技术。
1、算力
曾今算力是阻碍大数据发展的重要因素,近些年来随着芯片技术和软件技术的发展,涌现了大量的大数据框架,在批处理、流式数据处理方面建立了很好的应用示范。在硬件方面通常还是使用基于X86体系架构的CPU芯片,在一些特殊的应用场景使用FPGA芯片进行加速,也有人尝试在GPU上进行生物信息分析。随着生命健康产业的不断壮大,相信有一天会出现处理基因数据的定制芯片。关于算力的组织可以分为两个层面,底层的资源管理和上层的资源利用。
这里的资源管理指的是对提供计算和存储服务器的管理。面向应用层将大量的服务器通过集群技术组成一个统一整体,像一台超级计算机一样提供算力和存储的方式称为集群技术。面向物理层将一台物理计算机的线程队列和存储资源划分为多个更小的资源池,每一个资源池由独立的操作系统来管理,形成更小资源颗粒度灵活管理的方式称为虚拟化。通过以上技术对资源进行有效配置,再运用“软件定义资源”的方式将资源转化为服务便是我们经常听到的云计算。在实际场景中运用以上一种或者多种方式对资源进行管理即可,最常见的资源管理框架有OpenStack,很多云服务产品都是基于它定制开发的。
对于资源的利用是与业务场景深度绑定的,根据业务特点统筹计算、存储和网络资源,以达到按时完成计算任务和实现高效的资源利用的目的。在大规模生物信息分析场景,具有资源密集和算法多样性的显著特点,包括I/O密集、计算密集和数据密集。这些业务特点对生物信息计算框架提出了挑战,故当前行业里面大多还是使用简单的网格计算框架来灵活解决。常用的解决方案还是高性能计算(HPC),其中因为共享内存计算的成本偏高,通常采用分布式内存集群方案。在基因数据呈超摩尔速度增长的时候,面向生物信息分析的计算框架迫在眉睫,好在前不久有机构在hadoop的基础上进行了不错的优化尝试。对于新计算框架的开发需要注意以下问题:1、降低计算过程的数据I/O;2、对于计算、存储资源的高效利用;3、完善的容错机制;4、降低分析时长。
2、算法
面对生命大数据的大样本量和片段化数据很自然想到用统计学的方法来处理,NGS数据分析的每个环节参数的把握,每个图表的理解背后都是统计学背景知识。从描述数据到假设检验,再到参数估计都是生物信息算法中重要的理论知识。在生物信息算法开发中针对数据的特点常需要做假设检验、主成分分析、关联分析、回归分析等,过去几十年围绕组学数据利用统计学开发了大量的生物信息工具,较为常用的有BWA、GATK等。机器学习拓展了统计学的范畴,在对大样本量的特征提取和趋势分析时,使用机器学习的方案进行聚类分析、模式分析、预测分析等,近年来机器学习算法在生命大数据上的应用呈上升趋势。不管是统计学还是机器学习,在处理数据时都要对每一个样本进行读写,故形成了资源密集的特点。生命大数据中数据类型多样,有串行的文本数据、矩阵的影像数据等,针对不同数据结构的输入需要设计相应的算法加以处理。有了数学的理论基础将数据模型开发成算法软件就是软件工程的职责了,但是生物信息的开发人员普遍缺乏软件工程的能力,所以现在成体系、高效率的生物信息软件还是不多。
3、数据
生命大数据反映的是生命的某种信号,将生物信号数字化的技术尤为重要,在医学上通常是采用生物化学、电磁影像、光谱色谱等方法,在遗传方面集生化、光谱、影像技术于一体开发了测序技术,最常见的数据化技术还是调研。采集的数据通过互联网进行汇集涉及到互联网的传输协议和数据加密技术。对于大数据存储通常采用分布式存储技术,分布式存储根据存储协议不同分为存储区域网络(SAN)、并行文件存储(NAS)和对象存储(BOS)等,对于存储方案的选择需要结合计算框架进行选型。在实际应用中通常对数据进行分级存储,采用便宜的设备搭建归档存储,采用高性能设备搭建热存储用于数据计算时频繁的读写。在对生命大数据加以利用时,需要关注数据的安全和确权,便将区块链技术应用到了生命大数据中。行业内已经建立了多个联盟链用于数据的共享,公有链用于开拓生物数据服务业务。基因数据直接上链难度较大,所以大多数都是将基因数据操作记录上链。在人人基因组时代,为了保障基因数据价值,区块链技术将大有可为。
五、发展前景
对于生命探索的意义是不言而喻的,人类文明首次站在了从宏观到微观全面认识自身的起点,终将走向生命的全面数字化,将以全新的存在方式颠覆对于生命的定义。随着多组学技术的发展,特别是近期时空组学的技术,奠定了生物学分子层面的理论基础,加上大数据技术、机器学习、计算科学等信息技术的发展,融合BT与IT形成生命大数据发展与应用的技术支撑。二代测序技术带来的生命数据成本红利得以体现,数以ZB级的生命数据源源不断的产生,将催生新的应用场景和模式。有了应用上的价值、有了实施的技术、有了作为生产要素的数据,生命大数据将迎来爆发式的发展。