合成生物学(Synthetic Biology)是近几年来迅速崛起,以应用为导向的新生物学分支,它的发生和发展是基于工程学的概念和理论(包括遗传工程、生化工程、细胞工程、组织工程等)与分子生物学(包括分子遗传学、基因组学、细胞生物学等)、以及生物信息学(系统生物学、生物计算、计算生物学等)学科前沿的最新融合。因此,科学家们乐观地估计合成生物学的黄金时代已经来临[1, 2]。合成生物学起源于生化工程学家和分子生物学家对简单原核和单细胞真核生物“功能元件”——一般指蛋白质(氨基酸聚合物)和RNA(核糖核酸的聚合物)分子及其组合的好奇和使用冲动。在早期的研究中,基因组学和生物信息学家为生化工程师们提供了完整的基因和基因组序列,分子生物学家还帮助他们分析和验证基因的功能,实验生物学家和信息学家则带来了基因-基因相互作用网络和代谢途径等系统信息,遗传学家们参与优选物种,优化复杂体系等。可见,多学科的共进和协作对于合成生物学的发展至关重要,多学科的概念、技术与信息的借鉴、发展和整合成为合成生物学发展的特征和必由之路。
一、 充分认识合成生物学研究的系统性和复杂性生物学系统的复杂性在于其“包罗万象”性,因此与工程学和信息学系统相比要复杂得多。例如,其从无到有(自组装)、从简到繁(部分生物)、随机变演(无目的)、多重系统等。所谓多重系统,就意味着我们必须从生命的构成物质、结构、操作规律和行为等出发,将各个部分作为统一的有机体来看待,将各个系统的作用结果统一评估。比如,我们可以将生物系统分为“操作流”(分别以生命有机物质DNA、RNA和蛋白质为核心的操作规律)、“信息流”(亦即所谓“中心法则”的发生和流变:从DNA序列到RNA序列再到编码信息指导合成的蛋白质之谱系、群体的变演规律)、“平衡流”(物质和能量流动、控制、调控等规律)、“分室流”(包括生命起源、从单细胞生命到多细胞生命之间的变演、细胞和组织的分化、器官的发生和变演等)和“可塑流”(包括表型和行为的可塑性)[3, 4, 5]。在这里,我们要揭示的遗传学实质就是“信息流”的特征,是DNA序列的变化,要实现基因型和表现型的关联,亦即DNA序列与遗传、常见疾病的关系。不过操作流也会参与基因型和表现型的关联,使关联复杂化。合成生物学可以从简单到复杂,从“操作流”出发,认识“平衡流”与“操作流”的关系,从而首先设计以“信息流”和“操作流”为主导的生物学特征(功能)移植。
除了应用传统的分子生物学技术和物种基因组信息外,实现合成生物学未来的基本目标还需要更多的新技术,这些技术的研发应该是系统的、连续的和有效的。这里仅举几个例子。首先是如何在一个底盘基因组里精确植入外源基因的问题。对于任何一个物种的基因组而言,其染色体都有组织框架,原核生物基因组的组织框架相对简单些(如细菌[6]),真核多细胞生物基因组的组织框架不仅多维,而且多元[7]。对于一个物种而言,这个框架的研究是合成生物学研究的基础。此外,如何确定植入位置,如何定向植入,如何评估植入基因的稳定性,都紧紧依赖实验技术的成熟和完善。另一个问题是植入基因表达调控机制研究和表达的精准测定技术。尽管有些现有定量技术可以直接应用,比如基于PCR(DNA聚合酶链式反应)的定量技术,但是其实验噪音、分辨率和规模化都需要改进和开发新的实验步骤(如通过数字PCR来实现规模化)和方法。最后,由于细胞基因表达的异质化现象和外源基因转录本的不稳定性,新研究技术的理想分辨率应是单细胞水平的单分子测定。
合成生物学的发展一定要具备几个基本要素,这里仅列举其中重要的为例。首先是对底盘生物的深入了解,获取包括基因组序列在内的一系列信息,建立一个对应于每一个物种基因组信息的数据库是必不可少的。其次是建立合成生物学的基因元件库,包括来自天然物种的基因元件、人工组建的复合基因元件、适应于不同物种的组件(如不同的类型启动子和基因组元件)、从头合成序列(或基因组)等。第三是建立生物功能测试数据库,一般应该是大数据,包括动力学、特异性、稳定性等元件性能数据。第四是数据的标准化、可共享性和可规模化评估。
二、 合成生物学发展的路线问题鉴于合成生物学发展的系统性和复杂性,合成生物学的发展亟待解决的是路线图问题。尽管美国、英国和中国政府的智库和科研管理部门对此都有所论述,英国提出了具体的计划[8],中美提出了部分计划[9],前者的计划过于单薄,后者过于简单和初级,但一个高瞻远瞩、目的明确、内容翔实、可长期实施的计划(比如10年计划)还未真正出炉。其中有犹豫难决的成分,也有时机未成熟的原因,更有目标模糊的原因。尽管合成生物学已找到自己的时间轴,但是目前的学科积累与其他生物医学分支学科(如癌症研究)相比还有巨大的差距,成熟的实际应用实例并不多[10]。因此,当务之急是找到学科发展的“借力”领域(比如各类“组学”和生物信息学),不断拓宽合作,尽快壮大队伍。科学研究也好,技术开发也好,最重要的是有一个分阶段的长期发展计划,有政府的认同和稳定支持。例如“人类基因组计划”,它的空前成功给科学界乃至全社会留下了无穷的遐想空间①。这里我们不妨充分借鉴一下,利用重大的项目制定和实施来带动一个学科的发展。
具体而言,任何一个学科的发展,都要不断凝练学科发展的前沿和方向,提出相关研究项目和阶段性结果,也就是要制定出学科发展的路线图。从时间轴上,合成生物学的发展至少应该有如下四个层面的可重叠研究活动。
首先是资源的普查、保存和整理,包括物种(种质)资源、(特定物种的)群体遗传资源、相关技术的积累和拓展,人才资源的分类和培养等。我们的各类资源积累目前还非常有限。例如,尽管大肠杆菌的基因组序列在十几年前就已知了,但是我们对其泛基因组(pangenome;物种内各环境下分离株的总体)的了解还是很肤浅的,并没有一个基因组的普世结构框架(染色体不变的部分)、异化特征基因(各分离株特有基因的功能解释)和物种起源、地缘分布等的系统描述,数据库里的两百余个基因组的序列也不都是完整的。显然,目前这些资源积累还远远不能满足大肠杆菌改造和利用所需要的理论依据和宏观指南。与之形成对比的是,“人类基因组计划”的遗传资源是人类遗传图谱,以及与物理图谱的整合,其技术包括DNA测序、大片段基因克隆、序列组装和注释等。这些需求和获取这些信息的步骤和途径其实在1988年就由美国科学院的智库制定好了[11],而这一计划的规模化启动则是十年以后,4年左右就实际完成了,我们不能不说这一计划的实施是非常成功的。
因此,合成生物学如果要成为一个大学科,有大前景,一定需要一个影响深远的大科学计划来铺路。这一计划至少包括两个基本部分:(1)识别所有的底盘物种(至少包括:代表性细菌、真菌、植物细胞、哺乳动物细胞、昆虫细胞等),积累这些物种的遗传资源,测定它们的基因组序列,系统收集各类“组学”数据,建立相应基因功能网络等;(2)建立可共享(公共)合成生物学功能元件库和底盘物种库(包括数据库和实体库)。
第二个层面是数据的不断积累,一般由多个专业项目或多个可完成节点组成。就目前的科学认知水平而言,主要是各类“组学”(包括基因组学、转录组、蛋白质组学、代谢组学等)的数据分析和整理。比如,我们要建立一个系统的人类转录组数据库。目前人类转录组优质数据的缺乏有好多原因:(1)没有可靠获取数据的实验方法;(2)转录组的细胞异质化严重;(3)从受精卵到分化细胞及器官分类复杂;(4)RNA分子大小范围太大(从20-10000bp);(5)RNA二级结构复杂稳定性各异;(6)种类众多、剪切复杂等。可见,要建立转录组数据库不是一件轻而易举的事。目前对“组学”数据的整合分析科学界还没有共识,大家设想多系统生物学(systems biology)可以解决这个问题。目前系统生物学还在探讨生命和各类生物题的特征,还没有达到深度共识,仅仅找到与工程学系统的某些共性,还没有找到生物学系统的特殊性[12, 13]。
第三层面是要凝练合成生物学要解决的生物学问题。例如,“人类基因组计划”以解析人的基因组为目标,最终是要解决癌症的诊断和治疗问题,使医学更精准,也就是走向精准医学。合成生物学在生物医学的应用应该是解决常见疾病的问题,从基础研究到临床研究所遇到的问题,从诊断到治疗所遇到的问题。比如肥胖-糖尿病-代谢综合症、心脑血管疾病、神经退行性疾病、自身免疫疾病等。尽管基因相互作用网络可以通过实验和计算来建立,但是生物学问题往往是复杂的,不是简单的基因型决定表现型的规律,也不是简单地基于蛋白质-蛋白质相互作用的关系,而是一个复杂的多重体系。解决复杂问题的能力,是衡量一个手段或方法解决生物学问题能力的标准。我们不妨将生物学问题分成功能“板块”(或亚系统),比如生殖力、免疫力、激素调节、性别决定、早期发育、生命周期、昼夜-季节节律、休眠等。之所以称这些为板块,是因为这里的每个问题都具有普遍性,同时也具有复杂系统中的亚系统特征。
第四层面是应用的出口或走向问题,或称从实验室到“田间”、“圈里”、“床边”。在医学的应用是将实验室的成果尽快送到病人“床边”,在农业的应用则应该是到农“田间”和“圈里”,工业的应用是直接到工厂或市场。人类基因组学(包括大部分各类“组学”)研究的未来是通过对疾病的重新分类来最终实现精准医学[14]。中国科学家不妨启动以中草药为基础的动植物药学研究,将有药用价值的化合物合成途径及其基因(簇)整体引入成本更低的酵母和细菌底盘生物来实现规模化生产。这里显然就要同时启动对于药用动物和植物基因组的系统研究,尽早突破我国实现中药现代化的关键瓶颈之一。
制定一个可行的科学发展路线图是非常必要的。它首先代表了政府和科学家之间的某种共识,同时也是科学家之间的共识。一旦共识成为规划或计划,各方面就必须共同努力、共同遵守,使其早日实现。比如,自然资源常具有地方或地域特征,可以从地方经济发展出发,从地方特色角度达成共识。因此,可以在国家层面统一协调,有计划、有步骤、有标准地实现各个项目的预期目标,防患于未然,避免执行时的无效竞争和同质竞争等产生的瓶颈效应,通过并行管理来实现多个目标。合成生物学显然就目标而言具有多重性,没有一个既宏观发展方向明确,又有具体可实现项目的路线图是很难实现规模化和社会效益。
三、 合成生物学研究的协同发展为一个正在发展的学科的未来做布局是非常重要的。我们首先要识别这个学科的最重要特征;对合成生物学而言,这个特征就是深入的学科交叉。因此,合成生物学必须具有很强的整合功能,将基因组学、生物信息学和系统生物学的概念和方法不断整合,建立有效的数据集、数据库、数据关联网络等。在宏观层面上,我国目前已经启动了一些机制,比如科学院和教育部的各种“卓越”计划。此外,合成生物学同样需要技术突破,尤其是在分子和细胞水平来规模化地验证理论和数据的预测结果。合成生物学的发展依赖明确和合理的应用领域分工,就底盘而言,要包罗微生物、植物、低等脊椎动物、哺乳动物等。人才团队的布局也很重要,可以形成集群效应,比如以底盘物种为核心的人才聚集。
学科建设中很重要的环节是解决利益争议问题。要界定“大同行”(处于相关领域因权威性而参与)和“小同行”(处于领域内),“小同行”需要给予机会,因为他们大多是直接参与者; “大同行”需要给予话语权,因为他们大多是局外人,而旁观者清。“小同行”的管理一般可通过自由竞争。而利用同行评议这把“双刃剑”,搞末尾淘汰和所谓的引进新“血液”的方式则会有排斥创新思想之嫌。
布局后的有效实施更重要,主要的工作是避免和排除干扰,抵抗目标和原则的弱化。比如,“小圈子”和“各分一杯羹”(大家一起平分经费)的行为会弱化同行评议的价值和意义,弱化竞争和抹煞独立思考精神,也会鼓励目标的碎片化;这种“小家子气”的行为势必会阻碍信息与数据共享等。作为发展中的科学大国,学科布局、科学家行为和思考方式、科学精神的推崇和捍卫等无一不重要,大国的精神、思想、气魄都是在科学行为的不断规范中建立和升华的。
四、 合成生命学发展中的治理尽管生物合成产物和技术的安全性总有些令人担忧的地方,但正确地认识和使用,使其成果对人类社会和自然界都有利,学科和应用前景都将是美好的。随着基因组学数据和知识的与日俱增,人们会逐渐理解到,其实在自然界中,新基因的产生和老基因的变演无时不在、无处不在。基因在物种间的迁徙(虽然比在物种内罕见得多)也时有发生,有的其实本来就是常态。因此,合成生物学实践只是将这些变演过程缩减,更加目的化和常规化而已。 目前,合成生物学已经大步走出其“婴儿期”,走出简单的开关、传感和反馈“器件”设计,走向全基因组计算机模拟、定向生物途径合成和面向市场需求开发可能产品的“青春期”。就其技术而言,已经从单细胞物种的操作走向多细胞物种得操作,是继动、植物人工杂交遗传育种技术后的又一个新的通过基因修饰改变物种生物性状和功能的尝试,其影响之深刻和久远是无法估量的。
同时,深刻认识合成生物学的伦理、法律和社会风险是发展这个学科的必要思考之一。就科学界而言,我们必须未雨绸缪,提前规避敏感词汇所带来的问题。而对于相关概念和理念的引进也要先易后难,逐步推进。就如“转基因”(早就被科学界放弃使用)一词的滥用和概念的非科学界定,成为基因修饰作物(简称GMO,主要是农作物)在中国研究、推广和应用的头号“绊脚石”。造成基因修饰作物在中国所遭受的厄运在全世界来看也是绝对空前的。
由此可见,从合成生物学发展风险的规避上,不仅在于学科自身的建设和约束,还在于多主体参与的治理,尤其是识别各类利益集团的行为取向和利益驱使,避免冲突。风险治理主要包括两个方面:一方面,需要政府不遗余力的支持。科学其实更重要的是建立一个最佳方法和有效的实施过程,公平和认真地评价它的结果,而不是宣传其可能的最终真实,更不是将暂时的真实奉为永恒的真理。另一方面,科学需要考虑发展中的伦理、法律和社会问题。鉴于此,合成生物学应该以非食用物种为开端,比如以工业原料合成为先导,把操作流程和应用时的安全性考虑放在一个重要的位置上。其次,科学家要与大众沟通,普及科学原理和知识,提高社会的总体知识和认知水平,取得大众的认同和支持,使科研成果的应用得到广泛的接收和推广。
[1] | Way JC, Collins JJ, Keasling JD, Silver PA. Integrating biological redesign: where synthetic biology came from and where it needs to go. Cell, 2014, 157: 151-61. DOI: 10.1016/j.cell.2014.02.039. |
[2] | Cameron DE, Bashor CJ, Collins JJ. A brief history of synthetic biology. Nat Rev Microbiol, 2014, 12: 381-90. DOI: 10.1038/nrmicro3239. |
[3] | Yu J. Life on Two Tracks. Genomics Proteomics Bioinf, 2012, 10: 123-126. DOI: 10.1016/j.gpb.2012.06.001. |
[4] | 于军. "人类基因组计划"回顾与展望:从基因组生物学到精准医学. 自然, 2013, 35(5): 326-331. |
[5] | Wu JY, et al. Ribogenomics: the science and knowledge of RNA. Genomics Proteomics Bioinf, 2014, 12: 57-63. DOI: 10.1016/j.gpb.2014.04.002. |
[6] | Yu K, et al. Flexibility and symmetry of prokaryotic genome rearrangement reveal lineage-associated core-gene-defined genome organizational frameworks (cGOFs). mBio in press, 2014. |
[7] | Gibcus JH, Dekker J. The hierarchy of the 3D genome. Mol Cell, 2013, 49: 773-82. DOI: 10.1016/j.molcel.2013.02.011. |
[8] | Technology Strategy Board on behalf of UK Synthetic Biology Roadmap Coordination Group. A synthetic biology roadmap for the UK. 2012, Technology Strategy Board. |
[9] | Committee on Science, Technology, and Law; Policy and Global Affairs; Board on Life Sciences; Division on Earth and Life Sciences; National Academy of Engineering; National Research Council. Strategies for Advancing Synthetic Biology. National Academies Press (US),2013. |
[10] | Paddon C.J., et al. High-level semi-synthetic production of the potent antimalarial artemisinin. Nature, 2013, 496: 528-532. DOI: 10.1038/nature12051. |
[11] | National Research Council, Mapping and sequencing the human genome. NAS Press,1988. |
[12] | Trewavas A. A Brief History of Systems Biology. Plant Cell, 2006, 18: 2420-2430. DOI: 10.1105/tpc.106.042267. |
[13] | Mazzocchi F. Complexity and the reductionism-holism debate in systems biology. WIRS Biol Med, 2012, 4: 413-27. DOI: 10.1002/wsbm.1181. |
[14] | National Research Council, Toward precision medicine: building a knowledge network for biomedical research and new taxonomy of disease. NAS Press,2011. |