第一课:概论
1.1什么是生物信息学?
以核酸、蛋白质等生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩如烟海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识。在大量信息和知识的基础上,探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中重大问题,搞清它们的基本规律和时空联系,建立" 生物学周期表"。
生物信息学研究、开发的主要内容
构成和维持一个生活有机体所必备的基本信息包含于它的基因组之中,由细胞内进行的多种分子生物学反应将这些信息转化为真正的生命现象。基因组的一部分翻译成蛋白和R NA,其它部分调控这些大分子的表达。翻译出来的蛋白及RNA折叠成高度专一的三维结构,在体内的特定位置上实现它的功能。这些过程的大量细节都是在分子生物学研究的实验室里揭示出来的,所形成的大量数据,存储于数据库中。生物信息学试图从这些数据中提取新的生物学信息和知识,是一门深深植根于全面深入的实验事实和数据的理论生物学。它的研究范围十分广泛,大体包括以下方面:基因组序列分析和解释、药物设计、基因多态性分析、基因表达调控、疾病相关基因鉴定、基因产物结构与功能预报、基因进化、基于遗传的流行病学等。
基因组序列的分析
在基因组测序的原始数据发表后,仍有许多信息研究需要开展,比如 注释、同源性分析、基因分类、基因结构分析等,这方面的研究需要建立较优化的数理统计模型,大规模的数据库检索,模式识别和可视化等。
基因进化
根据多种生物的基因组数据及对垂直进化和平行演化的研究,可以对生命至关重要的基因结构及它的调控进行研究,对此需要建立较完整的生物进化模型,用基因组的数据来鉴别出环境因素对其进化的影响。这次研究成果应对生态环境,环境卫生提出指导性影响,对研究生命起源也有科学意义。
药物设计
生物信息学所提供的数据资料,可以指导对药物作用靶位的选定和药物分子的设计。这种方法有快速高效的特点,它的研究包括大分子结构功能的模拟和预报,药物分子与大分子结合的模拟,关键性基因的致病机制,及生物分子同源性的分析,生物分子在指定细胞的分布和位点等。
基因多态性分析
即使一个基因的序列已经确定,它只是有代表性的序列之一。在群体的分布中,仍存在有基因的多态性。由于多态性的存在,生物表型及对环境、外源物和药物的反应即不同。研究基因多态性可以对群体的基因共性及其中的基因个性( SNPs)都有明确的认识。
基于遗传的流行病学研究
流行病学研究是医学信息学的重要课题之一。将流行病学的遗传和非遗传性的研究与分子基因信息结合起来,会导致对疾病的机理、个体对某种疾病的易感性和疾病在群体中的分布有更明确的认识,对疾病的预防和治疗有极大的指导意义。
关键性基因签定
通过基因与生物表型、致病机制和其它生命现象之间的关联,可以发现一些至关重要的基因,结合定向的生物实验,可以确认新的关键性基因。
基因产物功能预报
在确认了基因的基础上,通过与已知的基因产物的结构和功能、代谢途径和其它生物功能对照,可以实现新基因产物功能的预报,结合定向的生物实验,可以证实预报的功能。
完整基因组的比较基因组学
在后基因组时代,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析。有的科学家估计不同人种间基因组的差别仅为 0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。因此其表型差异不仅应从基因、DNA 序列找原因,也应考虑到整个基因组、考虑染色体组织上的差异。
1.2 生物信息学----基因组研究的有力工具
什么是生物信息学?生物信息学(Bioinformatics)是一门新兴的交叉学科。很多人会认为:生物信息学既涉及生物又涉及物理,一定是一个内容十分广泛的学科领域。其实它的内涵十分具体,范围非常明确。生物信息学是伴随基因组研究而产生的,因此它的研究内容就紧随着基因组研究而发展。
广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。
具体地说,生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。
生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子机理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。
基因组信息学、蛋白质的结构计算与模拟以及药物设计,这三者紧密地围绕着遗传信息传递的中心法则,因而必然有机地连接在一起。
为什么基因组研究需要依赖生物信息学呢?首先伴随着基因组研究,相关信息出现了爆炸性增长,迫切需要对海量生物信息进行处理。自1995年科学家破译了全长为180万核苷酸的嗜血流感杆菌基因组以来,到目前已有大约60个微生物和若干真核生物,如:酵母、线虫、果蝇、拟南芥的完整基因组完成测序。至2001年的春天,科学家又公布了人类基因组的绝大部分序列,即:人类基因组的工作草图。这些成就意味着基因组的研究将全面进入信息提取和数据分析的崭新阶段。根据国际数据库的统计,1999年12月DNA碱基数目为30亿,2000年4月DNA碱基数目是60亿,现在这一数目已达140亿,大约每14个月翻一番。同时,电子计算机芯片对于数字处理能力的增长也相当于每18个月翻一番。因此,计算机能够有效地管理和运行海量数据。
但是,更为本质的原因是基因组数据的复杂性。所谓某种生物的基因组就是指该生物所有遗传物质的总和。生物的遗传物质是一类称为脱氧核糖核酸(DNA)的生物大分子,它是由4种核苷酸串接起来组成的,通常用字符A、T、G、C代表。通俗地说,生物的遗传密码就是这4个字符连接起来的线状长链。这种链往往很长,比如:人的遗传密码就含有32亿个字符,将它们堆起来就构成了一部100多万页、每页有3000字符的"天书"。这本"天书"包含了人体的结构和功能以及生命活动过程的大量信息,却仅仅由4个字符组成,既无词法,又无句法,还没有标点符号,看起来每一页都是相似的。如何读懂它是个极大的难题。基因组研究最终是要把生物学问题转化成对数字符号的处理问题。要解决这样的问题就必须发展新的分析理论、方法、技术、工具,就必须依赖计算机的信息处理。
从事生物信息学研究应具备多方面的科学基础。首先,它需要一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统;同时,生物信息学需要强有力的创新算法和软件。没有算法创新,生物信息学就无法获得持续的发展。最后,它要与实验科学,特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主要方法,又是验证生物信息学研究结果的关键手段。因此,从事生物信息学研究的人员也必须具备多学科交叉的知识。
我国生物信息学的研究和应用有一定的基础,因而有望取得突破性成果,这对于增强我国在基础研究领域的实力,在某些方面占据国际领先地位是十分重要的。生物信息学成果的应用也会产生巨大的社会效益和经济效益。
当前主要研究内容
一.获取人和各种生物的完整基因组
基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反应只能读取几百到上千个碱基。也就是说,要得到人的全部遗传密码首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。
但是,我们很容易想象:如果把一本书撕成大小一样的碎片,就再也无法把它们重新正确地拼接起来,这是因为撕的同时丢失了书的上下文联系。这该如何办呢?我们可以取两本一样的书,按照不同的撕法把它们分头打碎。通过不同碎片互相参照,找到相同的单词,就可以部分恢复书的上下文联系。撕的书越多,恢复的上下文联系也越多。因此要获得人的整套遗传密码就不能把人的32亿碱基只测一遍,往往要测很多遍。比如,今年初在《自然》、《科学》两杂志上公布的人类基因组工作草图报道,它含有约29亿碱基,其物理图谱覆盖率为96%,序列覆盖率为94%。有大于90%的连续序列群已大于10万碱基;有约25%的连续序列群已等于或大于千万碱基。在这些序列中发现了3-4万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和组装。
在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙,到重复序列标识、读框预测和基因标注,每一步都是紧密依赖生物信息学的软件和数据库的。其中,序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。
有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占1.1%;外显子与外显子之间的区域(称为内含子)占了24%;而基因与基因之间的间隔序列却占了75%,也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。
二.发现新基因和新的单核苷酸多态性
发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如:啤酒酵母完整基因组所包含的约6000个基因,大约60%是通过信息分析得到的。
(1)基因的电脑克隆 利用EST数据库发现新基因也被称为基因的电脑克隆。EST序列是基因表达的短cDNA序列,它们携带着完整基因的某些片段的信息。到2001年10月,GenBank的EST数据库中人类EST序列已超过380万条,它大约覆盖了人类基因的90%以上。
我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单,就是找到属于同一基因的所有EST片段,再把它们连接起来。由于EST序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST连起来,直到发现了它们的全长,这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过,那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的,计算量是巨大的。
(2)从基因组DNA序列中预测新基因 从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新的基因了。
发现了新基因就会使我们对生命活动的认识加深一步。据1999年12月2日《自然》杂志,人的第22号染色体数据已鉴定出679个基因,其中55%的基因是未知的。有35种疾病与该染色体突变相关,像免疫系统疾病、先天性心脏病和精神分裂症。但是,要将人类的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中,依然是一个十分重要、十分艰巨的任务。国际人类基因组协作组正着手建立完整的"整合基因索引"及与之相关的"整合蛋白索引"。
(3)发现单核苷酸多态(SNP) 有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。
现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP在基因组中分布相当广泛,近来的研究表明在人类基因组中每300碱基对就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP在基础研究中也发挥了巨大的作用,近年来对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
三.基因组中非编码蛋白质
区域的结构与功能研究
近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%到20%。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。
对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),最新资料说明这部分序列只占基因组的1.1%。仅占人类基因组1.1%的编码区的相关研究已经缔造了数十名诺贝尔奖获得者,98%非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。
四.在基因组水平研究生物进化
近几年来,随着基因组序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。首先发现同一种群基于不同分子序列所重构出的进化树可能不同。同时,对"垂直进化"和"水平演化"之间关系的讨论正逐渐引起人们的重视。也就是近年来发现了基因的"横向迁移现象"。即:基因可以在同时存在的种群间迁移,其结果虽可导致序列差异,但这种差异与进化无关。甚至,对人类基因组的分析发现,有几十个人的基因只与细菌基因相似,而在果蝇、线虫中都不存在。如果以人的这些基因序列来研究进化将会得到荒谬的结论。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。特别是:在分子进化分析中,"相似性"和"同源性"是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。
五.完整基因组的比较研究
在后基因组时代,完整基因组数据越来越多,有了这些资料人们就能对若干重大生物学问题进行分析研究,如:生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物体至少需要多少基因?这些基因是如何使生物体活起来的?等等。这些重大的问题只有在基因组水平上才能回答。举例来说,鼠和人的基因组大小相似,都含有约30亿碱基对,基因的数目也类似,且大部同源。可是鼠和人差异却如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别仅为0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。因此,这种差异不仅应从基因、DNA序列找原因,也应考虑到整个基因组、考虑染色体组织上的差异。这一工作开创了比较基因组学。
科学家们发现:全部基因可以按照功能和系统发生分为若干类,其中包括与复制、转录、翻译、分子伴娘、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。同时,科学家们通过几个完整基因组的比较,统计出维持生命活动所需要的最少基因的个数为250个左右。同样,当我们比较鼠和人的基因组就会发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1号染色体上的基因已分布到人的1、2、5、6、8、13、18号7个染色体上了。研究表明在同一界中,某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。
我国从1998年开始就开展了微生物完整基因组的大规模测序和分析工作。现在正进行和已完成的有:我国自行鉴定的Thermotogales科的高温真细菌、泉生热袍菌;福氏痢疾杆菌;钩端螺旋体出血黄疸型赖株;表皮葡萄球菌;菊花黄单胞菌。我国科学家在完成人类基因组的1%测序工作的同时,最近又完成了具有4.3亿碱基对的水稻基因组的"工作草图"。这些数据将为我国在这一领域的研究提供最直接的素材。
六.从功能基因组到系统生物学
在不同的组织中表达基因的数目差别是很大的,脑中基因表达的数目最多,约有3-4万个转录子,有的组织中只有几十或几百个基因表达。同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。
为了得到基因的表达谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的基因芯片(或称DNA芯片)技术和在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质组技术。由于芯片上样品点的密度很大,可以达到每片几十万,因此表达谱数据挖掘和知识发现就成了该研究成功与否的关键。无论是生物芯片还是蛋白质组技术的发展,都更强烈地依赖于生物信息学的理论、技术与数据库。下一步,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。
七.蛋白质结构模拟与药物设计
蛋白的空间结构模拟和药物设计已有二三十年的历史。随着人类基因组研究的飞速发展,这一领域面临着新的态势,即:找到人类3-4万个基因的碱基序列是指日可待的事,因而确定它们表达产物的氨基酸顺序也会逐渐实现,此时预测这些蛋白的空间结构,进而实现针对性的药物设计,就成了迫在眉睫的任务。这也是大规模的计算问题。
八.生物信息学的应用与发展研究
生物信息学的研究结果不仅具有重要的理论价值,也可直接应用到工农业生产和医疗实践当中去。因此,生物信息学相关的分析与应用算法、软件和数据库,都具有重要的经济价值,最终都会形成商品,提供经济和社会效益。
(1)疾病相关的基因信息及相关算法和软件开发
很多疾病与基因突变或基因多态有关,有人估计与癌症相关的原癌基因约有1000个,抑癌基因约有100个。约有6000种以上的人类疾患与各种人类基因的变化相关联。更多的疾病是环境(包括致病微生物)与人类基因(基因产物)相互作用的结果。随着人类基因组计划的深入,当我们知道了人类全部基因在染色体上的位置、它们的序列特征(包括SNPs)以及它们表达规律和产物(RNA和蛋白质)特征以后,人们就可以有效地判定各种疾患的分子机制,进而发展合适的诊断和治疗手段。为此,有两项生物信息学工作是重要的:一是构建与疾病相关的人类基因信息数据库(包括SNP数据库),二是发展有效地分析基因分型数据的生物信息学算法,特别是将SNP数据与疾病和致病因素相关的计算方法。
(2)建立与动、植物良种繁育相关的基因组数据库,发展分子标记辅助育种技术根据不同物种间的进化距离和功能基因的同源性,可以比较容易地找到各种家畜、经济作物与其经济效益相关的基因,并进一步认识它们发育、生长和抗逆的各种途径和机制。在此基础上,利用相关的基因组分子标记,可以加快育种的速度,对它们按照人们的愿望加以改造。
(3)研究与发展药物设计软件和基于生物信息的分子生物学技术
人类基因组信息为药物发展提供了新的候选分子和新的候选药靶基因。同时,分子生物学常用的表达载体、PCR和杂交引物以及各种试剂盒(包括DNA芯片)的设计必须依赖于核酸的序列信息。基因组信息学提供的大量信息为这类技术的发展提供了广阔的天地。
最近两、三年来,美国一些最著名的大学,如哈佛大学、普林斯顿大学、斯坦福大学、伯克利加州大学等都投资几千万到一亿多美元成立了生物学、物理学、数学等学科交叉的新中心,诺贝尔奖获得者朱棣文领导的斯坦福大学的中心还命名为Bio-X。1999年6月3日,美国NIH的一个顾问小组建议在生物计算领域设立总额为数亿美元的重大科研基金,并成立5到20个计算中心以处理海量的基因组相关信息。
生物信息学的发展,不仅导致生物学、物理学、数学、计算机科学等多种科学文化的融合,也必将造就一批新的从事交叉学科研究的科学工作者。科学家们普遍相信本世纪最初的若干年是人类基因组研究取得辉煌成果的时代,也是它创造巨大的经济效益和社会效益的时代。让我们作为见证人欣赏生物信息学的蓬勃发展吧!
1.3 人类基因组测序完成之后-生物信息学的科学目标
生物信息学是当前生物学领域的研究热点,预计在未来的若干年它将变得越来越重要、越来越引起人们的重视。
近期任务
由于未来几年蛋白质和核酸的测序数据将以指数方式增加,近期生物信息学将在以下几方面迅速发展:
大规模基因组测序中的信息分析
大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设讨和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。
新基因和新SNPs(单核苷酸多态性)的发现与鉴定
人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含的6千多个基因,大约60%是通过信息分析得到的。
当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。"这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps的研究。在我国开展中华民族SNPs研究也是至关重要的。
完整基因组的比较研究
现在,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析,比如:研究生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?比如,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间因组的差别仅为0.1%;人猿间差别约为I%。但他们表型间的差异十分显著。因此其表型差异不仅应从基因、DNA序列找原因,也应考虑到整个研究组、考虑染色体组织上的差异。总之,这些例子说明由完整基因组研究所导致的比较基因组学必将为基因组研究开辟新的领域。
大规模基因功能表达谱的分析
随着人类基因组测序逐渐接。近完成、一些学者就提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?于是他们提出了一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的;基因敲出(knock-out)或基因过度表达的影响是什么;多基因的表现型如何,等。概括这些问题,其实质应该是:我们虽然知道了基因,知道了核酸序列,但我们不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。
为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的DNA芯片技术和在蛋白质层次上的二维凝胶电泳和测序质谱技术,也称蛋白质组技术。
生物大分子的结构模拟与药物设计
随着人类基因组计划的执行,估计几年之内就可找到人类的8万到10万个基因,也就是发现它们的一级序列。然而要了解他们的功能、要找到这些蛋白质功能的分子基础,必须进一步知道它们的三维结构。与此同时,要设计药物也需要了解相应的蛋白质受体的三维结构。这是摆在科学家面前的紧迫任务。
远期任务
生物信息学的远期任务是读懂人类基因组,发现人类遗传语言的根本规律。从而阐u若干生物学中的重大自然哲学问题,像生命的起源与进化等。这一研究的关键和核心是了解非编码区。
非编码区信息结构分析
近年来完整基因组的研究表明,在细菌这样的微生物中非编码区只占整个基因组序列的10%到 20%。而高等生物和人的基因组中非编码区都占到基因组序列的绝大部分。从生物进化的观点看来,随着生物体功能的完善和复杂化非编码区序列明显增加的趋势表明:这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。因此寻找这些区域的编码特征以及信息调节与表达规律是未来相当长时间内的热点课题。
对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),很多资料说u这部分序列只占基因组的3%到5%,也就是说,人类基因组中多达 95%到97%是非编码区。如何深人了解这些非编码区序列的功能是当前科学家们面临的一个真正的挑战。
遗传密码起源和生物进化的研究
自1859年Darwin的物种起源发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。近年来,随着序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。不少的研究结果并不支持分子钟的假设。因为基于某一种分子序列所重构出的进化树,只能反映这种序列的系统发育关系,并不一定能代表物种之间真正的进化关系,即可能存在着基因树与物种树之间的差异。同时,对垂直进化和水平演化之间关系的讨论正逐渐引起人们的重视。当前的资料给了我们。一个更为复杂也更为丰满的进化模式,它启示我们要彻底了解进化的规律必须使用整个基因组的信息。相应地必须发展新的理论方法。
总之,当前是生物信息学研究的一个有活力的新时代。不少科学家还说它是人类基因组研究的收获时代,它不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长,这是一个难得的机会,我国应尽早利用这些数据就可能走在国际科学界的最前沿。
第二课 生物信息学展望
2.1 生物信息学:促动BT与IT双赢
无论是与结构基因组学对应的"基因时代",还是与功能基因组学、蛋白质组学相应的"后基因时代";无论你称呼21世纪是"信息时代"、"后信息时代",还是"生物时代",所有这一切,都将BT(生物技术)与IT(信息技术)紧密结合起来。而这其中,无疑"生物信息学"占据了天时地利、出尽了风头,虽然它自身及其相关产业蕴涵无限商机,但相对官方,民间资本的介入有待进一步引发。
随着现代科技的发展,生物技术与信息技术的融合成为大势所趋。人类基因组计划及生物信息研究过程中产生的海量数据,需要大容量、高性能、超级计算机的支持。从序列拼接到基因预测,从蛋白结构预测到功能基因的分析,都离不开高性能服务器的支持。
可以预见,超级电脑的高度运算能力将在生命科学、商品开发及企业整合上扮演越来越重要的角色。那些IT巨子们又有了新的"摇钱树"。
我国生物信息学科研后来居上
继提前完成HGP(人类基因组计划)"中国卷"之后,中国科学院、国家计委、科技部"10月12日在京联合宣布,我国科学家克服重重困难,率先在世界上完成了水稻基因组的"工作框架图"和数据库。专家认为,水稻遗传密码的破译,不仅是我国生命科学领域的又一重大突破,也是我国科学家为人类做出的一项重大贡献和基因研究史上的一件大事。
"这一成果由我国科学家独立完成,其意义非比寻常。它标志着我国已经成为继美国之后第二个具有独立完成大规模基因组测序和组装分析能力的国家。"中国科学院基因组生物信息学中心主任杨焕明教授说。
目前世界上已有三个水稻基因组计划。以日本为首包括11个国家和地区科学家参与的"国际水稻基因组协作组"于1997年正式成立,但因种种原因进展不尽如人意。但一些私营基因公司却在此领域后来居上,2000年2月和4月,美国和瑞士的两家私营公司分别宣布完成了他们的水稻基因组"工作框架图",但他们却不肯公布数据,也不在学术刊物上发表文章,外界对此颇多猜测。
据悉,虽然面临经费短缺等困难,但是我国科学家表示,如果经费及时到位的话,水稻基因组的"完成图"将按计划于明年春节前绘制完成,从而使我国成为世界上第一个完成水稻全基因组序列图的国家。
据悉,作为中国超级杂交水稻基因组计划的主要承担单位之一,中科院人类基因组生物信息学中心暨华大基因中心在1999年申请加入人类基因组计划时,被人类基因组计划协作组以"北京中心"命名,成为"生命登月"计划的16个中心之一。目前,"华大基因"已经成为世界级的生物信息学基地。
与Sun联姻华大"如虎添翼"
由美国Sun(太阳微系统)公司和中科院基因组生物信息学中心暨北京华大基因研究中心联合创办的生物信息学中心10月12日在京宣告成立。这不仅标志着太阳微系统公司这一国际信息产业巨头对我国基因组和生物信息研究的全力支持,更标志着我国基因组与生物信息研究水平迈入国际一流行列。据悉,这是我国首次和国际信息产业巨头在生物信息学领域进行合作。
随着3台Sun服务器的加盟,"华大基因"使用的包括"曙光"在内的主流服务器已经达到7台,成为国内计算实力最强的研究机构之一。据悉,中心挂牌后,SUN公司不仅将提供部分经费予以支持,还将在高性能计算、网络计算和生物信息等方面提供技术支持。
作为国内实力最强大的基因组与生物信息研究机构,北京华大基因研究中心自1999年7月成立伊始,就致力于基因组和生物信息的研究,到今年8月,在国家的大力支持下,和兄弟单位一起出色地绘制出人类基因组"中国卷"。
此外,中心还积极拓展国际合作,在同一舞台上和国际科技界进行平等合作。2000年5月,在提前完成国际人类基因组计划1%项目的"工作框架图"后,华大基因与丹麦农业部共同开展家猪基因组的研究;今年8月,又与美国最大的基因组研究中心结成了姐妹中心。
随着"华人基因"各项研究的逐步开展,高性能计算能力的缺乏,成为其所面临的主要制约因素之一。Sun与华大基因的联姻将推动我国生物信息产业的发展,产生积极而深远的影响。
Sun与康柏 双雄逐鹿
实际上早在两个月以前,Sun即宣布北京基因组研究中心(BGI)与德拉威生技研究中心(DBI)获选成为Sun Centers of Excellence(COE)。此两个研究中心因其在运算生物学的领导地位,及结合其他机构共同开发生物科技的潜力而获选为Sun COE。DBI所以获选成为高性能运算生物学领域的Sun COE,来自于先进的蛋白质结构、生物路径模拟、电脑侦测序列重复与SNP、以及整体基因组的比较。未来,两个研究中心将正式加入Sun的学术研究机构社群,开发先进技术以从事突破性的研发工作。除了BGI和DBI以外,Sun日前亦已完成在维吉尼亚生技研究中心和威斯康辛麦迪逊大学设立运算生物学COE。
BGI在中国大陆上,已研究基因学和生技中心著称,该中心在基因学、替代接合演算法、以及蛋白质体学方面的先进研究促使其能够获选成为Sun COE。目前,BGI团队成员超过500人,其中200位生物信息学家将藉由两台Sun Enterprise 10000超级电脑,在北京与杭州进行稻米与猪类基因的研究。
同样,不久之前,康柏电脑也与台湾中央研究院签署合作备忘录,拟集结双方专业经验倾力推动台湾未来生物科技产业之发展,期望继最近20年使台湾活跃于世界舞台的资讯产业后,再度争取台湾在全球生技价值网络中的一席之地,这次与中央研究院的合作,使双方共同成功的加入了Celera Genomics、英国的Sanger Center、麻塞诸塞州的Whitehead Institute、法国的Genoscope及其他许多国际顶尖机构的行列。
日后康柏电脑与中研院是藉由学术交流、创投、策略联盟或是其他模式合作,双方的终极目标便是建立台湾在生物科技所需之基础架构。康柏电脑除了提供台湾的生物科技产业生物资讯学方面的资源之外,还将结合最先进的系统工程专家并且整合过去累积的资源,全力支援研发生物信息学中基因科技所需的高效能运算需求。此外更会积极与国内其他资讯管理和生物科技研究机构策略联盟,提升台湾在此新兴产业中的竞争力。
专利获取风投垂青
虽然官方与民间,科学家与社会学家有关生物信息知识产权存在巨大分析,但无疑专利的实施更能吸引资本的眼球,反过来也促进了生物信息相关产业的发展。在美国便是如此。
因为生物信息学是科学和技术革新的边缘学科。一家生物信息学企业的产品可能是与企业筹备时的原始计划中相差很大或不足所期望的。为了保护可能产生的任何一个和所有产品的所有入的利益,公司需要有全面的和严密的工艺、知识产权。
例如,专利直接保护特殊的基因序列,投机企业收集和分析数据的过程也可以包括在风险投资搭配中。生物信息学是一个持续发展的新领域,这些被保护的过程也可以作为企业的产出。知识产权必须保持先进性,万一有闪失,知识产权会受到侵犯。虽然筹备企业会考虑尽量少的知识产权保护成本,但经验表明筹备企业的知识产权的投入需要经常比基本资产的要多。
为了选择好的投资企业,筹备中的生物信息学企业要把注意力集中在那些生物技术风险投资机构。从这些机构中,来选择那些投资公司会提供理想水平的资金投入,优秀的投资经验和行业联系。对筹备者来说,需要决定潜在企业的投资标准,还有在换得资金后将运行的企业在多大程度上控制它。另一个缩小潜在企业的范围的因素可以称之为支持服务,如媒介,公共关系和广告联系。
最后,生物信息学企业不要为了确保风险投资基金而被那种令人畏缩,快速的竞争性的融资竞赛而灰心丧气。作为互联网企业的后继者和下一波更大的商业进展的预兆,生物技术投资企业期望奸的生物信息学投资机会,他们也愿意改变他们的原则来适应它。
国家筹建"生物信息系统国家研究中心"
据悉,生物信息研究一直是国家计委密切关注和重点支持的重要领域。对中国科学院今后在生物信息学领域的有关研究和科研基础设施建设,国家计委将继续予以支持,并和有关部门一起,共同推进我国生物信息技术的进一步发展,加速产业化。
国家发展计划委员会副主任姜伟新日前介绍,我国将在中国科学院建设"生物信息系统国家研究中心",形成有国际竞争能力的基因组学、蛋白质组学和生物信息学的整体技术平台。
21世纪是生命科学大发展的时代。以人类基因组计划为序幕的生物信息学研究,是全面认识生命及其过程的重要手段。由此引发的生物信息革命,将从根本上改变生命科学和生物产业的思维方式和研究体系,成为新世纪国际竞争成败的关键之一。
2.2 生物信息学寻求蜕变(上)
对生物信息学而言,改头换面的时代到了。
自20世纪70年代末罗门(Norman)和雷.爱迪生(Leigh Andrson)开始讨论蛋白质指数,生命科学与信息技术就进入碰撞阶段了。
90年代人类基因组计划实现,不仅提及由基因编码的众多蛋白质,还征服了成千上万的单一核苷多态现象(SNPS),继之而来的连锁反应是生物工艺学进入信息科学,触发了新数据开发的蓬勃发展,这些变化远在任何一位科学家或一个科学家组的领悟能力之外,而蛋白组学革命揭示的生物学难题则远比想象中复杂,生物信息学成为后基因纪元的中心主题。
但是生物信息学并没有造就很多的百万富翁。尽管大肆宣传,在生物信息领域仍鲜有成功故事,对大多数公司而言能否获利捉摸不定,在艰难的经济环境下,要保证继续投资日益艰难。
寻找合适的商业模式
一些公司期待继续赢利,但大部分仍在探索新的获利商业模式,一些则寻求联营的方式。其间来自IT行业的竞争者蜂拥而至,公共或私人的投资者不计其数,他们相信,不久后该领域将成为最炙手可热的市场。所有这些现象都使我们难以将生物信息业简单定义为商业,但唯一确定的是,生物信息业并非昙花一现。
"现在市场上只有两类公司比基因组学公司糟糕:药物研发公司和生物信息公司,后者则更糟糕。"MPM资产公司(MPM Capital)的合伙人、MPM生物资产基金(MPM BioEquities Fund)主管库特(Kurt von Emster)有如此评价。虽然计算机应用生物学已融入药物研发过程,但大多数生物信息公司采用的商业模式却不能带来效益。
选择商业模式的技巧使生物信息公司在资金方面存在重大缺陷,InterWest Partners资深合伙人基斯(Chris Ehrlich)认为,能够证明这些公司有能力产生利润的实例不多。2001年9月由斯坦福大学医学院(Stanford University‘s School of Medicine)和美国伯克利卫生学校(U.C. Berkeley‘s School of Public Health)共同主办的数字时代2001年首脑会议上,基斯再次指出生物信息产业目前存在的核心问题:在生物信息竞技场,许多早期弄潮儿都采用有缺陷的商业模型。直到现在,大多数经营观念仍局限于出售软件和咨询服务器,在IT行业,这样的公司被称为独立软件开发商或ISVS。
对大部分生物信息公司来说,潜在的收入模式仍不可预知,所以缺乏一个衡量增加收入要素的尺度。甲骨文公司(Oracle Corp)指出:"如果向500强公司出售企业软件,这些模式切实可行。但当少量生物制药公司进入目标市场,市场方向就受到冲击。软件可使营业收入升级,但不是必要条件,相反附加的咨询服务器比软件更有利可图,却很少被升级。"
部分第一代生物信息公司在企业软件的发展史上谱写了不同的篇章,他们以应用服务器供应商或ASPS登场,通过因特网提供生物数据库和软件工具的使用权限。但无论从公开业绩或是通过私下交流获知,他们的顾客对其努力无动于衷,感兴趣者并不多。
但市场毕竟在逐渐成熟,狮王生物科学公司(Lion Bioscience AG,下称狮王生物,相关报道见本刊2001年9月总第8期"恐怖袭击对业界造成影响")和库华根公司(CuraGen)放弃了旧有模式,将加入发明和检测家庭用药阵地作为他们的核心生物信息商业策略,这将有望和合作者共同生产有开发前景的药物,技术使用费将成为他们的经济增长点。而且,风险资本家乐意采用这种模式。
然而生物信息虽然有市场需求,且利用生物信息软件有利可图,但在某程度上消费者群有限,进入这个领域的障碍也较少。据推算,目前约有100多家私人生物信息公司,但生物信息公司的概念很广,除了一些混合IT公司,还有很多医药企业在IT领域努力,所以不能明确公开交易的企业数目。在资金和人才均有限的领域,生物信息业没有燃起投资者热情不足为怪。
投资人的考虑
投资者不能真正理解生物信息。一定程度上,大部分投资者甚至对生物信息一无所知。投资者不清楚生物制药公司在做些什么,就不可能意识到生物信息公司为生物制药公司提供的便利。而为数不多对其一知半解的投资者,则对基因背后蕴藏的商业价值和利润更感兴趣,而非那些把基因信息转化成药物靶点或治疗产品的运算法则。当然,让生物信息公司去讲述他们的故事,也是勉为其难,因为生物信息公司并没有拿得出手的收益证明,经过因特网泡沫,心有余悸的投资者不再愿意进行烧钱式的冒险投资。
生物信息公司本身的技术缺陷也成为投资者的担心之一。尽管技术总不断向前发展,但很多制药公司仍对此感到不安:从公共数据库获得的数据质量难以肯定,收集的生化数据是否百分之百正确让人怀疑,即使最先进的技术偶尔也有出错的时候。因而华尔街对生物信息公司的态度是前所未有的强烈反对,生物信息公司将面临一场非常吃力的战斗。因此,一些公司,像殷富玛公司(InforMax)、基因组学公司(Genomica)等在帐面下交易。
然而,华尔街的态度并非金标准。即使最多疑的投资者也意识到企业对生物信息解决方案的渴求,因为没有别的途径能把已被承认的基因组学和蛋白质组学转化为实实在在的产品。而生物信息公司目前急需要做的,是再构思商业策略和制定新的收益方案。
收购是一个有效的模式,例如今年七月默克公司(Merck)收购比菲斯达公司(Bethesda);另一个有效模式是前期联合,如狮王生物;还有像计算基因公司(Compugen)等带着自己的药物靶点开发计划,走向艰难的实验室工作。向着药物靶点进军无可厚非,要吸引投资者注意,需要进行更多的交易,但目前已签定的交易很少,且已正式签定的交易也几乎没有任何类型的下游合作或商业化成果。
然而也有一些令人鼓舞的交易,如2000年8月殷富玛公司和阿默山生物科学公司(Amersham)的交易,本质上是一桩基于软件和服务器的交易,目的在于发展一个获得生物信息的企业系统。2000年12月三浪技术公司(Third Wave Technologies)和BML公司(BML Inc)上演了一个更有意义的联盟故事,三浪技术公司以麦迪逊(Madison, WI)VVI为基地,利用其软件和分析系统,模拟BML即将在日本市场进行的临床对照实验,同时,三浪技术公司保留其在世界范围内寻求其他商业合作伙伴的权利。
2.3 生物信息学寻求蜕变(下)
要做万兽之王
狮王生物于1997年由波伦(Fridrich von Bohlen)和一个来自欧洲分子生物实验室和海德尔堡的科学家小组组建。目前狮王生物在海德尔堡总部的员工超过450人,并在美国和英国设有分公司。然后最实质性的变化在于,狮王生物已从一个收取服务费的基因组学研究公司成长为一个全方位服务的生物信息解决方案供应商,并拥有自己的家庭用药开发计划。
"我们不仅仅试图成为又一个信息公司,"狮王美国分公司CEO卢迪(Rudy Potenzone)表示,"对我们来说,这取决于客户如何利用这些信息。"狮王生物提供信息解决方案,帮助生物技术公司快速有效地从大量原始资料中分析生物学、化学、制药学、毒理学和医学等数据,并提供数据综合平台和数据采集工具,帮助研究人员通过单一界面从400多家固有的和公共数据库获得不同类型的信息。狮王生物已和世界一些领先的制药公司建立合作关系,包括葛兰素史克公司(GlaxoSmithKline)、默克公司、诺华公司(Novartis AG)等。但真正奠定狮王生物在生物信息市场的领导地位的却是和拜耳的联盟。
狮王生物和拜耳(Bayer)的联盟始于1999年,当时的交易额达4,900 万美元,旨在为拜耳的制药和农业业务发展一个功能全面的生物信息工具。随之而来的还有2000年10月的一笔姊妹交易:拜耳、狮王生物和卓普斯公司(Tripos)三方达成了价值2,150万美元的合作协议,主要利用卓普斯公司的附加程序来综合其他信息工具,使其成为一个全面的生物信息系统。交易没有排他性,狮王生物和卓普斯公司有权向拜耳以外的公司出售已生产的产品。
但是,狮王生物看中并不止信息产品,所以在这次交易中竭尽三分之一的资源投入到一种药物的开发项目,包括从基本数据详审到临床前期建模的所有细节。目前药物开发项目仍在萌芽阶段,狮王生物也未出售任何药物靶点,但预计一年后会有出售计划,现时狮王生物正计划为所有与药物靶点相关的研究内容申请专利。狮王生物投入药物开发,同样可以推进其软件产品的销售。这个协同作用很重要,因为狮王生物相信通过业务的分割,可以扶持一些没有能力独自成长的业务。虽然狮王生物目前没有计划发展成一个完全的生物制药公司,但任何事情都有可能发生。
与其他生物信息公司面临的困境一样,狮王生物仍然危机重重,特别是来自潜在消费者的挑战,因为大型制药公司拥有自己的生物信息成果,通常情况下他们会认为自己有能力做到生物信息公司提供的服务。虽然与拜耳的合作扫除了一些阻力,但是狮王生物仍然希望能与其他大型企业展开更多的合作,以便完全消除障碍。
拉拢潜在对手
IBM在宾夕法尼亚州约克镇有一个计算机生物研究中心。2000年7月IBM建立了一个专门的生命科学分部。IBM生命科学业务发展部董事安娜·德罗特(Anne-Marie Derouault)强调,建立新的分部目的在于为生物和制药企业提供焦点项目。对今天的IBM而言,背靠无线通讯和电子商业,定位生命科学才能带来最重要的发展机会。
为此,IBM还找了Frost & Sullivan公司帮忙做调查报告。报告显示2000年美国的生命科学市场约为220亿美元,预计2004年将超过400亿美元,增长势头主要由生物技术本身的发展所点燃,而蛋白质组学继基因组学后又一个发展重点,且远比基因组研究复杂。没有有力而尖端的信息工具,成功只能是梦想。只有真正聚合IT和生命科学,才能创造机会。
IBM是唯一的软硬件和服务器解决方案供应商,提供的主要软件工具是发明链结(DiscoveryLink),一个类似于狮王生物的SRS计划(SRS program)的综合数据产品。IBM立志成为生命科学产业领先的IT供应商。其它的IT公司,如Sun 微系统、甲骨文公司同样关注生物信息领域,正在向市场供应各自的生物信息产品。为创造一个强大的联盟群体,寻找一个专业的合作伙伴尤为重要。
2001年11月28日狮王生物宣布和IBM正式展开合作,两个公司将提供全面的包括从数据库到软件、硬件和服务器的生物信息方案。交易双方都认可彼此的弱点,并运用彼此的强项。交易的具体财务方面的谈判条件尚未公开,但IBM宣称将提供软件和硬件给狮王生物,狮王生物则把自己的软件与IMB提供的设备结合,并确保使其成为专门针对IBM软件平台的最优化工具。卢迪强调狮王生物有权寻求同类的IT公司合作。
今年4月,日立(Hitachi)和甲骨文公司(Oracle)、多基因公司(Myriad)公司、Friedli(Friedli Corporate Finance)结成联盟,共同投资1.85亿美元,计划于2004年前画出人类蛋白质草图,日立为该计划提供大部分软件。
附注:日立生命科学(Hitachi Life Science)成立于1999年,供应各种研究服务器--从DNA序列到基因分析和蛋白质结构模拟SNP开发,并供应系统的综合性服务器。日立还与双螺旋公司(Double Twist)合作,利用其数据库和附加软件弥补自身的不足。IBM寻求为其生命科学开发一个焦点项目,日立则希望发展一个拥有科学家和工程师的商业单元。日立的业务聚焦于药物开发和检测,目前正为日本药业做相关研究。并与Ajinomoto 公司、Ono制药公司 、Taisho制药公司、Yamanouchi制药公司等有合作。
药物开发是否未来之路?
当IT巨头努力进军生物信息市场时,一些公司则试图挣脱出是非之地。塞雷拉公司(Celera)就证明了搏击生物信息领域的艰难。作为从生物信息转变为药物开发的首家公司,成立之初塞雷拉公司即成了生物信息技术的导航生产者,它供应数据库订阅和大批的生物信息服务器。但是,现在几乎没有人会认为塞雷拉公司是一个生物信息公司。其业务发展部副主席罗法(lothar Krinke)更将塞雷拉公司圈定为一个治疗领域公司,并坦言其网上信息服务和数据库提供仅仅是商业策略的一个次要部分,主要策略仍是寻找和研发疾病特效治疗药或方法。
双螺旋公司(DoubleTwist)已与日立公司展开合作,其独特之处在于保持单纯的核心商业模式,即向生产治疗产品的企业供应数据和工具。双螺旋公司主席兼COO罗伯特·威廉逊(Robert Williamson)认为,"其他竞争对手都把商业模式转变为药物开发,本质上其实是采用了客户的商业模式,我们没有计划和客户制造潜在冲突。"相反,双螺旋公司提供基因数据库和生物信息软件,作为药物开发和其他生命科学的应用软件。并已发展为一个专利技术平台,以处理、综合和解译大量源于不同的原始资料的生物学数据,该套软件包括高输出数据处理发动机、开放的数据库体系、数据采集软件和数据显像工具,还通过传统的ASP模式在网上提供上述工具,给药物开发产业提供基因数据库和生物信息工具。
生物信息是否真的正如一些预言家所说的,象一个魔盒,放进去数据,能变出新药?也有人认为,最终开发新药的仍然是科学家。综观全局,今天的生物信息市场机遇大于挑战,尽管只是生物技术产业中的一个极小部分,但也不容小看。
第三课 生物信息学术语简介
BLAST:Basic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。
Entrez:美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。
NCBI:美国国立生物技术信息中心(National Center for Biotechnology Information),1988年设立,为美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank数据库,PubMed医学文献检索数据库等。
Conserved sequence:保守序列。演化过程中基本上不变的DNA中的碱基序列或蛋白质中的氨基酸序列。
Domain:功能域。蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。
EBI:欧洲生物信息学研究所(European Bioinformatics Institute)。
EMBL:欧洲分子生物学实验室(uropean Molecular Biology Laboratory)。
GenBank:由美国国家生物技术信息中心提供的核酸序列数据库。
Gene:基因。遗传的基本的物理和功能单位。一个基因就是位于某条染色体的某个位置上的核苷酸序列,其中蕴含着某种特定功能产物(如蛋白质或RNA分子)的编码。
DUST:A program for filtering low complexity regions from nucleic acid sequences.
Gene expression:基因表达。基因中的编码信息被转换成行使特定功能的结构产物的过程。
Gene family:基因家族。一组密切相关的编码相似产物的基因。
Gene mapping:基因作图。对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。
Genetic code:遗传密码。以三联体密码子形式编码于mRNA中的核苷酸序列,决定着所合成蛋白质中的氨基酸序列。
Genome:基因组。某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示。
Genomics:基因组学。从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。
HGMP:英国剑桥的人类基因组绘图计划(Human Genome Mapping Project)。
Informatics:信息学。研究计算机和统计学技术在信息处理中的应用的学科。在基因组计划中,信息学的内容包括快速搜索数据库方法的开发、DNA序列信息分析方法的开发和从DNA序列数据中预测蛋白质序列和结构方法的开发。
Physical map:物理图谱。不考虑遗传,DNA中可识别的界标(如限制性酶切位点和基因等)的位置图。界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。
Promoter:启动子。DNA中被RNA聚合酶结合并从此起始转录的位点。
Proteome:蛋白质组。一个基因组的全部蛋白产物及其表达情况。
Regulatory region or sequence:调控区或调控序列。控制基因表达的DNA碱基序列。
Ribosomal RNA:核糖体RNA。简写为rRNA。是一组存在于核糖体中的RNA分子。
Sequence tagged site:序列示踪位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的STSs。
Single-gene disorder:单基因病。由单个基因的等位基因的突变所导致的遗传病(如杜兴肌营养不良和成视网膜细胞瘤等)。
UniGene:美国国家生物技术信息中心提供的公用数据库,该数据库将GenBank中属于同一条基因的所有片断拼接成完整的基因进行收录。
非蛋白质编码区:非蛋白质编码区("Junk"DNA)占据了人类基因组的大部分,研究表明"Junk"是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核RNA(hmRNA)、短散置元(short interspersed elements)、长散置元(long interspersed elements)、伪基因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。
双重序列对比:两序列间的对比分析。最常见的方法为Needle-Wunsch方法。能够利用的软件如BLAST、FASTA等。
Autosome:常染色体。与性别决定无关的染色体,人双倍体染色体组含有46条染色体,其中22对常染色体,一对与性别决定有关的性染色体(X和Y染色体)。
sex chromosome.:包括序列(核酸与蛋白)搜索,结构比较,结构预测,蛋白质域,模体(Motif ),测序,发育与进化分析,双向电泳成像分析,质谱蛋白质鉴定,三维蛋白结构模建与成像,基因组图谱比较,基因预测,非编码区功能位点识别,基因组重叠群集装,后基因组功能分析,结构基因组学以及药物基因组学等等。
在BLAST2.0,2.05新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST。gapped BLAST是比原BLAST 更灵敏更快的局部相似联配(俗称局部同源)搜索法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件,是更灵敏的同源搜索软件。例如线虫的CED4是apoptosis 的调控蛋白,含有涉及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜索NR数据库时,CED4仅跟人凋亡调控蛋白Apaf-1显著同源或相似(其中含有P-loop保守区)。但PHI- BLAST搜索,另有一个显著同源(E=0.038 )目标,是植物抗病蛋白Arabidopsis thaliana T7N9.18,证实此动物与植物蛋白确实在apoptosis 中有相似的功能。另有,按PHI- BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA 引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得不到的。
深层事项
后基因组时期的主要任务:Data mining ,即从完全测序的基因组中预测功能。
1 、序列、结构和功能
自分子生物学产生以来,均相信序列决定结构,结构决定功能。随着基因组学的发展,对此理解已有长足的深化。
同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。相异序列可能有相似的结构;序列与结构不相似的蛋白可能会有相似的功能。现在发现存在不相似(在序列与结构水平上)
酶催化相同的生化反应。当然亦存在甚至结构水平上很相似的酶催化不同的生化反应。例如人与鼠的3?- 羟甾类脱氢酶,1AHH和1RAL;前者是Rossmann折叠,而后者是TIM-桶。肯定,这些相似酶不是共同祖先趋异的结果,而是不同祖先趋同的结果。如结构决定功能还是合理的,那么至少在功能活性位点具有相似结构特征(即3D- 功能模体)。属于今后研究的课题,对了解酶催化机制与功能蛋白的小分子模拟具有很大价值。
何谓功能?功能有层次的:表型的,细胞的和分子的。
目前开始高层功能预测,分子相互作用、代谢途径和调控网络。
目前,已从结构基因组学,功能基因组学和蛋白质组学多种角度研究基因组功能。
2 、结构基因组学中的生物信息学
希望大通量地测定和模建完全测序基因组的全部蛋白三维结构。生物信息学可以发挥作用,一方面规划好测定的对象,另一方面可靠地模建结构。
3 、功能基因组学中的生物信息学
美国HGP 已编制1998-2003 的新五年计划。提出八项目标:其中目标7 特指生物信息学和计算生物学,其实几乎每项目标都要生物信息学,例如目标4 功能基因组学中的非编码区功能位点预测,基因表达分析(如DNA Chip)以及蛋白质全局分析(如蛋白质组学)。
蛋 白 质 组 学(Proteomics)
蛋白质组学研究的目的和任务
20世纪中期以来,随着DNA双螺旋结构的提出和蛋白质空间结构的X射线解析,开始了分子生物学时代,对遗传信息载体DNA和生命功能的主要体现者蛋白质的研究,成为生命科学研究的主要内容。90年代初期,美国生物学家提出并实施了人类基因组计划,预计用15年的时间,30亿美元的资助,对人类基因组的全部DNA序列进行测定,希望在分子水平上破译人类所有的遗传信息,即测定大约30亿碱基对的DNA序列和识别其中所有的基因(基因组中转录表达的功能单位)。经过各国科学家8年多的努力,人类基因组计划已经取得了巨大的成绩,一些低等生物的DNA全序列已被阐明,人类3%左右DNA的序列也已测定,迄今已测定的表达序列标志(EST)已大体涵盖人类的所有基因。在这样的形势下,科学家们认为,生命科学已经入了后基因组时代。
在后基因组时代,生物学家们的研究重心已经从解释生命的所有遗传信息转移到在整体水平上对生物功能的研究。这种转向的第一个标志就是产生了一门成为功能基因组学(Functional Genomics)的新学科。它采用一些新的技术,如SAGE、DNA芯片,对成千上万的基因表达进行分析和比较,力图从基因组整体水平上对基因的活动规律进行阐述。但是,由于生物功能的主要体现者是蛋白质,而蛋白质有其自身特有的活动规律,仅仅从基因的角度来研究是远远不够的。例如蛋白质的修饰加工、转运定位、结构变化、蛋白质与蛋白质的相互作用、蛋白质与其它生物分子的相互作用等活动,均无法在基因组水平上获知。
正是因为基因组学(Genomics)有这样的局限性,于90年代中期,在人类基因组计划研究发展及功能基因组学的基础上,国际上萌发产生了一门在整体水平上研究细胞内蛋白质的组成及其活动规律的新兴学科--蛋白质组学(Proteomics),它以蛋白质组(Proteome)为研究对象。蛋白质组是指"由一个细胞或一个组织的基因组所表达的全部相应的蛋白质"。测定一个有机体的基因组所表达的全部蛋白质的设想,萌发在1975年双向凝胶电泳发明之时。1994年Williams正式提出了这个问题,而"蛋白质组"的名词则是由Wilkins创造的,发表在1995年7月的Electrophoresis杂志上。
蛋白质组与基因组相对应,但二者又有根本不同之处:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞斗拱享用一个确定的基因组;而蛋白质组则是一个动态的概念,她不仅在同一个机体的不同组织和细胞中不同,在同一机体的不同发育阶段,在不同的生理状态下,乃至在不同的外界环境下都是不同的。正是这种复杂的基因表达模式,表现了各种复杂的生命活动,每一种生命运动形式,都是特定蛋白质群体在不同时间和空间出现,并发挥功能的不同组合的结果。基因DNA的序列并不能提供这些信息,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表现规律就更加复杂,不再是经典的一个基因一个蛋白的对应关系,一个基因可以表达的蛋白质数目可能远大于一。对细菌,可能为1.2~1.3;对酵母则为3;而对人,可高达10。后基因组和蛋白质组研究,是为阐明生命活动本质所不可缺少的基因组研究的远为复杂的后续部分,无疑将成为21世纪生命科学研究的主要任务。