1986 年, 著名的肿瘤学家、诺贝尔奖获得者Delbecco 鉴于当时肿瘤研究的“零敲碎打”状况,提出了一个惊人的动议:欲解决肿瘤问题,应先搞清基因组。其理由在其发表在Science 杂志上的、题为“癌症研究的转折点———基因组全序列分析”的文章中作了阐述, 主要论点是强调“整体阐明”, 即在基因组这个整体上研究所有基因的相互作用, 从而阐明包括癌症在内的疾病发生发展机理。这篇文章被认为是1990 年启动的人类基因组计划(HGP) 的“标书”,也被认为是癌基因组学(oncogenomics or genomics of cancer) 的发端。可喜的是, HGP 已于2003 年4 月全部完成序列测定, 进入了后基因组时代即功能基因组学时代, 基因组科学完成了一次历史性转折。而癌基因组学也不断取得成果, 在观念和技术上, 初步实现了由“零敲碎打”向“整体阐明”的转折。
近年来,癌基因组学不仅成为肿瘤研究中引人注目的领域, 也是基因组科学中的重点领域。每年一届的国际人类基因组会议(HGM) 都有癌基因组学专题交流和讨论, 2002 年还在爱尔兰都柏林召开了国际癌基因组学会议。现就癌基因组学的有关问题作一评述。
一、癌基因组学研究的目标
从研究角度来看,癌研究从临床表型到组织细胞表型到简单分子表型(基因型) 再到基因组表型,步步深入,组成了癌研究的数百年历史。如今, 癌基因组学已被赋予更广泛的含义, 包括基因组结构表型和功能表型,分别体现在基因组(genome) 、转录物组( transcriptome) 、蛋白质组(proteome) 、代谢物组(metablome) 及pathways 等层次之中, 俨然形成“大科学”态势。历史已把癌基因组学推到癌研究舞台的中心。那么,癌基因组学的目标是什么呢? 简而言之, 就是要突出两点:一是要用综(整) 合的观点和思维模式把发生在上述各层次上的分子生物事件构建成合理的网络作用模型,真实地阐明细胞癌变和肿瘤发生发展机理; 二是“三高”(高通量、高灵敏度、高特异性) 技术平台的建立和应用。随着思维模式的改变, 传统的研究技术已不适应要求, “三高”技术平台应运而生,它们既承担理论研究重任,又作为解决癌早期筛查、诊断、治疗、预防和药物筛选的工具与手段。有理由相信,癌基因组学以其更加理性的观念和有力的技术手段两大优势,必将带来新的突破。
二、癌基因组学的任务和现状
客观地讲,癌基因组学还是“初生的婴儿”, 在其成长过程中必然面临很多难题, 克服这些难题成为其主要的任务。归纳起来,主要涉及以下几方面, 兹简要分述如下。
1. 鉴定微效(低危险度) 癌易感基因: 除通过胚系遗传突变等位基因引发癌———家族性癌外,癌作为多基因病已得到公认。即使在家族性癌中, 也只有很小比例存在引起癌的高外显等位基因并且符合孟德尔遗传规律,如RB1、TP53、APC、β-Catenin、Tcf-4pathway、PTEN、VHL 、BRCA1 和BRCA2 等基因。这就是说, 绝大多数癌的发生是众多微效(低危险度)的、低外显率的易感基因相互作用以及它们与环境因素相互作用的综合结果。据推算, 在人群中, 癌易感基因的平均危险度仅为1. 7 % , 如此低危险度, 采用传统的技术手段难以鉴别。由上述事实引出两个难题:一是不同组织特异性癌发生过程究竟都有多少个微效易感基因参与? 二是如何去鉴定微效易感基因? 目前尚无法给出准确答案。欲回答这些问题, 最重要的是要建立多基因病的理论模型, 然后在理论模型指导下采用合理的技术手段去筛查、鉴定癌易感基因。
目前, 已经提出了两种理论模型,第一种模型称为常见病-常见变异体模型(common disease-common variant model) ,意思是每种癌都存在相对应的一组变异等位基因,而且这些基因变异在人类祖先就发生了的。因此, 采用高通量技术,结合遗传分析方法, 有可能从癌症患者基因组中一个个地找出变异等位基因, 目前正在研究和采用的方法有: (1) 候选基因关联分析:以序列标记(SNP、突变、微卫星等)为筛查标记,根据癌患者组与匹配对照组出现频率的显著性差异, 从候选基因中筛出易感基因。这是目前最常用的方法。(2) 单倍型( haplotype) 关联分析:据新近单倍型作图(haplotype mapping) 结果表明, 人类基因组中含有12 万个单倍型域( haplotype block) ,每个单倍型域平均长度为25 kb , 加起来正好覆盖整个基因组,而每个单倍型域最多横跨1 个目标基因。 因此, 可以单倍型为靶标,进行全基因组扫描,寻找与癌易感性相关的单倍型域, 找到了单倍型域,也就找到了相应的易感基因。(3) 建立小鼠模型:可在对致癌物具有不同敏感性的近交系小鼠中, 对数量性状位点作图,以缩小寻找癌易感基因的范围。同时,也可在产生一系列单倍型不足的小鼠(如具有高比例LOH 的Blm2/ 2小鼠模型) 中去搜寻新的抑癌基因。(4) 模式生物基因组测序:用作比较基因组学研究,有助于鉴别人类癌易感等位基因。以上方法有一个共同的要求,就是必须具备大标本量,否则影响鉴别能力。
第二种理论模型叫做罕见等位基因模型( rare alleles model) 。其要点有二: (1) 与癌发生相关的变异等位基因是新近发生的罕见等位基因; (2) 这些罕见等位基因均属于弱等位基因(weak alleles) , 并且多个独立罕见等位基因存在于不同的单倍型之中, 从而显示更弱的单倍型相关性。由此可见, 该理论模型与第一种理论模型在立论上迥然不同, 而且相互抵触。问题是, 第二种理论模型目前尚无可行的技术方法予以验证, 也不能借用第一种理论模型所采用的技术方法, 只能等待和积累更多有关人类基因组中变异等位基因发生和性质的信息, 以及复杂基因型与表型效应间相互关系的信息后,去建立一些全新的研究方法。
有一个事实表明, 具有完全不同遗传背景的个体可具有相同的癌表型(癌易感性) 。这提示不论何种理论模型,都面临相同的问题:癌相关变异等位基因的不同组合和相互作用是决定癌易感性的主要因素,而目前的分析方法尚无达到解决这个问题的能力。这是癌基因组学迫切需要解决的问题,也是最大的挑战。
2. 搞清分子表型与临床表型的关系: 分子表型(molecular phenotype) 在单个基因水平称为基因型(genotype) , 在若干相关基因的组合水平称为基因组合型(gene set) , 在蛋白质组水平称为蛋白质组图型(proteome profile) ,等等。就分子水平而言, 癌细胞的主要特征是其基因组不稳定性。这决定了在肿瘤发生发展中, 分子表型必然具有多种多样的变化, 小至单核苷酸,大至基因和染色体DNA。目前, 检测肿瘤细胞分子表型的变化所采用的技术方法多种多样, 例如, 直接测序和高通量突变筛选技术可鉴定基因序列是否发生突变;FISH 能检测间期细胞基因组拷贝数, 判断是否发生基因组不稳定状态; 限制酶界标基因组扫描(restriction landmark genome scanning) 、比较基因组杂交(Comparative Genomic Hybridization ,CGH) 、分子差减技术(molecular subtraction technique)和高通量定量PCR(high-throughput quantitative PCR)等技术可快速检测肿瘤基因组突变量及基因组拷贝数异常,并可对变异进行基因组定位。
但是,上述检测的关键是能否把肿瘤发生发展中特异性突变(即特异性分子表型) 组合在一起,从而阐明特异性分子表型之间的相互作用及其与肿瘤不同表型特征的对应关系,以及与肿瘤对环境因素和药物的反应性的关系。如果能做到这一点,则上述检测必将在肿瘤早期诊断、治疗、预防中发挥至关重要的作用。实际上,近几年来这些方面已取得了一些进展。例如,采用微阵列(基因芯片,蛋白质芯片等) 技术和质谱分析技术,发现了一些肿瘤发生发展中特有的基因表达谱和蛋白质组图谱。一组由特定21 个基因组合(21gene set) 的表达谱与肺癌转移具有对应关系。与乳腺癌和髓母细胞瘤的转移及预后相对应的特异性表达谱(基因组合型) 也有报道。
总而言之,将来总有一天,特异性分子表型会被作为“标签”一样标明肿瘤的各种临床表型特征,为临床医生进行合理的治疗和个性化治疗提供科学依据和可操作指标,为人群防癌体系制定预案提供可能性。
3. 癌发生发展的分子作用机理: 即使找到了癌易感基因和特异性分子表型,也不等于阐明了癌发生发展的分子作用机理。最终阐明机理必须至少解答3 个问题: (1) 癌易感基因涉及哪些pathways ? (2)pathways 之间如何发生作用和影响? (3) 癌易感基因在pathways 内是如何发挥作用及是否与pathways之外的分子发生作用? 这些相互之间的作用关系构成了网络作用图。
目前,研究转录表达谱和蛋白质组谱的各种技术方法和平台不断涌现,技术进步日新月异。某些已知pathway 的扰乱与癌发生发展密切相关已逐渐__为人们所认知,例如Ink4a2Arf 座位扰乱Rb 和p53pathways 是所有癌细胞的共同特点,而小细胞肺癌、黑色素瘤、直肠癌和卵巢癌中BRAF 基因(编码1 个激酶) 的突变激活了通过Ras 介导的B2Raf pathways。显然,构建癌分子作用网络图是一个长期的任务, 现今人们仅知其厘毫。
三、癌基因组学的发展趋势
不论在何种层次上研究,癌基因组学发展的总趋势是将基因组结构的动态分析与基因组功能的动态分析紧密结合在一起。为了做到这一点,须加强以下几个方面的研究进程。
1. 癌基因组学与遗传学相结合: 癌细胞中基因组不稳定性与遗传不稳定性是一致的特征。从遗传学角度看, 这种不稳定性既可由胚系突变遗传产生, 也可由体细胞突变产生。前者通过胚系有丝分裂过程中基因组重组事件, 使亲代中具有抗性的基因(如抑癌基因、错配修复基因等) 被具有癌易感性的基因所取代, 使后代获得癌易感性;后者则是体细胞发生抗性基因丢失和失活,使易感基因获得扩增的结果。由此可引出三个问题: (1) 胚系突变遗传与体细胞突变遗传如何区分? (2) 胚系突变遗传与体细胞突变遗传交织在一起, 是如何相互作用而影响癌细胞表型的? (3) 癌基因组和遗传不稳定性是否具有量效效应? 如果有, 又如何确定? 解决上述问题的重要途径就是遗传学分析。通过这种分析,特别在基因量效效应方面, 近年来有了许多新的认识。众所周知, 由Knudson 提出的经典的两次打击模型(two - hit model ) 认为, 抑癌基因的一个等位基因在胚系经过一次突变打击,出生后另一个等位基因遭受第二次突变或LOH 打击, 致使2 个等位基因全部失活,细胞发生癌变。晚近通过遗传学分析证明,由于LOH 或缺失使一个抑癌基因等位基因失活后,即使另一个等位基因功能正常, 也可引起细胞癌变。还有一种情况是, 胚系的1 对抑癌基因的等位基因在没有发生任何变异时,也可发生癌变, 只是在这种情况中, 其中的一个等位基因可能部分或全部失活。这些现象用Knudson 的两次打击模型是无法解释的, 从而提出了单倍型不足(haploinsufficiency) 的概念, 它从基因剂量( gene dosage) 角度,解释了当抑癌基因的活性剂量不足或癌易感基因的活性剂量过高时,细胞容易引起癌变的遗传学原因,大大丰富和扩展了Knudson 模型。
此外, 数量遗传学方法和连锁不平衡分析等遗传学分析, 在癌基因组学研究中也正发挥着重要作用。毫无疑问, 目前用于癌基因组学研究的遗传学分析的理论和技术体系仍然存在很多缺陷,有待进一步发展和完善。
2. 与表遗传学的结合: 细胞癌变是一个全方位变化过程, 除遗传学改变外, 也与表遗传学(epigenetics) 改变有密切关系,必须予以足够重视和研究。目前,人们最为关注的表遗传学改变是基因甲基化作用和组蛋白乙酰化作用。前面提到的单倍型不足也包含抑癌基因调控序列的甲基化作用。如果胚系中2 个抑癌基因等位基因的5′调控序列(特别是CpG岛) 先后被甲基化,或原来已有1 个等位基因突变、另1 个等位基因又被甲基化, 均可造成单倍型不足(抑癌基因剂量不足) ,引起细胞癌变。表遗传学作用也是复杂多样,现对其与细胞癌变的各种对应关系了解不多。把癌基因组学研究与表遗传学研究更好地结合起来,是今后重要的发展趋势。
3. 对现有数据的整理、分析和共享: 生物信息数据库对于癌研究的重要性不言而喻。癌基因组学研究把人类基因组数据库和癌基因组学研究产生的数据汇聚在一起,形成巨大的数据资源,加之高通量技术平台每时每刻产生的海量数据,大有“数据爆炸”之势。对这么多数据进行整理、分析和共享, 是一个庞大的工程,又是一件刻不容缓的事情。整理、分析数据是为了应用,而数据共享是达到应用目的的前提。目前,针对癌基因组学研究的数据共享体系尚未建立起来, 主要的“瓶颈”在于缺乏标准。没有统一标准, 大量数据不能对接和转换, 造成一方面缺少有用数据,另一方面数据闲置的局面。因此, 国际上癌基因组学研究机构和相关组织以及科学家, 已经呼吁协调起来进行这项工作。
4. 多学科交叉和结合: 癌基因组学研究涉及自然科学的方方面面, 属于学科交叉研究领域, 因此, 加强学科间的协调合作将成为必然的趋势。