精华区文章阅读

发信人: ssos (存在与虚无·格物致知), 信区: Algorithm
标  题: 生物信息学概论
发信站: 哈工大紫丁香 (2002年04月26日22:02:06 星期五), 站内信件

第一章  概   论
1.1本章简介
本章旨在介绍生物信息学的基本概念，指出它在现代生物学中的重要地位。首先，我们
将简要回顾生物信息学发展的几个历史阶段，从早期的蛋白质手工测序，到今天的DNA自
动测序。读完本章，你就会发现，DNA测序自动化引起的生物信息爆炸，使生物大分子序
列数据库的数据量急剧增长，而蛋白质结构测定的速度远不能与之相比。因此，从序列
信息直接推断其可能的生物学功能就显得十分必要。本章还将简述蛋白质结构预测的现
状，从蛋白质一级结构中各种氨基酸所包含的折叠信息入手，重点说明蛋白质三级结构
预测的意义，并指出分子伴侣的本质及其在蛋白质折叠过程中的作用。此外，我们将重
温蛋白质一级结构、二级结构、三级结构和四级结构的定义。
书中首次出现的术语皆用粗体标出，并在括号中注明英文原文。所有术语均列入书末词
汇索引。
1.2 序列测定
1.2.1 蛋白质序列测定
序列测定(sequencing)已有50多年的历史，但开始时进展十分缓慢。最初，人们致力于
建立蛋白质(proteins)和多肽(peptides)的分离技术，并确定其氨基酸(amino acids)种
类及含量。1945以前，没有任何蛋白质序列定量测定的方法。以后十年中，随着色谱技
术和标记方法的快速进展，第一个多肽激素(胰岛素)的全序列测定于1955年完成(Ryle等
，1955)。五年后，第一个酶(核糖核酸酶)序列测定完成(Hirs等，1960年)。1965年，约
有20个含100多个残基的蛋白质序列被确定。截止1980年，这一数字已达1500个。而今天
，已测定的蛋白质序列已达30万个，这在50年前是难以想象的。
最初，蛋白质序列测定主要采用手工的埃德曼降解和环甲基化(Edman deglation - dan
sylation)方法(Edman，1950年)。蛋白质序列测定的快速进展，应该归功于自动测序仪
的研制成功。与埃德曼和贝格(Begg) 于1967年发明的测序法相比，1980年开始使用的自
动测序仪的灵敏度提高了近1万倍。
质谱技术的发展为蛋白质序列测定开辟了新的途径。第一次用这种方法测定完整的蛋白
质分子是在1997年。质谱法测序的突出优点是可以识别翻译后修饰 (post-translation
s modification) 而得到的特殊氨基酸。用其它方法进行蛋白质序列测定时，这种修饰
信息无法获得。正是利用了质谱技术，人们得出了 g-氨基丁酸处于凝血素N-末端的重要
结论。
1.2.2 核酸序列测定
本世纪60年代和70年代，科学家们一直致力于研究测定核酸序列的方法。最初使用的方
法只能测定核糖核酸(ribonucleic acid，简称RNA)，主要是转移核糖核酸(transfer-R
NA，简称tRNA)。tRNA分子的序列比较容易测定，一则因为它的链较短，通常只有74-95
个核甘酸(nucleotide)，二则有可能分离单个tRNA分子，尽管有时也不很容易。
而脱氧核糖核酸(deoxynucleic acid，简称DNA)的情况却大相径庭。人染色体(chromos
omal)DNA分子约含5千5百万到2亿5千万个碱基对(basepairs，简称bp)，远远大于RNA分
子。测定一个染色体DNA分子的全部核苷酸序列是一项艰巨的工作。即使可以将其分割成
较小的片段，如何纯化也是一个问题。一次实验中可以测定的最长片段约为500bp。由此
推断，要测定人类染色体DNA分子的全序列，就得将其分割成50万个片段。显然，如何把
某个片段从这50万个片段中分离出来，成了DNA序列测定问题的关键。
基因克隆(gene cloning)和多聚酶链式反应(polymerase chain reaction，简称PCR)技
术为DNA全序列测定带来了福音。利用以上方法，从染色体中分离特定DNA片段的难题迎
刃而解，快速高效的测序技术因此而产生。1977年，两种基于链终止和化学降解的DNA测
序法研究成功。这项技术略经改善后，很快就被推广到世界各国的分子生物学实验室，
成为80年代和90年代序列测定革命的基础，生物信息学(bioinformatics)也应运而生。

1.3 什么是生物信息学
过去十年， DNA测序技术(sequencing)的飞速发展使分子生物学经历了信息革命时代。
这一革命，得益于计算机技术在过去十多年来突飞猛进的高速发展。只有使用计算机技
术，我们才有可能应付日益快速增长的生物信息。80年代中期以来，计算机在生物学中
的广泛应用孕育了生物信息学这一新兴学科。
生物信息学这一术语在不同的场合下被赋予不同的含义。从广义上说，生物信息学可指
利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的范围相当广泛，
从人工智能、机器人一直到基因组(genome)分析。就基因组分析这一角度来看，生物信
息学主要是指核酸和蛋白质序列数据的计算机处理和分析。近年来，蛋白质结构数据的
快速增长，使蛋白质三维结构的处理分析也归入到生物信息学的范畴。
1.4 序列和结构
序列和结构这两大类不同性质的数据在数据量方面有天壤之别。对这一点必须有个明确
的概念。截止1998年4月，公用蛋白质序列非冗余数据库中存放的序列数已达30多万个。
已公布的序片段(Boguki，1994年)和表达序列标记(Expressed Sequence Tag，简称EST
)数据库的数目已达百万个(详见第四章)。而蛋白质三维结构数据库(Protein Data Ban
k，简称PDB)中独立的原子坐标依然不足1500套，显然难以与序列数据库的数据量相比(
Bernstein等，1977年)，这是因为结构数据的采集、存储与处理远比序列数据复杂。从
信息理论角度看，结构数据与序列数据之间数据量的巨大差异，反映了这两类既不相同
、却又相关的数据之间信息量的差异(图1.1)。随着基因组计划(genome project)的实施
，序列数据大量积累，这种差距会越来越大。当然，结构数据也在快速增长。可以预计
，大规模结构测定计划的实施，每年测定2000个结构的目标将不会是一句空话。当然，
这与序列数据每年翻番的增长速度相比，依然不可同日而语。目前，平均每一分钟就有
一个序列增加到核酸序列数据库中。
图1.1 蛋白质序列和结构数据库容量对比
本图表示1998-1999年蛋白质序列和结构数据库增长情况。序列数据库数据为非冗余序列
数，结构数据库数据为独立结构数
图框1.1 基因组信息资源
下列网址提供了全世界人类基因组计划有关情况，以及美国能源部人类基因组计划的历
史、所起作用、已取得的成果等。该网页还提供了有关基因组注释协会(Genome Annota
tion Consortium, 简称GAC)的情况，并以序列测定为主线，用图表方式详细介绍各基因
组计划的有关情况和进展。此外，该网站还提供了分子遗传学入门的基础知识。
值得一提的是该网站上登载的两篇文章，它们均出自美国科学院院报。其中一篇的题目
是“Beyond Discovery"，谈到了基因组计划将会给人类带来的福音。另一篇阐述了一个
新的研究领域，它把基因这样研究成果用于医学。建议读者阅读一下两篇文章，其中许
多观点和本书将要讨论的内容有关。
GAC
http://compbio.ornl.gov/gac/index.shtml
HGP
http://www.ornl.gov/TechResources/Human_Genome/
DoE in the HGP
http://www.ornl.gov/TechResource/Human_Genome/ Publicat/tko/index.htm
Primer
http://www.ornl.gov/TechResource/Human_Genome/ Publicat/primer/intro.htm
Beyond Discovery
http://www4.nas.edu/beyond/beyonddiscovery.nsf/ Framset?openform
Gene Testing
http://www4.nas.edu/beyond/beyonddiscovery.nsf/ DocumentFrameset?OpenForm&H
umanGeneTestin
1.5 基因组计划
80年代中期，美国能源部开始启动一系列研究项目，旨在构建人类基因组详尽的遗传图
谱和物理图谱，测定人类基因组的全部核苷酸序列，并将约10万个人类基因定位于染色
体。如此大规模的研究项目，必须采用新方法分析基因图谱和DNA序列数据，必须用新技
术、新仪器检测和分析DNA分子。为使研究结果尽快为公众所用，计划还要求利用先进的
信息技术将研究成果以最快的速度传递给科学工作者和医务工作者。由这一大规模研究
项目引发的国际合作，就是众所周知的人类基因组计划(Human Genome Project)(图框1
.1)。
此外，其它一些模式生物(model system)的基因组计划先后在世界各地的实验室启动。
它们包括大肠杆菌(Escherichia coli), 啤酒酵母(Saccharomyces cerevisiae), 线虫
(Caenorhabditis elegans), 果蝇(Drosophila melanogaster), 拟南芥(Arabidopsis
thalania), 狗(Canis familiaris)、小鼠(Mus musculus)。截止1998年4月，尽管只完
成了若干基因组容量较小的模式生物全序列测定(表1.1)，而人类基因组测序仅完成10%
，但由此而产生的序列数据已经大量涌入公共的核酸序列数据库。
表1.1  已经完成测序的基因组
本表列出截止到98年4月已经完成测序的基因组，真核生物中只有一种(S. cerevisiae)
全部完成，另有17种正在进行；原核生物中已有20种全部完成，另有45种正在进行。详
细信息见：
http://www-fp.mcs.anl.gov/~gaasterland/genomes.html。
1.6人类基因组计划现状
根据截止1998年年中的进展情况和目前世界各国所投入的人力物力估算，人类基因组计
划的预计完成时间不会早于2003年，有可能要到2005年。迄今为止，通过分析在染色体
上已定位克隆来测定基因组全序列的基本过程通常分两步，第一步是随机测序及序列组
装，俗称鸟枪法(shutgun)测序。第二步则是找出这些随机片段之间的间断序列，确定那
些歧义位点的碱基。
1998年5月，位于美国马里兰州Rockville的美国国家基因组研究所(The Institute of
Genome Research，简称TIGR)主任Venter宣布，他将和珀金-埃尔默公司(Perkin-Elmer
Corp.)共同组建一个新企业，并在3年内完成人类基因组全序列测定。这一消息的宣布
的确令人震惊，因为它意味着人类基因组计划完成时间将至少提前2年。该计划所采用的
策略是将整个基因组随机分割成成千上万个片段并进行测序，而不考虑它们是否已在染
色体上定位。众所周知，人类基因组含70%以上的重复序列。用鸟枪法完成整个基因组所
有片段的序列测定后，如何把它们装配起来，显然具有相当大的难度。
对以上研究策略，世界各国基因组研究人员众说纷纭。对于由一个私有企业垄断测序结
果所可能带来的后果，科学家们也深感不安。显然，加快基因组全序列测定速度，已经
成了摆在各国基因组研究人员面前迫在眉睫的问题。一个3年内完成基因组95%序列测定
的新计划因此而产生。该计划基于鸟枪法测序过程的大幅度加快。采用鸟枪法的原因是
因为它简单易行，且成本较低，平均每个碱基约需10美分。此新计划若能付之实施，可
望在2001年前初步获得高质量的序列图谱，尽管它还不是人类基因组全序列的完整图谱
。
当然，达到上述指标并不意味着人类基因组计划最终目标的实现，但作为过渡性的措施
，不失为切实可行的解决方案。虽然人们担心这在某中程度上会延迟全序列测定最终目
标的完成，但它可推动其它研究项目的实施。例如，某些疾病基因可能已经在染色体上
定位，但尚未确定其DNA顺序。以上大规模测序计划所得序列数据

--


<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 211.93.34.116]

Algorithm 版 (精华区)