精华区文章阅读

发信人: ssos (存在与虚无·格物致知), 信区: Algorithm
标  题: 生物信息学概论3
发信站: 哈工大紫丁香 (2002年04月26日22:06:08 星期五), 站内信件

第三章蛋白质资源数据库
3.1 简介
本章主要介绍分子生物学数据库及其数据类型，并介绍一些重要数据库的由来。本章将
以核酸和蛋白质序列为主，介绍以一级序列数据库、复合数据库、蛋白质序列模式序列
模块和三级数据库。最后将介绍两种蛋白质结构分类数据库，并在附表中列出一些数据
库资源的网址。
3.2 生物信息数据库
在第一章中我们已经强调，模式生物基因组计划的序列测定，远远领先于蛋白质结构的
研究，这主要因为基因组大规模测序比蛋白质三维结构的测定容易得多。要从这些大量
的序列信息中得到尽可能多的有用信息，就必须对这些数据按一定的方式进行处理，即
通过构建和维护这些数据库，开发方便实用的数据库查询软件，使生物学家能够方便地
获取这些数据库所包含的信息。在此基础上，利用生物信息学手段，研究开发有效的分
析工具，以进一步获取隐藏在这些序列数据中的生物学意义，探索生物大分子的结构功
能关系。
那么，在分析序列信息的过程中，第一步就要将这些数据存放到重要的、可以共享的资
源中，也就是数据库中。数据库是有效的电子文件归档柜，是一种方便、高效的能够存
储大量信息的方法。有许多不同的数据库类型，这些类型的数据库的划分既取决于所要
存储信息的性质（如是序列信息还是结构信息，是二维凝胶信息还是三维结构图像信息
，等等），也取决于存储数据的方式（即存储的是普通文本文件，还是采用关系数据库
进行存储，或者是采用面向对象数据库进行存储等）。在这里，我们只关心不同类型的
生物学数据，而不关心数据的详细存储方式或者是数据的管理机制。
在进行蛋白质序列分析过程中，会应用到一级复合数据库和序列模块数据库。在这些数
据库资源中以完全不同的格式存储了不同层次的信息（图框3.1）。如果在过去，如此多
的信息就会带来很多传输方面的问题，但是由于计算机技术和网络技术的发展为我们提
供了许多解决办法，现在可以通过互联网来进行清晰的、无间断的、分步式的数据信息
传输。因此目前根本问题是要知道如何在所需要的时候、怎样使用数据库来建立最有效
的序列分析策略。因此，在这一章里，首先要对一些最重要的数据库资源（从现在和历
史的观点来看）作一概要的介绍。
图框3.1 蛋白质序列和结构层次
蛋白质的一级结构就是氨基酸序列。在一级数据库中存储了线性的按字母顺序排列的氨
基酸残基（图框3.2）; 蛋白质的二级结构对应着如a螺旋和b折叠片这样的规则区域，在
序列比对中，这些规则的区域通常是非常保守的序列模体; 在序列模块数据库中存储着
各种模式，如正则表达式、序列指纹图谱、序列模块、序列谱等。蛋白质的三级结构由
二级结构得到，蛋白质的三级结构由不连续的结构域、折叠（a,b,c）或序列模块（@,*
,#）组成，这些折叠、结构域和序列模块以原子坐标的形式存储在蛋白质结构数据库中
。
3.3 一级序列数据库
在80年代早期，在科学文献中有关序列的信息变得越来越丰富。看到这一点，世界上的
几个实验室认识到，如果将这些序列收集并存储为一些重要的数据库将会带来很大的益
处。这样，这些实验室就开始着手构建几个一级数据库。表3.1中所列的是一些最重要的
核酸和蛋白质序列数据库。在下面将要对其进行简要介绍。
表3.1 一级核酸和蛋白质序列数据库
核酸序列数据库
蛋白质序列数据库
EMBL
PIR
GenBank
MIPS
DDBJ
SWISS-PROT
TrEMBL
NRL-3D
3.3.1 核酸序列数据库
如表3.1所示，主要的DNA序列数据库有GenBank(美国)，EMBL(欧洲)和DDBJ(日本)，这三
个数据库每天都要交换数据以保证能够全面覆盖每一个站点的数据。有关这些资源的详
细细节及数据库的结构（特别以GenBank为例）将在第四章中介绍。在这里，只介绍一下
不同种蛋白质序列数据库和模式数据库的区别。
3.3.2 蛋白质序列数据库
PIR
PIR蛋白质序列数据库是由国家生物医学研究基金会（NBRF）的Margaret Dayhoff在60年
代早期发展建立的，Margaret Dayhoff收集蛋白质序列来研究蛋白质的进化关系。自从
1988年，蛋白质序列数据库就由大分子序列数据收集中心PIR-International (Barker
et al., 1998)来共同维护，该数据库所收集的内容包括了NBRF蛋白质信息资源（PIR）
，日本的国际蛋白质信息数据库（JIPID）和Martinsried研究所的蛋白质序列(MIPS)。

现在，PIR数据库已经按照数据的性质和注释的层次分为四个不同的部分，即PIR1-PIR4
：PIR1包括的序列已经被分类和注释; PIR2包含序列初步的信息，这些信息还没有被完
全检验，可能含有一些重复的信息; PIR3包含一些未被验证的条目; PIR4中的信息又分
成四类，（i）人工合成序列的概念上的翻译（conceptual translations）; (ii)没有
转录或翻译的序列的概念上的翻译; (iii)蛋白质序列或基因工程序列的概念翻译; (iv
)没有基因编码和没有生成核糖体的序列。在NBRF-PIR数据库网页上提供了数据搜索和序
列查找的程序。
MIPS
Martinsried的蛋白质序列研究所负责为三方合作的PIR国际蛋白质序列数据库(PIR-Int
ernational Protein Sequence Database)项目收集和处理蛋白质序列数据(Mewes et a
l.,1998)。该数据库的信息PATCHX发布（PATCHX是增补数据库，包含了一些未经证实的
蛋白质序列数据）。可以通过网络服务器来访问该数据库，包含在PIR-International和
PATCHX中的所有蛋白质序列信息都存储在动态数据库中，通过查询该数据库可以很快捷
地得到FastA格式的蛋白质相似性结果。
SWISS-PROT
SWISS-PROT是蛋白质序列数据库，是由Geneva大学药学生物化学系和EMBL于1986年共同
合作开发的。1994年以后，开发工作转到EMBL的英国分部EBI进行(Bairoch and Apweil
er, 1998)。在1998年四月，该工作又转到Swiss生物信息学研究所（SIB），因此，该数
据库现在是由SIB和EBI/EMBL共同维护。该数据库力图能够提供高水平的数据注释信息，
包括对蛋白质功能、结构域的结构、蛋白质翻译后的修饰、突变体等的描述。SWISS-PR
OT数据库的目标是提供尽可能详尽的、很少冗余的数据，在数据库中的链接可以直接链
接到其它资源上。1996年，由计算机注释的一些序列被补充到SWISS-PROT数据库中，这
一部分序列被称作翻译的EMBL，即TrEMBL数据库，在下面还要对它详细介绍。现在先了
解一下SWISS-PROT数据库的结构。
SWISS-PROT数据库的结构
SWISS-PROT 数据库的结构及其所包含的数据的性质使之与其它蛋白质序列数据库有显著
的不同。到1998年中期，SWISS-PROT数据库包含有~70 000个条目，这些条目涵盖了500
0多个不同的种属，而这么多的数据仅仅来自于很少的几种模式生物，如人（Homo sapi
ens）、啤酒酵母（Saccharomyces cerevisiae）、大肠杆菌（Escherichia coli）、小
鼠（Mus musculus）、大鼠（Rattus norvegicus）等。
图3.1中给出了SWISS-PROT数据库中一个蛋白质序列文件的例子。在图中的每一行前用两
个字母标记，用来说明每一行所代表的信息。文件中以ID行开始，以//作为结束的标识
符。在图3.1中，ID行告知该条序列的名称是OPSD_SHEEP，并说明这是一个带有348个氨
基酸的蛋白质序列。在SWISS-PROT数据库中，ID代码包含着很友好的信息，它是以PROT
EIN-SOURCE格式出现，在这里，PROTEIN部分以缩写字母的形式给出蛋白质的类型，SOU
RCE部分代表了生物体的名称。在此例中，可以清楚地从ID号中看到，这一蛋白序列来源
于绵羊的视紫红质(rhodopsin)。
ID   OPSD_SHEEP     STANDARD;      PRT;   348 AA.
AC   P02700;
DT   21-JUL-1986 (REL. 01, CREATED)
DT   01-FEB-1991 (REL. 17, LAST SEQUENCE UPDATE)
DT   01-NOV-1997 (REL. 35, LAST ANNOTATION UPDATE)
DE   RHODOPSIN.
GN   RHO.
OS   OVIS ARIES (SHEEP).
OC   EUKARYOTA; METAZOA; CHORDATA; VERTEBRATA; MAMMALIA; EUTHERIA;
OC   ARTIODACTYLA; RUMINANTIA; PECORA; BOVOIDEA; BOVIDAE; CAPRINAE; OVIS.
RN   [1]
RP   SEQUENCE.
RA   PAPPIN D.J.C., ELIPOULOS E., BRETT M., FINDLAY J.B.C.;
RT   "A structural model for ovine rhodopsin.";
RL   INT. J. BIOL. MACROMOL. 6:73-76(1984).
.
.
RN   [4]
RP   RETINAL BINDING SITE.
RX   MEDLINE; 84178280.
RA   PAPPIN D.J.C., FINDLAY J.B.C.;
RT   "Sequence variability in the retinal-attachment domain of mammalian
RT   rhodopsins.";
RL   BIOCHEM. J. 217:605-613(1984).
CC   -!- FUNCTION: VISUAL PIGMENTS ARE THE LIGHT-ABSORBING MOLECULES THAT
CC       MEDIATE VISION. THEY CONSIST OF AN APOPROTEIN, OPSIN, COVALENTLY
CC       LINKED TO CIS-RETINAL.
CC   -!- SUBCELLULAR LOCATION: INTEGRAL MEMBRANE PROTEIN.
CC   -!- TISSUE SPECIFICITY: ROD SHAPED PHOTORECEPTOR CELLS WHICH MEDIATES
CC       VISION IN DIM LIGHT.
CC   -!- PTM: SOME OR ALL OF THE CARBOXYL-TERMINAL SER OR THR RESIDUES MAY
CC       BE PHOSPHORYLATED.
CC   -!- THIS RHODOPSIN HAS AN ABSORPTION MAXIMA AT 495 NM.
CC   -!- SIMILARITY: BELONGS TO FAMILY 1 OF G-PROTEIN COUPLED RECEPTORS.
CC       BELONGS TO THE OPSIN SUBFAMILY.
DR   PIR; A30407; OOSH.
DR   GCRDB; GCR_0194; -.
DR   PROSITE; PS00237; G_PROTEIN_RECEPTOR; 1.
DR   PROSITE; PS00238; OPSIN; 1.
DR   PFAM; PF00001; 7tm_1; 1.
KW   PHOTORECEPTOR; RETINAL PROTEIN; TRANSMEMBRANE; GLYCOPROTEIN; VISION;
KW   PHOSPHORYLATION; LIPOPROTEIN; G-PROTEIN COUPLED RECEPTOR.
FT   DOMAIN        1     36       EXTRACELLULAR.
FT   TRANSMEM     37     61       1 (POTENTIAL).
FT   DOMAIN       62     73       CYTOPLASMIC.
FT   TRANSMEM     74     98       2 (POTENTIAL).
FT   DOMAIN       99    113       EXTRACELLULAR.
.
.
FT   TRANSMEM    285    309       7 (POTENTIAL).
FT   DOMAIN      310    348       CYTOPLASMIC.
FT   CARBOHYD      2      2       BY SIMILARITY.
FT   CARBOHYD     15     15       BY SIMILARITY.
FT   BINDING     296    296       RETINAL CHROMOPHORE.
FT   LIPID       322    322       PALMITATE (BY SIMILARITY).
FT   LIPID       323    323       PALMITATE (BY SIMILARITY).
FT   DISULFID    110    187       BY SIMILARITY.
FT   MOD_RES     343    343       PHOSPHORYLATION (BY RK) (BY SIMILARITY).
SQ   SEQUENCE   348 AA;  38891 MW;  A3B1F1A0 CRC32;
     MNGTEGPNFY VPFSNKTGVV RSPFEAPQYY LAEPWQFSML AAYMFLLIVL GFPINFLTLY
     VTVQHKKLRT PLNYILLNLA VADLFMVFGG FTTTLYTSLH GYFVFGPTGC NLEGFFATLG
     GEIALWSLVV LAIERYVVVC KPMSNFRFGE NHAIMGVAFT WVMALACAAP PLVGWSRYIP
     QGMQCSCGAL YFTLKPEINN ESFVIYMFVV HFSIPLIVIF FCYGQLVFTV KEAAAQQQES
     ATTQKAEKEV TRMVIIMVIA FLICWLPYAG VAFYIFTHQG SDFGPIFMTI PAFFAKSSSV
     YNPVIYIMMN KQFRNCMLTT LCCGKNPLGD DEASTTVSKT ETSQVAPA
//
图3.1 SWISS-PROT数据库中一条序列的例子，句点表示省略部分
但是，ID号码有时会重复，因此要添加另外的标识符以利于识别，这个新增加的标识符
即是编码AC（accession number），要注意在不同版本的数据库间一条蛋白质序列的AC
号是一样的。在此例中，AC号为P02700，虽然该数值没有为用户提供更有价值的信息，
但是对于计算机来说却容易区分。如果在AC行出现了几个数值，那么第一个就是当前的
AC号。
下面的DT行提供了蛋白质序列提交到数据库的时间，及最近一次修改的时间等信息。在
描述行（DE）的一行或几行中，提供了对蛋白质的名称的说明，在此例中，只简单说明
了蛋白质为视紫红质。在下面的几行中提供了有关该蛋白质的基因名（GN），生物物种
（OS）和生物分类（OC）等生物学信息。
接下来，还有一系列与蛋白质序列信息相关的文献信息，这些文献信息来自于科学文献
、未发表的直接从测序中得到的信息，及从结构或突变研究中得到的数据，等等。因此
，从这一点上也说明该数据库是一个非常有价值的、难得的序列数据库。
在文献信息之后，是评论（CC）行。在CC行中按主题进行区分，其中，FUNCTION：说明
蛋白质的功能，PTM：说明翻译后的修饰，TISSUE SPECIFICITY：说明组织专一性，SUB
CELLULAR LOCATION：说明亚细胞定位，等等。在CC行中，还提供了一些已知的特殊蛋白
质家族的相似性和联系。在此例中，由给出的信息可以知道视紫红质是一种存在于视杆
细胞中的完整的膜可视蛋白，属于视蛋白家族和1型G蛋白偶联受体（GPCR）超家族。
在评论行后的是数据库交叉引用（DR）行。提供了与其它生物信息数据库的链接，这些
生物信息数据库包括一级序列数据库，序列模块数据库，特殊数据库等等。以绵羊视紫
红质为例，可以看到由SWISS-PROT数据库中的该条序列信息可以链接到一级PIR数据库，
GPCR专家数据库，PROSITE序列模块数据库和ProDom结构域数据库。
在DR行之后，是相应的关键字（KW）行和FT行，FT行以特征表（Feature Table）的形式
存在，特征表可以使所感兴趣的序列区域更显著，这些特征包括二级结构（例如跨膜结
构域，如图3.1所示），配体结合位点，翻译后修饰等等。在特征表的每一行有一个关键
字（如TRANSMEM）、特征序列的位置（如37-61），及对特征的注释在一定层次上的评价
（如POTENTIAL）。在此例中，视紫红质的跨膜结构域是由预测软件预测得到的，因此在
缺少实验上三维结构数据的支持下，仅仅能被标识为POTENTIAL。
在最后一部分，是蛋白质的序列，即SQ行。为便于存储，氨基酸编码是以单个字母表示
的（如图框3.2），每一行包括60个残基。在SWISS-PROT数据库中的序列数据与蛋白质的
前体相对应，因此，在翻译后加工过程中，蛋白质大小和分子量信息就不对应于成熟蛋
白质。成熟蛋白质或肽的结构可以参考特征表的信息来推论，可以根据特征表所提供的
信号区（SIGNAL），转运区（TRANSIT）或前肽（PROPEP）等信息来推断出成熟蛋白质或
肽。CHAIN 和PEPTIDE两个关键字用来表示成熟蛋白质的位置。
图框3.2氨基酸代码表
SWISS-PROT数据库的结构使之可以直接有效地连接到不同的查询区域，即查询软件不需
要搜索整个文本区，就可以直接定位到所要查询的字段行。并且，由于SWISS-PROT数据
库还具有生物学的意义，所以它成为世界上最被广泛使用的蛋白质序列数据库。
TrEMBL
TrEMBL（翻译的EMBL）数据库是于1996年创建并增补到SWISS-PROT数据库中(Bairoch
and Apweiler, 1998)。该数据库采用SWISS-PROT数据库的格式，包含有对EMBL数据库中
所有编码序列的翻译。TrEMBL数据库有两个主要部分，一部分是SP-TrEMBL，另一部分是
REM-TrEMBL：SP-TrEMBL (SWISS-PROT TrEMBL) 中包含的条目最终要组合到SWISS-PROT
数据库中，但是这些条目还没有被人工注释; REM-TrEMBL中所包含的序列不被组合到SW
ISS-PROT数据库中，这些序列是一些免疫球蛋白和T细胞受体、少于八个氨基酸的碎片、
合成的序列、具有专利的序列和不能编码真正蛋白质的密码子。TrEMBL数据库的结构与
SWISS-PROT数据库一样，具有很好的可查询功能，而且不会由于组合到SWISS-PROT数据
库中的序列没有被充分分析和注释而影响到SWISS-PROT数据库。
图框3.3 氨基酸结构和性质一览表
按照氨基酸的物理化学性质来分，氨基酸可以被分成很多类。一般地，氨基酸可以被粗
略地分成极性带电荷的氨基酸（如酸性氨基酸、碱性氨基酸），极性不带电荷的氨基酸
和疏水性氨基酸（如带有芳香侧链和脂肪族侧链的氨基酸）。事实上，氨基酸的性质是
非常复杂的，它们的性质也有相当大的重叠，在图8.2中详细说明了它们之间的关系。
NRL-3D
NRL-3D数据库是由包含在PIR数据库中的，从Brookhaven Protein Databank(PDB) (Nam
boodiri et al., 1990)数据库中提取出来的序列构成的数据库。NRL-3D数据库中的标题
和生物学资源条目符合PIR数据库中所使用的命名标准。NRL-3D数据库中包括了参考文献
与MEDLINE的交叉引用，也包括对二级结构，活性位点，结合位点和修饰位点等的注释以
及对有关实验方法、实验方案、R因子等的详细描述。其中也提供了关键词的信息。
NRL-3D 是一个有价值的资源数据库，它所提供的包含在PDB数据库中的序列信息既可以
以关键词的形式进行查询，又可以进行序列相似性搜索。可以使用ATLAS搜索系统对该数
据库进行查询，ATLAS是一个多数据库信息搜索程序，特别用来对大分子序列数据库进行
搜索。
3.3.3 小结
随着一级序列数据库的增长，一系列的问题也随之产生：这些数据库都具有相同的格式
吗？哪一个是最精确的？哪一个是更新最快的？哪一个是最全面的？我们应该用哪一个
？
在蛋白质序列数据库中，NRL-3D数据库虽然仅仅反映了PDB数据库的内容，但是它的有用
之处是这些序列直接与蛋白质结构信息相关联; PIR（1-4）数据库中所包含的数据信息
最全面，但其中的解释说明却相对地贫乏，即使是在PIR1中也是如此; 另外，SWISS-PR
OT数据库的组织结构非常好（如图3.1中所作的描述），并对每个条目作了详尽的说明，
但是它所覆盖的序列却比PIR数据库少。这样看来，要想搜索最恰当的数据库似乎是不可
能的，所以是否要对所有的数据库都进行搜索才能得到想要的信息？
3.4 蛋白质序列复合数据库
面对这么多的一级数据库，一个解决方案是编辑一个复合的数据库，即将不同的一级数
据库资源进行合并。由于不必对多个数据库进行查询，因此在对复合数据库进行序列查
询时效率将会更高。如果复合数据库设计得合理，即对一个序列的查询不会多于一次，
那么这种查询过程就是最高效的。
为了创建高效的复合数据库，提出了多种策略。最终的方案主要是依据所选择的数据资
源和所使用的标准的具体情况，并将这两方面结合起来考虑; 例如，在合成复合数据库
的过程中，如果仅仅将那些具有重复信息的序列排除，那么所生成的复合数据库就是新
的数据库; 更进一步，如果还将相同的和高度相似的序列剔除（如那些只有一个残基不
同的序列，即那些仅仅第一位蛋氨酸不同的序列），那么所得的复合数据库就是非冗余
的数据库。
选择不同的数据库资源和采用不同的标准就会生成不同的复合数据库（如表3.2所示），
这样生成的每一个复合数据库都会有各自的形式。下面就简要介绍一下一些主要的复合
数据库。
3.4.1 NRDB
NRDB(非冗余数据库)是由NCBI创建的。该数据库是由Genpept（来源于GenBank CDS自动
翻译数据库）、PDB序列数据库、SWISS-PROT数据库、Spupdate（每周更新的SWISS-PRO
T数据库）、PIR和GenPeptupdate(每天更新的Genpept)数据库复合而成。因此该数据库
是一个较完全的，包含最新信息的数据库。但是，严格地来说，这个数据库中包含有冗
余的信息，但不包含相同的信息，即在该数据库中已将那些与某一序列相同的序列信息
剔除。由于NRDB是通过简单的比较方法生成的，因此就会带来一些问题：例如，一些相
同蛋白质的相关重复信息仍然保留在数据库中，在SWISS-PROT数据库中的一些错误序列
仍然被引入NRDB数据库，以及众多序列与已存在的序列片段重复等。所以，尽管NRDB数
据库被称作非冗余数据库，但其实是名不副实的。另外，NRDB数据库也被作为NCBI提供
的BLAST服务的默认数据库。
表3.2 蛋白质序列复合数据库
NRDB
OWL
MIPSX
SP+TrEMBL
PDB
SWISS-PROT
PIR1-4
SWISS-PROT
SWISS-PROT
PIR
MIPSOwn
TrEMBL
PIR
GenBank
MIPSTrn
GenPept
NRL-3D
MIPSH
SWISS_PROTupdate
PIRMOD
GenPeptupdate
NRL-3D
SWISS-PROT
EMTrans
GBTrans
Kabat
PseqIP
3.4.2 OWL
OWL是一个非冗余的蛋白质序列数据库，现存于Leeds大学，是由Leeds大学和Warringto
n的Daresbury实验室合作开发的(Bleasby et al., 1994)。OWL数据库是由四个主要的一
级序列数据库复合成的：包括SWISS-PROT，PIR1-4，GenBank（CDS 翻译）和NRL-3D。
在合成OWL数据库的过程中，考虑到每个数据库所包含序列信息的情况，赋予它们不同的
优先级，SWISS-PROT数据库具有最高的优先权。在对信息的处理上，删除了与某一序列
相同序列的信息，也剔除了与某一序列相差单个氨基酸的序列的信息，因此，所得到的
OWL数据库是一个紧凑的、高效的序列数据库。尽管如此，OWL数据库仍然有许多与NRDB
相同的问题，即在该数据库中仍然有一些错误的序列和对GenBank中不正确序列的重翻译
。由于OWL数据库的更新周期是6-8周，因此与其它数据库相比，OWL不是最新的数据库。
英国的EMBnet国家节点上提供有针对于OWL的BLAST服务，在SEQNET，UCL上的专家节点也
可以找到该地址。
3.4.3 MIPSX
MIPSX是一个由Martinsried的Max-Planck研究所创建的合成数据库(Mewes et al., 199
8)。MIPSX包含如下数据库的信息：PIR1-4、MIPS的一级数据库——MIPSOwn、MIPS/PIR
一级数据库——PIRMOD、MIPS一级翻译数据库——MIPSTrn、MIPS酵母数据库——MIPSH
、NRL-3D、SWISS-PROT、EMTrans——EMBL的自动翻译数据库、GBTrans——翻译的GenB
ank数据库、Kabat 和 PseqIP。MIPSX数据库按照表3.2中所列的上述数据库的顺序赋予
优先级，并将这些数据库中和数据库间的重复序列删除，只保留该序列的一个相关信息
。另外，也将那些信息完全包含于其它序列中的序列删除。
3.4.4 SWISS-PROT + TrEMBL
EBI将SWISS-PROT和TrEMBL数据库合并，构成一个较全面的并且只有最低限度冗余的数据
库(Bairoch 和 Apweiler, 1998)。与上面所提到的数据库相比，该数据库只有较少的错
误，但它还称不上是真正的非冗余的数据库（据1997年年中的估计，其中包含了SWISS-
PROT 和 TrEMBL中的30%的重复序列）。为了尽可能地减少错误频率和冗余程度，就需要
增加人为的干涉和（或者）在将来发展专家数据库管理系统。可以使用EBI网络服务器上
的SRS序列搜索系统来查询SWISS-PROT 和 TrEMBL数据库。
3.4.5 小结
就象一级数据库的增加所带来的问题一样，如何选择最好的复合数据库来进行序列分析
同样困扰着数据库的使用者，人们不知道哪一个数据库具有较高质量的数据信息，哪一
个数据库更全面，哪一个是最新更新的数据库，应该使用哪一个数据库等等。
最终的选择一般要考虑所要处理的工作中哪一个因素起决定作用来判断采用哪一个数据
库，或依据哪一个网络服务器所提供的信息更快捷来判断。拿OWL数据库来说，虽然它的
更新速度不快，但其中的信息都被作了索引，这就是说可以使用查询语言来搜索相关的
信息，并且可以采用不同的查询和操作方法快速得到查询结果。与OWL相比，NRDB不能提
供复杂的查询，但它包含了每天更新的GenPept和每周更新的SWISS-PROT数据库的序列信
息，因此查询NRDB数据库可以得到最新的序列信息。
现在访问网络是比较容易的事情，尽管有时网络的速度慢一些，但为了要得到所需要的
信息，最好不要怕麻烦多搜索一些复合数据库。当然，在开发出真正的没有错误的、非
冗余的、全面的复合序列数据库之前，还要不断地对合成复合数据库的基本原理进行研
究，这可能是最实际的解决方案。另外，可以使用NCBI上的nr软件来创建内部的定制的
复合数据库。
3.5 序列模块数据库
除了众多的一次和复合数据库资源外，还有许多序列模块（或模式）数据库，如此的称
谓是因为这些数据库所包含的信息是对一级数据资源的分析结果。由于存在许多不同的
一级数据库，和不同的分析蛋白质序列的方法，因此每个序列模块数据库中包含的信息
也是不同的，并且不同的数据格式也反映了这些数据库质量的不同。要想设计出能够查
询不同类型的数据、能够说明查询输出的范围及能够评估出查询结果所包含的生物学意
义的软件工具不是一项简单的工作。
尽管SWISS-PROT数据库存在这样那样的问题，但它仍被作为最普遍应用的一级数据库，
许多序列模块数据库也是以它为基础的。一些主要的序列模块数据库资源列于表3.3中。

表3.3 一些主要的序列模块“模式”数据库以及生成序列模块数据库所需要的一级数据
库，每个序列模块数据库所存储的模式也被列出。PRINT序列模块数据库是唯一一个由复
合数据库生成的序列模块数据库
序列模块数据库
生成序列模块数据库的一级数据库
序列模块数据库中存储的信息
PROSITE
SWISS-PROT
正则表达（模式）
Profiles
SWISS-PROT
加权矩阵（序列谱）
PRINTS
OWL*
比对的序列模体s（序列指纹图谱）
Pfam
SWISS-PROT
隐-马氏模型（HMMs）
BLOCKS
PROSITE/PRINTS
比对的序列模体s（blocks）
IDENTIFY
BLOCKS/PRINTS
模糊的正则表达（模式）
*SWISS-PROT是用于生成OWL复合数据库的优先级最高的一级序列数据库
图框3.4 序列模体
当进行多重序列比对时，由于有多个亲缘关系不等的序列包括在内，因此就需要插入一
些Gap来使比对的序列形成正确的匹配。随着Gap的插入，一些具有保守性的匹配区域形
成，这些保守区域通常有10-20个氨基酸的长度，并对应着蛋白质核心的结构或功能区域
。这些保守区域的特性可以用来对蛋白质家族的成员进行鉴别（请参阅图框3.5）。这些
区域通常被称作序列模体，但也有将它们称作blocks（序列模块）, segments（片断）
或features（特征）的。
3.5.1 为什么要生成序列模块数据库？
从表3.3中可以看出，存储在每一个序列模块数据库中的信息类型都是不相同的。但是这
些数据库中都有共同的准则：即同源序列按照多重序列对比方法收集在一起，它们之间
的保守区基本不变。这些保守区或序列模体通常反映了一些生物学规律（也就是反映了
蛋白质的一些重要的结构和功能）。请参阅图框3.4。序列模体被用来以不同的方式为特
殊的蛋白质家族建立鉴别模式，如图3.2或图框3.5中的例子。这种查询设想是以一个未
知的序列作为查询目标，搜索这些模式数据库，来确定该序列是否包含可能的特殊的相
似模式，由此来判断该序列是否能被归入一个已知的家族。如果一个蛋白质家族的结构
和功能是已知的，搜索模式数据库可以快速推断一个序列是否具有该家族的生物学功能
。因为模式数据库的信息来源于多个序列的比对结果，查询模式数据库比查询一级数据
库能够更好地确认蛋白质间的距离关系。然而，到目前为止，还没有一个模式数据库是
很完善的，它们只是一些在一级数据库基础上的补充，而不能替代一级数据库。
图3.2构建模式数据库的方法
图框3.5 在序列分析方法中所用到的术语
主要的序列分析方法是多重序列比对。应用多重序列比对方法就可以生成一系列保守的
区域，用这些保守区域就可以来鉴别蛋白质的结构或功能性质。在下图中介绍了用于描
述不同类型数据的术语。
在单一的序列模体中，序列信息可以被描述成统一的表达式，如C-Y-X2-[DG]-G-X-[ST]
，在方括号中的残基被规定必须在该位置，X代表任意残基。如此的对序列模体的统一描
述被称作正则表达或模式。比较短的如只有三或四个残基长度的正则表达被称作规则（
rule），即图中所示的[ST]-X-[RK]。相对应的，用于描述一组序列模体的术语被称作序
列指纹图谱或信号（signature），在这些序列模体中，所有的残基的信息都保留在频率
矩阵中。在频率矩阵中加上打分表，就生成了加权矩阵，或称为序列模块（blocks）。
全部匹配信息，再加上gap区的信息，就生成了序列谱。来自于匹配的序列谱的概率模型
被称作隐马氏模型（Hidden Markov Models）。
下面要对一些主要的序列模块数据库作简要介绍。有关分析方法和如何使用等将在第八
章中介绍。
3.5.2 PR0SITE
第一个开发出的序列模块数据库是PROSITE数据库，它现在是由生物信息学Swiss研究所
维护的(Bairoch et al, 1997)。开发PROTSITE数据库的依据是在蛋白质家族中，同源的
蛋白质序列通过多重序列对比方法得到的具有保守性的序列模体区域具有相同的特性这
一原理来实现的，这样的序列模体区域通常编码重要的生物学功能，也就是那些酶的活
性位点、配体或金属的结合位点等等。
查询这样的序列模块数据库在理论上将可以帮助我们来确定一个新的蛋白质序列属于哪
一个蛋白质家族，或者能够判断出该序列可能包含什么样的结构域或功能位点。
在PROSITE数据库中，编码为正则表达的序列模体s通常被看作一个模式。这一得到模式
的过程与构造多重序列对比和人工识别保守区相关联。包含在单个序列模体中的序列信
息被作为具有一定规则的表达式（single consensus expressions），最终的种子模式
被用于搜索SWISS-PROT数据库。得到的结果再经检验以用来确定模式匹配行为的优劣：
理想的结果是仅存在正确的匹配，称作阳性结果（true-positives），而没有假阳性结
果（false-positives），请参阅图框3.6。模式所具有的鉴别行为就是通过对许多假阳
性匹配进行调整，并不断扫描SWISS-PROT数据库而产生的。这一过程重复进行，直到产
生最佳的模式。
有时，一个单一的序列模体不能有效地用来确定一个蛋白质家族的特性。在这种情况下
，就要使用另外的模式来确定该家族所具有的保守的特性。要想对一个蛋白质家族的特
性进行鉴别，就要尽可能地找到该家族所包含的一系列模式。
PROSITE序列模块数据库的结构
在PROSITE数据库中，每条信息都是以两个不同的文件形式存在的。在第一个数据文件中
的模式和目录都与SWISS-PROT数据库匹配; 如图3.3所示，其中的数据按照SWISS-PROT数
据库的形式存在，并且每一部分都对应着一定的信息。在第二个文件中，以文本文件格
式提供了对蛋白质家族特性的描述，并且给出了序列模体所具有的生物学作用及其相关
的参考书目，如图3.4所示。
图框3.6 确定数据库匹配的重要性
序列分析的一个目标是应用例如对蛋白质家族来说具有鉴别能力的模式来帮助得到性质
未知的序列功能和/或结构方面的信息。具体的作法主要是通过对一级序列数据库进行搜
索，来确认已知序列间的关联，即判断在一级序列数据库中，哪些序列的是同源的（即
具有阳性匹配结果），哪些序列是不同源的（即具有阴性结果）。但是，数据库搜索中
，在给定的打分阈值下，也可能会出现一些不同源的序列与搜索出的模式错误地匹配（
称为假阳性），或者一些正确的匹配模式完全没有鉴别行为（称为假阴性）。
为了得到具有鉴别能力的模式，就要提高鉴别行为，即收集所有的或绝大部分具有阳性
结果的蛋白质家族的成员，而不包括或很少包括假阳性的蛋白质家族成员，也就是说要
减少或排除假阴性。为了达到此目的，就要尽可能地将下图所示的小面积的阳性曲线与
大面积的阴性曲线分离，使它们间的重叠越少越好，或是完全不重叠。这样做是非常重
要的，因为对于那些落入重叠区域的序列来说，很难或不可能确定它们所具有的匹配状
态，一般采用统计的方法来确定这些序列的匹配状态，但是要记住，数学上的结果并不
代表生物学上的意义。目前许多分析方法被用于区分该重叠区域内序列所具有的正确匹
配，提高数据库搜索的分辨率和鉴别行为，以达到提高对蛋白质家族的鉴别能力。
ID   OPSIN; PATTERN.
AC   PS00238;
DT   APR-1990 (CREATED); JUL-1998 (DATA UPDATE); JUL-1998 (INFO UPDATE).
DE   Visual pigments (opsins) retinal binding site.
PA   [LIVMWAC]-[PGAC]-x(3)-[SAC]-K-[STALIMR]-[GSACPNV]-[STACP]-x(2)-[DENF]-
PA   [AP]-x(2)-[IY].
NR   /RELEASE=36,74019;
NR   /TOTAL=144(144); /POSITIVE=144(144); /UNKNOWN=0(0); /FALSE_POS=0(0);
NR   /FALSE_NEG=2; /PARTIAL=4;
CC   /TAXO-RANGE=??E??; /MAX-REPEAT=1;
CC   /SITE=5,retinal;
DR   P22269, OPS1_CALVI, T; P06002, OPS1_DROME, T; P28678, OPS1_DROPS, T;
DR   Q25157, OPS1_HEMSA, T; P35360, OPS1_LIMPO, T; O15973, OPS1_PATYE, T;
DR   Q94741, OPS1_SCHGR, T; P08099, OPS2_DROME, T; P28679, OPS2_DROPS, T;
DR   Q25158, OPS2_HEMSA, T; P35361, OPS2_LIMPO, T; O15974, OPS2_PATYE, T;
DR   Q26495, OPS2_SCHGR, T; P04950, OPS3_DROME, T; P28680, OPS3_DROPS, T;
DR   P08255, OPS4_DROME, T; P29404, OPS4_DROPS, T; P17646, OPS4_DROVI, T;
DR   P91657, OPS5_DROME, T; O01668, OPS6_DROME, T; P51471, OPSB_ANOCA, T;
.
.
DR   O12948, OPSR_XENLA, T; P35359, OPSU_BRARE, T; Q90309, OPSU_CARAU, T;
DR   P90680, OPSV_APIME, T; P28684, OPSV_CHICK, T; P87368, OPSV_ORYLA, T;
DR   P51473, OPSV_XENLA, T; O14718, OPSX_HUMAN, T; O35214, OPSX_MOUSE, T;
DR   P23820, REIS_TODPA, T; P47803, RGR_BOVIN , T; P47804, RGR_HUMAN , T;
DR   P17645, OPS3_DROVI, P; O18914, OPSR_CANFA, P; O18913, OPSR_FELCA, P;
DR   O18912, OPSR_HORSE, P;
DR   O18911, OPSG_ODOVI, N; O18910, OPSG_RABIT, N;
3D   1BOJ; 1BOK;
DO   PDOC00211;
//
图3.3 PROSITE数据库示例
PROSITE数据库中的数据文件的结构与SWISS-PROT数据库一样，每一条信息都包含了标识
号（ID）（通常是蛋白质家族名称的缩写）和编码（AC）（该编码以PS00000的格式存在
）。在ID行也有其它的指示标记——在这里的PATTERN一词就告诉我们这是一个正则表达
。标题或对蛋白质家族的描述位于DE行，该蛋白质家族所具有的模式列于PA行。随之的
NR行提供了得到该模式的技术细节和鉴别性能（或鉴别能力），因此，当进入PROSITE条
目中时，NR行所提供的信息可能是最重要的，因为大量的假阳性和假阴性结果将预示着
错误的判断模式。在图3.3所示的例子中，我们可以从NR行所提供的信息中知道，这个模
式来自于32版本的SWISS-PROT数据库，包含有49340个序列; 有53个序列与该模式匹配，
所有的这些匹配都是阳性的，换句话说，这是一个较好的模式，没有错误的匹配。
评论（CC）行提供了在分类范畴上的蛋白质家族的信息（在这里定义为eukaryote），可
观察到的该模式的最大重复数（在此例中重复数仅为1），对功能位点的说明（在此例中
，视网膜的结合位点被编码在该模式的第五位）等等。在评论行之后，列出了一系列与
该模式真正匹配的各序列的AC号和在SWISS-PROT中的标识号ID（以T标识）及一些与该模
式可能匹配的序列（以P标识），这些序列通常是一些序列片断。在此例中，虽然没有假
阳性或假阴性的匹配，但是在其它条目中如果有的话，就用F和N来分别标识（错误和错
过的匹配也会在NR行中说明）。在该例中的最后一行是DO行，用来指示相关的蛋白质家
族的另一个文本文件的内容

--


<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 211.93.34.116]

Algorithm 版 (精华区)