蛋白质数据库 编辑

蛋白质数据库蛋白质数据库

蛋白质数据库是指包括蛋白质信息的数据库。常用的蛋白质数据库有很多,其中Uniprot被认为收录最广泛和注释信息最全面的蛋白质数据库。Uniprot下包括Swiss-Prot、TrEMBL和PIR-PSD,详见Uniprot_百度百科。其他的蛋白数据库有PDB(Protein Data Bank,简称PDB,开始建立于1971年)等。国内也有些如由上海生物信息技术研究中心下属的生物信息科学数据共享平台建立及维护的SDSPB等。

性能及历史

编辑

蛋白质数据库(HPDB),建于2005年5月, 动态展示生物大分子立体结构,鼠标点击放大分子结构、原子定位、测定原子之间距离,可用于教学或科研。 服务对象是能够熟练使用中文的生命科学、医学、药学、农学、林学等领域的大中专学生、教师及科技工作者 。分子结构特征描述采用汉语,同时提供英文原文以供考证。 对于善于使用英文的读者,我们提倡直接访问RCSB PDB,一来可以减少网络拥挤,二来可以减少由于 HPDB 的翻译不妥带来的不便。

 

蛋白质数据库(HPDB)对每个蛋白质分子结构说明部分做了中文翻译(最新加入数据库的分子除外),内容包括分子结构定性描述、样品的来、表达载体、宿主、化学分析方法、分子结构组成成分等。 这些信息并同蛋白质分子结构数据存储于数据库, 因此 HPDB 支持中文查询。

蛋白质数据库(HPDB)虽然翻译了“分子结构说明”部分,但为了保证数据的可靠性和准确性,HPDB对一级结构序列及大分子结构坐标数据等未做任何改动,数据库保持 RCSB PDB 核实后的原始实验数据文件,并保持 PDB 文件格式和蛋白质分子编号 。

布鲁克海文蛋白质数据库(TheBrookHavenProteinDataBank,PDB)是由美国布鲁克海文国家实验室所维护的关于生物大分子三维结构的数据档案,其内容包括生物大分子的原子坐标、参考文献、1级和2级结构信息,也包括了晶体结构因数以及NMR实验数据。PDB由美国国家科学基金等组织提供资助,对全球的科研工作者、教育工作者以及学生等提供免费服务。

PDB创立于1973年,到了90年代,PDB中的数据开始逐步发展丰富起来。据统计,从1992—1996年该库收集的生物大分子结构的数目分别是1007、1727、2921、3821和4707,平均每年递增50%。到1998年4月8日为止,该库共收集了7429个原子坐标的入口文件,1739个结构因数文件,429个NMR抑制文件。PDB中主要收集蛋白质的结构信息,也包括了少量的核酸及糖的三维结构。获得信息的实验技术主要为X线衍射技术以及NMR实验技术 。

文件结构

编辑

在蛋白质晶体结构数据库PDB中,各大分子结构是以分立的文件形式记录的,这些文件被称作PDB的入口文件(entry)。1个文件只反映某个大分子结构的信息。每个大分子结构通过唯一的ID码(4位代码)来识别。早期的入口文件文件名后缀为“.pdb”,1种大分子对应1个文件,如:阿比西尼亚卷心菜(ABYSSINIAN CABBAGE SEED)种子蛋白的ID码是1CRN,其入口文件名为1CRN.pdb。1997年以后,每1种生物大分子有1组(3个)相关文件与之对应,它们是:全文文件、书目文件和图形文件,例如,抗生素MINORCOATPROTEIN的ID码是1G3P,它的3个相关文件分别为1G3P.full(全文文件)、1G3P.biblio(书目文件)、1G3P.gif(图形文件);免疫球蛋白(IMMUN-O GLOBULIN)的ID码为1AP2,它的3个相关文件分别为1AP2.full(相当于原来的.pdb文件),1AP2.biblio,1AP2.gif,等等。

 

每1个PDB入口文件包含有标题部分、注释部分、1级结构、异质、2级结构、连通性注释、各种特性、结晶学、坐标变换、原子坐标、化学连接、薄记等12个部分。文件中每1行被称作1条记录,也被称作入口(entry),可理解为记录入口。每行包括80列,每个记录入口的最后1个字符是1个行结束符。PDB文件也可以被看作记录类型(recordtype)的集合。它和一般的关系数据库概念不同。在关系数据库的库文件中,每条记录由不同数据类型和数据格式的若干字段组成,所有记录的字段结构都是相同的。而在PDB文件中,包含众多的记录类型,每类记录都有不同的格式。

基于记录类型在1个PDB入口文件中出现的次数可将1组记录划分成以下6类之一:

  • single:单次记录型。如HEADER、END、CRYST1……,在1个文件中仅出现1次,没有接续部分。

     

  • singlecontinued:单次接续型。如AUTHOR、CAVEAT、COMPND……,在1个文件中概念性地存在1次,其内容超过1行,可表示在后续行中,这些后续行包括1个接续指示字段。

     

  • multiple:多次记录型。如ATOM、CONECT、HELIX……,在1个文件中出现多次,在这类记录类型中信息以列表的形式出现。

     

  • multiplecontinued:多次接续型。例如FORMUL、HETATM、HETNAM,在1个入口文件中概念性地存在多次,每条记录内容超过1行的部分可表示在后续行中,这些后续行包括1个接续指示字段。

     

  • grouping:用来作为其他记录类别的分组标志记录型。如:ENDMDL、MODEL、TER。

     

  • other:其他记录类型,如:JRNL定义坐标系列的文献引用,REMARK表示一般注释。每个记录类型被固定列数分割成若干字段,字段应包含数据类型、字段名和字段定义。没有被定义的列应留空。

     

大分子结构

编辑

一级结构

在生物化学上定义1级结构为蛋白质分子中氨基酸残基的排列顺序。1级结构中的氨基酸是蛋白质最基本的结构单位,标准的氨基酸有20多种,在1个氨基酸中含有氨基—NH2和羧基—COOH,若氨基中失去1个H原子,羧基中失去OH基团,就形成了残基。2个氨基酸可以脱水缩和成肽,形成肽键和稳定的肽平面。相邻2个氨基酸残基以肽键相连接,依次连接下去即构成了1级结构肽链。

在PDB入口文件中,蛋白质1级结构部分主要描述生物大分子每条链中氨基酸的排列顺序。该部分包含有DBREF、SEQADV、SEQRES、MODRES等4种记录,其中SEQRES记录对氨基酸残基有序排列进行了描述。例如,在1ROG(组织相容性抗原HLA-B*2705)入口文件中共有16条SEQRES记录,分为A、B2个链,每行为1条记录,按排列顺序列出氨基酸残基,一行一行连贯下去,就组成了由GLY、SER、HIS,……氨基酸残基顺序连接而成的肽链。下例是由1ROG.pdb文件中摘录的部分内容:

SEQRES 1 A 183 G LY SER HIS SER M ET A RG T Y R PHE HIS TH R SER VA L SER 1ROG 73 SEQRES 2 A 183 A RG P RO G LY A RG G LY G L U PRO A RG PHE IL E T HR VA L G LY 1ROG 74 SEQRES 3 A 183 T Y R VA L ASP ASP T HR L EU PHE VA L A RG PHE ASP SER ASP 1ROG 75 … … … … … SEQRES 14 A 183 A RG T YR LEU G L U A SN G L Y L YS G L U T HR L EU G LN A RG A LA 1ROG 86 SEQRES 15 A 183 N M E 1ROG 87 SEQRES 1 B 9 A RG A RG I LE LYS A LA IL E T HR L EU L YS 1ROG 88

 

 

如前所述,每行是1条记录,每行中第1个字段是记录名“SEQRES”。第2个字段是1个整数,表示记录在当前链中的序号。第3个字段是链的标识符,本例有A和B2个链,如果仅有1个链,则该字段域为空。第4个字段是1个整数,表示本链中氨基酸残基数。第5~17字段是氨基酸残基序列,每个字段是1个氨基酸名字。

 

异质

在PDB文件的异质(heterogen)部分包含了对非标准氨基酸残基的说明。这一部分包含HET、HETNAM、HETSYN、FORMUL等4种记录。HET记录描述了已给出坐标的非标准氨基酸,如:溶性分子、辅基、铁等,同时也描述未知化学名称的异质。在1G3P入口文件里,有关HET的第1条记录为:

HET TRO 21 15

这里“HET”为记录名称,TRO为HET标识符,21为顺序编号,15为HETATM记录中本组群出现的次数,也就是说,本记录描述了顺序编号为21的非标准氨基酸TRO在坐标入口HETATM记录中出现15次。HETNAM记录描述了具有给定非标准氨基酸标识符的化合物的化学名称。例如,1G3P文件中HETNAM记录之一为:

HETNAM SO4 SULFATE ION

描述了HET标识符为SO4的化合物的化学名称为SULFATEION。FORMUL记录描述了非标准组群的化学表示式及其所带的电荷数。

 

二级结构

2级结构是指多肽链的主链骨架以肽平面为单位盘曲、折叠而形成的构像。2级结构包括了3种情况:

  • α-螺旋

     

  • β-片层

     

  • β-转角。

     

    在β-片层中,肽键平面折叠成锯齿状,相邻2个肽键平面之间的夹角呈110°角。在PDB入口文件中,描述蛋白质2级结构的有HELIX、SHEET、TURN3种记录。HELIX记录用于描述分子中α-螺旋结构的位置。给出螺旋的名称和编号,标示出螺旋开始和结束处的残基,以及总长度。SHEET记录用于描述分子中β-片层结构的位置。记录格式与HELIX类似。TURN记录描述折叠和转角。

    从PDB的Web主页(http://www.rcsb.org/pdb/index.html)可以按大分子的4位代码查找。打开了某个蛋白质大分子的网页后,可以查看总体信息、三维结构、序列细节等,还可以下载PDB入口文件。例如,1ROG的氨基酸序列和2级结构如下:

    1 GSHSMRYFHT SVS RPGRGEP RFITVGYVDD TLFVRFDSDA ASPREEPRAPEEEEEEEE EE BTTTB EEEEEETT EE EEEETTT TT EESST 51 WIEQEGPEYW DRETQICKAK AQTDREDLRT LLRYYNQSEA GSHTLQNMYGTTTSS HHHH HHTHHHHHHH HHHHHHHHHH HHHH TT SS S EEEEEEE 101 CDVGPDGRLL RGYHQDAYDG KDYIALNEDL SSW TAADTAA QITQRKWEAAEEE SS B EEEEEEEETT EE EEE TTS EE SHHH HHHHHHHHTT 151 RVAEQLRAYL EGECVEWLRR YLENGKETLQ RAXTTHHHHHHHH HTTTHHHHHH HHHH SSSSS

     

     

    这里,每个氨基酸残基用单个字母表示,2级结构(2、4、6、8行)用H表示螺旋,B表示隔离的β桥上的残基,E表示扩展的β链,G表示310螺旋,I表示pi螺旋,T表示氢键转角,S表示弯曲,等。

     

    连接部分

    这一部分描述了有关二硫键及其他一些化学连接情况,描述化学连接的记录有SSBOND、CONECT、LINK、HYDBND、CISPEP等5种。SSBOND记录描述了蛋白质和多肽结构中的二硫键。CONECT记录表示了其他记录未能表示出的原子间关联状态。例如,在1G3P文件中,有关CONECT的第1条记录为:CONECT4948299这里“CONECT”为记录名称,其后内容表示在ATOM或HETATM记录中的第48位原子和第299位原子分别与第49位原子有成键关系。LINK记录详细描述了在1级结构中不能明确的残基间的关系,它实质上是上面介绍的CONECT记录的1个补充。HYDBND记录描述了原子间形成的氢键。

     

    坐标章节

    坐标章节主要记录了原子的坐标,相关的记录有:ATOM、HETATM、MODEL与ENDMDL。ATOM记录按照从氨基到羧基的顺序给出标准氨基酸残基的各组成元素的空间坐标,从生物化学角度,我们可以对标准氨基酸残基空间结构中的各原子间的连接情况进行描述。以在ATOM记录中位于肽链第1位的标准氨基酸残基ALA为例:ALA残基中所包含的元素及其排列序号为1N2CA3C4O5CB。其中:

    2CA中的A=alpha(α);

    5CB中的B=beta(β)。

    通过以上描述,确定了单个残基的空间位置及各原子相互关系。根据肽链中相邻2个残基发生脱水缩合形成肽键及稳定的肽平面这一性质,我们可以确定1级结构中相邻的2个氨基酸残基间的关系,具体描述为前1个残基结构中的碳原子(CA)与后1个残基结构中的氮原子(N)间形成肽平面,以此类推,就会描绘出1级结构中各个相邻残基间的关系。

    在1G3P文件中,有关第1个残基ALA的ATOM记录为:

    ATOM 1 N ALA 1 -10.684 7.361 121. 696 1. 00 17.19 N ATOM 2 CA ALA 1 -10.459 8.273 120. 534 1. 00 16.43 C ATOM 2 CA ALA 1 -10.459 8.273 120. 534 1. 00 16.43 C ATOM 3 C ALA 1 -10.360 9.687 121. 079 1. 00 16.06 C ATOM 4 O ALA 1 -10.826 9.967 122. 195 1. 00 16.83 O ATOM 5 CB ALA 1 -11.607 8.170 119. 558 1. 00 16.89 C

     

     

    “ATOM”为记录名称,上例第1条记录描述了残基ALA中的氮元素(N)的x、y、z坐标值分别为-10.684、7.361和121.696,所占空间为1.00,温度系数为17.19,元素符号为N,其他ATOM记录针对残基ALA包含的其他元素进行了描述。在1G3P文件中用同样方法描述出其余217个处于不同空间位置的氨基酸残基的原子坐标。HETATM记录描述了组成非标准氨基酸残基的元素(非标准氨基酸残基名称已在HET记录中给出定义)的空间位置坐标。它的记录方式与ATOM记录一致。TER记录标记出ATOM记录的终止位。MASTER记录是对以上各记录的总结。下例中所列数字分别代表了记录REMARK、“0”、HET、HELIX、SHEET、TURN、SITE、坐标变换、原子记录、TER、CONECT、SEQRES的记录总数。例:MASTER25802213006188912817END记录表明了文章的结束,记录格式为END。

  • 可视化

    编辑
    生物大分子三维结构可视化

     

    图示图示

    根据以上介绍可知,在PDB数据库中,生物大分子的结构是通过特定的记录格式,以原子空间坐标值和对于其连接形式、连接顺序等的描述来表示的。通过特定的浏览器,如Rasmol,可基于PDB文件实现对于大分子三维结构的可视化。Rasmol是1个分子现象程序。可嵌入Web浏览器中运行,用于通过超链接,打开因特网上的pdb文件,也可在Windows环境下,或在Mac和Unix环境下单机操作。图是运行Rasmenu.exe后出现的主菜单窗口,在主菜单窗口后面,还同时出现1个分子图形图像显示窗口。在主菜单窗口中打开1个pdb文件,其三维结构图形就在第2个窗口中显示出来。可在主菜单中选择显示形式,如:线状、棒状、棒球状、带状,等等,以及选择颜色的区分方式等等。用鼠标操作,可从不同角度去观察分子三维结构,就像你身临现场,从不同角度去观察1件玲珑剔透的牙雕艺术品一样,十分精美壮观 。

     

    下一篇 X射线晶体学

    上一篇 Cath