Uso de bases de datos (ej 3)

En esta actividad se llevó a cabo la búsqueda del término pp1 holoenzyme en distintas bases de datos con el objetivo de comparar y analizar los resultados de búsqueda obtenidos en cada una de ellas. Además, se va a llevar a cabo una comparación de los formatos PDB, UniProt, GenPept y FASTA. 

Protein Data Bank (PDB)

El PDB es un repositorio de información de las estructuras tridimensionales tanto de proteínas como de ácidos nucleicos.[1] El PDB permite tanto la búsqueda de estos datos como el análisis y la visualización de los resultados.[1]

Al realizar la búsqueda en el PDB del término pp1 holoenzyme, solamente se muestran tres resultados. Todos estos resultados se refieren a la subunidad catalítica PP1-alfa unida a dos subunidades reguladoras distintas:


  • Uno de los resultados es el PDB asignado, que se corresponde a la holoenzima formada al unirse al inhibidor NIPP1. 
  • Los otros dos resultados se corresponden a las dos formas del cristal utilizado para el análisis de la estructura tridimensional por difracción de rayos X de la subunidad catalítica unida a la subunidad reguladora 10 de PP1 (de Rattus norvegicus).
Sin embargo, la secuencia primaria correspondiente a la subunidad catalítica alfa de estos 3 PDB es la misma. 


Al hacer una búsqueda por similaridad en la secuencia de aminoácidos con un cutoff del 95% se han obtenido un total de 27 cadenas que se corresponden a distintos PDB de las subunidades catalíticas alfa y gamma de PP1 de humano y de Mus musculus. 

La secuencia primaria del PDB se puede extraer cómo se ha realizado en las actividades anteriores por análisis de todos los átomos del PDB. Sin embargo, el propio PDB recoge la secuencia primaria de la proteina en el campo SEQRES. En este campo se recoge la secuencia de aminoácidos en líneas formadas por trece aminoácidos en código de tres letras. Además, en cada línea se indica su número, la cadena polipeptídica a la que pertenece y el número total de aminoácidos de esa cadena.

Un ejemplo de la primera línea del PDB asignado es:


SEQRES   1 A  306  GLY HIS MET GLY SER LEU ASN LEU ASP SER ILE ILE GLY          

Universal Protein Resource (UniProt)

UniProt es un recurso muy extenso para secuencias de proteínas.[2] Dentro de las bases de datos de UniProt cabe destacar UniProt Knowledgebase (UniProtKB), que recoge una gran cantidad de datos sobre información funcional de proteínas[3] y permite llevar a cabo búsquedas de una gran cantidad de información, desde secuencias de aminoácidos hasta datos taxonómicos de una proteína.

La búsqueda de pp1 holoenzyme en UniProtKB dio lugar a un total de 27 resultados de proteínas que se encuentran en distintos organismos y ninguno de ellos se corresponde con la holoenzima de pp1. Algunos de los resultados se refieren a la subunidad reguladora 14B y a la subunidad catalítica 2A de pp1 encontradas en distintos organismos (Mus musculus, Homo sapiens, Rattus norvegicus). Mientras que otros resultados son proteínas tan dispares como el factor de unión 3 de la interleuquina o la serina/treonina proteína quinasa del protooncogen RAF. 

Al realizar la búsqueda de pp1 se obtiene un total de 3.859 resultados. La mayoría de los resultados mostrados en las primeras páginas se refieren a distintas subunidades reguladoras y catalíticas de PP1 encontradas en distintos organismos.

No se ha encontrado el archivo de UniProt característico de la holoenzima asignada, pero sí se ha encontrado el archivo que se refiere a la subunidad catalítica alfa de PP1. La secuencia de aminoácidos de ambos archivos difiere al principio de la secuencia, ya que el archivo PDB no tiene los seis primeros residuos, y al final de la secuencia, ya que el archivo PDB tampoco contiene los aminoácidos finales. Así, el número de aminoácidos del archivo de UniProt contiene un total de 330 aminoácidos, mientras que el archivo PDB tiene un total de 306 aminoácidos.

En el formato de esta base de datos, la secuencia de aminoácidos se encuentra al final del archivo tras una línea de la que caben destacar las siguientes columnas:
  • Dos cadenas de caracteres 'SQ' y 'SEQUENCE' que especifican que a continuación se muestra la secuencia de aminoácidos.
  • El número de aminoácidos.
  • El peso molecular de la proteína.
A continuación se muestra un ejemplo de este tipo de línea:

SQ   SEQUENCE   330 AA;  37512 MW;  60C37E1AD9831DAC CRC64

A partir de la línea recién descrita se encuentra la secuencia de aminoácidos en grupos de 10 aminoácidos separados por un espacio, como se puede observar en el siguiente ejemplo:

MSDSEKLNLD SIIGRLLEVQ GSRPGKNVQL TENEIRGLCL KSREIFLSQP ILLELEAPLK

National Center for Biotechnology Information (NCBI)

El NCBI almacena y actualiza constantemente una gran cantidad de información referente a secuencias genómicas, artículos científicos u otros datos biotecnológicos de interés. En concreto, para el estudio de proteínas presenta la base de datos Protein formada por una gran colección de secuencias de proteínas procedentes de traducciones de regiones codificantes de otras bases de datos como GenBank y de registros procedentes de bases de datos como SwissProt. 

Al realizar la búsqueda de pp1 holoenzyme en la base de datos Protein se obtuvieron un total de 86 resultados entre los que se incluyen como resultados únicos las distintas cadenas polipeptídicas que se ven englobadas en un mismo PDB.

Aunque se pueden descargar las secuencias en otros formatos, el que emplea esta base de datos es el formato GenPept, donde la secuencia de aminoácidos se encuentra al final del archivo tras una línea denominada 'ORIGIN'. 

La estructura de las líneas que definen la secuencia de aminoácidos es la siguiente:
  • El número del primer aminoácido de la línea.
  • La secuencia de aminoácidos en grupos de 10 aminoácidos en formato de una letra separados por un espacio.
Un ejemplo de esta estructura:

        1 ghmgslnlds iigrllevqg srpgknvqlt eneirglclk sreiflsqpi lleleaplki

Formato FASTA

Todas las bases de datos comentadas anteriormente permiten descargar la secuencia de aminoácidos de la proteína en este formato. 

En este formato se observan dos partes bien diferenciadas:
  • La primera línea, donde se indica el número de acceso, el nombre en el PDB y el título del archivo.
  • En el resto del archivo se muestra la secuencia de aminoácidos de la proteína en código de una letra y sin espacios.
Un ejemplo de esta estructura:

GHMGSLNLDSIIGRLLEVQGSRPGKNVQLTENEIRGLCLKSREIFLSQPILLELEAP

Bibliografía