.
. . .

Presentación

El mapa de la vida, descifrado

Qué es / Qué son

Los hitos / La historia

Noticias

Gráficos

Polémicas

Aplicaciones

Una perspectiva de futuro

Mapa del web

.
Publicado en EL PAÍS el 27 de junio de 2000

EL MAPA DE LA VIDA, DESCIFRADO
El próximo desafío se llama proteoma

Los biólogos se lanzan ahora a describir todas las proteínas humanas y a conocer su función - Ver gráfico

IGNACIO F. BAYO
Conseguir el genoma humano no ha sido más que un paso en el camino del objetivo final de tanta inversión: llegar a conocer lo más exactamente posible el funcionamiento del organismo. Y el genoma no es más que el libro de instrucciones generales; quienes realizan el trabajo de verdad son las proteínas. El conjunto de todas las proteínas que intervienen en los procesos biológicos de una especie es lo que se conoce como proteoma de esa especie, y el objetivo que se plantea ahora es llegar a determinar la composición, estructura y funciones de todas y cada una de ellas.

Laboratorios públicos y privados del mundo, incluida la empresa Celera Genomics, de Craig Venter, se han lanzado ya a la carrera por conseguir el proteoma humano, aunque esta vez el plazo puede ser demasiado largo como para que quienes empiezan el trabajo lleguen a ver su conclusión. Si el descifrado del genoma ha llevado una decena de años, el del proteoma ni siquiera se vislumbra.

MAYOR COMPLEJIDAD.- Comparativamente, la complejidad del problema es mucho mayor. Mientras que el ADN es una ristra de bases con sólo cuatro variedades, las proteínas están construidas con aminoácidos, de los que existen 20 diferentes. Además, muchos genes pueden ser editados de formas distintas para producir proteínas diferentes. Por otro lado, el ADN se encuentra localizado en el núcleo de cualquier célula, lo que facilita su obtención y purificación, mientras que muchas proteínas sólo están presentes en algunos tipos de células, y sólo en ciertas fases del desarrollo.

Por último, no basta en esta ocasión con cartografiar cada proteína, es decir, con enumerar la secuencia de aminoácidos que la forman, porque tan importante como dicha secuencia es la estructura tridimensional que tiene, su forma, que interviene decisivamente en el papel que cumple. Una proteína plegada incorrectamente no sólo no cumple su función biológica, sino que puede convertirse en patógena.

Pese a estas dificultades, las proteínas empezaron a "resolverse" (determinar su cadena de aminoácidos, su estructura y algunas de sus funciones) en los años sesenta, mucho antes de que se iniciaran los procesos de secuenciación del ADN. Pero el esfuerzo que suponía la determinación de cada proteína era enorme, el coste muy abultado y el plazo excesivamente largo.

El proceso se ha visto ahora facilitado enormemente. La tecnología ha mejorado, se dispone de nuevas herramientas, como los biochips, y de una abundante información sobre el genoma de muchas especies. Dado que las proteínas se fabrican a partir de la información contenida en el ADN, una vez conocido un gen es trivial deducir la secuencia de aminoácidos. El primer paso resulta, pues, sencillo. Para el segundo, determinar su estructura, es preciso purificar la proteína y someterla a cristalografía de rayos X o a resonancia magnética nuclear (RMN).

La primera técnica exige que la purificación sea muy buena y que la proteína pueda cristalizar; a cambio, ofrece unos resultados espectaculares, ya que bastan unos días para poder determinar la estructura tridimensional. La utilización de fuentes muy potentes de rayos X, como los sincrotrones, permite mejorar la técnica.

La resonancia magnética nuclear es eficaz con proteínas de pequeño tamaño, pero a partir de 200 aminoácidos se complica. A cambio, tiene la ventaja de que no exige la cristalización de la muestra. Su papel puede empezar a ser muy relevante dentro de poco tiempo, cuando la conquista del proteoma humano se convierta en objetivo prioritario de los laboratorios de todo el mundo. Una de las claves para acelerar esta investigación será trocear las proteínas y estudiar los trozos por separado. No es sólo una cuestión metodológica. La mayor parte de las proteínas están compuestas por fragmentos más o menos autónomos, denominados dominios, y que se repiten en otras proteínas.

Una vez conocida la secuencia y la estructura de una proteína, es necesario conocer su función. Este tercer paso es el más complejo, porque la mayor parte de las veces ocurre que ni el proceso se debe solamente a una proteína ni cada proteína interviene sólo en un proceso. Una forma de buscar en el pajar de las funciones es comparar la proteína con otras de función conocida, tanto en la propia especie como en otras, ya que la mayor parte de las proteínas se conservan en muchos organismos, a veces muy lejanos filogenéticamente entre sí. Otra manera de atajar el problema es estudiar qué proteínas interaccionan entre sí, lo que no explica su función, pero va creando un mapa de relaciones cuya utilidad se pondrá de manifiesto cuando se vayan conociendo funciones de algunas de ellas.

Alfonso Valencia, investigador del Consejo Nacional de Biotecnología del CSIC, explica: "Tenemos actualmente unas 2.500 proteínas, de diferentes organismos, de estructura inicial conocida y se resuelven unas cinco más diariamente".

Estos datos parecen indicar que se está produciendo una aceleración de estas investigaciones, aunque el tercer paso, la determinación de la función, sigue presentando una gran dificultad. Ahora mismo, según Valencia, concretar la función bioquímica de una proteína en laboratorio supone unos tres años de trabajo, aunque se podría reducir enormemente a medida que se generalicen nuevas herramientas, como los mapas de interacción, el acceso a bases de datos que permitan comparar rápidamente estructuras con otras de función conocida o la disponibilidad de datos relativos a los dominios que conforman las proteínas.

Las dificultades para completar los proteomas no implican que el conocimiento que se va generando no tenga ya aplicaciones prácticas. A los laboratorios farmacéuticos les basta con conocer la función de una proteína específica para permitirles explorar su posible utilización en el desarrollo de un fármaco. Una de las vías consiste en comparar las proteínas presentes en un tejido determinado entre personas sanas y personas con alguna patología. Así, los laboratorios Pfizer han encargado a Oxford Glyco-Sciences PLC, una de las todavía escasas empresas dedicadas a proteómica, el estudio de todas las proteínas presentes en el fluido espinal de pacientes de Alzheimer y de personas sanas para determinar aquellas que puedan estar involucradas en esta enfermedad y desarrollar fármacos capaces de bloquear su actividad.


Empieza la era de la bioinformática

El principal escollo al que se enfrenta la proteómica, y en general la biología básica, es la carencia de sistemas informáticos apropiados para la inmensa cantidad de cálculo implicado en este tipo de investigaciones. El investigador del Consejo Superior de Investigaciones Científicas Alfonso Valencia se dedica al desarrollo de software para análisis de proteínas en todos los niveles, análisis de genoma, determinación de secuencias y estructuras, comparación con bases de datos o predicción de funciones.

Valencia se considera un bioinformático, una especialidad aún poco desarrollada en el mundo y cuya demanda empieza a ser importante. "El problema es que la informática es artesanal todavía, los programas más complejos hay que hacerlos línea a línea y, aunque hay sistemas de control y módulos que facilitan la tarea, el trabajo de programación resulta aún muy lento", dice.

Pese a todo, con los equipos más potentes actuales se podría obtener ya mucha más información que la que se consigue, pero existe otro problema: la dispersión de los datos. Los investigadores y las empresas guardan celosamente los resultados de sus trabajos por la posibilidad de realizar patentes a partir de ellos. Incluso en los casos en que ponen la información en la red es difícil trabajar con ellos porque no se han desarrollado mecanismos de búsqueda adecuados.

"La base de datos de la National Library of Medicine de Estados Unidos es la mayor fuente accesible computerizada y contiene 10 millones de referencias, pero sólo están los sumarios de los artículos técnicos, luego tiene uno que buscar lo que le interese en otros sitios...", se queja Valencia. El investigador añade: "Se trata de una información desestructurada, que no puede incorporarse directamente para estudiar la función de una proteína. Es, por así decir, una información muerta".

Lo deseable sería poder cruzar datos de miles de genes o de proteínas para conseguir con rapidez indicios de su estructura y de su función que permitan avanzar en la investigación. Una posibilidad sería, según Valencia, aplicar la tecnología que están utilizando los buscadores de la web para seleccionar cada vez con mayor precisión la información demandada, mediante análisis estadístico de las palabras clave introducidas.

Ahora se empiezan a aplicar estas técnicas en el campo de la proteómica, pero aun así, resolver un proteoma relativamente sencillo llevará aún muchos años, decenios probablemente en el caso del proteoma humano.

. .

EL PAÍS