Un software localiza genes de interés en la caña de azúcar

Republicar

The Agency FAPESP licenses news via Creative Commons (CC-BY-NC-ND) so that they can be republished free of charge and in a simple way by other digital or printed vehicles. Agência FAPESP must be credited as the source of the content being republished and the name of the reporter (if any) must be attributed. Using the HMTL button below allows compliance with these rules, detailed in Digital Republishing Policy FAPESP.

Agência FAPESP* –Por Peter Moon  |  Agência FAPESP – El genoma de las plantas es mayor y más complejo que el de los mamíferos, las aves o los reptiles y anfibios (los peces constituyen una excepción). 
El ADN humano está compuesto por 3.200 millones de pares de bases distribuidos por 23 pares de cromosomas, en un total de 46 cromosomas. El genoma del trigo (Triticum aestivum), por ejemplo, posee 17 mil millones de bases divididos en 21 pares de cromosomas (un total de 42). En tanto, el genoma de la caña de azúcar está compuesto por 10 mil millones de pares de bases distribuidos entre 100 y 130 cromosomas. 
Para complicar aún más las cosas, la caña de azúcar que se cultiva en la actualidad es un híbrido (Saccharum hybridum) creado con base en cruzamientos de dos especies del género Saccharum: la caña original domesticada en la India hace 3.000 años (Saccharum officinarum) y una gramínea llamada Saccharum spontaneum. 
“El genoma de la caña de azúcar terminó convirtiéndose en un gigante sumamente difícil de trabajar mediante los métodos genómicos actuales. El desciframiento de un genoma como éste requiere de una estructura computacional muy poderosa. Aun cuando se trate del estado del arte en términos de procesamiento, resulta difícil: su costo es muy alto. Esto constituye un reto para la bioinformática”, dijo Marcelo Falsarella Carazzolle, coordinador del laboratorio de bioinformática del Laboratorio de Genómica y Bioenergía (LGE) del Instituto de Biología de la Universidad de Campinas (IB-Unicamp), en Brasil.
“Desde hace años, laboratorios de diversos países han intentado infructuosamente mapear el genoma de la caña de azúcar. Recién hace pocos meses se lo logró, en el marco de un trabajo a cargo de un consorcio integrado varios países, Brasil inclusive”, dijo Carazzolle. 
La estrategia que aplicó dicho consorcio comprendió computación masiva a gran escala, en una gran inversión tendiente a secuenciar el genoma completo de la caña de azúcar, es decir, los 10 mil millones de pares de bases.
En un artículo que ha salido publicado en la revista DNA Research, Carazzolle y sus colegas plantean ahora una estrategia distinta, mucho más económica y veloz, para mapear fragmentos específicos del genoma de plantas poliploides.
Este trabajo formó parte de la tesis doctoral de Karina Yanagui de Almeida y de la investigación de posdoctoral de Juliana José, ambas biólogas del IB-Unicamp bajo la supervisión del profesor Gonçalo Amarante Guimarães Pereira. Y contó también con el apoyo del Consejo Nacional de Desarrollo Científico y Tecnológico (CNPq) de Brasil.
“Logramos desarrollar un software para reconstruir esos genomas complejos y aplicarlo a la caña. No intentamos montar un genoma completo, tal como hicieron anteriormente, cuando reconstruyeron todo el ADN de la planta. Nuestra estrategia consistió en enfocarnos en pequeñas partes del genoma, entre el 1% y el 2% del ADN, exactamente donde se encuentran los genes de interés para el mejoramiento genómico de la planta”, dijo Carazzolle.
Al poner en práctica esta estrategia, hubo un ahorro de decenas de millones de dólares, ya que no fue necesario hacer el mapeo completo de la caña de azúcar. Cuando el trabajo se concretó, el grupo del consorcio aún no había publicado sus resultados, de manera tal que los genetistas brasileños se valieron de genomas públicos conocidos –tales como el del sorgo, el del arroz y el del maíz, que son gramíneas emparentadas en mayor o menor medida con la caña– para localizar en regiones análogas del genoma de la caña las partes de ADN que pretendían descifrar.
El trabajo por analogía es posible puesto que todas las gramíneas cuentan con un antepasado común que vivió hace más de 50 millones de años. En otras palabras, una vez transcurrido ese largo período, el ADN de cualquier gramínea actual, ya sea la caña de azúcar, el trigo, el sorgo, el arroz o el maíz, aún preserva la filigrana de aquel ancestro originario, sumada a los miles de millones de mutaciones acumuladas desde entonces.
Un montador de genes 
El resultado del trabajo realizado en la Unicamp fue la elaboración de un software denominado Polyploid Gene Assembler (PGA o Montador de Genes Poliploides). “El PGA constituye una nueva estrategia para realizar el montaje del espacio genético partiendo de genomas complejos mediante la secuenciación de ADN de baja cobertura”, dijo Carazzolle.
Si bien el PGA demanda menos poder computacional que el procesamiento masivo de un ADN poliploide completo, para poder operárselo en el tiempo adecuado, este programa de todos modos requiere de un gran aparato computacional. Y entonces entró en acción el clúster de máquinas del Centro de Investigaciones en Ingeniería y Ciencias Computacionales (CCES), un Centro de Investigación, Innovación y Difusión (CEPID) que cuenta con el apoyo de la FAPESP, en el cual Carazzolle es uno de los investigadores principales del área de bioinformática. 
“Este trabajo requirió el empleo de las computadoras de alto rendimiento y con mucha memoria existentes en el CCES”, dijo Carazzolle. 
El nuevo programa PGA utiliza como referencia locus génicos conocidos de genomas públicos, a partir de los cuales se aplican estrategias de montaje para construir secuencias genómicas de alta calidad en la especie investigada. La validación del proceso se realizó con trigo (Triticum aestivum), una especie hexaploide, utilizando como referencia a la cebada (Hordeum vulgare), que resultó en la identificación de más de 90% de los genes y varios nuevos genes.
Asimismo, el PGA se empleó para montar el contenido génico en Saccharum spontaneum, la hierba del mismo género que la caña de azúcar tradicional (Saccharum officinarum), utilizada en el linaje parental para variedades híbridas de la caña cultivada actualmente (Saccharum hybridum). 
“Identificamos un total de 39.234, de los cuales el 60,4% se agrupa en familias de genes de gramíneas conocidas. Treinta y siete familias de genes se expandieron cuando se las comparó con otras gramíneas, tres de ellas destacadas debido a la cantidad de copias de genes potencialmente implicados en el desarrollo inicial y en la respuesta al estrés”, dijo Carazzolle.
“Nuestros hallazgos del genoma del S. spontaneum pusieron de relieve por primera vez las bases moleculares de algunas características notables de esta biomasa, tales como la alta productividad y la resistencia frente al estrés biótico y abiótico. Estos resultados podrán aplicarse en futuros estudios funcionales y genéticos, aparte de servir de apoyo para el desarrollo de nuevas variedades de caña de azúcar destinadas a la industria agronómica”, dijo. 
“Al utilizar el PGA, suministramos un montaje de alta calidad de regiones génicas en T. aestivum y S. spontaneum. Demostramos así que el PGA puede ser más eficiente que las estrategias convencionales que se aplican a genomas complejos, y empleamos la secuenciación de ADN de baja cobertura. La bajo demanda de memoria del PGA en comparación con la estrategia de montaje convencional también constituye una ventaja”, dijo Carazzolle.
El investigador hace hincapié en que aun con los grandes avances realizados en las tecnologías de secuenciación, el montaje de genomas complejos todavía constituye un cuello de botella, fundamentalmente a causa la poliploidia y la alta heterocigosidad. 
De acuerdo con Carazzolle, el desarrollo de nuevos esfuerzos de bioinformática puede contribuir para la superación de tales restricciones, especialmente mediante la utilización de los genomas completos de los organismos íntimamente relacionados, en los cuales los métodos basados en conjuntos de referencia pueden aplicarse.
El artículo Unraveling the complex genome of Saccharum spontaneum using Polyploid Gene Assembler (doi: https://doi.org/10.1093/dnares/dsz001), de Leandro Costa Nascimento, Karina Yanagui, Juliana José, Eduardo L. O. Camargo, Maria Carolina B. Grassi, Camila P. Cunha, José Antonio Bresiani, Guilherme M. A. Carvalho, Carlos Roberto Carvalho, Paula F. Prado, Piotr Mieczkowski, Gonçalo A. G. Pereira y Marcelo F. Carazzolle, está publicado en el siguiente enlace: academic.oup.com/dnaresearch/advance-article/doi/10.1093/dnares/dsz001/5320315.

<p><b>Por Peter Moon  |  Agência FAPESP</b> – El genoma de las plantas es mayor y más complejo que el de los mamíferos, las aves o los reptiles y anfibios (los peces constituyen una excepción). </p>
<p>El ADN humano está compuesto por 3.200 millones de pares de bases distribuidos por 23 pares de cromosomas, en un total de 46 cromosomas. El genoma del trigo (<i>Triticum aestivum</i>), por ejemplo, posee 17 mil millones de bases divididos en 21 pares de cromosomas (un total de 42). En tanto, el genoma de la caña de azúcar está compuesto por 10 mil millones de pares de bases distribuidos entre 100 y 130 cromosomas. </p>
<p>Para complicar aún más las cosas, la caña de azúcar que se cultiva en la actualidad es un híbrido (<i>Saccharum hybridum</i>) creado con base en cruzamientos de dos especies del género <i>Saccharum</i>: la caña original domesticada en la India hace 3.000 años (<i>Saccharum officinarum</i>) y una gramínea llamada <i>Saccharum spontaneum</i>. </p>
<p>“El genoma de la caña de azúcar terminó convirtiéndose en un gigante sumamente difícil de trabajar mediante los métodos genómicos actuales. El desciframiento de un genoma como éste requiere de una estructura computacional muy poderosa. Aun cuando se trate del estado del arte en términos de procesamiento, resulta difícil: su costo es muy alto. Esto constituye un reto para la bioinformática”, dijo <b><a href="https://bv.fapesp.br/pt/pesquisador/97293/marcelo-falsarella-carazzolle" target="_blank">Marcelo Falsarella Carazzolle</a></b>, coordinador del laboratorio de bioinformática del Laboratorio de Genómica y Bioenergía (LGE) del Instituto de Biología de la Universidad de Campinas (IB-Unicamp), en Brasil.</p>
<p>“Desde hace años, laboratorios de diversos países han intentado infructuosamente mapear el genoma de la caña de azúcar. Recién hace pocos meses se lo logró, en el marco de un trabajo a cargo de un consorcio integrado varios países, Brasil inclusive”, dijo Carazzolle. </p>
<p>La estrategia que aplicó dicho consorcio comprendió computación masiva a gran escala, en una gran inversión tendiente a secuenciar el genoma completo de la caña de azúcar, es decir, los 10 mil millones de pares de bases.</p>
<p>En un artículo que ha salido <b><a href="https://academic.oup.com/dnaresearch/advance-article/doi/10.1093/dnares/dsz001/5320315" target="_blank">publicado</a></b> en la revista <i>DNA Research</i>, Carazzolle y sus colegas plantean ahora una estrategia distinta, mucho más económica y veloz, para mapear fragmentos específicos del genoma de plantas poliploides.</p>
<p>Este trabajo formó parte de la <b><a href="https://bv.fapesp.br/pt/bolsas/134974" target="_blank">tesis doctoral</a></b> de <b><a href="https://bv.fapesp.br/pt/pesquisador/172490/karina-yanagui-de-almeida" target="_blank">Karina Yanagui de Almeida</a></b> y de la investigación de <b><a href="https://bv.fapesp.br/pt/bolsas/153150" target="_blank">posdoctoral</a></b> de <b><a href="https://bv.fapesp.br/pt/pesquisador/48501/juliana-jose" target="_blank">Juliana José</a></b>, ambas biólogas del IB-Unicamp bajo la supervisión del profesor <b><a href="https://bv.fapesp.br/pt/pesquisador/966/goncalo-amarante-guimaraes-pereira" target="_blank">Gonçalo Amarante Guimarães Pereira</a></b>. Y contó también con el apoyo del Consejo Nacional de Desarrollo Científico y Tecnológico (CNPq) de Brasil.</p>
<p>“Logramos desarrollar un <i>software</i> para reconstruir esos genomas complejos y aplicarlo a la caña. No intentamos montar un genoma completo, tal como hicieron anteriormente, cuando reconstruyeron todo el ADN de la planta. Nuestra estrategia consistió en enfocarnos en pequeñas partes del genoma, entre el 1% y el 2% del ADN, exactamente donde se encuentran los genes de interés para el mejoramiento genómico de la planta”, dijo Carazzolle.</p>
<p>Al poner en práctica esta estrategia, hubo un ahorro de decenas de millones de dólares, ya que no fue necesario hacer el mapeo completo de la caña de azúcar. Cuando el trabajo se concretó, el grupo del consorcio aún no había publicado sus resultados, de manera tal que los genetistas brasileños se valieron de genomas públicos conocidos –tales como el del sorgo, el del arroz y el del maíz, que son gramíneas emparentadas en mayor o menor medida con la caña– para localizar en regiones análogas del genoma de la caña las partes de ADN que pretendían descifrar.</p>
<p>El trabajo por analogía es posible puesto que todas las gramíneas cuentan con un antepasado común que vivió hace más de 50 millones de años. En otras palabras, una vez transcurrido ese largo período, el ADN de cualquier gramínea actual, ya sea la caña de azúcar, el trigo, el sorgo, el arroz o el maíz, aún preserva la filigrana de aquel ancestro originario, sumada a los miles de millones de mutaciones acumuladas desde entonces.</p>
<p><b>Un montador de genes </b></p>
<p>El resultado del trabajo realizado en la Unicamp fue la elaboración de un <i>software</i> denominado Polyploid Gene Assembler (PGA o Montador de Genes Poliploides). “El PGA constituye una nueva estrategia para realizar el montaje del espacio genético partiendo de genomas complejos mediante la secuenciación de ADN de baja cobertura”, dijo Carazzolle.</p>
<p>Si bien el PGA demanda menos poder computacional que el procesamiento masivo de un ADN poliploide completo, para poder operárselo en el tiempo adecuado, este programa de todos modos requiere de un gran aparato computacional. Y entonces entró en acción el clúster de máquinas del Centro de Investigaciones en Ingeniería y Ciencias Computacionales (<b><a href="http://cces.unicamp.br/" target="_blank">CCES</a></b>), un Centro de Investigación, Innovación y Difusión (<b><a href="http://cepid.fapesp.br/home" target="_blank">CEPID</a></b>) que cuenta con el apoyo de la FAPESP, en el cual Carazzolle es uno de los investigadores principales del área de bioinformática. </p>
<p>“Este trabajo requirió el empleo de las computadoras de alto rendimiento y con mucha memoria existentes en el CCES”, dijo Carazzolle. </p>
<p>El nuevo programa PGA utiliza como referencia locus génicos conocidos de genomas públicos, a partir de los cuales se aplican estrategias de montaje para construir secuencias genómicas de alta calidad en la especie investigada. La validación del proceso se realizó con trigo (<i>Triticum aestivum</i>), una especie hexaploide, utilizando como referencia a la cebada (<i>Hordeum vulgare</i>), que resultó en la identificación de más de 90% de los genes y varios nuevos genes.</p>
<p>Asimismo, el PGA se empleó para montar el contenido génico en <i>Saccharum spontaneum</i>, la hierba del mismo género que la caña de azúcar tradicional (<i>Saccharum officinarum</i>), utilizada en el linaje parental para variedades híbridas de la caña cultivada actualmente (<i>Saccharum hybridum</i>). </p>
<p>“Identificamos un total de 39.234, de los cuales el 60,4% se agrupa en familias de genes de gramíneas conocidas. Treinta y siete familias de genes se expandieron cuando se las comparó con otras gramíneas, tres de ellas destacadas debido a la cantidad de copias de genes potencialmente implicados en el desarrollo inicial y en la respuesta al estrés”, dijo Carazzolle.</p>
<p>“Nuestros hallazgos del genoma del <i>S. spontaneum</i> pusieron de relieve por primera vez las bases moleculares de algunas características notables de esta biomasa, tales como la alta productividad y la resistencia frente al estrés biótico y abiótico. Estos resultados podrán aplicarse en futuros estudios funcionales y genéticos, aparte de servir de apoyo para el desarrollo de nuevas variedades de caña de azúcar destinadas a la industria agronómica”, dijo. </p>
<p>“Al utilizar el PGA, suministramos un montaje de alta calidad de regiones génicas en <i>T. aestivum</i> y <i>S. spontaneum</i>. Demostramos así que el PGA puede ser más eficiente que las estrategias convencionales que se aplican a genomas complejos, y empleamos la secuenciación de ADN de baja cobertura. La bajo demanda de memoria del PGA en comparación con la estrategia de montaje convencional también constituye una ventaja”, dijo Carazzolle.</p>
<p>El investigador hace hincapié en que aun con los grandes avances realizados en las tecnologías de secuenciación, el montaje de genomas complejos todavía constituye un cuello de botella, fundamentalmente a causa la poliploidia y la alta heterocigosidad. </p>
<p>De acuerdo con Carazzolle, el desarrollo de nuevos esfuerzos de bioinformática puede contribuir para la superación de tales restricciones, especialmente mediante la utilización de los genomas completos de los organismos íntimamente relacionados, en los cuales los métodos basados en conjuntos de referencia pueden aplicarse.</p>
<p>El artículo <i>Unraveling the complex genome of Saccharum spontaneum using Polyploid Gene Assembler</i> (doi: https://doi.org/10.1093/dnares/dsz001), de Leandro Costa Nascimento, Karina Yanagui, Juliana José, Eduardo L. O. Camargo, Maria Carolina B. Grassi, Camila P. Cunha, José Antonio Bresiani, Guilherme M. A. Carvalho, Carlos Roberto Carvalho, Paula F. Prado, Piotr Mieczkowski, Gonçalo A. G. Pereira y Marcelo F. Carazzolle, está publicado en el siguiente enlace: <b><a href="https://academic.oup.com/dnaresearch/advance-article/doi/10.1093/dnares/dsz001/5320315" target="_blank">academic.oup.com/dnaresearch/advance-article/doi/10.1093/dnares/dsz001/5320315</a></b>.</p>
<div> </div>