O Laboratório de Biologia Computacional Evolutiva e de Sistemas (LabBCES), localizado atualmente no Centro de Energia Nuclear na Agricultura (CENA) da Universidade de São Paulo (USP) em Piracicaba, São Paulo, é liderado pelo Prof. Dr. Diego Mauricio Riaño-Pachón. Fundado em 2010, o LabBCES dedica-se à pesquisa em genômica e bioinformática, com foco na bioeconomia. Desde sua fundação, já atuou em várias instituições, e se estabeleceu no CENA/USP em 2018. A equipe do laboratório explora a montagem e análise de genomas e transcriptomas, além de redes de coexpressão gênica e desenvolvimento de plataformas para mineração de dados ômicos. Os principais projetos incluem estudos sobre cana-de-açúcar, com ênfase em pangenomas e pantranscriptomas, e pesquisas sobre elementos transponíveis e splicing alternativo em gramíneas. Esses estudos buscam entender a variabilidade genética e a regulação da expressão gênica em espécies vegetais economicamente importantes. O laboratório também desenvolveu a plataforma CoNekT Grasses, que permite a análise comparativa de dados transcriptômicos em diversas gramíneas, oferecendo suporte para pesquisadores na área.
Palavras-chave: Laboratório; Pangenoma; Pantranscriptoma
Autores: Diego Mauricio Riaño-Pachón , Gabriely Santos de Oliveira , Gustavo Carvalho do Nascimento , Beatriz Rodrigues Estevam , Hellen Regina Silvestre Silva , Isabella Gallego Rendón , Verusca Semmler Rossi , Danielli Teixeira Brito Machado , Bianca Santos Pastos , David Teixeira Ferraz , Arthur Shuzo Owtake Cardoso , Nina Maria Soares Pinheiro Machado , Fernando Della Rosa , João Vitor Leite Novoletti , Maria Camila Diaz Rodriguez , Andreza Mattoso da Cunha , Felipe Vaz Peres , Jorge Mario Muñoz Pérez , Guilherme Furlan , Renato Augusto Corrêa dos Santos
Introdução
O Laboratório de Biologia Computacional, Evolutiva e de Sistemas (LabBCES) está localizado no Centro de Energia Nuclear na Agricultura da Universidade de São Paulo (CENA/USP), no campus Luiz de Queiroz, em Piracicaba, São Paulo. Sob a liderança do Prof. Dr. Diego Mauricio Riaño-Pachón, o laboratório dedica-se à pesquisa de ponta em bioinformática e genômica aplicadas à bioeconomia. O Prof. Riaño-Pachón formou-se em Biologia pela Universidade Nacional da Colômbia, em Bogotá, e obteve seu doutorado em Biologia Molecular Vegetal pela Universidade de Potsdam, na Alemanha, em 2008. Ele também realizou pós-doutorados em Bioinformática, tanto no Instituto Max Planck de Fisiologia Molecular Vegetal (2008-2010) quanto no Instituto de Química da USP (2017-2018), com foco em microalgas.
O LabBCES iniciou suas atividades em 2010 na “Universidad de Los Andes”, em Bogotá. Em 2013, transferiu-se para o Laboratório de Ciência e Tecnologia do Bioetanol no Centro Nacional de Pesquisa em Energia e Materiais (CNPEM), em Campinas, São Paulo, com o objetivo de apoiar o desenvolvimento da cadeia produtiva de bioetanol no Brasil. Desde 2018, o LabBCES está sediado no CENA/USP, onde continua a expandir suas pesquisas (https://labbces.cena.usp.br).
Focado na análise de genomas e transcriptomas de organismos relevantes para a bioeconomia, o LabBCES também se interessa pelo desenvolvimento de plataformas para mineração de dados ômicos. Nosso principal interesse atualmente é nas gramíneas, que desempenham um papel fundamental como fonte de alimento para humanos e animais, formando a base de culturas essenciais como arroz, trigo, milho e cevada. Essas culturas são responsáveis pela maior parte dos carboidratos consumidos mundialmente e são a principal fonte de forragem para a pecuária [1]. No setor energético, gramíneas como a cana-de-açúcar e o milho são matérias-primas essenciais para a produção de bioetanol [2]. Além disso, resíduos dessas plantas são utilizados na geração de bioeletricidade e bioetanol de segunda geração [3, 4].
A cana-de-açúcar, em particular, é uma das culturas mais importantes do mundo, com papel crucial na geração de energia renovável e na indústria alimentícia. No Brasil, maior produtor mundial, a cana-de-açúcar é um pilar econômico, contribuindo significativamente para o PIB, geração de empregos e avanços tecnológicos [5]. Além disso, o uso do etanol de cana-de-açúcar como biocombustível sustentável posiciona o Brasil como líder em energias renováveis e em iniciativas de redução de emissões de carbono. Além das gramíneas em si, também nos interessamos pelos organismos que interagem com elas, incluindo microrganismos causadores de doenças, insetos-praga e o microbioma naturalmente associado às plantas. Compreender essas interações é essencial para melhorar a saúde das culturas, aumentar a produtividade e desenvolver estratégias de manejo e melhoramento sustentável.
Ao longo dos anos, dezenas de pesquisadores em formação passaram pelo LabBCES, abrangendo todos os níveis acadêmicos, desde graduação até pós-doutorado. Alguns seguiram carreira em bioinformática e genômica, enquanto outros diversificaram suas áreas. Atualmente, o grupo inclui, além dos alunos de graduação e pós-graduação, um pesquisador de pós-doutorado, um técnico e o líder do laboratório.
A seguir, apresentaremos as atuais linhas de pesquisa do LabBCES, que incluem estudos em montagem e mineração de genomas, pangenomas e pantranscriptomas, redes de coexpressão e o desenvolvimento de plataformas web para mineração de dados ômicos.
Genomas
Desde o início, nosso grupo de pesquisa, tem desempenhado um papel importante na montagem e anotação de genomas de procariotos e eucariotos. Em alguns momentos, esse trabalho foi realizado para desvendar a informação genômica de organismos modelo, que poderiam ajudar a responder perguntas fundamentais [6-9]. Mais tarde, com um viés mais aplicado, estudamos os genomas de organismos com características de interesse biotecnológico [10-21]. Atualmente temos um forte foco no estudo de genomas de gramíneas e eventualmente de outros tipos de organismos que normalmente têm interações com elas.
Desde 2014, temos um grande interesse em desvendar o genoma de uma variedade brasileira de cana-de-açúcar, a SP80-3280, liberada comercialmente em 1997 e entre as 20 mais cultivadas. Esta variedade tem sido extensivamente estudada no país por meio de abordagens genéticas, celulares e moleculares [22-28]. Fomos um dos primeiros grupos de pesquisa a liberar sequências genômicas dessa variedade, utilizando sequenciamento de leituras longas sintéticas (Synthetic Long Reads da Illumina) [29] em 2017 [30, 31].
Quando iniciamos o sequenciamento dessa variedade em 2014, as tecnologias de sequenciamento de ácidos nucleicos de terceira geração ainda não haviam alcançado ampla adoção e apresentavam custos elevadíssimos. Por isso, decidimos na época utilizar uma tecnologia que explorava a química de sequenciamento por síntese da Illumina para a geração de leituras sintéticas de aproximadamente 10 kbp. Nesse primeiro sequenciamento, conseguimos uma cobertura do genoma monoploide da cana-de-açúcar (aproximadamente 1 Gbp) de cerca de 5x. Porém, como a cana é um organismo poliplóide, com alta diversidade haplotípica e aneuplóide, essa primeira versão do genoma, apesar de ser uma das mais completas naquela época, ainda estava muito fragmentada, o que dificultava análises precisas e aprofundadas [31, 32].
Em 2020, graças aos avanços nas tecnologias de sequenciamento de terceira geração, e a concomitante redução dos custos de sequenciamento, e particularmente ao aumento da qualidade das leituras geradas a partir de 2019 com a tecnologia PacBio HiFi (com precisão maior de 99,9%) [33] e Oxford Nanopore Q20+ [34], decidimos, apoiados pelo Research Centre for Greenhouse Gas Innovation um Centro de Pesquisa em Engenharia da FAPESP, enfrentar de novo o desafio de sequenciar, montar e anotar o genoma desta variedade. Desta vez geramos o equivalente a sequenciar 300x o genoma monoploide com leituras de alta qualidade, isso com o intuito de resolver todas as diferentes cópias do genoma.
Neste momento temos montagens muito melhores do que era possível obter em 2017, i.e., aproximadamente 10Gbp de genoma poliploide montado, com N50 maior de 3Mbp e com uma completude de 99.69% de genes de liliopsida conservados completos. Estamos na fase de reconstrução dos cromossomos inteiros e todas suas cópias, explorando dados de conformação de cromatina, conhecidos como HiC [35]. A Figura 1 mostra fragmentos de larga escala (contigs) da variedade SP80-3280 alinhados contra o cromossomo 1 das espécies Saccharum spontaneum e S. officinarum, frequentemente usadas nos programas de melhoramento genético da cultura. Utilizando estratégias previamente desenvolvidas no grupo, aplicaremos métodos de aprendizado de máquina baseados em k-mers para identificar a origem mais provável das espécies parentais em cada região do genoma montado [36].
Elementos transponíveis
Um dos nossos focos atuais no estudo desses genomas de cana-de-açúcar, e em geral de gramíneas, é o estudo de elementos de transposição (TEs). Os TE são sequências que ocorrem em múltiplas cópias no genoma dos mais diversos organismos, e participam na estruturação do genoma sendo capazes de contribuir significativamente com eventos de regulação gênica [37]. Sua habilidade de se mover (transpor) de uma posição para outra dentro do genoma de um organismo, sugere uma importante contribuição para a diversidade e plasticidade genômicas, sendo um dos principais causadores das diferenças de tamanhos de genomas entre organismos filogeneticamente próximos e influenciando a evolução e adaptação das espécies [38-41]. Alguns elementos de transposição podem participar da regulação da expressão de outros genes e modular sua própria expressão em resposta a estresses bióticos e abióticos, dessa forma participando nos processos adaptativos dos organismos [37, 42-45].
Mas ainda conhecemos muito pouco dos efeitos desses TEs nos genomas de importantes culturas, como a cana-de-açúcar, e outras gramíneas. Em nosso grupo, estamos realizando estudos comparativos da composição de TEs e sua função (expressão) em diversos genomas deste grupo.
Paisagem de Splicing em Gramíneas
O splicing é um processo essencial no qual os íntrons são removidos do RNA precursor e os exons são unidos para formar o RNA maduro funcional, o RNA mensageiro (mRNA), por exemplo. Esse mecanismo permite a produção de diferentes variantes de mRNA a partir de um único gene, fenômeno conhecido como splicing alternativo [46]. Esse fenômeno aumenta a diversidade proteica e é um importante regulador da expressão gênica [47, 48]. Embora o splicing alternativo seja bem estudado em organismos modelos e humanos, o conhecimento sobre sua ocorrência em plantas, especialmente em gramíneas, ainda é limitado [49]. No LabBCES, utilizamos dados transcriptômicos públicos com genomas de referência de alta qualidade para identificar os eventos de splicing e a partir desses identificar os eventos alternativos (Figura 2).
Para isso desenvolvemos um novo software usando orquestradores de pipelines como Nextflow [50], onde podemos integrar de forma controlada os passos de limpeza dos dados brutos de sequenciamento, criação de índices dos genomas de referências, mapeamento, identificação e quantificação de sítios de splicing. Aplicamos esses pipelines a diversas espécies (Oryza sativa, Sorghum bicolor, Triticum aestivum, Hordeum vulgare, Zea mays, Setaria viridis e Arabidopsis thaliana), dessa forma, garantimos dados homogêneos e comparáveis. Planejamos liberar essas paisagens de splicing como bancos de dados com interfaces amigáveis para a comunidade em geral com o intuito de contribuir para o conhecimento da diversidade de splicing em plantas e da regulação da expressão gênica nestes genomas.
Pantranscriptomas e Pangenomas
Uma das nossas perguntas constantes é: qual é a extensão da variabilidade genômica na cultura? Nos programas de melhoramento de cana-de-açúcar, utiliza-se material genético de várias espécies dentro do complexo Saccharum, e cada variedade tem uma história e uma árvore genealógica únicas (como exemplo veja a árvore genealógica para a SP80-3280 na Figura 3). Por isso, apesar de a geração de genomas de referência, ou seja, no nível cromossômico e poliplóide, ser importante, temos como objetivo, desenvolver estratégias que capturem toda ou a maior parte da variabilidade genética da cultura.
Com o intuito de explorar essa variabilidade, nosso grupo tem seguido estratégias de pantranscriptoma e pangenoma [54, 55]. Nessas estratégias é estudado o material genético (seja transcriptomas ou genomas) de vários indivíduos de um grupo taxonômico de interesse. Usar apenas um genoma ou um transcriptoma para detectar variantes pode restringir a análise às semelhanças com aquele material específico, enquanto o pantranscriptoma/pangenoma revela variações exclusivas de subgrupos dentro do conjunto, fornecendo uma visão mais abrangente da diversidade [56]. A Figura 4 mostra um diagrama de Venn resultante de identificar os genes correspondentes (grupos de genes ortólogos a partir de genes codificadores de proteínas) em 6 variedades diferentes de cana-de-açúcar. Ali é possível identificar que muitos dos grupos são compartilhados, e presentes em mais do que uma variedade, ainda assim é evidente que cada variedade tem um grupo exclusivo de grupos. Essa informação pode ser explorada para identificar o conjunto putativamente completo de membros de famílias gênicas de interesse, por exemplo aqueles envolvidos no metabolismo de trealose [57].
Recentemente geramos um pantranscriptoma de cana que inclui dados de transcriptômica de 50 variedades de diferentes regiões do mundo, para fazer isso desenvolvemos o YAATAP [62] usando o orquestrador de pipeline Snakemake [63], para a montagem de novo de transcriptomas a partir da dados de sequenciamento de RNASeq, montagens que têm sido disponibilizados publicamente [64].
Na análise do pantranscriptoma voltada para genes codificadores de proteínas, identificamos um pouco mais de 5 milhões de transcritos, que foram agrupados em pouco mais de 600 mil famílias gênicas. Nesse contexto, é possível identificar famílias core, presentes em todas as 50 variedades de cana-de-açúcar, que somam mais de 1 mil famílias com aproximadamente 145 mil transcritos. Também foram encontradas famílias soft-core, presentes em pelo menos 80% das variedades, totalizando cerca de 7 mil famílias e aproximadamente 870 mil transcritos. Além disso, há mais de 490 mil famílias acessórias, que estão presentes em pelo menos duas variedades, mas em menos de 80% delas, abrangendo mais de 380 mil transcritos.
Por fim, quase 100 mil famílias são exclusivas de uma única variedade, com um total de aproximadamente 250 mil transcritos. A Figura 5 ilustra como a quantidade de famílias soft-core observadas atinge um platô ao incluir aproximadamente 11 variedades. Isso indica que, com os transcriptomas de quaisquer 11 variedades, é possível capturar toda a variabilidade transcriptômica desses genes fundamentais (grupo soft-core) para o funcionamento do organismo. Além disso, nota-se que a quantidade de genes acessórios continua a aumentar sem estabilizar, sugerindo uma grande variabilidade de genes que possivelmente carregam informações diferenciadoras entre as variedades. De forma semelhante estamos estudando Sorghum bicolor, outra gramínea de interesse em bioeconomia, filogeneticamente próxima da cana-de-açúcar, com o intuito de realizar estudos de genômica e transcriptômica comparativa entre as duas culturas.
Nos últimos anos e graças aos avanços nas tecnologias de sequenciamento de ácidos nucleicos e no desenvolvimento de software para montagem de genomas complexos, têm sido publicados os genomas de 5 variedades de cana-de-açúcar [27, 31, 60, 61, 65, 66], assim como de algumas variedades das espécies parentais, S. officinarum (GCA_020631735.1) e S. spontaneum [58, 59]. A partir desses dados públicos, nosso grupo está desenvolvendo uma estratégia de estudos do pangenoma da cana-de-açúcar baseada em grafos, que nos permitirá olhar além das regiões expressas do genoma, e incluir regiões intrônicas e intergênicas, e dessa forma identificar variantes estruturais, e fazer inferências sobre sua origem a partir das espécies parentais usadas nos programas de melhoramento. A Figura 6 ilustra em uma pequena região do genoma o tipo de variantes simples que podem ser identificadas.
Redes de coexpressão
As redes de coexpressão gênica nos permitem explorar as complexas relações entre genes, agrupando aqueles com padrões de expressão semelhantes [67]. Essa metodologia já ajudou outros grupos de pesquisa a identificar genes-chave envolvidos em vários processos biológicos, como fotossíntese [68] e respostas ao estresse por seca em trigo [69], resposta ao estresse por frio em arroz [70], entre muitos outros trabalhos. Por exemplo, na cana-de-açúcar, investigamos como os genes respondem a diferentes níveis de nitrogênio, ou ao acúmulo de fibra e açúcar, ajudando a revelar quais genes e processos biológicos são importantes na cultura. Na Figura 7 mostramos um módulo de genes coexpressos, que vem de uma análise multigenotipo de cana-de-açúcar, onde os genótipos têm níveis variáveis de acúmulo de fibra e açúcar, e podemos identificar genes cuja expressão está relacionada com o acúmulo de fibra ou com o acúmulo de açúcar.
Uma área importante do laboratório é a análise comparativa de coexpressão gênica entre sorgo e cana-de-açúcar, onde exploramos muito os pantranscriptomas que temos gerados para essas culturas. Essa abordagem identifica redes de coexpressão gênica conservadas e específicas de cada espécie, fornecendo insights sobre os fundamentos moleculares de características agrícolas [24]. Como acúmulo de açúcar e fibras. Usando grandes conjuntos de dados próprios e públicos de RNA-seq, comparamos perfis de expressão gênica entre diferentes genótipos para detectar genes e módulos regulatórios ligados a características agrícolas importantes. Essas descobertas são importantes nos processos moleculares associados a fenótipos de interesse biotecnológico na cultura, visando aumentar a produtividade [25].
Pouco se sabe sobre os mecanismos de regulação da biossíntese da parede celular em gramíneas, especificamente na cana-de-açúcar. Por isso, realizamos um estudo de coexpressão utilizando dados do desenvolvimento da folha [71]. Identificamos, entre outros, o Cluster 5, que apresenta seu pico de expressão na região Base0 da folha +1. Este cluster inclui famílias de fatores de transcrição, como C2C2-YABBY, associada ao desenvolvimento de órgãos laterais, e as famílias GRAS e HB, conhecidas pela regulação do crescimento. Observamos que cerca de 30% dos genes neste cluster possuem, em seus promotores, um motivo de DNA sobrerepresentado semelhante ao domínio reconhecido por fatores de transcrição da família DOF, sugerindo que essa família pode regular a expressão desse grupo de genes [72].
Plataformas de mineração de dados de expressão gênica
O CoNekT Grasses é uma plataforma web que tem sido desenvolvida no laboratório para análise de transcriptômica comparativa de gramíneas. Ela é populada com dados de quantificação da expressão gênica usando dados de RNA-Seq de leituras curtas, além de dados de genômica, os quais são utilizados para prover informações sobre sequências, anotações funcionais, além das relações evolutivas entre genes analisados. A plataforma é derivada do CoNekT (acrônimo em inglês de “kit de ferramentas para redes de coexpressão” [73].
Neste contexto, até o momento incluímos no CoNekT Grasses dados de sete gramíneas de interesse econômico e em pesquisa: Oryza sativa (arroz), Zea mays (milho), Sorghum bicolor (sorgo), Saccharum spp. (cana-de-açúcar), Setaria viridis, Setaria italica, e Brachypodium distachyon. Em relação à plataforma original (CoNekT), nosso grupo considerou importante para as análises comparativas implementar o uso de ontologias para descrever metadados experimentais associados aos dados de expressão usados na plataforma, tais como o tecido ou estágio de desenvolvimento da planta (cujos termos estão estruturado na ontologia “Plant Ontology”) [74] e condição experimental (“Plant Experimental Condition Ontology”) [75]. Visando favorecer a reprodutibilidade computacional e buscando dar crédito aos autores que geraram ou processaram os dados em nossa plataforma, nós incorporamos informações como a versão e fonte de dados genômicos, bem como a publicação associada; para os dados de RNA-Seq, nós incluímos a literatura associada a cada conjunto de dados.
Atualmente, o CoNekT Grasses pode ser acessado no link (http://conekt.cena.usp.br:82/) (Figura 9) e os usuários podem explorar funcionalidades como a análise comparativa de perfis de expressão entre diferentes genes ao longo das amostras disponíveis ou entre condições/termos de ontologia. Por exemplo, pode-se comparar a expressão de determinados genes em diferentes tecidos, como folha e inflorescência, se estes dados estiverem disponíveis. Outra funcionalidade disponível e que tem sido foco de estudos em diversos organismos, como humanos, e que pode ser explorada na plataforma é a busca por genes que apresentam certa especificidade de expressão, definida com métricas como o Tau, que indica o quão específica ou ampla é a expressão de um gene nas diferentes amostras ou condições disponíveis [76] – no artigo original do CoNekT, genes expressos especificamente em raiz, quando comparado com outros tecidos, podem indicar papel essencial desenvolvimento deste órgão.
Por fim, pesquisadores podem analisar redes de coexpressão, explorando relações entre genes de interesse que apresentem correlação de expressão, funções enriquecidas em genes com expressão semelhante (agrupados em “módulos de coexpressão”). Estamos explorando outras plataformas, como o Plant Cell Wall Knowledge Base, que esperamos se torne um ponto de entrada único para acessar todas as informações validadas sobre a biossíntese da parede celular de plantas. Também estamos desenvolvendo o CoNekT Grasses Microbiome, onde integramos dados de expressão de gramíneas e composição de microbiomas, utilizando dados pareados – ou seja, aqueles em que foram sequenciados tanto o RNA do hospedeiro quanto os marcadores filogenéticos do microbioma. Esperamos que essas novas plataformas estejam disponíveis até o final deste ano e que sejam úteis para a comunidade científica.
Referências bibliográficas
[1] C. K. Khoury, S. Sotelo, D. Amariles, and G. Hawtin, The plants that feed the world: Baseline data and metrics to inform strategies for the conservation and use of plant genetic resources for food and agriculture. Rome: FOOD & AGRICULTURE ORGANIZATION OF THE UNITED NATIONS, 2023.
[2] C. Manochio, B. R. Andrade, R. P. Rodriguez, and B. S. Moraes, “Ethanol from biomass: A comparative overview,” Renewable and Sustainable Energy Reviews, vol. 80, pp. 743-755, 2017/12/01/ 2017.
[3] L. M. Coelho Junior, E. P. Santos Júnior, C. F. F. da Silva, B. H. C. de Oliveira, J. B. C. Dantas, J. V. dos Reis, V. B. Schramm, F. Schramm, and M. Carvalho, “Supply of bioelectricity from sugarcane bagasse in Brazil: a space–time analysis,” Sustainable Environment Research, vol. 34, p. 17, 2024/07/25 2024.
[4] P. V. C. Medeiros, P. H. M. Theophilo, G. S. Lopes, and L. P. D. Ribeiro, “Second-generation ethanol: concept, production and challenges,” Eclética Química, vol. 48, pp. 22-34, 2023.
[5] COMPANHIA NACIONAL DE ABASTECIMENTO (CONAB). (2024, 10/10/2024). Produção de cana-de-açúcar na safra 2023/24 chega a 713,2 milhões de toneladas, a maior da série histórica. Available: https://www.conab.gov.br/ultimas-noticias/5489-producao-de-cana-de-acucar-na-safra-2023-24-chega-a-713-2-milhoes-de-toneladas-a-maior-da-serie-historica
[6] B. A. Read, J. Kegel, M. J. Klute, A. Kuo, S. C. Lefebvre, F. Maumus, C. Mayer, J. Miller, A. Monier, A. Salamov, J. Young, M. Aguilar, J. M. Claverie, S. Frickenhaus, K. Gonzalez, E. K. Herman, Y. C. Lin, J. Napier, H. Ogata, A. F. Sarno, J. Shmutz, D. Schroeder, C. de Vargas, F. Verret, P. von Dassow, K. Valentin, Y. Van de Peer, G. Wheeler, J. B. Dacks, C. F. Delwiche, S. T. Dyhrman, G. Glockner, U. John, T. Richards, A. Z. Worden, X. Zhang, and I. V. Grigoriev, “Pan genome of the phytoplankton Emiliania underpins its global distribution,” Nature, vol. 499, pp. 209-13, Jul 11 2013.
[7] J. A. Banks et al. “The Selaginella genome identifies genetic changes associated with the evolution of vascular plants,” Science, vol. 332, pp. 960-3, May 20 2011.
[8] S. S. Merchant, et al., “The Chlamydomonas genome reveals the evolution of key animal and plant functions,” Science, vol. 318, pp. 245-50, Oct 12 2007.
[9] T. Arias, D. M. Riano-Pachon, and V. S. Di Stilio, “Genomic and transcriptomic resources for candidate gene discovery in the Ranunculids,” Applications in plant sciences, vol. 9, p. e11407, Jan 2021.
[10] N. Coutoune, A. T. Mulato, D. M. Riano-Pachon, and J. V. Oliveira, “Draft Genome Sequence of Saccharomyces cerevisiae Barra Grande (BG-1), a Brazilian Industrial Bioethanol-Producing Strain,” Genome announcements, vol. 5, Mar 30 2017.
[11] R. P. de Vries et al. “Comparative genomics reveals high biological diversity and specific adaptations in the industrially and medically important fungal genus Aspergillus,” Genome biology, vol. 18, p. 28, Feb 14 2017.
[12] R. A. Dos Santos, A. A. Berretta, S. Barud Hda, S. J. Ribeiro, L. N. Gonzalez-Garcia, T. D. Zucchi, G. H. Goldman, and D. M. Riano-Pachon, “Draft Genome Sequence of Komagataeibacter intermedius Strain AF2, a Producer of Cellulose, Isolated from Kombucha Tea,” Genome announcements, vol. 3, Dec 3 2015.
[13] J. P. Rosas-Morales, X. Perez-Mancilla, L. Lopez-Kleine, D. Montoya Castano, and D. M. Riano-Pachon, “Draft genome sequences of clostridium strains native to Colombia with the potential to produce solvents,” Genome announcements, vol. 3, May 21 2015.
[14] F. Mandelli, B. Oliveira Ramires, M. B. Couger, D. A. Paixao, C. M. Camilo, I. Polikarpov, R. Prade, D. M. Riano-Pachon, and F. M. Squina, “Draft Genome Sequence of the Thermophile Thermus filiformis ATCC 43280, Producer of Carotenoid-(Di)glucoside-Branched Fatty Acid (Di)esters and Source of Hyperthermostable Enzymes of Biotechnological Interest,” Genome announcements, vol. 3, May 14 2015.
[15] M. A. Cristancho, D. O. Botero-Rozo, W. Giraldo, J. Tabima, D. M. Riano-Pachon, C. Escobar, Y. Rozo, L. F. Rivera, A. Duran, S. Restrepo, T. Eilam, Y. Anikster, and A. L. Gaitan, “Annotation of a hybrid partial genome of the coffee rust (Hemileia vastatrix) contributes to the gene repertoire catalog of the Pucciniales,” Frontiers in plant science, vol. 5, p. 594, 2014.
[16] J. V. Oliveira, R. A. Dos Santos, T. A. Borges, D. M. Riano-Pachon, and G. H. Goldman, “Draft Genome Sequence of Pseudozyma brasiliensis sp. nov. Strain GHG001, a High Producer of Endo-1,4-Xylanase Isolated from an Insect Pest of Sugarcane,” Genome announcements, vol. 1, Dec 19 2013.
[17] S. Gonzalez-Sayer, U. Oggenfuss, I. Garcia, F. Aristizabal, D. Croll, and D. M. Riano-Pachon, “High-quality genome assembly of Pseudocercospora ulei the main threat to natural rubber trees,” Genetics and molecular biology, vol. 45, p. e50510051, 2022.
[18] J. R. de Almeida, D. M. Riano Pachon, L. M. Franceschini, I. B. Dos Santos, J. A. Ferrarezi, P. A. M. de Andrade, C. B. Monteiro-Vitorello, C. A. Labate, and M. C. Quecine, “Revealing the high variability on nonconserved core and mobile elements of Austropuccinia psidii and other rust mitochondrial genomes,” PloS one, vol. 16, p. e0248054, 2021.
[19] A. C. Cunha, R. Santos, D. M. Riano-Pachon, F. M. Squina, J. V. C. Oliveira, G. H. Goldman, A. T. Souza, L. S. Gomes, F. Godoy-Santos, J. A. Teixeira, F. Faria-Oliveira, I. C. Rosse, I. M. Castro, C. Lucas, and R. L. Brandao, “Draft genome sequence of Wickerhamomyces anomalus LBCM1105, isolated from cachaca fermentation,” Genetics and molecular biology, vol. 43, p. e20190122, 2020.
[20] B. S. Fernandes, O. Dias, G. Costa, A. A. Kaupert Neto, T. F. C. Resende, J. V. C. Oliveira, D. M. Riano-Pachon, M. Zaiat, J. G. C. Pradella, and I. Rocha, “Genome-wide sequencing and metabolic annotation of Pythium irregulare CBS 494.86: understanding Eicosapentaenoic acid production,” BMC biotechnology, vol. 19, p. 41, Jun 28 2019.
[21] B. C. Fonseca, D. M. Riano-Pachon, M. E. Guazzaroni, and V. Reginatto, “Genome sequence of the H2-producing Clostridium beijerinckii strain Br21 isolated from a sugarcane vinasse treatment plant,” Genetics and molecular biology, vol. 42, pp. 139-144, Jan-Mar 2019.
[22] A. L. Vettore et al. “Analysis and functional annotation of an expressed sequence tag collection for tropical crop sugarcane,” Genome research, vol. 13, pp. 2725-35, Dec 2003.
[23] L. Mattiello, D. M. Riano-Pachon, M. C. Martins, L. P. da Cruz, D. Bassi, P. E. Marchiori, R. V. Ribeiro, M. T. Labate, C. A. Labate, and M. Menossi, “Physiological and transcriptional analyses of developmental stages along sugarcane leaf,” BMC plant biology, vol. 15, p. 300, Dec 29 2015.
[24] R. S. de Souza, V. K. Okura, J. S. Armanhi, B. Jorrin, N. Lozano, M. J. da Silva, M. Gonzalez-Guerrero, L. M. de Araujo, N. C. Verza, H. C. Bagheri, J. Imperial, and P. Arruda, “Unlocking the bacterial and fungal communities assemblages of sugarcane microbiome,” Scientific reports, vol. 6, p. 28774, Jun 30 2016.
[25] G. K. Oliveira, N. R. Soares, Z. P. Costa, C. B. Almeida, R. M. Machado, A. T. Mesquita, M. S. Carneiro, E. R. Forni-Martins, M. Mondin, and M. L. C. Vieira, “Meiotic abnormalities in sugarcane (Saccharum spp.) and parental species: Evidence for peri- and paracentric inversions,” Annals of Applied Biology, vol. 183, pp. 271-286, 2023.
[26] T. R. Figueira, V. Okura, F. Rodrigues da Silva, M. Jose da Silva, D. Kudrna, J. S. Ammiraju, J. Talag, R. Wing, and P. Arruda, “A BAC library of the SP80-3280 sugarcane variety (saccharum sp.) and its inferred microsynteny with the sorghum genome,” BMC research notes, vol. 5, p. 185, Apr 23 2012.
[27] G. M. Souza, M. A. Van Sluys, C. G. Lembke, H. Lee, G. R. A. Margarido, C. T. Hotta, J. W. Gaiarsa, A. L. Diniz, M. M. Oliveira, S. S. Ferreira, M. Y. Nishiyama, F. Ten-Caten, G. T. Ragagnin, P. M. Andrade, R. F. de Souza, G. G. Nicastro, R. Pandya, C. Kim, H. Guo, A. M. Durham, M. S. Carneiro, J. Zhang, X. Zhang, Q. Zhang, R. Ming, M. C. Schatz, B. Davidson, A. H. Paterson, and D. Heckerman, “Assembly of the 373k gene space of the polyploid sugarcane genome reveals reservoirs of functional diversity in the world’s leading biomass crop,” GigaScience, vol. 8, Dec 1 2019.
[28] A. C. Palhares, T. B. Rodrigues-Morais, M. A. Van Sluys, D. S. Domingues, W. Maccheroni, Jr., H. Jordao, Jr., A. P. Souza, T. G. Marconi, M. Mollinari, R. Gazaffi, A. A. Garcia, and M. L. Vieira, “A novel linkage map of sugarcane with evidence for clustering of retrotransposon-based markers,” BMC genetics, vol. 13, p. 51, Jun 28 2012.
[29] R. C. McCoy, R. W. Taylor, T. A. Blauwkamp, J. L. Kelley, M. Kertesz, D. Pushkarev, D. A. Petrov, and A. S. Fiston-Lavier, “Illumina TruSeq synthetic long-reads empower de novo assembly and resolve complex, highly-repetitive transposable elements,” PloS one, vol. 9, p. e106689, 2014.
[30] D. Lloyd Evans, T. T. Hlongwane, S. V. Joshi, and D. M. Riano Pachon, “The sugarcane mitochondrial genome: assembly, phylogenetics and transcriptomics,” PeerJ, vol. 7, p. e7558, 2019.
[31] D. M. Riano-Pachon and L. Mattiello, “Draft genome sequencing of the sugarcane hybrid SP80-3280,” F1000Research, vol. 6, p. 861, 2017.
[32] D. M. Riano-Pachon and J. Miller, “More than a spoonful of sugar – the complex sugarcane genome,” in F1000 blognetwork vol. 2024, F1000 Research, Ed., ed, 2017.
[33] A. M. Wenger, P. Peluso, W. J. Rowell, P. C. Chang, R. J. Hall, G. T. Concepcion, J. Ebler, A. Fungtammasan, A. Kolesnikov, N. D. Olson, A. Topfer, M. Alonge, M. Mahmoud, Y. Qian, C. S. Chin, A. M. Phillippy, M. C. Schatz, G. Myers, M. A. DePristo, J. Ruan, T. Marschall, F. J. Sedlazeck, J. M. Zook, H. Li, S. Koren, A. Carroll, D. R. Rank, and M. W. Hunkapiller, “Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome,” Nature biotechnology, vol. 37, pp. 1155-1162, Oct 2019.
[34] P. Cuber, D. Chooneea, C. Geeves, S. Salatino, T. J. Creedy, C. Griffin, L. Sivess, I. Barnes, B. Price, and R. Misra, “Comparing the accuracy and efficiency of third generation sequencing technologies, Oxford Nanopore Technologies, and Pacific Biosciences, for DNA barcode sequencing applications,” Ecological Genetics and Genomics, vol. 28, p. 100181, 2023/09/01/ 2023.
[35] J. Ghurye, A. Rhie, B. P. Walenz, A. Schmitt, S. Selvaraj, M. Pop, A. M. Phillippy, and S. Koren, “Integrating Hi-C links with assembly graphs for chromosome-scale assembly,” PLoS computational biology, vol. 15, p. e1007273, Aug 2019.
[36] N. M. I. S. P. Machado, “Separação de cromossomos homólogos a partir de dados brutos de leituras de sequenciamento usando aprendizado de máquina.,” Graduacão em Biotecnologia Trabalho de Conclusão de Curso, Escola de Artes, Ciências e Humanidades, Universidade de São Paulo, São Paulo, 2022.
[37] M. Ramakrishnan, L. Satish, A. Sharma, K. Kurungara Vinod, A. Emamverdian, M. Zhou, and Q. Wei, “Transposable elements in plants: Recent advancements, tools and prospects,” Plant Molecular Biology Reporter, vol. 40, pp. 628-645, 2022/12/01 2022.
[38] G. Bourque, K. H. Burns, M. Gehring, V. Gorbunova, A. Seluanov, M. Hammell, M. Imbeault, Z. Izsvak, H. L. Levin, T. S. Macfarlan, D. L. Mager, and C. Feschotte, “Ten things you should know about transposable elements,” Genome biology, vol. 19, p. 199, Nov 19 2018.
[39] D. S. Oliveira, A. Larue, W. V. B. Nunes, F. Sabot, A. Bodelón, M. P. G. Guerreiro, C. Vieira, and C. M. A. Carareto, “Transposable elements as evolutionary driving force to ecological speciation in cactophilic <em>Drosophila</em> species,” bioRxiv, p. 2024.03.27.587021, 2024.
[40] E. A. Ochoa Cruz, G. M. Cruz, A. P. Vieira, and M. A. Van Sluys, “Virus-like attachment sites as structural landmarks of plants retrotransposons,” Mobile DNA, vol. 7, p. 14, 2016.
[41] N. Colonna Romano and L. Fanti, “Transposable Elements: Major Players in Shaping Genomic and Evolutionary Patterns,” Cells, vol. 11, Mar 19 2022.
[42] A. Pecinka, H. Q. Dinh, T. Baubec, M. Rosa, N. Lettner, and O. Mittelsten Scheid, “Epigenetic regulation of repetitive elements is attenuated by prolonged heat stress in Arabidopsis,” The Plant cell, vol. 22, pp. 3118-29, Sep 2010.
[43] M. J. Song and S. Schaack, “Evolutionary Conflict between Mobile DNA and Host Genomes,” The American naturalist, vol. 192, pp. 263-273, Aug 2018.
[44] N. S. Catlin and E. B. Josephs, “The important contribution of transposable elements to phenotypic variation and evolution,” Current opinion in plant biology, vol. 65, p. 102140, Feb 2022.
[45] P. K. Papolu, M. Ramakrishnan, S. Mullasseri, R. Kalendar, Q. Wei, L. H. Zou, Z. Ahmad, K. K. Vinod, P. Yang, and M. Zhou, “Retrotransposons: How the continuous evolutionary front shapes plant genomes for response to heat stress,” Frontiers in plant science, vol. 13, p. 1064847, 2022.
[46] Y. Lee and D. C. Rio, “Mechanisms and Regulation of Alternative Pre-mRNA Splicing,” Annual review of biochemistry, vol. 84, pp. 291-323, 2015.
[47] S. Chaudhary, W. Khokhar, I. Jabre, A. S. N. Reddy, L. J. Byrne, C. M. Wilson, and N. H. Syed, “Alternative Splicing and Protein Diversity: Plants Versus Animals,” Frontiers in plant science, vol. 10, p. 708, 2019.
[48] S. Filichkin, H. D. Priest, M. Megraw, and T. C. Mockler, “Alternative splicing in plants: directing traffic at the crossroads of adaptation and environmental stress,” Current opinion in plant biology, vol. 24, pp. 125-35, Apr 2015.
[49] R. S. Tognacca, F. S. Rodriguez, F. E. Aballay, C. M. Cartagena, L. Servi, and E. Petrillo, “Alternative splicing in plants: current knowledge and future directions for assessing the biological relevance of splice variants,” Journal of experimental botany, vol. 74, pp. 2251-2272, Apr 9 2023.
[50] P. Di Tommaso, M. Chatzou, E. W. Floden, P. P. Barja, E. Palumbo, and C. Notredame, “Nextflow enables reproducible computational workflows,” Nature biotechnology, vol. 35, pp. 316-319, Apr 11 2017.
[51] D. A. Sforca, “Variação genética em poliploides complexos: desvendando a dinâmica alélica em cana-de-açúcar,” PhD, Instituto de Biologia, Universidade Estadual de Campinas, Campinas, 2019.
[52] D. Santchurn, M. G. H. Badaloo, M. Zhou, and M. T. Labuschagne, “Contribution of sugarcane crop wild relatives in the creation of improved varieties in Mauritius,” Plant Genetic Resources: Characterization and Utilization, vol. 17, pp. 151-163, 2019.
[53] E. W. Brandes and G. B. Sartoris, “Sugar-Cane : its origin and improvement,” in Yearbook 1936, 1936, pp. 561-623.
[54] J. M. Eizenga, A. M. Novak, J. A. Sibbesen, S. Heumos, A. Ghaffaari, G. Hickey, X. Chang, J. D. Seaman, R. Rounthwaite, J. Ebler, M. Rautiainen, S. Garg, B. Paten, T. Marschall, J. Siren, and E. Garrison, “Pangenome Graphs,” Annual review of genomics and human genetics, vol. 21, pp. 139-162, Aug 31 2020.
[55] J. Shi, Z. Tian, J. Lai, and X. Huang, “Plant pan-genomics and its applications,” Molecular plant, vol. 16, pp. 168-186, Jan 2 2023.
[56] G. Hickey, J. Monlong, J. Ebler, A. M. Novak, J. M. Eizenga, Y. Gao, T. Marschall, H. Li, and B. Paten, “Pangenome graph construction from genome alignments with Minigraph-Cactus,” Nature biotechnology, vol. 42, pp. 663-673, Apr 2024.
[57] L. P. de Oliveira, B. V. Navarro, J. P. de Jesus Pereira, A. R. Lopes, M. C. M. Martins, D. M. Riano-Pachon, and M. S. Buckeridge, “Bioinformatic analyses to uncover genes involved in trehalose metabolism in the polyploid sugarcane,” Scientific reports, vol. 12, p. 7516, May 7 2022.
[58] Q. Zhang, Y. Qi, H. Pan, H. Tang, G. Wang, X. Hua, Y. Wang, L. Lin, Z. Li, Y. Li, F. Yu, Z. Yu, Y. Huang, T. Wang, P. Ma, M. Dou, Z. Sun, H. Wang, X. Zhang, W. Yao, X. Liu, M. Wang, J. Wang, Z. Deng, J. Xu, Q. Yang, Z. Liu, B. Chen, M. Zhang, R. Ming, and J. Zhang, “Genomic insights into the recent chromosome reduction of autopolyploid sugarcane Saccharum spontaneum,” Nature genetics, vol. 54, pp. 885-896, Jun 2022.
[59] J. Zhang et al. “Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L,” Nature genetics, vol. 50, pp. 1565-1573, Nov 2018.
[60] J. H. Trujillo-Montenegro, M. J. Rodriguez Cubillos, C. D. Loaiza, M. Quintero, H. F. Espitia-Navarro, F. A. Salazar Villareal, C. A. Viveros Valens, A. F. Gonzalez Barrios, J. De Vega, J. Duitama, and J. J. Riascos, “Unraveling the Genome of a High Yielding Colombian Sugarcane Hybrid,” Frontiers in plant science, vol. 12, p. 694859, 2021.
[61] A. L. Healey, O. Garsmeur, J. T. Lovell, S. Shengquiang, A. Sreedasyam, J. Jenkins, C. B. Plott, N. Piperidis, N. Pompidor, V. Llaca, C. J. Metcalfe, J. Dolezel, P. Capal, J. W. Carlson, J. Y. Hoarau, C. Hervouet, C. Zini, A. Dievart, A. Lipzen, M. Williams, L. B. Boston, J. Webber, K. Keymanesh, S. Tejomurthula, S. Rajasekar, R. Suchecki, A. Furtado, G. May, P. Parakkal, B. A. Simmons, K. Barry, R. J. Henry, J. Grimwood, K. S. Aitken, J. Schmutz, and A. D’Hont, “The complex polyploid genome architecture of sugarcane,” Nature, vol. 628, pp. 804-810, Apr 2024.
[62] F. V. Peres, J. M. Muñoz-Perez, and D. M. Riano Pachon, “Yet Another Automated Transcriptome Assembly Pipeline,” ed. Piracicaba, 2022.
[63] J. Koster and S. Rahmann, “Snakemake-a scalable bioinformatics workflow engine,” Bioinformatics, vol. 34, p. 3600, Oct 15 2018.
[64] F. V. Peres, J. M. Muñoz-Perez, H. R. S. Silva, and D. M. Riaño-Pachón, “Sugarcane Pan-transcriptome – Genotype specific transcriptome assemblies,” ed, 2022.
[65] Y. Bao, Q. Zhang, J. Huang, S. Zhang, W. Yao, Z. Yu, Z. Deng, J. Yu, W. Kong, X. Yu, S. Lu, Y. Wang, R. Li, Y. Song, C. Zou, Y. Xu, Z. Liu, F. Yu, J. Song, Y. Huang, J. Zhang, H. Wang, B. Chen, X. Zhang, and M. Zhang, “A chromosomal-scale genome assembly of modern cultivated hybrid sugarcane provides insights into origination and evolution,” Nature communications, vol. 15, p. 3041, Apr 8 2024.
[66] J. R. Shearman, W. Pootakham, C. Sonthirod, C. Naktang, T. Yoocha, D. Sangsrakru, N. Jomchai, S. Tongsima, J. Piriyapongsa, C. Ngamphiw, N. Wanasen, K. Ukoskit, P. Punpee, P. Klomsa-Ard, K. Sriroth, J. Zhang, X. Zhang, R. Ming, S. Tragoonrung, and S. Tangphatsornruang, “A draft chromosome-scale genome assembly of a commercial sugarcane,” Scientific reports, vol. 12, p. 20474, Nov 28 2022.
[67] R. J. Schaefer, J. M. Michno, and C. L. Myers, “Unraveling gene function in agricultural species using gene co-expression networks,” Biochimica et biophysica acta. Gene regulatory mechanisms, vol. 1860, pp. 53-63, Jan 2017.
[68] Z. He, C. Liu, X. Wang, R. Wang, Y. Tian, and Y. Chen, “Leaf Transcriptome and Weight Gene Co-expression Network Analysis Uncovers Genes Associated with Photosynthetic Efficiency in Camellia oleifera,” Biochemical genetics, vol. 59, pp. 398-421, Apr 2021.
[69] L. Lv, W. Zhang, L. Sun, A. Zhao, Y. Zhang, L. Wang, Y. Liu, Z. Li, H. Li, and X. Chen, “Gene co-expression network analysis to identify critical modules and candidate genes of drought-resistance in wheat,” PloS one, vol. 15, p. e0236186, 2020.
[70] Z. Zeng, S. Zhang, W. Li, and B. Chen, “Gene-coexpression network analysis identifies specific modules and hub genes related to cold stress in rice,” BMC genomics, vol. 23, p. 251, Apr 1 2022.
[71] V. S. Rossi, “Identificação e análise de coexpressão in sílico de genes codificadores de proteínas associadas a transcrição e de enzimas associadas ao metabolismo de carboidratos em cana-de-açúcar (Saccharum spp.) da cultivar SP80-3280,” Mestrado em Biologia na Agricultura e no Ambiente Dissertacão, Centro de Energia Nuclear na Agricultura, Universidade de São Paulo, Piracicaba, 2022.
[72] J. V. L. Novoletti, “Identificação de elementos cis-reguladores (CREs) nos promotores de genes co-expressos em cana-de-açúcar,” Graduacão em Ciências Biológicas Trabalho de Conclusão de Curso, Departamento de Ciências Biológicas, Escola Superior de Agricultura “Luiz de Queiroz”, Universidade de São Paulo, Piracicaba, 2022.
[73] S. Proost and M. Mutwil, “CoNekT: an open-source framework for comparative genomic and transcriptomic network analyses,” Nucleic acids research, vol. 46, pp. W133-W140, Jul 2 2018.
[74] L. Cooper, R. L. Walls, J. Elser, M. A. Gandolfo, D. W. Stevenson, B. Smith, J. Preece, B. Athreya, C. J. Mungall, S. Rensing, M. Hiss, D. Lang, R. Reski, T. Z. Berardini, D. Li, E. Huala, M. Schaeffer, N. Menda, E. Arnaud, R. Shrestha, Y. Yamazaki, and P. Jaiswal, “The plant ontology as a tool for comparative plant anatomy and genomic analyses,” Plant & cell physiology, vol. 54, p. e1, Feb 2013.
[75] L. Cooper, A. Meier, M. A. Laporte, J. L. Elser, C. Mungall, B. T. Sinn, D. Cavaliere, S. Carbon, N. A. Dunn, B. Smith, B. Qu, J. Preece, E. Zhang, S. Todorovic, G. Gkoutos, J. H. Doonan, D. W. Stevenson, E. Arnaud, and P. Jaiswal, “The Planteome database: an integrated resource for reference ontologies, plant genomics and phenomics,” Nucleic acids research, vol. 46, pp. D1168-D1180, Jan 4 2018.
[76] I. Yanai, H. Benjamin, M. Shmoish, V. Chalifa-Caspi, M. Shklar, R. Ophir, A. Bar-Even, S. Horn-Saban, M. Safran, E. Domany, D. Lancet, and O. Shmueli, “Genome-wide midrange transcription profiles reveal expression level relationships in human tissue specification,” Bioinformatics, vol. 21, pp. 650-9, Mar 1 2005.
