Ilhas genômicas: pontos isolados em um oceano de informações

O avanço exponencial das tecnologias de sequenciamento tem gerado uma quantidade crescente de dados genômicos, exigindo ferramentas de bioinformática especializadas e capazes de extrair conhecimento biológico destes. Entre os elementos mais intrigantes estão as ilhas genômicas. Essas ilhas são fundamentais para compreender a evolução e a adaptação bacteriana, mas sua detecção continua sendo um desafio metodológico. Diferentes organismos exibem assinaturas genômicas variadas, tornando imprecisos os critérios universais de predição. Essa variabilidade compromete a padronização entre ferramentas e aumenta as taxas de falso positivo ou negativo. Além disso, muitos métodos clássicos baseiam-se em heurísticas e observações empíricas que não capturam adequadamente a diversidade dos mecanismos de transferência horizontal. Nesse cenário, abordagens baseadas em aprendizado de máquina emergem como alternativas promissoras. Nesse contexto, o desenvolvimento da ferramenta GIPSy (Genomic Island Prediction Software) propõe superar parte dessas dificuldades, unindo evidências composicionais, funcionais e comparativas em um sistema integrado. A nova versão em desenvolvimento busca não apenas aprimorar a acurácia das predições, mas também consolidar o conhecimento acumulado sobre a plasticidade genômica bacteriana, contribuindo para uma compreensão mais robusta da evolução microbiana.

Autores: Diego Rodrigues, Vasco Azevedo, Siomar Soares, Flávia Aburjaile

1. Introdução

O rápido avanço tecnológico gerado pela humanidade veio com ganhos igualmente majestosos. Nos mais diversos campos da ciência uma quantidade cada vez maior de dados é produzida a um custo que se reduz a cada passo. Isso não poderia ser diferente nos campos da genética e bioinformática. Hoje em dia, compreender um genoma é uma tarefa árdua não apenas pela complexidade natural que é intrínseca à biologia, mas também pelo gigantesco volume de dados produzido. Isso tudo leva a uma demanda constante no que tange ao desenvolvimento de novos recursos e ferramentas computacionais para revelar informações implícitas no interior de genomas inteiros.

Em termos gerais, um dos campos de estudo existentes dentro das ciências ômicas (em especial, genômica bacteriana) é a plasticidade genômica, ou seja, capacidade de adaptação e modulação apresentada por determinados organismos. Essa característica é por vezes demarcada pela habilidade singular de agregar material genético exógeno ao próprio DNA e produzir proteínas que a princípio não estariam presentes no repertório genético de um organismo, mas que na condição atual promovem alguma vantagem adaptativa. Com o passar do tempo e com o avanço das gerações, determinadas regiões do genoma podem acumular uma quantidade significativa desses elementos e se diferenciar estruturalmente das demais regiões que as tangenciam. Por vezes essas regiões se tornam tão distintas que todo o conteúdo genético em seu interior aparenta ser advindo de organismos completamente não correlacionados e tornam-se pontos isolados no genoma, conforme mostrado na Figura 1 [1]. Devido a essas diferenças, essas regiões de aquisição gênica são comumente conhecidas como ilhas genômicas e são cruciais para o entendimento do perfil e nicho biológico de alguns organismos [2].

Figura 1. Esquematização simplificada da aquisição de material genético exógeno durante a transformação bacteriana.

Ao longo dos anos, diferentes grupos se propuseram a desenvolver ferramentas de bioinformática capazes de inferir a presença e localização de ilhas genômicas. Cada novo software contribuiu significativamente, permitindo que a comunidade científica aprendesse a identificar diferentes padrões evolutivos como possíveis indicadores de mobilidade gênica, bem como marcadores específicos de determinados grupos de organismos. Todavia, a lacuna metodológica de padronização dos métodos permanece aberta. Isso porque ainda existe uma alta variabilidade entre os resultados obtidos por diferentes softwares que colocam pesos desiguais sobre distintos padrões de assinatura para genes exógenos.

Nesse contexto, o desenvolvimento de um novo preditor de ilhas genômicas deve buscar reunir as informações anteriormente trazidas à luz por outras ferramentas desenvolvidas com o mesmo propósito. Ainda assim, é importante que revise de forma crítica e científica os fundamentos que propiciam a detecção desses elementos genômicos.

2. Desafios conceituais e metodológicos

Mesmo que por via de regra, o termo “ilha genômica” já seja amplamente referenciado por campos da genética e microbiologia, sua definição permanece situacional e fluida. Dessa forma, diferentes autores e ferramentas abordam a temática de forma distinta, dando mais ou menos importância a determinados critérios de predição a depender do contexto biológico. Isso não é apenas considerado normal, como também é necessário para atender às demandas específicas apresentadas por diferentes organismos. Por exemplo, para determinados grupos a presença de alterações demarcadas de conteúdo GC em regiões específicas é um forte indicador de mobilidade genética [2]. Todavia, em algumas bactérias, essas irregularidades podem ser relativamente constantes ao longo do genoma [3]. Se por um lado, ter noção dessas características individuais dificulta a propagação de erros pela predição de falsos positivos, por outro, isso também significa que existe uma redução na precisão de preditores que se baseiam majoritariamente nesse dado para realizar sua inferência.

Essas ambiguidades dificultam o desenvolvimento de softwares com esse propósito ao impor um desafio singular. Afinal, é extremamente difícil desenvolver um algoritmo capaz de capturar resultados verdadeiros, quando o próprio conceito de ilha genômica se torna ambíguo.

Nesse contexto, sabe-se que os primeiros softwares capazes de detectar esses elementos eram, em seu cerne, baseados em observações empíricas. Portanto, mesmo que funcionassem bem a nível de linhagem ou espécie, podiam apresentar alta taxa de erro em contextos taxonômicos mais abrangentes. Além disso, nem todos os mecanismos de transferência horizontal de genes são ubíquos ou totalmente descritos, o que adiciona um ponto a mais de complexidade na interpretação dos resultados.

Dessa forma, modelos de aprendizado de máquina têm se apresentado como uma solução alternativa, por tratar os padrões de assinatura de ilhas genômicas como features, e utilizar abordagens baseadas em modelos estatísticos. Todavia, estes métodos estatísticos também apresentam suas limitações conceituais em relação à plausibilidade biológica.

3. Contribuição

De fato, a predição de um elemento tão singular quanto uma ilha genômica é uma tarefa simultaneamente complexa e simplória. Ainda não existe uma abordagem metodológica que consiga garantir a predição desse elemento genômico com precisão perfeita. Todavia, novas abordagens são importantes para atualizações nesse campo. Nesse contexto, a ferramenta Genomic Island Prediction Software (GIPSy) [4] visa contribuir com a sociedade científica, permitindo que o conhecimento gerado pelo estudo da plasticidade genômica possa ser acessível a todo o público de pesquisadores interessados. Dessa forma, existe a proposta da publicação de uma nova versão dessa consolidada ferramenta, denominada GIPSy2 que visa suprir os desafios em aberto.

De forma mais ampla, o projeto representa um esforço para aproximar a bioinformática de sua essência, transformando dados genômicos em conhecimento biológico significativo. Espera-se ainda que as melhorias implementadas no GIPSy2 fortaleçam o entendimento sobre os mecanismos de mobilidade gênica e sirvam de base para o desenvolvimento de futuras abordagens integrativas.

Agradecimentos. Os autores agradecem às agências de fomento à pesquisa: CAPES, CNPq e FAPEMIG.

4. Referências

[1] Hacker J, Carniel E. Ecological fitness, genomic islands and bacterial pathogenicity. EMBO Rep 2001;2:376–81. https://doi.org/10.1093/embo-reports/kve097.

[2] Zhang R, Ou H-Y, Gao F, Luo H. Identification of Horizontally-transferred Genomic Islands and Genome Segmentation Points by Using the GC Profile Method. Curr Genomics 2014;15:113–21. https://doi.org/10.2174/1389202915999140328163125.

[3] Bohlin J, Snipen L, Hardy SP, Kristoffersen AB, Lagesen K, Dønsvik T, et al. Analysis of intra-genomic GC content homogeneity within prokaryotes. BMC Genomics 2010;11:464. https://doi.org/10.1186/1471-2164-11-464.

[4] Soares SC, Geyik H, Ramos RTJ, de Sá PHCG, Barbosa EGV, Baumbach J, et al. GIPSy: Genomic island prediction software. Journal of Biotechnology 2016;232:2–11. https://doi.org/10.1016/j.jbiotec.2015.09.008.