Vigilância Genômica e Predição: Impactos e Desafios

2
0

A vigilância genômica busca compreender as mudanças genéticas que podem representar riscos à saúde pública e impactos econômicos. O avanço das tecnologias de sequenciamento de nova geração (NGS) ampliou significativamente as possibilidades da bioinformática aplicada à vigilância epidemiológica. Entretanto, a aplicação dessas conquistas em doenças endêmicas, como as arboviroses, ainda enfrenta desafios consideráveis. Observa-se uma lacuna substancial na disponibilidade de dados genômicos, caracterizada por um volume reduzido de sequências depositadas nos bancos de dados, por inconsistências temporais nos depósitos e por disparidade acentuada entre países com diferentes capacidades econômicas. A heterogeneidade dos dados e a multiplicidade de repositórios tornam os processos de normalização e integração complexos. Iniciativas recentes baseadas em aprendizado de máquina buscam corrigir vieses de vigilância, enquanto esforços de integração de bases de dados visam criar repositórios validados e normalizados. Tais iniciativas propõem estratégias que não apenas buscam prever surtos, mas fazê-lo em tempo hábil para permitir respostas efetivas.

Autores: Ronison Alves Guimarães, Fernanda Elen dos Santos, Vagner Fonseca, Joicymara Santos Xavier

1. Introdução

A vigilância genômica constitui uma abordagem estratégica para o monitoramento global de variantes genéticas de patógenos, permitindo a detecção precoce de mudanças evolutivas com potencial impacto na saúde pública [1].

Apesar dos avanços tecnológicos em sequenciamento e das lições aprendidas com emergências recentes, persiste um desafio crítico na aplicação da vigilância genômica: a predição confiável de surtos, especialmente para doenças endêmicas e reemergentes, como as arboviroses. Essas doenças sofrem com escassez informacional, heterogeneidade de dados e inconsistência temporal nos depósitos em bancos de dados públicos [2,3]. Essa assimetria na disponibilidade e qualidade dos dados compromete o desenvolvimento de modelos preditivos robustos, essenciais para antecipar surtos e orientar respostas de saúde pública. Compreender como superar essas limitações e viabilizar a predição efetiva em contextos de dados limitados constitui, portanto, um dos principais desafios contemporâneos da vigilância genômica aplicada à saúde pública. Este artigo apresenta uma visão panorâmica sobre a vigilância genômica, seu impacto e seus desafios metodológicos neste campo, com foco em arboviroses.

2. Desenvolvimento

A pandemia de SARS-CoV-2 (COVID-19) demonstrou de forma incontestável a importância estratégica da vigilância genômica para o controle de emergências em saúde pública [4]. Durante este período, o elevado número de casos, aliado ao intenso esforço de pesquisa, resultou em uma produção massiva de dados genômicos, permitindo compreender, em alta resolução espaço-temporal, a dinâmica das mutações virais, identificar novas variantes e antecipar respostas de controle epidemiológico [5].

O compartilhamento extensivo de dados genômicos entre instituições e países foi determinante para mitigar os impactos da pandemia iniciada em 2019. O avanço das tecnologias de sequenciamento de nova geração (Next Generation Sequencing) expandiu consideravelmente as possibilidades de aplicação da bioinformática na vigilância epidemiológica. As tecnologias NGS, atualmente em sua terceira geração, transformaram processos que anteriormente demandavam semanas ou meses em procedimentos executáveis em poucas horas [6,7]. As arboviroses constituem um grupo de doenças transmitidas por artrópodes (mosquitos e carrapatos) com particular interesse para a aplicação das metodologias tecnológicas obtidas. Estas apresentam riscos significativos à saúde pública e geram impactos econômicos consideráveis [8]. Sua proliferação é intensificada pelas mudanças climáticas globais [9].

Doenças negligenciadas caracterizam-se, entre outros aspectos, pela atenção limitada à pesquisa e à vigilância [10]. Consequentemente, observa-se um volume reduzido de dados genômicos disponíveis para essas doenças, o que representa um desafio significativo para a predição de surtos. A qualidade e o volume dos dados são fatores cruciais para o desenvolvimento de modelos preditivos robustos. No entanto, essas doenças caracterizam-se por volume reduzido de sequências depositadas em bancos de dados públicos e pela inconsistência temporal no fluxo de depósitos [3,11].

Nações com maior capacidade econômica frequentemente priorizam a vigilância genômica para mitigar a disseminação dessas doenças, especialmente diante das mudanças climáticas que tornam novos ambientes favoráveis à proliferação dos vetores. Consequentemente, esses países geram volumes desproporcionais de dados genômicos [3]. Essa concentração de dados em determinadas regiões contrasta com a distribuição geográfica real da carga de doença, criando vieses na vigilância global.

A heterogeneidade dos dados constitui outro problema relevante: múltiplas bases de dados com diferentes estruturas, mudanças frequentes nos repositórios e variação nos padrões de metadados tornam os processos de normalização e integração extremamente desafiadores [2,3].

Diversas iniciativas têm sido implementadas para superar essas limitações. Modelos baseados em aprendizado de máquina, como o Random Forest, que utiliza múltiplas árvores de decisão trabalhando em conjunto para fazer predições mais robustas e identificar padrões complexos nos dados, vêm sendo propostos para corrigir vieses de vigilância e compensar lacunas na cobertura geográfica e temporal dos dados [3]. Para o exemplo em questão, são citadas abordagens que se baseiam em dois modelos principais: o Nested Surveillance Model combinado com o Ecological Niche Model. O primeiro modelo reconhece que nem todas as regiões têm a mesma capacidade de detectar e reportar casos de doenças. Usando dados de casos de infecções virais, ele mapeia onde os sistemas de saúde são mais eficientes em identificar casos, considerando fatores como renda, acesso a hospitais e infraestrutura de saúde. Essa informação é usada para calibrar o segundo modelo, distinguindo locais com poucos casos reportados por falta de vigilância daqueles com baixo risco.

Já o segundo aproveita o fato de que dengue, chikungunya, Zika e febre amarela compartilham os mesmos mosquitos transmissores (Aedes aegypti e Aedes albopictus) e respondem de forma similar a fatores ambientais como temperatura e urbanização. Ao analisar milhares de registros dessas doenças em conjunto, o modelo identifica onde as condições são favoráveis à sua transmissão. Esses dois modelos em conjunto demonstraram potencial para mitigar vieses de vigilância e heterogeneidade de amostragem, melhorando assim a identificação de áreas de alto risco.

Figura 1: Esquema visual da abordagem de vigilância integrada baseada em Aprendizado de Máquina (Adaptado de Lim et al., 2025). A imagem ilustra como o processamento de dados via ML ajuda a diminuir vieses de vigilância epidemiológica. Fonte: próprio autor.

Paralelamente, outros esforços concentram-se na integração de múltiplas bases de dados, com o objetivo de criar repositórios de referência validados, normalizados e mais robustos [2]. A correlação entre dados genômicos e metadados epidemiológicos, climáticos e  socioeconômicos constitui uma abordagem promissora para compreender os determinantes da ocorrência de surtos e desenvolver modelos preditivos mais precisos.

3. Conclusão

Nas doenças endêmicas e  reemergentes, persistem desafios significativos relacionados à predição a partir de dados genômicos e metadados com características heterogêneas e lacunas de cobertura. Ainda assim, as iniciativas atuais apresentam indicadores promissores [3] de que soluções efetivas podem ser alcançadas em um futuro próximo.

O esforço atual concentra-se em identificar as variáveis que determinam a ocorrência de novos surtos, estabelecer suas correlações e validações estatísticas, e integrá-las às tecnologias disponíveis, que evoluem em escala exponencial. Estudos recentes apontam para a viabilidade de não apenas predizer surtos, mas fazê-lo em tempo hábil para implementação de respostas eficazes. Espera-se alcançar elevado grau de confiança nessas predições, contribuindo assim para o fortalecimento dos sistemas de vigilância em saúde pública globalmente. 

Agradecimentos. Os autores agradecem o Centre for Epidemic Response and Innovation (CERI), o Consórcio Climade, o Projeto NAVIO e a Rede Saúde Única pela colaboração. Além disso, agradecemos à agência de fomento à pesquisa Fundação de Amparo à Pesquisa do Estado de Minas Gerais (Fapemig), ao projeto INFORM Africa pelo apoio financeiro, e ao Programa de Pós-Graduação em Bioinformática da UFMG.

4. Referências

1. Lo SW, Jamrozy D. Genomics and epidemiological surveillance. Nat. Rev Microbiol. 2020; 18:478.

2. Clarke J, Lim A, Gupte P, et al. A global dataset of publicly available dengue case count data. Sci Data 2024; 11:296.

3. Lim A, Shearer FM, Sewalk K, et al. The overlapping global distribution of dengue, chikungunya, Zika and yellow fever. Nat Commun. 2025; 16:3418.

4. Xavier JS, Moir M, Tegally H, et al. SARS-CoV-2 Africa dashboard for real-time COVID-19 information. Nat Microbiol. 2023; 8:1-4.

5. Tegally H, San JE, Cotten M, et al. The evolving SARS-CoV-2 epidemic in Africa: Insights from rapidly expanding genomic surveillance. Science. 2022; 378:eabq5358.

6. Satam H, Joshi K, Mangrolia U, et al. Next-Generation Sequencing Technology: Current Trends and Advancements. Biology (Basel) 2023; 12:997.

7. Freitas AS, Barboza Pinto H. Sequenciamento NGS: status e perspectivas. BIOINFO – Revista Brasileira de Bioinformática e Biologia Computacional 2021; 1:38-46.

8. Messina JP, Brady OJ, Golding N, et al. The current and future global distribution and population at risk of dengue. Nat Microbiol. 2019; 4:1508-1515.

9. Baes Pereira S, Conrad Bohm B, Dos Reis Gomes A, et al. Emergence and spatiotemporal incidence of dengue in Rio Grande do Sul, Brazil. Sci Rep. 2025; 15:18933.

10. Horstick O, Tozan Y, Wilder-Smith A. Reviewing dengue: still a neglected tropical disease? PLoS Negl Trop Dis. 2015; 9:e0003632.

11. Kraemer MUG, Tsui JL-H, Chang SY, et al. Artificial intelligence for modelling infectious disease epidemics. Nature 2025; 638:623-635.

WRITTEN BY

Editor-in-chief

Editor-chefe do Portal BIOINFO. Mantido pelo comitê editorial, equipe administrativa e técnica.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Sair da versão mobile