Vírus endógenos humanos: como analisá-los in silico?

1174
2

Os retrovírus endógenos humanos (HERVs) são importantes constituintes do DNA humano e estão associados a diversas características genotípicas e fenotípicas, desde a prevenção de doenças até a ancestralidade entre espécies. Com o tempo, esses vírus tornaram-se alvo de várias pesquisas pelo mundo, fazendo-se uso de métodos laboratoriais e de análises in silico computacionais. Neste estudo, fez-se uma pesquisa focada na utilização de ferramentas virtuais voltadas para a avaliação de vírus endógenos. Após a pesquisa das bases de dados existentes, com ênfase nas metodologias usadas pelos artigos para análise genômica, percebeu-se a relevância destes mecanismos computacionais na análise de fragmentos de ácidos nucleicos (primers) previamente sequenciados e disponíveis em bancos de dados, como o NCBI/BLAST, para a identificação de HERVs e sua relação com infecções virais atuais, como a COVID-19. Notou-se também: a utilização do tBLASTn para screening de sequências base de cromossomos encontradas no NCBI e posterior comparação com endovírus Mavericks; o uso de programas para análise e visualização de polimorfismo no vírus HERV-K; o uso na prevenção de rotas metabólicas com maior eficiência, possibilitando sua adesão na virologia. Os testes in silico demonstram grande potencial para agilizar processos e permitir análises de extensas sequências de HERVs.

Introdução

O processo de evolução das espécies envolve diversos fatores externos responsáveis por mudanças na expressão e conformação genética. Os vírus endógenos são um desses contribuintes de alterações, sendo caracterizados como sequências de genes pertencentes a vírus originalmente exógenos (vírus que infectam as células do hospedeiro por meios externos) que foram incorporados ao genoma da espécie, entrando em relativo equilíbrio com o hospedeiro [1].  

Em seres humanos, os retrovírus endógenos (HERVs) são as formas mais comuns dessas sequências, totalizando 8% do genoma humano, e foram adquiridos através da inserção de DNA retroviral em células germinativas de espécies ancestrais, permitindo a hereditariedade desses trechos. Devido à pressão seletiva cumulativa diferenciada em relação aos retrovírus exógenos, os ERVs se distanciaram geneticamente dos vírus originais (Figura 1). 

Figura 1 – Esquema do processo de endogeneização de vírus exógenos antigos, resultando em HERVs. Fonte: traduzido de RANGEL, S. et al. Human endogenous retroviruses and the inflammatory response: a vicious circle associated with health and illness. Frontiers In Immunology, [S.L.], v. 13, p. 1-14, 23 nov. 2022.

O interesse no estudo dos ERVs revelou grande potencial na expressão de características, especialmente no entendimento de resistência a certas doenças virais. Ao longo dos anos, a análise de ERVs mostrou-se cada vez mais eficiente com a utilização de ferramentas de sequenciamento capazes de avaliar características genotípicas e a história evolutiva viral, podendo ser realizada através de bancos de dados publicamente disponíveis, como o HERVd. Nesse artigo, busca-se elucidar os processos envolvidos na análise computacional (in silico) dos ERVs e quais são suas características de destaque.  

Metodologia  

O estudo trata-se de um artigo original sobre o uso de análises in silico em  vírus endógenos humanos. Foram consultados artigos originais publicados nas línguas portuguesa e inglesa, abarcando os períodos de publicação entre 1990 a abril de 2023 em 2 (duas) bases de dados: PubMed e Google Scholar. Foram excluídos capítulos de livros, artigos de revisão, textos jornalísticos e artigos pagos. Ao final do processo de busca, 12 artigos foram selecionados e utilizados no estudo.

Resultados e Discussão

Várias das análises in silico são feitas utilizando programas feitos em linguagens de programação, principalmente R e Java, desenvolvendo scripts próprios para propósitos daquela pesquisa ou usando ferramentas online disponíveis gratuitamente, como o BLAST (sigla em inglês, Basic Local Alignment Search Tool). Por se tratar de estudos do genoma humano, muitas vezes as amostras são adquiridas por métodos laboratoriais. Porém, a existência de bancos de dados como o NCBI permite a realização de análises computacionais mais específicas. Os códigos de muitas dessas ferramentas estão disponíveis para download em sites como GitHub (https://github.com/), permitindo a simulação dos resultados por outros usuários e oferecendo maior dinamicidade à pesquisa.

Uma das possibilidades encontradas com o estudo de vírus endógenos in silico é a descoberta de ancestralidade comum a outras espécies. A DNA polimerase β (polB) de uma espécie de tartaruga-de-caixa foi utilizada como uma sonda para rastrear o genoma humano, tornando possível identificar seu parentesco com sequências de cromossomo 7 e 8 humanos, através da utilização do software tBLASTn, que realizou a leitura de genes codificadores de proteínas como marcos genéticos e comparou às sequências disponíveis no repositório genômico do NCBI de outras espécies de vertebrados. Há também o Galaxy, uma plataforma de análise utilizada na manipulação de arquivos FASTA das sequências encontradas, e o MAFFT, para agrupar os sub-alinhamentos dos cromossomos. Com isso, foram encontradas evidências, na grande maioria dos mamíferos placentários, de genes ortólogos Mavericks, ou seja, sequências genéticas provindas de integrações feitas por vírus endógenos (ou endovírus) Mavericks que apresentam semelhança com o genoma de espécies oriundos de um mesmo ancestral comum, baseado nas integrações feitas por vírus Mavericks que circulavam pelo DNA de mamíferos ancestrais há pelo menos 102 milhões de anos, fazendo, assim, parte do processo evolutivo desses animais. [2]

É válido ressaltar também a aplicação conjunta de vários programas com o intuito de aprimorar o processo de pesquisa e também de permitir o estudo mais aprofundado sobre o papel dos vírus endógenos, como é visto na análise filogenética. Nesse sentido, ferramentas como o BLAST se mostram muito importantes para esse fim. Após a identificação de sequências de proteína ou de DNA, é realizado um cálculo de similaridades entre as regiões de sequências distintas que resulta em um valor para um par de segmentos, que pode ser feito através de uma matriz específica, como a PAM-120 e a BLOSUM-45. Em seguida, é realizada essa comparação com um número bem maior de sequências, sendo considerado aqueles segmentos associados com a proteína produzida, processo esse acelerado ao adotar um limite de contagem de palavras relacionadas com o segmento, eliminando sequências que não satisfazem o valor fixo. Por fim, na fase de implementação, são escaneadas as listas com todas as sequências e o resultado são daquelas que se mostraram mais próximas do valor de tolerância determinado, leituras essas que podem chegar a até 500.000 resíduos por segundo. O esquema abaixo (Figura 2) mostra de forma simplificada o processo realizado pelo BLAST. Para acessar a integração de genomas de outras espécies, pode ser feita a busca por genes mais próximos, utilizando a ferramenta de buscador de genoma, como o Ensembl, que permite a visualização de dados genômicos, como predição de genes e escores de conservação de vertebrados, desde bases únicas até cromossomos completos, com uma vasta livraria providenciada pela “EMBL’s – European Bioinformatics Institute”. Com isso, foi possível determinar as regiões ortólogas dos vírus Maverick em relação a outros mamíferos, incluindo detalhes sobre os locais de início de leitura para produção proteica. [2-4]

Figura 2 – Esquema demonstrando as etapas básicas do BLAST. Fonte: autoria própria.

Além disso, os mecanismos computacionais de análise podem contribuir em pesquisas para identificação e estudo de doenças humanas, como a esclerose múltipla, sendo utilizados para facilitar a investigação aprofundada de famílias específicas de provírus, que se tratam da forma de DNA dos retrovírus incorporados ao material genético do hospedeiro [5, 6]. Um exemplo da aplicação destes mecanismos foi observado em estudo feito para o grupo de vírus endógenos HERV-K, o mais jovem entre os retrovírus endógenos humanos e o único polimórfico, no qual foi desenvolvida uma plataforma computacional capaz de analisar subsequências do genoma que continham o provírus HERV-K polimórfico e comparou com a base de dados do projeto de mil genomas KGP, que consistia em sequências genéticas obtidas de 26 populações de um grupo de 5 super populações representantes do mundo. As sequências de referência, obtidas por sequenciamento de genoma completo, foram lidas utilizando conjuntos de subsequências de nucleotídeos de k elementos (k-mers) únicas para cada locus de HERV-K. Após o mapeamento, são comparados os k-mers do objeto de estudo (n) e os k-mers de referência (T), resultando em uma razão n/T que varia de 0 (alelo ausente) a 1 (alelo presente). Essa separação em k-mers permitiu uma análise mais eficiente dos dados, juntamente da utilização de um modelo de mistura de clusters baseado no valor de n/T. Foi também desenvolvida uma ferramenta de visualização feita em Java (D3.js), que permite a investigação dos alelos polimórficos do HERV-K em populações humanas, o que pode ser útil no estudo de condições clínicas. Os métodos utilizados permitiram a criação de um programa robusto que irá auxiliar na comparação de múltiplos sítios em populações diversificadas e facilitar pesquisas futuras sobre o provírus [5].

O uso de programas de visualização contribui para facilitar o entendimento sobre os vírus endógenos de forma mais concreta. Nesse sentido, o D3 é de grande ajuda, tratando-se de uma ferramenta de código aberto na qual os usuários conseguem vincular valores a elementos arbitrários que permitem dinamizar e modificar o conteúdo a ser mostrado. Este utiliza como base o Modelo de Documento Objeto (DOM) e aceita a implementação de módulos que aumentam suas capacidades. Com a possibilidade de receber arquivos como JSON adaptados para pesquisa de bioinformática, o D3 transforma arquivos em uma interface gráfica visual com possibilidade de animações e interações diversas, além de boa compatibilidade com navegadores. O D3, que pode ser instalado como uma livraria do javascript, pode ser usado, por exemplo, para receber dados sobre sequências genéticas e representar sua prevalência em um mapa geográfico baseado na sua localização (Figura 3), mostrando seu potencial de praticidade [5, 7].

Figura 3 – Visualização da co-ocorrência de genes HERV-K polimórficos em 26 populações em uma representação baseada na localização geográfica, utilizando a ferramenta D3.  A prevalência relativa entre os genes foi representada no programa com um gradiente de cores, que, então, preenche as bolhas dos diversos pontos do mapa. Fonte: Adaptado de LI, Weiling; LIN, Lin; MALHOTRA, Raunaq; YANG, Lei; ACHARYA, Raj; POSS, Mary. A computational framework to assess genome-wide distribution of polymorphic human endogenous retrovirus-K In human populations. Plos Computational Biology, [S.L.], v. 15, n. 3, p. 1-21, 28 mar. 2019.

Além disso, a bioinformática pode ser utilizada para investigar a influência dos endovírus em doenças específicas. Para isso, é necessário quantificar sua presença em amostras, utilizando um processo que consiste em duas etapas: identificação e análise. Na etapa de identificação, é necessário determinar sequências genômicas correspondentes aos endovírus, para que estas sejam utilizadas como modelos e comparadas com os resultados das amostras. Estes modelos estão presentes em bancos de dados, como o Gypsy 2.0 (pertencente à NCBI build 37.p13), no qual podem ser compiladas diversas sequências genômicas com fragmentos detectáveis de vírus endógenos [6, 8].

Durante a etapa de análise, os achados presentes nos bancos de dados são comparados com os obtidos nas amostras, a partir de programas computacionais. Em um processo denominado Alinhamento Múltiplo de Sequências, softwares como o Clustal Omega são capazes de alinhar e organizar até 190.000 sequências em poucas horas, utilizando os modelos prévios como base para detectar os endovírus presentes em cada amostra. Ao final do sequenciamento, os resultados são dispostos em árvores filogenéticas [6, 9]. 

Um exemplo promissor desse uso da bioinformática é o alinhamento múltiplo de sequências de proteínas GAG e ENV dos HERVs em amostras encefálicas. Esse mecanismo foi utilizado em um estudo que buscou entender a relação entre a presença de HERVs no tecido nervoso e a incidência de esclerose múltipla. Com a utilização de PCR em tempo real, 28 sequências de HERV GAG e 88 sequências de HERV ENV foram alinhadas a partir de 42 amostras retiradas de cérebros congelados (33 com esclerose múltipla e 9 do grupo controle). Em seguida, o alinhamento múltiplo de sequências foi realizado pelo programa Clustal Omega, que considerou para cada análise o maior trecho de DNA que pode ser traduzido em uma proteína. Posteriormente, as sequências foram organizadas em táxons e sua presença foi quantificada nas amostras. Os resultados indicaram que as amostras com a doença apresentaram maior expressão das proteínas supracitadas, especialmente em algumas famílias de endovírus, como a HERV-E e a HERV-K. Contudo, a diferença relativa entre o grupo de estudo e o grupo controle não foi grande o suficiente para determinar causalidade entre a presença de endovírus e a esclerose múltipla [6].

Conclusão

Logo, é possível observar que a bioinformática se mostra como um pool de ferramentas fundamentais para o estudo de vírus endógenos, por meio das análises in silico, caracterizadas pelo uso de simulações computacionais na interpretação de amostras [10]. A relevância destes mecanismos no estudo com vírus endógenos se encontra na análise de fragmentos de ácidos nucleicos (primers) previamente sequenciados e disponíveis em bancos de dados como o NCBI/BLAST [6, 11], com diversas finalidades, como o estudo filogenético e a investigação da relação entre famílias de endovírus e diversas doenças [2, 5, 6, 12]. Esse processo ocorre em decorrência da integração entre a capacidade de cálculo fornecida pelas tecnologias atuais e os conhecimentos preexistentes em biotecnologia, que permite o estudo de grandes volumes de dados e a previsão de rotas metabólicas com maior eficiência, o que possibilita sua adesão na virologia, área que estuda os vírus e suas propriedades [12]. 

Referências

[1] JOHNSON, Welkin E. Endogenous Retroviruses in the Genomics Era. Annual Review of Virology, [S.L.], v. 2, n. 1, p. 135-159, 9 nov. 2015. Annual Reviews. http://dx.doi.org/10.1146/annurev-virology-100114-054945

[2] BARREAT, Jose Gabriel Nino; KATZOURAKIS, Aris. Evolutionary Analysis of Placental Orthologues Reveals Two Ancient DNA Virus Integrations. Journal Of Virology, [S.L.], v. 96, n. 22, p. 1-11, 23 nov. 2022. American Society for Microbiology. http://dx.doi.org/10.1128/jvi.00933-22.

[3] ALTSCHUL, Stephen F.; GISH, Warren; MILLER, Webb; MYERS, Eugene W.; LIPMAN, David J. Basic local alignment search tool. Journal Of Molecular Biology, [S.L.], v. 215, n. 3, p. 403-410, out. 1990. Elsevier BV. http://dx.doi.org/10.1016/s0022-2836(05)80360-2

[4] CUNNINGHAM, Fiona; ALLEN, James e; ALLEN, Jamie; ALVAREZ-JARRETA, Jorge; AMODE, M Ridwan; ARMEAN, Irina M; AUSTINE-ORIMOLOYE, Olanrewaju; AZOV, Andrey G; BARNES, If; BENNETT, Ruth. Ensembl 2022. Nucleic Acids Research, [S.L.], v. 50, n. 1, p. 988-995, 17 nov. 2021. Oxford University Press (OUP). http://dx.doi.org/10.1093/nar/gkab1049.

[5]: LI, Weiling; LIN, Lin; MALHOTRA, Raunaq; YANG, Lei; ACHARYA, Raj; POSS, Mary. A computational framework to assess genome-wide distribution of polymorphic human endogenous retrovirus-K In human populations. Plos Computational Biology, [S.L.], v. 15, n. 3, p. 1-21, 28 mar. 2019. Public Library of Science (PLoS). http://dx.doi.org/10.1371/journal.pcbi.1006564

[6] PJ, Bhetariya. Analysis of Human Endogenous Retrovirus Expression in Multiple Sclerosis Plaques. Journal Of Emerging Diseases and Virology, [S.L.], v. 3, n. 2, p. 1-17, 2017. Sci Forschen, Inc. http://dx.doi.org/10.16966/2473-1846.133

[7] BOSTOCK, M.; OGIEVETSKY, V.; HEER, J. D3 Data-Driven Documents. IEEE Trans Vis Comput Graph. 2011; 17: 2301–2309.

[8] LLORENS, C.; FUTAMI, R.; COVELLI, L.; DOMINGUEZ-ESCRIBA, L.; VIU, J. M.; TAMARIT, D.; AGUILAR-RODRIGUEZ, J.; VICENTE-RIPOLLES, M.; FUSTER, G.; BERNET, G. P. The Gypsy Database (GyDB) of mobile genetic elements: release 2.0. Nucleic Acids Research, [S.L.], v. 39, n., p. 70-74, 29 out. 2010. Oxford University Press (OUP). http://dx.doi.org/10.1093/nar/gkq1061

[9] SIEVERS, Fabian; WILM, Andreas; DINEEN, David; GIBSON, Toby J; KARPLUS, Kevin; LI, Weizhong; LOPEZ, Rodrigo; MCWILLIAM, Hamish; REMMERT, Michael; SÖDING, Johannes. Fast, scalable generation of high‐quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology, [S.L.], v. 7, n. 1, p. 1-6, jan. 2011. EMBO. http://dx.doi.org/10.1038/ msb.2011.75.

[10] EKINS, S; MESTRES, J; TESTA, B. In silico pharmacology for drug discovery: methods for virtual ligand screening and profiling. British Journal of Pharmacology, [S.L.], v. 152, n. 1, p. 9-20, set. 2007. Wiley. http://dx.doi.org/10.1038/sj.bjp.0707305.

[11] TEMEROZO, Jairo R.; FINTELMAN-RODRIGUES, Natalia; SANTOS, Monique Cristina dos; HOTTZ, Eugenio D.; SACRAMENTO, Carolina Q.; SILVA, Aline de Paula Dias da; MANDACARU, Samuel Coelho; MORAES, Emilly Caroline dos Santos; TRUGILHO, Monique R. O.; GESTO, João S. M. Human endogenous retrovirus K in the respiratory tract is associated with COVID-19 physiopathology. Microbiome, [S.L.], v. 10, n. 1, p. 1-15, 22 abr. 2022. Springer Science and Business Media LLC. http://dx.doi.org/10.1186/s40168-022-01260-9

[12] SANTOS, C. M.; VEIGA, F. C. C.; DA SILVA, S. L.; DOS REIS, S. P. ANÁLISE IN SILICO E PREDIÇÃO DE EPÍTOPOS DAS VARIANTES DE SARS-CoV-2 COM MAIOR POTENCIAL IMUNOGÊNICO. REVISTA FOCO, [S. l.], v. 16, n. 4, p. e1572, 2023. DOI: 10.54751/revistafoco.v16n4-039. Disponível em: https://ojs.focopublicacoes.com.br/foco/article/view/1572. Acesso em: 31 jul. 2023.

Autores: Juan Diego Cipriano Ramalho Sampaio (https://orcid.org/0009-0009-1643-9820); João Gonçalves da Costa Neto (https://orcid.org/0009-0009-5983-6834); Isaac Farias Cansanção (https://orcid.org/0000-0003-2125-9866)

Revisão: Bruna Espiño dos Santos (https://orcid.org/0009-0007-5419-0873); Diego Lucas Neres Rodrigues (https://orcid.org/0000-0003-2812-3072)

Cite este artigo:

Sampaio, JDCR; Neto, JGC; Cansanção, IF. Vírus endógenos humanos: como analisá-los in silico? BIOINFO. ISSN: 2764-8273. Vol. 3. p.17 (2023). doi: 10.51780/bioinfo-03-17

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

2 thoughts on “Vírus endógenos humanos: como analisá-los in silico?

  1. […] Vírus endógenos humanos: como analisá-los in silico? […]

  2. […] Vírus endógenos humanos: como analisá-los in silico? […]

Sair da versão mobile