Como a similaridade de sequências pode oferecer evidências para a diferenciação entre mutações drivers e passengers

As mutações gênicas são processos essenciais à vida, mas podem levar ao descontrole do ciclo celular e à formação de tumores que acarretam quadros cancerígenos. A diferenciação entre mutações drivers e passengers é dificultada pela heterogeneidade das mutações geradoras de câncer. Para superar essas limitações, pode-se usar a similaridade (homologia) entre as sequências a fim de fazer comparações entre as interações estabelecidas em um conjunto de sequências homólogas, oferecendo indícios sobre como uma mutação pontual poderia alterar a rede de interações de uma proteína. Esse projeto objetiva usar ferramentas computacionais para auxiliar nesse processo de análise, obtendo informações sobre a estrutura das cadeias homólogas, as biomoléculas com as quais elas interagem e o sítio de ligação dessas interações, podendo ajudar no entendimento de como as mutações estudadas conferem vantagens evolutivas às células e facilitam sua proliferação.

Autores: Márcia Bigão Drummond, Lucas Moraes dos Santos, Diego Mariano, Ana Luisa Araújo Bastos, Raquel C. de Melo-Minardi

Download PDF

Introdução

A mutação gênica não é apenas um fenômeno comum, mas um mecanismo essencial à dinâmica evolutiva, pois confere a variabilidade genética necessária para a adaptação das populações [1]. Apesar dessa importância fundamental na composição da vida, células somáticas podem acumular diversas mutações ao longo do tempo, sendo que algumas dessas mutações podem acarretar a perda de controle do ciclo celular, a insensibilidade aos sinais inibitórios de crescimento e ao escape da vigilância imunológica [2]. Tais ocorrências resultam no desenvolvimento de tumores, caracterizando quadros cancerígenos, uma doença que afeta cerca de 50 milhões de pessoas ao redor do mundo [3].

As causas das mutações que impulsionam o câncer (drivers) são objeto de muito estudo por parte da comunidade científica, que objetiva entender os mecanismos através dos quais essas mutações impactam o funcionamento celular, com o objetivo de encontrar metodologias eficazes de combate à doença. Entretanto, essas pesquisas enfrentam grandes desafios: as mutações driver variam significativamente entre tipos de câncer e pacientes. Além disso, uma mesma mutação pode ser crítica em um contexto e ser neutra (passenger) em outro [2].

Nesse contexto, diversas estratégias vêm sendo desenvolvidas na tentativa de entender melhor quais características diferenciam as mutações drivers das passengers, analisando como essas mutações, dentro de seus contextos, conferem vantagens seletivas às células, permitindo sua proliferação anormal [4]. Parte importante desse processo é a análise das cadeias com sequências similares (homólogas). Ao comparar as interações estabelecidas pela proteína mutada com suas contrapartes saudáveis e homólogas, obtemos indícios estruturais e funcionais sobre o efeito dessas mutações [5]. Ademais, a análise das cadeias homólogas também fornece informações sobre a possibilidade de interação das variantes com outras biomoléculas, enriquecendo o estudo em seu contexto biológico.

Portanto, recursos computacionais podem ser empregados na análise de homologia, objetivando elaborar uma ferramenta capaz de fazer essa referência cruzada entre sequências de interesse e estruturas resolvidas presentes no PDB (Protein Data Bank). Assim, esse estudo tem como finalidade buscar cadeias similares à sequência mutada de interesse, identificar os diferentes compostos biológicos com os quais a cadeia mutada e as similares interagem, e analisar como essas interações são feitas, a partir dos padrões de contatos entre os átomos do sítio de ligação.

A busca por sequências homólogas

Antes de realizar a busca por cadeias homólogas, é necessário separar as variantes de referência. Fazemos isso porque as interfaces de interação das proteínas são conservadas entre complexos homólogos [5], e comparar as duas categorias de mutação nos ajuda a discriminar quais características estruturais realmente importam. Existem diversos bancos de dados em que essas variantes podem ser identificadas, como o COSMIC (Catalogue Of Somatic Mutations In Cancer), que foi utilizado neste trabalho [6]. Além disso, para facilitar o processo, é possível criar um script de automatização da busca por sequências homólogas, baixando os arquivos da estrutura 3D dos resultados, de forma a viabilizar sua análise estrutural. A Figura 1 apresenta uma dessas estruturas 3D encontradas na busca por cadeias homólogas à mutação driver na proteína Receptor de Activina tipo 1, destacando a sua interação com duas cadeias de anticorpo.

Figura 1. Representação da estrutura 7YRU, recuperada na busca por cadeias homólogas à mutação driver na proteína Receptor de Activina tipo 1 (Cadeia A, exibida em ciano). A Cadeia Pesada de Anticorpo (Cadeia H) é mostrada em laranja. A Cadeia Leve de Anticorpo (Cadeia L) é exibida em magenta. Imagem foi gerada com ChimeraX.

Identificação da cadeia-alvo

Uma vez que a busca no PDB pode retornar arquivos com várias moléculas, é crucial identificar qual cadeia é a mais similar à sequência mutada de entrada. Essa identificação é essencial a fim de distinguir a cadeia-alvo de outras biomoléculas que poderiam estar contidas nos arquivos. Para isso, utilizamos o método de alinhamento de sequências, com o uso do programa ClustalW [8], por exemplo. No presente estudo, foram considerados apenas os resíduos idênticos entre as duas cadeias para derivar um valor de similaridade entre elas.

Identificação do sítio de interação

Com a cadeia-alvo identificada, processamos os arquivos de estrutura 3D (formato .cif). Cada arquivo contém as coordenadas tridimensionais de todos os resíduos de aminoácidos presentes nele. Dessa forma, foi escolhido o método da distância euclidiana (distância em linha reta) entre os resíduos da cadeia homóloga e os resíduos das demais cadeias para determinar a presença ou não de contatos entre eles [9]. Foi adotado um limite de 6 Å para a identificação de contatos entre resíduos. Este limite é crucial, pois, no contexto molecular, uma distância menor que 6 Å é geralmente aceita como indicativa de uma interação fraca (não covalente), já que, em ligações fortes (covalentes), as distâncias são muito curtas, tipicamente entre 1 Å e 2 Å. Dessa forma, é possível mapear todos os resíduos que interagem com a cadeia homóloga e determinar quais biomoléculas estão presentes no sítio de ligação, podendo também associar os resíduos identificados aos nomes das cadeias às quais eles pertencem.

Conclusão

Em suma, a análise de homologia apresenta-se como uma estratégia relevante para o estudo do impacto funcional das mutações no câncer. O desafio de diferenciar uma mutação driver de uma passenger é central na oncologia. Ao identificar e comparar as interações estabelecidas por um conjunto de contrapartes similares já resolvidas, é possível construir um mapa de contatos que oferece indícios estruturais de como uma mutação pontual pode alterar a rede de interação de uma proteína. É possível, portanto, que essa metodologia ofereça evidências estruturais preliminares que podem guiar futuras investigações in vitro e in vivo, acelerando o diagnóstico ou a triagem de alvos terapêuticos para o câncer.

6. Referências

[1] Tomczak, K et al. The Cancer Genome Atlas (TCGA): An immeasurable source of knowledge. CONTEMP ONCOL. ISSN: 1897-4289. Vol. 19. p.1 (2015). doi: https://doi.org/10.5114/wo.2014.47136

[2] Forbes, SA et al. COSMIC v100: new content and features in the Catalogue of Somatic Mutations in Cancer. NUCLEIC ACIDS RES. ISSN: 1362-4962. Vol. 52. p.D1140-D1146 (2024). doi: https://doi.org/10.1093/nar/gkad985

[3] WHO/IARC. Global Cancer Observatory (GLOBOCAN). Disponível em: https://gco.iarc.fr/. Acesso em: 21 maio 2025.

[4] Engin, HB; Tuncbag, N. Exploring the landscape of cancer driver mutations in protein-protein interfaces. NAR CANCER. ISSN: 2632-6022. Vol. 5. p.zcac040 (2023). doi: https://doi.org/10.1093/narcancer/zcac040

[5] Waterhouse, A et al. SWISS-MODEL: homology modelling of protein structures and complexes. NUCLEIC ACIDS RES. ISSN: 1362-4962. Vol. 46. p.W296-W303 (2018). doi: https://doi.org/10.1093/nar/gky427

[6] Forbes, SA et al. COSMIC v100: new content and features in the Catalogue of Somatic Mutations in Cancer. NUCLEIC ACIDS RES. ISSN: 1362-4962. Vol. 52. p.D1140-D1146 (2024). doi: https://doi.org/10.1093/nar/gkad985

[7] RCSB PROTEIN DATA BANK. Data API: programmatic access to RCSB PDB data. Disponível em: https://data.rcsb.org/#data-api. Acesso em: 28 de outubro de 2025.

[8] Thompson, JD; Higgins, DG; Gibson, TJ. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. NUCLEIC ACIDS RES. ISSN: 1362-4962. Vol. 22. p.4673-4680 (1994). doi: https://doi.org/10.1093/nar/22.22.4673

[9] Mariano, D. Python para bioinformática. São Paulo: Novatec (2020).