O encaixe perfeito: como a bioinformática decifra as interações proteína-proteína

Por trás de cada reação biológica, há um encontro molecular. As proteínas, peças fundamentais da engrenagem da vida, raramente atuam sozinhas. Elas se reconhecem, se conectam e formam complexos que controlam desde o funcionamento do sistema imunológico até a replicação de vírus. Prever quais proteínas se “encaixam” é um desafio crucial da biologia. Para superá-lo, novas abordagens computacionais automatizadas são desenvolvidas para prever essas interações entre proteínas (PPIs). Ao analisar informações estruturais minuciosas, como contatos entre átomos e variações na superfície das moléculas, e combiná-las a modelos de aprendizado de máquina, torna-se possível transformar dados estáticos em conhecimento preditivo. Essa união entre biologia e computação aproxima a ciência de um futuro em que a descoberta de conexões moleculares será feita por algoritmos, acelerando inovações em saúde e biotecnologia. Essa união entre biologia e computação para transformar dados estruturais em capacidade de predição aproxima a ciência de um futuro em que a descoberta de interações moleculares poderá ser feita por algoritmos, com impacto direto em saúde, biotecnologia e inovação.

Autores: Ana Luísa Araújo Bastos, Rafael Lemos, Diego Mariano, Adenilson Arcanjo, Márcia Bigão, Raquel C. de Melo-Minardi

Download PDF

1. Introdução

A vida depende de conexões invisíveis. Dentro de cada célula, milhões de proteínas se movimentam, se aproximam e se encaixam como peças de um quebra-cabeça (Figura 1). É dessas uniões, conhecidas como interações proteína-proteína (PPIs, do inglês protein-protein interactions), que acontecem processos vitais: a resposta a infecções, a reparação de DNA, a ativação de enzimas e até o controle do crescimento celular.

Entender quais proteínas interagem entre si é fundamental para compreender o funcionamento das células e, principalmente, para desenvolver novos medicamentos e vacinas. No entanto, com milhares de proteínas em nosso corpo, testar todas as combinações no laboratório seria impossível. Porém, com o avanço da bioinformática e da inteligência artificial, surge uma nova possibilidade: usar o poder computacional para prever essas interações a partir das estruturas tridimensionais (3D) das proteínas, que são o formato espacial que elas assumem e que funciona como uma chave, definindo onde e como podem se encaixar. Ferramentas como o AlphaFold 2 [1] geraram um imenso volume desses modelos estruturais bastante precisos e agora o desafio não é mais saber apenas o enovelamento da proteína, mas também utilizar esses modelos para obter informações úteis, como por exemplo, identificar se duas proteínas se ligam.

Nesse contexto, torna-se essencial o desenvolvimento de um método capaz de analisar essas estruturas e prever, de forma automatizada, se duas proteínas podem se ligar. Em outras palavras, traduzir a biologia em um problema computacional e transformar os algoritmos em aliados para decifrar a linguagem molecular da vida.

Figura 1. Exemplo de interação proteína-proteína. (A) Complexo imune humano (PDB ID: 1BD2) formado pelo receptor de célula T, o peptídeo viral TAX e a molécula HLA-A 0201. (B) Contatos entre as proteínas representados pelas linhas tracejadas. (C) Zoom na interface mostrando o encaixe preciso entre as proteínas.

A estratégia computacional

Para decifrar essas conexões, a estratégia consiste em traduzir a complexidade de uma interação biológica em números que o computador consiga processar. O ponto de partida é observar o que muda quando duas proteínas interagem.

A primeira informação vem da variação da área de superfície acessível (ΔASA). Usando a ferramenta NACCESS [2], calcula-se o quanto da superfície de cada proteína fica escondida do ambiente aquoso quando ela interage com outra proteína. Essa área enterrada é uma pista crucial para a estabilidade do encaixe.

A segunda fonte de informação é a dos contatos interatômicos, obtidos com o programa COCαDA [3]. Ele identifica os átomos das duas proteínas propícios a interagir e classifica essas interações em, por exemplo, ligações de hidrogênio e pontes salinas. Cada tipo de contato contribui de forma diferente para a estabilidade e afinidade da ligação.

Essas informações são extraídas a partir da estrutura 3D das proteínas envolvidas na interação, que é coletada do banco de dados Protein Data Bank (PDB) [4]. O PDB possui mais de 200.000 entradas, onde cada estrutura é individualizada por um ‘PDB ID’. Esse identificador único atua como um número de matrícula para cada molécula registrada.

Esses dados são integrados a uma metodologia automatizada, que pode processar centenas de estruturas tridimensionais e extrair descritores estruturais, que são como a impressão digital da molécula, de forma padronizada. Em seguida, esses descritores servirão de base para modelos de regressão linear e de aprendizado de máquina, que buscam padrões capazes de prever se duas proteínas têm afinidade para interagir.

Apesar da afinidade total da interação ser influenciada por todos os tipos de contato, uma análise inicial destacou alguns como preditores-chave. As ligações de hidrogênio, por exemplo, apresentaram uma das correlações mais altas, já que sua presença ajuda a estabilizar a ligação. Em contrapartida, os contatos polares-apolares, que representam encaixes desfavoráveis, também mostraram uma correlação muito forte. Isso demonstra que o fato de eles reduzirem a estabilidade é um fator que influencia a afinidade geral do complexo de forma igualmente expressiva [5].

Portanto, o desafio é ensinar o computador a reconhecer e ponderar todos esses sinais, tanto os favoráveis quanto os desfavoráveis, para diferenciar um encaixe favorável de um desfavorável. Mais do que criar um modelo, o método deve ser reprodutível e escalável, capaz de ser aplicado a diferentes bancos de dados e adaptado a futuros estudos em larga escala.

Impacto científico e social

Uma ferramenta de análise rápida e escalável tem potencial para transformar a maneira como fazemos ciência, com impactos diretos na sociedade. No desenvolvimento de fármacos, por exemplo, muitas doenças são causadas por interações indesejadas [6]. Uma ferramenta que identifica essas interações pode ajudar a projetar um medicamento que atue como uma peça de bloqueio, impedindo ou dificultando a interação que causa a doença.

No desenvolvimento de vacinas, o método pode ser usado para projetar e avaliar candidatos-alvo, garantindo que eles se encaixem de forma ideal e sejam reconhecidos por nossos anticorpos, gerando uma resposta imune mais eficaz.

As aplicações também se estendem à biotecnologia, como na otimização de enzimas para produção de biocombustíveis e até na indústria de dermocosméticos. Em todos esses casos, a bioinformática atua como um acelerador, permitindo testar milhares de hipóteses por métodos computacionais antes de investir tempo e recursos em testes de laboratório.

Conclusão

Em um mundo em que a biologia e a computação se encontram, prever interações entre proteínas é um dos desafios mais fascinantes e promissores. Automatizar a descoberta de interações moleculares a partir de dados estruturais representa um passo nessa direção, pois possibilita explorar, de forma rápida e acessível, as conexões que mantêm a vida em funcionamento, abrindo caminho para descobertas que impactarão diretamente a saúde e a biotecnologia.

Agradecimentos. Os autores agradecem às agências de fomento à pesquisa: CAPES, CNPq e Fapemig.

Referências

[1] Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021.

[2] Hubbard, S.; Thornton, J. NACCESS, Computer Program. University College London, 1993.

[3] Lemos, R.; Mariano, D.; Silveira, S.; Melo-Minardi, R. COCαDA – a fast and scalable algorithm for interatomic contact detection in proteins using Cα distance matrices. Frontiers in Bioinformatics, 2025.

[4] H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne, The Protein Data Bank. Nucleic Acids Research, 2000.

[5] Bastos, A. L. A, Lemos, R. P., Mariano, D., Yamada, C. A. O., Pirovani, M. M., & de Melo-Minardi, R. C. Towards Fast Bidding Affinity Scoring in Protein-Protein Complexes via Interatomic Contacts and Linear Regression. 21° Congresso Brasileiro de Bioinformática (X-Meeting), 2025. Aceito para publicação.

[6] Greenblatt, J. F.; Alberts, B. M.; Krogan, N. J. Discovery and significance of protein-protein interactions in health and disease. Cell, 2024.