Do modelo ao movimento: AlphaFold e CABS-flex na era da bioinformática estrutural

O avanço do poder de processamento e a implementação de algoritmos têm ajudado a comunidade acadêmica a atingir novas fronteiras de conhecimento. Na bioinformática, a adoção de aplicações para a análise e geração de representações visuais gráficas moleculares, acarreta a adição de paradigmas computacionais ao desenvolvimento científico da área. Aplicações como AlphaFold e CABS-flex têm um papel relevante para a modelagem de conformações tridimensionais de biomoléculas e a execução de suas dinâmicas moleculares, fundamentais para a compreensão da biologia molecular e, consequentemente, desenvolvimento de diversas áreas econômicas relacionadas. Este trabalho, então, busca introduzir, de forma objetiva, uma análise comparativa com teor biológico e computacional, métodos e técnicas implementados por estes algoritmos, além de problemas enfrentados nestas aplicações.

Autores: Hugo Guimarães Martins, Adenilson Arcanjo, Raquel C. de Melo-Minardi

1. Introdução

As proteínas, cadeias de aminoácidos, são constituintes orgânicos fundamentais para a estrutura e atuam como catalisadores de reações químicas em todos os seres vivos, desempenhando papel crucial para a compreensão dos diversos sistemas biológicos e desafios atuais para o avanço da ciência. Sua função e ubiquidade nos diversos sistemas orgânicos despertam interesse econômico e científico, o que é refletido na criação de produtos, como metodologias experimentais, aplicações computacionais, fármacos, alimentos e periódicos acadêmicos [1].

A caracterização em nível atômico é realizada por técnicas experimentais como: difração de raios X, ressonância magnética nuclear, microscopia crioeletrônica. Estas metodologias possuem diferenças em suas execuções específicas e fornecem dados detalhados e confiáveis sobre a conformação molecular. Entretanto, estes métodos compartilham problemas fundamentais: o elevado custo operacional, a complexidade e diversidade molecular, a demanda de tempo para a execução destas técnicas e a incerteza de se obter resultados satisfatórios ao fim da realização de cada experimento.

Diante desses desafios, a bioinformática tem desenvolvido diversas técnicas e aplicações computacionais. A resolução destes empecilhos, agrega eficiência ao processo de catalogação, análise e aplicação da compreensão de biomoléculas, em especial, as proteínas.

Este artigo irá abordar uma breve análise de técnicas e aplicações voltadas à obtenção da conformação molecular e simulações de dinâmicas proteicas no contexto atual, especificamente o AlphaFold e CABS-flex, amplamente utilizados pela comunidade científica.

2. Base de dados de proteínas

A metodologia clássica experimental é, notadamente, uma abordagem fundamental para garantir resultados confiáveis na criação e no gerenciamento de uma base de dados da diversidade das proteínas. A criação de diversos repositórios de acesso livre e de colaboração mundial, como o Protein Data Bank (PDB), The Universal Protein Resource (UniProt) e AlphaFold Protein Structure Database, resultou em uma transparência quanto ao panorama global da compreensão de biomoléculas, devido a suas naturezas open source.

3. Parâmetros relacionados

A liberdade conformacional de uma proteína é definida, simplificadamente, pela sua capacidade de se movimentar sem o rompimento de suas ligações covalentes. Esta flexibilidade garante a ela variações conformacionais, além da capacidade de realizar atividades metabólicas fundamentais, como transporte de moléculas para diferentes ambientes e possibilidade de ligações químicas com outros agentes bioquímicos. Este fenômeno é calculado pela definição dos parâmetros geométricos e propriedades intrínsecas da proteína e dos fatores energéticos e eletrônicos do sistema. Outros fatores, como temperatura, pH e ligantes presentes, são levados em consideração neste sistema [2].

Com este considerável número de agentes conflituosos e constantes, em modelagem estrutural, é possível concluir que a proteína não é uma estrutura imóvel ou estática, tornou-se necessário o desenvolvimento de simulações de dinâmicas moleculares aplicadas a estas moléculas. Semelhantes aos desafios e problemas da obtenção de modelos conformacionais, as simulações de dinâmicas conformacionais são computacionalmente demandantes e, em sua maioria, resultam em poucos microssegundos ou frames da movimentação molecular, mesmo em computadores com alta capacidade de processamento e memória. Esta limitação na caracterização da dinâmica da proteína resulta em desconhecimento de funções e participações em processos metabólicos da proteína analisada, tendo em vista a relação direta entre a liberdade conformacional e a exposição ou o ocultamento de sítios ativos, destas aplicações, que interagem com outras moléculas.

4. Técnicas e aplicações

O servidor web CABS-flex é uma aplicação direcionada para a realização de simulações de flexibilidade conformacional de proteínas. Ele serve como uma alternativa rápida às dinâmicas moleculares (MD) tradicionais, que, embora mais detalhadas, são computacionalmente mais custosas. Fundamentalmente, o cálculo de conformações e dinâmicas moleculares, nesta aplicação, é realizado pela execução de equações pré-definidas e de caráter biofísico e químico, relacionadas a interações eletrostáticas e forças intermoleculares. O CABS-flex utiliza uma abordagem coarse-grained, simplificando a representação atômica para permitir simulações rápidas de flexibilidade proteica [3]. Um exemplo do resultado de uma análise com CABS-flex pode ser visto na Figura 1.

Figura 1. Modelo de uma proteína mini-IGF-1 (PDB 1tgr) obtido na execução do CABS-flex. Disponível em https://lcbio.pl/cabsflex3/job/6e9db9e8217b9a/.

Atualmente, uma das aplicações mais adotadas para modelagem molecular e com resultados bastante promissores é o AlphaFold, um modelo de aprendizado de máquina profundo que é capaz de predizer estruturas de complexos biomoleculares diversos. Diferente do CABS-flex, o método central para obter as conformações e dinâmicas é realizado pela implementação de aprendizado de máquina. O aprendizado de máquina vem ganhando destaque e participação em diversos contextos. Resultados promissores e sua eficiência derivam-se da necessidade de um grande volume de dados previamente tratados, em que o algoritmo é capaz de criar e estabelecer equações e relacionamentos entre os dados, que, em novas execuções, aplicam a lógica previamente obtida [4].

5. Conclusão

A implementação de aprendizado de máquina, pelo AlphaFold, resultou em avanços significativos para o contexto, demonstrados pela quantidade e qualidade de dados obtidos desde sua criação, em que antes existiam centenas de milhares de estruturas em banco de dados proteicos e, após o AlphaFold, houve um avanço para milhões [5]. Entretanto, é necessária uma análise crítica da aplicação adotada, devido a sua natureza de caixa-preta. A definição e construção de equações pelo algoritmo é ocultado, como consequência disto insegurança e análise, das mesmas, não pode ser estudada pelos seus usuários. Uma de suas consequências mais comuns, não apenas nesta área, é a alucinação, este fenômeno ocorre quando o algoritmo cria dados para solucionar problemas referentes a sua execução. Outros problemas estatísticos são levantados e trabalhados nestes algoritmos, como o overfitting e underfitting, estes são relacionados ao número de dados fornecidos durante a etapa de treinamento do algoritmo e podem gerar tendências incorretas e, consequentemente, resultados também errados. Em contrapartida, a dinâmica molecular clássica, utilizada no CABS-flex, possui, em seu alicerce, conceitos e relacionamentos transparentes e fundamentados por anos de trabalhos científicos, elevando a confiabilidade e compreensão dos resultados, mesmo não apresentando resultados tão eficientes e promissores em comparação com o AlphaFold.

A adoção dessas aplicações, em qualquer projeto, tem que ser criteriosa e seus usuários necessitam de compreender os métodos e técnicas selecionados; ignorar estes limites ou problemas pode introduzir vieses ou erros em trabalhos científicos e seus resultados.

Agradecimentos. Os autores agradecem às agências de fomento à pesquisa: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e Fundação de Amparo à Pesquisa do Estado de Minas Gerais (Fapemig).

5. Referências

[1] Batool, M. et al. A Structure-Based Drug Discovery Paradigm. Int. J. Mol. Sci. 2019, 20, 2783. doi: https://doi.org/10.3390/ijms20112783

[2] Hollingsworth, Scott A. et al. Molecular Dynamics Simulation for All. Neuron. 2018 Sep 19;99(6):1129-1143. doi: https://doi.org/10.1016/j.neuron.2018.08.011

[3] Aleksander, K. et al. CABS-flex 2.0: a web server for fast simulations of flexibility of protein structures, Nucleic Acids Research, Volume 46, Issue W1, 2 July 2018, Pages W338–W343, https://doi.org/10.1093/nar/gky356

[4] Abramson, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 630, 493–500 (2024). https://doi.org/10.1038/s41586-024-07487-w

[5] Mihaly, V et al. AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models. Nucleic Acids Research, Volume 50, Issue D1, 7 January 2022, Pages D439–D444, https://doi.org/10.1093/nar/gkab1061