Da molécula ao algoritmo: utilizando aprendizado de máquina para desvendar a O-glicosilação de proteínas

A vida, em toda a sua diversidade, é fundamentalmente baseada na célula e seus constituintes, incluindo as proteínas. Estas moléculas realizam as mais variadas funções e podem sofrer modificações, como a O-Glicosilação com N-acetilglicosamina. A pesquisa apresentada concentra-se em compreender quando essa modificação ocorre, utilizando técnicas de aprendizado de máquina, métodos capazes de resolver problemas complexos que não são ditados por regras simples. O estudo desta pequena modificação, que a princípio pode parecer um detalhe, aponta para soluções de problemas importantes, como a doença de Alzheimer.

Autores: Adenilson Arcanjo, Hugo Martins, Diego Mariano, Raquel Melo-Minardi

1. Introdução

Araras-azuis escolhem um parceiro e passam toda a vida ao seu lado, camaleões mudam de cor utilizando nanocristais em sua pele, bolor cresce sobre um pão velho, árvores permanecem vivas por milênios, cianobactérias produzem oxigênio e arqueias vivem em fendas no fundo do oceano Atlântico onde as temperaturas ultrapassam cem graus Celsius.

A vida apresenta uma variedade fascinante, organismos exuberantes e surpreendentes, em seu comportamento, aparência e modos de vida. Entretanto, todos os organismos vivos, sem exceção, têm algo em comum: são compostos pela mesma unidade fundamental, a célula. Alguns organismos são compostos por uma única célula, outros por trilhões. Porém, em todos os casos, são compostos por células.

Células são compostas, em sua maior parte, por água. Apesar disso, os seres vivos são muito mais complexos do que uma coleção de saquinhos de água. Além da água, as células contêm DNA, RNA, carboidratos, lipídios, proteínas e uma coleção de outras moléculas menores. Essa porção, que não é água, é o que torna os seres vivos tão fantásticos e tão diferentes de uma simples coleção de saquinhos de água.

De maneira simplificada, podemos dizer que o DNA guarda o manual de instruções da vida, o RNA transmite essas instruções, os carboidratos fornecem a energia para a execução das instruções, os lipídios armazenam essa energia e, também, delimitam cada célula, as moléculas menores executam papéis especializados e, por fim, as proteínas, obtidas pela tradução de informações do RNA, são, de fato, as moléculas efetoras e estruturais.

As proteínas têm as mais diversas funções: fazem os vaga-lumes brilharem no escuro, transportam oxigênio dos nossos pulmões ao resto do nosso corpo, quebram moléculas de açúcar para obter energia, constituem cabelos, unhas, penas e chifres e atuam como maquinário para a movimentação de bactérias e músculos.

Apesar dessa variedade funcional, proteínas são constituídas, em quase todos os organismos, por apenas vinte aminoácidos e, além disso, estes aminoácidos são dispostos de maneira linear, ou seja, como numa corrente em que cada elo se liga ao próximo. Para cada nova sequência, uma nova proteína e, possivelmente, uma nova molécula extraordinária e única, talvez um pigmento que reage com a luz, ou um veneno letal, ou um remédio capaz de prevenir infartos.

As proteínas, após sintetizadas, podem sofrer pequenas modificações, adições de algumas moléculas à sua estrutura, o que aumenta consideravelmente o alfabeto inicial de vinte aminoácidos. Por exemplo, a adição de um grupo fosfato (-PO43-) ou de um grupo metil (-CH3). Na verdade, existem centenas destas modificações. Uma delas é a O-Glicosilação com N-acetilglicosamina, que acontece quando uma molécula de N-acetilglicosamina (C8H15NO6) é adicionada a uma hidroxila de uma serina ou treonina, dois dos vinte aminoácidos que podem compor proteínas.

Finalmente, chegamos ao assunto da minha pesquisa: compreender quando um aminoácido de uma proteína pode receber uma N-acetilglicosamina [1]. Por que estudar algo tão específico? Antes de responder a esta pergunta, eu gostaria de descrever minha abordagem para enfrentar este problema.

2. Metodologia

Os programas de computador, conjuntos de regras pré-definidas por um desenvolvedor, permitiram desde enviar o homem à Lua a simular ataques alienígenas na tela de um videogame. Porém, existem tarefas tão complexas que os humanos nunca conseguiram criar um conjunto de regras capaz de resolvê-las. Um exemplo simples, e notavelmente difícil, é a identificação de gatos em imagens.

Uma imagem digital de 15 cm x 15 cm, em um monitor comum, é representada por cerca de um milhão de números, que definem as intensidades de vermelho, verde e azul dos seus pixels. Um programa que identifica gatinhos deve receber como entrada esse um milhão de números, realizar operações matemáticas com esses números, e devolver como saída 0 (não há gatinho) ou 1 (há gatinho).

Ninguém nunca conseguiu criar um conjunto de regras capaz de transformar esse milhão de números na resposta correta. Porém, os computadores são capazes, por meio de um método chamado aprendizado de máquina. Neste método, inicia-se com vários parâmetros, a princípio, escolhidos ao acaso. Esses parâmetros são utilizados para manipular os dados de entrada e obter a saída. Por meio de técnicas matemáticas, estes parâmetros são pouco a pouco ajustados, cada vez tornando o algoritmo mais certeiro.

Nas últimas décadas, o aprendizado de máquina floresceu, cada vez mais poderoso, tornou possível não apenas identificar gatinhos, mas também identificar câncer de pele melhor do que médicos com anos de experiência e foi capaz de superar, no Go, um jogo de tabuleiro milenar, os melhores jogadores do mundo [2]. Essa poderosa técnica tem sido aplicada aos mais diversos tipos de problemas, que, até então, nem humanos nem algoritmos criados por humanos foram capazes de resolver.

Identificar quais aminoácidos de uma proteína podem ser modificados por O-Glicosilação com N-acetilglicosamina é um problema difícil. Apesar de décadas de estudo, não foi possível encontrar um conjunto de regras, simples ou complexo, que permitisse identificar quais aminoácidos podem sofrer esta modificação. Ou seja, um problema ideal para o aprendizado de máquina: esta é a técnica que aplico ao problema.

Figura 1. O algoritmo concebido recebe como entrada a sequência de aminoácidos de uma proteína e retorna como saída a probabilidade de que cada serina ou treonina da sequência seja um sítio de O-Glicosilação com N-acetilglicosamina. As serinas são representadas pela letra S, as treoninas são representadas pela letra T, a probabilidade de um aminoácido ser modificado é representada graficamente por um gradiente que vai do branco, representando probabilidade zero, ao verde escuro, representando probabilidade 1.

3. Conclusão

No início do texto, fomos da escala de organismo à escala atômica. Agora, faremos o caminho reverso. Considere o aminoácido que ocupa a ducentésima segunda posição de uma proteína chamada Tau, que tem quatrocentos e onze aminoácidos. Esta proteína é abundante nos neurônios do nosso cérebro.

Este aminoácido é uma serina; sabe-se que, quando esse aminoácido não sofre adição de N-acetilglicosamina, aumenta a chance de sofrer adição de um grupo fosfato. Esta adição, por sua vez, muda o formato e a carga da proteína Tau, o que faz com que proteínas Tau tenham afinidade umas pelas outras, o que faz com que formem agregados, que, por sua vez, prejudicam o funcionamento saudável dos neurônios, causando a doença de Alzheimer [3].

No momento, estão sendo testados medicamentos capazes de aumentar a adição de N-acetilglicosamina em proteínas e, consequentemente, impedir o aparecimento ou o avanço da doença de Alzheimer. Possivelmente, uma pequena modificação de alguns aminoácidos de uma proteína específica de um certo grupo de células do nosso corpo guarda o segredo para a cura da doença de Alzheimer, uma doença grave que afeta duramente a vida de milhões de pessoas e seus familiares. Este é apenas um exemplo, dentre muitos outros, de como esta pequena modificação pode ser importante.

Como primeira contribuição do meu projeto de pesquisa de doutorado, realizada durante o primeiro trimestre de trabalho, publicamos o algoritmo com a melhor performance já obtida para predizer O-Glicosilação com N-acetilglicosamina em proteínas [1]. Essa ferramenta (Figura 1), disponível abertamente para outros pesquisadores, pode ser utilizada na elucidação dos mais diversos fenômenos biológicos. As implicações da utilização dessa ferramenta, assim como o estudo de outras modificações, darão continuidade ao projeto.

Assim funciona a ciência: nos debruçamos, muitas vezes, sobre uma molécula, de uma célula, de um tecido, de um organismo, comumente utilizando técnicas profundas, desenvolvidas por meio do acúmulo de séculos de conhecimento, para compreender um fenômeno que pode parecer pequeno ou insignificante, mas que pode ser a chave para a solução de problemas fundamentais para a humanidade.

Agradecimentos. Os autores agradecem às agências de fomento à pesquisa: CAPES, CNPq e FAPEMIG.

4. Referências

[1] Arcanjo, A., Mariano, D., Bastos, L., Bastos, A., Pirovani, M., Melo-Minardi, R. Using Protein Language Models Embeddings to predict O-GlcNAc glycosylation sites. 28th Brazilian Symposium on Bioinformatics.

[2] Ludermir, T. B. (2021). Inteligência Artificial e Aprendizado de Máquina: estado atual e tendências. Estudos Avançados, 35(101), 85–94. https://doi.org/10.1590/s0103-4014.2021.35101.007.

[3] Liu, F., Iqbal, K., Grundke-Iqbal, I., Hart, G. W., & Gong, C.-X. (2004). O-GlcNAcylation regulates phosphorylation of tau: A mechanism involved in Alzheimer’s disease. Proceedings of the National Academy of Sciences, 101(29), 10804–10809. https://doi.org/10.1073/pnas.0400348101.