Biologia Computacional de Proteínas

116
0

Neste artigo, conto a minha trajetória acadêmica. Começando na iniciação científica em cristalografia enquanto graduando em Ciência da Computação, passando pela pós-graduação em Física Aplicada e enfim o ingresso no Instituto de Ciências Biológicas da Universidade Federal de Minas Gerais, onde atualmente desenvolvo pesquisas na área de estrutura, função e evolução de proteínas junto aos programas de Bioinformática e Bioquímica e Imunologia.

Autor: Lucas Bleicher (0000-0001-7121-4952)

Revisão: Rafael Lemos, Bibiana, Ana Carolina

Introdução – da graduação ao pós doutorado

Em 1999, decidi sair do curso de Engenharia Elétrica, mas ainda sem muita certeza de qual caminho seguir. Fui para o curso de Ciências da Computação, mas quase imediatamente me questionei se não deveria ter ido para a Física. Foi-me indicada uma iniciação científica em um laboratório de cristalografia (algo de que eu sequer sabia da existência). O objetivo consistiria inicialmente em fazer uma interface gráfica para um antigo software desenvolvido em Fortran que usava arquivos de entrada cuja formatação não era nem um pouco amigável. Eu não fazia ideia do que significavam aqueles parâmetros, mas sabia programar. Assim, após alguns meses, terminei este software, denominado DBWS Tools, voltado à análise de materiais cristalinos na forma de pó. Meu orientador, José Marcos Sasaki, sugeriu que eu fosse ao evento “Encontro de Físicos do Norte e Nordeste” para apresentá-lo na sessão de Ciência dos Materiais, e assim tive minha primeira grande experiência com o mundo acadêmico. Ela foi tão relevante que decidi continuar a iniciação científica na Física, onde descobri que a cristalografia era de fato um assunto apaixonante. Ao final da graduação, desenvolvi um outro software, mas este não era só uma interface gráfica e sim um programa completo de refinamento de dados de um experimento específico de cristalografia utilizado em Ciência dos Materiais. Enquanto o artigo referente ao primeiro programa até hoje é citado (especialmente por brasileiros da área de caracterização de materiais), o último não fez sucesso algum, talvez pelo fato de que os fabricantes dos aparelhos de raios-x passaram a fornecer seus próprios softwares de análise. Porém, a experiência de aprendizado foi bem mais relevante, tive que descobrir como calcular curvas de espalhamento de raios-x, usar métodos numéricos para fazer convolução de curvas, normalizações e aplicação de algoritmos genéticos. Foi meu último trabalho na graduação, e eu já havia decidido que queria seguir na cristalografia, só não sabia exatamente como, já que não era físico.

Ao pesquisar por programas de pós-graduação, descobri que a Universidade de São Paulo (USP) em seu campus de São Carlos tinha um programa de Física Aplicada, que não exigia graduação em Física, e que tinha vários pesquisadores da área de Cristalografia – alguns inclusive que eu já conhecia previamente, como um dos fundadores da área no Brasil, Eduardo Ernesto Castellano. Fui aprovado, e ao chegar lá descobri que o grupo tinha também forte tradição na área de cristalografia de proteínas. Até então, a coisa mais “biológica” que eu havia feito foi uma análise de difração de raios-x, microscopia e espectroscopia em um fóssil de gliptodonte. Foi só durante a pós-graduação que fui apresentado aos aminoácidos e proteínas.

Minha dissertação de mestrado ainda envolvia pouca pesquisa experimental. Eu resolvi a estrutura de um receptor de hormônio tireoidiano ligado a um candidato a fármaco, com dados coletados previamente. Além disso, fiz a modelagem de uma outra proteína, a principal carreadora do mesmo hormônio no sangue. Já no doutorado, me envolvi diretamente na resolução estrutural de diversas proteínas, mas acabei me aproximando mais da área de biologia computacional devido à visita ao Brasil do pesquisador Rama Ranganathan, que veio a um dos primeiros congressos de Bioinformática. Ele havia desenvolvido uma metodologia computacional que propunha, usando análise de correlação entre posições de um alinhamento múltiplo de sequência, identificar resíduos responsáveis pelo alosterismo (característica de certas proteínas de ter sua atividade em um certo sítio afetada por um ligante em um sítio distante), o que levou a vários artigos de impacto nos anos 2000. Pela dificuldade em obter os scripts originais, acabei escrevendo minhas próprias versões em C++, e assim comecei a aplicar o método a proteínas de interesse no laboratório.

Uma delas foram as Superóxido Dismutases (SODs) de Fe/Mn, enzimas responsáveis pela proteção contra oxidantes nas células ao converter o radical superóxido em oxigênio e peróxido de hidrogênio, que estava sendo estudada pelo meu colega José Fernando Ruggiero Bachega. Para nossa surpresa, ao aplicar o método de Ranganathan (conhecido como Statistical Coupling Analysis, ou Análise de Acoplamento Estatístico), ao invés de encontrar um único conjunto de resíduos correlacionados (o que de acordo com a conjectura de Ranganathan corresponderia ao “núcleo alostérico” da proteína, isto é, o conjunto de resíduos responsáveis por “transmitir” o sinal de um sítio a outro), havia três conjuntos de resíduos. Já tendo lido bastante literatura sobre essa família de proteínas, Bachega imediatamente reconheceu esses resíduos como aqueles que tinham sido previamente descritos por uma análise computacional feita pelo grupo de Marianne Rooman. Esse grupo de resíduos definiria se uma SOD usaria como cofator o ferro ou o manganês, ou se seu estado oligomérico seria dimérico (havia também membros da família cuja unidade biológica é um tetrâmero). Publicado em 2009 [1], esta descoberta (e também o fato de que outros artigos da época mostravam que a relação entre resíduos correlacionados e alosterismo poderia estar equivocada) nos levou a uma nova interpretação do fenômeno de correlação entre posições em um alinhamento de proteínas: uma vez que é comum haver em uma mesma família proteínas com características diferentes (desde a utilização de diferentes metais como cofator ou seu estado oligomérico, como no caso das SODs, ou até mesmo funções completamente distintas), e tais características dificilmente seriam determinadas por um único resíduo e sim pela presença simultânea de um conjunto de resíduos. A existência em número significativo de proteínas com essas diferentes características em um alinhamento levaria naturalmente à detecção dos resíduos que as determinam numa análise de correlação.

Ao defender o doutorado, desenvolver uma metodologia com o objetivo de explorar essa hipótese eram meus planos para o pós-doutorado, que iniciei no início de 2009 com o professor Richard Charles Garratt. Mas meses depois, soube que a Universidade Federal de Minas Gerais (UFMG) estava abrindo um concurso para a área de Bioinformática.

O ingresso na UFMG

Até então, eu não me via como alguém da área de Bioinformática, que eu sempre associei às análises de genômica. Lembro-me de ter até escrito um e-mail ao departamento de Bioquímica e Imunologia perguntando se seria possível prestar o concurso, e com o resultado positivo, concorri em agosto de 2009 e fui selecionado. Assim, meu projeto inicial na UFMG envolveu criar a metodologia que já planejava fazer e aplicá-la a outras proteínas. Ainda em colaboração com Richard Garratt e também com Ney Lemke, publicamos em 2011 o artigo Using Amino Acid Correlation and Community Detection Algorithms to Identify Functional Determinants in Protein Families [2], que dá o arcabouço teórico para essa metodologia (que passamos a chamar de Decomposição de Redes de Coevolução de Resíduos, DRCN na sigla em inglês) e a aplica a casos de estudos que demonstram sua capacidade de identificar resíduos de importância funcional em diferentes famílias de proteínas.

Nos anos seguintes, com a chegada dos primeiros alunos, nos dedicamos a aplicar essa metodologia a diferentes famílias, em trabalhos ainda completamente computacionais. O primeiro foi Marcelo Querino Lima Afonso, que começou sua iniciação científica logo no início da graduação em biologia e, utilizando essa análise, identificou um padrão diferente  de ligação de receptores nucleares ao DNA (Ácido desoxirribonucleico) em nematódeos, publicando um artigo ainda em sua graduação [3]. Em seguida chegaram também dois alunos da ciência da computação da Universidade Federal de Ouro Preto (UFOP), Dhiego Souto Andrade e, Néli Fonseca Jr, e o biólogo Lucas Carrijo de Oliveira. Néli esteve envolvido no desenvolvimento de um software para a metodologia DRCN, o PFstats [4], e desenvolveu sua própria metodologia para análise de coevolução e aminoácidos [5], implementado na forma de servidor web [6]. Já Lucas Carrijo, que tinha experiência prévia na área de evolução molecular, teve importante contribuição para as interpretações biológicas das metodologias desenvolvidas em nosso grupo, e no direcionamento para a área de evolução, como será descrito posteriormente. Esse período se caracterizou pela publicação de diversos trabalhos completamente computacionais, sejam metodológicos, de softwares/servidores, ou de suas aplicações ao estudo de famílias de proteínas.

Biologia computacional e experimental

Embora nos primeiros anos tenhamos focado em trabalhos puramente computacionais, a aprovação de projetos de pesquisa e a existência de programas como o Capes Biocomputacional (que nos permitiu a contratação de pós-doutorandos com experiência em produção e caracterização de proteínas) tornou possível o desenvolvimento de projetos que unem a biologia computacional aos métodos experimentais. Em seu doutorado, Lucas Carrijo utilizou a metodologia de reconstrução de proteínas ancestrais  para inferir a sequência de proteínas ancestrais da família das transtirretinas, que foram caracterizadas por cristalografia e calorimetria, além de terem seus mecanismos de ligação estudados por docking molecular [7]. Ele também criou um método baseado em evolução molecular para interconversão funcional de proteínas, que após caracterização experimental se mostrou bem sucedido e cujos resultados foram recentemente aceitos para publicação.

Após vários anos atuando exclusivamente no programa de pós-graduação em Bioinformática, orientei em conjunto com a professora Rafaela Salgado Ferreira a mestranda Naiá Porã Santos, que desenvolveu um interessante trabalho de identificação de um sítio alostérico na protease do vírus Zika. Embora majoritariamente experimental, a publicação resultante desse trabalho teve uma detalhada análise de dinâmica molecular e análise de redes, em colaboração com a então pós-doutoranda Lucianna Helene Santos [8].

Colaborações dentro e fora da UFMG

O desenvolvimento do método DRCN nos permitiu colaborar com a professora Andrea Nascimento em estudos sobre bactérias encontradas em esgotos [9], e em ambientes contaminados por arsênio [10]. Mantivemos também uma produtiva colaboração com o grupo do professor Ribamar Ferreira Jr., da EACH-USP, que usa a levedura Saccharomyces cerevisiae como modelo de estudo. A metodologia DRCN, desenvolvida em nosso laboratório, auxiliou na descoberta da função de proteínas previamente pouco caracterizadas [11], além da interpretação [12–14] e planejamento [15] de experimentos de mutagênese sítio dirigida, cujos efeitos são verificados por análise do fenótipo em levedura.

Novos rumos na biologia computacional e perspectivas futuras

Recebemos recentemente em nosso grupo de pesquisa um aluno com formação na área de métodos híbridos  de dinâmica molecular (Mecânica Quântica/Mecânica Molecular, QM/MM na sigla em inglês), Paulo Henrique dos Santos. Considerando que a dinâmica molecular clássica usa a física newtoniana para descrever o movimento de proteínas ao longo do tempo, ela não é capaz de descrever a quebra e ligação de formações químicas, o que é crucial para o entendimento de reações. Assim, será possível entender como proteínas se comportam ao longo da evolução unindo simulação computacional e caracterização experimental de proteínas ancestrais reconstruídas. Já a aluna Millena Ferreira Fernandes está na interface computacional/experimental ao aplicar métodos de filogenia molecular e nossos próprios softwares ao estudo de canais iônicos, que serão caracterizados experimentalmente pela técnica de patch clamp, em colaboração com o professor Artur Miranda. A conjugação de diversos métodos computacionais (buscas em bancos de dados, análises de coevolução e de interações detectadas em estruturas experimentais) será utilizada para desenvolver um pipeline de anotação de proteínas em resíduos específicos pelo aluno Eduardo Horta Santos. A metodologia de análise de coevolução de aminoácidos para identificação de determinantes funcionais continua sendo aplicada a projetos de nosso laboratório, como o das alunas Sarah de Souza, que estuda as aminotransferases de classe III, e Pammella Teixeira, que estuda proteases de membrana e pretende desenvolver localmente, em colaboração com o professor Erich Tahara, a caracterização do papel de resíduos específicos por análise de nocautes e mutagênese sítio dirigida em levedura.

Nos próximos anos, pretendemos nos aprofundar cada vez mais em métodos computacionais que envolvem evolução molecular, biologia estrutural e análise de grandes conjuntos de dados envolvendo proteínas. Através da reconstrução de sequências ancestrais, podemos estudar novos mecanismos de neofuncionalização de proteínas ao avaliar computacionalmente o efeito de mutações ao longo de uma linhagem usando modelagem computacional e dinâmica molecular. Já a identificação de conjuntos de resíduos apresentando coevolução em famílias de proteínas pode mostrar como esses padrões foram mantidos ou perdidos na árvore da vida.

Referências 

[1] J.F.R. Bachega, M.V.A.S. Navarro, L. Bleicher, R.K. Bortoleto-Bugs, D. Dive, P. Hoffmann, E. Viscogliosi, R.C. Garratt, Systematic structural studies of iron superoxide dismutases from human parasites and a statistical coupling analysis of metal binding specificity, Proteins Struct. Funct. Bioinforma. 77 (2009). https://doi.org/10.1002/prot.22412.

[2] L. Bleicher, N. Lemke, R.C. Garratt, Using Amino Acid Correlation and Community Detection Algorithms to Identify Functional Determinants in Protein Families, PLoS One. 6 (2011) e27786. https://doi.org/10.1371/journal.pone.0027786.

[3] M. Lima Afonso, L. de Lima, L. Bleicher, Residue correlation networks in nuclear receptors reflect functional specialization and the formation of the nematode-specific P-box, BMC Genomics. 14 (2013) S1. https://doi.org/10.1186/1471-2164-14-S6-S1.

[4] N.J. Fonseca-Júnior, M.Q.L. Afonso, L.C. Oliveira, L. Bleicher, PFstats: A Network-Based Open Tool for Protein Family Analysis, J. Comput. Biol. 25 (2018). https://doi.org/10.1089/cmb.2017.0181.

[5] N.J. da Fonseca, M.Q.L. Afonso, L.C. de Oliveira, L. Bleicher, A new method bridging graph theory and residue co-evolutionary networks for specificity determinant positions detection, Bioinformatics. (2018). https://doi.org/10.1093/bioinformatics/bty846.

[6] N.J. Fonseca, M.Q.L. Afonso, L. Carrijo, L. Bleicher, CONAN: a web application to detect specificity determinants and functional sites by amino acids co-variation network analysis, Bioinformatics. 37 (2021) 1026–1028. https://doi.org/10.1093/BIOINFORMATICS/BTAA713.

[7] L. Carrijo de Oliveira, M.A. Figueiredo Costa, N. Gonçalves Pedersolli, F.A. Heleno Batista, A.C. Migliorini Figueira, R. Salgado Ferreira, R. Alves Pinto Nagem, L. Alves Nahum, L. Bleicher, Reenacting the Birth of a Function: Functional Divergence of HIUases and Transthyretins as Inferred by Evolutionary and Biophysical Studies, J. Mol. Evol. 89 (2021) 370–383. https://doi.org/10.1007/s00239-021-10010-8.

[8] N.P. Santos, L.H. Santos, M. Torquato Quezado de Magalhães, J. Lei, R. Hilgenfeld, R. Salgado Ferreira, L. Bleicher, Characterization of an Allosteric Pocket in Zika Virus NS2B-NS3 Protease, J. Chem. Inf. Model. 62 (2022) 945–957. https://doi.org/10.1021/ACS.JCIM.1C01326.

[9] M.C. Paiva, M.P. Reis, P.S. Costa, M.F. Dias, L. Bleicher, L.L.S. Scholte, R.M.D. Nardi, A.M.A. Nascimento, Identification of new bacteria harboring qnrS and aac(6′)-Ib/cr and mutations possibly involved in fluoroquinolone resistance in raw sewage and activated sludge samples from a full-scale WWTP, Water Res. 110 (2017). https://doi.org/10.1016/j.watres.2016.11.056.

[10] M.L.S. Suhadolnik, A.P.C. Salgado, L.L.S. Scholte, L. Bleicher, P.S. Costa, M.P. Reis, M.F. Dias, M.P. Ávila, F.A.R. Barbosa, E. Chartone-Souza, & Andréa, M.A. Nascimento, Novel arsenic-transforming bacteria and the diversity of their arsenic-related genes and enzymes arising from arsenic-polluted freshwater sediment, (n.d.). https://doi.org/10.1038/s41598-017-11548-8.

[11] J.R. Ferreira, L. Bleicher, M.H.M.H. Barros, J.R. Ferreira-Júnior, L. Bleicher, M.H.M.H. Barros, Her2p molecular modeling, mutant analysis and intramitochondrial localization., Fungal Genet. Biol. 60 (2013) 133–9. https://doi.org/10.1016/j.fgb.2013.06.006.

[12] C. Busso, L. Bleicher, J.R. Ferreira-Júnior, M.H. Barros, Site-directed mutagenesis and structural modeling of Coq10p indicate the presence of a tunnel for coenzyme Q6 binding., FEBS Lett. 584 (2010) 1609–1614.

[13] C. Busso, J.R. Ferreira-Júnior, J.A. Paulela, L. Bleicher, M. Demasi, M.H. Barros, Coq7p relevant residues for protein activity and stability, Biochimie. 119 (2015) 92–102. https://doi.org/10.1016/j.biochi.2015.10.016.

[14] J.A. Paulela, F. Gomes, V.D.L. Camandona, T.G.P. Alegria, L.E.S. Netto, L. Bleicher, M.H. Barros, J.R. Ferreira-Junior, Coq3p relevant residues for protein activity and stability, FEMS Yeast Res. 21 (2021). https://doi.org/10.1093/FEMSYR/FOAB055.

[15] R.M. Rios-Anjos, V. De Lima Camandona, L. Bleicher, J.R. Ferreira, Retrograde signaling and aging of Saccharomyces cerevisiae, PLoS One. 12 (2017). https://doi.org/10.1371/journal.pone.0177090.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *