Bioinformática estruturalDestaques

Modelagem computacional de proteínas

Letícia Xavier Silva , Luana Luiza Bastos , Lucianna Helene Santos

Neste artigo, os autores apresentam uma breve descrição das técnicas de modelagem computacional de proteínas. Para uma melhor organização do artigo, o manuscrito foi dividido nas seguintes seções:

Sumário
1. Introdução à modelagem de proteínas
2. Métodos dependentes de molde
– 2.1 Modelagem comparativa
—- 2.1.1 MODELLER
—- 2.1.2 SWISS-MODEL
– 2.2 Threading
—- 2.2.1 I-TASSER
3. Modelagem ab initio: métodos independentes de molde
– 3.1 ROBETTA
4. Referências bibliográficas
Boa leitura!

Introdução à modelagem de proteínas

As proteínas são as macromoléculas mais abundantes e cada célula de um ser vivo pode conter milhares de proteínas, cada uma com uma função única. A função de uma proteína é definida pelo arranjo dos átomos, presentes na sequência de aminoácidos, em sua estrutura tridimensional [1]. A relação arranjo tridimensional e função pode, por exemplo, depender da posição dos resíduos catalíticos no sítio ativo da proteína, ou uma possível resposta conformacional ao interagir com outras moléculas, entre outros fatores. Com isso, a determinação da estrutura proteica fornece uma melhor compreensão do funcionamento da proteína, permitindo criar proposições sobre como afetá-la, controlá-la ou modificá-la. Por exemplo, com a estrutura podemos projetar mutações pontuais em uma região da proteína com a intenção de alterar a função ou tentar prever moléculas que possivelmente se ligam a ela.

Todas as estruturas tridimensionais de macromoleculares são modelos, com níveis variáveis entre dados experimentais e predição computacional [2]. Geralmente, para se obter as coordenadas atômicas de átomos pesados com uma certa precisão são necessárias técnicas experimentais, como a cristalografia de Raios-X, Ressonância Magnética Nuclear (RMN) e Crio Microscopia Eletrônica (cryo-EM) [3,4]. Os dados oriundos dessas técnicas dependem em sua maioria de ferramentas computacionais para a interpretação espacial dos dados, construção e refinamento dos modelos [2]. Apesar da confiabilidade dos modelos estruturais gerados por técnicas experimentais, resolver estruturas usando essas técnicas requer treinamento extremamente especializado, um alto grau de habilidade, um bom orçamento, e o alvo molecular expresso e purificado em grande quantidade.

Considerando a taxa em que novas sequências de proteínas são descobertas, a dificuldade de resolver uma estrutura experimental, com as tecnologias disponíveis atualmente, é evidente. Embora o número de estruturas tridimensionais esteja crescendo continuamente, o banco de dados de proteínas, Protein Data Bank (PDB) [5], possui cerca de 175.000 estruturas resolvidas atualmente (março/21), uma grande lacuna entre estruturas e sequências disponíveis (Figura 1) ainda persiste. Isso se observa no número de sequências disponíveis no UniProt [6], que é 1200 vezes maior que o número de estruturas tridimensionais disponíveis. Portanto, comparando os dois conjuntos estamos provavelmente perdendo importantes informações biológicas e biofísicas, já que nem todas as novas proteínas sendo identificadas e sequenciadas tem sua estrutura tridimensional elucidada [2]. Nesse sentido, a predição computacional (in silico) da estrutura tridimensional de proteínas se torna uma alternativa à medida que essa lacuna cresce [7].

Figura 1. Crescimento do número de sequências de proteínas e de estruturas tridimensionais ao longo do tempo em bases de dados específicas. Swiss-Prot e TrEMBL são bases de dados de sequências e fazem parte do UniProt [6]. Porém, Swiss-Prot contém apenas sequências manualmente anotadas, enquanto o TrEMBL compreende as sequências automaticamente anotadas. Como a diferença no número de entradas entre TrEMBL, Swiss-Prot e PDB [5] é muito significativa, a escala logarítmica foi usada para aproximar a visualização no gráfico. Os dados foram obtidos em março de 2021.

A partir dos métodos de predição computacional é possível obter informações estruturais utilizando a sequência de aminoácidos de uma proteína cuja estrutura não foi determinada experimentalmente. No passado esse tipo de predição era visto como um desafio, porém, com o progresso dos algoritmos computacionais ao longo dos anos e uma disponibilidade maior de enovelamentos proteicos conhecidos, se tornou funcional com previsões plausíveis ​​e razoavelmente precisas em muitos casos [8]. As técnicas de predição de estrutura computacionais são classificadas em dois grupos: técnicas baseadas em estruturas tridimensionais conhecidas e técnicas independentes de estruturas conhecidas. Com uma estrutura conhecida, o espaço de busca por uma nova proteína é diminuído, pois a exploração se dá por modificação da estrutura (chamada de molde ou template) tridimensional resolvida por métodos experimentais [9]. Dentro desse grupo se encontram as abordagens por modelagem comparativa e por threading. Para as técnicas independentes de um molde, informações estruturais são obtidas através de vários fragmentos ou da predição de estrutura secundária de proteínas não relacionadas a proteína que se quer modelar. Nesse grupo se encontra as abordagens ab initio e de novo [10].

Figura 2. Escala entre métodos de predição de estrutura tridimensional de proteínas e identidade de sequência com as estruturas existentes. Para cada técnica um certo grau de similaridade é necessário, medido pela taxa de identidade entre a sequência alvo e sequências de estruturas conhecidas (a serem usadas como moldes).

Consequentemente, a escolha da metodologia de predição computacional a ser utilizada está condicionada a disponibilidade de estruturas tridimensionais, e a taxa de semelhança entre a sequência e uma estrutura do PDB (Figura 2). A semelhança entre molde e estrutura a ser modelada pode ser determinada pelo alinhamento de sequências, onde se obtém os valores de similaridade, identidade e cobertura entre elas. Por exemplo, abordagens de modelagem comparativa funcionam bem para proteínas com pelo menos 70% de identidade entre as sequências. Aproximando-se de 50%, a seleção de modelos torna-se mais difícil. Próximo dos 30%, ou a “twilight-zone”, torna-se extremamente difícil, porque quaisquer dois pares aleatórios de proteínas podem ter esse nível de identidade de sequência.

Os métodos de predição estrutural computacional também possuem limitações que devem ser atenciosamente avaliadas para entender o grau de confiança depositada nos modelos [9]. Para modelos baseados em moldes, podemos dizer que as estruturas resultantes terão qualidade comparável com as estruturas experimentais utilizadas ou pior. Dependendo das métricas de confiança, avaliadas por ferramentas de validação, os modelos podem ser utilizados em conjunto com outros métodos, tais como dinâmica molecular e atracamento molecular. Porém, existe um interesse contínuo dos pesquisadores em melhorar a predição de estruturas tridimensionais. Esse interesse pode ser visto na competição bienal chamada de CASP (Critical Assessment of protein Structure Prediction; predictioncenter.org). Desde 1994, o CASP oferece melhorias significativas na acurácia da predição os modelos, no alinhamento de sequências, na modelagem de estruturas secundárias, na montagem de proteínas e no refinamento final dos modelos [9]. E, como resultado dessa competição, diferentes técnicas são implementadas e aprimoradas, podendo ser usadas com maior confiança pela comunidade científica.

Métodos dependentes de molde

Como mencionado anteriormente, os métodos baseados em molde partem do princípio de que a estrutura tridimensional de uma proteína se mantém mais conservada ao longo da evolução. Consequentemente, alterações na sequência dos aminoácidos podem acarretar apenas pequenas modificações em sua estrutura tridimensional [11]. Ou seja, os métodos dessa categoria consideram que proteínas que possuem sequências semelhantes se enovelam em estruturas praticamente idênticas. Até mesmo sequências que possuem identidade baixa entre si (até 20% de identidade) podem assumir estruturas tridimensionais semelhantes. Portanto, existindo uma estrutura experimentalmente resolvida é possível construir um modelo tridimensional para uma proteína com estrutura desconhecida.

A origem das abordagens baseadas em molde pode ser datada no ano de 1969 quando tentativas de construção da estrutura de alfa-lactalbumina usando a estrutura da lisozima da clara de ovo de galinha como modelo foram publicadas por Browne e colaboradores [12]. A partir dessa década vários trabalhos surgiram melhorando e dando maior confiabilidade as técnicas de predição de estrutura, desempenhando um papel econômico em aplicações baseadas em estrutura e na caracterização de propriedades e funções de proteínas [13]. Nas próximas subseções discutiremos as duas metodologias dependentes de moldes mais populares, modelagem comparativa e threading.

Modelagem comparativa

Entre as técnicas baseadas em molde, a modelagem comparativa, também chamada anteriormente de modelagem por homologia, é a metodologia mais utilizada para a predição da estrutura da proteína quando apenas os dados da sequência estão disponíveis. Para que se possa adotar essa abordagem, é necessária uma proteína-molde (ou template) com estrutura tridimensional resolvida disponível. Esta deve apresentar uma estrutura primária com identidade mínima, entre 25% e 30%, com a sequência da proteína que se deseja modelar (proteína-alvo). É a partir da base estrutural do molde que será possível propor um modelo tridimensional para a sequência de aminoácidos da proteína-alvo [14,15].

A obtenção de um modelo tridimensional através da modelagem comparativa segue quatro etapas principais (Figura 3) [16]. São elas:

Figura 3. Fluxograma etapas da modelagem comparativa.
  1. seleção da proteína-molde – identificação de uma ou múltiplas estruturas primárias de proteínas resolvidas experimentalmente com similaridade com a sequência da proteína-alvo pela ferramenta Basic Local Alignment Search Tool (BLAST) [17]. Fatores como similaridade, identidade, número de gaps e cobertura são avaliados contra as sequências na base de dados de estruturas conhecidas, PDB [5], para determinar os melhores moldes. Encontrando resultados, outros fatores como função biológica, qualidade da estrutura experimental, presença de ligantes, substratos e cofatores são empregados para a escolha do molde;
  2. alinhamento da estrutura primária do molde e do alvo – escolhido o(s) molde(s), é feito o alinhamento entre sequência alvo e molde(s). Os alinhamentos da etapa anterior são feitos para buscar as sequências apenas. Porém, nessa segunda etapa, um alinhamento mais rebuscado é necessário para gerar a cadeia principal da estrutura [9]. Regiões que não possuem correspondência nas sequências precisam ser desconsideradas ou preenchidas com gaps. Ligantes, substratos, e outros cofatores precisam ter sua importância estudada nas estruturas de referência para serem incluídos ou não nos modelos criados;
  3. construção do modelo – feita a partir das informações estruturais do(s) molde(s) escolhido(s). Os dois métodos mais aplicados para a construção são os métodos de satisfação de restrições espaciais [14] e união de corpos rígidos [18]. O método de satisfação de restrições espaciais assume que vários parâmetros geométricos, como distâncias e ângulos são conservados entre proteínas homólogas, ao comparar as posições equivalentes oriundas do alinhamento de sequências. Já nos métodos baseados em união de corpos rígidos, o modelo é montado a partir de um pequeno número de corpos rígidos obtidos das cadeias principais das regiões alinhadas [19,20]. Nesse método a modelagem envolve encaixar as regiões rígidas comuns na estrutura modelada e reconstruir as regiões não conservadas, ou seja, cadeias laterais e alças (loops) [21]; e
  4. avaliação do modelo – gerados os modelos, estes são avaliados para determinar a qualidade e adequação da estrutura tridimensional criada. Geralmente, os programas geram muitos modelos e os classificam de acordo com um ou mais método de pontuações. Uma vez que cada método avalia o modelo criado de uma perspectiva diferente, a combinação de vários métodos de avaliação pode permitir a obtenção de um modelo mais confiável [9]. Uma das avaliações empregada é o gráfico de Ramachandran, que mostra se os resíduos do modelo tridimensionais estão em regiões previamente estabelecidas como permitidas de acordo com os ângulos de torção φ e ψ dos resíduos. A avaliação pode não ser a etapa final na modelagem comparativa, uma vez que alguns erros no alinhamento ou na construção podem acontecer e exigir a repetição das etapas anteriores do processo (Figura 3).

Os softwares para modelagem comparativa, MODELLER [14] e SWISS-MODEL [18] serão discutidos em detalhes e com exemplos práticos mais adiante.

Confira o tutorial de como realizar modelagem comparativa usando MODELLER e SWISS-MODEL.

Threading

O threading é um método de modelagem usado para modelar estruturas que possuem enovelamento similar a proteínas de estruturas conhecidas, porém compartilham baixo grau de similaridade. No threading, a sequência é fragmentada na busca por homólogos estruturais, explorando muitos alinhamentos, ao invés do alinhamento da sequência inteira de aminoácidos [28]. Portanto, essa metodologia é empregada quando existem modelos de baixa identidade que cobrem regiões diferentes da sequência alvo [29].

A modelagem threading baseia-se no reconhecimento das características da sequência utilizada, para isso deve-se realizar um alinhamento local que encontre moldes, estruturas disponíveis no PDB, que cubram determinadas regiões. Em seguida, uma abordagem de modelagem comparativa para cada molde selecionado é realizada, criando assim estruturas secundárias para cada região. É importante ressaltar que fatores como a qualidade das estruturas selecionadas e a identificação de moldes que cubram todos os trechos da sequência têm influência direta na qualidade dos modelos finais gerados [29].

Confira o tutorial de como realizar modelagem por threading usando I-TASSER.

Métodos de modelagem independentes de molde

Devido à grande lacuna entre o número de estruturas primárias e estruturas tridimensionais resolvidas, uma quantidade significativa de dados de sequência não compartilha identidade e similaridade com famílias de proteínas conhecidas. Com isso, surge a necessidade de métodos que predizem a estrutura com nenhuma ou mínima informação estrutural, os chamados de métodos independentes de molde. Esse tipo de modelagem baseia-se na suposição que todas as proteínas se enovelam para um estado nativo ou para um conjunto de estados com o menor nível de energia potencial, mínimo global [29,34]. Existem duas abordagens para essa categoria, modelagem de novo e modelagem ab initio.

Apesar de serem tratadas como equivalentes na literatura, na prática os algoritmos desses métodos diferem em suas aplicações. Na modelagem de novo são usadas informações provenientes de bancos de estruturas determinadas empiricamente, em forma de fragmentos estruturais sem identidade com a sequência alvo, para orientar o estado enovelado do modelo. Enquanto, métodos ab initio baseiam-se puramente nas leis da Física, ou seja, primeiros princípios, para determinar as estruturas. Nas abordagens ab initio o conhecimento estrutural de proteínas como a previsão de ângulos de torção e inserção dos átomos são feitos através de métodos matemáticos e estatísticos. Porém, ambas metodologias são computacionalmente exigentes, limitando a modelar proteínas pequenas (entre 100 e 200 aminoácidos). Além disso, para a escolha dos melhores modelos, diferente do que é realizado na modelagem comparativa, é necessário realizar a execução dos algoritmos muitas vezes. Dessa forma a definição dos melhores modelos é feita inicialmente pela filtragem de vária conformações a partir de um limiar de energia previamente definido.

Atualmente, as ferramentas de predição estrutural utilizam vários métodos na construção do modelo, tornando-se ferramentas híbridas de modelagem. Por exemplo, o servidor ROBETTA (robetta.bakerlab.org/) usa fragmentos de estruturas PDB existentes, a fim de orientar a pesquisa em conjunto com funções de energia, classificando-se então como um software de modelagem de novo [34,35]. Porém, regiões da sequência sem equivalência são construídas a partir de modelagem ab initio. Podemos dizer o mesmo do programa QUARK (zhanglab.ccmb.med.umich.edu/QUARK/), pois sua abordagem possui uma etapa de montagem de fragmentos, onde pequenos fragmentos estruturais (1–20 resíduos retirados de estruturas PDB conhecidas) são unidos para construir a estrutura final por Monte Carlo com assistência de um campo de força [36].

Apesar da diferença na forma como os algoritmos de modelagem de novo e ab initio são implementados, essas terminologias têm sido usadas na literatura como sinônimos. Por isso, neste artigo utilizaremos tanto os termos de novo quanto ab initio para indicar estratégias de modelagem sem o uso de molde.

Confira o tutorial de como realizar modelagem ab initio usando ROBETTA.

Referências bibliográficas

1.         Wolynes, P.G. Evolution, Energy Landscapes and the Paradoxes of Protein Folding. Biochimie 2015, 119, 218–230.

2.         Schwede, T. Protein Modeling: What Happened to the “Protein Structure Gap”? Structure 2013, 21, 1531–1540.

3.         Carroni, M.; Saibil, H.R. Cryo Electron Microscopy to Determine the Structure of Macromolecular Complexes. Methods (San Diego, Calif.) 2016, 95, 78–85, doi:10.1016/j.ymeth.2015.11.023.

4.         Klebe, G. Experimental Methods of Structure Determination. In Drug Design: Methodology, Concepts, and Mode-of-Action; Klebe, G., Ed.; Springer Berlin Heidelberg: Berlin, Heidelberg, 2013; pp. 265–290 ISBN 978-3-642-17907-5.

5.         Berman, H.M.; Westbrook, J.; Feng, Z.; Gilliland, G.; Bhat, T.N.; Weissig, H.; Shindyalov, I.N.; Bourne, P.E. The Protein Data Bank. Nucleic Acids Res. 2000, 28, 235–242.

6.         Consortium, U. UniProt: A Worldwide Hub of Protein Knowledge. Nucleic acids research 2019, 47, D506–D515.

7.         Studer, G.; Tauriello, G.; Bienert, S.; Waterhouse, A.M.; Bertoni, M.; Bordoli, L.; Schwede, T.; Lepore, R. Modeling of protein tertiary and quaternary structures based on evolutionary information. In Computational Methods in Protein Evolution; Springer, 2019; pp. 301–316.

8.         Liu, H.; Chen, Q. Computational Protein Design for given Backbone: Recent Progresses in General Method-Related Aspects. Current opinion in structural biology 2016, 39, 89–95.

9.         Haddad, Y.; Adam, V.; Heger, Z. Ten Quick Tips for Homology Modeling of High-Resolution Protein 3D Structures. PLoS computational biology 2020, 16, e1007449.

10.        Kc, D.B. Recent Advances in Sequence-Based Protein Structure Prediction. Briefings in bioinformatics 2017, 18, 1021–1032.

11.        Patel, B.; Singh, V.; Patel, D. Structural Bioinformatics. In Essentials of Bioinformatics, Volume I; Springer, 2019; pp. 169–199.

12.        Browne, W.J.; North, A.C.T.; Phillips, D.C.; Brew, K.; Vanaman, T.C.; Hill, R.L. A Possible Three-Dimensional Structure of Bovine α-Lactalbumin Based on That of Hen’s Egg-White Lysozyme. Journal of molecular biology 1969, 42, 65–86.

13.        Cavasotto, C.N.; Phatak, S.S. Homology Modeling in Drug Discovery: Current Trends and Applications. Drug discovery today 2009, 14, 676–683.

14.        Šali, A.; Blundell, T.L. Comparative Protein Modelling by Satisfaction of Spatial Restraints. Journal of molecular biology 1993, 234, 779–815.

15.        Ginalski, K. Comparative Modeling for Protein Structure Prediction. Current opinion in structural biology 2006, 16, 172–177.

16.        Baker, D.; Sali, A. Protein Structure Prediction and Structural Genomics. Science 2001, 294, 93–96.

17.        Altschul, S.F.; Gish, W.; Miller, W.; Myers, E.W.; Lipman, D.J. Basic Local Alignment Search Tool. Journal of molecular biology 1990, 215, 403–410.

18.        Schwede, T.; Kopp, J.; Guex, N.; Peitsch, M.C. SWISS-MODEL: An Automated Protein Homology-Modeling Server. Nucleic acids research 2003, 31, 3381–3385.

19.        Greer, J. Comparative Modeling Methods: Application to the Family of the Mammalian Serine Proteases. Proteins: Structure, Function, and Bioinformatics 1990, 7, 317–334.

20.        Blundell, T.L.; Sibanda, B.L.; Sternberg, M.J.E.; Thornton, J.M. Knowledge-Based Prediction of Protein Structures and the Design of Novel Molecules. Nature 1987, 326, 347–352.

21.        Wallner, B.; Elofsson, A. All Are Not Equal: A Benchmark of Different Homology Modeling Programs. Protein Science 2005, 14, 1315–1327.

22.        Waterhouse, A.; Bertoni, M.; Bienert, S.; Studer, G.; Tauriello, G.; Gumienny, R.; Heer, F.T.; de Beer, T.A.P.; Rempfer, C.; Bordoli, L. SWISS-MODEL: Homology Modelling of Protein Structures and Complexes. Nucleic acids research 2018, 46, W296–W303.

23.        Wang, J.; Lee, P.K.; Dong, Y.; Pang, S.S.; Duggleby, R.G.; Li, Z.; Guddat, L.W. Crystal Structures of Two Novel Sulfonylurea Herbicides in Complex with Arabidopsis Thaliana Acetohydroxyacid Synthase. The FEBS journal 2009, 276, 1282–1290.

24.        Santos Filho, O.A.; Alencastro, R.B. de Modelagem de Proteínas Por Homologia. Química Nova 2003, 26, 253–259.

25.        Higgins, D.G.; Sharp, P.M. Fast and Sensitive Multiple Sequence Alignments on a Microcomputer. Bioinformatics 1989, 5, 151–153.

26.        Xiang, Z. Advances in Homology Protein Structure Modeling. Current Protein and Peptide Science 2006, 7, 217–227.

27.        Schrödinger, L.L.C. The PyMOL Molecular Graphics System, Version 2.0 2020.

28.        Zhang, Y. I‐TASSER: Fully Automated Protein Structure Prediction in CASP8. Proteins: Structure, Function, and Bioinformatics 2009, 77, 100–113.

29.        Verli, H. Bioinformática: Da Biologia à Flexibilidade Molecular. 2014.

30.        Yang, J.; Zhang, Y. I-TASSER Server: New Development for Protein Structure and Function Predictions. Nucleic acids research 2015, 43, W174–W181.

31.        Wu, S.; Zhang, Y. LOMETS: A Local Meta-Threading-Server for Protein Structure Prediction. Nucleic acids research 2007, 35, 3375–3382.

32.        Yang, J.; Roy, A.; Zhang, Y. BioLiP: A Semi-Manually Curated Database for Biologically Relevant Ligand–Protein Interactions. Nucleic acids research 2012, 41, D1096–D1103.

33.        Zhang, Y.; Skolnick, J. Scoring Function for Automated Assessment of Protein Structure Template Quality. Proteins: Structure, Function, and Bioinformatics 2004, 57, 702–710.

34.        Kim, D.E.; Chivian, D.; Baker, D. Protein Structure Prediction and Analysis Using the Robetta Server. Nucleic acids research 2004, 32, W526–W531.

35.        Song, Y.; DiMaio, F.; Wang, R.Y.-R.; Kim, D.; Miles, C.; Brunette, T.J.; Thompson, J.; Baker, D. High-Resolution Comparative Modeling with RosettaCM. Structure 2013, 21, 1735–1742.

36.        Xu, D.; Zhang, Y. Ab Initio Protein Structure Assembly Using Continuous Structure Fragments and Optimized Knowledge‐based Force Field. Proteins: Structure, Function, and Bioinformatics 2012, 80, 1715–1735.

37.        Bradley, P.; Chivian, D.; Meiler, J.; Misura, K.M.S.; Rohl, C.A.; Schief, W.R.; Wedemeyer, W.J.; Schueler‐Furman, O.; Murphy, P.; Schonbrun, J. Rosetta Predictions in CASP5: Successes, Failures, and Prospects for Complete Automation. Proteins: Structure, Function, and Bioinformatics 2003, 53, 457–468.

38.        Chivian, D.; Kim, D.E.; Malmström, L.; Schonbrun, J.; Rohl, C.A.; Baker, D. Prediction of CASP6 Structures Using Automated Robetta Protocols. Proteins: Structure, Function, and Bioinformatics 2005, 61, 157–166.

 5 views

Comment here