Revisão:
BIOINFO – Revista Brasileira de Bioinformática. Edição #. .
DOI:
Olá, neste artigo apresentamos uma breve introdução aos métodos e ferramentas de alinhamento de estruturas tridimensionais, como proteínas e outras moléculas. Para um melhor entendimento, dividimos o capítulo em sete partes:
Introdução
Alinhamento estrutural consiste na tentativa de encontrar semelhanças entre duas estruturas tridimensionais de moléculas, como por exemplo, peptídeos, ligantes e proteínas [1]. A estrutura tridimensional de proteínas está estritamente ligada à sua atividade biológica em uma célula [2]. Portanto, conhecer a estrutura das proteínas e poder encontrar equivalências nessas estruturas é um fator crucial no campo da biologia estrutural [2]. Além disso, uma vez que estudos sugerem que a evolução tende a conservar a estrutura de macromoléculas, similaridades estruturais entre duas proteínas podem ser usadas como indícios de relações evolutivas ou funções comuns entre as estruturas sobrepostas [1]. Essas relações, por sua vez, são fundamentais na predição da interação entre proteínas [4]. Nesse contexto, a determinação entre similaridades entre estruturas se mostra de grande importância para uma gama de estudos em bioinformática estrutural.
No alinhamento estrutural, macromoléculas são sobrepostas visando encontrar regiões de similaridade. A Figura 1 ilustra o alinhamento estrutural entre duas enzimas beta-glicosidases classificadas como membros da família 1 das glicosídeo-hidrolases (GH1) na base de dados CAZy (Carbohydrate-Active enZYmes; disponível em http://www.cazy.org/). Por serem proteínas de uma mesma família (e do mesmo clã GH-A), é esperado que beta-glicosidases GH1 possuam uma estrutura tridimensional parecida. Isso pode ser demonstrado sobrepondo as estruturas através de uma técnica de alinhamento estrutural, como na Figura 1.
De fato, a família GH1 (e outras famílias pertencentes ao clã GH-A) é composta por enzimas que adotam uma estrutura de enovelamento denominada Barril TIM (β/α)8, em que oito fitas beta se intercalam com oito hélices-alfa dando a proteína a forma de um barril [12]. Quando comparamos as sequências (estrutura primária) dessas enzimas podemos perceber que elas apresentam menos de 40% de identidade, isto é, menos de 40% dos aminoácidos que compõem essas estruturas são similares (Figura 2). Isso demonstra uma das vantagens do alinhamento estrutural: encontrar macromoléculas com sequências pouco similares, mas com uma forma parecida.
Fundamentos do alinhamento estrutural
Fundamento 1 – considere o espaço 3D: partindo do princípio de que desejemos alinhar duas macromoléculas para determinar se possuem estruturas similares, devemos primeiramente considerar que estamos lidando com um ambiente tridimensional, isto é, composto por três dimensões (em geral, denominadas X, Y e Z). Considere que proteínas são compostas por aminoácidos, que por sua vez são compostos por átomos. Cada átomo é representado por uma coordenada tridimensional. Veja um exemplo de uma linha de um arquivo PDB que representa um átomo de nitrogênio da cadeia principal do aminoácido prolina de um peptídeo sintético semelhante ao colágeno (PDB ID: 1MDS):
ATOM 1 N PRO A 1 8.316 21.206 21.530 1.00 17.44 N
Os três números destacados representam as três posições X, Y e Z daquele átomo no espaço tridimensional. Logo, se desejamos sobrepor uma estrutura sobre a outra, precisamos alterar essas coordenadas.
Fundamento 2 – apenas uma estrutura é alterada: em um alinhamento par-a-par, apenas as coordenadas de uma estrutura devem ser alteradas. A outra estrutura é utilizada como referência para realização do alinhamento (Figura 3). Caso tenha mais de duas estruturas para serem alinhadas, uma delas deverá ser utilizada como estrutura-referência, enquanto todas as outras serão alinhadas em relação a ela.
Fundamento 3 – rotação e translação: no alinhamento estrutural, uma estrutura pode sofrer duas possíveis operações. São elas rotação e translação. No movimento de translação, um elemento é movido de um lugar para o outro sem alterar sua posição rotacional em relação a um referencial. No caso da rotação, esse movimento relaciona-se a girar determinado elemento, o que afeta outros elementos conectados. Se tratando de um ambiente tridimensional, esses conceitos podem parecer um pouco complexos (ainda mais quando os correlacionamos com interações moleculares).
Para entender o movimento de rotação, imagine um átomo representado como se fosse uma bola de futebol da marca BIOINFO (preste bastante atenção na marca). Imagine que a bola está parada, logo podemos rotacioná-la de seis formas possíveis, como na Figura 4:
Observe que a bola se encontra é uma mesma posição, ou seja, apesar de estarmos rotacionando a bola, as coordenadas dela não estão sendo alteradas.
Agora, vamos supor que Joãozinho, um menino muito levado da rua, colou duas bolas de futebol usando supercola. Nesse caso, ao aplicar um movimento de rotação em qualquer uma das bolas, a outra também será afetada (Figura 5). Por exemplo, se rotacionarmos a bola 1, as coordenadas dela não serão alteradas (afinal ela se encontra no mesmo lugar). Entretanto, as coordenadas da bola 2 serão afetadas.
Para entender a translação, observe o exemplo a seguir com um par de calçados (Figura 6). Na Figura 6A, dois calçados estão posicionados um ao lado do outro. A seguir, eles foram separados (Figura 6B), isto é, o chinelo à direita sofre um movimento de translação que amplia a distância para o chinelo à esquerda. Entretanto, note que a orientação não foi alterada (perceba como o chinelo à direita está levemente inclinado e mantém sua inclinação mesmo após a translação). Assim, podemos concluir que o movimento de translação desloca um elemento de um ponto a outro, mas sem alterar sua rotação (ou seja, apenas um dos eixos será alterado).
Os movimentos de rotação e translação aplicados a átomos podem ser interpretados de forma similar. Átomos realizam interações químicas (no caso dos aminoácidos, eles estão interligados por ligações covalentes). Logo, ao aplicar um movimento de rotação em um dos átomos, as coordenadas de outros átomos interligados serão afetadas. Para ilustrar isso, observe a figura a seguir. Nela, dois aminoácidos triptofano em orientações e posições diferentes são representados por sticks verdes e azuis. Deseja-se sobrepor o triptofano azul sobre o triptofano verde. Observe como os movimentos de rotação e translação poderiam ser aplicados (Figura 7).
Note que a sobreposição não é perfeita. Mesmo se tratando de um mesmo aminoácido, é natural que se encontre diferenças nas distâncias dos átomos devido às limitações dos métodos de determinação de estruturas, a própria natureza das ligações químicas e até mesmo a imprecisões dos algoritmos de alinhamento estrutural. Observe ainda que o processo de rotação e translação é bastante complexo quando se considera cada um dos átomos. Por exemplo, ao visar um melhor alinhamento entre os átomos de nitrogênio (em azul na figura), podemos ter um bom alinhamento considerando todo o aminoácido. Entretanto, os átomos remanescentes ainda não estarão bem alinhados. Digamos que a seguir, transladamos e rotacionamos o átomo de oxigênio (em vermelho) para aperfeiçoar o posicionamento. Ao fazer isso, todas as coordenadas dos outros átomos serão afetadas, inclusive dos átomos de nitrogênio (que já haviam sido posicionadas corretamente). Assim, mais uma vez eles precisarão ser reorientados, o que irá mais uma vez afetar o alinhamento dos átomos de oxigênios (além de todos os outros). Perceba que não há uma solução perfeita para um alinhamento de estruturas. Logo, as ferramentas disponíveis usam diversos algoritmos e heurísticas para tentar obter uma boa sobreposição, balanceando precisão e desempenho.
Algoritmos de alinhamento estrutural
O problema do alinhamento entre estruturas tridimensionais possui um custo computacional maior do que o alinhamento de sequências. Frente a isso, algoritmos de modelagem e alinhamento estrutural eficientes são imprescindíveis dentro dessa área [3-4].
Por exemplo, dadas duas proteínas A e B de tamanhos m e n, o alinhamento estrutural visa encontrar subcadeias (vamos chamá-las aqui de P e Q), que tenham o mesmo tamanho, sejam similares e a correspondência seja a máxima possível [1]. A correspondência é definida como a associação de pares de átomos das duas proteínas que aparecem nas mesmas posições em suas respectivas subcadeias. O resultado de um alinhamento são subestruturas derivadas que tenham o maior grau de similaridade possível. Em geral, esse grau de similaridade é medido pela distância euclidiana entre os átomos correspondentes em cada estrutura [1].
Proteínas podem ser rotacionadas ou transladadas sem ter sua estrutura afetada (no caso, considere as distâncias internas entre átomos). Então, pode-se fixar a proteína A e rotacionar a proteína B de forma a encontrar as maiores subcadeias P e Q que tenham alta similaridade e correspondência. Mais uma vez, devemos lembrar que, em um processo de alinhamento estrutural, é fundamental considerar a orientação e posição relativa em um espaço tridimensional das duas proteínas [1].
Sistemas de pontuação
Existe uma grande quantidade de algoritmos para alinhamento estrutural disponíveis. Assim, criar algoritmos novos e mais eficientes vem se tornando cada vez mais desafiador [4]. Em geral, tais algoritmos acompanham diversas métricas para medir o alinhamento. Uma métrica bastante utilizada é o root-mean-square deviation (RMSD), que é calculado após a superposição das estruturas [3], conforme visto na Equação 1:
(1)
em que δ é a distância entre átomos correspondentes de cada estrutura, e N é o número de pares de átomos correspondentes [13]. O RMSD é aplicável a qualquer subconjunto de uma proteína, pode ser calculado entre os carbonos-alfa (Cα) das estruturas ou apenas em resíduos de uma seção específica, ou pode ser calculado entre todos os átomos pesados [13].
Na prática quanto menor o valor de RMSD, mais similares são as estruturas. No exemplo a seguir, mostramos dois alinhamentos hipotéticos para duas estruturas exemplo (Figura 8). Observe que quão melhor uma estrutura sobrepõe a outra, menor o valor de RMSD.
Algumas ferramentas podem apresentar diferentes métricas que vão além do RMSD, como por exemplo, o LS-Align que utiliza a métrica LS-Score [5] e a ferramenta TM-align, que utiliza o TM-Score [3]. Tanto o LS-Score quanto o TM-Score são o valor máximo de uma pontuação calculada com base no tamanho da estrutura sobre a qual será feita o alinhamento (no caso do TM-align, a primeira estrutura passada como parâmetro) e na soma de parâmetros obtidos a partir da distância entre os resíduos alinhados e de um fator de normalização. Por fim, ambas as métricas retornarão um valor entre 0 e 1 [3-5]. TM-score tem o valor no intervalo (0,1], onde 1 indica uma combinação perfeita entre duas estruturas. Nas próximas seções veremos detalhes de ferramentas que realizam alinhamento estrutural.
O alinhamento perfeito (RMSD = 0)
O melhor alinhamento estrutural possível teria um RMSD igual a zero. Podemos avaliar isso, alinhando uma estrutura com uma cópia idêntica a ela. No exemplo a seguir, usaremos a ferramenta PyMOL para realizar um alinhamento da lisozima 2LZM (em verde) contra uma cópia idêntica dela (em magenta). Note como as proteínas ficam perfeitamente sobrepostas (Figura 9).
Agora, observe o resultado do alinhamento exibido pelo PyMOL:
Executive: RMSD = 0.000 (162 to 162 atoms)
Note que todos os 162 átomos foram usados na comparação (foi usado apenas um átomo para cada resíduo). Como as coordenadas desses átomos são idênticas, o resultado final de RMSD será igual a zero, indicando um alinhamento perfeito.
Ferramentas para alinhamento estrutural
Na próxima seção, serão apresentadas algumas das principais ferramentas para realização de alinhamento estrutural:
Clique aqui para acessar a próxima seção do capítulo.
Até mais!
Referências do capítulo
[1] Approximate protein structural alignment in polynomial time. Rachel Kolodny, Nathan Linial Proceedings of the National Academy of Sciences Aug 2004, 101 (33) 12201-12206; DOI: doi.org/10.1073/pnas.0404383101
[2] Antczak, M., Kasprzak, M., Lukasiak, P. et al. Structural alignment of protein descriptors – a combinatorial model. BMC Bioinformatics 17, 383 (2016). https://doi.org/10.1186/s12859-016-1237-9
[3] Yang Zhang, Jeffrey Skolnick, TM-align: a protein structure alignment algorithm based on the TM-score, Nucleic Acids Research, Volume 33, Issue 7, 1 April 2005, Pages 2302–2309, https://doi.org/10.1093/nar/gki524
[4] John Rozewicki, Songling Li, Karlou Mar Amada, Daron M Standley, Kazutaka Katoh, MAFFT-DASH: integrated protein sequence and structural alignment, Nucleic Acids Research, Volume 47, Issue W1, 02 July 2019, Pages W5–W10, https://doi.org/10.1093/nar/gkz342
[5] Jun Hu, Zi Liu, Dong-Jun Yu, Yang Zhang, LS-align: an atom-level, flexible ligand structural alignment algorithm for high-throughput virtual screening, Bioinformatics, Volume 34, Issue 13, 01 July 2018, Pages 2209–2218, https://doi.org/10.1093/bioinformatics/bty081
[6] https://zhanglab.ccmb.med.umich.edu/TM-align/(arquivo README e interface)
[7] HOLM, Liisa; SANDER, Chris, Protein structure comparison by alignment of distance matrices, Journal of molecular biology, v. 233, n. 1, p. 123–138, 1993. DOI: https://doi.org/10.1006/jmbi.1993.1489
[8] I N Shindyalov, P E Bourne, Protein structure alignment by incremental combinatorial extension (CE) of the optimal path., Protein Engineering, Design and Selection, Volume 11, Issue 9, Sep 1998, Pages 739–747, https://doi.org/10.1093/protein/11.9.739
[9] Shatsky M., Nussinov R., Wolfson H.J. (2002) MultiProt — A Multiple Protein Structural Alignment Algorithm. In: Guigó R., Gusfield D. (eds) Algorithms in Bioinformatics. WABI 2002. Lecture Notes in Computer Science, vol 2452. Springer, Berlin, Heidelberg Doi https://doi.org/10.1007/3-540-45784-4_18
[10] http://bioinfo3d.cs.tau.ac.il/MultiProt/index_v1.6.html (arquivo README)
[11] Konagurthu, Arun S., et al. “MUSTANG: a multiple structural alignment algorithm.” Proteins: Structure, Function, and Bioinformatics 64.3 (2006): 559-574.
[12] Wierenga RK (March 2001). “The TIM-barrel fold: a versatile framework for efficient enzymes”. FEBS Letters. 492 (3): 193–8. doi:10.1016/s0014-5793(01)02236-0. PMID 11257493. S2CID 42044123.
[…] Referências bibliográficas […]
[…] Referências bibliográficas […]