A seguir, vamos utilizar o servidor web ROBETTA (http://robetta.bakerlab.org) para a modelagem de estruturas proteicas (Figura 33). O servidor utiliza a implementação automatizada do programa ROSETTA (https://www.rosettacommons.org/) no qual é possível realizar tanto modelagem comparativa quanto ab initio. A metodologia ROSETTA baseia-se em dividir a sequência em fragmentos de tamanho entre três e nove aminoácidos. Os segmentos são extraídos da sequência de entrada e comparados com segmentos de uma base de dados de estrutura de proteínas, a partir de suas estruturas secundárias. Em seguida o espaço conformacional é então pesquisado utilizando a metodologia de Monte Carlo, que consiste em realizar um massivo número de simulações com amostragem aleatória. Dessas simulações, um valor de energia é estabelecido através do campo de força do programa [35,37].
Para cada sequência de destino são geradas 10.000 conformações, futuramente agrupadas com base no RMSD de seus carbonos-alfa. Apenas nove centroides, estruturas representativas de cada agrupamento, são selecionados. Na última etapa, os modelos gerados são buscados no PDB utilizando o Mammoth, um algoritmo estrutural que independe da sequência para encontrar à sobreposição estrutural com maior cobertura. Essa comparação tem o intuito de aumentar a confiabilidade do enovelamento do modelo através de um valor representado pela função de confiança. Quanto maior o valor de confiança, maior é a correspondência estrutural do modelo com estruturas existentes [38].
Link de acesso ao ROBETTA: http://robetta.bakerlab.org
Para utilizar o ROBETTA é necessário criar uma conta gratuita (Figura 34). Nesse processo é criada um usuário para login e uma senha, que serão utilizados para acessar os trabalhos que forem submetidos e acompanhar o status na fila de execução.
Depois de criar login e senha, o usuário poderá submeter a sequência que tem interesse em modelar. A entrada pode ser submetida inserindo a sequência no local indicado ou fazendo um upload da sequência em formato FASTA (Figura 35). O servidor realiza a modelagem comparativa e ab initio de forma automática. Entretanto, é possível selecionar a opção CM only para realizar apenas a modelagem comparativa. Ou ainda, selecionar a opção AB only, que realiza apenas a modelagem ab initio. A opção predict domains permite que os domínios da proteína sejam resolvidos separadamente, porém isso implica em um maior tempo de execução. Quando nenhuma das opções é selecionada, o programa tenta realizar a modelagem comparativa primeiro e, caso não seja possível, a modelagem ab initio é executada.
Na execução do ROBETTA como programa de modelagem comparativa, o usuário pode inserir o código PDB do molde ou o arquivo do molde que deseja usar. Restrições de ângulos ou distâncias entre dois átomos ou resíduos podem ser inseridos para influenciar a função de energia utilizada. Também é possível inserir um arquivo de fragmentos para serem utilizados na modelagem ab initio.
Após realizar a submissão, é possível acompanhar a fila de execução e o status da construção do modelo enviado clicando no menu superior ao lado do seu nome de usuário e, em seguida, na opção “My queue”. Quando finalizada a modelagem, o usuário receberá uma notificação via e-mail. O tempo de espera varia, em média, entre dois e três dias, sem a opção predict domains (ao selecionar essa opção o tempo de execução é estendido).
Estudo de caso: glicoproteína de superfície do SARS-COV-2
Como exemplo, a sequência da glicoproteína de superfície do SARS-COV-2 (Genbank ID: QIU81369.1) foi submetida a modelagem na ferramenta web ROBETTA. Essa proteína apresenta 1261 resíduos de aminoácidos. Na Figura 36, pode-se visualizar informações como a sequência alvo, parâmetro de confiança (confidence) e o método utilizado para modelar a glicoproteína de superfície do SARS-COV-2.
O valor do parâmetro de confiança varia entre zero e um. Quanto mais próximo de um, melhor é a qualidade dos modelos gerados. Valores mais próximo de zero indicam que a qualidade dos modelos é baixa. Para o nosso exemplo, a confiança obtida foi de 0,36, demonstrando uma qualidade inferior à desejada.
Além disso, são apresentadas as previsão de estrutura secundária realizadas por três ferramentas:
- deepconcnf (raptorx.uchicago.edu/StructurePropertyPred/predict/);
- psipred (bioinf.cs.ucl.ac.uk/psipred/);
- spider3 (sparks-lab.org/server/spider3/).
onde H representa hélices-alfa, E representa folhas-beta, e o caractere “-“ representa regiões de alça.
É possível visualizar os cinco melhores modelos de estrutura (Figura 37), além de um gráfico com a estimativa de erro em ångström para cada resíduo. Com esse gráfico, é possível ver a variação das posições dos resíduos de acordo com cada modelo. Variações muito grandes mostram a dificuldade de modelar certas regiões. Os resultados podem ser baixados (a ferramenta informa a data até quando esses resultados ficarão disponíveis no servidor).
Este texto faz parte do artigo “Modelagem computacional de proteínas“:
Sumário |
---|
1. Introdução à modelagem de proteínas |
2. Métodos dependentes de molde |
– 2.1 Modelagem comparativa |
—- 2.1.1 MODELLER |
—- 2.1.2 SWISS-MODEL |
– 2.2 Threading |
—- 2.2.1 I-TASSER |
3. Modelagem ab initio: métodos independentes de molde |
– 3.1 ROBETTA |
4. Referências bibliográficas |