Tutorial: modelagem de proteínas com I-TASSER

Um dos programas mais populares de Threading é o I-TASSER [28,30], que foi premiado diversas vezes na competição CASP (Critical Assessment of protein Structure Prediction). O I-TASSER (Figura 24) está disponível como um servidor web para predição automatizada de estrutura de proteínas e suas respectivas funções. A identificação dos moldes a partir da segmentação da sequência de entrada é realizada usando o LOMETS [31]. O LOMETS é um meta-servidor de segmentação local, compilando vários programas de threading, para previsões rápidas e automatizadas de estruturas terciárias de proteínas e restrições espaciais. As regiões onde moldes não foram encontrados são modeladas utilizando a metodologia ab initio, realizando simulações baseadas no método de Monte Carlo. As estruturas são agrupadas e os modelos são selecionados considerando a menor energia. A última etapa realizada pelo servidor consiste na busca das possíveis funções da sequência alvo na biblioteca BioLip [32].

Figura 24. Página inicial do servidor web I-TASSER.

Acesso ao I-TASSER: zhanglab.ccmb.med.umich.edu/I-TASSER/

Estudo de caso: modelagem da sequência do peptídeo da glândula salivar de Ixodes scapularis

Como exemplo foi realizada a modelagem de um peptídeo putativo secretado da glândula salivar de Ixodes scapularis, a sequência foi obtida do Genbank, ID AAV80775.1. O arquivo de entrada exigido pelo servidor é a sequência da proteína que pode ser inserida no local indicado, ou pode ser realizado a upload do arquivo fasta (Figura 25). Para submeter o trabalho é necessário realizar a criação de uma conta, criando um usuário e uma senha. O e-mail cadastrado deve ser institucional (ou seja, um e-mail registrado em um domínio pertencente a uma universidade ou instituto de pesquisa).

Figura 25. Página de submissão de tarefa ao servidor web I-TASSER.

Apesar de ser um servidor automatizado, o I-TASSER apresenta opções adicionais (Figura 26) que podem ser executadas de forma a personalizar a predição do modelo, são elas:

Figura 26. Opções adicionais de personalização da predição estrutural com o servidor web I-TASSER.

Opção I – Se os usuários souberem alguma informação sobre a estrutura da proteína a ser modelada, essa informação pode ser convenientemente inserida nessa opção. A inserção de informações pode melhorar a qualidade da predição estrutural e funcional. O servidor I-TASSER aceita atualmente dois tipos de restrições especificadas pelo usuário: arquivos com restrições de contato e distância; e estruturas molde com e sem alinhamento. O formato do arquivo texto para restrições de distância (Figura 27) consiste em linhas que apresentam a palavra DIST, o número e tipo de átomo do primeiro resíduo, número e tipo do átomo do segundo resíduos, e a distância entre eles em ångström. Para restrições de contato, as linhas contêm a palavra CONTACT e o número dos resíduos em contato (Figura 27). Para especificar estruturas-molde, os usuários podem atribuir o código PDB no formato PDBID:Chain, inserir informações tridimensionais (arquivo similar ao PDB), ou utilizar alinhamento no formato FASTA com informações estruturais anexadas.

Figura 27. Exemplo de arquivo texto das restrições de contato e distância.

Opção II – É possível excluir moldes parecidos à proteína-alvo presentes no banco de dados do servidor, inserindo um valor de corte. Por exemplo, ao digitar “60%”, o I-TASSER excluirá automaticamente todos os modelos que possuem uma identidade de sequência maior que 60%. O corte mínimo é definido em 25%, ou seja, todos os valores abaixo de 25% retornarão como 25%. Porém, a exclusão de moldes com identidade de sequência diminuirá a qualidade da modelagem. Portanto, essa opção foi projetada apenas para alguns fins especiais. Ainda nessa opção, moldes específicos podem ser excluídos através de uma lista de estruturas no formato PDBID:Chain.

Opção III – Caso algum conhecimento sobre a estrutura secundária da proteína a ser modelada exista, como por exemplo, informações extraídas de uma predição de estrutura secundária, um arquivo de texto (Figura 28) com essas informações pode ser inserido. O I-TASSER tentará gerar os modelos seguindo a estrutura secundária especificada no arquivo. O arquivo consiste em uma coluna com o número do resíduo, uma segunda coluna com o símbolo do resíduo, e uma terceira coluna com o tipo de estrutura secundária, onde S corresponde às folhas-beta, H às hélices-alfa, e C às alças (loops).

Figura 28. Exemplo de arquivo texto para a especificação de estrutura secundária.

A sequência do peptídeo da glândula salivar de Ixodes scapularis foi submetida sem a utilização de nenhuma restrição. Após a submissão, o usuário é notificado por e-mail assim que o trabalho for finalizado. Os resultados ficam disponíveis no servidor durante um período de dois meses. A modelagem leva de um a dois dias para processar a depender da fila de trabalhos submetidos no servidor web. Na figura 29, podemos visualizar os resultados obtidos para a sequência submetida. Nessa página, consta o resultado da predição de estrutura secundária e o conf.score que demonstra a qualidade da predição para cada resíduo em relação a sequência alvo. Quanto maior o valor, maior a confiabilidade da predição.

Figura 29. Página de resultado do I-TASSER para o exemplo submetido.

A predição de acessibilidade ao solvente de cada resíduo também é feita. Nesse caso, I-TASSER classifica os resíduos como acessíveis ou inacessíveis ao solvente (Figura 30). Valores próximos a zero indicam que os resíduos possivelmente estão em posições internas na proteína, enquanto valores próximos a nove indicam resíduos em posições mais expostas ao solvente. Além disso, o fator B, valor que indica a extensão da mobilidade térmica inerente de resíduos ou átomos nas proteínas, também é predito para o modelo (Figura 31). Resíduos com valores negativos no gráfico de fator B mostram ser mais estáveis na estrutura.

Figura 30. Resultados da predição de acessibilidade ao solvente dos resíduos e o fator B em relação a toda a estrutura do modelo criado.

O alinhamento dos dez primeiros moldes também é disponibilizado na página de resultados (Figura 31). Espera-se encontrar uma maior conservação nos moldes exibidos, o que poderá dar uma maior qualidade ao modelo final. A avaliação do alinhamento entre as sequências molde e alvo pode ser feita pelo parâmetro Norm. Z-score. Valores de Norm. Z-score acima de um revelam um bom alinhamento entre sequências. Dependendo desses valores, I-TASSER qualifica a proteína-alvo como fácil ou difícil de modelar. Além disso, tanto os alinhamentos quanto as estruturas-molde podem ser baixadas individualmente.

Figura 31. Resultado do alinhamento com os dez primeiros moldes encontrados pelo I-TASSER usando LOMETS e a base de dados de PDB.

Por fim, cinco modelos construídos mais bem ranqueados são apresentados (Figura 32). Além da opção de download dos modelos gerados, informações, como precisão global (C-score), TM-score e RMSD, ficam disponíveis para melhor qualificar os modelos. Porém, o I-TASSER relata apenas a previsão de TM-score e RMSD para o primeiro modelo, uma vez que a correlação entre C-score e TM-score é fraca para modelos de classificação inferior.

O valor de C-score é listado para todos os modelos para servir como referência. O C-score (precisão global estimada) possui uma faixa de valor entre -5 e 2. Valores maiores que -1,5 indicam modelos que possuem uma boa topologia global predita. Já o TM-score [33] é uma escala proposta para medir a semelhança estrutural entre duas estruturas, nesse caso a estrutura do molde e do modelo, que não depende do comprimento da proteína e não é sensível a diferentes estruturações e orientações locais. Valores de TM-score acima de 0,50 indicam um modelo na topologia correta, enquanto valores de TM-score abaixo de 0,17 significam que a similaridade entre as estruturas é aleatória. O RMSD se refere a sobreposição entre molde e modelo gerado. Um valor alto de RMSD mostra que regiões específicas das proteínas possuem estruturação e orientação desiguais. Se existente, o I-TASSER pode ainda disponibilizar os possíveis ligantes, possíveis sítios ativos e possíveis funções das estruturas modeladas.

Figura 32. Os cinco melhores modelos ranqueados de acordo com as funções objetivas do I-TASSER.

Os modelos podem ainda ser avaliados usando métricas de avaliação para modelagem comparativa. Porém, como se trata de um modelo construído a partir de sequências de baixa identidade, sua qualidade deve ser considerada baixa, logo tais modelos poderão receber pontuações baixas.

Este texto faz parte do artigo “Modelagem computacional de proteínas“:

Sumário
1. Introdução à modelagem de proteínas
2. Métodos dependentes de molde
– 2.1 Modelagem comparativa
—- 2.1.1 MODELLER
—- 2.1.2 SWISS-MODEL
– 2.2 Threading
—- 2.2.1 I-TASSER
3. Modelagem ab initio: métodos independentes de molde
– 3.1 ROBETTA
4. Referências bibliográficas

Boa leitura!