Esta seção apresenta com detalhes uma metodologia para a busca de sítios catalíticos similares através de informações estruturais de proteínas. O método Genetic Active Site Search (GASS) [2] utiliza um algoritmo genético (AG) para a busca de sítios catalíticos baseados em templates.
Izidoro et al. (2014) [2] definem o problema de busca baseada em templates da seguinte forma. Dado um conjunto de N aminoácidos que compõe o sítio catalítico A de uma enzima de função conhecida (template), e uma proteína hipotética B com M aminoácidos de função desconhecida, o método procura o padrão A em B (Figura 9).
A Figura 10 ilustra o funcionamento do GASS. Proteínas e templates são selecionados pelo usuário para a etapa de pré-processamento. Nesta etapa é criado um repositório de proteínas com informações provenientes do Protein Data Bank (PDB; https://www.rcsb.org) e do M-CSA (https://www.ebi.ac.uk/thornton-srv/m-csa/), que serão acessados pelo GASS para criar sua população inicial do AG. Em seguida, o AG executa uma busca heurística para encontrar os sítios catalíticos similares nas proteínas selecionadas, produzindo um ou mais sítios catalíticos candidatos. A fim de lidar com a mutação conservativa, o AG também tem a opção de consultar uma matriz de substituição de resíduos. A seguir serão apresentados em maiores detalhes a modelagem e configuração do AG empregado no método.
Representação do indivíduo e inicialização da população
A representação de um indivíduo é um ponto muito importante na modelagem de um AG, e depende muito do conhecimento disponível sobre o problema a ser resolvido. Para o problema em questão, um indivíduo representa um grupo de aminoácidos, o qual é um candidato a sítio catalítico de uma enzima. O indivíduo é codificado como um vetor, onde cada posição recebe dados sobre um aminoácido, obtidos a partir do repositório de proteínas criado na fase de pré-processamento.
Assim, para cada aminoácido que pode fazer parte de um sítio catalítico, é armazenado o seu nome, o nome do último átomo mais pesado na cadeia lateral (Last Heavy Atom – LHA) e sua posição (x, y, z), a posição do aminoácido na sequência da enzima e sua cadeia. A Figura 11 mostra um exemplo de um indivíduo formado por 4 aminoácidos.
A população inicial é gerada a partir do repositório de dados obtidos na etapa de pré-processamento. Cada indivíduo é formado por n aminoácidos que são aleatoriamente escolhidos do repositório, sempre respeitando seus tipos conforme o template dado, por exemplo, se a primeira posição requerida é um glutamato, apenas aminoácidos desse tipo poderão ser selecionados para tal posição.
Função de avaliação (fitness)
Tendo a população inicial, o próximo passo do AG é avaliar os indivíduos. Na metodologia implementada, a distância entre as coordenadas dos LHAs representadas por um vetor de coordenadas 3D é calculada para cada par de resíduos do template (v), e as coordenadas de cada par de resíduos do sítio ativo candidato encontrado pelo GASS (w), de acordo com a Equação 1, onde n é igual ao número de resíduos no template e no indivíduo. Quanto mais próximo de zero o valor do fitness, maior a similaridade, em termos de distância, entre o template e o sítio candidato.
Seleção e operadores genéticos
Após a avaliação dos indivíduos segue-se a fase de seleção. Essa fase é crucial para a evolução da população, pois dá uma maior chance de sobrevivência aos melhores indivíduos, por exemplo, aqueles com melhor fitness. Aqui foi utilizado a seleção por torneio, onde um subconjunto de k indivíduos é sorteado aleatoriamente da população, e o melhor indivíduo desse subconjunto de acordo com a fitness é selecionado.
Uma vez feita a seleção, dois operadores genéticos são usados para gerar uma nova população: cruzamento de um ponto e mutação de um ponto (Figura 12). No caso da mutação de um ponto, apenas o ponto escolhido é substituído por um resíduo aleatório, que pode ser do mesmo tipo a partir da enzima selecionada (TRP 356 trocado pelo TRP 190 – em vermelho na Figura 8), ou por um tipo diferente de resíduo (mutação conservativa), indicado pela matriz de substituição de resíduos da mesma enzima (GLU 361 trocado pelo ASP 369 – em azul na Figura 12).
Parâmetros
Um AG possui um conjunto de parâmetros que influencia diretamente o seu comportamento, e cada problema requer uma configuração particular a partir de testes e análises de resultados preliminares. Para isso, são utilizados valores padrões como ponto de partida até a obtenção dos valores finais para os parâmetros. Os parâmetros do AG – GASS (Tabela 1) foram ajustados de forma empírica.
Parâmetros | Valores |
---|---|
Tamanho da População | 400 |
Número de Gerações | 100 |
Taxa de Cruzamento | 90% |
Taxa de Mutação | 30% |
Taxa de Mutação | 10% |
Tamanho do Ranking | 10 |
Tamanho do Torneio | 2 |
Resultados
O GASS foi testado contra os 17 métodos participantes do Critical Assessment of protein Structure Prediction (CASP 10), na categoria Function Prediction (FN) [2]. No experimento, o GASS aparece em quarto lugar geral, com valor médio de MCC (Matthew Correlation Coefficient) de 0,63 (Figura 13). Se comparado apenas aos métodos automáticos, o GASS aparece em terceiro lugar.
Considerações finais
Os Algoritmos Genéticos (AGs) não são tão simples quanto parecem, e o grande desafio está na modelagem do seu problema e no ajuste de seus parâmetros. Porém eles são considerados muito úteis para resolver problemas de otimização e/ou problemas onde o espaço de busca é muito grande.
Neste trabalho foram apresentados os conceitos básicos dos algoritmos genéticos (padrão e o multiobjetivo), além de diversas aplicações na área de bioinformática. O que procuramos mostrar aqui é que na área de bioinformática existem problemas tão complexos que seria proibitivo resolvê-los em tempo hábil e esse é um dos motivos do surgimento de algoritmos evolutivos, sendo o AG um deles. Podemos concluir que apesar de algumas limitações, os AGs são ferramentas alternativas utilizadas para resolver problemas complexos.
Este texto faz parte do artigo Algoritmos Genéticos (AG). Para uma melhor organização, este artigo será dividido em três partes: