A técnica de virtual screening (VS) tornou-se uma ferramenta importante para identificação de potenciais fármacos ou novos usos de fármacos já aprovados. Dentre as vantagens, a diminuição dos custos no processo de desenvolvimento de fármacos torna a ferramenta extremamente atrativa, uma vez que, são realizadas simulações computacionais da interação entre moléculas. Neste tutorial, será apresentado uma metodologia para VS com o banco de dados Food and Drug Administration (FDA) e o programa gratuito de docking molecular Autodock Vina.
Autores: Raíssa Santos de Lima Rosahttps://orcid.org/0000-0001-6855-5051 , Ana Carolina Silva Bulla https://orcid.org/0000-0003-4118-294X, Maria Eduarda Alves Esteves https://orcid.org/0000-0002-2029-235X, Manuela Leal da Silva https://orcid.org/0000-0003-4844-7138
Revisores: Flávia Sanches https://orcid.org/0000-0002-7245-1260
Introdução
Em qualquer planejamento racional de fármaco há uma ampla variedade de alvos moleculares a serem analisados, e isto requer a aplicação de métodos mais rápidos e ao mesmo tempo precisos para identificar protótipos. Uma das técnicas utilizadas para esse fim é a de virtual screening (VS). O método de VS é aplicado em estudos envolvendo grandes bancos de dados de moléculas e vai auxiliar na seleção de substâncias orgânicas que tenham potencial de serem ligantes de alvos terapêuticos de interesse [1-3].
O VS tem como base duas estratégias, uma em ligantes bioativos (LBVS – do inglês ligand-based virtual screening) e a outra com base na estrutura do receptor biológico (TBVS – do inglês Target-based Virtual Screening ou também chamado SBVS – Structure-based Virtual Screening). A TBVS possibilita a seleção refinada de moléculas que façam interações moleculares favoráveis com potenciais alvos biológicos já selecionados, usa-se um banco de substâncias que possam ser inibidores promissores [1] .
Nesse artigo abordaremos as primeiras etapas envolvendo o TBVS utilizando o programa AutoDock Vina. Este programa foi idealizado a partir de técnicas bem-sucedidas implementadas no AutoDock 4, com a finalidade de auxiliar diretamente no virtual screening [4] .
Acesso ao dowloand do AutoDock Vina: https://vina.scripps.edu/downloads/
Documentação: https://autodock-vina.readthedocs.io/_/downloads/en/latest/pdf/
Passo 0: Receptor e substâncias químicas
O receptor utilizado nas análises de TBVS depende de seu foco biológico. Caso desenvolva um trabalho sobre COVID-19 o receptor será alguma proteína relacionada ao vírus, por exemplo. Para a obtenção da estrutura tridimensional (3D) de seu alvo biológico é preciso fazer uma busca em bancos estruturais, como PDB (disponível em: https://www.rcsb.org/). Outra estratégia habitual é o uso de ferramentas computacionais para determinar a estrutura proteica. As metodologias se dividem em template-free e template-based modelling, como exemplos, temos ab initio e modelagem comparativa, respectivamente. Neste tutorial, usaremos o PDBid: 6XQT, que representa uma protease do vírus SARS-CoV-2 denominada 3Clpro. Ela tem a função de clivagem, dando origem às proteínas virais [5].
Assim como o receptor, as substâncias químicas a serem utilizadas nas análises de TBVS dependem do objetivo a ser alcançado com esta análise. Por exemplo, caso o objetivo for reposicionamento de fármacos, o seu banco de ligantes será de fármacos. Dentre os bancos de fármacos podemos citar o DrugBank (disponível em: https://go.drugbank.com/), que contém informações detalhadas sobre os medicamentos, dispondo de dados desde interações alimentares e medicamentosas até dados experimentais de Absorção, Distribuição, Metabolismo e Excreção (ADME). Ele possui o registro de 4.900 fármacos, sendo 60% pequenas moléculas, biofármacos (peptídeos e proteínas) e fármacos aprovados pela agência americana Food and Drug Administration (FDA), com um total de 1.467 substâncias, além de cerca de 10% de medicamentos ainda em fase experimental, moléculas ilícitas e retiradas do mercado farmacêutico.
Com as análises de TBVS também é possível testar compostos em parceria com grupos de química orgânica experimental, por exemplo substâncias inovadoras recém sintetizadas. Nesse caso desenha-se as substâncias para obter seus arquivos em 2D ou 3D, em programas como Avogadro software (disponível em: https://avogadro.cc/), construindo assim a sua biblioteca de ligantes. Como exemplo será utilizado um sub banco de dados do ZINC 15 (disponível em: https://zinc15.docking.org/) chamado FDA-approved drugs (via DSSTOX) que contém 1345 fármacos.
Para a consulta dos sub-bancos do ZINC 15 acesse Catalogs, como mostrado na Figura 1.
Faça a busca utilizando a barra de busca (destacado em vermelho na Figura 2) por FDA. Em seguida, acesse o sub banco clicando em seu nome.
Na Figura 3 podemos observar algumas informações sobre o sub-banco e para o download basta acessar Browse Substances.
Faça a seleção do formato desejado para o download clicando no ícone destacado em vermelho na Figura 4. Como exemplo foi feito o download no formato MOL2 e a seguir prosseguiremos para a parte de preparação da biblioteca.
Passo 1: Preparação da biblioteca de ligantes
Após a obtenção do banco de substâncias no formato 2D precisaremos converter essas moléculas em um formato 3D. Para gerar as coordenadas tridimensionais, foi utilizado o programa OpenBabel (disponível em: http://openbabel.org/wiki/Main_Page). Nesta etapa, também com o OpenBabel, foi feita a predição de protonação em pH 7,4 no sub-banco utilizado.
No terminal de comandos do seu computador entre na pasta em que estão as substâncias. Em seguida escreva o comando descrito na Figura 5.
Primeiramente indica-se o programa a ser utilizado com “babel” no início do comando. O parâmetro “-i” serve para indicar o tipo de arquivo de entrada (do inglês input), será usado o mol2, arquivo que foi baixado do ZINC 15. O local em que está o * normalmente entraria o nome do arquivo, entretanto como estamos trabalhando com milhares de moléculas ao colocarmos o sinal de *, este indicará que todo arquivo presente na pasta contendo aquela extensão será considerado. O “-o” indica o arquivo de saída (do inglês output), nessa caso queremos o arquivo pdbqt, um tipo de arquivo PDB contendo cargas. Novamente o sinal de *, para que o programa gere os arquivos de saída mantendo o nome do arquivo de entrada. Posteriormente coloca-se as funções específicas do OpenBabel, sendo o “–gen3d” para gerar um arquivo 3D, o “-p” para indicar o pH (no exemplo foi utilizado o pH fisiológico 7.4) e por fim “-h” para adição de hidrogênios.
Depois de executar o comando clicando na tecla enter, na pasta na qual estão suas substâncias terá todas estas convertidas para .pdbqt já protonadas. Vale mencionar que a predição do estado de protonação dos resíduos do receptor e das substâncias tem que ser iguais, pois pode haver conflitos no momento da interação com um potencial substrato. A determinação do pH de protonação ocorre baseado na relação entre o pH do meio e o pH de ação enzimática, logo, caso seu alvo proteico execute a sua função biológica em pH ácido, os resíduos desse receptor devem ser protonados de acordo. Para a predição da protonação do receptor é possível utilizar o servidor web PDB2PQR (disponível em https://server.poissonboltzmann.org/pdb2pqr).
Com os arquivos do receptor e da biblioteca de substâncias devidamente protonados, vamos à próxima etapa que envolverá o programa AutoDock Vina.
Passo 2: Configurando o programa
A execução do AutoDock Vina requer um arquivo de configuração que contenha as informações para que a simulação ocorra de forma adequada. No terminal de comando, digite “vina” para visualizar os argumentos necessários e opcionais (Figura 6).
A simulação de docking normalmente é limitada a uma parte da molécula (por exemplo, o sítio ativo no caso de enzimas) sendo especificado ao programa por uma caixa de simulação (grid). As coordenadas cartesianas (x, y e z) e o tamanho deste espaço de busca podem ser determinados através de programas como AutoDockTools (disponível em: https://ccsb.scripps.edu/mgltools/) e UCFS Chimera (disponível em: https://www.cgl.ucsf.edu/chimera/). Esses parâmetros são formulados em uma etapa anterior chamada redocking, onde é utilizado uma estrutura do PDB que tenha um ligante complexado, e são formulados os parâmetros do grid de acordo com as coordenadas desse ligante.
Na a simulação de redocking o ligante é retirado da estrutura do PDB e recolocado através de um programa de docking sendo o resultado comparado com o ligante resolvido experimentalmente para validação dos parâmetros. No exemplo deste tutorial foi utilizado o complexo PDB id: 6XQT e seu ligante, Narlaprevir, para centralização do grid no sítio ativo da cadeia “A” da proteína (Figura 7). Além disso, foi utilizada a exaustividade padrão igual a 8, na qual os desenvolvedores recomendam que as coordenadas do grid não excedam o tamanho 30x30x30. Contudo, se o tamanho da grid for maior recomenda-se aumentar a exaustividade.
Vale reforçar que os sítios de ligação são importantes para a determinação das coordenadas do grid quando realizamos o docking. Geralmente os resíduos de aminoácidos que compõem o sítio de ligação podem ser encontrados no próprio artigo que resolveu a estrutura no PDB, mas em casos que esta informação não foi dada ou em estruturas construídas por métodos computacionais, por exemplo, é necessária a busca pelos resíduos do sítio. Existem programas que fazem esse tipo de predição e estão disponíveis em servidores online, de forma gratuita, como o FTsite (https://ftsite.bu.edu/ ) e FTmap ( https://ftmap.bu.edu/ ).
No arquivo de configuração, ilustrado na Figura 8, também são definidas as moléculas a serem testadas, além da quantidade de poses que serão geradas para cada ligante a partir do parâmetro “num_modes”. Lembre-se de que há outros parâmetros que podem ser incorporados e alterados no arquivo de configuração, sendo feito de acordo com os objetivos e necessidades de cada experimento.
Passo 3: Executando o programa
Para execução do programa crie um diretório que contenha os seguintes arquivos: receptor (PDB id: 6XQT) em formato pdbqt, os ligantes em formato pdbqt e o arquivo de configuração “config.txt”, que pode ser nomeado como desejar. Caso a simulação seja um docking simples (com somente uma molécula), pelo terminal de comando, e dentro do diretório, executa-se o comando presente na Figura 9.
Contudo, em um VS há diversas moléculas que serão testadas com o receptor e, portanto, diversos arquivos de ligantes. Dessa forma, será necessário um script para automatizar a execução da simulação de cada ligante com o receptor. Neste tutorial utilizaremos um script bash disponibilizado pela Bioinformatics review (disponível em: https://bitbucket.org/Bioinformatics-Review/virtual-screening-files/src/master/vina_vs.sh) que deve ser executado dentro do diretório criado para o VS (Figura 10).
No terminal, digite o comando (Figura 11):
É possível verificar se o programa está sendo executado, como representado na Figura 12.
Ao final da simulação, o resultado em formato de texto será impresso na tela do terminal contendo os valores preditos de afinidade proteína-ligante, para cada pose gerada, dados em kcal/mol (Figura 13). Além disso, o mesmo conteúdo é armazenado no arquivo de saída “log.txt” para consultas posteriores.
Na Figura 13, vemos algumas métricas calculadas pelo AutoDock Vina. A primeira delas é a energia de afinidade (do inglês, affinity), em kcal/mol. A energia de afinidade é calculada através da derivação de uma pontuação que combina pontuações empíricas e potenciais knowledge-based;extraindo informações conformacionais do complexo receptor-ligante e usando dados de afinidade experimentais [6]. Os valores de afinidade gerados pelo AutoDock Vina devem ser interpretados com cautela uma vez que as funções de pontuação dos programas de docking podem apresentar algumas limitações como a simplificação de alguns cálculos [7].
Já o cálculo de Root Meam Square Deviation (RMSD) é baseado em um modelo matemático que mede a distância entre os pontos de referência em uma estrutura e sua respectiva contraparte na referência, ou seja, mede a similaridade entre duas coordenadas atômicas sobrepostas [8]. No RMSD u.b., do inglês upper bound, os pontos de referência vão ser todos os átomos de uma conformação contra todos os átomos de outra conformação, ignorando qualquer simetria. No caso do l.b, do inglês – lower bound, os pontos vão ser os átomos mais próximos com o mesmo elemento entre conformações [9]. Em ambos os casos, os valores são calculados em relação ao melhor modo de ligação, ou seja, com menor energia de afinidade predita (mode 1).
Passo 4: Ranqueamento
Os resultados gerados estarão organizados em pastas, nomeadas de acordo com a substância. Cada pasta possui um arquivo “log.txt” e outro “out.pdbqt”, como ilustrado na Figura 14. O arquivo “log.txt” funciona como uma espécie de registro que arquiva informações acerca da simulação. O arquivo “out.pbqt” armazena, para cada pose gerada, as coordenadas espaciais: x, y e z, dos átomos que compõem o ligante.
As bibliotecas de compostos podem conter centenas ou milhares de ligantes, sendo inviável a filtragem dos resultados analisando cada arquivo de saída manualmente. Portanto, os próprios desenvolvedores do AutoDock Vina disponibilizam um script (Figura 15) para classificar os melhores compostos, tendo como base a energia de afinidade calculada pelo programa.
O script deve ser salvo na mesma pasta principal contendo o resultado do TBVS e pode ser nomeado como o usuário desejar; contudo, é sugerido o nome vina_screen_get_top.py. O código pode ser acessado através do link (https://vina.scripps.edu/wp-content/uploads/sites/55/2020/12/vina_screen_get_top.py) e deve ser salvo no editor de texto no formato .py. Para obter o resultado do ranqueamento, basta acessar o terminal de comandos do computador e entrar na pasta em que estão os resultados oriundos do AutoDock Vina e o script. No terminal, digite o nome do arquivo seguido do número de substâncias que deseja ranquear, por exemplo, se sua biblioteca tem 1000 ligantes e é interessante saber quais são as dez melhores, o número dez vem em seguida ao nome do script. A classificação será listada no terminal, porém é possível criar um arquivo de texto contendo esse resultado para futura consulta; basta inserir o nome do arquivo que deseja criar no formato txt logo após o sinal de maior, como ilustrado na Figura 16.
A fim de facilitar o acesso aos dados do arquivo criado, é indicado organizar o conteúdo em uma tabela. Para tal, basta copiar os valores e colar especial no Excel ou LibreOffice Calc, por exemplo. Assim a visualização do resultado ocorrerá de maneira ordenada (Tabela 1), facilitando as análises.
Substâncias | Energia de afinidade (Kcal/mol) |
---|---|
fda2018-1907 | -10.2 |
fda2018-1908 | -10.2 |
fda2018-2086 | -10.1 |
fda2018-1429 | -10.0 |
fda2018-1430 | -10.0 |
fda2018-2085 | -9.9 |
fda2018-1784 | -9.8 |
fda2018-1785 | -9.8 |
fda2018-2016 | -9.8 |
fda2018-1278 | -9.7 |
fda2018-1279 | -9.7 |
Após a obtenção dos resultados, existem programas gratuitos que disponibilizam ferramentas para análise desses de maneira tridimensional, como UCSF Chimera (disponível em: https://www.cgl.ucsf.edu/chimera/) e BIOVIA DiscoveryStudio (disponível em: https://discover.3ds.com/discovery-studio-visualizer-download). Ainda, utilizando o último citado, é possível realizar análises de interações entre o receptor e o ligante ancorado, por meio de gráficos 2D gerados por esse.
Importante destacar que durante a execução dessa metodologia, é possível ocorrer erros. Sendo um dos mais comuns, relacionado ao nome dos arquivos. Recomendamos que todos os nomes de arquivos ou pastas que serão utilizados não contenham nenhum tipo de caracter especial,como letras maiúsculas, espaços ou acentos.
Os resultados apresentados aqui demonstram a execução da TBVS, assim como a classificação das substâncias com maior probabilidade de interação de acordo com a energia de afinidade calculada pelo programa AutoDock Vina. Para opções mais avançadas consulte os manuais dos programas citados.
Referências
- G. O. e A. D. A. Rafaela S.Ferreira, “Integração das Técnicas de Triagem Virtual e Triagem Biológica Automatizada em Alta Escala : Oportunidade e Desafios em PyD de Fármacos,” Quim. para um mundo Melhor, 2011.
- R. P. Rodrigues et al., “Virtual screening strategies in drug design,” Rev. Virtual Quim., vol. 4, no. 6, pp. 739–776, 2012.
- V. Vyas, A. Jain, A. Jain, and A. Gupta, “Virtual screening: A fast tool for drug design,” Sci. Pharm., vol. 76, no. 3, pp. 333–360, 2008.
- O. Trott, A. J. Olson, AutoDock Vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization and multithreading, Journal of Computational Chemistry 31, pp. 455-461, 2010.
- S. Ullrich and C. Nitsche, “The SARS-CoV-2 main protease as drug target,” Bioorganic Med. Chem. Lett., vol. 30, no. 17, p. 127377, 2020.
- Trott, O., & Olson, A. J. AutoDock Vina: Improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. Journal of Computational Chemistry, 31(2), NA-NA, 2009.
- Palácio-Rodriguez, K; et al. Exponential consensus ranking improves the outcome in docking and receptor ensemble docking. Sci Rep 9, 5142 (2019).
- Prieto-Martínez, F. D; Arciniega, M; Medina-Franco, J. L. Molecular docking: current advances and challenges. TIP Revista Especializada en Ciencias Químico-Biológicas, 21(Supl. 1): 65-87, 2018.
- AutoDock Vina Manual. AutoDock Vina, 2022. Disponível em: <https://vina.scripps.edu/manual/>. Acesso em: 29 jul. 2022.