Kraken 2: uma alternativa avançada para análise metagenômica

7
0

A análise metagenômica tem evoluído significativamente nos últimos anos, permitindo a caracterização detalhada de comunidades microbianas a partir de amostras ambientais ou biológicas. Entre as abordagens mais utilizadas em estudos de microbiomas, o sequenciamento do gene rRNA 16S destaca-se por sua ampla aplicação na identificação e caracterização de bactérias e arqueias. Embora ferramentas tradicionais, como BLAST, QIIME e Mothur, sejam amplamente empregadas nessas análises, o aumento do volume e da complexidade dos dados gerados por plataformas de sequenciamento de alto desempenho tem impulsionado a busca por soluções mais rápidas, eficientes e escaláveis. Kraken 2 emerge como uma alternativa inovadora para a classificação taxonômica de dados microbiológicos (16s), destacando-se por sua elevada velocidade e eficiência computacional. Este artigo apresenta uma análise comparativa entre o Kraken 2 e outras ferramentas amplamente utilizadas na análise de microbiomas, enfatizando aspectos como desempenho computacional, precisão taxonômica e adequação a dados de rRNA 16S e metagenômica shotgun. Kraken 2, quando integrado ao Bracken, constitui uma solução eficiente e escalável para análises rápidas e precisas de microbiomas complexos, podendo ser utilizado de forma complementar a pipelines mais abrangentes em estudos metagenômicos em larga escala.

Autores: Juan Philippe Teixeira https://orcid.org/0000-0001-7323-2919; Miklos Maximiliano Bajay orcid.org/0000-0002-8196-3524   

INTRODUÇÃO

A análise metagenômica tem evoluído ao longo dos últimos anos, o que permitiu a caracterização profunda de comunidades microbianas a partir de amostras ambientais ou biológicas. Dentre as abordagens mais comuns para estudos de microbiomas, o sequenciamento do rRNA 16S se destaca por sua presença universal em organismos bacterianos e arqueanos e por sua capacidade de fornecer informações valiosas sobre a composição e a diversidade microbiana de uma amostra [4]. O rRNA 16S tem sido amplamente utilizado para estudar ecossistemas microbianos em diversos contextos, incluindo ecologia microbiana, saúde humana, agricultura e biotecnologia, devido à sua eficácia para identificar e classificar espécies bacterianas e arqueanas.

Apesar da popularidade de ferramentas tradicionais como BLAST e QIIME para análise de dados de sequenciamento do rRNA 16S, a crescente complexidade e o volume de dados gerados por plataformas de sequenciamento de alto desempenho requerem soluções mais rápidas, eficientes e escaláveis [1,2]. A partir disso, ferramentas mais recentes, como o Kraken 2, emergem como alternativas inovadoras, oferecendo uma análise mais precisa e rápida dos dados metagenômicos, com melhorias significativas em relação às abordagens anteriores [1].

O Kraken 2 é um software de classificação taxonômica metagenômica baseado em algoritmos de indexação de k-mers. Ele utiliza uma árvore de referência de sequências para atribuir taxas a sequências de DNA com base em k-mers, proporcionando uma classificação eficiente e de alta precisão. Com melhorias substanciais no desempenho, o Kraken 2 supera as limitações de ferramentas como o Kraken 1 e outras abordagens tradicionais, reduzindo drasticamente o uso de memória e aumentando a velocidade de classificação, além de oferecer um modo de pesquisa traduzido para aumentar a sensibilidade em dados virais [1]. 

Entretanto, a classificação baseada exclusivamente em k-mers pode resultar na atribuição de parte das leituras a níveis taxonômicos mais altos, especialmente em análises de leituras curtas, o que pode impactar a estimativa de abundância relativa em níveis taxonômicos mais específicos. Nesse contexto, o Bracken foi desenvolvido como uma ferramenta complementar ao Kraken 2, utilizando um modelo estatístico bayesiano para reestimar a abundância taxonômica a partir dos resultados de classificação, permitindo inferências mais precisas em níveis como gênero e espécie, sem comprometer a eficiência computacional do fluxo de análise (Figura 1).

Figura 1. Fluxo de trabalho do Kraken 2 para classificação taxonômica em análises metagenômicas. Fluxo de processamento do Kraken 2 a partir de leituras de sequenciamento em formato FASTQ. As sequências são fragmentadas em k-mers, que são comparados a um banco de dados taxonômico compactado, permitindo a atribuição taxonômica das leituras e a geração de relatórios que descrevem a composição taxonômica das amostras analisadas. As estimativas de abundância taxonômica podem ser posteriormente refinadas por ferramentas complementares, como o Bracken, a partir dos resultados gerados pelo Kraken 2. Fonte: Elaborado pelo autor, com base em Wood, Lu e Langmead (2019).

Em termos de desempenho, Kraken 2 tem se mostrado superior na classificação taxonômica e na capacidade de lidar com grandes volumes de dados. Sua implementação em ambientes de sequenciamento de alto rendimento e a capacidade de processar dados de amostras amplamente multiplexadas são vantagens importantes que o tornam uma escolha preferencial para a análise de microbiomas complexos. Além disso, Kraken 2 pode ser integrado a pipelines completos de análise metagenômica, como aqueles que utilizam QIIME 2 ou Mothur, o que proporciona maior flexibilidade e escalabilidade para estudos mais amplos e detalhados [4]

Este artigo tem por objetivo explorar a aplicabilidade do Kraken 2 na análise metagenômica de rRNA 16S, destacando suas vantagens em relação a outras ferramentas de classificação taxonômica, seu processo de implementação e como ele pode ser utilizado para obter insights detalhados sobre a composição taxonômica de microbiomas. A utilização de Kraken 2 para análises de rRNA 16S proporciona uma solução eficaz para estudos que exigem alta precisão na identificação de espécies em microbiomas complexos, possibilitando avanços significativos na pesquisa microbiana.

O Kraken 2 apresentou avanços relevantes em relação à sua versão anterior (Figura 2). Entre as principais melhorias, destaca-se a redução significativa no uso de memória, obtida por meio de uma estratégia otimizada na construção dos bancos de dados e no processo de classificação, o que possibilita sua execução mesmo em sistemas com recursos computacionais mais limitados [4]. Outra melhoria importante refere-se à organização da taxonomia, que passou a ser armazenada de forma mais compacta. O uso de minimizers e de técnicas de hashing probabilístico reduz o espaço de armazenamento necessário e contribui para o aumento da velocidade de classificação [4]. Além disso, diferentemente do Kraken 1, voltado principalmente a leituras curtas, o Kraken 2 passou a oferecer suporte também a leituras longas, tornando-o compatível com tecnologias de sequenciamento como PacBio e Oxford Nanopore. A ferramenta também se destaca pela maior flexibilidade na construção de bancos de dados e permite a inclusão de conjuntos personalizados de sequências, o que é especialmente útil em estudos direcionados, como a investigação de patógenos específicos ou de comunidades microbianas de interesse. Em termos de desempenho, o Kraken 2 apresenta ganhos de sensibilidade e precisão taxonômica, resultado de algoritmos aprimorados e do uso de bases de dados mais abrangentes e atualizadas. Por fim, sua integração com diferentes workflows bioinformáticos foi ampliada, facilitando a incorporação da ferramenta a pipelines automatizados de análise metagenômica [4].

Figura 2. Principais melhorias implementadas do Kraken 1 para o Kraken 2. Destaca-se: redução do uso de memória, melhorias na compactação da taxonomia hierárquica, no suporte a leituras curtas e longas, na flexibilidade na construção de bancos de dados e na integração com fluxos de trabalho bioinformáticos, resultando em maior eficiência computacional e desempenho na classificação taxonômica. Fonte: Elaborado pelo autor, com base em Wood, Lu e Langmead (2019).

COMPARATIVO ENTRE AS FERRAMENTAS DE ANÁLISE DE MICROBIOMAS

A escolha da ferramenta bioinformática adequada é um fator determinante para a qualidade e a interpretabilidade dos resultados em estudos de microbioma, uma vez que diferentes abordagens metodológicas implicam compromissos distintos entre desempenho computacional, profundidade analítica e complexidade operacional. Ferramentas amplamente utilizadas, como Kraken 2, Mothur e QIIME 2, foram desenvolvidas com base em pressupostos conceituais distintos e, consequentemente, apresentam vantagens e limitações específicas que devem ser consideradas de acordo com os objetivos experimentais e as características do conjunto de dados analisado.

O Kraken 2 adota uma abordagem baseada na indexação de k-mers, priorizando velocidade, escalabilidade e baixo consumo de memória. Essa estratégia permite a classificação taxonômica direta de grandes volumes de dados, incluindo arquivos FASTQ de rRNA 16S e metagenômica shotgun, sem a necessidade de alinhamento prévio ou agrupamento de sequências. Assim, o Kraken 2 mostra-se adequado para análises rápidas, triagens iniciais e estudos que envolvem grandes conjuntos de dados ou múltiplas amostras. Entretanto, por se concentrar essencialmente na etapa de classificação taxonômica, a ferramenta não contempla análises ecológicas mais aprofundadas, como o cálculo de índices de diversidade ou a reconstrução filogenética, o que exige integração com ferramentas adicionais quando tais análises são necessárias.

Mothur representa uma abordagem mais tradicional e robusta para a análise de dados de rRNA 16S, fundamentada no alinhamento múltiplo de sequências, no clustering e na inferência filogenética. Essa estratégia permite a realização de análises detalhadas de diversidade microbiana, incluindo o cálculo de índices ecológicos e a construção de árvores filogenéticas, sendo especialmente indicada para estudos que priorizam a compreensão da estrutura e da dinâmica das comunidades microbianas. Contudo, essas vantagens vêm acompanhadas de maior complexidade operacional e maior demanda computacional, além de uma curva de aprendizado mais acentuada em comparação a abordagens mais direcionadas, como a adotada pelo Kraken 2. Por fim, QIIME 2 se configura como uma plataforma integrada e altamente versátil, que oferece um ambiente completo para a análise de microbiomas. Além da classificação taxonômica baseada em amplicons de rRNA 16S, o QIIME 2 incorpora ferramentas para inferência de variantes de sequência, análises filogenéticas, cálculos de diversidade e visualizações interativas, o que facilita a interpretação dos resultados e a reprodutibilidade das análises. Essa abrangência torna o QIIME 2 particularmente atrativo para estudos complexos que demandam múltiplas etapas analíticas em um único framework. No entanto, essa versatilidade implica maior demanda computacional e maior complexidade de configuração, especialmente em projetos de grande escala.

Pode-se concluir que não existe uma ferramenta universalmente superior, mas sim abordagens complementares que atendem a diferentes necessidades analíticas. O Kraken 2 destaca-se pela eficiência computacional e pela rapidez na classificação taxonômica, o Mothur pela robustez em análises ecológicas e filogenéticas, e o QIIME 2 pela integração de múltiplas etapas analíticas em uma única plataforma. Assim, a escolha da ferramenta mais adequada deve estar alinhada aos objetivos experimentais, ao tipo de dados gerados e aos recursos computacionais disponíveis, sendo comum, inclusive, a utilização combinada dessas abordagens em diferentes etapas de um mesmo estudo de microbioma.

Exemplo prático de análise de dados de rRNA 16S com Kraken 2 (ambiente Linux)

Esta seção apresenta um exemplo prático e completo de análise de dados de rRNA 16S utilizando o Kraken 2 em um ambiente Linux, assumindo que o usuário disponha apenas de um sistema operacional Linux funcional, sem ferramentas bioinformáticas previamente instaladas. O fluxo contempla desde a instalação do Kraken 2 e do Bracken até a interpretação final dos resultados. Informações adicionais sobre o Kraken 2 estão disponíveis em https://ccb.jhu.edu/software/kraken2/.

Dados de entrada (FASTQ)

O ponto de partida da análise consiste em arquivos no formato FASTQ, que representam a saída bruta do sequenciamento de rRNA 16S. Cada entrada FASTQ contém a sequência nucleotídica e seus respectivos escores de qualidade (Phred), sendo este o formato padrão aceito pelas principais ferramentas de análise metagenômica. Neste tutorial, considera-se um conjunto de leituras provenientes de sequenciamento Illumina, em formato single-end, embora o Kraken 2 também seja compatível com dados paired-end e leituras longas.

I. Instalação do Kraken 2 e do Bracken no Linux

Inicialmente, é necessário instalar as dependências básicas de compilação no sistema Linux. Em distribuições baseadas em Debian/Ubuntu, isso pode ser realizado com o comando:

sudo apt update

sudo apt install -y build-essential wget git

Em seguida, o Kraken 2 pode ser obtido diretamente do repositório oficial e compilado localmente:

cd ~

git clone https://github.com/DerrickWood/kraken2.git

cd kraken2

Após o download, a compilação e instalação são realizadas com:

./install_kraken2.sh .

Para garantir que o sistema reconheça o Kraken 2, o diretório de instalação deve ser adicionado ao PATH:

export PATH=$PATH:$HOME/kraken2

De forma análoga, o Bracken pode ser instalado a partir de seu repositório oficial:

 

cd ~

git clone https://github.com/jenniferlu717/Bracken.git

cd Bracken

make

E o diretório do Bracken também deve ser adicionado ao PATH:

export PATH=$PATH:$HOME/Bracken

Para verificar se as ferramentas foram instaladas corretamente, executa-se:

kraken2 --version

bracken --version

II. Preparação do banco de dados

Com o Kraken 2 instalado, o próximo passo consiste na construção de um banco de dados de referência. Neste exemplo, utiliza-se o banco padrão fornecido pela ferramenta.

Primeiramente, devemos criar o diretório que armazenará o banco de dados:

 

mkdir ~/kraken2_db

 

Em seguida, o banco de dados deve ser construído com o comando:

 

kraken2-build --standard --db ~/kraken2_db

 

 

Esse processo realiza o download das sequências de referência, a organização taxonômica e a indexação das sequências utilizando k-mers, resultando em um banco de dados compactado e otimizado para classificação taxonômica. Dependendo da infraestrutura disponível, essa etapa pode demandar tempo e espaço em disco consideráveis.

III. Classificação das leituras

Com o banco de dados configurado, as leituras em formato FASTQ podem ser submetidas à classificação taxonômica. O Kraken 2 fragmenta cada sequência em k-mers e compara esses fragmentos ao banco de dados de referência, atribuindo cada leitura a um táxon com base na maior concordância observada.

A classificação é realizada com o seguinte comando:

 

kkraken2 \

  --db ~/kraken2_db \

  --threads 8 \

  --confidence 0.1 \

  --report sample_report.txt \

  sample_reads.fastq > sample_output.kraken

 

A partir disto, o parâmetro –threads define o número de núcleos de processamento utilizados, –confidence ajusta o limiar mínimo de confiança para a atribuição taxonômica e –report gera um relatório resumido da composição taxonômica da amostra analisada.

IV. Reestimativa de abundância taxonômica com Bracken (opcional)

Em análises que exigem estimativas mais refinadas de abundância taxonômica, os resultados gerados pelo Kraken 2 podem ser utilizados como entrada para o Bracken. Antes da execução, é necessário gerar os arquivos auxiliares compatíveis com o banco de dados utilizado.

Para leituras com comprimento médio de 150 pares de bases, executa-se:

 

bracken-build -d ~/kraken2_db -t 8 -k 35 -l 150

 

 

Após essa etapa, a reestimativa de abundância pode ser realizada, por exemplo, no nível de espécie:

 

bracken \

  -d ~/kraken2_db \

  -i sample_report.txt \

  -o bracken_species.txt \

  -r 150 \

  -l S

 

O arquivo gerado contém estimativas refinadas de abundância relativa, corrigindo a tendência de classificação em níveis taxonômicos superiores observada em análises baseadas exclusivamente em k-mers.

V. Interpretação dos resultados

Os arquivos de saída gerados pelo Kraken 2 e, opcionalmente, pelo Bracken apresentam a distribuição das leituras classificadas nos diferentes níveis taxonômicos, permitindo a identificação de microrganismos dominantes, a comparação entre amostras e a realização de análises exploratórias iniciais de microbiomas complexos.

 

CONCLUSÃO

Kraken 2, Mothur e QIIME 2 são ferramentas amplamente utilizadas em análises de microbioma, porém baseadas em abordagens metodológicas distintas que atendem a diferentes objetivos de pesquisa. O tutorial e as análises comparativas apresentados demonstram que o Kraken 2 se destaca pela eficiência computacional e pela capacidade de classificar diretamente arquivos FASTQ em análises de rRNA 16S e metagenômica, sendo especialmente adequado para triagens rápidas e estudos em larga escala. A integração opcional com o Bracken permite refinar as estimativas de abundância taxonômica, o que mitiga limitações inerentes à classificação baseada em k-mers, sem comprometer o desempenho. Portanto, a escolha da ferramenta deve considerar os objetivos do estudo e as características do conjunto de dados, sendo essas abordagens mais bem compreendidas como soluções complementares no ecossistema de análise de microbiomas.

 

REFERÊNCIAS

  1. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990;215(3):403–410. doi:10.1016/S0022-2836(05)80360-2.

  2. Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman FD, Costello EK, et al. QIIME allows analysis of high-throughput community sequencing data. Nat Methods. 2010;7(5):335–336. doi:10.1038/nmeth.f.303.

  3. Sims D, Sudbery I, Ilott NE, Heger A, Ponting CP. Sequencing depth and coverage: key considerations in genomic analyses. Nat Rev Genet. 2014;15(2):121–132. doi:10.1038/nrg3642.

  4. Wood DE, Lu J, Langmead B. Improved metagenomic analysis with Kraken 2. Genome Biol. 2019;20(1):257. doi:10.1186/s13059-019-1891-0.

Editor-in-chief
WRITTEN BY

Editor-in-chief

Editor-chefe do Portal BIOINFO. Mantido pelo comitê editorial, equipe administrativa e técnica.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *