A pandemia de COVID-19, causada pelo SARS-CoV-2, trouxe à tona a importância das tecnologias de sequenciamento de nova geração (NGS) tanto na descoberta do vírus quanto na determinação de novas variantes. Em 2022, a Organização Mundial da Saúde emitiu uma estratégia global de vigilância genômica para patógenos de potencial pandêmico e epidêmico. Neste sentido, este trabalho busca implementar, comparar e validar protocolos que utilizem apenas dados brutos de sequenciamento para diagnóstico e determinação de variantes do vírus. Foram utilizados dados de 15 novos sequenciamentos de SARS-CoV-2, obtidos por metodologia direcionada Ion Ampliseq (n = 10) ou por abordagem metatranscriptômica (n = 5). A montagem dessas sequências foi realizada pelas plataformas ID-seq, CoronaSPAdes, PATRIC, BV-BRC e Genome Detective. Já a anotação foi realizada pelas plataformas BV-BRC, Genome Detective, GISAID e Nextclade. Inicialmente, a plataforma BV-BRC se mostrou a mais eficiente na determinação correta das variantes, porém, sofreu perda de especificidade após atualizações. Já o Genome Detective, em sua versão atualizada, apresentou uma maior capacidade de determinar a variante do vírus. A plataforma GISAID não gerou resultados satisfatórios para as amostras avaliadas, enquanto o Nextclade foi capaz de apontar a variante na maioria das nossas amostras, se mostrando como uma plataforma confiável. Amostras sequenciadas pela metodologia Ion Ampliseq apresentaram valores mais uniformes e mais próximos das referências, em comparação à abordagem metatranscriptômica, evidenciando que o tipo de sequenciamento direcionado influencia a montagem e anotação.
Autores: Luiz R. Fraser Silva https://orcid.org/0000-0003-1895-4825
Carolina S. Silva https://orcid.org/0000-0003-3323-6223
João V. O. Cruz https://orcid.org/0000-0002-7349-5804
Felipe G. Sacoda https://orcid.org/0000-0002-0510-690X
Danilo J.P.G. Rocha https://orcid.org/0000-0002-2160-2153
Gúbio S. Campos https://orcid.org/0000-0002-1700-2462
Silvia I. Sardi https://orcid.org/0000-0002-2002-8436
Luis G. C. Pacheco https://orcid.org/0000-0003-2500-0800
Revisão:
Introdução
Em dezembro de 2019, a Organização Mundial da Saúde (OMS) foi informada sobre um surto de pneumonia de etiologia desconhecida na província de Wuhan na China [1]. O agente causador da infecção respiratória fora classificado e nomeado como severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) [2], sendo este o sétimo e mais recente coronavírus (CoV) a infectar humanos [3]. Antes do SARS-CoV-2 outros dois tipos de coronavírus foram responsáveis por epidemias respiratórias, o SARS-CoV e o MERS-CoV, em 2002 e 2012, respectivamente [4].
O SARS-CoV-2 é um vírus de RNA de fita simples de sentido positivo (ssRNA+) e seu genoma é composto por 14 ORFs (Open Reading Frames) que codificam proteínas não estruturais, estruturais e acessórias [5,3]. Possui um tamanho aproximado de 30 kb e suas proteínas estruturais estão organizadas na seguinte ordem: Spike (S) – Envelope (E) – Membrana (M) -Nucleocapsídeo (N) [6].
Mutações no genoma do SARS-CoV-2 podem influenciar características como transmissibilidade e gravidade da doença. Por este motivo a OMS vem realizando a vigilância genômica para assim monitorar o surgimento de novas variantes. As variantes são separadas em dois grupos: as Variantes de Preocupação (VP) e Variantes de Interesse (VI). São exemplos de VP as variantes Alpha, Beta, Gamma e Omicron. Já como exemplos de VI se tem as variantes Zeta, Kappa, XBB.1.5 e XBB.1.16. A nomenclatura que utiliza o alfabeto grego é uma estratégia da OMS para facilitar a pronúncia das principais variantes. No entanto, há outras formas de nomear as variantes como as nomenclaturas GISAID, Pango e Nextstrain [7,8,9].
A vigilância epidemiológica dependia tradicionalmente de protocolos demorados e limitados como isolamento e cultura de microrganismos, teste sorológicos e de PCR. Atualmente, graças a protocolos de metagenômica clínica baseada em sequenciamento de nova geração (mNGS) é possível realizar uma abordagem não enviesada capaz de detectar o DNA ou RNA de agentes patogênicos em amostras complexas [10]. Tais protocolos possuem a capacidade de superar barreiras dos testes diagnósticos tradicionais, pois possibilitam a identificação, independentemente do tipo de patógeno, diretamente na amostra clínica sem a necessidade de realizar o cultivo celular [11].
Apesar da existência de ferramentas de bioinformática para análise de mNGS, estas necessitam muitas vezes utilizar linhas de comando, servidores computacionais específicos ou plataformas proprietárias, dependendo, portanto, de pessoal capacitado para trabalhar com os dados. Portanto, as ferramentas existentes não são adaptadas para aplicação de vigilância genômica baseada em mNGS em ambientes com recursos limitados onde a detecção de agentes infecciosos tem um grande impacto na saúde pública [12]. A fim de romper esta barreira, esta pesquisa objetivou implementar e validar um protocolo de análise de dados derivados de sequenciamento por tecnologia NGS que utilize apenas dados brutos para diagnóstico e identificação de variantes de SARS-CoV-2. Definindo um protocolo de análise amigável a profissionais não-bioinformatas, que utilize ferramentas livremente disponíveis e que contribua para a implementação de vigilância genômica em ambientes com acesso limitado a recursos, particularmente em países em desenvolvimento.
Metodologia
Amostras, extração de RNA viral e sequenciamento NGS
Foi realizado o sequenciamento de um total de 15 amostras retrospectivas de swab nasofaríngeo contendo o vírus SARS-CoV-2, obtidas do Laboratório de Virologia do Instituto de Ciências da Saúde da Universidade Federal da Bahia (estudo aprovado pelo comitê de ética em pesquisa em seres humanos do ICS-UFBA CAAE 30687320.9.00005662). Os processos de extração de RNA viral e de sequenciamento já foram previamente validados por trabalhos do nosso grupo [13]. Em resumo, 200μL da amostra, obtida por swab nasofaríngeo e transportada em meio de transporte (Leibovitz`s L15), foram submetidos à extração do RNA em triplicata no equipamento Maxwell 16 utilizando o protocolo Maxwell 16 ® Sistema de Extração de Ácido Nucleico Viral Total (Promega). O RNA extraído (ca. 14 ng/μL) foi submetido a sequenciamento de nova geração na plataforma Ion S5 (ThermoFisher) utilizando o chip Ion 540™ e os kits v2 Ion Total RNA-seq ou Ion AmpliseqTM SARS-CoV-2, seguindo protocolo previamente padronizado pelo nosso grupo [14,13].
Montagem automática dos genomas de SARS-CoV-2 utilizando plataformas Web
Para todas as plataformas de montagem foi necessário criar uma conta de acesso. O servidor web utilizado para acessar o arquivo .FastQ do sequenciamento foi a plataforma PATRIC (Pathosystems . Após realizar o download e salvar o arquivo .FastQ no computador foi utilizado as seguintes metodologias para os diferentes montadores:
PATRIC: escolher a opção “montagem” disponível no ícone “ferramentas e serviços”. Após o direcionamento para a página escolhida optar pela “biblioteca de leitura única”, seguido do upload do arquivo .fastq desejado. Em seguida optar pelo parâmetro “automático” e por fim nomear o arquivo e escolher a pasta na qual os resultados devem ser salvos.
BV-BRC: a plataforma foi usada em dois momentos devido a atualizações da mesma, no primeiro momento foi utilizada a versão “beta” e posteriormente a “3.28.22”. No entanto, independentemente da versão utilizada a interface se manteve assim como a sua metodologia. Para isso é necessário selecionar a opção “montagem e anotação de SARS-CoV-2” presente no ícone “ferramentas e serviços”. Após direcionamento para a página específica na seção “escolha de input de arquivos” optou-se pela “biblioteca de leitura única” e foi feito o upload do arquivo .fastq oriundo do sequenciamento. Concluído o upload foi indicado o tipo de sequenciamento “Ion Torrent” em seguida parâmetro “automático”, por fim foi nomeado o arquivo e selecionada a pasta onde os outputs seriam salvos.
ID-seq: selecionada a opção “ferramentas e serviços” seguida de “anotação e montagem de SARS-CoV-2. Depois, foi selecionada a opção “criar projeto” em seguida foi indicado o Illumina como plataforma de sequenciamento e escolhido Ampliseq como protocolo de wetlab. Posteriormente foi realizado o upload do arquivo .fastq e escolhida as opções “definir metadados” e “confirmar upload”.
CoronaSPAdes: após login na plataforma Galaxy e selecionado a ferramenta SPAdes web foi feito o upload do arquivo .fastq, selecionar a ferramenta “coronaSPAdes” e escolher o arquivo desejado. Selecionar IonTorrent como plataforma de sequenciamento e em seguida a opção “rodar a ferramenta”.
Genome Detective: a plataforma foi utilizada em dois momentos, devido a atualização da mesma. Inicialmente foi utilizada a versão “1.25” com a metodologia a seguir, seleção da ferramenta “Genome Detective Vírus Tool”, seguida da indicação do tipo de arquivo a partir da opção “NGS short reads (FASTQ), e.g. Illumina, Ion Torrent”. Na seção “input” foi selecionado a opção “single end read” e feito o upload de cada amostra a ser analisada, em seguida selecionada a opção “começar análise gratuita”. No segundo momento foi utilizada a versão “2.10.1” a partir da metodologia que se segue. Acesso a “submeter reads” seguido da escolha do protocolo “padrão de analise viral”, indicação da metodologia de sequenciamento como “Ion Torrent” e, por fim, a seleção da amostra a ser analisada.
Anotação dos genomas e determinação de variantes virais
As plataformas de anotação GISAID e Nextclade não exigem que o usuário crie uma conta, apenas requer o documento .fasta. A anotação feita pela plataforma BV-BRC, independentemente de sua versão, é feita em etapa única e o resultado da montagem e anotação saem concomitantemente. A versão 1.25 do Genome Detective, permitia ser usada exclusivamente para montagem ou anotação sem necessidade de login em conta. Já a versão 2.10.1 necessita da criação de conta e possibilita a montagem e anotação em etapa única, semelhante ao BV-BRC.
GISAID: após acessar o site adicionou-se a sequência .fasta, seja depositando a sequência ou fazendo o upload do arquivo. Foi utilizado a referência (hCoV-19/Wuhan/WIV04/2019) e selecionado a opção CoVsurver. As sequências .fasta utilizadas foram provenientes dos montadores BV-BRC, CoronaSPAdes e ID-seq.
Nextclade: após acessar a plataforma foi escolhido o patógeno SARS-CoV-2 em seguida foram depositadas as sequências em formato .fasta a serem analisadas. Sendo elas provenientes dos montadores BV-BRC, CoronaSPAdes e ID-seq.
Genome Detective versão 1.25: acessar a ferramenta “Coronavirus typing tool” disponível no site: https://www.genomedetective.com/. Na seção “input” foi feito o upload de cada sequência analisada e em seguida escolhida a opção “começar análise gratuita”. Foram utilizados as sequências .fasta provenientes dos montadores BV-BRC e CoronaSPAdes. Do montador ID-seq foram utilizados dois tipos de arquivos .fasta, o final que passa por trimagens automáticas da própria ferramenta e outro bruto, sem correções. Por fim, foi utilizado a plataforma para fazer a anotação a partir do arquivo fastq original do sequenciamento.
Análise comparativa entre as plataformas Web
Comparação de parâmetros primários: antes mesmo de realizar a montagem nas plataformas ficaram definidos alguns parâmetros importantes a serem analisados e comparados. Entre eles a capacidade de se determinar a variante, ou seja, se em uma única etapa a plataforma seria capaz de além de fazem montagem realizar a anotação com a chamada de variante. Se a plataforma era capaz de indicar a presença de todos os genes do SARS-CoV-2, o tempo médio gasto e o número de passos para se chegar ao resultado. Além disso, foram selecionados dois aspectos de informática, o tipo de arquivo que a plataforma aceita e qual a necessidade computacional exigida.
Outputs gerados: os outputs são diferentes tipos de resultados gerados pelos montadores. Eles são distribuídos em diferentes categorias nas plataformas e funcionam como uma referência da quantidade de resultados que cada montador pode fornecer. Foram escolhidos os outputs de maior relevância de cada um dos montadores.
Qualidade média das reads: para tal foi utilizado a ferramenta fastqc da plataforma Galaxy. Para isso foi feito primeiramente o upload dos arquivos fastq a serem analisados e utilizadas as configurações padrão da ferramenta, em seguida selecionado a opção “run”.
Comparação de parâmetros numéricos: a escolha dos parâmetros numéricos a serem comparados seguiu o critério de ao menos dois dos quatro montadores fornecerem o dado em questão. Portanto, foi feita uma tabela com os outputs numéricos gerados pelas diferentes plataformas e aqueles cuja apenas uma ferramenta fornecia eram retirados. Exceto o parâmetro “número de reads por entrada” julgado como fator importante a ser divulgado pela plataforma. Restaram assim para comparação os parâmetros: tamanho do arquivo de entrada, o armazenamento no HD da sequência consenso, reads de entrada, reads mapeados, contigs gerados, ORFs identificados, porcentagem do conteúdo GC, profundidade da cobertura, comprimento total, número de SNPs encontrados, N50 e L50. A plataforma PATRIC não foi mais utilizada nas seguintes comparações por ser uma versão menos específica para SARS-CoV-2 quando comparada com o BV-BRC, sua versão mais atualizada, gerando piores resultados num maior tempo.
Análises dos dados e testes estatísticos
Foram coletados os dados numéricos acerca das montagens dos genomas realizadas pelas plataformas ID-seq, BV-BRC e Genome Detective, disponibilizados pelas mesmas para 11 amostras de Ion Ampliseq (sendo 10 sequenciados pelo grupo e 1 amostra controle, proveniente de um estudo publicado em periódico internacional) e 6 amostras de RNA-seq, sendo 1 a amostra controle proveniente de estudo publicado em periódico internacional. Foram construídos gráficos para a melhor visualização dos resultados, utilizando o software GraphPad Prism 9.0.2. Foi então realizada a análise estatística pelo teste One-Way Anova unidirecional para diferentes parâmetros dos resultados gerados pelo BV-BRC, CZ ID (ID-seq) e Genome Detective: 1) conteúdo %GC; 2) número de contigs; 3) Número de ORFs identificados; 4) tamanho total do genoma; e 5) número de SNPs no genoma. Os parâmetros foram selecionados conforme o padrão (default) da plataforma.
Em relação à determinação das variantes virais, as plataformas selecionadas possuem diferentes maneiras de fornecer os dados. O Genome Detective e o BV-BRC possuem como um dos seus outputs um relatório, que disponibiliza além da variante encontrada na amostra informações como os SNPs e ORFs identificadas. O Nextclade não divulga seus resultados na forma de relatório, mas sim de uma tabela online. Nela consta as informações da variante com a nomenclatura PANGO, Clado e OMS, além de SNPs e ORFs identificados. Já o GISAID fornece os seus resultados apenas a partir das SNPs presentes no genoma, não sendo capaz de informar qual a variante a partir das mutações ali presentes. A única maneira de tentar determinar a variante é a partir de comparação manual das mutações presentes na amostra e inferir a partir das mutações específicas a cada uma das diferentes variantes. A partir dos resultados gerados por cada uma das plataformas de montagem foi feita uma tabela indicando a partir do tipo de sequenciamento qual foi a variante encontrada em cada amostra utilizando os diferentes arquivos fornecidos pelos montadores.
Resultados
Funcionamento geral das diferentes plataformas
A plataforma BV-BRC é a que possui um número maior de etapas (7) para se chegar à montagem do genoma, seguido das plataformas ID-seq (6), PATRIC, CoronaSPAdes e Genome Detective com 5 etapas cada (Figura 1). Dentre essas plataformas o BV-BRC e Genome Detective se destacam por conseguirem fazer concomitantemente a montagem e a anotação do genoma, indicando a variante de SARS-CoV-2 e as mutações nas ORFs (Tabela 1).
Figura 1- Fluxograma, das diferentes plataformas, para realizar a montagem do genoma.
Etapas necessárias para realizar a montagem de genoma a partir das plataformas selecionadas. Sendo as plataformas PATRIC*, ID-seq e CoronaSPAdes unicamente montadoras e BV-BRC e Genome Detective com capacidade de realizar montagem e anotação. *A Plataforma PATRIC foi descontinuada em 2023 e passou a fazer parte integrante do BV-BRC.
Tabela 1- Comparação de parâmetros fornecidos pelas plataformas de montagem.
|
Parâmetro |
ID-seq |
CoronaSPAdes |
BV-BRC |
PATRIC |
Genome Detective |
|
Capacidade de identificar variantes |
Não |
Não |
Sim |
Não |
Sim* |
|
Indicação de todos os genes |
Não |
Não |
Sim |
Não |
Sim |
|
Tempo para montagem |
~180min |
~45min |
~16min |
~103min |
~27min |
|
Nº de passos para montagem |
6 |
5 |
7 |
5 |
5 |
|
Arquivos necessários |
.fastq |
.fastq |
.fastq |
.fastq |
.fastq |
|
Necessidade computacional |
Sim (upload) |
Não |
Não |
Não |
Não |
* – Versão 2.10.1 do Genome Detective.
Em relação aos outputs gerados, o BV-BRC e Genome Detective são plataformas que geram a maior diversidade, seguido do ID-seq, PATRIC e CoronaSPAdes respectivamente (Figura 2). Tanto o BV-BRC, Genome Detective, PATRIC e ID-seq são capazes de gerar um arquivo .fasta do consensus g erados, já o CoronaSPAdes oferece o resultado de anotação em scaffolds de forma online. O BV-BRC, Genome Detective e ID-seq foram as plataformas que apresentaram como resultado as mutações do genoma viral.
Figura 2- Arquivos de saída (outputs) gerados pelas plataformas Web.
O BV-BRC por se tratar de uma plataforma melhorada e focada em vírus da plataforma PATRIC, apresenta um número maior de resultados, de maneira mais rápida e mais completa. Portanto, por ser uma plataforma menos específica e atualizada, o PATRIC não foi utilizado para obtenção dos próximos resultados para comparação.
Montagens dos genomas de SARS-CoV-2
A figura suplementar S1 apresenta as análises de qualidade das leituras (reads) originárias dos sequenciamentos virais utilizando a plataforma NGS Ion S5, tanto pela abordagem direcionada (Ion Ampliseq) quanto por abordagem metatranscriptômica. A análise do relatório FASTQC apresentou estatística básica satisfatória. No entanto, parâmetros como nível de duplicação de sequências e sequências super-representadas apresentaram resultados subótimos. A qualidade média por reads atingiu um nível satisfatório tanto para as amostras sequenciadas por Ampliseq quanto RNA-Seq, na medida que não foi realizada uma trimagem ou etapa de melhoria da qualidade.
A Tabela suplementar 1 apresenta os resultados da comparação numérica dos parâmetros de montagem de arquivos sequenciados via Ampliseq nas plataformas ID-seq, CoronaSPAdes e BV-BRC e Genome Detective. O CoronaSPAdes falhou em reconhecer as sequências na montagem, já as demais plataformas conseguiram realizar a montagem do genoma mesmo sem etapa de melhoria de qualidade das reads. É possível observar que os montadores BV-BRC e ID-seq foram capazes de gerar sequências de consenso em todas as amostras, enquanto que o CoronaSPAdes produziu diversos contigs para as amostras. Já o montador Genome Detective conseguiu produzir sequência consenso para todas as amostras exceto para o controle onde produziu dois contigs. O armazenamento no HD do computador das sequências consenso do ID-seq se mantiveram iguais em todas as amostras com 30kB. Enquanto para BV-BRC a maioria das amostras ocupavam 29,7KB exceto a amostra HP2561 que exibiu 28,6KB. O CoronaSPAdes e Genome Detective não foram capazes de informar tais valores. O Genome Detective, no entanto, na versão 2.10.1 passou a fornecer um relatório mais completo, apresentando as informações de reads de entrada e % conteúdo GC.
A Tabela 2 apresenta os resultados da comparação numérica dos parâmetros de montagem de arquivos sequenciados via RNA-Seq nas plataformas ID-seq, CoronaSPAdes, BV-BRC e Genome Detective. Os montadores BV-BRC e ID-seq foram capazes de gerar sequencias consensus em todas as amostras, enquanto que o CoronaSPAdes produziu diversos contigs para as amostras. O Genome Detective conseguiu fornecer sequência consensus para todas as amostras exceto para o controle positivo onde produziu 15 contigs. O armazenamento no HD do computador das sequencias consenso do ID-seq se mantiveram iguais em todas as amostras com 30kB. Enquanto que do BV-BRC a maioria das amostras ocupavam 29,7kB exceto a amostra controle que exibiu 29,8kB.
Tabela 2- Comparação de parâmetros numéricos de montagem do sequenciamento RNAseq.
|
Amostra |
Arquivo de entrada |
Ferramenta |
Armazenamento no HD (consenso) |
Reads de entrada |
Reads Mapeados |
Contigs Gerados |
Número de ORFs identificados |
% GC Content |
Coverage Depth |
Total Length |
SNPs |
N50 |
L50 |
|
Controle positivo |
218 MB |
ID-seq |
30kB |
361.608 |
10.38 |
1 |
0 |
39,5% |
31,3 |
29.825 |
2 |
NA |
1 |
|
CoronaSPAdes |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
||
|
BV-BRC |
29,8kB |
NA |
NA |
1 |
2 |
41,2% |
NA |
29.886 |
21 |
29.886 |
1 |
||
|
Genome Detective |
NA |
NA |
19443 |
15 |
12 |
NA |
84,3 |
29.528 |
8 |
NA |
NA |
||
|
IM_160_006 |
907 MB |
ID-seq |
30kB |
2.399.968 |
1.194.780 |
1 |
0 |
35,8% |
3.528,67 |
29.879 |
15 |
NA |
1 |
|
CoronaSPAdes |
NA |
NA |
NA |
104 |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
||
|
BV-BRC |
29,7kB |
NA |
NA |
1 |
12 |
37,9% |
NA |
29.846 |
20 |
29.846 |
1 |
||
|
Genome Detective |
NA |
NA |
1.822.658 |
1 |
12 |
NA |
9.409,3 |
29.835 |
16 |
NA |
NA |
||
|
HP_950_009 |
1,01 GB |
ID-seq |
30kB |
2.735.514 |
1.250.950 |
1 |
0 |
35,9% |
3.830,7 |
29.882 |
16 |
NA |
1 |
|
CoronaSPAdes |
NA |
NA |
NA |
133 |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
||
|
BV-BRC |
29,7kB |
NA |
NA |
1 |
12 |
37,9% |
NA |
29.853 |
26 |
29.853 |
1 |
||
|
Genome Detective |
NA |
NA |
NA |
1 |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
||
|
E2_002 |
3,42 GB |
ID-seq |
30kB |
13.582.056 |
8.251.597 |
1 |
0 |
35,5% |
23.134,15 |
29.905 |
16 |
NA |
1 |
|
CoronaSPAdes |
NA |
NA |
NA |
93 |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
||
|
BV-BRC |
29,7kB |
NA |
NA |
1 |
10 |
38,0% |
NA |
29.831 |
10 |
29.831 |
1 |
||
|
Genome Detective |
NA |
NA |
9.579.175 |
1 |
12 |
NA |
37.544,0 |
29.853 |
8 |
NA |
NA |
||
|
G38_004 |
59,6 MB |
ID-seq |
30kB |
543.362 |
538 |
1 |
0 |
46,0% |
1,27 |
29.679 |
1 |
NA |
1 |
|
CoronaSPAdes |
NA |
NA |
NA |
10 |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
||
|
BV-BRC |
29,7kB |
NA |
NA |
1 |
0 |
Null |
NA |
29.777 |
82 |
29.777 |
1 |
||
|
Genome Detective |
NA |
NA |
NA |
14 |
12 |
NA |
2,6 |
6.877 |
25 |
NA |
NA |
||
|
MS_88_008 |
3,45 GB |
ID-seq |
30kB |
10.009.414 |
4.342.182 |
1 |
0 |
35,5% |
12.427,37 |
29.921 |
13 |
NA |
1 |
|
CoronaSPAdes |
NA |
NA |
NA |
125 |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
||
|
BV-BRC |
29,7kB |
NA |
NA |
1 |
12 |
38,0% |
NA |
29.872 |
16 |
29.872 |
1 |
||
|
Genome Detective |
NA |
NA |
6.974.116 |
1 |
12 |
NA |
34.791,2 |
10.045 |
13 |
NA |
NA |
O teste One-way ANOVA, representado pela Figura 3, revelou que, dentre os parâmetros porcentagem de conteúdo GC, contigs gerados, número de ORFs identificados, comprimento total e número de SNPs somente a porcentagem de conteúdo GC não teve uma diferença estatística significativa.
Figura 3- Análises comparativas dos diferentes parâmetros relacionados às montagens dos genomas de SARS-CoV-2.
Desempenho das diferentes plataformas para atribuição de variantes de SARS-CoV-2
Considerando a identificação de variantes a partir de amostras sequenciadas via Ampliseq, o montador CoronaSPAdes, foi incapaz de gerar sequências com qualidade suficiente para determinação de variante pelas plataformas de anotação. O GISAID conseguiu apenas apontar resultados de variantes para arquivos montados pelo BV-BRC. Este resultado, no entanto, só foi possível graças à comparação manual das mutações indicadas pela plataforma com as mutações típicas de cada variante. O Genome Detective na versão 1.25 não conseguiu realizar a identificação de variantes a partir do arquivo .fasta dos montadores ID-seq e CoronaSPAdes. Mas foi possível chegar à variante utilizando os arquivos de montagem do BV-BRC, o arquivo .fasta bruto do ID-seq e o arquivo .fastq original, oriundo do sequenciamento. A chamada de variante utilizando a plataforma Nextclade variou em duas amostras quando se compara os montadores BV-BRC e ID-seq, sendo elas: o controle positivo e amostra HP2594. A plataforma BV-BRC na versão beta conseguiu realizar a montagem e anotação em apenas uma etapa de todas as amostras analisadas. Esses dados estão representados na Tabela 3.
Tabela 3- Identificação de variantes com abordagem de sequenciamento Ion Ampliseq das plataformas de anotação a partir dos arquivos gerados pelos montadores BV-BRC, CoronaSPAdes e ID-seq.
|
Ampliseq |
GENOME DETECTIVE |
GISAID |
NEXTCLADE |
BV-BRC |
||||||||
|
Amostra |
BV-BRC |
CoronaSPAdes |
ID-seq |
Dados Brutos ID-seq |
.fastq original |
BV-BRC |
CoronaSPAdes |
ID-seq |
BV-BRC |
CoronaSPAdes |
ID-seq |
.fastq original |
|
Controle positivo |
NI |
NI |
NI |
Diversidade A_B |
Diversidade A_B |
NI |
NI |
NI |
/B.1.160 |
NI |
/B |
/B.1.160 |
|
HP2561 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1 |
Gamma/ P.1 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1 |
NI |
Gamma/ P.1 |
Gamma/ P.1 |
|
HP2594 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1 |
Gamma/ P.1 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1.2 |
NI |
Gamma/ P.1 |
Gamma/ P.1.2 |
|
HP2597 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1 |
Gamma/ P.1 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1 |
NI |
Gamma/ P.1 |
Gamma/ P.1 |
|
HP2601 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1 |
Gamma/ P.1 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1 |
NI |
Gamma/ P.1 |
Gamma/ P.1 |
|
IM1814 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1 |
Gamma/ P.1 |
Gamma/ P.1 |
NI |
NI |
Gamma/ P.1 |
NI |
Gamma/ P.1 |
Gamma/ P.1 |
Já quando se considera os resultados de identificação de variante de amostras sequenciadas via metatranscriptômica (Tabela 4) houve uma maior diversidade nas variantes encontradas pelas plataformas de anotação. Novamente o montador CoronaSPAdes, foi incapaz de gerar sequencias capazes de determinar a variante pelas plataformas de anotação. O GISAID não foi capaz determinar a variante em nenhuma das amostras, considerando os três montadores utilizados. A identificação de variante pelo Nextclade foi capaz de encontrar a variante do SARS-CoV-2 na maioria das amostras montadas pelo BV-BRC e em todas do ID-Seq, apesar dos resultados variarem entre si. O Genome Detective na versão 1.25, não conseguiu identificar variante específica de SARS-CoV-2 em nenhuma das amostras. A plataforma apresenta o resultado apenas como pertencente à diversidade A ou B, se mostrando conservadora quando há bases ambíguas nos arquivos. Já a plataforma BV-BRC versão beta em seu relatório foi capaz de fornecer a variante na maioria das amostras, exceto o controle positivo e G38_004 (Tabela 4).
Tabela 4- Identificação de variante com abordagem de sequenciamento RNA-seq das plataformas de anotação a partir dos arquivos gerados pelos montadores BV-BRC, CoronaSPAdes e ID-seq.
|
RNA-seq |
GENOME DETECTIVE |
GISAID |
NEXTCLADE |
BV-BRC |
||||||||
|
Amostra |
BV-BRC |
CoronaSPAdes |
ID-seq |
Dados Brutos ID-seq |
.fastq original |
BV-BRC |
CoronaSPAdes |
ID-seq |
BV-BRC |
CoronaSPAdes |
ID-seq |
.fastq original |
|
Controle Positivo |
NI |
NI |
Diversidade A_B |
Diversidade A_B |
Diversidade A_B |
NI |
NI |
NI |
NI |
NI |
/ A |
NI |
|
E2_002 |
Diversidade A_B |
NI |
NI |
Diversidade A_B |
NI |
NI |
NI |
NI |
/ B.1 |
NI |
/ B |
Gamma/ P.1 |
|
G38_004 |
NI |
NI |
Diversidade A_B |
Diversidade A_B |
NI |
NI |
NI |
NI |
NI |
NI |
/ B |
NI |
|
IM_160_006 |
Diversidade A_B |
NI |
NI |
Diversidade A_B |
Diversidade A_B |
NI |
NI |
NI |
/B.1.1.28 |
NI |
/ B |
B.1.1 |
|
MS_88_008 |
Diversidade A_B |
NI |
NI |
Diversidade A_B |
Diversidade A_B |
NI |
NI |
NI |
/B.1.1.33 |
NI |
/ B |
B.1.1.33 |
|
HP_950_009 |
Diversidade A_B |
NI |
NI |
Diversidade A_B |
Diversidade A_B |
NI |
NI |
NI |
/B.1.1.28 |
NI |
/ B |
B.1.1 |
Considerando este sequenciamento de abordagem enviesada, o BV-BRC na sua versão 3.28.22 não foi capaz de determinar a variante em duas amostras analisadas, já o Genome Detective 2.10.1 obteve sucesso na chamada de todas as amostras selecionadas. Esses dados apontam uma diminuição na capacidade de chamada de variante da plataforma BV-BRC em sua nova versão. No entanto, ao utilizar arquivos .fasta do BV-BRC 3.28.2 no Nextclade foi possível chegar à variante em todas as amostras utilizadas, como evidenciado na Tabela 5.
Tabela 5- Identificação de variante, após atualizações, utilizando metodologia de sequenciamento Ion Ampliseq.
|
Amostra |
BV-BRC |
Genome Detective |
Nextclade- BV-BRC |
|
IM1810 |
NI |
Gamma /P.1 |
Gamma /P.1 |
|
IM1820 |
Gamma /P.1 |
Gamma /P.1 |
Gamma /P.1 |
|
IM3978 |
Gamma /P.1 |
Gamma /P.1 |
Gamma /P.1 |
|
IM4075 |
Gamma /P.1 |
Delta /B.1.617.2 |
Gamma /P.1 |
|
IM4080 |
NI |
Delta /B.1.617.2 |
Gamma /P.1 |
Versões BV-BRC 3.28.22 e Genome Detective 2.10.1.
A Tabela 6 evidencia a menor especificidade para determinar a variante ao utilizar abordagem metatranscriptômica, uma vez que o Genome Detective e BV-BRC, após suas respectivas atualizações, não foram capazes de determinar a variante em nenhuma das amostras testadas. O Nextclade, no entanto, ao usar arquivo .fasta oriundo do montador BV-BRC foi capaz de determinar a variante em todas as amostras exceto G38_004.
Tabela 6- Identificação de variante, após atualizações, utilizando metodologia de sequenciamento RNA-seq.
|
Amostra |
BV-BRC |
Genome Detective |
Nextclade- BV-BRC |
|
MS_88_008 |
NI |
Diversidade A_B |
/B.1.1.33 |
|
G38_004 |
NI |
Diversidade A_B |
NI |
|
E2_002 |
NI |
Diversidade A_B |
/ B.1 |
|
HP_950_009 |
NI |
Diversidade A_B |
/ B.1.1.28 |
|
IM_160_006 |
NI |
Diversidade A_B |
/ B.1.1.28 |
Versões BV-BRC 3.28.22 e Genome Detective 2.10.1.
Discussão
Funcionamento geral das diferentes plataformas
Levando em conta os parâmetros e tabela 1 as plataformas BV-BRC beta e Genome Detective 2.10.1 se destacam por realizar a montagem e anotação de maneira integrada, sem a necessidade de utilizar uma segunda ferramenta para tal. Além do relatório, apresentam diversas tabelas, espalhadas pelos outputs, contendo informações como porcentagem do conteúdo G+C, SNPs e ORFs. Tais plataformas indicam inclusive as mutações agrupadas por ORF, facilitando a visualização e permitindo uma comparação entre as diferentes amostras. Inicialmente o BV-BRC beta foi a plataforma que apresentou os melhores resultados, na medida que fornece o maior número de outputs na menor média de tempo. Mas, após atualizações, apesar de ainda fornecer os mesmos outputs, a chamada de variante não se encontra mais de maneira explícita em seu relatório, sendo necessário buscar essa informação na seção “anotação”. Em contrapartida, o Genome Detective na versão atualizada melhorou o seu funcionamento geral, uma vez que aumentou a qualidade de seu relatório e passou a realizar montagem e anotação em etapa única.
Montagens dos genomas de SARS-CoV-2
A qualidade média das reads apresentou valores satisfatórios na medida em que não houve trimagem manual nas sequências. Tal etapa não foi realizada, pois condiz com objetivo do trabalho em validar um protocolo amigável a profissionais não-bioinformatas. É, portanto, esperado que haja uma queda na qualidade das reads, considerando essas circunstâncias.
Dentro os montadores selecionados, aquele que obteve o pior desempenho foi o CoronaSPAdes, na medida em que não foi capaz de fornecer valores para a maioria dos parâmetros selecionados. Acredita-se que por existir uma grande quantidade de sequências repetidas, a ferramenta gera um elevado número de clusters faltando genes, inclusive genes importantes para a chamada de variante, como o gene da proteína Spike. Por este motivo, a plataforma não é aconselhada para montagem do genoma viral, quando se utilizam essas duas ferramentas de NGS, sem realizar a etapa de trimagem de sequências repetidas e consequentemente a melhoria da qualidade das reads. As demais plataformas foram capazes de apresentar, de maneira satisfatória, os parâmetros numéricos de montagem selecionados. Dentre elas, o ID-seq foi a que apresentou a maior diversidade de resultados, seguido de BV-BRC e Genome Detective.
Dentre os parâmetros numéricos de montagem selecionados, o conteúdo G+C, número de contigs, SNPs, número de ORFs e comprimento de genoma foram os mais representados pelos montadores. A comparação estatística entre esses parâmetros revelou que o tipo de sequenciamento influenciou significativamente o número de contigs, SNPs, ORFs e o comprimento do genoma das amostras selecionadas. Os valores obtidos para P, considerando P < 0.05, para tais parâmetros foram, respectivamente, <0,0001; 0,0002; <0,0001 e 0,016.
Considerando o comprimento de genoma, as amostras obtidas via Ion Ampliseq, obtiveram média igual a 29852 bases, valor próximo à referência [6], com desvio padrão 23,0. Já amostras sequenciadas via RNA-Seq a média foi de 27311 e valor de desvio padrão 7117,7. Atrelado a isso, a média de SNPs para amostras sequenciadas via Ion Ampliseq foi de 43 e desvio padrão 11,4 já aquelas sequenciadas por RNA-Seq obtiveram média igual a 18 e desvio padrão 17,8. A convergência de genomas menores e menor número de SNPs encontrados nas amostras sequênciadas via RNA-Seq, pode explicar o porquê das plataformas de anotação terem uma menor especificidade para realizar chamada de variante.
A porcentagem do conteúdo G+C foi o único fator que não foi influenciado pelo tipo de sequenciamento, considerando P < 0,05, obtendo um valor para P de 0,4685. As amostras oriundas do sequenciamento Ion Ampliseq, obtiveram uma média de porcentagem do conteúdo G+C de 37,1% e desvio padrão 1,0. Já quando se compara os dados das amostras oriundas de sequenciamento RNA-Seq a média da porcentagem do conteúdo G+C foi 38,26%, valor mais próximo à referência 38% [6]. No entanto, apesar da média ser mais próxima ao valor de referência, o valor do seu desvio padrão foi de 2,9. Evidenciando, portanto, que esse valor, aparentemente mais condizente com o esperado, é fruto do acaso. Em contrapartida, analisando apenas o montador BV-BRC, este obteve valor de média 38,1% com desvio padrão igual a 0,8, sendo este o resultado mais preciso e uniforme encontrado.
Desempenho das diferentes plataformas para atribuição de variantes de SARS-CoV-2
Em relação a comparação da identificação de variantes pelas diferentes plataformas de anotação houve uma maior uniformidade e especificidade quando utilizado o sequenciamento Ampliseq comparado ao RNA-Seq. A variante mais comum nas amostras utilizadas foi a Gamma ou P.1, segundo nomenclatura da ONU e Pango respectivamente. A variante Gamma, identificada pela primeira vez em novembro de 2020 na cidade de Manaus, acabou se alastrando e se tornou a partir de fevereiro de 2021 a variante de maior representatividade no território nacional [15,16]. A presença da variante Gamma nas amostras obtidas via Ampliseq é, portanto, um resultado esperado, pois esta era a variante em maior circulação à época da coleta das amostras em julho de 2021.
Os resultados de chamada de variante das amostras sequenciadas via RNA-Seq são também condizentes com as variantes circulantes à época, exceto pela Gamma/P.1 encontrada pelo BV-BRC. As variantes B.1.1.33 e B.1.1.28 foram, respectivamente, as variantes mais comuns em circulação entre março de 2020 a janeiro de 2021 [17]. As variantes B.1.1 e B.1 ocupavam a terceira e a quarta colocação, respectivamente, de variante de maior circulação até setembro de 2020 [15]. Considerando que as amostras foram coletadas em julho de 2020, a identificação dessas variantes é um resultado esperado.
A plataforma de anotação GISAID não fornece a indicação da identificação de variantes de maneira automática, ela apenas indica as alterações dos nucleotídeos nas diferentes ORFs. Portanto, só é possível realizar a chamada de variante através da comparação manual entre as mutações fornecidas pela plataforma com as principais mutações de cada variante, sendo assim um trabalho dispendioso e passível de erro. Apesar disso, foi possível chegar às variantes em amostras sequenciadas via Ion Ampliseq. Mas ao utilizar a metodologia de sequenciamento RNA-Seq a plataforma não foi capaz de fornecer SNPs suficientes para determinar a variante com precisão.
A identificação de variantes utilizando a plataforma de anotação Nextclade se mostrou eficiente na medida que conseguiu realizar a chamada de variante em 21 das 22 vezes que foi utilizada, fornecendo variantes condizentes às circulantes à época. Capaz de fornecer resultados independentemente do tipo de sequenciamento, principalmente quando utilizado para anotar sequências montadas pelo ID-Seq. Oito das doze amostras montadas por BV-BRC e ID-Seq e anotadas pelo Nextclade obtiveram chamadas de variantes divergentes, mesmo os dois montadores utilizando o mesmo isolado de referência (taxID 2697049). Dessas oito, seis foram sequenciadas por RNA-Seq, evidenciando que há uma menor uniformidade e especificidade da chamada de variante ao utilizar esta metodologia.
Há, portanto, um padrão de se obter resultados mais precisos, uniformes e condizentes com os valores de referência ao utilizar amostras sequenciadas via Ion Ampliseq. Este padrão se manteve nas plataformas BV-BRC 3.28.22 e Genome Detective 2.10.1 após as suas respectivas atualizações. Atrelado a isso, o Genome Detective teve um desempenho de chamada de variante em etapa única melhor que a plataforma BV-BRC. Este fato se deve à trimagem automática de sequências repetitivas, o que leva a melhoria da qualidade das reads de sua versão atualizada.
Conclusões
Conclui-se que o tipo de sequenciamento utilizado, direcionado (Ampliseq) ou metatranscriptômico (RNA-seq), influencia de maneira significativa a capacidade da identificação de variantes das plataformas automatizadas que realizam montagem e anotação em etapa única (BV-BRC e Genome Detective). Contudo, o mesmo não pode ser dito sobre plataformas específicas de anotação, uma vez que o Nextclade se apresenta como uma ferramenta confiável de anotação, chegando à variante na maioria das amostras testadas. As variantes fornecidas pelas plataformas são condizentes com as variantes do SAR-CoV-2 circulantes à época da coleta das amostras.
O BV-BRC, após atualizações em 2023, teve a capacidade de identificação de variantes reduzida, estando essa informação no output de anotação e não mais explicito em seu relatório. Genome Detective 2.10.1 melhorou aspectos de montagem, fornecendo um relatório mais completo com dados que antes não eram divulgados, como porcentagem de conteúdo G+C.
Agradecimentos
O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior – Brasil (CAPES) – Código de Financiamento 001.
Referências
1. SUN, P. et al. Understanding of COVID‐19 based on current evidence. Journal of Medical Virology, v. 92, n. 6, p. 548–551, jun. 2020.
2. GORBALENYA, A. E. et al. The species Severe acute respiratory syndrome-related coronavirus: classifying 2019-nCoV and naming it SARS-CoV-2. Nature Microbiology, v. 5, n. 4, p. 536–544, 2 mar. 2020.
3. WU, F. et al. A new coronavirus associated with human respiratory disease in China. Nature, v. 579, n. 7798, p. 265–269, 12 mar. 2020.
4. SU, S. et al. Epidemiology, Genetic Recombination, and Pathogenesis of Coronaviruses. Trends in Microbiology, v. 24, n. 6, p. 490–502, jun. 2016.
5. LU, R. et al. Genomic characterisation and epidemiology of 2019 novel coronavirus: implications for virus origins and receptor binding. The Lancet, v. 395, n. 10224, p. 565–574, fev. 2020.
6. CHAN, J. F.-W. et al. Genomic characterization of the 2019 novel human-pathogenic coronavirus isolated from a patient with atypical pneumonia after visiting Wuhan. Emerging Microbes & Infections, v. 9, n. 1, p. 221–236, 1 jan. 2020.
7. World Health Organization. WHO announces simple, easy-to-say labels for SARS-CoV-2 Variants of Interest and Concern. 2021. Acesso em: 01 de dezembro de 2022. Disponível em: https://www.who.int/news/item/31-05-2021-who-announces-simple-easy-to-say-labels-for-sars-cov-2-variants-of-interest-and-concern.
8. World Health Organization. Tracking SARS-CoV-2 Variants. 2022. Acesso em: 01 de dezembro de 2022. Disponível em: https://www.who.int/en/activities/tracking-SARS-CoV-2-variants/.
9. World Health Organization. Statement on the update of WHO’s working definitions and tracking systems for SARS-CoV-2 variants of concern and variants of interest. 2023. Acesso em: 27 abril de 2023. Disponível em:https://www.who.int/news/item/16-03-2023-statement-on-the-update-of-who-s-working-definitions-and-tracking-system-for-sars-cov-2-variants-of-concern-and-variants-of-interest
10. CHIU, C. Y.; MILLER, S. A. Clinical metagenomics. Nature Reviews Genetics, v. 20, n. 6, p. 341–355, jun. 2019.
11. SIMNER, P. J.; MILLER, S.; CARROLL, K. C. Understanding the Promises and Hurdles of Metagenomic Next-Generation Sequencing as a Diagnostic Tool for Infectious Diseases. Clinical Infectious Diseases, v. 66, n. 5, p. 778–788, 15 fev. 2018.
12. KALANTAR, K. L. et al. IDseq—An open source cloud-based pipeline and analysis service for metagenomic pathogen detection and monitoring. GigaScience, v. 9, n. 10, 15 out. 2020.
13. CAMPOS, G.S.; SARDI, S.I.; FALCAO, M.B., et all. Ion torrent-based nasopharyngeal swab metatranscriptomics in COVID-19. Journal of Virological Methods, v. 21, mai. 2020. doi: 10.1016/j.jviromet.2020.113888.
14. DOS SANTOS L. A., et al. Recurrent COVID-19 including evidence of reinfection and enhanced severity in thirty Brazilian healthcare workers. Journal of Infection, v. 82, p. 399-406, mar. 2021. doi: 10.1016/j.jinf.2021.01.020.
15. MICHELON, C. M. Principais variantes do SARS-CoV-2 notificadas no Brasil. Revista Brasileira da Análises Clínicas. DOI: 10.21877/2448-3877.202100961
16. NUNO, R. F. et al. Genomics and epidemiology of the P.1 SARS-CoV-2 lineage in Manaus, Brazil. Science, v.372, 815-821(2021). DOI:10.1126/science.abh2644
17. CAMARGO, C. H., et al. Um ano de pandemia da COVID-19: diversidade genética do SARS-CoV-2 no Brasil. Boletim Epidemiológico Paulista, BEPA, 18(207): 1-33, 2021.
