O acesso a artigos vem sendo facilitado por ferramentas que se baseiam em inteligência artificial em inúmeras áreas de estudo, desde engenharias até a bioinformática. Plataformas como o PubMed são essenciais para a pesquisa biomédica, mas a busca manual e a identificação de estudos recentes de alta relevância são um processo contínuo e demorado. Para otimizar o processo de curadoria, ferramentas como o LitSuggest e o Semantic Scholar podem ser grandes aliadas. O LitSuggest, criado pelo National Institutes of Health (NIH) baseia-se em aprendizado de máquina e linguagem natural, retornando ao usuário semanalmente os artigos que são classificados por relevância com base em identificadores do Pubmed, os PMIDs. Em contrapartida, o Semantic Scholar é mais abrangente podendo trazer textos de inúmeras áreas do conhecimento, não apenas da biomedicina, permitindo ao pesquisador a criação de projetos sem o uso direto dos identificadores do Pubmed, focando apenas na organização de textos semelhantes. A escolha entre as ferramentas depende principalmente das necessidades da pesquisa proposta, já que a primeira foca na biomedicina com curadoria detalhada e a ferramenta concorrente engloba diversas outras áreas de estudo, com cada uma oferecendo funcionalidades distintas na organização e curadoria dos textos.
Palavras-chave: Bioinformática, Machine Learning, Recomendação de Literatura, Litsuggest, Semantic Scholar.
Autores: Andressa Maryana Lopes Mota https://orcid.org/0009-0001-7731-6017 , Maria Luiza Maciel de Mendonça https://orcid.org/0000-0002-8415-1396 , Alisson Clementino da Silva https://orcid.org/0000-0003-0622-5561 , Vivian Ferreira Zadra https://orcid.org/0000-0001-8634-2738 , Joicymara Santos Xavier https://orcid.org/0000-0002-4649-6270
Introdução
As tecnologias de sequenciamento de proteínas vêm avançando cada vez mais e sendo mais difundidas no meio científico, devido principalmente ao fato de seu baixo custo. Todavia, o volume de dados aumenta muito rapidamente [1]. Com isso, a bioinformática tem se demonstrado uma importante área que busca analisar e extrair informações valiosas desses dados. É essencial que, para o avanço da bioinformática, ferramentas que auxiliem os pesquisadores em seu trabalho sejam empregadas e, no que diz respeito à pesquisa de artigos, a plataforma Pubmed é uma grande aliada. Contudo, revisões de literatura ou mesmo atualizações de bancos de dados são tarefas que consomem muito tempo. Nesse contexto, ferramentas baseadas em Inteligência Artificial podem auxiliar nesse processo.
Dentre as ferramentas existentes, analisamos o LitSuggest e o Semantic Scholar, que podem ser dois grandes aliados do profissional. Mesmo tendo princípios de funcionamento distintos, realizam tarefas semelhantes. Seguem duas estratégias para auxiliar o pesquisador no acesso à literatura: recuperação e recomendação. Na primeira, os recuperadores se baseiam em palavras-chave, em que os artigos são filtrados de acordo com estas e são bastante comuns em mecanismos de busca acadêmicos, como o Pubmed. Já para a segunda estratégia, o recuperador recomenda os artigos que mais se assemelham aos salvos em históricos ou perfis dos pesquisadores [2]. A seguir, são apresentadas as ferramentas que utilizam cada uma das estratégias citadas.
Ferramentas
O objetivo deste trabalho é auxiliar o pesquisador em suas buscas, servindo como um tutorial para o acesso às ferramentas.
LitSuggest
Essa ferramenta foi desenvolvida pelo mesmo núcleo do PubMed, o National Institutes of Health (NIH), em português, Instituto Nacional de Saúde. O LitSuggest realiza a curadoria de literatura e retorna ao usuário artigos relevantes sobre a área de interesse utilizando Machine Learning. A ferramenta utiliza processamento de linguagem natural, atuando da seguinte maneira: o texto que está contido nos campos periódico, tipo de publicação, título, resumo, número de registro (os identificadores e nomes das substâncias mencionadas) e outro termo (as palavras-chave que foram enviadas pelo usuário) de cada uma das publicações é concatenado e transformado em representação de “saco-de-palavras”. Depois, é alimentado um conjunto diversificado de classificadores, amplamente utilizados na comunidade de mineração de texto e disponíveis através da biblioteca Python scikit-learn. A saída dos classificadores é então utilizada para treinar um classificador de regressão logística, gerando assim a saída final. [3]
Se quiser saber mais detalhes sobre Machine Learning, leia os artigos sobre o assunto que já estão disponíveis na Revista BIOINFO:
● Inteligência Artificial aplicada à Bioinformática [7].
● Métricas de Avaliação em Machine Learning [8].
Seu princípio de funcionamento consiste em: o pesquisador insere PMIDs, que são identificadores de artigos do banco do PubMed, e, semanalmente, a ferramenta faz a curadoria. O passo a passo desse mecanismo é apresentado a seguir.
Acesso ao site
Em sua página inicial há um resumo sobre as funções da ferramenta, além das suas principais características, como a digestão semanal de artigos, curadoria e recomendação de literatura (Figura 1).
É necessário que o usuário crie uma conta para conseguir salvar seus projetos com segurança, podendo ser feita por meio do Google, Microsoft, ORCiD, contas NIH e NCBI, entre outras. Após realizar o login, o pesquisador pode criar seus projetos e, para cada um, é criada uma pasta onde são inseridos os PMIDs para que a ferramenta faça a curadoria.
Criando um projeto
Na Figura 2, observa-se que no canto superior esquerdo há a opção de criar novos projetos e, a partir desse ponto, o usuário pode iniciar o treinamento (Figura 2).
Após a criação do projeto, é necessário treiná-lo com os PMIDs dos artigos da área desejada pelo pesquisador (Figura 3).
Configuração da página do projeto
Conforme ilustrado na Figura 3, o usuário deve inserir os identificadores positivos, sendo os artigos relevantes para sua pesquisa, e opcionalmente os negativos, sendo os trabalhos que não interessam ao pesquisador. Em ambas as abas, o usuário pode inserir até 10.000 identificadores, porém, para os negativos, essa adição é opcional e, quando não são adicionados, a própria ferramenta pode gerá-los. Após a inserção, o modelo é carregado (Figura 4).
Além disso, há a opção de filtragem de dados, em que podem ser selecionadas opções de incluir dados de mutações, de genes e dados químicos ou apenas considerar os de seres humanos (Figura 5, em amarelo).
É possível também realizar a digestão semanal de dados e, como o próprio nome sugere, a ferramenta realiza a curadoria a cada sete dias, trazendo, em média, quatro atualizações mensais (Figura 5, em vermelho). Após todas as configurações e dados serem inseridos corretamente, a ferramenta é treinada.
Classificação dos artigos recomendados
Após o primeiro treinamento com a opção de digestão semanal selecionada, a ferramenta retorna os dados que serão classificados por scores de probabilidade do assunto de interesse. Os artigos assumem scores que vão de zero a 1 (Figura 6). Na página do projeto é mostrado quantas respostas positivas e quantas negativas a ferramenta curou neste período e, dependendo de seus resultados, caso sejam muito discrepantes ou com poucos artigos como resposta no decorrer do tempo, é necessário que se realize um novo treinamento.
Na Figura 6, a filtragem e o treinamento foram efetivos, já que cerca de 30 mil artigos estão no score de 0.0 a 0.1, ou seja, a ferramenta “exclui” da lista do pesquisador estes dados que não o interessam e, quanto mais o valor do score se aproxima de 1.0, menos artigos são encontrados. Na página da ferramenta, essa classificação é disposta da seguinte maneira, conforme mostrado na Figura 7.
O LitSuggest dispõe também de uma nuvem de palavras em sua página de classificação, em que são mostrados uma série de termos com maior número de aparições nos artigos que foram curados, e a partir disso, o pesquisador também consegue inferir se o treinamento pela ferramenta está sendo efetivo, de acordo com sua linha de pesquisa (Figura 8).
Os termos mais citados aparecem em evidência, como, por exemplo, “mpro”, que significa Main Protease, uma enzima que cliva poliproteínas em proteínas menores, e “cdk8”, que é uma enzima que codifica a proteína Quinase 8 nos seres humanos (Figura 8).
Página dos artigos curados positivamente
Após analisar a página de classificações, o pesquisador pode realizar a leitura dos artigos curados positivamente clicando na PMID do artigo que o redireciona para outra página, podendo ser a do próprio PubMed ou Elsevier Science, por exemplo. São mostrados para cada artigo sua data de publicação, seu autor e o local em que foi publicado (revistas, sites institucionais, periódicos) (Figura 9). Em alguns casos, também é adicionado um pequeno resumo do texto (Figura 9). Ainda na parte das informações do artigo, há a opção de marcar o artigo como relevante, irrelevante ou “para ser definido” e também pode-se adicionar comentários referentes a leitura do artigo como “tem os dados que preciso/não tem os dados que preciso”, por exemplo (Figura 9).
2.1.6. Mais atribuições do LitSuggest
Além de realizar a curadoria, o pesquisador conta com outras atribuições da ferramenta, como, por exemplo, o compartilhamento do projeto com outros pesquisadores a partir de sua URL, algo muito válido em pesquisas em grupo. Também é possível realizar o download dos dados em arquivo TSV em que neste conterá as informações das tags atribuídas em cada uma das publicações. Os resultados de digestão semanal são enviados ao pesquisador no endereço de e-mail utilizado no cadastro. Na pandemia da Covid-19, foi desenvolvido também o Lit Covid, que é um centro de literatura pioneiro no que diz respeito a rastrear dados relacionados à doença, tendo um salto de 55 mil para aproximadamente 300 mil artigos desde seu lançamento em fevereiro de 2020 até setembro de 2022 [4].
Semantic Scholar
Como outra opção para a curadoria de artigos, tem-se a ferramenta denominada Semantic Scholar, desenvolvida pelo Allen Institute for Artificial Intelligence no ano de 2015, que também dispõe de inteligência artificial para a tarefa, todavia, fornece dados de várias outras áreas, como as engenharias. O Semantic Scholar também não é restrito a artigos médicos e biomédicos como o LitSuggest, sendo estas áreas impulsionadas na ferramenta a partir de 2017 e nessa época já contava com mais de 10 milhões de artigos em seu banco de dados [5].
Primeiro acesso
Assim como no LitSuggest, é necessário que se crie uma conta para serem salvas as pastas, podendo ser usado o e-mail institucional do pesquisador, além do Gmail, do Facebook e de outros tipos de endereço de e-mail, como, por exemplo, o Yahoo ou o Outlook (Figura 10). Finalizada a criação de conta, o pesquisador poderá realizar o login e iniciar seus projetos (Figura 10).
O usuário também pode usar a ferramenta apenas para a leitura dos artigos, que posteriormente será descrita neste tutorial.
Criação de projetos
Similar ao LitSuggest, o pesquisador consegue criar projetos conforme a linha de pesquisa desejada. Contudo, esta ferramenta não faz uso de PMIDs diretamente para que se criem os projetos e se inicie o treinamento.
Nesta ferramenta, a melhor opção é buscar textos semelhantes ao que se deseja dentro do próprio Semantic Scholar e salvá-los em pastas conforme o que será pesquisado. Há a possibilidade de pesquisar e ler os artigos, utilizando filtros de campos de estudo, período de publicação, se possui ou não o texto em PDF, nomes de autores e, por fim, filtragem de revistas e conferências em que o artigo possa ter sido publicado (Figura 11).
Nesta página (Figura 12), há todos os detalhes do texto, como onde está publicado, o link para acessar o PDF e, em destaque, a opção “Salvar na biblioteca”, que será descrita em tópico posterior. É interessante notar que, diferentemente do LitSuggest, ele mostra em sua própria página quantas vezes foi citado e referenciado [6]. E a partir dele, são sugeridos textos semelhantes que podem ser visualizados na mesma página.
Salvando na biblioteca
Selecionado o texto, clica-se na opção para salvá-lo e, assim, o pesquisador cria a pasta referente a ele, ou também pode adicioná-lo a uma pasta já pré-existente (Figura 13).
Neste momento, aparece a opção “Get Research Feed”, que em português significa “Obter feed de pesquisa”. Quando essa função é ativada, os artigos curados e sugeridos serão mostrados na página inicial, de acordo com cada pasta criada.
A pasta será salva e enviada à biblioteca e nessa página o pesquisador consegue acessar todas as pastas criadas anteriormente.
Retorno de resultados
Como dito no tópico anterior, há a opção de retorno de resultados após a curadoria no feed inicial da ferramenta (Figura 15). Semelhante ao LitSuggest, os resultados são enviados ao pesquisador no endereço de e-mail utilizado no cadastro.
Nesta página (Figura 16), há a recomendação para todas as pastas juntas. Contudo, clicando na opção “View Your Research Feeds” é possível acessar os dados separadamente por tema e por data, conforme mostrado na Figura 16
O Semantic Scholar tem se mostrado uma ferramenta bastante eficiente na curadoria de textos referentes a quaisquer áreas em que é solicitada, trazendo resultados mais enxutos, ou seja, quantidades menores de artigos, mas em quase todas as vezes estão exatamente dentro do tema referido.
Comparação entre ferramentas
Como visto ao longo deste texto, cada uma das ferramentas adota princípios de funcionamento distintos, mas realiza o mesmo trabalho. Ambas têm prós e contras. O LitSuggest tem como suas principais qualidades a opção de digestões semanais separadas por pastas, que facilita muito para o pesquisador, além da opção de compartilhamento de projetos. Em contrapartida, é uma ferramenta que apresenta dados apenas da área biomédica, visto que é uma ferramenta da NIH, desenvolvedora também do banco de dados Pubmed. Sendo assim, publicações que não foram revisadas por pares do bioRxiv ou arquivos PDF personalizados não podem ser utilizadas nos treinamentos, ou classificação. Além disso, o LitSuggest opera no momento apenas com resumos, não suportando textos completos, o que causa impacto na recuperação das informações pertinentes que estejam presentes apenas no texto completo. Pode haver imprecisões devido também ao fato de o resumo da publicação não estar disponível e, com isso, a ferramenta classifica o texto baseando-se apenas no título e nos campos bibliográficos relacionados [3].
Já para o Semantic Scholar, os principais prós e contras são justamente contrários aos do LitSuggest. Nesta ferramenta, consegue-se pesquisar dados dos mais diversos assuntos, desde a culinária até a física quântica. Contudo, a disposição das bibliotecas para cada assunto não se mostra tão bem ordenada quanto na ferramenta concorrente, além de não ser possível exportar dados, como no LitSuggest.
Portanto, não há uma ferramenta melhor que a outra. Cabe ao pesquisador decidir qual se ajusta melhor às suas necessidades e trabalhá-la para que os dados sejam o mais precisos possível. A Tabela 1 indica as principais diferenças e semelhanças entre as ferramentas analisadas.
Tabela 1. Dados gerais que exemplificam as ferramentas analisadas
|
|
LITSUGGEST |
SEMANTIC SCHOLAR |
|
OBJETIVO |
Retorna ao usuário artigos relacionados às PMIDs inseridas por ele, por meio de Machine Learning. |
Retorna ao usuário artigos relacionados aos textos salvos em sua biblioteca, também através de Machine Learning. |
|
SEMELHANÇAS |
> Ambas são ferramentas para pesquisas científicas; > Utilizam Inteligência Artificial para recomendar artigos; > Filtram os textos por relevância, de acordo com a linha de pesquisa do usuário. |
|
|
PRÓS |
> Organiza as digestões semanais por pastas, facilitando a leitura; > Compartilhamento de projetos; > Interface simples e direta; > Download de arquivos em TSV com tags atribuídas a cada texto. |
> Traz textos de todos os bancos de dados, não só do Pubmed, como no Litsuggest; > É possível criar bibliotecas para qualquer assunto; > Usado também para leituras de texto apenas. |
|
CONTRAS |
> Dados apenas do Pubmed, podendo ter desfalques de textos que estão em outras plataformas; > Resultados obtidos são visualizados primeiramente apenas em resumo, o que dificulta para o usuário caso o dado pretendido esteja apenas no texto completo; > Imprecisões nos resultados quando o texto não tem resumo e a ferramenta baseia-se apenas no título do texto. |
> Resultados semanais não são dispostos em pastas separadas; > Não se consegue exportar dados; > Como o feed de resultados não organiza os textos em pastas, o usuário tem os resultados de todas as suas pastas dispostos “soltos”. |
Referências
[1] GERALDO, J. A. Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos. Repositório Institucional da UFMG, 2019.
[2]ZHANG, L. et al. A comparative evaluation of biomedical similar article recommendation. Journal of Biomedical Informatics, v. 131, p. 104106, 1 jul. 2022.
[3] ALLOT, Alexis et al. LitSuggest: a web-based system for literature recommendation and curation using machine learning. Nucleic acids research, v. 49, n. W1, p. W352-W358, 2021.
[4] CHEN, Q. et al. LitCovid in 2022: an information resource for the COVID-19 literature. Nucleic Acids Research, v. 51, n. D1, p. D1512–D1518, 9 nov. 2022.
[5] FRICKE, S. Semantic Scholar. Journal of the Medical Library Association, v. 106, n. 1, 12 jan. 2018.
[6] SCHOLAR, Semantic. Semantic scholar. Retrieved, v. 5, n. 30, p. 2019, 2019.
[7] Danilo Castro, Paulo Ferreira, Quézia Bernardes, Kaíssa Barbosa, Wandré Veloso, Pâmela Marinho, Joicymara S. Xavier. Inteligência Artificial aplicada à Bioinformática. In: BIOINFO – Revista Brasileira de Bioinformática. Ed. 1. Julho, 2021. doi: 10.51780/978-6-599-275326-14
[8] Mariano, D. Métricas de avaliação em machine learning: acurácia, sensibilidade, precisão, especificidade e F-score. In: BIOINFO – Revista Brasileira de Bioinformática. Ed. 1. Julho, 2021. doi: 10.51780/978-6-599-275326-15
