Bioinformática, ciência de dados e biologia de sistemas para medicina de precisão

38
0

A aplicação da ciência da computação na medicina de precisão requer interdisciplinaridade. Nos primeiros passos de um projeto de medicina de precisão, a ciência de dados apresenta não apenas técnicas para armazenamento de dados, mas também a ética em torno da privacidade, reprodutibilidade, consistência e coerência dos dados das análises. A bioinformática, por sua vez, possui ferramentas e frameworks para o desenvolvimento de scripts visando à análise de dados moleculares, genéticos e bioquímicos. Mais recentemente, análises sobre dados de cromatina também se popularizaram. Por fim, a biologia de sistemas se preocupa com a modelagem e interpretação dos resultados. Este  trabalho propõe uma visão geral crítica de diferentes pipelines computacionais na  identificação de biomarcadores confiáveis, com objetivo de ilustrar aplicação de ciência da computação em medicina de precisão.

Autor: Felipe Leal Valentim

Introdução

A Medicina de Precisão revolucionou a forma  de  estudar o tratamento e a prevenção de doenças, pois leva em consideração características individuais do paciente, tais como variabilidade genética, quantidades de moléculas no organismo, ambiente e estilo de vida, entre outras. Para tal, busca-se identificar assinaturas moleculares que possam ser utilizadas para diagnóstico, prognóstico e terapias direcionadas. Portanto, o estudo envolve o uso de múltiplas camadas de dados moleculares, juntamente com dados do paciente, para identificar moléculas que, combinadas ou isoladas, possam ser associadas a grupos populacionais específicos de pacientes (por exemplo, mulheres saudáveis, homens negros, etc.) ou ao diagnóstico de uma doença específica.

Os humanos, como muitos outros mamíferos, reagem a estresses, como a dieta ou o estilo de vida, com inflamação e reações imunológicas. A questão atual é saber se essas respostas têm origem genética ou se têm base epigenética e são progressivamente reforçadas pelo ambiente. Assinaturas moleculares podem, então, ser associadas a comportamentos específicos que modulam a expressão gênica [4,5].

 Além disso, o corpo humano produz assinaturas hormonais que se associam a comportamentos e modulam a expressão gênica. Os sinais de estresse, por exemplo,  moldam a memória epigenética dos indivíduos, levando à produção de uma assinatura hormonal específica [6,7]. Por sua vez, as assinaturas hormonais modulam a expressão gênica e as respostas moleculares.

Nas ciências médicas, a heterogeneidade dos dados pode ser considerada sob duas perspectivas: (i) as características da doença são heterogêneas por si sós. O diabetes, por exemplo, apresenta heterogeneidade quanto a causa, tipo, gravidade e assim por diante. (ii) Além disso, heterogeneidade nos sintomas é comumente observada, tal como severidade e duração. (iii) Os pacientes também são heterogêneos devido à diversidade ou dificuldade de recrutamento uniforme (idade, sexo, estilo de vida, medicação, etc.) [8].

Na busca por novos marcadores moleculares, diversas tecnologias são comumente utilizadas para gerar dados de alto rendimento, como (i) análise de genoma e transcriptoma, (ii) análise de expressão gênica, (iii) citometria de fluxo para caracterizar parâmetros celulares, (iv) regulação gênica via microRNAs e lncRNA, e (v) estudo da cromatina, (vi) metaboloma, entre outras. O conjunto dessas tecnologias é considerado na disciplina multiômica.

A multiômica está cada vez mais se movendo em direção à integração de dados para insights sobre os pacientes, exames médicos e diagnósticos. Um dos  objetivos é encontrar  assinaturas moleculares que explicam ou prevejam o diagnóstico. A descrição das associações estatísticas entre os marcadores e as diversas variáveis, tanto da patologia quanto do paciente, também é essencial. De fato, o estudo da multiômica pode ajudar a investigar interações de variáveis ​​em diferentes subgrupos populacionais específicos do diagnóstico, por exemplo.

Abaixo estão alguns tópicos da medicina de precisão para ilustrar aplicações da ciência da computação nessa área.

Em cardiologia

A bioinformática em cardiologia visa encontrar assinaturas moleculares que possam ser usadas para prever ou explicar o diagnóstico.  No projeto europeu PREMEC-CAD [9], foram usados parâmetros clínicos do paciente (idade, sexo, raça, etc.) e características da isquemia cardíaca (parâmetros de diagnóstico e imagem com Segmentação Miocárdica Padronizada), integrados a  dados de transcriptoma, proteoma e microRNA para encontrar assinaturas moleculares para avaliação de risco e identificação precoce de “indivíduos em risco” [10,11].

As imagens também podem ser integradas nos estudos médicos multiômicos sobre ischemia. Imagens cardíacas podem ser processadas por métodos computacionais para extração de parâmetros quantitativos, como região da lesão no órgão, intensidade da lesão, pontuação da lesão, entre outros, que podem ser analisados em combinação com quantidades de biomarcadores médicos (transcriptoma e proteoma). Como exemplo, o diagrama bullseye modela os 17 segmentos do ventrículo esquerdo de acordo com o código de Segmentação Miocárdica Padronizada [12], já implementado na plataforma de programação R.

Em imunologia

O sistema imunológico é complexo e, geralmente, é estudado por meio da análise de células T [13]. No entanto, esforços foram feitos para quantificar a expressão de genes em pacientes com diabetes em comparação com grupos de controle saudáveis. Em [14], a comparação do transcriptoma em diabetes foi realizada tanto no transcriptoma do sangue quanto no transcriptoma de células únicas. Análises de transcriptoma de células isoladas e o transcriptoma convencional geralmente resultam nos mesmos genes, com diferenças de resolução entre células. O transcriptoma de células únicas revela plasticidade em diabéticos [15], enquanto o transcriptoma em lote [16] é escolhido para estudar a heterogeneidade. O controle de qualidade dos dados de sequência dos transcritos é realizado em cima dos dados brutos e, em seguida, em cima de dados normalizados. Por fim, técnicas para calcular expressão diferencial são aplicadas ao transcriptoma e técnicas de redução de dimensionalidade (PCA e t-SNE) aos dados de transcriptoma de células únicas.

Em neuroendocrinologia

A neuroendocrinologia nos permite observar moléculas cuja expressão é modulada no tempo e no local. Isso pode ser observado quando a exposição recorrente ao estresse desencadeia uma doença. E quando a expressão de uma molécula é restrita a grupos específicos de células. Curiosamente, o estudo da neuroendocrinologia utiliza plataformas de ponta para gerar dados sobre cromatina (ATACseq) e expressão gênica (scRNA-seq) em resolução unicelular. A combinação desses dois experimentos nos permite observar quais regiões da cromatina são dinamicamente ativas e os tipos de genes celulares que regulam as características. As questões são sobre os mecanismos moleculares subjacentes à patologia e também sobre as moléculas que podem ser usadas para tratamento [17].

Na biologia do câncer

Como uma das principais causas de morte no mundo, o câncer gera um volume massivo de dados moleculares que a medicina tradicional não consegue processar.[18]. A principal causa do câncer de pulmão, por exemplo, é principalmente causada pelo tabagismo [19], mas estudos sobre predisposição genética também encontraram associações com fatores genéticos associados a populações específicas e diferenças de gênero. O estudo da progressão tumoral no câncer de pulmão permite a detecção precoce do tumor e também a classificação do estadiamento do tumor para o tratamento adequado. Isso porque cada estágio do câncer receberá um tratamento específico. Para encontrar biomarcadores que podem ser usados ​​para classificar os tumores, os dados do transcriptoma do portal de câncer Genomic Data Commons (GDC) podem ser usados. As amostras de tumor por estágio podem ser comparadas com amostras pareadas de tecido saudável, ou o transcriptoma de cada estágio pode ser comparado com os outros estágios.

Na vigilância genômica

Na vigilância genômica, a bioestatística é usada para gerar relatórios de variáveis ​​que podem explicar a gravidade dos sintomas (idade, sexo, etc.) e variáveis ​​sociodemográficas (cidade, renda, escolaridade, etc.) que podem explicar a localização dos casos. Também pode ser usada para analisar a genômica e prever novas variantes, como por exemplo COVID acompanhando no Brasil pelo Laboratório Central de Saúde Pública – LACEN. A geração de relatórios é importante para decisões políticas sanitárias, controle epidemiológico e tratamento de casos, além de orientar laboratórios sobre possíveis novas variantes e para gerar dados ômicos para que os cientistas entendam a doença.

Conclusão
A base dos estudos computacionais em Medicina de Precisão é a Ciência de Dados. Essa ciência se ocupa com a consistência dos dados, a reprodutibilidade das análises, a coerência das hipóteses, a relevância dos achados e assim por diante. A bioinformática, por sua vez, propõe técnicas analíticas necessárias. O futuro reside na crescente demanda por análises integrativas, como multiômicas, nas quais a computação se torna uma ferramenta importante para analisar os dados genéticos (genoma, transcriptoma, proteoma, etc.), em conjunto com os dados descritivos da doença (exames e diagnóstico) e os dados do paciente (idade, sexo, peso, estilo de vida, histórico, etc.) (Figura 1). 

Figura 1 – Framework clássico para estudo multiômico em medicina de precisão.

Referências

[1] The role of analytical sciences in medical systems biology. Jan van der Greef 1 , Paul Stroobant, Rob van der Heijden.

[2] The association between diet and mood: A systematic review of current literature. Psychiatry Res. 2019 Jan;271:428-437. doi: 10.1016/j.psychres.2018.12.014. Epub 2018 Dec 4. PMID: 30537665 DOI: 10.1016/j.psychres.2018.12.014

[3] Multivariate Analysis with the R Package mixOmics. Zoe Welham 1 , Sébastien Déjean 2 , Kim-Anh Lê Cao. Methods Mol Biol. 2023;2426:333-359. doi: 10.1007/978- 1-0716-1967-4_15.

[4] ddsPLS: Data-Driven Sparse Partial Least Squares. The R Project for Statistical Computing. Package ddsPLS

[5] Quantitative medicine: Tracing the transition from holistic to reductionist approaches. A new “quantitative holism” is possible? Luca Saba and Silvano Tagliagambe J Public Health Res. 2023 Apr; 12(2): 22799036231182271.

[6] Addressing the Heterogeneity of the Ischemic Stroke Phenotype in Human Genetics Research. James F. Meschia. Originally published31 Oct 2002https://doi.org/10.1161/01.STR.0000035261.28528.C8 Stroke. 2002;33:2770–2774

[7] Data Harmonization for Heterogeneous Datasets: A Systematic Literature Review. Ganesh Kumar, Shuib Basri, Abdullahi Abubakar Imam, Sunder Ali Khowaja, Luiz Fernando Capretz and Abdullateef Oluwagbemiga Balogun Appl. Sci. 2021, 11(17), 8275; https://doi.org/10.3390/app11178275.

[8] Bioinformatics and Medical Informatics: Collaborations on the Road to Genomic Medicine? Victor Maojo, MD, PhD and Casimir A. Kulikowski, PhD. J Am Med Inform Assoc. 2003 Nov-Dec; 10(6): 515–522.

[9] Design and Rationale of the ERA-CVD Consortium PREMED-CADPrecision Medicine in Coronary Artery Disease. Apurva Shrivastava, Vincenzo Marzolla, Henri Weidmann, Massimiliano Caprio, David-Alexandre Tregouet, Tanja Zeller, Mahir Karakas..Biomolecules . 2020 Jan 11;10(1):125. doi: 10.3390/biom10010125.

[10] Plasma Biomarkers and Identification of Resilient Metabolic Disruptions in Patients With Venous Thromboembolism Using a Metabolic Systems Approach. Arteriosclerosis, Thrombosis, and Vascular Biology. Karl Fraser, Nicole C. Roy, Louisa Goumidi, Alexandre Verdu, Pierre Suchon, Felipe Leal-Valentim, David-Alexandre Trégouët, Pierre-Emmanuel Morange, and Jean-Charles Martin. Volume 40, Number 10

[11] MORFEE: a new tool for detecting and annotating single nucleotide variants creating premature ATG codons from VCF files. Dylan Aïssi, Omar Soukarieh, Carole Proust, Beatrice Jaspard-Vinassa, Pierre Fautrad, Manal Ibrahim-Kosta, Felipe Leal-Valentim, Maguelonne Roux, Delphine BacqDaian, Robert Olaso, Jean-François Deleuze, PierreEmmanuel Morange, David-Alexandre Trégouët. Biorxiv

[12] A statement for healthcare professionals from the Cardiac Imaging Committee of the Council on Clinical Cardiology of the American Heart Association. Manuel D Cerqueira 1, Neil J Weissman, Vasken Dilsizian, Alice K Jacobs, Sanjiv Kaul, Warren K Laskey, Dudley J Pennell, John A Rumberger, Thomas Ryan, Mario S Verani; American Heart Association Writing Group on Myocardial Segmentation and Registration for Cardiac Imaging. Standardized myocardial segmentation and nomenclature for tomographic imaging of the heart. Circulation. 2002 Jan 29;105(4):539-42. doi: 10.1161/hc0402.102975.

[13] Enhancing comparative T cell receptor repertoire analysis in small biological samples through pooling homologous cell samples from multiple mice. Vanessa Mhanna, Pierre Barennes, Hélène Vantomme, Gwladys Fourcade, Nicolas Coatnoan, Adrien Six, David Klatzmann, Encarnita Mariotti-Ferrandiz. Cell Rep Methods. 2024 Apr 22;4(4):100753.

[14] Clinical and multi-omics cross-phenotyping of patients with autoimmune and autoinflammatory diseases: the observational TRANSIMMUNOM protocol. Roberta Lorenzon, Encarnita Mariotti-Ferrandiz, Caroline Aheng, Claire Ribet, Ferial Toumi, Fabien Pitoiset, Wahiba Chaara, Nicolas Derian, Catherine Johanet, Iannis Drakos, Sophie Harris, Serge Amselem, Francis Berenbaum, Olivier Benveniste, Bahram Bodaghi, Patrice Cacoub, Gilles Grateau, Chloe Amouyal, Agnes Hartemann, David Saadoun, Jeremie Sellam, Philippe Seksik, Harry Sokol, Joe-Elie Salem, Eric Vicaut, Adrien Six, Michelle Rosenzwajg, Claude Bernard, David Klatzmann. BMJ Open. 2018 Aug 30;8(8):e021037.

[15] Transcriptomics Reveals Endothelial Plasticity During Diabetic Atherogenesis..lç Guizhen Zhao1Haocheng LuHaocheng Lu1Yuhao Liu,Yuhao Liu, Yang ZhaoYang Zhao1Tianqing ZhuTianqing Zhu Minerva T. Garcia-BarrioMinerva T. Garcia-Barrio Y. Eugene Chen Y. Eugene Chen. Jifeng Zhang. Jifeng Zhang. Single-Cell Front. Cell Dev. Biol., 18 May 2021.

[16] Transimmunom whole blood RNA-seq data from type 1 diabetic patients and healthy volunteers. Leal Valentim F, Mariotti-Ferrandiz E, Klatzmann D, et al. (2020) Unpublished GEO dataset. GEO accesion number: GSE123658.Google Scholar

[17] Single-Cell Transcriptomics Reveals Endothelial Plasticity During Diabetic Atherogenesis. Guizhen Zhao1Haocheng LuHaocheng Lu1Yuhao Liu,Yuhao Liu, Yang ZhaoYang Zhao1Tianqing ZhuTianqing Zhu Minerva T. Garcia-BarrioMinerva T. Garcia-Barrio Y. Eugene Chen Y. Eugene Chen. Jifeng Zhang. Jifeng Zhang. Front. Cell Dev. Biol., 18 May 2021.

[18] Global burden and trends of lung cancer incidence and mortality. Li C, Lei S, Ding L, Xu Y, Wu X, Wang H, Zhang Z, Gao T, Zhang Y, Li L. Chin Med J (Engl). 2023 Jul 5;136(13):1583-1590. doi: 10.1097/CM9.0000000000002529.

[19] Smoking as a risk factor for lung cancer in women and men: a systematic review and meta-analysis. O’Keeffe LM, Taylor G, Huxley RR, et al. BMJ Open 2018;8:e021611. doi:10.1136/bmjopen-2018-021611

Imagem da capa gerada por: Gemini

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Sair da versão mobile