Transferência de conhecimento especializado em aprendizado de máquina da bioinformática para a engenharia

72
0

Tanto a engenharia quanto bioinformática requerem interdisciplinaridade com ciência da  computação, ciência de dados e machine learning (ML). A ciência de dados se ocupa com a ética em torno dos dados, tal como reprodutibilidade dos experimentos, consistência dos dados, coerência das hipóteses, relevância científica, e etc. Mais ainda com os parâmetros éticos ao redor das técnicas de ML (usabilidade, transferibilidade, generalidade, interpretabilidade, aplicabilidade, adaptabilidade, entre outros. A definição completa de critérios de seleção para caracterização das técnicas de ML pode ser encontrada em [1].

Em bioinformática os dados são tipicamente expressões de biomoléculas, como quantidades de DNA, genes e proteínas em amostras contrastantes. A pergunta usual de bioinformática é quais são as biomoléculas significativamente diferencialmente expressas entre grupos de amostras. Basicamente, para responder essa pergunta são aplicadas técnicas estatísticas para comparar valores entre dois grupos, como Teste t de Student ou testes de expressão diferencia. Em seguida, são feitas análises com técnicas não-supervisionadas de ML (análise de componentes principais, clusterização, etc)  para investigar a distribuição dos dados e agrupar moléculas pelo padrão de expressão. Nesse passo, os grupos de biomoléculas são anotados com base em banco de dados já publicados. Finalmente, técnicas de ML supervisionadas são utilizadas para selecionar grupos de biomarcadores para diagnosticar cada amostra em um dos grupos comparados. Uma variedade de métodos supervisionados podem ser aplicados para selecionar  assinatura de biomarcadores (k-nearest neighbors, decision tree, regression tree, bayesian network, linear regression, random forest, artificial neural networks, K-means, etc).

Na engenharia, problemas comuns são diagnóstico e classificação de falhas, e também predição de performance de equipamentos. As variáveis de performance são utilizadas para avaliar a saúde do equipamento. Usualmente, variáveis que podem ser medidas no equipamento são monitoradas, tais como vazão, pressão, temperatura, densidade, viscosidade, voltagem e etc. Essas variáveis são facilmente medidas na máquina, e equações para calcular as variáveis de performance a partir dela [2] já foram propostas. Além das equações, técnicas de ML têm sido aplicadas para predizer as variáveis de performance, o que é útil no caso de alguma das variáveis não puder ser medida [3]. ML é utilizado principalmente para diagnosticar falhas, o que tem sido feito com métodos supervisionados ou não-supervisionados [4].

Em comum entre as duas áreas estão as tarefas de diagnosticar. O tipo de dados no entendo é diferente. No caso de bioinformática teremos quantidade das biomoléculas enquanto que na predição de falhas de máquinas podemos ter medidas da máquina (vazão, temperatura, pressão, torque, voltagem, etc). As técnicas que podem ser usadas para fazer as análises nas duas áreas podem ser as mesmas, pois a natureza em ambos casos são classificar e predizer. Entretanto, o número de variáveis nos problemas de bioinformática podem ser muito maiores pois o número de genes pode chegar à 30.000, como no caso de experimentos com humanos.  Pode ser levado em conta também que os dados de biologia são mais heterogêneos, visto que as amostras nunca são idênticas.  A heterogeneidade dos dados deve ser levado em conta em engenharia quando os dados são coletados de equipamentos em funcionamento real.

Referências

[1] Miguel A. De C. Michalski; Carlos A. Murad; Fabio N. Kashiwagi; Gilberto F. M. De Souza; Halley J. B. Da Silva; Hyghor M. Côrtes. A Multi-Criteria Framework for Selecting Machine Learning Techniques for Industrial Fault Prognosis. 2025.

[2] W. Monte Verde, E. Kindermann, J. L. Biazussi, V. Estevam, B. P. Foresti,  and A. C. Bannwart. Experimental Investigation of the Effects of Fluid Viscosity on Electrical Submersible Pumps Performance. SPE Prod & Oper 38 (01): 1–19. 2023.

[3] Natan Augusto Vieira Bulgarelli, Jorge Luiz Biazussi, William Monte Verde, Carlos Eduardo Perles, Marcelo Souza de Castro a, Antonio Carlos Bannwart.  Experimental investigation on the performance of Electrical Submersible Pump (ESP) operating with unstable water/oil emulsions. Journal of Petroleum Science and Engineering. Volume 197, February 2021, 107900.

[4] Junqian Zhang, Shuaishuai Dong, Shengyu Zhang, Heng Zhang, Hongli Li, Qingfeng Dong, Pin Wu and Chun Feng. Review on Fault Diagnosis of Electric Submersible Pump using Machine Learning. Journal of Physics: Conference Series. (2025).

* Este artigo não passou por revisão de pares.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *