Tanto a engenharia quanto bioinformática requerem interdisciplinaridade com ciência da computação, ciência de dados e machine learning (ML). A ciência de dados se ocupa com a ética em torno dos dados, tal como reprodutibilidade dos experimentos, consistência dos dados, coerência das hipóteses, relevância científica, e etc. Mais ainda com os parâmetros éticos ao redor das técnicas de ML (usabilidade, transferibilidade, generalidade, interpretabilidade, aplicabilidade, adaptabilidade, entre outros. A definição completa de critérios de seleção para caracterização das técnicas de ML pode ser encontrada em [1].
Em bioinformática os dados são tipicamente expressões de biomoléculas, como quantidades de DNA, genes e proteínas em amostras contrastantes. A pergunta usual de bioinformática é quais são as biomoléculas significativamente diferencialmente expressas entre grupos de amostras. Basicamente, para responder essa pergunta são aplicadas técnicas estatísticas para comparar valores entre dois grupos, como Teste t de Student ou testes de expressão diferencia. Em seguida, são feitas análises com técnicas não-supervisionadas de ML (análise de componentes principais, clusterização, etc) para investigar a distribuição dos dados e agrupar moléculas pelo padrão de expressão. Nesse passo, os grupos de biomoléculas são anotados com base em banco de dados já publicados. Finalmente, técnicas de ML supervisionadas são utilizadas para selecionar grupos de biomarcadores para diagnosticar cada amostra em um dos grupos comparados. Uma variedade de métodos supervisionados podem ser aplicados para selecionar assinatura de biomarcadores (k-nearest neighbors, decision tree, regression tree, bayesian network, linear regression, random forest, artificial neural networks, K-means, etc).




Em comum entre as duas áreas estão as tarefas de diagnosticar. O tipo de dados no entendo é diferente. No caso de bioinformática teremos quantidade das biomoléculas enquanto que na predição de falhas de máquinas podemos ter medidas da máquina (vazão, temperatura, pressão, torque, voltagem, etc). As técnicas que podem ser usadas para fazer as análises nas duas áreas podem ser as mesmas, pois a natureza em ambos casos são classificar e predizer. Entretanto, o número de variáveis nos problemas de bioinformática podem ser muito maiores pois o número de genes pode chegar à 30.000, como no caso de experimentos com humanos. Pode ser levado em conta também que os dados de biologia são mais heterogêneos, visto que as amostras nunca são idênticas. A heterogeneidade dos dados deve ser levado em conta em engenharia quando os dados são coletados de equipamentos em funcionamento real.
Referências
[1] Miguel A. De C. Michalski; Carlos A. Murad; Fabio N. Kashiwagi; Gilberto F. M. De Souza; Halley J. B. Da Silva; Hyghor M. Côrtes. A Multi-Criteria Framework for Selecting Machine Learning Techniques for Industrial Fault Prognosis. 2025.
[2] W. Monte Verde, E. Kindermann, J. L. Biazussi, V. Estevam, B. P. Foresti, and A. C. Bannwart. Experimental Investigation of the Effects of Fluid Viscosity on Electrical Submersible Pumps Performance. SPE Prod & Oper 38 (01): 1–19. 2023.
[3] Natan Augusto Vieira Bulgarelli, Jorge Luiz Biazussi, William Monte Verde, Carlos Eduardo Perles, Marcelo Souza de Castro a, Antonio Carlos Bannwart. Experimental investigation on the performance of Electrical Submersible Pump (ESP) operating with unstable water/oil emulsions. Journal of Petroleum Science and Engineering. Volume 197, February 2021, 107900.
[4] Junqian Zhang, Shuaishuai Dong, Shengyu Zhang, Heng Zhang, Hongli Li, Qingfeng Dong, Pin Wu and Chun Feng. Review on Fault Diagnosis of Electric Submersible Pump using Machine Learning. Journal of Physics: Conference Series. (2025).
* Este artigo não passou por revisão de pares.