Modelos de Aprendizado de Máquina Explicáveis a Serviço da Saúde Mental e Prevenção do Burnout

O burnout ocupacional é um fenômeno crescente em diferentes setores profissionais, associado à sobrecarga de trabalho, desequilíbrio entre vida pessoal e profissional e fadiga emocional. A identificação precoce de fatores de risco é essencial para prevenir impactos na saúde mental e no desempenho organizacional. Este trabalho aplica modelos de aprendizado de máquina explicáveis (XAI) para prever e compreender os determinantes do burnout em profissionais de múltiplas áreas. Foram testados modelos de Regressão Linear, Support Vector Regression (SVR) e Random Forest Regressor, avaliados com base em métricas de desempenho e interpretabilidade via SHAP e importância de variáveis. Random Forest apresentou melhor equilíbrio entre precisão e transparência, com R² ≈ 0,92, indicando excelente capacidade preditiva. A variável com maior influência no burnout foi a carga de trabalho, seguida pela satisfação no trabalho e pelo equilíbrio vida-trabalho. Esses resultados evidenciam o potencial de técnicas explicáveis de aprendizado de máquina na gestão preventiva do estresse ocupacional e no planejamento de políticas de bem-estar no trabalho.

Autores: Martony Demes da Silva, Emerson Mendes Silva

Download PDF

Introdução

O burnout é reconhecido pela Organização Mundial da Saúde como uma síndrome resultante de estresse crônico relacionado ao trabalho [1]. Sua incidência tem aumentado em múltiplos setores, afetando o desempenho, a motivação e o equilíbrio psicológico dos trabalhadores. Profissionais expostos a longas jornadas e pressões constantes estão mais vulneráveis à exaustão emocional, despersonalização e perda de engajamento [2].

Além desses impactos diretos, o burnout pode ser compreendido como uma falha prolongada nos mecanismos naturais de regulação do estresse. Em contextos de pressão contínua, o organismo permanece em estado de alerta por tempo excessivo, liberando hormônios como o cortisol, que, em níveis elevados, deixam de cumprir sua função adaptativa e passam a prejudicar o bem-estar físico e emocional [3]. Esse desequilíbrio compromete processos cognitivos essenciais, resultando em dificuldades de concentração, irritabilidade, queda na criatividade e sensação persistente de esgotamento, efeitos bem documentados em estudos neurobiológicos sobre estresse crônico [4].

Do ponto de vista da saúde coletiva, trata-se de um fenômeno que emerge da interação entre fatores biológicos, psicológicos e organizacionais, refletindo não apenas características individuais, mas sobretudo condições estruturais de trabalho que favorecem a sobrecarga e a falta de suporte [5]. Compreender o burnout como um problema sistêmico é fundamental para orientar estratégias eficazes de prevenção e apoiar o desenvolvimento de tecnologias voltadas à detecção precoce de seus sinais.

O uso de aprendizado de máquina (ML) tem se mostrado eficaz na detecção precoce de padrões de risco em contextos ocupacionais [3]. Entretanto, muitos desses modelos funcionam como “caixas-pretas”, dificultando a compreensão dos fatores subjacentes às previsões. Nesse contexto, os métodos de inteligência artificial explicável (XAI), como o SHAP (SHapley Additive Explanations), tornam-se essenciais, permitindo interpretar e visualizar a influência de cada variável sobre o risco de burnout [7].

Neste artigo, propõe-se o uso de modelos explicáveis de aprendizado de máquina aplicados à predição de burnout em profissionais em geral, destacando a importância da interpretabilidade como suporte à tomada de decisão em ambientes organizacionais.

Desenvolvimento

O estudo seguiu o processo CRISP-DM (Cross Industry Standard Process for Data Mining) [8]. Este processo é uma metodologia padrão para projetos de mineração de dados, organizada em quatro etapas principais [8]: compreensão dos dados, preparação, modelagem e interpretação dos resultados. Primeiro, buscou-se compreender os objetivos e os dados disponíveis. Em seguida, realizou-se a limpeza e transformação dos dados para torná-los adequados à análise. A modelagem aplica algoritmos para construir e validar modelos preditivos. Por fim, os resultados foram interpretados para gerar insights que apoiem a tomada de decisão. Esse processo iterativo é essencial para estruturar projetos de aprendizado de máquina com dados complexos, como os relacionados ao burnout.

Base de Dados

A base de dados utilizada contém cerca de 22.750 registros de profissionais de múltiplas áreas, com 8 variáveis referentes à rotina de trabalho, satisfação, equilíbrio de vida pessoal-profissional, suporte institucional e sinais de fadiga mental. As variáveis incluem dados numéricos contínuos e categóricos.

A distribuição dos dados foi verificada, apresentando equilíbrio razoável entre as categorias de burnout, sem desbalanceamento significativo.

Durante o pré-processamento, valores faltantes correspondentes a aproximadamente 2% dos dados foram tratados por imputação da média para variáveis contínuas e moda para variáveis categóricas. Outliers foram identificados e avaliados, mas mantidos devido à sua relevância clínica.

A base de dados utilizada reúne informações relacionadas à rotina de trabalho, satisfação, equilíbrio entre vida pessoal e profissional, suporte institucional e sinais de fadiga mental. O conjunto original foi extraído do repositório disponível em Github-Saiak. Após o pré-processamento e normalização dos dados, foram testados três modelos de aprendizado de máquina, cujo desenvolvimento e execução ocorreram no ambiente Google Colab, acessível em notebook/aplicação. Os modelos estão detalhados a seguir.

Regressão Linear

A regressão linear é um método estatístico que busca estabelecer uma relação direta entre uma variável dependente (resultado) e uma ou mais variáveis independentes (preditoras). O modelo assume que essa relação pode ser representada por uma linha reta, em que a mudança em uma variável preditora resulta em uma mudança proporcional no resultado. É um modelo simples e fácil de interpretar, ideal para identificar tendências lineares nos dados.

Support Vector Regression (SVR)

SVR é uma extensão do Support Vector Machine (SVM) para problemas de regressão. Diferentemente da regressão linear, o SVR pode capturar relações não lineares e mais complexas entre variáveis ao mapear os dados para espaços de maior dimensão usando funções chamadas kernels. Ele busca encontrar uma função que se ajuste aos dados com a menor margem de erro possível, proporcionando boa capacidade preditiva, mesmo em cenários não lineares.

Random Forest Regressor

Random Forest é um método baseado em ensembles, que utiliza múltiplas árvores de decisão para realizar previsões [9]. Cada árvore é construída a partir de um subconjunto aleatório dos dados e das variáveis, o que reduz o risco de overfitting (ajuste excessivo aos dados de treino). O resultado é obtido pela média das previsões de todas as árvores, equilibrando precisão e robustez. Além disso, oferece interpretabilidade por meio da avaliação da importância das variáveis utilizadas.

Métricas avaliadas

Para garantir a confiabilidade e eficácia dos modelos de aprendizado de máquina, é fundamental avaliar seu desempenho por meio de métricas quantitativas que traduzam a qualidade das previsões geradas. No contexto de problemas de regressão, as métricas mais comuns incluem o Mean Squared Error (MSE), o Mean Absolute Error (MAE) e o Coeficiente de Determinação (R²).

Mean Squared Error (MSE) calcula a média dos quadrados das diferenças entre os valores previstos e os valores observados. Essa métrica penaliza de forma mais severa os erros maiores, tornando-se útil para detectar predições muito distantes do valor real.

Mean Absolute Error (MAE), por sua vez, representa a média das diferenças absolutas entre as previsões e os valores reais, fornecendo uma medida intuitiva da precisão média do modelo, sem sobrevalorizar erros extremos.

Já o Coeficiente de Determinação (R²) indica a proporção da variabilidade total dos dados explicada pelo modelo. Valores próximos a 1 indicam que o modelo ajusta bem os dados, enquanto valores próximos a 0 indicam pouca capacidade explicativa.

A escolha e a análise conjunta dessas métricas possibilitam uma avaliação mais completa do desempenho do modelo, considerando tanto a magnitude dos erros quanto a capacidade geral de explicação dos dados.

Resultados

O modelo Random Forest apresentou o melhor desempenho, com R² = 0,9188, MSE = 0,0032 e MAE = 0,0459, indicando elevada precisão preditiva. Os baixos valores de erro médio absoluto (MAE) e erro quadrático médio (MSE) sugerem que as previsões do modelo estão próximas dos valores reais. Além disso, o coeficiente de determinação elevado (R² = 0,9188) indica que o modelo explica mais de 91% da variabilidade observada nos dados. Em conjunto, esses resultados evidenciam um bom desempenho do modelo, sugerindo potencial para aplicações preditivas confiáveis, especialmente quando avaliado em dados independentes.

Para entender como o modelo chega às previsões, aplicaram-se métodos de interpretabilidade, como a análise da importância das variáveis e dos valores SHAP, que ajudam a visualizar quais fatores influenciam mais o resultado.

Para entender quais fatores influenciam mais o risco de burnout, foi realizada uma análise da importância das variáveis no modelo Random Forest. Essa análise revela a contribuição relativa de cada preditor para a determinação do resultado. Conforme mostrado na Figura 1, a carga de trabalho semanal destaca-se como o principal fator, seguida pela satisfação no trabalho, equilíbrio entre vida pessoal e profissional e suporte organizacional. Esses resultados indicam que aspectos tanto quantitativos quanto qualitativos do ambiente de trabalho são cruciais para a previsão do burnout.

Figura 1. Importância das Variáveis no Modelo Random Forest.

A hierarquia das variáveis indica que o aumento da carga de trabalho e a diminuição da satisfação elevam significativamente o risco de esgotamento emocional. Por outro lado, o suporte organizacional e o equilíbrio entre a vida pessoal e a profissional atuam como fatores protetores, reduzindo essa probabilidade. Esses achados corroboram estudos anteriores que apontam para a necessidade de intervenções focadas na gestão da demanda laboral e na melhoria das condições psicossociais no ambiente de trabalho.

De modo geral, observa-se que níveis mais elevados de demanda laboral e menores níveis de satisfação tendem a intensificar significativamente a probabilidade de esgotamento emocional [10]. Em contraste, o suporte organizacional e o equilíbrio entre vida pessoal e profissional atuam como importantes fatores de proteção, contribuindo para reduzir o risco e preservar o bem-estar ocupacional. Esses padrões são coerentes com estudos prévios que identificam a sobrecarga e a insatisfação laboral como determinantes centrais do burnout em diferentes contextos profissionais [7].

A robustez do modelo empregado reforça a credibilidade desses achados. Random Forest apresentou desempenho expressivo (R² = 0,9188; MSE = 0,0032; MAE = 0,0459), indicando elevada estabilidade e precisão preditiva. Esses valores demonstram que as previsões permanecem consistentemente próximas dos dados reais, com baixa variabilidade de erro, o que fortalece a confiabilidade das interpretações sobre os fatores que influenciam o burnout.

Além disso, a aplicação de métodos de interpretabilidade, incluindo a análise da importância das variáveis e as estimativas de contribuições individuais via SHAP, permite compreender de forma transparente como o modelo constrói suas previsões. Essa abordagem explicável facilita a identificação dos fatores de maior impacto no risco de esgotamento, fornecendo subsídios para que gestores, pesquisadores e profissionais de saúde planejem intervenções preventivas baseadas em evidências. Dessa forma, a combinação entre alto desempenho preditivo e interpretabilidade torna o modelo uma ferramenta estratégica para orientar políticas organizacionais e ações de mitigação do burnout.

Conclusão

A integração de técnicas explicáveis de aprendizado de máquina à análise do burnout em profissionais de diferentes áreas representa um avanço relevante para a gestão organizacional e o bem-estar ocupacional. Além de fornecer previsões precisas, os modelos explicáveis permitem compreender os fatores que mais contribuem para o estresse ocupacional, viabilizando políticas de prevenção baseadas em dados. Trabalhos futuros incluem a validação em bases nacionais, o uso de dados fisiológicos e o desenvolvimento de dashboards interativos para apoio à tomada de decisão em ambientes hospitalares. Essa linha de pesquisa evidencia o potencial da inteligência artificial explicável como ferramenta ética e transparente na promoção da saúde e do bem-estar dos trabalhadores.

Limitações do Estudo

Apesar dos resultados promissores, este estudo apresenta limitações importantes. Foi utilizado apenas um conjunto de dados público, o que pode restringir a generalização para outras populações e contextos. A ausência de variáveis fisiológicas e comportamentais também limita a compreensão completa dos fatores associados ao burnout.

Além disso, possíveis vieses da amostra podem afetar a representatividade dos resultados. Embora o modelo Random Forest tenha demonstrado boa precisão e interpretabilidade, suas explicações são associativas e não indicam causalidade.

Futuros estudos devem validar os achados em bases de dados diversas, incluir dados adicionais e aplicar métodos complementares para aumentar a robustez das conclusões.

Referências

[1] WHO. Burn-out an “occupational phenomenon”. World Health Organization, 2019.

[2] Maslach, C., Leiter, M. P. Understanding the burnout experience: recent research and its implications for psychiatry. World Psychiatry, 15(2):103–111, 2016.

[3] Maslach, C., Schaufeli, W. B., Leiter, M. P. Job burnout. Annual Review of Psychology, 52:397–422, 2001.

[4] McEwen, B. S. Protection and damage from acute and chronic stress: allostasis and allostatic overload. Annals of the New York Academy of Sciences, 1032(1):1–7, 2004.

[5] Leiter, M. P., Maslach, C. Burnout in organizations: a conceptual review. In C. Cooper & R. J. Burke (Eds.), Theories of organizational stress. Oxford University Press, 2016.

[6] Batra, K. et al. Predicting occupational burnout using machine learning methods. Journal of Affective Disorders Reports, 5 (2021).

[7] Jha, A. et al. Using explainable supervised machine learning to predict burnout in professionals. BMC Medical Informatics and Decision Making, 23 (2023).

[8] Wirth, R.; Hipp, J. CRISP-DM: Towards a standard process model for data mining. Proc. 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining, Manchester, 2000.

[9] Breiman, L. Random Forests. Machine Learning, 45(1):5–32, 2001.

[10] Chen, L. et al. Machine-learning-based model for analysing and accurately predicting factors related to burnout in professionals. Scientific Reports, 15(1):4521, 2025.