75744

MACHINE LEARNING PARA PREDIZER INCONSISTÊNCIAS NA RAÇA/COR DAS DECLARAÇÕES DE ÓBITO

Favoritar este trabalho

Objetivo: Avaliar a performance de algoritmos de inteligência artificial (machine learning) para identificar inconsistências entre a raça/cor da declaração de óbito (DO) e a autodeclarada. Métodos: Foi analisada a amostra representativa de idosos (≥ 60 anos) do Estudo SABE que foram a óbito no Município de São Paulo entre 2000 e 2016. A variável resposta de interesse foi a classificação de raça/cor como branca na DO e autodeclaração como parda no SABE. As variáveis preditoras foram as características socioeconômicas, demográficas e de saúde, além da causa básica de óbito. O banco de dados foi dividido aleatoriamente em treinamento (70%) e teste (30%). Modelos de Random Forest (RF) com métodos de reamostragem (down, up e SMOTE) para dados desbalanceados foram ajustados. A performance dos modelos foi avaliada pela área abaixo da curva ROC (AUC), sensibilidade (S), especificidade (S) e Kappa (K). Resultados: Da amostra inicial, 1.062 óbitos foram identificados por meio de técnicas de linkage e 812 (76,5%) apresentaram raça/cor classificada como branca na DO. Desses, 116 (14,3%) se autodeclararam pardos em vida. Os modelos preditivos apresentaram AUC semelhantes, de aproximadamente 0,65. Na amostra de teste, o método “down-sampling” classificou adequadamente 21 dos 31 casos (S=0,68, E=0,62, K=0,16), o método “up-sampling” 3 (S=0,10, E=0,93, K=0,03) e o método SMOTE apenas 2 (S=0,06, E=0,99, K=0,09). Conclusões: A performance dos modelos preditivos ainda não foi satisfatória. O aumento no número de óbitos, a incorporação de outras amostras e a inclusão de mais variáveis podem ajudar a melhorar a performance dos modelos no futuro.