Resumen:
El análisis del tiempo de estancia hospitalaria puede proporcionar información para la administración de recursos hospitalarios. En esta tesis se exploraron distintos métodos de minería de textos y algoritmos de clasificación para realizar un análisis predictivo del tiempo de estancia de pacientes en el servicio de urgencias de un hospital de tercer nivel. Previa aprobación ética, se analizaron los datos del servicio de urgencias del Centro Médico ´ “Lic. Adolfo López Mateos” perteneciente al Instituto de Salud del Estado de México ubicado en Toluca, Estado de México. Se cuenta con variables estructuradas (filas y columnas) y de texto libre con un total de 119,220 casos para la comparación de modelos basados en ambos formatos. El proyecto se dividió en tres etapas. La primera de ellas fue para el reconocimiento de los datos, en ésta se realizó estadística descriptiva y se analizó la integridad y el comportamiento de cada variable. Los resultados mostraron de que el problema conocido como subregistro por códigos inespecíficos afecta al 13.30 % (n=15,859) del total de registros. En esta etapa también se realizó un análisis de clúster (Silhouette=0.3) encontrando grupos similares a los reportados en la literatura médica. En la segunda etapa se abordó el problema de códigos inespecíficos y se presentó la clasificación de textos como alternativa de solución. Para validar la propuesta, se compararon cuatro predictores binarios: con datos de texto y representación Frecuencia de Término - Frecuencia Inversa de Documento (TFIDF) se construyó un modelo de regresión logística (LR). Para datos estructurados se generó una LR, un árbol de decisión (DT) y un boosting tree (BT). El basado en texto (exa = 0.9393, F1-score = 0.9392) superó a los basados en datos estructurados (exa = 0.8117, F1-score = 0.8184; exa = 0.8001, F1-score = 0.8006; exa = 0.8142, F1-score = 0.8181), respectivamente y estimó que los casos afectados por subregistro corresponden al 82.56 % de los datos analizados. En la tercer etapa, se planteó la clasificación de textos para la construcción de un modelo predictivo del tiempo de estancia hospitalaria. La variable objetivo se codificó en dos clases estancia normal y estancia prolongada, resultando en una distribución desbalanceada. En esta sección se propuso texto sintético generado mediante una Red Neuronal Recurrente Long Short-Term Memory (RNN-LSTM) como herramienta de balanceo. Al ser un método inédito, se realizaron pruebas para evaluarlo con algoritmos como LR, DT, BT, Máquinas de Soporte Vectorial (SVM) y Random Forest (RF). Se comparó el F1-score contra otras técnicas de balanceo como sobre muestreo aleatorio y Synthetic Minority Over-sampling Technique (SMOTE) y se realizaron pruebas con dos conjuntos de datos distintos. Se pudo corroborar que los algoritmos LR (t=-7.196, 0.000) y SVM (t=-6.353, 0.000) presentan una mejoría estadísticamente significativa cuando se emplea el método propuesto en contraste con los datos desbalanceados originales. El mejor modelo encontrado para la predicción del tiempo de estancia es el que utiliza SVM, el método de balanceo por notas sintéticas y notas médicas originales. Este modelo cuenta con 107370 coeficientes (107369 variables), dos clases y logró un valor de exactitud de 0.86 y de F1-score de 0.68.