Resumen:
En esta investigación se desarrolló un sistema para la representación de conocimiento médico a partir de textos en español, centrado en el reconocimiento de entidades y relaciones médicas. El trabajo abarca desde la identificación precisa de entidades hasta la construcción y validación de un grafo médico. En primer lugar, se implementó un reconocedor de entidades médicas que alcanzó una precisión del 97 %, identificando entidades de tipo Anatomía,
Medicamento y Enfermedad. Este componente se entrenó mediante algoritmos de aprendizaje automático (como árboles de decisión y random forest) y
fue validado tanto en datos internos como externos, demostrando su robustez.
En segundo lugar, se diseñó un modelo para la detección de relaciones entre entidades médicas, utilizando modelos de lenguaje de gran escala ajustados con fine-tuning para tareas de clasificación binaria. El modelo alcanzó una
precisión del 90,6 % sobre un corpus anotado manualmente por expertos del
dominio. Para apoyar este proceso, se desarrolló una aplicación especializada para el etiquetado eficiente de relaciones, y se definieron siete patrones semánticos que permitieron la generación automática de tripletas informativas
a partir de los textos. En tercer lugar, se propuso una metodología para la generación automática de grafos de conocimiento en el dominio médico. Esta fue aplicada a un corpus de 990 artículos científicos, y evaluada mediante cinco casos de uso diversos. La validación realizada por un experto en medicina
confirmó la validez general del enfoque. Esta investigación contribuye significativamente al desarrollo de herramientas de Procesamiento de Lenguaje Natural aplicadas a la medicina en español, con potencial para aplicaciones en sistemas de pregunta y respuesta o descubrimiento de conocimiento.
Descripción:
Tesis de doctorado del area de inteligencia artificial, extracción de información de textos médicos para convertirlos a grafos de conocimiento. Se crearon 2 modelos y algoritmos: para la extracción de entidades nombradas y la extracción de relaciones y un algoritmo para integrar esos 2 modelos en un grafo de conocimiento.