Resumen:
La investigación médica en español está experimentando un auge sin precedentes, por ejemplo, debido a la pandemia provocada por la enfermedad de COVID-19 causada por el virus SARS-CoV-2 que se detectó en diciembre de 2019 en la ciudad de Wuhan, China, se han infectado a nivel mundial más de 176 millones de personas 1
. Los esfuerzos por difundir y contener a dicha enfermedad han generado una gran cantidad de información de forma Extraordinaria, tal como, documentos científicos.
Este gran volumen de información y conocimiento almacenado en los textos médicos proporciona a los expertos del dominio una herramienta fiable
para sus diversas actividades de investigación donde requieren localizar información precisa de manera rápida y eficiente. Sin embargo, dada la estructura
de los documentos y el volumen de datos, la tarea de buscar, recuperar y extraer información específica que requieren los expertos no es trivial. Además,
realizar estas tareas de manera manual consume mucho tiempo, son tediosas y costosas.
Por lo anterior, en este trabajo de investigación se propone un algoritmo computacional de pregunta-respuesta para buscar, recuperar y extraer información del dominio médico a partir de textos científicos. El algoritmo
esta basado en modelos de recuperación de información y en grandes modelos de lenguaje neuronales. Además, las preguntas serán realizadas en lenguaje natural en el idioma español, aportando al problema de carencia de recursos
para el procesamiento de textos en este idioma. Finalmente, las respuestas serán recuperadas de manera automática y a partir de un gran volumen de textos científicos en formato no estructurado.
Este proyecto de investigación va dirigido tanto a los Investigadores hispanohablantes de la salud que necesitan una asistencia eficaz para acceder de manera rápida, a la Información médica. Por ejemplo, los investigadores en
este campo siempre quieren estar al tanto de la evidencia clínica actualizada para el diagnóstico y el tratamiento de enfermedades bajo el esquema de
Medicina Basada en la Evidencia. Además, el proyecto también está dirigido a investigadores en el área de las Ciencias de la Computación que requieran conocer técnicas de Procesamiento de Lenguaje Natural que incluyan la Recuperación y Extracción de Información.
Descripción:
TESIS DOCTORAL QUE A TRAVES DE UN MODELO DE EXTRACCIÓN Y RECUPERACIÓN DE INFORMACIÓN Y OTRO MODELO DE RESOLUCIÓN DE PREGUNTAS USA UN LLM O TRANSFORMER PARA ATENDER SOLICITUDES DE INVESTIGADORES O ESTUDIANTES DE MEDICINA Y PUBLICO EN GENERAL SOBRE EL TEMA DEL COVID 19. FUE PRESENTADO EN EL CONGRESO INTERNACIONAL DE INTELIGENCIA ARTIFICIAL Y MACHINE LEARNING EN TOKIO JAPÓN EN MAYO DE 2025. FUE PUBLICADO EN 2 REVISTAS: 1) EN LISTA DE SECIHTI Y EN JCR (Q2) APPLIED SCIENCE.