Resumen:
El procesamiento de lenguaje natural es un conjunto de tareas capaces de procesar el lenguaje oral y escrito mediante técnicas y métodos computacionales que permitan la manipulación de lenguajes naturales. Algunas de las tareas creadas para el procesamiento de lenguaje natural son: Recuperación de información, Detección de plagio, Desambiguación del sentido de las palabras, Generación automática de resúmenes, Detección de nombres de medicamentos confusos, Detección de palabras clave, Clasificación de tópicos, Clasificación de documentos, entre otras. A pesar de que el objetivo de las tareas del procesamiento de lenguaje natural es especifico para cada una de ellas, estas tareas comparten algunas características en común. Las características que comparten la mayoría de las tareas de procesamiento de lenguaje natural son: 1) Precisan una forma de representación de la información, 2) Requieren una función de similitud, 3) Necesitan un paradigma de evaluación. Estos tres elementos son de gran importancia al momento de desarrollar una aplicación de procesamiento de lenguaje natural, pero el elemento que más impacto tienen en su desarrollo es la función de similitud que se utiliza. Existe una gran cantidad de funciones de similitud que pueden ser aplicadas al procesamiento de lenguaje natural, y aunque estas funciones han demostrado generar buenos resultados, aún no existe una “mejor” función de similitud que genere resultados competitivos para todas las tareas de procesamiento de lenguaje. Existen investigaciones que tratan de resolver el problema de la “mejor” función de similitud, pero centrándose en generar una función de similitud especifica a cada aplicación de procesamiento de lenguaje natural. Una de las maneras de crear funciones de similitud especificas es a través de la inducción de los valores generados por funciones de similitud conocidas. A este proceso se le conoce como inducción de funciones de similitud. Existen diversos métodos de inducción, entre ellos análisis de regresión (técnica estadística), algoritmos genéticos, redes neuronales, regresión simbólica (técnicas computacionales), entre otras. Es esta tesis se propuso la aplicación de un método de inducción de funciones de similitud a través de regresión simbólica. El método propuesto genera funciones de similitud a través de la combinación inducida de valores de similitud generados por funciones conocidas. El método propuesto fue probado en dos tareas del procesamiento de lenguaje natural: detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras. Los resultados del método propuesto aplicado a ambas tareas del procesamiento de lenguaje natural mencionadas generan buenas funciones de similitud, y los resultados al 7 evaluar las tareas con sus respectivos paradigmas de evaluación, muestran resultados superiores a otros métodos del estado del arte de dichas tareas. Los resultados finales de la evaluación de las tareas de procesamiento de lenguaje natural utilizando la función de similitud inducida por el método propuesto general resultados superiores a otros trabajos, por lo cual se comprueba la eficacia del método propuesto. El método propuesto está diseñado de tal forma que puede ser utilizado por diversas tareas del procesamiento de lenguaje natural, siempre y cuando estas cumplan con los tres componentes antes mencionados (una forma de representación de la información, función de similitud y paradigma de evaluación). En esta tesis se demuestra la aplicación del método a la detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras, y se deja abierta la futura aplicación del método a otras tareas del procesamiento de lenguaje natural.