Resumen:
Debido a la gran cantidad de información digital que existe actualmente, a la hora de realizar una búsqueda sobre un tema podemos encontrar millones de documentos (libros, revistas, periódicos, artículos, etc.). Este tipo de problemas puede ocasionar que las personas no cuenten con el tiempo suficiente para leer cada documento y encontrar la información de interés, por lo que contar con herramientas, en este caso los resúmenes, que faciliten la identificación de los temas entre una gran cantidad de documentos es de gran ayuda.
Un resumen es un texto corto que comunica la información más importante del mismo (Ledeneva, 17). Un resumen puede ser de tipo extractivo o abstractivo. La construcción de los resúmenes automáticos extractivos consiste en una selección de oraciones (párrafos, frases, cláusulas de la oración, etc.) más relevantes del documento original.
Por otro lado, los resúmenes abstractivos se realizan a través de parafraseo, fusión de las palabras, frases, conceptos, etc., para lo cual se requiere utilizar recursos lingüísticos sofisticados que aún requieren investigaciones del estado del arte. En esta tesis se trabaja con resúmenes automáticos extractivos.
Existen dos tipos de tarea en la Generación Automática de Resúmenes (GAR): GAR de un solo documento y GAR de múltiples documentos. La GAR de un solo documento consiste en extraer un resumen de un documento, mientras la GAR de múltiples documentos consiste en extraer un resumen de varios documentos. En esta tesis, se trabaja la tarea de la GAR de un solo documento.
Existen varias herramientas comerciales y métodos del estado del arte para la GAR extractivos de un solo documento en el idioma inglés. El corpus más utilizado para la experimentación de los métodos del estado del arte es el corpus DUC-2002 en el idioma inglés, por lo que se hace difícil comparar los trabajos del estado del arte con otros corpus. Por tal motivo, se propone utilizar otro corpus que sea diferente del DUC2002, para determinar la calidad de las herramientas comerciales y métodos del estado del arte y formar un estado del arte de la GAR extractivos con los datos del corpus DUC-2001. Dicho corpus contiene 309 noticias de diferentes temas, y cuenta con dos resúmenes de oro hechos por dos humanos.
Para la evaluación de las herramientas comerciales y métodos del estado del arte se utiliza la herramienta ROUGE (Lin, 04). Esta herramienta utiliza tres medidas (Precisión, Recuerdo y F-measure) para determinar la calidad de un resumen automático.