Resumen:
Actualmente vivimos en una era digital, en donde la mayor parte de la información se encuentra en este formato, aunado a ello estamos en una época en donde el uso del internet y los documentos electrónicos es el día a día. Regularmente cuando se hace una consulta en internet sobre un tema en específico, se tiene como resultado una lista de páginas que hacen referencia al tema buscado. Sin embargo, para poder saber si la información es realmente de utilidad, se debe leer y analizar completamente. Por esto, surge la necesidad de contar con herramientas que permitan dar al humano la idea principal del texto, sin que este lo tenga que leer completamente, el cual ayude a contrarrestar los efectos negativos de la sobre carga de información, para que los humanos puedan obtener exclusivamente la información que realmente requiere, de forma más fácil y rápida, además que se encuentre en lenguaje que utilizan (español) o en el lenguaje universal (inglés).
La investigación sobre la generación automática de resúmenes en el lenguaje inglés tiene más de 60 años y los resultados obtenidos hasta el momento son aceptables, pero no lo mejores. Para la generación automática de resúmenes de tipo extractivo se consideran las características del texto. La característica de texto más estudiada hasta el momento es posición de las oraciones, existen muchos modelos propuesto en es el estado del arte para calcular esta característica. Sin embargo, no se sabe cuál es la mejor forma de calcularla.
Además, del lenguaje inglés hay otros lenguajes que están tomando relevancia en todos los ámbitos, sobre todo en internet, uno de ellos es lenguaje español. El español es la segunda lengua más hablada (por nativos) a nivel mundial y la segunda más utilizada en internet. El estudio de la generación automática de resúmenes en español no tiene un ámbito formal, por lo que no se puede determinar el grado de avance que se tiene en esta tarea.
Es por lo que en esta investigación se construye e implementa un método para la generación automática de resúmenes extractivos basado en un algoritmo genético, el cual es la base para hacer un estudio, para conocer la mejor forma de calcular la característica de texto, importancia de la posición de las oraciones. El método también se prueba en el lenguaje español, lo cual contribuye a la actualización de la investigación sobre generación automática de resúmenes en este lenguaje.
La investigación de la generación automática de resúmenes se ha hecho de forma cuantitativa y existen muchos artículos y libros que muestra el avance que se tiene. Sin embargo, se ha dejado de lado el estudio cualitativo, es por lo que en esta investigación no solo se presentan los resultados cuantitativos, sino también los cualitativos. Para ellos se hace uso de la prueba del Test de Turing, el cual nos ayuda a conocer, si lo resúmenes generados hasta el momento, por lo métodos del estado del arte y los sistemas comerciales pueden confundir a al humano, al grado de pensar que el resumen es realizado por otro humano.