Resumen:
Una de las tareas más importantes en inteligencia artificial es la
clasificación (Han2005). Las aplicaciones del mundo real en las que se usa la
clasificación son diversas y numerosas, por ejemplo: la identificación de usuarios
mediante el reconocimiento de su rostro o huella digital, diagnóstico de fallas en
máquinas eléctricas, predicción del estado del tiempo e identificación de correo no
deseado (Witten2005).
En la tarea de clasificación, una computadora “aprende” (genera un modelo)
a partir de ejemplos que se le presentan en forma de vectores (cada vector
representa características de objetos). El objetivo del modelo es ser usado para
predecir la categoría o clase de objetos que no han sido previamente presentados
a la computadora, es decir, el modelo debe ser capaz de generalizar el
conocimiento.
Descripción:
La clasificación en conjuntos de datos no balanceados es un problema actual e
importante (Khan2012). Ejemplos de aplicaciones del mundo real en las que se
generan este tipo de datos son, por ejemplo, diagnósticos médicos de
enfermedades tales como cáncer o diabetes mellitus, detección de errores en
código fuente, ataques informáticos en servidores e identificación de transacciones
bancarias fraudulentas. En este tipo de escenarios, es sumamente importante
detectar casos que generalmente ocurren con poca frecuencia con respecto a la
cantidad de datos obtenidos, ya que representan un riesgo que hay que observar
oportunamente. Para los ejemplos de aplicaciones mencionadas anteriormente,
estos casos poco frecuentes serían los pacientes enfermos de cáncer o diabetes,
los fragmentos de código fuente con errores, los accesos inválidos a servidores y
las transacciones ilícitas. Sin embargo, como se mencionó anteriormente, los
algoritmos de clasificación, presentan problemas con conjuntos de datos no
balanceados (He2009).