Resumen:
En este trabajo se presenta la comparativa de desempeño de dos tipos de algoritmos de clasificación, que fueron aplicados a conjuntos de datos de las enfermedades Diabetes y Hepatitis. Los conjuntos de datos relacionados con las enfermedades por lo general son desbalanceados, es decir, contienen muchos más objetos de un tipo que de otro, por lo que la mayoría de los métodos de clasificación presentan problemas de desempeño, ya que intentan generalizar el modelo subyacente en los datos y no fueron desarrollados para conjuntos de datos con características particulares.
Los tipos de algoritmos comparados son los árboles de decisión y las máquinas de soporte vectorial. El primero produce un modelo que puede ser interpretado por un experto humano, tiene un tiempo de entrenamiento pequeño y puede obtener resultados con valores altos de precisión en la clasificación. El segundo, produce modelos compactos, que alcanzan buena precisión de clasificación, tienen un poder de generalización mayor respecto a otros algoritmos, pero su tiempo de entrenamiento es computacionalmente alto. Los algoritmos comparados fueron árboles de decisión (ADTree y C4.5) y máquina de soporte vectorial (SVM), entrenada con el algoritmo
de optimización mínima secuencial (SMO). Este último es un método para resolver los problemas de programación cuadrática, y es ampliamente utilizado para acelerar el entrenamiento de las máquinas de soporte vectorial.
Los resultados presentados incluyen mediciones y comparaciones de precisión de clasificación, errores absolutos y otras medidas como la Kappa estadística. En los experimentos realizados utilizando la plataforma Weka, se variaron los parámetros de
los árboles de decisión y de la máquina de vectores soporte, para observar su efecto en el desempeño. Los resultados mostrados pueden servir de guía para la aplicación de los algoritmos ADTree, C4.5 y máquinas de soporte vectorial en el área médica.