Resumen:
Este trabajo propone un sistema capaz de identificar conductas delictivas asociadas al
robo de autopartes mediante el uso de redes neuronales convolucionales tridimensionales (3D
CNN por sus siglas en inglés). El enfoque se basa en el aprendizaje supervisado y tiene como
objetivo detectar comportamientos sospechosos a fin de implementar medidas preventivas
oportunas. Para el entrenamiento del modelo, se construyó un conjunto de datos con 2000
videos clasificados en dos categorías: “Robo” y “No Robo”. Se aplicaron diversas técnicas
de limpieza como limpiado, depurado, recorte y filtrado de videos, para reducir el ruido en
los datos y mejorar la calidad del entrenamiento.
La 3D CNN fue entrenada en la plataforma de Google Colab, donde se enfrentaron
diversos desafíos con el alto consumo computacional. Para optimizar el rendimiento del
sistema, se implementó la conversión de los videos a archivos binarios utilizando TFRecords.
Esto permitió segmentar el conjunto de datos en 20 lotes, simplificando el proceso de
entrenamiento. Al completar el entrenamiento de cada lote, se generó un modelo,
obteniéndose así un total de 20 modelos de la 3D CNN. De estos, seis modelos alcanzaron
una precisión del 100%, y otros seis superaron el 90%. Sin embargo, los 8 modelos restantes
obtuvieron resultados inferiores al 75%. Lo que indicó áreas de mejora tanto en los datos
como en la configuración de los modelos.
Adicionalmente, se implementó una técnica de recorte de frames en los videos, lo cual
mejoró significativamente la clasificación, especialmente en términos de F1-score.
Finalmente, se comparó el rendimiento de la 3D CNN con otras arquitecturas como memoria
a largo y corto plazo (LSTM por sus siglas en inglés), unidad recurrente cerrada (GRU por
sus siglas en inglés), unidad recurrente cerrada bidireccional (BiGRU por sus siglas en inglés)
y red neuronal convolucional con memoria a largo y corto plazo (CNN-LSTM por sus siglas
en inglés). Con base en los resultados, la 3D CNN desarrollada en este proyecto fue la más
efectiva al capturar patrones espaciales y temporales en los videos, consolidándose como la
opción más adecuada para la detección automática de conductas delictivas en contextos
visuales.