Proyecto Nº de referencia SPIP2014-01430 Cantidad concedida: 44.733 Modelo para la determinación de la exposición de los vehículos, a partir de los datos registrados en ITV, teniendo en cuenta sus características y antigüedad. (EXPO-ITV-DGT 2015) Realizado por INSIA (Instituto Universitario de Investigación del Automóvil)
Índice Justificación del proyecto Objetivos Metodología Resultados Aspectos innovadores
La seguridad vial en España: Puesto destacado en la UE Buenas medidas de prevención y de Educación Vial El futuro de la seguridad vial Números Totales Justificacióndel proyecto Progresión Carnet por puntos Radares Medidas específicas para Campañas diferentes colectivos de concienciación Puesto: 5º Educación Vial para niños Valor: 36 mpm INTERÉS DEL PROYECTO Puesto: 1º Valor: 70% Es necesario evaluar los valores de exposición de colectivos específicos para determinar los niveles de riesgo reales Número de muertes en accidentes de tráfico por millón de habitantes en 2014 Descenso en el número de muertes en accidentes de tráfico entre 2001-2014
Justificación del proyecto 1.-Importancia de la exposición en la investigación accidentológica Datos de la exposición disponibles: los más utilizados son vehículos-km, personas-km y personas-horas de desplazamiento. Exposición cuasi-inducida Carencia de datos desagregados precisos 2.- Exploración de datos de registros de ITV
Objetivos del proyecto Objetivo general: Determinación de la exposición asociada al uso del vehículo con el grado de desagregación que permiten la validación de los datos disponiblesen registros ITV. Objetivos específicos: Definir grupos de estudio = f(características técnicas, antigüedad y otros factores de interés) Posibles diferencias en su comportamiento accidentológico Establecer criterios de depuración de los datos para la creación de bases limpias. Desarrollar algoritmos para el cálculo automatizado de los niveles de exposición de los vehículos, con el mayor grado de desagregación. Realizar estimaciones, predicciones con evaluación de los niveles de incertidumbre Evaluar diferencias significativas entre los diferentes grupos características y niveles de movilidad homogéneos tendencias y posibles factores de influencia en los niveles de exposición
Diagrama de bloque. Metodología
BDITVAA CRITERIOS DE DEPURADO newid FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO 29GEIG7 31/01/2015 1 33078 30686 182 61540.6044 29GEIG7 02/08/2014 2 2392 Movilidad -456156 negativa 147-1132632.24 29GEIG7 08/03/2014 3 458548 25433 168 55256.2202 29GEIG7 21/09/2013 4 433115 45694 182 91639.0659 29GEIG7 23/03/2013 5 387421 1583 175 3301.68571 29GEIG7 29/09/2012 6 385838 385838 2334 60338.8475 29GEIG7 14/04/2012 7? - - - 29GEIG7 Tiempo entre 12/11/2011 8? Ausencia - de - - 29GEIG7 ITV 25/11/2011 9? kilometraje - - - 29GEIG7? 15? - - - Criterios más robustos Eliminación de autobuses con un solo registro Se eliminan los registros erróneos Se eliminan todos los registros del vehículo Eliminación de colas Cribado de los datos BDITVAA1 BDITVAA2 8785 registros 650 AA..** ** Tipo de vehículo, la masa del mismo o el número de plazas DWITVAA 1566 registros 462 AA
Cribado de los datos BDITVAA Procedimiento 1 BDITVAA1 8785 1566 registros 650 462 AA Procedimiento Diferencia entre 2 BBDD BDITVAA1 BDITVAA2 Proceso de selección de la Base operacional Criterios dudosos Eliminación de colas BDITVAA FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO 31/01/2015 1 33078 30686 182 61540.6044 08/03/2014 Se eliminan 3 458548 todos 25433 los 168 55256.2202 21/09/2013 4 433115 45694 182 91639.0659 registros 23/03/2013 5 de 387421 ese 1583 vehículo 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475 BDITVAA2 CRITERIOS DE DEPURADO Parte COMUNES Eliminación de la BDITVAA2: de 8 CASOS autobuses Elimina todos con un los solo registros de un Movilidad negativa vehículo con un registro erróneo Comparación Colas: <2000 y >250000 km/año Ausencia de kilometraje NO elimina autobuses DWITVAA con un solo registro newid FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO 29GEIG7 31/01/2015 1 33078 30686 182 61540.6044 29GEIG7 02/08/2014 2 2392-456156 147-1132632.24 29GEIG7 08/03/2014 3 458548 25433 168 55256.2202 29GEIG7 21/09/2013 4 433115 45694 182 91639.0659 29GEIG7 23/03/2013 5 387421 1583 175 3301.68571 29GEIG7 29/09/2012 6 385838 385838 2334 60338.8475 29GEIG7 14/04/2012 7? - - - 29GEIG7 Tiempo entre 12/11/2011 8? - - - 29GEIG7 ITV negativo 25/11/2011 9? - - - 29GEIG7? 15? - - -
Metodología de análisis: Árboles de MODELOS CART Decisión Métodos de regresión no paramétrica: relaciones entrada salida tipo histograma, muy flexibles para modelar relaciones complejas. 2 D 3 D
Metodología de análisis: conjuntos de RANDOM FOREST: CART + complejo + variado Árboles Proceso de Bootstrap + Muestreo aleatorio sin reposición: Se realiza en primer lugar un muestreo aleatorio con reposición para los datos de partida y otro sin reposición para las variables independientes en cada partición de nodos DYNATREE: VERSIÓN BAYESIANA DE CART Modelado bayesiano con probabilidad subjetiva Técnicas computacionales muy sofisticadas (particle learning)
SELECCIÓN DE VARIABLES IMPORTANCIA DE VARIABLES Metodología de análisis: CART y conjuntos de Árboles CART RANDOM FOREST ECM PLAZAS ANTIGÜEDAD EDAD_ITV POTENCIA CILINDRADA PESO AÑO_ITV PUREZA NODO PREDICCIÓN DE LA EXPOSICIÓN CON CUANTIFICACIÓN DE LA INCERTIDUMBRE
Metodología de análisis: conjuntos de Árboles RF y Dynatree randomforest MSE reduction, ntree = 500 * dynatree (ntree=2000) ** DATA_PLAZAS 23,74 17,58 DATA_ANTIG 19,68 36,41 DATA_EDAD_ITV 15,32 - DATA_POT 15,16 - DATA_PESO 9,88 15,59 DATA_CIL 8,92 15,20 DATA_ANO_ITV 7,30 15,22 100,00 100,00 Efecto total= efecto individual de la variable+ + * conjunto con el resto ** Efecto individual de la variable
Resultados. Estudio piloto: Movilidad de AA Movilidad de conglomerados de vehículos homogéneos Ejemplos E1.1: A9-Eitv9-añoins2015-CC12000-CF(4º)40-Pe30000- Pl75 LI 95% Movilidad (km/año) Predicción puntual LS 95% 20.370,50 75.602,80 155.643,40 E1.2: A1-1-2015-12000-(4º)40-30000-50 20.370,80 58.686,40 137.159,90 E1.3: A17-17-2015-12000-(4º)40-30000-75 6.150,00 24.816,30 57.673,00 E1.4: A4-1-2012-8000-(3º)30-30000-25 7.744,30 38.952,80 76.061,40 E1.5: A7-7-2015-16000-(4º)50-30000-100 34.416,20 77.074,90 140.834,60 E1.6: A7-4-2012-12000-(4º)40-30000-75 37.680,10 75.865,20 137.536,80 VALIDACIÓN CON DATOS EXTERNOS (MFOM EMT)
Resultados. Estudio piloto: Movilidad de AA Movilidad de conglomerados de movilidad homogénea Árbol con menor error respecto a los datos observados (ntree=500)
Conclusiones RELATIVAS A LA METODOLOGÍA Creación de una base estratégica operacional o DataWarehouse 1. Criterios de limpieza. 2. Análisis de muestras creadas con reglas multicriterio. Con cuantificación de la bondad de ajuste con modelos de bosques de árboles de regresión. Desarrollo de un Sistema experto para la estimación de la movilidad de vehículos del parque
Conclusiones RELATIVAS AL DEPURADO DE DATOS Las bases elaboradas a partir de registros ITV ofrecen numerosas carencias. Un buen depurado es esencial. Se recomienda una mejora en el proceso de toma de datos BDITVAA 8785 registros 650 autobuses PUNTOS FUERTES Pruebas de selección de la base operacional DWITVAA Metodología Representatividad de la muestra DWITVAA 1566 registros 462 autobuses MEJORAS Criterios más ajustados(colas)
Conclusiones SISTEMA EXPERTO ESTIMACIÓN - PREDICCIÓN VALORES DE MOVILIDAD DESAGREGADA Predicción de la movilidad de un vehículo con todas las características definidas o solo aquellas de interés. MÉTODOS ESTADÍSTICOS AVANZADOS Selección de variables Cuantificación de la incertidumbre RECOMENDACIONES REVISION DE LOS DATOS RECOGIDOS EN LAS ITV Dispersiónde los datos de la fuente INCORPORACION DE OTROS DATOS DE INTERÉS EN LAS ITV VALIDACIÓN CON DATOS EXTERNOS
Aspectos innovadores UnaexploracióndelosdatosdelosregistrosdelasITV. La explotación de los datos disponibles de movilidad de los vehículos Criterios y métodos estadísticos avanzados: La búsqueda de asociaciones entre variables para caracterizar la movilidad de los vehículos La identificación de diferencias en la movilidad entre categorías y segmentos de vehículos La estimación de la movilidad entre categorías y segmentos de vehículos La cuantificación robusta de la incertidumbre de las estimaciones Un análisis de sensibilidad o importancia de las variables que caracterizan la movilidad de los vehículos
Otras aplicaciones Estudios de impacto ambiental, Los modelos actuales como el COPERT, utiliza datos de movilidad sumamente agregados Análisis de detección de defectos encontrados en las inspecciones técnicas y su naturaleza, en función de la movilidad de los vehículos. Verificación de la adecuación de la normativa actual en relación a la periodicidad de las inspecciones de diferentes tipos de vehículos, segmentos, etc.
Bibliografía 1) Breiman, L., Friedman, J., Olshen, R. y Stone, C., Classification and Regresion Trees, Wadsworth International Group. Año 1984. 2) Breiman, L., Random forests-random features, Technical Report, Statistics Department, University of California. Año 1999. 3) Breiman, L., Random Forests, Machine Learning, 45, pp. 5-32. Año 2001. 4) Azzalini, A., & Scarpa, B. (2012). Data Analysis and Data Mining: An Introduction, (ISBN 978-0-19-976710-6). 5) Daniel Peña, Regresión y diseño de experimentos. Alianza editorial. Año 2002. ISBN 978-8-42-069389-7. 6) Pang-Ning Tan., Michael Steinbach and Vipin Kumar, Introduction to Data Mining, 2006. 7) Jiawei Han and Micheline Kamber: Data Mining: Concepts and Techniques, 2006. 8) Clifton D. Sutton, Classification and Regression Trees, Bagging and Boosting, 2005. 9) César Pérez López y Daniel Santín, Minería de datos. Técnicas y herramientas, 2007. 10) Hastie, T., Tibshirani, R., Friedman, J. (2008). The Elements of Statistical Learning: data mining, inference and prediction, Springer