Proyecto Nº de referencia SPIP Cantidad concedida: Realizado por INSIA (Instituto Universitario de Investigación del Automóvil)

Documentos relacionados
MINERÍA DE DATOS: PREPROCESAMIENTO Y CLASIFICACIÓN

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística

Métodos Predictivos en Minería de Datos

MÓDULO MATERIA CURSO SEMESTRE CRÉDITOS TIPO

1.-DATOS DE LA ASIGNATURA

MD - Minería de Datos

Aprendizaje Automático

A3. Ciencia de datos y aprendizaje automático

Métodos Descriptivos en Minería de Datos

Estadística Multivariada Computacional Introducción al Aprendizaje Automático (parte 1)

Random Forests. Teoría y ejemplos. Romain Gouron. Conferencia 9, GLAM, Doble titulo Ecole Centrale de Nantes (Francia)

VIII Jornadas de Usuarios de R

CURSOS DE VERANO 2014

A3. Ciencia de datos y aprendizaje automático

Random Forests. Felipe Parra

Aprendizaje: Boosting y Adaboost

Aprendizaje Computacional. Eduardo Morales y Jesús González

DISEÑO EXPERIMENTAL Biología, 2º Ciclo Profesores: Mauro Santos y Hafid Laayouni PROGRAMA TEÓRICO

Grado en ESTADÍSTICA APLICADA 258 ECTS

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN COMPUTACION RECONFIGURABLE

APA - Aprendizaje Automático

PROGRAMA DE CURSO. Código Nombre ESTADISTICA PARA ECONOMIA Y GESTION Nombre en Inglés STATISTICS FOR BUSINESS AND ECONOMICS Unidades

Tema 15: Combinación de clasificadores

TÓPICOS AVANZADOS DE BASES DE DATOS

Benemérita Universidad Autónoma de Puebla Vicerrectoría de Docencia Dirección General de Educación Superior Facultad de Ciencias de la Computación

Aux 6. Introducción a la Minería de Datos

Minería de Datos. Presentación de la asignatura. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

LA IMPORTANCIA DE LA CORRECTA GESTIÓN DE LA SEGURIDAD VIAL EN LA EMPRESA: MOVILIDAD RESPONSABLE

ESTUDIO DEL PARQUE CIRCULANTE DE MADRID Características y Objetivos

MÁSTER EN AUDITORÍA Y CONTABILIDAD PROFESORADO

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

CARGA HORARIA Horas totales: 80 Horas totales de resolución de problemas de aplicación: 32

Estadística II. Carrera: INB Participantes. Representante de las academias de ingeniería industrial de Institutos Tecnológicos.

Introducción a SPSS Árboles de Clasificación. Jorge Del Río L. Consultor Estadístico

PROGRAMA DE CURSO. Código Nombre MA3402 Estadística Nombre en Inglés Statistics SCT Requisitos. DIM Resultados de Aprendizaje

Análisis histórico y conceptual del Cálculo de Probabilidades y de la Estadística. Estudio de problemas emblemáticos relativos a ambas disciplinas.

EL MODELO DE FORMACIÓN VIAL EN ESPAÑA. Seguridad Vial

ESTADÍSTICA I PRESENTACIÓN DE LA ASIGNATURA

Programa de Validación de Métodos Analíticos INFORMACIÓN GENERAL

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

PROGRAMA DE ESTADÍSTICA DESCRIPTIVA

D conjunto de N patrones etiquetados, cada uno de los cuales está caracterizado por n variables predictoras X 1,..., X n y la variable clase C.

Universidad Nacional Autónoma de México Facultad de Psicología

Wenceslao González Manteiga.

Capítulo 8. Selección de variables Introducción

Diplomado en Estadística e Investigación Científica

Preparación de los datos de entrada

GeNie: entorno de desarrollo para la construcción de modelos gráficos de decisión Decision Systems Laboratory, University of Pittsburgh.

José Hernández Orallo Mª. José Ramírez Quintana

Itinerario: Inteligencia Computacional

ESTIMACIÓN DE FUNCIONES DE DENSIDAD DE DATOS CORRELACIONADOS Y/O CON VALORES ATÍPICOS

GUIA DOCENTE DE LA ASIGNATURA ANÁLISIS ESTADÍSTICO CON ORDENADOR DE DATOS MÉDICOS Curso (Fecha última actualización: 28/06/16)

Carrera de Posgrado: Doctorado en Ingeniería Curso: TÓPICOS SELECTOS EN APRENDIZAJE MAQUINAL Año Académico: 2012

ESTADÍSTICA E INTRODUCCIÓN A LA ECONOMETRÍA

CM0244. Suficientable

Programa de Asignatura Estadística

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Analizando patrones de datos

ESTADISTICA INFERENCIAL

Facultad de Ciencias Sociales - Universidad de la República

Selección de fuentes de datos y calidad de datos

Árboles de Decisión Árboles de Sintaxis

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Máster Universitario en Modelización e Investigación Matemática, Estadística y Computación

Facultad de Ciencias e Ingeniería. Escuela Académico Profesional de Comunicación SÍLABO

El Plan de Estudios no establece ningún prerrequisito para poder cursar esta asignatura.

Grupos de Investigación de la ETSII

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Facultad de Estudios Superiores Aragón Ingeniería Mecánica Programa de Asignatura

DEPARTAMENTO DE: INGENIERIA MECÁNICA, INDUSTRIAL Y MECATRONICA DISEÑO DE EXPERIMENTOS CÓDIGO: I ÁREA:

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

1. Datos de identificación. Ninguna. 2. Propósito

INDICE. Prólogo a la Segunda Edición

Aprendizaje Automatizado. Árboles de Clasificación

ÍNDICE CURSO GESTOR DE CALIDAD NORMAS ISO 9001:2008

NOMBRE DE LA ASIGNATURA Muestreo estadístico. Curso

Probabilidad y Estadística

PLAN REGIONAL DE SEGURIDAD VIAL DE LA COMUNIDAD DE MADRID

Escuela Técnica Superior de Ingeniería Informática

Datos del proyecto Kepler Herramientas de análisis de resultados Programación... 43

ENCUESTA DE SATISFACCIÓN DE LOS USUARIOS DE LOS SERVICIOS DE ASISTENCIA SANITARIA PÚBLICA DE LA COMUNIDAD DE MADRID 2016: Informe metodológico

Análisis Exploratorio de Datos 1231X (B.O.E. del 19-julio-2000). Troncal. Obligatoria. Optativa.

Tipos de subárboles/ patrones en árboles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

Data Mining Introduction Convierte Datos en Conocimiento y Aplicalos al Marketing

Taller Minería de datos aplicados a la educación

Contenidos Programáticos

La piedra angular del Análisis Predictivo. José Ignacio Marín Alberdi IBM SPSS Client Technical Professional

Diagnóstico 2014 del Programa Promoción de la inversión en el sector minero y desarrollo de su competitividad F001

Universidad de Puerto Rico Recinto de Río Piedras Facultad de Ciencias Naturales Departamento de Matemáticas

Técnicas de Minería de Datos

Para Trabajo Individual del estudiante. Quince (15) Horas para trabajo en grupo CIPAS.

Diplomado en Estadística Aplicada Coordinador Académico: Dr. Rubén Hernández Cid

Diplomado en Estadística e Investigación Científica

ESTADÍSTICA. Materia Básica Estadística. Formación Básica. Introducción a la Odontología 1º 1º 6

ANÁLISIS DE DATOS. L.A. y M.C.E. Emma Linda Diez Knoth

Estimación electoral con modelos predictivos (Random Forest) Jorge Buendía Javier Márquez

Universidad Central del Este UCE Facultad de Ciencias de la Salud Escuela de Medicina

1445 FUNDAMENTOS DE ESTADÍSTICA 4 8. INGENIERÍA EN COMPUTACIÓN División Departamento Licenciatura COORDINACIÓN DE CIENCIAS APLICADAS

Transcripción:

Proyecto Nº de referencia SPIP2014-01430 Cantidad concedida: 44.733 Modelo para la determinación de la exposición de los vehículos, a partir de los datos registrados en ITV, teniendo en cuenta sus características y antigüedad. (EXPO-ITV-DGT 2015) Realizado por INSIA (Instituto Universitario de Investigación del Automóvil)

Índice Justificación del proyecto Objetivos Metodología Resultados Aspectos innovadores

La seguridad vial en España: Puesto destacado en la UE Buenas medidas de prevención y de Educación Vial El futuro de la seguridad vial Números Totales Justificacióndel proyecto Progresión Carnet por puntos Radares Medidas específicas para Campañas diferentes colectivos de concienciación Puesto: 5º Educación Vial para niños Valor: 36 mpm INTERÉS DEL PROYECTO Puesto: 1º Valor: 70% Es necesario evaluar los valores de exposición de colectivos específicos para determinar los niveles de riesgo reales Número de muertes en accidentes de tráfico por millón de habitantes en 2014 Descenso en el número de muertes en accidentes de tráfico entre 2001-2014

Justificación del proyecto 1.-Importancia de la exposición en la investigación accidentológica Datos de la exposición disponibles: los más utilizados son vehículos-km, personas-km y personas-horas de desplazamiento. Exposición cuasi-inducida Carencia de datos desagregados precisos 2.- Exploración de datos de registros de ITV

Objetivos del proyecto Objetivo general: Determinación de la exposición asociada al uso del vehículo con el grado de desagregación que permiten la validación de los datos disponiblesen registros ITV. Objetivos específicos: Definir grupos de estudio = f(características técnicas, antigüedad y otros factores de interés) Posibles diferencias en su comportamiento accidentológico Establecer criterios de depuración de los datos para la creación de bases limpias. Desarrollar algoritmos para el cálculo automatizado de los niveles de exposición de los vehículos, con el mayor grado de desagregación. Realizar estimaciones, predicciones con evaluación de los niveles de incertidumbre Evaluar diferencias significativas entre los diferentes grupos características y niveles de movilidad homogéneos tendencias y posibles factores de influencia en los niveles de exposición

Diagrama de bloque. Metodología

BDITVAA CRITERIOS DE DEPURADO newid FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO 29GEIG7 31/01/2015 1 33078 30686 182 61540.6044 29GEIG7 02/08/2014 2 2392 Movilidad -456156 negativa 147-1132632.24 29GEIG7 08/03/2014 3 458548 25433 168 55256.2202 29GEIG7 21/09/2013 4 433115 45694 182 91639.0659 29GEIG7 23/03/2013 5 387421 1583 175 3301.68571 29GEIG7 29/09/2012 6 385838 385838 2334 60338.8475 29GEIG7 14/04/2012 7? - - - 29GEIG7 Tiempo entre 12/11/2011 8? Ausencia - de - - 29GEIG7 ITV 25/11/2011 9? kilometraje - - - 29GEIG7? 15? - - - Criterios más robustos Eliminación de autobuses con un solo registro Se eliminan los registros erróneos Se eliminan todos los registros del vehículo Eliminación de colas Cribado de los datos BDITVAA1 BDITVAA2 8785 registros 650 AA..** ** Tipo de vehículo, la masa del mismo o el número de plazas DWITVAA 1566 registros 462 AA

Cribado de los datos BDITVAA Procedimiento 1 BDITVAA1 8785 1566 registros 650 462 AA Procedimiento Diferencia entre 2 BBDD BDITVAA1 BDITVAA2 Proceso de selección de la Base operacional Criterios dudosos Eliminación de colas BDITVAA FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO 31/01/2015 1 33078 30686 182 61540.6044 08/03/2014 Se eliminan 3 458548 todos 25433 los 168 55256.2202 21/09/2013 4 433115 45694 182 91639.0659 registros 23/03/2013 5 de 387421 ese 1583 vehículo 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475 BDITVAA2 CRITERIOS DE DEPURADO Parte COMUNES Eliminación de la BDITVAA2: de 8 CASOS autobuses Elimina todos con un los solo registros de un Movilidad negativa vehículo con un registro erróneo Comparación Colas: <2000 y >250000 km/año Ausencia de kilometraje NO elimina autobuses DWITVAA con un solo registro newid FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO 29GEIG7 31/01/2015 1 33078 30686 182 61540.6044 29GEIG7 02/08/2014 2 2392-456156 147-1132632.24 29GEIG7 08/03/2014 3 458548 25433 168 55256.2202 29GEIG7 21/09/2013 4 433115 45694 182 91639.0659 29GEIG7 23/03/2013 5 387421 1583 175 3301.68571 29GEIG7 29/09/2012 6 385838 385838 2334 60338.8475 29GEIG7 14/04/2012 7? - - - 29GEIG7 Tiempo entre 12/11/2011 8? - - - 29GEIG7 ITV negativo 25/11/2011 9? - - - 29GEIG7? 15? - - -

Metodología de análisis: Árboles de MODELOS CART Decisión Métodos de regresión no paramétrica: relaciones entrada salida tipo histograma, muy flexibles para modelar relaciones complejas. 2 D 3 D

Metodología de análisis: conjuntos de RANDOM FOREST: CART + complejo + variado Árboles Proceso de Bootstrap + Muestreo aleatorio sin reposición: Se realiza en primer lugar un muestreo aleatorio con reposición para los datos de partida y otro sin reposición para las variables independientes en cada partición de nodos DYNATREE: VERSIÓN BAYESIANA DE CART Modelado bayesiano con probabilidad subjetiva Técnicas computacionales muy sofisticadas (particle learning)

SELECCIÓN DE VARIABLES IMPORTANCIA DE VARIABLES Metodología de análisis: CART y conjuntos de Árboles CART RANDOM FOREST ECM PLAZAS ANTIGÜEDAD EDAD_ITV POTENCIA CILINDRADA PESO AÑO_ITV PUREZA NODO PREDICCIÓN DE LA EXPOSICIÓN CON CUANTIFICACIÓN DE LA INCERTIDUMBRE

Metodología de análisis: conjuntos de Árboles RF y Dynatree randomforest MSE reduction, ntree = 500 * dynatree (ntree=2000) ** DATA_PLAZAS 23,74 17,58 DATA_ANTIG 19,68 36,41 DATA_EDAD_ITV 15,32 - DATA_POT 15,16 - DATA_PESO 9,88 15,59 DATA_CIL 8,92 15,20 DATA_ANO_ITV 7,30 15,22 100,00 100,00 Efecto total= efecto individual de la variable+ + * conjunto con el resto ** Efecto individual de la variable

Resultados. Estudio piloto: Movilidad de AA Movilidad de conglomerados de vehículos homogéneos Ejemplos E1.1: A9-Eitv9-añoins2015-CC12000-CF(4º)40-Pe30000- Pl75 LI 95% Movilidad (km/año) Predicción puntual LS 95% 20.370,50 75.602,80 155.643,40 E1.2: A1-1-2015-12000-(4º)40-30000-50 20.370,80 58.686,40 137.159,90 E1.3: A17-17-2015-12000-(4º)40-30000-75 6.150,00 24.816,30 57.673,00 E1.4: A4-1-2012-8000-(3º)30-30000-25 7.744,30 38.952,80 76.061,40 E1.5: A7-7-2015-16000-(4º)50-30000-100 34.416,20 77.074,90 140.834,60 E1.6: A7-4-2012-12000-(4º)40-30000-75 37.680,10 75.865,20 137.536,80 VALIDACIÓN CON DATOS EXTERNOS (MFOM EMT)

Resultados. Estudio piloto: Movilidad de AA Movilidad de conglomerados de movilidad homogénea Árbol con menor error respecto a los datos observados (ntree=500)

Conclusiones RELATIVAS A LA METODOLOGÍA Creación de una base estratégica operacional o DataWarehouse 1. Criterios de limpieza. 2. Análisis de muestras creadas con reglas multicriterio. Con cuantificación de la bondad de ajuste con modelos de bosques de árboles de regresión. Desarrollo de un Sistema experto para la estimación de la movilidad de vehículos del parque

Conclusiones RELATIVAS AL DEPURADO DE DATOS Las bases elaboradas a partir de registros ITV ofrecen numerosas carencias. Un buen depurado es esencial. Se recomienda una mejora en el proceso de toma de datos BDITVAA 8785 registros 650 autobuses PUNTOS FUERTES Pruebas de selección de la base operacional DWITVAA Metodología Representatividad de la muestra DWITVAA 1566 registros 462 autobuses MEJORAS Criterios más ajustados(colas)

Conclusiones SISTEMA EXPERTO ESTIMACIÓN - PREDICCIÓN VALORES DE MOVILIDAD DESAGREGADA Predicción de la movilidad de un vehículo con todas las características definidas o solo aquellas de interés. MÉTODOS ESTADÍSTICOS AVANZADOS Selección de variables Cuantificación de la incertidumbre RECOMENDACIONES REVISION DE LOS DATOS RECOGIDOS EN LAS ITV Dispersiónde los datos de la fuente INCORPORACION DE OTROS DATOS DE INTERÉS EN LAS ITV VALIDACIÓN CON DATOS EXTERNOS

Aspectos innovadores UnaexploracióndelosdatosdelosregistrosdelasITV. La explotación de los datos disponibles de movilidad de los vehículos Criterios y métodos estadísticos avanzados: La búsqueda de asociaciones entre variables para caracterizar la movilidad de los vehículos La identificación de diferencias en la movilidad entre categorías y segmentos de vehículos La estimación de la movilidad entre categorías y segmentos de vehículos La cuantificación robusta de la incertidumbre de las estimaciones Un análisis de sensibilidad o importancia de las variables que caracterizan la movilidad de los vehículos

Otras aplicaciones Estudios de impacto ambiental, Los modelos actuales como el COPERT, utiliza datos de movilidad sumamente agregados Análisis de detección de defectos encontrados en las inspecciones técnicas y su naturaleza, en función de la movilidad de los vehículos. Verificación de la adecuación de la normativa actual en relación a la periodicidad de las inspecciones de diferentes tipos de vehículos, segmentos, etc.

Bibliografía 1) Breiman, L., Friedman, J., Olshen, R. y Stone, C., Classification and Regresion Trees, Wadsworth International Group. Año 1984. 2) Breiman, L., Random forests-random features, Technical Report, Statistics Department, University of California. Año 1999. 3) Breiman, L., Random Forests, Machine Learning, 45, pp. 5-32. Año 2001. 4) Azzalini, A., & Scarpa, B. (2012). Data Analysis and Data Mining: An Introduction, (ISBN 978-0-19-976710-6). 5) Daniel Peña, Regresión y diseño de experimentos. Alianza editorial. Año 2002. ISBN 978-8-42-069389-7. 6) Pang-Ning Tan., Michael Steinbach and Vipin Kumar, Introduction to Data Mining, 2006. 7) Jiawei Han and Micheline Kamber: Data Mining: Concepts and Techniques, 2006. 8) Clifton D. Sutton, Classification and Regression Trees, Bagging and Boosting, 2005. 9) César Pérez López y Daniel Santín, Minería de datos. Técnicas y herramientas, 2007. 10) Hastie, T., Tibshirani, R., Friedman, J. (2008). The Elements of Statistical Learning: data mining, inference and prediction, Springer