Autor: Ing. Mario Lázaro Basulto Núñez

Transcripción

1 INSTITUTO DE CIBERNÉTICA, MATEMÁTICA Y FÍSICA Título: DESCUBRIMIENTO DE CONOCIMIENTO SOBRE ACCIDENTES DE TRÁNSITO EN UNA BASE DE DATOS CONCERNIENTE A LAS AFECTACIONES A LA INFRAESTRUCTURA DE LAS TELECOMUNICACIONES EN ETECSA Autor: Ing. Mario Lázaro Basulto Núñez Tesis presentada en opción al título de: Master en Cibernética Aplicada Mención: Minería de Datos. Tutor: Dr. C. Armando Plasencia Salgueiro La Habana, Septiembre de

2 AGRADECIMIENTOS Agradezco en primer lugar al Dr. Armando Plasencia Salgueiro, por los conocimientos que me ha inculcado a lo largo de esta maestría, que me han abierto una nueva ventana al mundo actual. Me siento muy honrado que haya sido mi tutor. Agradezco a todos y cada uno de los profesores que me han instruido a lo largo de la maestría. Agradezco a mis compañeros de trabajo y amigos que me han apoyado y brindado su ayuda de diversas maneras. Muchas gracias a mi familia por tolerar mi falta de atención mientras me concentraba en los estudios. Gracias a ETECSA por haber facilitado mi superación. Espero retribuirle con creces aplicando los conocimientos adquiridos. 2

3 DEDICATORIA Dedico esta tesis a mi esposa Maritza y a mi hija Anabel, así como a la memoria de mis padres Nely y Lázaro. 3

4 RESUMEN: En ETECSA (Empresa de Telecomunicaciones de Cuba) hay una Base de Datos (BD) diseñada en función de las Afectaciones a la Infraestructura de las Telecomunicaciones de dicha empresa, aunque contiene en proporción minoritaria datos referentes a las afectaciones causadas por accidentes de tránsito. En esta tesis se descubre conocimiento acerca de los accidentes de tránsito que afectaron a ETECSA en el período tomando como referencia los datos contenidos en dicha BD para ayudar a que se adopten medidas encaminadas a reducir dicha accidentalidad. El trabajo muestra la realización de la Inteligencia Organizacional mediante el KDD (Knowledge Discovery in Databases: Descubrimiento de Conocimiento en Bases de Datos) y la Minería de Datos. Se aplica el Aprendizaje Automático (Machine Learning) por medio de la herramienta de software libre WEKA y se utiliza un Dashboard (Panel de Control) implementado en el software Style Scope Free Edition, 2010 de InetSoft. Se utiliza la metodología CRISP-DM, a través de la cual se propone una vía para ir descubriendo Información a partir de los Datos, de lo general a lo particular, de manera que se propicie la obtención de conocimiento útil para la toma de decisiones. Este enfoque se aplica en cada una de las etapas de dicha metodología. De acuerdo con esta idea, en la etapa de modelación se utiliza primeramente el Aprendizaje inductivo no supervisado mediante los algoritmos: KMeans, EM y COBWEB, a modo comparativo, para obtener una noción de las categorías más generales referentes a accidentes de tránsito contenidas en dicha BD y posteriormente se usa el Aprendizaje Inductivo Supervisado mediante los algoritmos: ZeroR, IBK y "KStar, igualmente a modo comparativo, para descubrir cada una de las clases inherentes a tales categorías. Los datos sobre accidentes de tránsito contenidos en esta BD solamente se refieren a las afectaciones a la infraestructura de la empresa y no se corresponden con los requerimientos de las metodologías utilizadas en el mundo con fines preventivos. Por tanto, en este trabajo se utiliza una metodología propia que se ajusta a dichos datos a fin de obtener patrones significativos sobre la accidentalidad para la toma de decisiones. De este modo se evalúa la imputabilidad de ETECSA en la accidentalidad, se aplican análisis en el dominio del tiempo, del espacio y en el dominio material con la valoración económica; se compara la accidentalidad en ETECSA con respecto a la del país, se utiliza el algoritmo de regresión lineal de WEKA para predecir la tendencia de la accidentalidad en esta empresa y finalmente se emplea un IV 4

5 Dashboard para monitorear el comportamiento de los accidentes de tránsito que afectan a ETECSA. Se presentan los resultados obtenidos, las acciones realizadas para la implementación práctica de los mismos y las medidas adoptadas por la empresa para reducir la accidentalidad. Finalmente, a modo de validación, se muestra cómo al año siguiente la accidentalidad bajó hasta casi la mitad, a pesar de su tendencia histórica levemente descendiente. Se propone modificar la base de datos, en función de la prevención, que utilice como referencia la Matriz de William Haddon, y que se apoye en investigaciones mundialmente utilizadas según la bibliografía referida. Palabras Clave: Accidente de Tránsito, Atributo, Clase, Clasificación, Cluster, CRISP-DM, Dashboard, Inteligencia Organizacional, KDD, Minería de Datos, WEKA. 5 V

6 ÍNDICE INTRODUCCIÓN 1 CAPÍTULO I: FUNDAMENTACIÓN TEÓRICA 1.1 DATOS-INFORMACIÓN-CONOCIMIENTO ALMACENAMIENTO DE LA INFORMACIÓN Las Bases de Datos El Data Warehouse El Data Mart LA INTELIGENCIA ORGANIZACIONAL (I.O.) Tipos de herramientas actuales para la Inteligencia Organizacional EL DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS (KDD) LA MINERÍA DE DATOS Minería de Datos basada en la Teoría de la Información Ámbitos de uso más frecuente de la Minería de Datos LAS TÉCNICAS DE MINERÍA DE DATOS El Análisis de Clusters (agrupamientos) Método de las K Medias (K-Means) El algoritmo EM El algoritmo COBWEB La Clasificación Clasificación mediante el k-vecino más próximo (K-NN) Los algoritmos K-NN: IBK y KStar en WEKA El algoritmo ZeroR en WEKA LAS INVESTIGACIONES SOBRE ACCIDENTES DE TRÁNSITO EN EL MUNDO Los reportes sobre la accidentalidad La obtención de los datos Análisis de un accidente Métodos de investigación de los accidentes de tránsito Métodos estadísticos y de minería de datos Métodos de modelización Métodos de simulación de accidentes Procedimientos de reconstrucción de accidentes 49 Conclusiones del Capítulo I VI 6

7 CAPÍTULO II: METODOLOGÍA 2.1 La Selección de las herramientas a utilizar Selección de una herramienta para aplicar técnicas de Minería de Datos El Software Libre: WEKA Selección de la herramienta para elaborar un Dashboard El Software Style Scope Free Edition, Selección de una Metodología para analizar los Accidentes de Tránsito Selección de una Metodología para realizar el proceso de Minería de Datos La Aplicación de la Metodología CRISP-DM Comprensión del Negocio o asunto a investigar Comprensión de los Datos Preparación de los Datos La Modelación mediante el Agrupamiento La aplicación del algoritmo: SimpleKMeans La aplicación del algoritmo: EM La aplicación del algoritmo: Cobweb Conclusiones del Capítulo II CAPÍTULO III: OBTENCIÓN, ANÁLISIS E IMPLEMENTACIÓN DE LOS RESULTADOS 3.1 La Modelación mediante la Clasificación La aplicación del algoritmo: ZeroR La aplicación del algoritmo: IBK La aplicación del algoritmo: KStar El análisis de las Clases Las Clases referentes al atributo Afect. Imputable Análisis en el dominio del Tiempo Análisis por Años Comparación de la accidentalidad de ETECSA con la de Cuba Análisis por Meses Análisis por Días de la Semana Análisis según los Horarios de ocurrencia Los horarios más significativos de la accidentalidad en ETECSA Consideraciones sobre el horario pico más frecuente Análisis en el dominio del Espacio Análisis en el dominio Material y Valoración Económica Análisis Predictivo VII

8 3.8 La utilización del Dashboard La Implementación Conclusiones del capítulo III 116 CONCLUSIONES 117 Lista de Resultados La Implementación Práctica de los Resultados. 120 RECOMENDACIONES REFERENCIAS BIBLIOGRÁFICAS... 1 REFERENCIAS EN INTERNET... 3 BIBLIOGRAFÍA CONSULTADA... 4 Anexo A : Estadísticas acerca de los Accidentes de Tránsito en Cuba. 10 Anexo B : Complementos sobre los Algoritmos utilizados VIII

9 INTRODUCCIÓN El Descubrimiento de Conocimiento en Bases de Datos. Día tras día, en todas partes del mundo se generan cantidades enormes de datos; muchas bases de datos comerciales transaccionales y científicas crecen aceleradamente. Se estima que en el mundo la cantidad de datos almacenados en bases de datos se duplica cada 20 meses, excediendo la habilidad humana para reducir y analizar los datos sin el uso de técnicas de análisis automatizadas (Kubski, M., 2005). Gran parte de la información contenida en los datos resulta frecuentemente inaccesible al usuario a menos que recurra al uso de técnicas y metodologías adecuadas. Es así que hoy día, las organizaciones tienen gran cantidad de datos almacenados y organizados, pero no pueden sacarles provecho, si no disponen de herramientas adecuadas para ello. Actualmente, en el mundo se crean nuevas técnicas y herramientas computacionales con la capacidad de asistir a usuarios en el análisis automático e inteligente de los datos. El procesar automáticamente grandes cantidades de datos para encontrar conocimiento útil para un usuario y satisfacerle sus metas, es el objetivo principal de un área denominada: Descubrimiento de Conocimiento en Bases de Datos (Knowledge Discovery in Databases o KDD). Una de las premisas mayores del KDD es que el conocimiento es descubierto usando técnicas de aprendizaje inteligente que van examinando los datos a través de procesos automatizados. Para que una técnica sea considerada útil para el descubrimiento del conocimiento, el mismo debe tener un valor potencial para el usuario. KDD proporciona la capacidad para descubrir información nueva y significativa usando los datos existentes. KDD se considera como el proceso completo de extracción de información, que abarca desde la preparación previa de los datos, su procesamiento y modelación, hasta la interpretación de los resultados obtenidos. Se trata de interpretar grandes cantidades de datos y encontrar relaciones o patrones. Para conseguirlo se emplean técnicas de Minería de Datos, Estadística, Técnicas de Representación del Conocimiento, Razonamiento Basado en Casos (CBR: Case Based Reasoning), Visualización de Datos, etc.; todo lo cual se apoya en el Aprendizaje Automático (Machine Learning: rama de la Inteligencia Artificial que estudia el desarrollo de técnicas para extraer de forma automatizada conocimiento subyacente en los datos).tareas comunes en KDD son la Inducción de Reglas, los problemas de Clasificación, Clustering (agrupamiento), el Reconocimiento de Patrones, el Modelado Predictivo, la Detección de Dependencias, etc. 1

10 KDD es un campo creciente: hay muchas metodologías para el descubrimiento del conocimiento en uso y bajo desarrollo. Algunas de estas técnicas son genéricas, mientras otras son de dominio específico. El objetivo final de todo esto es incorporar el conocimiento obtenido en algún sistema real, tomar decisiones a partir de los resultados alcanzados o, simplemente, registrar la información conseguida y suministrársela a quien esté interesado. KDD - Minería de Datos Aunque desde el punto de vista académico, el término Minería de Datos suele verse como una etapa dentro de un proceso mayor llamado Descubrimiento de Conocimiento en Bases de Datos (KDD), según la empresa consultora DAEDALUS, La Minería de Datos es, en principio, una fase dentro de un proceso global KDD, que ha llegado a generalizarse mundialmente adquiriendo el significado de todo el proceso en lugar de la fase de extracción de conocimiento. (DAEDALUS, 2010) Cómo se le suele denominar en el mundo al proceso de analizar datos y encontrar patrones útiles? Figura 1. Resultados de la encuesta sobre la denominación del proceso de analizar datos y encontrar patrones útiles (Referencia: KDNuggets, 2010) Esta encuesta revela una marcada preferencia generalizada del término Minería de Datos por encima de las demás denominaciones. Las listas de discusión sobre este tema las forman investigadores de más de ochenta países. 2

11 La Minería de Datos La Minería de Datos es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones de software en cada etapa, que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de Minería de Datos muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. La utilidad de la Minería de Datos ya, en el siglo XXI, no se pone a discusión, por lo cual esta tecnología está siendo aplicada por muchas herramientas de software. Según la revista de tecnología en línea ZDNET News, February 8, 2001, la Minería de Datos se vaticina como: "uno de los desarrollos más revolucionarios en la tecnología de la información. De hecho, un reporte del Instituto Tecnológico de Massachusetts (MIT) eligió la Minería de Datos como una de las 10 tecnologías emergentes que cambiarán el mundo (Larose, D. T. 2005). Además, de acuerdo con Week National Salary Survey: "La destreza en Minería de Datos es lo más buscado entre profesionales de tecnología de la información. (Larose, D. T. 2006) Tendencias La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea, etc. Los más importantes de ellos son: La importancia que han cobrado los datos no estructurados (texto, páginas de Internet, etc.). La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc. La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo: frente a un fraude con una tarjeta de crédito). Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo válido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real. El Estudio de los Accidentes de Tránsito. Las publicaciones sobre accidentes de tránsito en el mundo se apoyan en bases de datos específicas para este tema, las cuales muestran gran abundancia de datos que son utilizados 3

12 para los estudios, donde se evalúan diversos factores involucrados en los accidentes de tránsito útiles para la prevención, lo cual facilita las investigaciones al respecto. Uno de los modelos más utilizados para estructurar las investigaciones de los accidentes de tránsito con fines preventivos es la matriz de William Haddon (Haddon W. 1968), donde se trata de sistematizar la influencia que cada elemento tiene en la fase de pre-accidente, durante el accidente y en la fase post-accidente (Matriz de William Haddon, 2009) El contexto del trabajo En el Centro de Dirección Nacional de las Telecomunicaciones (CDNT), de la Empresa de Telecomunicaciones de Cuba (ETECSA), hay una Base de Datos cuyo diseño está encauzado hacia las afectaciones a la infraestructura de las telecomunicaciones, aunque contiene en menor cuantía datos acerca de los accidentes de tránsito que afectan a la empresa, sobre los cuales se había logrado extraer poca información previamente por las vías tradicionales, pues gran parte de dichos datos se encuentran dispersos y sin normalizar. En el mundo, los análisis de los accidentes de tránsito se apoyan en bases de datos específicamente diseñadas en función de la prevención de la accidentalidad. Lo cual contrasta con la BD de ETECSA, que fue diseñada en función de las afectaciones a la infraestructura de la empresa, donde se almacenan datos que solamente describen: cuándo sucedió?, dónde ocurrió?, qué afectación material se produjo?, etc. De modo que la información que se había logrado extraer previamente se limitaba a dar respuesta literalmente a las preguntas recién mencionadas. El desafío principal de este trabajo consiste en que se trabajará con una BD que no fue diseñada en función de los accidentes de tránsito, sino en función de las afectaciones a la infraestructura de las telecomunicaciones de ETECSA. Además, los datos sobre accidentes de tránsito están enfocados en las afectaciones producidas a la infraestructura de la empresa y no se orientan hacia la prevención de la accidentalidad. No obstante, esta tesis no se limita a la extracción y presentación de la información, sino que pretende desarrollar un proceso analítico que permita extraer de dicha BD más información acerca de los accidentes de tránsito que afectan a ETECSA y llegar a descubrir conocimiento a partir de la misma para ayudar a que se adopten medidas encaminadas a reducir dicha accidentalidad. Para poder extraer más información y llegar a descubrir conocimiento en esta BD, se requiere utilizar técnicas de aprendizaje inteligente que vayan examinando los datos a través de 4

13 procesos automatizados. Actualmente se dispone de varias herramientas de aprendizaje automático, algunas de software libre, que permiten aplicar las técnicas de minería de datos para extraer información en forma de patrones y relaciones entre variables difíciles de obtener por otros medios y que pueden contribuir a la obtención de conocimiento útil para la toma de decisiones. Este trabajo se basa en la Inteligencia Organizacional mediante el KDD (Knowledge Discovery in Databases) y la Minería de Datos, se utiliza como herramienta de Aprendizaje Automático (Machine Learning) el software libre WEKA y se emplea un Dashboard (panel de control) mediante el software Style Scope Free Edition, 2010 de InetSoft. Se aplica la metodología CRISP-DM, de forma tal que el descubrimiento de conocimiento se realiza por una vía específica que va de lo general a lo particular. En la etapa de Modelación se comienza por investigar el número mínimo de categorías similares en las que se puede dividir el conjunto de datos, mediante el Aprendizaje inductivo no supervisado, utilizando el método de Agrupamiento. Para ello se aplican y comparan los algoritmos: KMeans, EM y COBWEB. Seguidamente, se aplican las opciones de Visualización de los Clusters obtenidos. Posteriormente, para definir las Clases contenidas en cada Cluster y descubrir las etiquetas de cada Clase, se utiliza el Aprendizaje Inductivo Supervisado utilizando la clasificación basada en ejemplares: K-NN (k-vecino más próximo) mediante aprendizaje perezoso, para lo cual se aplican y comparan los algoritmos: IBK y "KStar, además del algoritmo de inducción de reglas: ZeroR. Se emplean también las opciones de Visualización para las Clases obtenidas, las cuales se analizan y se define el contenido de las mismas. Posteriormente se realiza la visualización cuantitativa de las Clases. Teniendo en cuenta la peculiaridad de los datos sobre accidentes de tránsito contenidos en la BD en cuestión, que no concuerdan con los modelos que suelen utilizarse en el mundo para realizar investigaciones con fines preventivos, se diseñó y utilizó una metodología propia que se ajusta a dichos datos y permite obtener de forma organizada, de lo general a lo particular, más información implícita en los datos en busca de patrones que puedan resultar significativos para sugerir medidas que ayuden a reducir la accidentalidad. A la luz de esta metodología, se evalúa la imputabilidad de ETECSA en la accidentalidad. Se aplican análisis en el dominio del tiempo, del espacio, en el dominio material y la valoración económica. Se compara la accidentalidad en ETECSA con respecto a la del país. Además, se utiliza el algoritmo de regresión lineal de WEKA para predecir la tendencia de la accidentalidad en esta empresa. Se expone la utilización de un Dashboard que permite a los directivos 5

14 monitorear el comportamiento de la accidentalidad, escogiendo los indicadores deseados, según sus propios criterios. Finalmente, se presentan las conclusiones que contienen: los resultados obtenidos, las medidas propuestas para reducir la accidentalidad, las acciones realizadas para la implementación práctica, las consecuencias reales de su aplicación y las recomendaciones. Como complemento se incluye un anexo A que contiene los datos publicados por la ONE (Organización Nacional de Estadística) sobre la accidentalidad en Cuba durante el período analizado y un anexo B que incluye complementos sobre los algoritmos de minería de datos utilizados. - Justificación: Se espera que el conocimiento descubierto sobre accidentes de tránsito, en esta BD de ETECSA, ayude a adoptar medidas para reducir la accidentalidad que afecta a la empresa. - Situación Problémica: En el CDNT existe una BD concerniente a las afectaciones a la infraestructura de las telecomunicaciones en ETECSA que contiene, en proporción minoritaria, datos (gran parte de ellos aislados y sin normalizar) referentes a los accidentes de tránsito que afectaron a dicha empresa en el período De dicha BD históricamente se ha logrado obtener poca información sobre este tema por las vías tradicionales, no obstante, se estima que es factible extraer más información y llegar a descubrir conocimiento, que pudiera ayudar a adoptar medidas para reducir dicha accidentalidad. - Problema de Investigación: Cómo descubrir conocimiento acerca de los accidentes de tránsito que afectaron a ETECSA en el período en una BD concerniente a las afectaciones a la infraestructura de las telecomunicaciones en dicha empresa, para ayudar a que se adopten medidas encaminadas a reducir dicha accidentalidad? - Hipótesis: La aplicación de técnicas de Minería de Datos en una BD concerniente a las afectaciones a la infraestructura de las telecomunicaciones en ETECSA permitiría descubrir conocimiento acerca de los accidentes de tránsito que afectaron a dicha empresa en el período para ayudar a que se adopten medidas encaminadas a reducir dicha accidentalidad. 6

15 - Objeto de la investigación: Gestión de la información y el conocimiento. - Campo de acción: Minería de Datos - Límite de la investigación: Análisis de los accidentes de tránsito que afectaron a ETECSA en el período Objetivo general: Descubrir conocimiento acerca de los accidentes de tránsito que afectaron a ETECSA en el período mediante la aplicación de técnicas de minería de datos en una BD concerniente a las afectaciones a la infraestructura de las telecomunicaciones en dicha empresa, para ayudar a que se adopten medidas encaminadas a reducir dicha accidentalidad. - Objetivos específicos: 1. Estudiar la bibliografía relacionada con el tema de investigación. 2. Seleccionar las herramientas, técnicas y algoritmos a utilizar para extraer información acerca de los accidentes de tránsito que afectaron a ETECSA en el período en una BD concerniente a las afectaciones a la infraestructura de las telecomunicaciones en dicha empresa. 3. Seleccionar una Metodología para analizar los accidentes de tránsito, que se ajuste a la información contenida en la BD analizada. 4. Seleccionar una Metodología de minería de datos, adecuada para el desarrollo de la investigación. 5. Aplicar, mediante la metodología seleccionada, las herramientas, técnicas y algoritmos escogidos para la extracción de información acerca de los accidentes de tránsito que afectaron a ETECSA en el período en la BD en cuestión. 6. Validar la Información extraída. 7. Analizar la información obtenida y validada para descubrir conocimiento sobre los accidentes de tránsito que afectaron a ETECSA en el período a fin de ayudar a que se adopten medidas encaminadas a reducir dicha accidentalidad. 8. Implementar los resultados. 9. Valorar si resultaría necesario modificar los tipos de datos que la BD contempla para facilitar un estudio futuro de los accidentes de tránsito en la empresa, según los estándares mundiales de investigaciones para la prevención, a fin de contribuir mejor a la adopción de medidas para reducir la accidentalidad. 7

16 - Tareas Investigativas: 1. Búsqueda, adquisición, clasificación, selección y estudio de la Bibliografía requerida para desarrollar la investigación. 2. Selección de las herramientas, técnicas y algoritmos a utilizar para extraer información acerca de los accidentes de tránsito que afectaron a ETECSA en el período en una BD concerniente a las afectaciones a la infraestructura de las telecomunicaciones en dicha empresa. 3. Diseño de una Metodología propia para analizar los accidentes de tránsito, que esté acorde con la información contenida en la BD analizada. 4. Selección de una Metodología de minería de datos, adecuada para el desarrollo de la investigación. 5. Aplicación, mediante la metodología seleccionada, de las herramientas, técnicas y algoritmos escogidos para la extracción de información acerca de los accidentes de tránsito que afectaron a ETECSA en el período en la BD en cuestión. 6. Validación de la información extraída. 7. Análisis de la información extraída y validada para la obtención de conocimiento acerca de los accidentes de tránsito que afectaron a ETECSA en el período Presentación y divulgación de los resultados para su Implementación. 9. Valoración de la necesidad de modificar los tipos de datos que la BD contempla para facilitar un estudio futuro de los accidentes de tránsito en la empresa, según los estándares mundiales en función de la prevención, a fin de contribuir mejor a la adopción de medidas para reducir la accidentalidad. - Métodos científicos utilizados: Sobre un soporte teórico conceptual, haciendo uso de técnicas de minería de datos, se utilizarán fundamentalmente el método dialéctico; el método hipotético-deductivo, como una vía de inferencias lógico-deductivas para arribar a conclusiones particulares a partir de hipótesis que después se puedan comprobar experimentalmente por medio del método empírico, basado en la observación, la medición y la experimentación; el método sistémico en la modelación del objeto para la determinación de su estructura y su dinámica; el método sintético, mediante el establecimiento de relaciones entre hechos aparentemente aislados, llegando a su unificación e interpretación integrada. - Novedad de la Investigación: En la mayoría de las publicaciones consultadas sobre KDD, Minería de Datos y Machine Learning, los enfoques suelen ser teóricos, docentes, o constituyen propuestas que no 8

17 sintetizan resultados concretos. Un minucioso sondeo en Internet confirmó que las compañías consultoras que trabajan estos temas no revelan su know how. Es típico que en aquellos trabajos donde se muestran resultados prácticos, el proceso se describe someramente pasando rápidamente a las conclusiones y se omite todo indicio sobre el procedimiento para lograrlo. Por otra parte, las investigaciones sobre accidentes de tránsito en el mundo se desarrollan sobre bases de datos especialmente diseñadas sobre el tema que, por ende, responden noblemente a los análisis estadísticos tradicionales, en fuerte contraste con la base de datos utilizada en este trabajo. En esta tesis se ofrece un aporte práctico en la aplicación de las técnicas de minería de datos para el descubrimiento de conocimiento en bases de datos, que va más allá de una propuesta y logra resultados tangibles. Debido a las características singulares de los tipos de datos contenidos en la BD utilizada, en el trabajo se diseña y aplica una metodología propia para el análisis de los accidentes de tránsito que se ajusta a dichos datos y permite obtener de forma organizada, de lo general a lo particular, la información implícita en los mismos. Por otra parte, se brinda un aporte teórico en el enfoque utilizado para avanzar dentro de la metodología CRISP-DM que, aplica un procedimiento particular que va descubriendo progresivamente y de forma coherente el conocimiento implícito en la base de datos, de lo general a lo particular. En la fase de Modelación se comienza por la clasificación no supervisada para obtener clusters (agrupamientos) que muestren las categorías más generales sobre accidentes de tránsito contenidas en la BD y luego se aplica la clasificación supervisada para definir cada una de las clases y analizar su contenido a fin de obtener conocimiento que contribuya al logro de los objetivos planteados. Se optimiza la aplicación de cada uno de los algoritmos utilizados, se validan y comparan sus resultados, se analizan y se deducen los significados prácticos. Luego, se analiza la tendencia de la accidentalidad en ETECSA y se compara con la del país para conocer si esta empresa está mejor o peor que la media nacional. Se provee a los directivos de la empresa de un Dashboard para monitorear el comportamiento de la accidentalidad. Se presentan las medidas adoptadas para reducir la accidentalidad y se verifica su repercusión real. Finalmente se presentan recomendaciones para futuras investigaciones sobre la accidentalidad que afecta a ETECSA para dar continuidad a la espiral progresiva y ascendente de su desarrollo dialéctico. 9

18 El procedimiento utilizado en este trabajo es aplicable a otros casos cuya dificultad principal estribe en que se requiera obtener conocimiento sobre algún tema secundario al tópico principal de una base de datos. - Unidades de Observación: Una base de datos concerniente a las afectaciones a la infraestructura de las telecomunicaciones en ETECSA en los 3 años comprendidos entre el 2008 y el Población y Muestra: Se trabaja con los datos que se refieren a los accidentes de tránsito que afectan a ETECSA, los cuales constituyen un subconjunto de la base de datos general concerniente a las afectaciones a la infraestructura de las telecomunicaciones en ETECSA. - Materiales y Recursos: Se utiliza una PC Laptop Intel Core 2 Duo CPU P8400 a 2.26 GHz con 4 GB de Memoria RAM, con Sistema Operativo Windows 7 Enterprise en 64 bits. Se trabaja con la última versión del software libre: WEKA para 64 bits, configurable según los núcleos de CPU disponibles, ofertado en enero del Estructura del Trabajo: El trabajo se inicia con un Resumen y a continuación se expone el Índice. Luego se presenta la Introducción desglosada en acápites. Posteriormente aparecen tres capítulos: I. Fundamentación Teórica II. Metodología III. Obtención, Análisis e Implementación de los Resultados El Capítulo I, referente a la Fundamentación Teórica, abarca los siguientes temas: Datos-Información-Conocimiento Almacenamiento de la Información La Inteligencia Organizacional (I.O.) El Descubrimiento de Conocimiento en Bases de Datos (KDD) La Minería de Datos 10

19 Minería de Datos basada en la Teoría de la Información Ámbitos de uso más frecuente de la Minería de Datos Las Técnicas de Minería de Datos El Análisis de Clusters (agrupamientos). SimpleKMeans, EM y Cobweb La Clasificación: IBK, KStar, y ZeroR Las Investigaciones sobre los Accidentes de Tránsito en el mundo Conclusiones del Capítulo I El Capítulo II, referente a la Metodología, comprende: La Selección de las Herramientas a utilizar Selección de una Herramienta para aplicar técnicas de Minería de Datos Selección de una Herramienta para elaborar un Dashboard La Selección de una Metodología para analizar los Accidentes de Tránsito. Selección de una Metodología para realizar el proceso de Minería de Datos La Aplicación de la Metodología CRISP-DM Comprensión del Negocio o asunto a investigar Comprensión de los Datos Preparación de los Datos La Modelación: El Agrupamiento: SimpleKMeans, EM y Cobweb : Se comparan los resultados de los 3 algoritmos y se obtienen las categorías más generales que contiene la BD analizada acerca de la accidentalidad. Conclusiones del Capítulo II El Capítulo III, referente a: Obtención, Análisis e Implementación de los Resultados, engloba los siguientes elementos: La Clasificación: ZeroR, IBK y KStar : 11

20 Se comparan los resultados de los 3 algoritmos y se identifican las clases implícitas dentro de cada una de las categorías previamente obtenidas. El análisis de las Clases: Se analizan las clases obtenidas y se define el contenido de cada una de ellas. Las Clases referentes al atributo Afect. Imputable : Se analiza en qué medida cada una de las clases halladas son imputables a ETECSA. Análisis en el dominio del Tiempo: Análisis por Años: Se analiza la accidentalidad en ETECSA y se compara con el comportamiento global del país. Análisis por Meses Análisis por Días de la Semana Análisis según los Horarios Los horarios más significativos de la accidentalidad en ETECSA Consideraciones sobre el horario pico más frecuente Análisis en el dominio del Espacio: Según las Provincias y Municipios. Análisis en el dominio Material y valoración económica: De acuerdo a los vehículos accidentados y las afectaciones a la infraestructura. Análisis Predictivo: Se aplica la Regresión Lineal para estimar la tendencia de la accidentalidad de ETECSA en el tiempo. La utilización del Dashboard: Se visualizan las variables que los directivos deseen monitorear. La Implementación Conclusiones del Capítulo III Finalmente se exponen: las Conclusiones, con los resultados y su implementación práctica. A continuación se presentan las Recomendaciones. Posteriormente se muestran las Referencias Bibliográficas, las Referencias específicas de Internet y la Bibliografía Consultada, de acuerdo con el estilo APA. (American Psychological Association, 2010), (Flores, E., 2010), (Salgado, E., 2012) 12

21 El trabajo cierra con 2 anexos: Anexo A : Estadísticas acerca de los Accidentes de Tránsito en Cuba Anexo B : Complementos sobre los algoritmos utilizados - Investigaciones previas del autor relacionadas con el tema: Basulto, M.; Guerra, A. & Govín, E. (2010). Aplicación de una Herramienta de Minería de Datos en el Centro de Dirección Nacional de Telecomunicaciones de ETECSA. Trabajo de curso de la asignatura: Aplicaciones de la Minería de Datos. Diplomado ICIMAF. Basulto, M.; Guerra, A. y Govín, E. (2010). La aplicación de Técnicas de Minería de Datos para extraer información útil de la base de datos Hechos Extraordinarios enero - septiembre del 2010 en ETECSA. Jornada Científica ICIMAF. Basulto, M. (2011). La aplicación de Técnicas de Minería de Datos para extraer Información de la base de datos: Hechos No Delictivos de ETECSA en el Tesina para el Diplomado Aplicaciones de la Minería de Datos. ICIMAF. Basulto, M.; Guerra, A.; Govín, E. y Basulto, A. (2011). La aplicación de Técnicas de Minería de Datos para obtener más información útil sobre los Accidentes de Tránsito que afectan a ETECSA. Taller de Control Automático y Minería de Datos, ICIMAF. Guerra, A.; Basulto, M.; Govín, E. y Basulto, A. (2012). Uso correcto de los Mapas Autoorganizados como técnica de Minería de Datos para el descubrimiento de Información. Revista TONO, ETECSA. 13

22 CAPÍTULO I FUNDAMENTACIÓN TEÓRICA. 1.1 Datos Información Conocimiento Los Datos El dato es una representación simbólica (numérica, alfabética, algorítmica, etc.), un atributo o característica de una entidad. Los datos describen hechos empíricos, sucesos y entidades. Los datos aisladamente pueden no contener información humanamente relevante. Sólo cuando un conjunto de datos se examina globalmente a la luz de un enfoque, hipótesis o teoría se puede apreciar la información contenida en dichos datos. Los datos pueden consistir en números, estadísticas o proposiciones descriptivas. Los datos convenientemente agrupados, estructurados e interpretados se consideran que son la base de la información humanamente relevante que se puede utilizar en la toma de decisiones, la reducción de la incertidumbre o la realización de cálculos. Los datos son de empleo muy común en el ámbito informático y, en general, prácticamente en cualquier disciplina científica. En programación, un dato es la expresión general que describe las características de las entidades sobre las cuales opera un algoritmo. Un dato por sí mismo no constituye información, es el procesamiento de los datos lo que proporciona información, como se ilustra en la figura 1.1 Figura 1.1. Conversión de los Datos en Información. (Elaboración propia) 14

23 La información En sentido general, información es un conjunto organizado de datos procesados, que constituyen un mensaje que coadyuva a cambiar el estado de conocimiento del sujeto o sistema que recibe dicho mensaje y permite a los individuos o sistemas tomar decisiones pertinentes acordes a dicho conocimiento. Desde el punto de vista de la ciencia de la computación, la información es un conocimiento explícito extraído por seres vivos o sistemas expertos como resultado de la interacción con el entorno o percepciones sensibles del mismo entorno. En principio la información, a diferencia de los datos o las percepciones sensibles, tiene estructura útil que modificará las sucesivas interacciones del ente que posee dicha información con su entorno. (Kubski, M., 2005) De la Información al Conocimiento La información como vía para llegar al conocimiento, debe ser elaborada para hacerla utilizable o disponible, pero también es imposible que la información por sí sola dote al individuo de más conocimiento, es él quien valora lo significativo de la información, la organiza y la convierte en conocimiento. El dato es un elemento previo necesario para poder obtener la información. La información es la materia prima de la cual se obtiene el conocimiento. El conocimiento se consigue tras procesar y analizar la información y su utilidad práctica radica en que permite tomar decisiones sobre el asunto analizado o al menos ayuda a mejorar la comprensión del fenómeno en cuestión. Esto se muestra gráficamente en la figura 1.2: Figura 1.2 Relación entre la dependencia del Contexto y el Entendimiento en la gestión del conocimiento. (Referencia: Watson, I. 2003) 15

24 Así, se pudiera definir al conocimiento como el conjunto organizado de datos e información que permiten resolver un determinado problema o tomar una decisión. Existen múltiples vías de llegar a obtener conocimiento: método empírico, método histórico, método lógico, analogía, etc. Figura 1.3 Relación entre Dato, Información y Conocimiento. (Referencia: Kubski, M., 2005) En la figura 1.3 se ilustran los niveles jerárquicos correspondientes a: datos, información y conocimiento. Se observa el volumen que presenta cada nivel y el valor que los responsables de las decisiones dan a cada jerarquía. Las distancias entre las áreas internas señaladas dentro de la pirámide muestran cierta cercanía entre dato e información, mientras que la separación entre información y conocimiento es mayor, debido fundamentalmente al proceso interpretativo y analítico requerido. 1.2 ALMACENAMIENTO DE LA INFORMACIÓN Las Bases de Datos Una Base de Datos (BD) es un conjunto de información relacionada que se encuentra agrupada o estructurada en forma de datos. Proporciona la infraestructura necesaria para almacenar, recuperar, y manipular datos. El continuo avance de la tecnología ha producido un gran crecimiento en lo que se refiere a la capacidad de generación y almacenamiento de datos. El abaratamiento de los sistemas de almacenamiento, la automatización de procesos, las mejoras en la confiabilidad y en la velocidad de transmisión, y las mejoras en la velocidad de cómputo de los procesadores, son algunas de las razones que han hecho que las bases de datos crezcan en una proporción colosal, excediendo la habilidad humana para interpretar y comprender tanta información. 16

25 Por otra parte, generalmente los datos almacenados no siempre cuentan con una estructuración y coherencia específica: sobre todo si son diferentes personas las responsables del almacenamiento de la información. Entre los principales problemas que se pueden presentar en las BD resaltan los siguientes: Que diferentes tipos de datos representen el mismo concepto, por ejemplo: que se expresen en distintas unidades de medida, o que la fecha pueda guardarse en diferentes formatos. Que existan diferentes niveles de precisión al representar un dato, como números reales que no se almacenen siempre de igual manera. Esta situación se agrava cuando se utilizan sistemas informáticos y soportes diferentes. Surge entonces la necesidad de unificar los distintos ficheros y bases de datos para poder comprenderlos. Por ello, se necesita de tecnologías que sirvan de guía para comprender el contenido de las Bases de Datos El Data Warehouse Es un almacén destinado específicamente para mantener datos organizados. También se denomina Bodegón de Datos, o simplemente Almacén de Datos. Un Data Warehouse es una colección de datos orientados a temas integrados no volátiles y variantes en el tiempo, organizados para soportar necesidades empresariales, de ello, se establece que un Data Warehouse se caracteriza por ser integrado, temático, histórico, y no volátil, es decir que al fluir del entorno operacional al entorno de almacén de datos, los datos asumen una codificación consistente. (Kubski, M., 2005) Si bien un Data Warehouse es parecido a una Base de Datos, su modo de operar es muy diferente en cuanto al soporte de transacciones y la actividad del negocio en línea. Las Bases de Datos se diseñaron para las transacciones diarias, almacenan la información de un sector de la organización, se actualizan a medida que llegan datos que deben ser almacenados y se operan mediante cuatro mecanismos: "añadir, eliminar, modificar, imprimir". Además, manejan pequeños volúmenes de datos. Por ende, las Bases de Datos no suelen ser óptimas como apoyo para la toma de decisiones. 17

26 1.2.3 El Data Mart Es un pequeño Data Warehouse, para un determinado número de usuarios, para un área funcional, especifica de la organización. Es un subconjunto de una bodega de datos para un propósito específico. El Data Mart puede extraerse del Data Warehouse de la organización, aunque también es posible que el Data Warehouse se construya a partir de los Data Mart que se hayan diseñado de un conjunto de Bases de Datos. (Kubski, M., 2005). No obstante, el uso del Data Warehouse o de los Data Mart sólo tiene sentido práctico cuando existen varias Bases de Datos y no para una sola, excepto que dicha BD fuera lo suficientemente grande y compleja para merecerlo. 1.3 LA INTELIGENCIA ORGANIZACIONAL (I.O.) En un artículo de 1958, el investigador de IBM Hans Peter Luhn utiliza el término Business Intelligence -BI- (Inteligencia de Negocio), la que define como: La capacidad de comprender las interrelaciones de los hechos presentados en tal forma como para orientar la acción hacia una meta deseada. (Pareek D., 2009) La Inteligencia de Negocios, tal como se entiende hoy en día, se dice que ha evolucionado desde los sistemas de apoyo a las decisiones que se inició en la década de 1960 y desarrollado a lo largo de los años 80. Se originó en los modelos por computadora, creados para ayudar en la toma de decisiones y la planificación. Los Data Warehouse, Sistemas de Información Ejecutiva, OLAP (On-Line Analytic Processing) comenzaron discretamente a finales de los años 80. (Pareek D., 2009). La Inteligencia Organizacional se refiere a un conjunto de productos y servicios que utiliza una organización ya sea empresarial o de cualquier tipo (centros docentes, hospitales, institutos, centros de entrenamiento deportivo, investigaciones de cualquier índole, etc.), para acceder a los datos de su interés y convertirlos en información para a continuación transformarla en conocimiento que sirva como soporte a sus decisiones, tal como se ilustra en el diagrama de la cadena de valor (Fig.1.4). Figura 1.4 Cadena de Valor de la Inteligencia Organizacional. (Elaboración propia) 18

27 1.3.1 Tipos de herramientas actuales para la Inteligencia Organizacional Cuadro de Mando Integral, usualmente llamados Dashboard, Digital Dashboards o Paneles de Control Digital, también conocidos como Business Intelligence Dashboards, o Dashboards Ejecutivos, son resúmenes visuales de información del negocio, que muestran de una mirada la comprensión global de las condiciones del negocio mediante métricas e Indicadores Clave de Desempeño (KPIs). El Dashboard es una Herramienta de Inteligencia de Negocios cada vez más popular en el siglo XXI. OLAP (Procesamiento Analítico en línea por sus siglas en inglés). Es la capacidad de algunos sistemas de soporte de decisiones gerenciales que permiten examinar de manera interactiva grandes volúmenes de información desde varias perspectivas. Aplicaciones de Informes: genera vistas de datos agregadas para mantener a la gerencia informada sobre el estado de su negocio. Minería de Datos: Extracción de información de las bases de datos, por ejemplo: en el ámbito empresarial acerca del consumidor, mediante la utilización de aplicaciones que pueden aislar e identificar patrones o tendencias del consumidor en un alto volumen de datos. Hay una gran variedad de técnicas de minería de datos que revelan distintos tipos de patrones como formas altamente avanzadas de análisis de datos. 1.4 EL DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS (KDD) Desde hace ya un buen tiempo, existe un gran interés comercial por explotar los grandes volúmenes de información almacenada. Se considera que se está perdiendo una gran cantidad de información y conocimiento valioso que se podría descubrir a partir de los datos. Se requiere de grandes cantidades de datos que proporcionen información suficiente para derivar un conocimiento adicional. Para ello, es esencial un proceso eficiente. Se requiere exactitud para asegurar que el descubrimiento del conocimiento sea válido. Los resultados deberán ser presentados de una manera entendible para el ser humano. Por otra parte, disponer de mucha información, si bien es deseable, dificulta en extremo sacarle provecho. Además, los datos tal cual se almacenan no suelen proporcionar beneficios directos. Su valor real reside en la información que se pueda extraer de ellos; información que se convierta en conocimiento y ayude a tomar decisiones o a mejorar la comprensión de los fenómenos. 19

28 KDD proporciona la capacidad para descubrir información nueva y significativa usando los datos existentes. KDD se definió originalmente en ingles, como: "The nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data" (El proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles, y finalmente comprensibles en los datos). (Fayyad, I. & Smyth, P., 1996). En síntesis, KDD pretende procesar automáticamente grandes cantidades de datos, identificar los patrones más relevantes y significativos, y finalmente presentarlos como conocimiento apropiado para así satisfacer las metas del usuario. El conocimiento se obtiene para realizar acciones, la idea es incorporarlo dentro de un sistema de desempeño o simplemente almacenarlo y reportarlo a las personas interesadas. Como se expresó en la introducción, al Descubrimiento de Conocimiento en Bases de Datos (KDD) se lo conoce, cada vez más, como Minería de Datos (Data Mining), aunque formalmente se refiera al proceso de Minería de Datos como la aplicación de algoritmos para extraer patrones de datos, y KDD al proceso completo (Fig. 1.5). Su objetivo fundamental es encontrar conocimiento útil válido, relevante y nuevo sobre un fenómeno mediante algoritmos eficientes. También existe un profundo interés por presentar los resultados de manera visual o al menos de manera que se puedan interpretar claramente. La interacción humano-máquina debe ser flexible, dinámica y colaborativa. Selección y Pre-proceso Data Mining Interpretación y Evaluación p(x)=0.02 Conocimiento Consolidación de Datos Wareho use Datos Preparados Patrones y Modelos Datos Consolidados Fuentes de Datos Figura 1.5 Diagrama del proceso KDD. (Referencia: Plasencia, A., 2010.) 20

29 1.5 LA MINERÍA DE DATOS La idea de la Minería de Datos no es tan nueva, ya desde los años sesenta los estadísticos manejaban términos como Data Fishing, Minería de Datos o Data Archaeology, con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, se empezaron a consolidar los términos de Data Mining y KDD (Hand, D.; Mannila, H. & Smyth, P., 2001). A finales de los años ochenta sólo existían pocas empresas dedicadas a esta tecnología; ya en 2002 existían más de un centenar de empresas en el mundo que ofrecían gran variedad de soluciones, lo cual ha continuado en ascenso. La Minería de Datos reúne las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, y el Procesamiento Masivo, principalmente usando como materia prima las Bases de Datos. La Minería de Datos se está aplicando en la comunidad de negocios porque está soportada por tres tecnologías que ya están suficientemente maduras: Recolección masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining Minería de Datos basada en la Teoría de la Información En 1948 Claude Shannon publicó un trabajo llamado Una Teoría Matemática de la Comunicación. (Shannon, C., 1948). Posteriormente esta pasó a llamarse Teoría de la Información y sentó las bases de la comunicación y la codificación de la información. Shannon propuso una manera de medir la cantidad de información a ser expresada en bits. En 1999 Dorian Pyle propone una manera de usar la Teoría de la Información para analizar datos. En este nuevo enfoque, una base de datos es un canal que transmite información. Por un lado está el mundo real que captura datos generados por el negocio. Por el otro están todas las situaciones y problemas importantes del negocio. Y la información fluye desde el mundo real y a través de los datos, hasta la problemática del negocio. (Pyle, D., 1999). La minería de datos constituye un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está muy ligada a las bodegas de datos, ya que las mismas proporcionan la información histórica con la cual los algoritmos de minería de datos tienen la información necesaria para la toma de decisiones. En el análisis de archivos de transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones, relaciones, 21

30 reglas, asociaciones o incluso excepciones útiles para la toma de decisiones. Ayuda a descubrir información rápidamente. Es una herramienta relacionada directamente con el negocio Ámbitos de uso más frecuente de la Minería de Datos (Zhu X. & Davidson, I. 2007). Negocios Patrones de fuga Fraudes Recursos humanos Comportamiento en Internet Ciencia e Ingeniería Genética Ingeniería eléctrica Análisis de gases Figura 1.6 Distribución de la Minería de Datos por áreas de aplicación. (Referencia: (Zhu X. & Davidson, I. 2007). 1.6 LAS TÉCNICAS DE MINERÍA DE DATOS Las técnicas de Minería de Datos son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de los negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Una técnica de Minería de Datos constituye el enfoque conceptual para extraer la información de los datos, y, en general es implementada por varios algoritmos. Cada algoritmo representa, en la práctica, la manera de desarrollar una determinada técnica paso a paso, de forma que es preciso un entendimiento de alto nivel de los algoritmos para saber cual es la técnica más apropiada para cada problema. Asimismo es preciso entender los parámetros y las características de los algoritmos para preparar los datos a analizar. No obstante, los desarrolladores de software de minería de datos se esfuerzan permanentemente por lograr 22

31 versiones cada vez más integradoras y optimizadas en cuanto a: calidad, rapidez y comodidad para el usuario. Las técnicas de Minería de Datos intentan obtener patrones o modelos a partir de los datos recopilados. Se clasifican en dos grandes categorías: supervisadas (o predictivas) y no supervisadas (o descriptivas). Las predicciones se utilizan para prever el comportamiento futuro de algún tipo de entidad, mientras que una descripción puede ayudar a su comprensión. De hecho, los modelos predictivos pueden ser descriptivos (hasta donde sean comprensibles por las personas) y los modelos descriptivos pueden emplearse para realizar predicciones. De esta forma, hay algoritmos o técnicas que pueden servir para distintos propósitos. El aprendizaje inductivo no supervisado (descriptivo) realiza el aprendizaje sin la ayuda del maestro; es decir, se aborda el aprendizaje sin supervisión, que trata de ordenar los ejemplos en una jerarquía según las regularidades en la distribución de los pares atributo-valor sin la guía del atributo especial clase. Éste es el proceder de los sistemas que realizan agrupamiento conceptual y de los que se dice también que adquieren nuevos conceptos. Otra posibilidad contemplada para estos sistemas es la de sintetizar conocimiento cualitativo o cuantitativo, objetivo de los sistemas que llevan a cabo tareas de descubrimiento. En el aprendizaje inductivo supervisado (predictivo) existe un atributo especial, normalmente denominado clase, presente en todos los ejemplos que especifica si el ejemplo pertenece o no a un cierto concepto, que será el objetivo del aprendizaje. Mediante una generalización del papel del atributo clase, cualquier atributo puede desempeñar ese papel, convirtiéndose la clasificación de los ejemplos según los valores del atributo en cuestión, en el objeto del aprendizaje. El objetivo del aprendizaje supervisado es: a partir de un conjunto de ejemplos, denominados de entrenamiento, de un cierto dominio D de ellos, construir criterios para determinar el valor del atributo clase en un ejemplo cualquiera del dominio. Esos criterios están basados en los valores de uno o varios de los otros pares (atributo; valor) que intervienen en la definición de los ejemplos EL ANÁLISIS DE CLUSTERS (AGRUPAMIENTOS) El agrupamiento o clustering es el paradigma principal del aprendizaje no supervisado. El objetivo es encontrar grupos de instancias o casos constituidos por elementos similares. Dado 23

32 un conjunto de instancias descritas por una serie de características, el problema es encontrar una partición del conjunto completo de instancias en subconjuntos o clases de tal manera que las instancias dentro de una misma clase sean muy similares mientras que las instancias en clases distintas sean disimilares. Los algoritmos de agrupamiento buscan grupos de instancias con características similares, según un criterio de comparación entre valores de atributos de las instancias definidos en los algoritmos. Se diferencian de la clasificación en que agrupan instancias de las cuales no se conoce su número, ni la clase a la que pertenecen. El agrupamiento crea así grupos o racimos (cluster) de datos que se diferencian del resto. Métodos Jerárquicos Consisten en agrupar clusters para formar uno nuevo o separar alguno ya existente para dar origen a otros dos de forma que se maximice una medida de similaridad o se minimice alguna distancia. Los métodos jerárquicos permiten construir un árbol de clasificación o dendograma. Métodos No-Jerárquicos Están diseñados para la clasificación de individuos (no de variables) en K grupos. El procedimiento es elegir una partición de los individuos en K grupos e intercambiar los miembros de los clusters para tener una partición mejor El algoritmo K-means El algoritmo K-means, creado por MacQueen en 1967, es del tipo numérico y se considera el algoritmo de Agrupamiento más conocido y utilizado en aplicaciones científicas e industriales, ya que es de muy simple aplicación y eficaz. Sigue un procedimiento simple de clasificación de un conjunto de objetos en un determinado número K de clusters, K determinado a priori. (Mitchell, T., 1997), (MacQueen, J., 1967) El nombre le viene porque se representa cada uno de los clusters por la media (o media ponderada) de sus puntos, es decir, por su centroide. Este método se aplica a atributos numéricos, aunque los valores anómalos le pueden afectar muy negativamente. Sin embargo, la representación mediante centroides posee la ventaja de que tiene un significado gráfico y estadístico inmediato. La suma de las discrepancias entre un punto y su centroide, expresado a través de la distancia apropiada, se usa como función objetivo. (García, C. y Gómez, I., 2008) El análisis de conglomerados de K medias es especialmente útil cuando se dispone de un gran número de casos. Sin embargo, si dos o más puntos-centro caen dentro de lo que conformaría 24

33 un mismo cluster, ambos grupos estarían pobremente diferenciados. Asimismo la existencia de valores anómalos, produciría al menos un grupo con elementos demasiado dispersos. Además, el no conocer el valor de K puede dar lugar a agrupamientos no naturales. No obstante, existe la posibilidad de utilizar la técnica de manera exploratoria, clasificando los casos e iterando para encontrar la ubicación de los centroides y así repetir el análisis con distinto número de conglomerados para comparar las soluciones obtenidas. (Soto, J.; Ponzoni, I. y Vázquez, G., 2006) K-Means en un método particional donde se construye una partición de una base de datos D de n objetos en un conjunto de k grupos, buscando optimizar el criterio de particionamiento elegido. En K-Means cada grupo está representado por su centro. K-Means intenta formar k grupos, con k predeterminado antes del inicio del proceso. Asume que los atributos de los objetos forman un vector espacial. El objetivo que se intenta alcanzar es minimizar la varianza total intra-grupo o la función de error cuadrático. Una desventaja importante de este método es su alta dependencia de la partición inicial o la selección inicial de los puntos-centro o centroides. (Britos, P.; Hossian, A.; García, R. y Sierra, E., 2005), (Valenga, F. et al, 2008). Figura 1.7 Esquema clásico de agrupamiento mediante K-means. (Referencia: García, C. y Gómez, I., 2008) El algoritmo K-means sigue un procedimiento simple de clasificación de un conjunto de objetos en un determinado número K de Clusters, donde K se determina a priori. 25

34 El algoritmo de K-means se ejecuta en 4 etapas (Garre, M. et al, 2008). Etapa 1: Elegir aleatoriamente K objetos que formarán los K clusters iniciales. Para cada cluster k, el valor inicial del centro es = xi, con los xi únicos objetos de Dn pertenecientes al cluster. Etapa 2: Se reasignan los objetos del cluster. Para cada objeto x, el prototipo que se le asigna es el que esté más próximo al objeto, según una medida de distancia, (habitualmente la medida Euclideana). Etapa 3: Una vez que todos los objetos son colocados, se recalculan los centros de K cluster. (Los baricentros). Etapa 4: Se repiten las etapas 2 y 3 hasta que no se hagan más reasignaciones. Aunque el algoritmo termina siempre, no se garantiza el obtener la solución óptima. En efecto, el algoritmo es muy sensible a la elección aleatoria de los K centros iniciales. Esta es la razón por la que, se utiliza el algoritmo del K-means numerosas veces sobre un mismo conjunto de datos para intentar minimizar este efecto, sabiendo que para centros iniciales lo más espaciados posibles se logran los mejores resultados. Si se utiliza la distancia Euclideana y las variables tienen unidades de medida o rangos dispares, entonces es necesario estandarizarlas. Distancia Euclideana: Nota: Ver Anexo B para más detalles. (1.1) El algoritmo de agrupamiento K-medias es uno de los más veloces y eficientes, si bien uno de los más limitados. Este algoritmo busca únicamente el número mínimo de categorías similares en las que se pueda dividir el conjunto de datos. Suele ser de interés repetir la ejecución del algoritmo K-medias con diferentes semillas de inicialización, dada la notable dependencia del arranque cuando no está clara la solución que mejor divide el conjunto de instancias. Puede funcionar con diferentes criterios para la evaluación de la distancia, además de la Euclideana, como la de Manhattan, etc. 26

35 El algoritmo EM El algoritmo EM (Expectation Maximization) es del tipo probabilístico, pues empieza prediciendo los parámetros de las distribuciones y los usa para calcular las probabilidades de que cada objeto pertenezca a un cluster y usa esas probabilidades para re-estimar los parámetros de las probabilidades, hasta converger (se puede empezar prediciendo las probabilidades de que un objeto pertenezca a una clase). El algoritmo EM, al igual que K-medias realiza el agrupamiento numérico y proviene de la estadística, pero se distingue por ser un estimador de máxima verosimilitud. Es bastante más elaborado que K-medias, con el costo de requerir muchas más operaciones. Una ventaja del algoritmo de agrupamiento EM es que permite además buscar el número de grupos más apropiado, o sea, se deja el parámetro del número de clusters como un valor a optimizar por el propio algoritmo (Garre M. et al, 2008). Dado que: y : son los datos observados. P (y / ѳ). es la densidad paramétrica que describe los datos observados. x : son una descripción de los datos completos. Se considera que la distribución de probabilidad de x depende de la variable ѳ. P (x / ѳ). es la densidad paramétrica de los datos completos, considerando que el soporte de x no depende de ѳ. Teniendo en cuenta que X no se observa directamente, lo que se observan son realizaciones y de la variable aleatoria Y = T (X) Estimador de máxima verosimilitud: Dado que solamente se cuenta con y, la estimación de ѳ deseable es: (1.2) Aunque generalmente es mas fácil maximizar el log-verosimilitud : Como usualmente se hace engorroso maximizar cualquiera de los dos, la aplicación de EM resulta una mejor opción. 27 (1.3)

36 EM hace una suposición acerca de X (los datos completos), luego se encuentra el ѳ que maximiza el valor esperado del log-verosimilitud de X, una vez que se tiene el nuevo ѳ, se puede elegir una mejor opción respecto a X y entonces se itera. Nota: Ver Anexo B para más detalles El algoritmo COBWEB Los algoritmos de agrupamiento simbólico o conceptual tienen la ventaja de efectuar un análisis cualitativo que construye categorías jerárquicas para organizar los datos. Estas categorías se forman con un criterio probabilístico de utilidad, llegando a las que permiten homogeneidad de los valores de los atributos dentro de cada una y al mismo tiempo una separación entre categorías dadas por los atributos, propagándose estas características en un árbol de conceptos. Tal es el caso del algoritmo Cobweb. (Fisher, D., 1987) El algoritmo Cobweb es un algoritmo de agrupamiento jerárquico. Se caracteriza porque utiliza aprendizaje incremental, esto es, realiza las agrupaciones instancia a instancia, lo que implica un alto consumo computacional. Durante la ejecución del algoritmo se forma un árbol (árbol de clasificación) donde las hojas representan los segmentos y el nodo raíz engloba por completo el conjunto de datos de entrada. Al principio, el árbol consiste en un único nodo raíz. Las instancias se van añadiendo una a una y el árbol se va actualizando en cada paso. La actualización consiste en encontrar el mejor sitio donde incluir la nueva instancia, operación que puede necesitar de la reestructuración de todo el árbol (incluyendo la generación de un nuevo nodo anfitrión para la instancia y/o la fusión/partición de nodos existentes) o simplemente la inclusión de la instancia en un nodo que ya existía. La clave para saber cómo y dónde se debe actualizar el árbol la proporciona una medida denominada utilidad de categoría, que mide la calidad general de una partición de instancias en un segmento. La reestructuración que mayor utilidad de categoría proporcione es la que se adopta en ese paso. Cobweb crea un cluster jerárquico con un árbol de clasificación. En un árbol de clasificación cada nodo es un concepto que tiene una descripción probabilística de ese concepto que resume los objetos clasificados bajo ese nodo. La descripción probabilística incluye la probabilidad del concepto (P(Ci)) y las probabilidades condicionales de pares atributos-valor dado el concepto (P(Ai = Vij Ck)) (Garre, M. et al, 2008). Cobweb utiliza una medida llamada utilidad de la categoría para construir un árbol: 28

37 (1.4) Donde: n es el número de clases en un nivel del árbol. La utilidad de la categoría mide el valor esperado de valores de atributos que pueden ser predichos a partir de la partición sobre los valores que se pueden predecir sin esa partición. Si la partición no ayuda en esto, entonces no es buena partición. Cuanto más grande es la proporción de elementos de la clase que tienen ese atributo-valor, ese atributo-valor es más predictivo sobre la clase. Cobweb desciende el árbol buscando el mejor lugar o nodo para cada objeto. Esto se basa en poner el objeto en cada nodo y en un nodo nuevo y medir en cual se tiene la mayor ganancia de utilidad de categoría. El algoritmo Cobweb también considera en cada iteración unir los dos mejores nodos evaluados y dividir el mejor nodo evaluado. Esto es, cada vez que se considera un lugar en un nivel para un nuevo objeto, se consideran los dos mejores objetos (de mayor utilidad) y se considera juntarlos. El caso contrario, sucede una vez que se encuentra el mejor lugar para un nuevo objeto, pero el unir nodos no resulta beneficioso, entonces se considera dividir ese nodo. Por otra parte, Cobweb asume que la distribución de probabilidad de los atributos es independiente de las demás. El algoritmo se puede extender a valores numéricos usando distribuciones gaussianas. (Garre, M. et al, 2008). (1.5) El equivalente a la sumatoria de probabilidades es ahora: (1.6) Entonces se estima la desviación estándar del atributo numérico con los datos en el cluster y en los datos para todos los clusters: 29

38 (1.7) Si la desviación estándar es cero el valor de utilidad se vuelve infinito, por lo que se impone un valor de varianza mínimo en cada atributo (acuity). El otro parámetro que se usa en Cobweb es el de corte (cutoff), que básicamente se usa para parar la generación de nuevos nodos LA CLASIFICACIÓN El proceso general para generar un modelo de clasificación se resume en el siguiente gráfico (ver figura 1.8). Figura 1.8 Etapas para la generación de un modelo de clasificación. (Referencia: Corso, C., 2008) Se selecciona el Conjunto de datos de entrenamiento (opción: Use training set en WEKA). El algoritmo infiere (aprende) de dicho conjunto de datos y genera un Modelo (conjunto de reglas). Este Modelo deduce (predice) las clases contenidas en el Conjunto de datos de entrenamiento y como resultado crea un Conjunto de datos de testeo. (Corso, C., 2008) Mediante la comparación de las clases reales contenidas en el Conjunto de datos de entrenamiento con las clases predichas en el Conjunto de datos de testeo se determina el por ciento de aciertos logrado. En dependencia de dicho porcentaje se estima en qué medida el Modelo creado por el algoritmo es adecuado para clasificar ese tipo de datos. Si la clasificación se considera suficientemente certera, se asume que se ha obtenido un Modelo Validado y por tanto se estima que dicho Modelo (Conjunto de reglas) ha sido capaz de generar artificialmente un Conjunto de datos de testeo que es una reproducción suficientemente fiel del Conjunto de datos de entrenamiento. De esta manera, en el Conjunto de datos de testeo se 30

39 revelarán fielmente las etiquetas de cada una de las clases contenidas en el Conjunto de datos de entrenamiento. (Corso, C., 2008), (Hernández, J. & Ferri, C., 2006) En dependencia de la calidad del Modelo obtenido, si existieran valores perdidos (vacíos o sin datos) en el Conjunto de datos de entrenamiento, podrían descubrirse sus valores en el Conjunto de datos de testeo (predicción) (Basulto, M., 2011). Una vez entrenado el algoritmo, también podrá someterse a evaluación un nuevo conjunto de datos que sea similar al Conjunto de datos de entrenamiento, pero cuyas clases no estén etiquetadas (en WEKA, mediante la opción: Supplied test set ), así, de acuerdo con el Modelo (Conjunto de reglas) creado previamente por el algoritmo, se generará como predicción un Conjunto de datos de testeo en el cual las clases aparecerán artificialmente etiquetadas. (Hernández, J. & Ferri, C., 2006) Clasificación mediante el k-vecino más próximo (K-NN). K-NN es una técnica de clasificación supervisada basada en ejemplares. La idea básica sobre la que se fundamenta el paradigma de los K vecinos más cercanos (K-Nearest Neighbour, K- NN) es que un nuevo caso se va a clasificar en la clase más frecuente a la que pertenecen sus K vecinos más próximos. El concepto de proximidad o cercanía requiere de la definición de una medida sobre el espacio de atributos de los patrones. Es habitual el uso de la distancia Euclideana, pero también hay otras opciones, como la distancia Euclideana ponderada, distancia de Minkowski, simple o ponderada, distancia de Manhattan, distancia de Canberra, etc. En ocasiones, la selección de la medida de proximidad apropiada para un problema pudiera llegar a ser determinante para que el clasificador obtenga buenos resultados. (Cleary, J. & Trigg, L., 1995) Características significativas del método de los K vecinos más cercanos: Esquema de clasificación común, basado en el uso de medidas de distancia. Es un tipo de aprendizaje por analogía. La técnica asume que el conjunto completo de entrenamiento incluye no solo los datos sino también la clasificación deseada. Los datos de entrenamiento se toman entonces como referencia. 31

40 El conjunto de entrenamiento es descrito por atributos numéricos n-dimensionales. Cada individuo representa un punto en un espacio n-dimensional. Así, el conjunto de entrenamiento es almacenado en un espacio patrón n-dimensional. Cuando se clasifica un individuo nuevo se busca en el espacio patrón los k individuos más cercanos al nuevo individuo. La cercanía es usualmente definida en términos de la distancia euclideana, donde la distancia entre dos puntos, X = (x1, x2,, xn) y Y = (y1, y2,, yn) es: (1.8) El nuevo individuo es asignado a la clase más común o mayoritaria entre sus k vecinos más cercanos. Cuando k = 1 se asigna la clase del elemento más cercano. El resultado de la utilización de un vecino con distancia euclideana da lugar a fronteras de decisión poliédricas a igual distancia entre los patrones más próximos a ambos lados de la frontera. Se pueden generar fronteras de decisión más complejas, bien variando la medida de proximidad empleada, bien utilizando K vecinos. Existen varios métodos de K vecinos (Cleary, J. & Trigg, L., 1995) En la figura 1.9 se muestra un ejemplo del algoritmo K-NN para un sistema de dos atributos, representándose por ello en un plano. En este ejemplo se ve cómo el proceso de aprendizaje consiste en el almacenamiento de todos los ejemplos de entrenamiento. Se han representado los ejemplos de acuerdo a los valores de sus dos atributos y la clase a la que pertenecen (las clases son + y -). La clasificación consiste en la búsqueda de los k ejemplos más cercanos al ejemplo a clasificar. (Cleary, J. & Trigg, L., 1995) Figura 1.9 Ejemplo de Aprendizaje y Clasificación con K-NN. (Referencia: Cleary, J. & Trigg, L., 1995) 32

41 El método de los k-vecinos o k-nn es un método retardado (lazy learning-aprendizaje perezoso) y supervisado (pues su fase de entrenamiento se hace en un tiempo diferente al de la fase de prueba) cuyo argumento principal es la distancia entre instancias. El método básicamente consiste en comparar la nueva instancia a clasificar con los datos k más cercanos conocidos, y dependiendo del parecido entre los atributos el nuevo caso se ubicará en la clase que más se acerque al valor de sus propios atributos (cumpliendo así lo planteado por el concepto de heurística de consistencia). La principal dificultad de este método consiste en determinar el valor de k, ya que si toma un valor grande se corre el riesgo de hacer la clasificación de acuerdo a la mayoría (y no al parecido), y si el valor es pequeño puede haber imprecisión en la clasificación a causa de los pocos datos seleccionados como instancias de comparación. Por tanto, usualmente se requiere de un tanteo empírico para optimizar los resultados Los algoritmos K-NN: IBK y KStar en WEKA Estos algoritmos están contenidos en el software libre WEKA, bajo las siguientes denominaciones: IBk: Clasificador del k-vecino más próximo. Utiliza la distancia euclideana normalizada. Mediante el valor asignado a k se seleccionan los k vecinos más cercanos a considerar en el cálculo. KStar: Clasificador basado en instancias, se fundamenta en funciones de similitud entre instancias y utiliza la función de distancias basado en entropía. Dado que el algoritmo k-nn permite que los atributos de los ejemplares sean simbólicos y numéricos, así como que haya atributos sin valor (missing values) el algoritmo para el cálculo de la distancia entre ejemplares se complica ligeramente. Además de los distintos tipos de atributos hay que tener en cuenta también, en el caso de los atributos numéricos, los rangos en los que se mueven sus valores. Para evitar que atributos con valores muy altos tengan mucho mayor peso que atributos con valores bajos, se normalizarán dichos valores con la siguiente ecuación: (1.9) 33

42 En esta ecuación x if será el valor i del atributo f, siendo min f el mínimo valor del atributo f y Max f el máximo. Por otro lado, el algoritmo permite dar mayor preferencia a aquellos ejemplares más cercanos al que se desea clasificar. En ese caso, en lugar de emplear directamente la distancia entre ejemplares, se utilizará la ecuación: (1.10) El algoritmo IBK está basado en instancias, por ello consiste únicamente en almacenar los datos presentados. Cuando una nueva instancia es encontrada, un conjunto de instancias similares relacionadas es devuelto desde la memoria y usado para clasificar la instancia consultada. El algoritmo KStar, como IBK, constituye una técnica de clasificación supervisada basada en ejemplares, esto significa que la clasificación de una instancia está basada en la clasificación de instancias de entrenamiento similares, determinadas por alguna función de similitud. Se diferencia en que usa una función de distancia basada en entropía. Es un método en el que se aplica una medida de similitud distinta de la euclideana, que en la práctica pondera la influencia de los vecinos en función de su proximidad al patrón que se quiere clasificar; el algoritmo permite ajustar mediante un parámetro (blending parameter) el número K de vecinos que se toman en cuenta al hacer la clasificación. El número efectivo de instancias para cualquier función P* puede calcularse mediante la siguiente ecuación (Cleary, J. & Trigg, L., 1995) (1.11) La probabilidad de que una instancia se encuentre en la categoría C se obtiene mediante la suma de las probabilidades de cada instancia que sea miembro de C. 34

43 (1.12) KStar tiene las siguientes características: Admite atributos numéricos y simbólicos, así como pesos por cada instancia. Permite que la clase sea simbólica o numérica. En el caso de que se trate de una clase numérica se empleará la ecuación para predecir el valor de un ejemplo de test. Para el cálculo de los parámetros x0 y s permite basarse en el parámetro b o en el cálculo de la entropía (1.13) En la ecuación recién mostrada, v(i) es el valor (numérico) de la clase para el ejemplo i, n el número de ejemplos de entrenamiento, y P*(i j) la probabilidad de transformación del ejemplo j en el ejemplo i El algoritmo ZeroR en WEKA ZeroR es el algoritmo que viene por defecto en WEKA. Opera por Inducción de reglas. Es uno de los más primitivos clasificadores, si las clases son categóricas predice la preponderante, o sea, asigna a todas el valor de la clase predominante. En caso de ser clases numéricas las promedia y asigna a todas el valor medio. (Witten, I. et al., 1999). Por su baja calidad es muy usado como punto de comparación para comprobar la efectividad de otros algoritmos. (Mora, R.; Vidal, O. & Guerrero, L., 2011) 1.7 LAS INVESTIGACIONES SOBRE ACCIDENTES DE TRÁNSITO EN EL MUNDO En el mundo actual, los accidentes de tránsito constituyen un campo de especialización que demanda más atención de la que realmente recibe, es un desafío que requiere esfuerzos mancomunados para lograr una prevención efectiva y sostenible. De todos los sistemas con los cuales las personas tienen que lidiar a diario, los sistemas de tránsito vial son los más complicados y los más peligrosos. En todo el mundo, se estima que 1.2 millones de personas 35

44 mueren en accidentes de la vía cada año, mientras que 50 millones resultan lesionados. Las estimaciones indican que estas cifras aumentarán alrededor de un 65% durante los próximos 20 años a menos que se establezca un nuevo compromiso para la prevención. No obstante, la tragedia que yace detrás de estas cifras atrae menos la atención de los medios de comunicación mundiales que otros tipos de problemas menos frecuentes. (World Health Organization, 2004) El informe mundial de prevención de lesiones por accidentes de tránsito en la vía constituye el informe principal que publican conjuntamente la Organización Mundial de la Salud (OMS) y el Banco Mundial en este tema. En el mismo se subraya gran preocupación sobre la inseguridad de los sistemas de tránsito vial, los cuales son seriamente nocivos para el desarrollo y la salud pública global. Se considera que el nivel de lesionados por accidentes de tránsito es inaceptable, sobre todo porque son en gran medida evitables. Además, los daños materiales que se producen como consecuencia de los accidentes de tránsito a menudo resultan económicamente considerables y en ocasiones llegan a ser extremos. (World Health Organization, 2004). A fin de estructurar las investigaciones en el complejo sistema del tráfico, existe un elemento de gran ayuda, muy utilizado: la matriz de William Haddon (Haddon W. 1968). En este modelo, se consideran tres elementos clásicos de la circulación: Ser humano, Vehículo o equipo y Entorno, que se distribuyen en el tiempo en el que se desarrolla un accidente. Como se muestra a continuación (ver figura 1.10), se trata de sistematizar la influencia que cada elemento tiene en la fase de pre-accidente, durante el accidente y en la fase post-accidente (Matriz de William Haddon, 2009) La idea es lograr: disminuir la exposición a los riesgos prevenir las colisiones procurar que los traumatismos sean menos graves en caso de colisión atenuar las consecuencias de los traumatismos mejorando la atención después de un choque 36

45 FACTORES SER HUMANO VEHÍCULO (de tracción motorizada, de tracción animal o de tracción humana) ENTORNO ANTES DEL ACCIDENTE (Prevención del accidente) Información preventiva Limitaciones físicas o mentales Cumplimiento del código del tránsito Buen estado técnico Luces Frenos Maniobrabilidad Control de la Velocidad Diseño y trazado de la vía pública Señalizaciones Limitación de la Velocidad Vías peatonales FASE DURANTE EL ACCIDENTE (Prevención de traumatismos durante el accidente) Utilización de dispositivos de retención. Acciones para evitar o atenuar las lesiones Funcionamiento de los dispositivos de retención de los ocupantes. Efectividad de otros dispositivos de seguridad Eficacia del diseño contra lesiones Objetos protectores contra choques Barreras de seguridad contra la salida del vehículo de la vía y prevención de caídas a barrancos Pavimento en buenas condiciones DESPUÉS DEL ACCIDENTE (Conservación de la vida) Primeros auxilios Rapidez en el acceso a la atención médica Facilidad de acceso Riesgo de incendio Servicios de socorro Congestión en la vía Figura 1.10 Resumen del Modelo de William Haddon. (Referencia: Elaboración propia a partir de OMS, 2004 ) El Manejo Inteligente se basa en el concepto de "aprender del accidente y utiliza la definición de William Haddon que postula una división del suceso en tres etapas interrelacionadas: 1 Pre-accidente: se inicia desde el momento de ser conductores e incluye todo aquello que se puede llegar a hacer para evitar el accidente. Su límite es la pérdida del control representada por la acción refleja. Cuando el conductor actúa por reflejo es porque lo hizo tarde y mal, porque aunque tal vez no haya roto nada o no se lastime, habrá perdido el control del vehículo. El Manejo Inteligente orienta la capacitación para alejarlo de esa línea de acción. Por ejemplo, es conveniente centrar los esfuerzos de capacitación para evitar salirse de la ruta, antes que enseñar el dominio de maniobras en la emergencia. 2 Accidente: la segunda etapa es el accidente propiamente dicho, donde intervienen los mecanismos de seguridad activa y pasiva. 3 Post-accidente: es la planificación para administrar la crisis. 37

46 Aprender del accidente se ubica en la primera etapa, el Pre-accidente. El conductor inteligente entiende al accidente como suceso evitable y el manejo seguro como un proceso de cognición. Figura 1.11 Versión de la Matriz de William Haddon. (Referencia: Proyecto UE-Perú/Penx, 2009). Como se aprecia en la figura 1.11 esta matriz es válida para el estudio de un único accidente o para un conjunto determinado de ellos. Se conoce que un accidente no es el resultado de una única causa sino que, por el contrario, en gran parte de ellos confluyen un conjunto de factores y la matriz de Haddon ayuda al investigador a ordenar el conocimiento sobre el tema investigado. También se puede utilizar para estudiar un problema parcial de la seguridad vial como es por ejemplo el de la conducción bajo los efectos del alcohol. El análisis de este factor, desencadenante de muchos accidentes, mediante esta matriz, facilita la identificación de políticas preventivas distribuidas en el tiempo qué se puede hacer antes y después de que ocurra un accidente por alcoholemia positiva para que el conductor no vuelva a reincidir? Los reportes sobre la accidentalidad Desde principios del siglo XX se conoce que en el mundo la mayoría de los sucesos relacionados con la accidentalidad son los Incidentes, en los cuales no hay lesionados o donde las lesiones son insignificantes, mientras que los daños materiales, de haberlos, suelen ser ligeros, por lo que frecuentemente estos sucesos resultan subestimados y como consecuencia solamente se reporta una parte de ellos. Por otro lado, se suelen considerar como Accidentes a 38

47 aquellos eventos en los cuales hay lesionados y/o daños materiales. De modo que, los sucesos relacionados con la accidentalidad se suelen clasificar como: Accidentes, Incidentes y Sucesos no reportados, cuyas cantidades aumentan en ese mismo orden, o sea, por cada Accidente ocurren numerosos Incidentes, mientras que hay una mayoría de sucesos que no se reportan porque se consideran irrelevantes o de poca importancia, lo cual se puede apreciar gráficamente en la Pirámide de Heinrich mostrada en la figura En la práctica sucede que al tomar como referencia los reportes realizados sobre la accidentalidad, donde se omite la mayoría de los Incidentes, se está limitando la efectividad de los estudios que se realicen al respecto. (Heinrich H., 1931). Figura 1.12 Pirámide de Heinrich (Referencia: Rodríguez, M., 2005) La obtención de los datos La obtención de los datos dependerá de que método de investigación se trate. En los niveles menos profundos de investigación se obtendrán de bases de datos de accidentes ya registrados y que proceden de la información recogida por los agentes policiales a través de los cuestionarios estadísticos de accidentes con víctimas o con daños materiales. También se pueden obtener a través de formularios diseñados al efecto que contendrán las variables definidas durante la planificación del estudio. En el caso de que éste vaya dirigido a estudiar el factor humano, la información se obtendrá mediante entrevistas que se realizarán con la técnica de encuesta más adecuada, ya sea cara a cara, telefónica, postal o informática. (Mederos, C. 2005) En los niveles más profundos de la investigación, la que se denomina investigación en profundidad, la toma de datos de los accidentes de tráfico debe hacerse directamente sobre el terreno y lo más próximo en el tiempo a la ocurrencia del accidente. Todo accidente de circulación deja alguna señal física de lo ocurrido. Los daños causados a los vehículos, las lesiones producidas a las personas, las marcas dejadas sobre el pavimento. Conviene recoger todas estas señales, registrarlas e interpretarlas correctamente puesto que en numerosas ocasiones será lo único que se pueda obtener objetivamente sobre el accidente. En efecto, en algunos accidentes mortales no queda nadie que pueda decir lo que ha pasado. En otros, los 39