Proceso de Data Mining en sistema de medición de calidad en plazo del correo nacional UNIVERSIDAD PONTIFICIA COMILLAS PROYECTO FIN DE CARRERA

Transcripción

1 UNIVERSIDAD PONTIFICIA COMILLAS ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA (ICAI) INGENIERO EN INFORMÁTCA PROYECTO FIN DE CARRERA Proceso de Data Mining en sistema de medición de calidad en plazo del correo nacional DIRECTOR: JOSÉ ÁNGEL OLIVAS VARELA AUTOR: ALFREDO CARRERAS GÓMEZ Alfredo Carreras Gómez Página I

2 Agradecimientos Tras estas líneas comienza el final de mi vida universitaria. Ha sido un camino largo y duro, y, sin embargo, lleno de buenos momentos que sin duda alguna han marcado mi carácter personal y mi perfil profesional. Quisiera agradecer en especial a mi familia el apoyo y cariño prestado durante todo este tiempo, y a mi novia por la paciencia y comprensión que ha demostrado. Igualmente, me gustaría agradecer a todos los profesores, en especial a aquellos que decidieron andar conmigo todo o parte de este camino, sus aportaciones durante el tiempo que ha durado esta experiencia han sido fundamentales. Por último, me gustaría mencionar a todos los excepcionales compañeros y amigos que he podido conocer durante estos años de carrera. En todo momento he podido contar con vosotros. Alfredo Carreras Gómez Página II

3 RESUMEN Al utilizar los servicios postales que Correos y Telégrafos ofrece en este país y en el extranjero, siempre me había preguntado si la felicitación navideña para los abuelos llegaría a tiempo o si el regalo para mi hermano llegaría en la fecha exacta de su cumpleaños, o unos días antes o después. Se dispone de información obtenida tras la medición de calidad en plazo del correo nacional mediante cartas test desde el año 2000 distribuidas entre las 52 provincias españolas por empresas y particulares. En total, cerca de unas cartas ordinarias y unas cartas urgentes. Para llevar a cabo la medición de la calidad End-to-End (medida en días de entrega entre la fecha de deposición de un envió y la fecha de recepción) se requiere un panel de empresas y particulares distribuidas entre las 52 provincias españolas, que pueden actuar tanto de emisores como de destinatarios de cartas test. Cada semana se asigna el volumen de correo a enviar para cubrir unos requerimientos mínimos impuestos por Correos, llegando a enviarse anualmente cerca de cartas para la línea básica y para la línea urgente. El estudio mide la calidad en plazo de la carta ordinaria (envíos de carácter personal que no superen los 2 Kg), tanto la línea básica como urgente, para flujos de correo local, provincial y nacional. Para cada uno de estos flujos se distingue el método de franqueo (sello, máquina de franquear o franqueo pagado), método de inducción (buzón, oficina de correos o centro de admisión masiva), el tipo de carta (definido según parámetros como tamaño, peso, dirección postal, lugar de recogida,...), dirección (escrita a mano o a maquina), tipo de panelista (empresa o particular), día de la semana en que fue depositada, etc. Toda esta información relevante para el estudio se almacena en una base de datos histórica de gran tamaño. La base de datos contiene millones de registros, cada registro a su vez tiene cientos o miles de campos. Bajo estas condiciones, es casi imposible obtener información de interés con una simple exploración de datos. Alfredo Carreras Gómez Página III

4 Para obtener conocimiento mediante reconocimiento de patrones, predicciones basadas en datos históricos, clasificación automática, clustering es necesario diseñar una herramienta de Data Mining que realice este tipo de análisis de forma automatizada, a gran velocidad y con altos niveles de exactitud. La base de datos contiene millones de registros, cada registro a su vez tiene cientos o miles de campos. Bajo estas condiciones, es casi imposible obtener información de interés con una simple exploración de datos. Para obtener conocimiento mediante reconocimiento de patrones, predicciones basadas en datos históricos, clasificación automática, clustering es necesario diseñar una herramienta de Data Mining que realice este tipo de análisis de forma automatizada, a gran velocidad y con altos niveles de exactitud. La Minería de Datos es una etapa dentro del proceso de Descubrimiento de Conocimiento en Bases de datos, Knowledge Discovery in Databases, KDD. KDD se define como "el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos". En este proyecto de KDD se han aplicado todas las etapas de las que consta un proceso de descubrimiento de conocimiento en bases de datos: Alfredo Carreras Gómez Página IV

5 1. Integración y recopilación Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas. 2. Preparación de Datos Seleccionar y preparar el subconjunto de datos que se va a minar, mediante la detección de valores anómalos, faltantes o erróneos y la transformación de atributos, discretización y numeración. 3. Minería de Datos Dentro de la etapa propia de Minería de Datos se han identificado tareas y técnicas para la búsqueda de información oculta, novedosa y potencialmente útil, destacando: - Clasificación (árboles de decisión ID3) - Predicción (mediante reglas y factores de certeza. 319 reglas) - Segmentación (clústering jerárquico) - Análisis de correlación (coeficiente de correlación lineal) Reglas de asociación (ajuste de curva univariable). 4. Evaluación En esta fase se evalúan los patrones y se analizan por los expertos, y si es necesario vuelve a las fases anteriores para una nueva iteración. Esto incluye resolver posibles conflictos con el conocimiento que se disponía anteriormente. 5. Difusión y Uso de Modelos La herramienta de Data Mining desarrollada es capaz de determinar las causas del retraso de una carta, estimar la predicción del plazo y estado de recepción para cualquier origen y destino nacional, identificar comunidades autónomas con similares patrones de comportamiento, analizar como se distribuyen los datos a través del tiempo e incluso identificar las rutas óptimas y las más tardías, para posteriormente poder realizar acciones correctoras en rutas en las que la demora en la recepción de envíos está por debajo de los estándares. Esto redundará en una mejora de la calidad del plazo de entrega del correo nacional. Navidad. Gracias a esta herramienta, el año que viene mis abuelos recibirán antes la felicitación de Alfredo Carreras Gómez Página V

6 ABSTRACT After using postal services offered by Correos y Telégrafos in our country and abroad, I have always wonder if my grandfather s Christmas card will be arrive on time, or if my brother s birthday gift Hill arrive in his day of birth, maybe later or sooner. There is a lot of information taken after measuring quality in the arrival time of the nacional postal service through test letters since year 2000, allocated for all 52 provinces by business and particular participants. Totally, near ordinary letters and urgent letters. The database has million of registers, rows, columns, With this amount of data, is almost impossible to get useful information with a simple data exploration. To get rich knowledge using pattern recognition, automatic classification, clustering, we need to develop a Data Mining tool to make this kind of analysis correctly, fast and with high level of accuracy. We deals with a KDD Project (Knowledge Discovery from Databases) where all steps of the KDD process has been done. The steps applied to get the usefull Knowledge are: 1. Integration and recopilation 2. Data preparation 3. Data Mining 4. Evaluation 5. Deployment and Models using Integration and recopilation Data selection, cleansing and transformation Data Mining Interpretation and evaluation Diferent sources of data Data Minable view Pattern Knowledge Alfredo Carreras Gómez Página VI

7 In the Data Mining stage, it has been identified tasks and technologies to informationretrival, new and useful knowlege, such as: - Classification (ID3 decission trees) - Prediction (319 rules) - Clustering (hierarchical clustering) - Correlative analysis (linear regresion) - Associaiton rules (one-variable adjustment curve) The Data Mining tool developed is able to determine the causes of a setter delay, to predict when the letter will arrive and the estate of reception for any national origin or destination, to identify autonomous regions with similar pattern behaviour, to analize data distribuion over the time and even to identify the bests routes and those where it takes so much times, afterwards to be able to begin new actions to improve that routes. Thanks to the development of this tool, the next year my grandfathers will receive earlier the Christmas card. Alfredo Carreras Gómez Página VII

8 INDICE 1. INTRODUCCIÓN DEFINICIÓN DEL PROYECTO Análisis de las necesidades de la organización y definición del problema Antecedentes El sector postal Introducción El Sector Postal en la UE Tendencias en el sector postal europeo Estrategias de las Operadoras Postales Correos y Telégrafos Gestión de la logística Adquisición de conocimiento Definición de requisitos Alcance del proyecto Objetivos del proyecto Análisis de viabilidad Metodología Ciclo de vida del proyecto INTRODUCCIÓN A LA MINERIA DE DATOS El concepto de Minería de Datos y KDD Tipos de modelos Tareas de la Minería de Datos Clasificación Regresión Agrupamiento o clustering Correlaciones Reglas de asociación Técnicas de Minería de Datos Alfredo Carreras Gómez Página VIII

9 3.5 Relación de la Minería de Datos con otras tecnologías de bases de datos SQL y OLTP DataWarehouse y OLAP Relación de la Minería de Datos con otras disciplinas Áreas de Aplicación EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO FASE DE INTEGRACIÓN Y RECOPILACIÓN DE DATOS Identificación de fuentes internas Identificación de fuentes externas Diseño del nuevo esquema de almacenamiento integrado PREPARACIÓN DE DATOS Limpieza de datos Detección de valores erróneos Detección de valores anómalos Detección de valores faltantes Transformación de atributos Discretización y numeración Selección de datos MINERÍA DE DATOS Tareas de Minería de Datos realizadas Clasificación Predicción Análisis de correlación Reglas de asociación Segmentación Técnicas de Minería de Datos utilizadas Árboles de decisión Predicción mediante Factores de Certeza Regresión lineal Ajuste de curva univariable Repertory Grid Alfredo Carreras Gómez Página IX

10 4.3.3 Implementación de los algoritmos Algoritmo ID Cálculo de Factores de Certeza Cálculo del coeficiente de correlación lineal Tabla de Ajuste Clustering jerárquico Otros cálculos realizados EVALUACIÓN Y PRUEBAS Evaluación del algoritmo de Clasificación Evaluación del algoritmo de Predicción Evaluación del algoritmo de Clustering INTERPRETACIÓN DE RESULTADOS OBTENIDOS Interpretación del árbol de decisión ID Estimación de probabilidad Análisis del coeficiente de correlación lineal Análisis de curvas univariables Análisis de los clusters generados CONCLUSIONES BIBLIOGRAFÍA ANEXOS Reglas de Predicción (FCs) Glosario de términos Manual de usuario Alfredo Carreras Gómez Página X

11 1. INTRODUCCIÓN 1. INTRODUCCIÓN El presente Proyecto Fin de Carrera describe el proceso completo de KDD (Knowledge Discovery in Databases) para obtener conocimiento e información oculta sobre los datos obtenidos tras la medición de calidad en plazo del correo nacional mediante cartas test, que se está llevando a cabo en IBM Business Consulting Services para Correos y Telégrafos desde septiembre del año Al utilizar los servicios postales que Correos y Telégrafos (a partir de ahora CyT) ofrece en este país y en el extranjero, siempre me había preguntado si la felicitación navideña para los abuelos llegaría a tiempo o si el regalo para mi hermano llegaría en la fecha exacta de su cumpleaños, o unos días antes o después. Tras desarrollar una herramienta como proyecto de fin de carrera, que utiliza las técnicas y algoritmos más utilizados de Data Mining, ya no nos lo preguntamos más. Lo sabemos. El Cliente Correos y Telégrafos S.A. es el líder indiscutible del mercado postal en España. Tiene una cuota de mercado del 90% en el transporte de documentos y mercancías de carácter no urgente. Gestiona más de millones de envíos postales al año. Dispone de más de empleados y puntos de atención al público. El Proyecto Conocer datos globales respectivos a la calidad en plazo de los envíos postales requiere crear un diseño estadístico muy complicado, encontrar una muestra adecuada con un performance que raye la perfección, y muchísimo esfuerzo por parte de un equipo combinado de personas pertenecientes a IBM Business Consulting Services, y a la empresa de recogida de datos. La variable a medir es el número de días de entrega de las cartas y el sistema de medición es end-to-end. Para ello es necesario una persona o empresa (panelistas) en un extremo que envíe la carta (remitente) y otra, en el otro extremo, que la reciba (destinatario). Existen casi 900 personas enviando y recibiendo cartas desde hace más de un año. Alfredo Carreras Gómez Página 1

12 Ya se han enviado más de cartas. En total han participado más de personas o empresas (entre ellas Telefónica, El Corte Inglés, Iberdrola, La Caixa...). Grabación de datos Una vez que el destinatario recibe las cartas, las devuelve al centro de recogida de datos y allí son grabados los datos por expertos. Control de la red de panelistas La calidad de la información referente a las cartas test depende en gran parte de la actuación de los 900 panelistas. Por ello, es necesario mantener un control exhaustivo, constante e individualizado de su comportamiento. Medición de la calidad Para llevar a cabo la medición de la calidad End-to-End (medida en días de entrega entre la fecha de deposición de un envió y la fecha de recepción) se requiere un panel de empresas y particulares distribuidas entre las 52 provincias españolas, que pueden actuar tanto de emisores como de destinatarios de cartas test. Junto con el plazo de entrega se almacena más información relativa a la carta tests: estado de recepción (buena, aceptable o mala), línea (ordinario, urgente), método inducción o de depósito (buzón, oficina de correos o centro de admisión masiva), método de franqueo (sello, maquina de franquear o franqueo pagado),formato (normalizado, A4, C5), peso, dirección postal (escrita a maquina, mano), participante (empresa, particular),... Toda esta información relevante para el estudio se almacena en una base de datos histórica de gran tamaño. La base de datos contiene millones de registros, cada registro a su vez tiene cientos o miles de campos. Bajo estas condiciones, es casi imposible obtener información de interés con una simple exploración de datos. Para obtener conocimiento mediante reconocimiento de patrones, predicciones basadas en datos históricos, clasificación automática, clustering es necesario diseñar una herramienta de Data Mining que realice este tipo de análisis de forma automatizada, a gran velocidad y con altos niveles de exactitud. Alfredo Carreras Gómez Página 2

13 Los resultados El cliente ha emprendido acciones correctoras en las zonas en las que se ha identificado un nivel de calidad inferior a la media. Esto redundará en una mejora de la calidad del plazo de entrega del correo nacional. Se beneficiarán todas las personas que utilizan los servicios postales que ofrece nuestro cliente ( quién de vosotros no lo hace?). El año que viene, mis abuelos recibirán antes la felicitación de Navidad gracias a esta herramienta. Alfredo Carreras Gómez Página 3

14 2. DEFINICIÓN DEL PROYECTO 2. DEFINICIÓN DEL PROYECTO 2.1 Análisis de las necesidades de la organización y definición del problema Antecedentes Según el estándar de la Unión Europea sobre Servicios Postales EN 13850:2002 toda empresa estatal dedicada al servicio postal debe tener una empresa ajena al servicio que realice una medición de los tiempos de tránsito desde todas y cada una de las provincias españolas. IBM ha venido realizando este proyecto desde el año En el proyecto de medición se define como variable básica a analizar el plazo en días que media entre la fecha de depósito de un envío (carta test) realizado por un usuario del servicio y la fecha de recepción de dicho envío por parte del destinatario; en la terminología habitual esta duración es denominada End-to-End. Se dispone de información de cartas test distribuidas por todo el territorio nacional desde el año Los datos generales del Sistema de Medición de la Calidad son: - Cobertura geográfica. El sistema controla el rendimiento del correo enviado desde todas y cada una de las provincias españolas (52). - Flujos a medir. Los flujos objeto de la medición han sido los flujos locales, provinciales y nacionales: Local Provincial Nacional Tipo de flujo Origen y destino en la misma ciudad Origen y destino en la misma provincia Origen en una provincia y destino en otra del territorio nacional El número de localidades considerado en función del tipo de flujo ha sido el siguiente: Alfredo Carreras Gómez Página 4

15 Local Provincial y Nacional Capitales de provincia Localidades Importantes Oficinas técnicas Los resultados siguen la regla CEN Standard, es decir, se basan en una regla de cálculo que considera únicamente los 5 días laborables. Excluye sábados, domingos y días festivos en entrega y en admisión. Productos a medir Número de provincias Métodos de franqueo Lugares de deposito Tipo de escritura Días de depósito Tipo de remitentes Tipo de destinatarios Panelistas Tipos de flujos Formatos de las cartas Pesos de las cartas Estado de recepción Datos generales del proyecto Carta básica y Carta urgente 52 (origen-destino) Sello, Máquina de franquear y Franqueo pagado Buzón, Oficina de Correos y Centro de admisión masiva A mano y A máquina De lunes a sábado Particulares y Empresas Particulares y Empresas Más de (40% particulares, 60% empresas) Local, Provincial y Nacional normalizado/ C5 / A4 0-20gr / gr. / gr. buena / aceptable / mala o abierta / rota Características de las líneas Línea Básica Línea Urgente Formatos de cartas Normalizado, C5, A4 Normalizado Tipos de cartas 11 8 Localidades El ámbito geográfico abarca los tránsitos de correo enviado desde todas y cada una de las provincias españolas, es decir, un total de 52. Alfredo Carreras Gómez Página 5

16 A los efectos de la medición y seguimiento de la calidad, la variable a medir se define como los días de entrega medida de extremo a extremo, expresada como un factor de tiempo, y definida como el período transcurrido entre el depósito de los objetos postales en cualquier punto de la red postal (buzón, oficina postal o centro de admisión masiva) y la distribución de los objetos a sus destinatarios en el punto de entrega. La medición se hace sobre la carta ordinaria (envíos de carácter personal que no superan los 2 kilos), tanto de la línea básica, como de la línea urgente. Estándares de calidad Se han acordado los estándares de calidad a aplicar en el proyecto y en la actualidad dichos estándares de calidad son para línea básica: Flujo Línea básica Local D + 1 Provincial D + 2 Nacional D + 3 Y para la línea urgente los estándares de calidad son: Flujo Línea urgente Local D + 1 Provincial D + 1 Nacional D + 1 siendo D el día en el que el remitente envía la carta. Esto quiere decir que, para una carta básica enviada desde Getafe a Madrid (flujo local) se espera que sea recibida en el día siguiente al que se depositó. D + 1 significa, por lo tanto, que la carta debe llegar a su destino en un día, D + 2 en dos días y D + 3 en tres días. Flujos de correo De acuerdo con los requerimientos descritos en la norma EN 13850:2002, el sistema controla el rendimiento del correo enviado desde todas y cada una de las provincias españolas. Los flujos que deben ser controlados con relación a cada provincia pueden categorizarse entre los siguientes tipos que se describen abajo: Alfredo Carreras Gómez Página 6

17 Flujo Descripción Local Provincial Nacional Los que tienen como destino y origen la misma ciudad o pueblo. Los que tienen origen y destino en la misma provincia. Los que tienen origen en una provincia y destino en otra del territorio nacional. El sistema implantado mide, a través de todas las etapas del proceso postal los tiempos de tránsito del correo enviado desde todas y cada una de las provincias españolas. Alfredo Carreras Gómez Página 7

18 Los tipos de poblaciones son los siguientes: Tipo de población Capitales de provincia Línea Básica Línea Urgente Descripción Capitales de provincia Localidades importantes Administraciones postales Oficinas Técnicas (O.T.) Selección de O.T. distribuidas por toda la geografía española Para calcular la distribución de flujos de correo se genera una matriz de flujos actualizada con el fin de asemejar el estudio lo más posible a la realidad. A nivel nacional, el porcentaje para el correo nacido es: Flujo correo nacido Carta Básica Carta Urgente Local 20,0% 20,0% Provincial 23,0% 8,0% Nacional 57,0% 72,0% Los requerimientos planteados por Correos, establecen que los porcentajes correspondientes a la distribución del correo nacional intrazonal e interzonal deben ser: Flujo nacional Carta Básica Carta Urgente Intrazonal 49,0% 40,0% Interzonal 51,0% 60,0% Distribución semanal de flujos de correo El estudio se realizará continuamente a lo largo del año. El porcentaje del correo inducido en el sistema cada semana será el mismo todas las semanas del año, siguiendo la siguiente proporción: Días de la semana Carta Básica Carta Urgente Lunes 19% 19% Martes 19% 19% Miércoles 19% 19% Jueves 19% 19% Viernes 19% 19% Sábados 5% 5% Alfredo Carreras Gómez Página 8

19 Distribución mensual de flujos de correo Mes Línea Básica Línea Urgente Enero 8,2% 9,4% Febrero 7,8% 8,3% Marzo 8,6% 7,9% Abril 8,8% 9,3% Mayo 8,7% 9,0% Junio 8,3% 9,0% Julio 8,3% 8,4% Agosto 6,5% 4,6% Septiembre 7,6% 7,5% Octubre 8,5% 9,3% Noviembre 8,4% 8,5% Diciembre 10,3% 8,8% Reglas de cálculo de cartas test a producir Para estimar el número de envíos a producir, hay que considerar los siguientes factores: Requerimientos de precisión Es la precisión estadística requerida que define el rango en el que debe situarse el resultado, es decir, aquella cuyo error no sea superior al definido. Proporción de cumplimiento (on time proportion) Es el porcentaje de correo que se espera que cumpla el servicio estándar de acuerdo con el sistema. Es un factor clave para estimar el volumen de correo así como de la exactitud o precisión de los resultados. El efecto del modelo (design effect) Es una medida que afecta a la precisión de los correos. El modelo estadístico se construye de tal forma que trata de minimizar el efecto del modelo para el plan de producción. Estándar del servicio (Service Standard) Indica el número de días que se ha fijado como objetivo para cada panelista. Alfredo Carreras Gómez Página 9

20 Cluster Indica el número máximo de cartas para cada flujo que se puede incluir en cada fajo de cartas que induce cada día un panelista. Es un parámetro estadístico que consigue que un modelo estadístico pueda asemejarse a la realidad. La ratio de validez (valid rate) Es una medida que proporciona el porcentaje esperado del correo producido que, después de un proceso de depuración, se considera como correo válido. El objetivo del ratio de validez es del 80%, una cifra aceptable en el cálculo de los volúmenes de correo que se requiere. La siguiente fórmula se usa para calcular el número de cartas a producir para medir la calidad del servicio, con los requerimientos estadísticos que se pide en el Pliego de Condiciones Técnicas. La fórmula corresponde a la metodología del CEN sobre el asunto. V [ h h h a 1h h h b 2h h h ] Ah Bh ( pˆ ) n pˆ ( 1 pˆ ) + c r pˆ ( 1 pˆ ) + d r pˆ ( 1 pˆ ) donde h 1 = n 2 h a= 1 b= 1 c a = B h B h b = 1 b' = 1 n abh n ab' h d b = b 1 A h A h = b' = 1 n abh n ab' h Hay que hacer notar que, la fórmula tiene en cuenta un efecto eventual del diseño relacionado con los envíos de prueba recibidos por el mismo receptor el mismo día y con los envíos enviados por el mismo emisor el mismo día. Alfredo Carreras Gómez Página 10

21 Anotaciones: Símbolo H Wh ^ P h Ah Bh r1h r2h Nabh Nh Descripción es una categoría geográfica (h=1,,10) es el peso de la categoría h es la proporción de los envíos que llegan a tiempo en la categoría h es el número de puntos de introducción en la categoría h, enviando una o más cartas durante el periodo es el número de puntos de recepción o receptores en la categoría h, recibiendo una o más cartas durante el periodo es el coeficiente de correlación entre las variables de indicador a tiempo para cartas enviadas desde el mismo punto de introducción a diferentes receptores dentro de la categoría h es el coeficiente de correlación entre las variables indicador para cartas enviadas desde diferentes puntos de introducción a los mismos receptores dentro de la categoría h es el número de cartas de prueba enviadas desde un punto de introducción a un punto de recepción b durante el periodo en la categoría h es el número total de cartas de prueba enviadas en la categoría h durante el periodo Para valorar los resultados obtenidos tras aplicar la regla de cálculo, se definen los siguientes términos: Volumen de correo producido: Es el número de cartas test que se generan para el estudio. Volumen de correo válido: Es el número de cartas test que son incluidas como válidas en los informes entregados. Ratio de validez: Indica el porcentaje de correo válido. El volumen principal se distribuye de acuerdo con el flujo real de correo y los requerimientos geográficos descritos arriba. Los criterios por los que se considera que una carta test no es válida para el estudio son los siguientes: Plazo de entrega superior a 30 días. Cartas recibidas en días que no hay reparto. Cartas depositadas en días que no hay recogida (a excepción de las depositadas en buzón). Alfredo Carreras Gómez Página 11

22 Método de inducción no coherente con el método de franqueo. Cartas con el plazo de entrega negativo. Los resultados de la fórmula dan lugar al siguiente número de cartas de correo a enviar anualmente: Resultados de producción Año 2000 Línea Básica Periodo de producción Semanalmente Cartas producidas? Cartas válidas Resultados de producción Año 2001 Línea Básica Línea Urgente Periodo de producción Semanalmente Semanalmente Cartas producidas? x Cartas válidas x Resultados de producción Año 2002 Línea Básica Línea Urgente Periodo de producción Semanalmente Semanalmente Cartas producidas x Cartas válidas x Resultados de producción Año 2003 Línea Básica Línea Urgente Periodo de producción Semanalmente Semanalmente Cartas producidas Cartas válidas Resultados de producción Año 2004 Línea Básica Línea Urgente Periodo de producción Semanalmente Semanalmente Cartas producidas Cartas válidas Resultados globales de producción (desde año 2000 hasta 2004) Línea Básica Línea Urgente Cartas válidas teóricas Cartas válidas reales (en BD) Alfredo Carreras Gómez Página 12

23 Panel de distribución (remitentes y destinatarios) Para asegurar que el sistema de control de la calidad del servicio de Correos refleje con exactitud el ámbito real la red de remitentes y destinatarios tiene que ser distribuida por las 52 provincias. El correo utilizado para su seguimiento refleja la proporción real existente entre remitentes, particulares y empresas. De igual modo se operará con los destinatarios cumpliendo los siguientes porcentajes tanto para línea básica como la línea urgente: Remitentes Empresas: 60% Particulares: 40% Destinatarios Empresas: 40% Particulares: 60% El número total de panelistas es más de 1000 en cada momento. Se han establecido procedimientos estrictos de control para asegurar que los paneles de emisores y receptores sean desconocidos para la red logística de Correos y por tanto independientes en sus actuaciones. La metodología para recopilar información de paneles y gestionarla para su utilización en el proyecto implica que los emisores y receptores devuelven la información de las cartas test recibidas, donde se graban los datos, y cómo se procesan en nuestro sistema. Alfredo Carreras Gómez Página 13

24 Los requerimientos de trabajo para la red de emisores son los siguientes: Un emisor no debe introducir dos o más cartas el mismo día para el mismo receptor; Un emisor no debe introducir dos o más cartas el mismo día para los receptores que tienen sus direcciones en la misma categoría geográfica; Un emisor introduce cartas cada dos días. Es decir o los lunes, miércoles y viernes o bien los martes, jueves y sábado; Se reemplaza un 25% de los emisores con carácter anual. Para cumplir con los requerimientos descritos arriba, teniendo en cuenta el volumen total de correo y su distribución geográfica, el número de emisores necesario es de 419 distribuidos en todas y cada una de las provincias. Línea básica + urgente Número de emisores 419 Los requerimientos para la red de receptores son los siguientes: Cada receptor debe recibir no más de una carta cada dos días; Se reemplaza un 25% anual de los receptores. Basándose en los requerimientos expuestos arriba, el volumen total de correo y en el documento de licitación, y teniendo en cuenta la distribución geográfica asumida de los envíos, el número de receptores necesarios es de 641, extendidos a lo largo de todas las provincias españolas. Línea básica + urgente Número de receptores 641 Inducción del sistema Los panelistas introducen el correo objeto de estudio en la red de Correos antes de la hora límite de recogida o admisión fijada, a través de las siguientes vías de acceso: Buzón: depósito con sello o estampilla. Oficina postal: buzón propio de la oficina, admisión en ventanilla. Depósito con sello, estampilla o máquina de franquear. Alfredo Carreras Gómez Página 14

25 Centros de admisión masiva: sólo las provincias o unidades más representativas que Correos fije. Depósito con máquina de franquear o franqueo pagado. Todas las capitales de Provincias, así como aproximadamente otras 28 localidades de España tendrán representados los dos (o tres en caso de tener centro de admisión masiva) métodos de inducción. Relación entre el método de inducción y el método de franqueo El método de franqueo y el método de inducción están relacionados en la siguiente manera: Buzón: depósito con sello o estampilla. Oficina postal: buzón propio de la oficina, admisión en ventanilla. Depósito con sello, estampilla o máquina de franquear. Centros de admisión masiva: sólo en las provincias o unidades más representativas. Depósito con máquina de franquear o franqueo pagado. Método de franqueo Sello Método de inducción Buzón Máquina de franquear Franqueo pagado Oficina Postal Centros de admisión masiva Todas las capitales de provincia tienen representados los dos (o tres en caso de tener Centro de admisión masiva). Política de logística en Correos y Telégrafos A continuación se especifican los días en los que hay inducción y días en los que hay reparto. Además, se muestran los horarios límite de depósito para los diferentes lugares de Inducción. Alfredo Carreras Gómez Página 15

26 Días de inducción y días de reparto Línea Básica Inducción Reparto Lunes-Viernes Sí Sí Sábados Sí Sí Domingos No No Fiestas No No Días de inducción y días de reparto Línea Urgente Inducción Lunes-Viernes Sí Sí Sábados Sí Sí Domingos No No Fiestas No No Reparto OFICINAS (Ventanilla y Buzón Oficina) HORARIOS LÍMITES DE DEPÓSITO Oficinas Principales de Capitales de Provincia y Administraciones Surcursales Urbanas Admisión Mañana y Tarde Oficinas Técnicas y Sucursales Admisión Mañana LUNES - VIERNES 17,00 Horas 17,00 Horas 14,00 Horas SÁBADO 14,00 Horas 13,00 Horas 13,00 Horas BUZONES ( Calle ) Capitales de Provincia y Administraciones Oficinas Técnicas Buzón Calle Buzón Calle 17,00 Horas 13,00 Horas 13,00 Horas 12,00 Horas ADMISIÓN MASIVA Depósito en Centros de Admisión Masiva Recogida a Domicilio 15,00 Horas 15,00 Horas SIN SERVICIO SIN SERVICIO Reglas de cálculo del plazo de entrega Los días de entrega para todas las cartas, se calculan como la diferencia entre la fecha de inducción según el remitente y la fecha de recepción según el destinatario teniendo en cuenta las siguientes reglas: Alfredo Carreras Gómez Página 16

27 Todos los días en que no hay entrega (incluyendo festivos nacionales) que preceden inmediatamente al día de recepción siempre se deducen. Esto supone, por ejemplo, que los domingos se descuentan las entregas del lunes. La inducción en el sistema en cualquier día de no recogida se consideran como introducida el primer día siguiente de recogida al de la introducción. Se han contrastado con Correos las fechas en las que hay o no reparto los sábados. El cálculo del número de días de entrega para los resultados oficiales se basa en una regla de cálculo de una semana de 5 días, que se definen como sigue:! Se excluyen sábados, domingos y días festivos.! Todos los días que no hay entrega entre la introducción y el día de recepción se deducen.! La introducción en días en que no hay recogida se consideran como introducción el día siguiente. Siendo D el día de depósito de la carta test, en la siguiente tabla se muestra la fecha que Correos especifica para su recepción. A continuación se muestra como influye el cálculo del plazo de entrega si la fecha de depósito es festiva, después de un fin de semana, fiesta entre semana... Lunes Martes Miércoles Jueves Viernes Sábado Domingo Lunes Martes Miércoles Jueves D D+1 D+2 D+3 D+4 D+5 D+5 D+6 D+7 D+8 D D+1 D+2 D+3 D+4 D+4 D+5 D+6 D+7 D D+1 D+2 D+3 D+3 D+4 D+5 D+6 D D+1 D+2 D+2 D+3 D+4 D+5 D D+1 D+1 D+2 D+3 D+4 D D+0 D+1 D+2 D+3 D D+0 D+1 D+2 D+3 Alfredo Carreras Gómez Página 17

28 Ejemplo 1 Ninguna fiesta Jueves Viernes Sábado Domingo Lunes Martes Miércoles Jueves Viernes Inducción Inducción NInducción NInducción Inducción Inducción Inducción Inducción Inducción Distribución Distribución NDistribución NDistribución Distribución Distribución Distribución Distribución Distribución D D+1 D+2 (D+2) D+2 D+3 D+4 D+5 D+6 D D+1 (D+1) D+1 D+2 D+3 D+4 D+5 D-2 D-1 D+0 D+1 D+2 D+3 D+4 D-1 D+0 D+1 D+2 D+3 D+4 D D+1 D+2 D+3 D+4 D D+1 D+2 D+3 D D+1 D+2 Ejemplo 2 - Fiesta después del fin de semana en ciudad de origen Jueves Viernes Sábado Domingo Lunes Fiesta Martes Miércoles Jueves Viernes Inducción Inducción NInducción NInducción NInducción Inducción Inducción Inducción Inducción Distribución Distribución NDistribución NDistribución Distribución Distribución Distribución Distribución Distribución D D+1 D+2 (D+2) D+2 D+3 D+4 D+5 D+6 D D+1 (D+1) D+1 D+2 D+3 D+4 D+5 D-3 D-2 D-1 D+0 D+1 D+2 D+3 D-2 D-1 D+0 D+1 D+2 D+3 D-1 D+0 D+1 D+2 D+3 D D+1 D+2 D+3 D D+1 D+2 Ejemplo 3 - Fiestas durante la semana tanto en ciudad de origen como en ciudad de destino (Fiesta Nacional) Jueves Viernes Sábado Domingo Lunes Martes Fiesta Miércoles Fiesta Jueves Viernes Inducción Inducción Ninducción NInducción Inducción NInducción NInducción Inducción Inducción Distribución Distribución NDistribución NDistribución Distribución NDistribución NDistribución Distribución Distribución D D+1 D+2 (D+2) D+2 (D+3) (D+3) D+3 D+4 D D+1 (D+1) D+1 (D+2) (D+2) D+2 D+3 D-2 D-1 D+0 (D+1) (D+1) D+1 D+2 D-1 D+0 (D+1) (D+1) D+1 D+2 D (D+1) (D+1) D+1 D+2 D-2 D-1 D+0 D+1 D-1 D+0 D+1 Alfredo Carreras Gómez Página 18

29 Ejemplo 4 - Fiesta en fin de semana y antes del fin de semana en ciudad de destino Jueves Viernes Sábado Domingo Lunes Martes Miércoles Jueves Viernes Fiesta Sábado Fiesta Domingo Fiesta Inducción Inducción Ninducción NInducción Inducción Inducción Inducción Inducción Inducción NInducción NInducción Distribució n Distribució n Ndistribuci ón Ndistribuci ón Distribució n Distribució n Distribució n Distribució n NDistribuci ón NDistribuci ón NDistribuci ón D D+1 D+2 (D+2) D+2 D+3 D+4 D+5 (D+6) (D+6) (D+6) D D+1 (D+1) D+1 D+2 D+3 D+4 (D+5) (D+5) (D+5) D-2 D-1 D+0 D+1 D+2 D+3 (D+4) (D+4) (D+4) D-1 D+0 D+1 D+2 D+3 (D+4) (D+4) (D+4) D D+1 D+2 D+3 (D+4) (D+4) (D+4) D D+1 D+2 (D+3) (D+3) (D+3) D D+1 (D+2) (D+2) (D+2) Alfredo Carreras Gómez Página 19

30 2.1.2 El sector postal Introducción A partir de los años noventa, las operadoras postales han afrontado un cambio muy importante debido a la liberalización y privatización del sector que ha conllevado competencia en un sector tradicionalmente protegido. En los últimos años, el cambio del sector incluso ha aumentado. El mundo electrónico ha perdido un poco de su brillo porque los participantes en el mercado dudan del potencial retorno financiero de e-commerce, pero a la vez el sector teme perder negocio en el futuro si no invierten en esta área. Además de los cambios regulatorios del sector y las nuevas tecnologías que pueden sustituir sus servicios, la industria ahora tiene que vender servicios a clientes cada vez más exigentes e informados. Como la base de clientes se concentra en pocos, pero muy importantes mientras algunos productos con margen alto están amenazados por la sustitución de productos electrónicos, las operadoras postales intentan aumentar la rentabilidad en los sectores que crecen, paquetes y servicios de logística. En el negocio tradicional de cartas, la búsqueda del aumento de la rentabilidad suele significar recorte de costes fijos en las operaciones a través de la automatización de procesos y reducción de personal. En el mercado internacional, donde las operadoras postales han notado el impacto de la competencia más tiempo, la batalla se vuelve cada vez más intensa. Las empresas en el sector buscan diversificación para completar sus mercados tradicionales y disminuir así la dependencia de un solo país. Alfredo Carreras Gómez Página 20

31 El Sector Postal en la UE En la UE se estima que los servicios postales manejan cerca de millones de objetos postales cada año, generando una venta de un total de millones de euros o aproximadamente un 1,4% del PIB (Producto Interior Bruto) de la UE. Dos tercios de esta venta está generada por servicios de cartas y un tercio por paquetes y servicios exprés. La tendencia de crecimiento es de entre el cero y el cinco por ciento anual para el mercado de cartas y entre el tres y el diez por ciento anual para paquetes y servicios exprés. El servicio postal es un sector que abarca tanto el monopolio (cartas) como un mercado de competencia (paquetes, servicio exprés). Las empresas públicas en el sector normalmente abarcan los tres tipos de productos (cartas, paquetes y servicio exprés) mientras las empresas privadas, salvo algunas excepciones, abarcan solamente paquetes y servicio exprés. El sector emplea en la UE un total de 1.7 millones de trabajadores. A continuación se detallan las diferentes Operadoras Postales públicas europeas, así como un mapa con la ubicación geográfica con las mismas, véase figura 2.1. Operadoras Postales públicas en UE-15 Alemania Deutsche Post Holanda TPG Post Austria Österreichische Post Irlanda An Post Bélgica De Post/La Poste Italia Poste Italiane Dinamarca Post Luxemburgo Postes España Correos Portugal CTT Correios Finlandia Posti Reino Unido Royal Mail Francia La Poste Suecia Posten Grecia Hellenic Post Alfredo Carreras Gómez Página 21

32 Figura 2.1: Las Operadoras Postales en UE-15 Alfredo Carreras Gómez Página 22

33 Tendencias en el sector postal europeo Después de mucho tiempo bajo la protección gubernamental, la industria postal está cambiando radicalmente. Cambios políticos, más competición sobre las fronteras, comunicación electrónica, comercio electrónico y tecnología están cambiando el sector rápidamente, véase figura 2.2. Liberalización Tecnología de Información Sector Postal Requisitos del Cliente Globalizacón Figura 2.2: Tendencias en el sector postal En muchos países europeos el servicio postal tradicionalmente ha estado bajo el control estatal combinado con las telecomunicaciones. Como consecuencia, los cambios en el mercado de telecomunicaciones normalmente han implicado cambios paralelos en el sector postal. Empujadas por las tendencias de privatización, encabezada por Inglaterra, los gobiernos europeos están manejando cómo deben cambiar la propiedad del sector postal, mientras la política de UE está favoreciendo a los países miembros la introducción progresiva de la liberalización del sector postal. Alfredo Carreras Gómez Página 23

34 Algunos países, como Suecia y Finlandia, ya han abierto todo el mercado de servicios postales a competición mientras otros países favorecen una liberalización más gradual. El desarrollo tecnológico también ha acelerado la reestructuración del sector tanto en el ámbito de la automatización, para reducir costes de operación, como la amenaza de sustitución electrónica. Los servicios postales están sujetos cada vez más a una competición con otros servicios de comunicación como, por ejemplo, correo electrónico y redes de datos, especialmente en el segmento business-to-business. La competición global y la presión de precios resultante, también están acelerando la velocidad de los cambios en el sector postal. En las áreas de servicios que ya están abiertas a la libre competición, nuevos entrantes están introduciendo otras maneras de cumplir los cada vez más exigentes requisitos de los clientes. Mientras la entrega se ha vuelto más compleja y los clientes cada vez exigen mejores servicios, las operadoras postales están en un proceso de desarrollo desde monopolios enfocados a operaciones, a un negocio enfocado al cliente. Empujado por la necesidad de aumentar beneficios y controlar costes, a la vez que atraer y mantener clientes, las operadoras postales han tenido que ampliar sus catálogos de servicios con servicios innovadores, suministrados con un alto nivel de rendimiento. Liberalización A excepción de Suecia, donde se abrió el sector a la competencia libre en 1993, los mercados postales están actualmente trabajando hacia los objetivos de liberalización fijados por directivas de la UE. Aunque nuevos entrantes han aparecido en el mercado de los servicios postales en la mayoría de los países europeos, los operadores tradicionales todavía tienen una cuota de mercado muy elevado. Incluso en el totalmente liberalizado mercado sueco, la operadora sueca (Posten) tiene una cuota de mercado de cartas de un 94%. Alfredo Carreras Gómez Página 24

35 En una directiva aprobada por la Comisión Europea en 2002, se fijan objetivos para mejorar los servicios postales y reducir precios a través de la apertura de los mercados europeos a mayor competencia. La directiva propone que el mercado de todo el correo doméstico que pese más de 100 gramos o cuyo precio sea más de tres veces el precio de una carta ordinaria, estará abierto para la libre competencia en el 2003 y el peso será reducido a 50 gramos y el coste a dos veces y medio del precio en el 2006, véase figura 2.3. Este objetivo significa en la práctica que el 13 % del mercado postal está abierto a libre competencia desde el 2003 y aproximadamente el 23 % del mercado a partir del Otro objetivo de la directiva es abrir totalmente el mercado de correo internacional en diez de los quince países miembros, dejando los países con una gran proporción de correo internacional (España, Grecia, Irlanda, Luxemburgo y Portugal) con algunas restricciones. En 2006 se van a fijar nuevas metas para 2009 en función de los resultados obtenidos hasta entonces. Si los resultados son satisfactorios, el objetivo con total seguridad será la plena liberalización en el Figura 2.3: El calendario de la liberalización en Europa Este camino hacia la extinción del monopolio en Europa ha tenido su propia idiosincrasia en cada uno de los Estados miembros, si bien son dos los polos en cuya órbita se inscriben las distintas actuaciones de cada uno de los gobiernos: Alfredo Carreras Gómez Página 25

36 1. Actitud proactiva hacia la liberalización, con pasos decididos hacia la competencia e incluso, en algún caso, a una velocidad mayor que la marcada por la directiva. 2. Precaución en las decisiones adoptadas, anteponiendo la seguridad en la prestación del Servicio Postal Universal a la competencia en el mercado interno. Reino Unido y Alemania son modelos del primer grupo, con actuaciones que han perjudicado en ciertos aspectos a Royal Mail y Deutsche Post. En cuanto al segundo grupo, quizás Francia y España puedan considerarse buenos ejemplos de esta línea de actuación. En España, ante esta moderación reguladora, han sido muchos los competidores que han visto en ella actitudes favorecedoras hacía Correos, habiendo interpuesto demandas ante los organismos garantes de la competencia. Tecnología de la Información La industria postal en todo el mundo tiene que afrontar nuevos retos operacionales y logísticos. Las expectativas del cliente son altas y con el crecimiento de e-commerce, clientes y gobiernos cuentan con servicios postales para la entrega de bienes comprados on-line. Para afrontar estos retos y manejar la creciente competición en el mercado, los operadores buscan soporte en la tecnología de información para racionalizar las operaciones, mejorar el servicio al cliente, desarrollar productos o servicios nuevos o mejorar la calidad de los existentes. Las operadoras postales están aplicando nuevas tecnologías para modernizar y acelerar los procesos de la entrega a través de la automatización de la clasificación de cartas, el on-line servicio al cliente, utilización de código de barras, seguimiento de cartas, y transporte. También están utilizando nuevas tecnologías de información para introducir nuevos productos y servicios de valor añadido, tradicionalmente no considerados como parte de su negocio principal como, por ejemplo, el correo híbrido que mezcla la rapidez de las comunicaciones electrónicas con la fiabilidad del correo tradicional. Alfredo Carreras Gómez Página 26

37 Otro reto importante que la industria tiene que afrontar es la transición del fuerte enfoque interno de las operaciones y logística hacia un modelo de negocio enfocado al cliente. Para influir en la información del cliente y obtener una visión de la base de clientes, las organizaciones postales están implantando soluciones específicas que aportan la gestión de la relación con el cliente en todos sus procesos de negocios. Según las últimas tendencias, parece que las áreas principales para inversiones en IT en el sector postal serán: # E-Business # Gestión de la Relación con el Cliente (CRM, Customer Relationship Management) # Operaciones y Logística # Aplicaciones para la Gestión de los Recursos de la Empresa (ERM) E-business Con el creciente número de transacciones de e-commerce, hay una necesidad en el mercado de empresas que puedan proveer servicios de e-cumplimiento (e-fulfillment, servicio completo de terceros para la distribución de bienes, desde el pedido hasta la entrega) de alta calidad, para dar soporte a los vendedores on-line. Para poder expandir los servicios e incluir e- Fulfillment, las operadoras postales tienen que entender las necesidades de los clientes pero también tener una red logística optimizada para poder ofrecer servicios de e-commerce rentables. Otra área donde las operadoras postales están desarrollando cada vez más servicios on-line para terceros es la de gestión y pago electrónico de facturas (electronic bill presentment and payment, EBPP). Las operadoras recogen de una manera centralizada las facturas de varios clientes en una página Web. Los beneficios para el remitente de las facturas incluyen la reducción de costes de distribución y la mejora en la gestión de la relación con el cliente a través de comunicación dirigida. Alfredo Carreras Gómez Página 27

38 Gestión de la Relación con el Cliente (CRM) Los proveedores de servicios postales trabajan con una cada vez más fuerte competencia y es imprescindible aumentar el enfoque al cliente para ofrecer servicios de alta calidad y una gama de productos innovadores basados en tecnología como Internet. Todas las operadoras postales en Europa han entendido la importancia de establecer su presencia en la Red y cada vez más clientes eligen Internet como el medio de interacción preferido. En marzo del 2002, Correos anunció que su página Web recibe medio millón de visitas cada día. Según Correos, los factores claves para el éxito de su página Web son los servicios interactivos y la fiabilidad de una amplia gama de productos nuevos, como, por ejemplo, el seguimiento de cartas y paquetes. Tanto clientes particulares como clientes de empresas son los activos más importantes para las operadoras y un servicio al cliente eficiente es la clave del éxito en el mercado. En toda la industria postal se implantan soluciones de CRM para mejorar el servicio al cliente con un coste cada vez menor. Un ejemplo de esta tendencia es que las operadoras ofrecen oficinas electrónicas para poder atender al cliente 24 horas al día, 365 días al año a través Internet. También ofrecen centros de atención al cliente que están integrados con las operaciones del back-office. Así, pueden obtener una visión completa de cada cliente. Operaciones y logística Las operadoras postales en Europa están invirtiendo en instalaciones de última tecnología para optimizar el proceso de matasellado y clasificado de cartas y su entrega. Se están implantando sistemas de información para la gestión de transportes con el fin de mejorar el servicio de entrega a través de un aumento de la rapidez, precisión de la información y una reducción de costes. Las siguientes aplicaciones dan soporte a la optimización de las operaciones: Alfredo Carreras Gómez Página 28

39 Identificación de paquetes Seguimiento de paquetes Prueba de entrega Seguimiento a través Internet Información en tiempo real Gestión de los Recursos de la Empresa En un intento de optimizar el flujo de información a través la organización, las operadoras postales europeas están adoptando soluciones integradas, para la gestión de los recursos de la empresa (ERM, Enterprise Resource Management), que comunican sistemas de información que antes estaban separados. Así se hace más fácil el manejo de los recursos humanos, materiales y financieros. Las principales ventajas al implantar ERM son: Ahorro de costes por aumento de productividad en las funciones del back-office. Disminución del tiempo de toma de decisiones Aumento del nivel del servicio Globalización Como se ha mencionado anteriormente, el objetivo de la nueva directiva de la UE es abrir totalmente el mercado de correo internacional en diez de los quince países miembros. Para afrontar esta liberalización y el aumento de la competencia entre países, muchas operadoras postales han aumentado sus esfuerzos para desarrollar actividades internacionales, por ejemplo a través de adquisiciones o alianzas. Los cuatro operadores más grandes en Europa están encabezando este desarrollo internacional, véase figura 2.4. Alfredo Carreras Gómez Página 29

40 Porcentaje de los beneficios generados en el extranjero 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% TPG Deutsche Post Groupe La Poste Consignia Figura 2.4: Benificios generados en el extranjero de los cuatro operadores más grandes en Europa Aunque la tendencia ahora es de crecimiento a través de ingresos generados en el extranjero, la industria postal todavía es un negocio principalmente doméstico, salvo quizás para TPG y Deutsche Post. Debido al monopolio existente en la mayoría de países europeos, los ingresos del extranjero vienen principalmente de paquetes. Con la liberalización del mercado en 2006 y 2009 eso va a cambiar. Alfredo Carreras Gómez Página 30

41 Requisitos del Cliente Al hablar de los requisitos del cliente es importante distinguir entre empresas y particulares. Empresas Las empresas exigen no solamente un servicio rápido y fiable sino también soluciones con valor añadido para su cadena de aprovisionamiento. Estos clientes ven la operadora como un business partner que entiende su negocio y que puede ayudarles a tener éxito en su mercado. Un ejemplo de dichas soluciones en el mercado de logística es el third party logistic provider (3PL). Estos proveedores ofrecen varios servicios para la cadena de aprovisionamiento como, por ejemplo, cumplimiento de pedidos, transporte, gestión de almacenes, gestión de stock y sistema de información para la logística. Se prevé un crecimiento fuerte para este tipo de empresas. Particulares Los clientes particulares también exigen soluciones con valor añadido. Debido a los costes decrecientes de información, el cliente ahora tiene un poder que jamás antes tuvo en la relación con la operadora postal. Muchos operadores tienen que replantarse los objetivos tradicionales que incluyeron solamente velocidad, fiabilidad y coste. Hoy en día hay que enfocar, además de los objetivos tradicionales, requisitos como el ahorro de tiempo del cliente, la necesidad de información del cliente y la posibilidad de poder elegir un servicio personalizado por parte del cliente. Alfredo Carreras Gómez Página 31

42 Estrategias de las Operadoras Postales Desde 1997, año en que se publicó la primera Directiva europea sobre los servicios postales, las operadoras postales europeas se embarcaron en la búsqueda de soluciones para compensar la probable pérdida de ingresos derivada de la apertura a la competencia. Aunque el esfuerzo se ha materializado en todos los ámbitos, merecen atención las distintas estrategias en cada uno de los mercados. Cartas La correspondencia tradicional ha sido testigo del lanzamiento de servicios integrales para las empresas que remiten correo masivo. Las novedades en estos servicios han ido encaminadas a reforzar las relaciones con los grandes clientes, tratando de frenar la sustitución electrónica y creando barreras de entrada de cara a una mayor apertura del mercado. Por otra parte, ante estas expectativas de mayor liberalización, varias empresas postales han tomado posiciones en mercados extranjeros, como por ejemplo TPG, que compró la alemana EP Europost, y Deutsche Post, que invertirá millones de euros en los próximos años para entrar en mercados de correspondencia europeos. Aún mayores han sido los movimientos observados en el marketing directo, dado que se encuentra liberalizado en diversos países europeos y la sustitución electrónica no supone una gran amenaza. De nuevo hay que mencionar a TPG y Deutsche Post con adquisiciones fuera de sus fronteras. El primero se mostró interesado en los mercados del Centro y Este de Europa, mientras que el correo alemán se introdujo en el lucrativo mercado holandés. Paquetería En lo que se refiere al negocio de paquetería y carta exprés, la actividad compradora de los grandes grupos europeos se ha retraído a lo largo de los últimos años, quedando lejos de la de años anteriores. La preocupación fundamental de los operadores presentes en el sector, ha sido la consolidación de sus redes, completando la integración de adquisiciones anteriores. Alfredo Carreras Gómez Página 32

43 En el caso español hay que destacar la entrada de Correos en este negocio con su filial Chronoexprés, que se hizo con la paquetera Servipack, para colocarse en el tercer puesto del ranking nacional por volumen negocio. Oficinas En la red de oficinas, los últimos años han conllevado novedades interesantes. Al margen del tradicional negocio bancario, donde muchos correos han buscado acuerdos con entidades financieras para ampliar la oferta de productos, se ha impuesto la introducción de nuevos servicios en las sucursales para tratar de aprovechar la gran capilaridad existente. Los ejemplos son variopintos, como el de Canada Post que ha convertido las oficinas en tiendas de regalos o el de Córrelos de Brasil que cobra facturas de empresas eléctricas. A esto se añade en otros casos la venta de móviles, viajes y un largo etcétera. Otra tendencia reseñable ha sido la progresiva prestación de servicios postales en tiendas de distinto tipo, con el consiguiente ahorro de costes. Logística El negocio de la logística parece ser un área de diversificación en el cual solamente holandeses y alemanes se han posicionado con determinación, aunque siguiendo estrategias diferentes. TPG, a través de su división TNT Logistics, ha sido el más activo, adquiriendo empresas logísticas en Holanda, Italia, Francia, y países escandinavos, en áreas de negocio tales como la logística textil, la automoción, y el frío. En cuanto a Deutsche Post, ha protagonizado también diversas compras a través de su filial Danzas en los países nórdicos y Francia, entre otros. Consultoría Para concluir el repaso a los negocios que desempeñan los diferentes correos del mundo, resta por comentar las tentativas realizadas en consultoría. Alfredo Carreras Gómez Página 33

44 El mercado objetivo del negocio de consultoría parece estar conformado por los operadores de países en vías de desarrollo o con grandes problemas gestión, oportunidad que están aprovechando empresas como TPG o New Zealand Post. Nuevas Tecnologías En el ámbito de las nuevas tecnologías, las expectativas creadas años atrás con el boom de Internet han resultado defraudadas y muchas empresas han ido saliendo del sector. Casos destacados son los de Deutsche Post, que ha vendido su portal evita y está buscando comprador para su filial de firma electrónica Signtrust, el de Posten de Suecia, que ha reducido su participación en el concurrido portal sueco Torget a sólo el 15%, y el de UPS, que ha liquidado su servicio de documentos electrónicos por Internet, tras un par de años de actividad, por su escasa demanda. No obstante, no se puede afirmar que las perspectivas sean negativas para todos. Así, Post Denmark ha entrado de lleno en el e-goverment. Alfredo Carreras Gómez Página 34

45 Correos y Telégrafos La misión de Correos y Telégrafos Sociedad Anónima Estatal (en adelante Correos) se define de la siguiente forma: Correos se posiciona como un operador regional enfocado a los servicios postales y otros servicios de valor añadido, con un desarrollo en el comercio electrónico en coherencia con sus actividades principales, mediante el uso eficiente de sus recursos, la aplicación de tecnologías avanzadas y la potenciación de sus capacidades específicas y de innovación, con la finalidad de proporcionar máxima satisfacción a sus clientes y al conjunto de la sociedad, dotando de un desarrollo profesional adecuado al conjunto de sus empleados. La entidad ha existido de varias formas durante más de 300 años en España, adaptándose a las necesidades de la sociedad. En los últimos años, los cambios han adquirido un ritmo de vértigo. En 1992, Correos deja de ser una Dirección General para transformarse en Organismo Autónomo de carácter comercial y cinco años después en Entidad Pública Empresarial. En junio de 2001 estrena una nueva forma de gestión bajo un nuevo régimen jurídico: el de Sociedad Anónima Estatal. Correos en cifras Correos es la primera empresa del país desde el punto de vista de red capilar con presencia en más de diez mil puntos de atención y también es una de las primeras empresas del país desde el punto de vista de plantilla y de empleo directo. La empresa da empleo a más de sesenta mil personas y realiza más de cien mil contratos temporales anualmente. Alfredo Carreras Gómez Página 35

46 Correos en cifras Envíos Postales millones Línea básica millones Línea urgente 28 millones Puntos de Atención Centros de tratamiento 54 Centros de admisión masiva 52 Vehículos Buzones Empleados 2002 Funcionarios Laborales Venta millones de Euros Beneficios ,7 millones de Euros El precio de enviar una carta ordinaria en España es muy bajo en comparación con los otros países europeos. Por tan sólo 0,27 Euros, cualquier persona puede poner en funcionamiento el mayor sistema logístico en el país. El precio medio europeo es casi el doble como muestra la siguiente tabla: Precio de la carta ordinaria en UE Alemania 0,55 Austria 0,51 Bélgica 0,49 Dinamarca 0,57 España 0,27 Finlandia 0,65 Francia 0,46 Grecia 0,41 Holanda 0,39 Irlanda 0,48 Italia 0,62 Luxemburgo 0,60 Portugal 0,30 Reino Unido 0,39 Suecia 0,60 Media 0,48 Alfredo Carreras Gómez Página 36

47 Uno de los retos principales durante los últimos años ha sido la eliminación del déficit crónico de la sociedad. Eso se ha conseguido por primera vez en el año 2000, véase figura 2.5: Resultado antes de impuestos Millones de euros Figura 2.5: Evolución de los resultados Organización Correos está estructurado por áreas funcionales en un organigrama muy tradicional, véase figura 2.6. La organización consiste de tres divisiones básicas con autonomía de gestión: División de Correos, División de Oficinas y División de Exprés. Estas divisiones configuran el territorio español en zonas que cuentan con un responsable máximo para el territorio que abarcan. Para la gestión de la empresa existen dos órganos superiores de dirección: El Consejo de Administración que se compone de 17 consejeros y una Comisión Ejecutiva, y el Presidente que actualmente es Sr. D. Víctor Calvo-Sotelo Ibáñez-Martín. Alfredo Carreras Gómez Página 37

48 Consejo de Administración Presidente Direcciones Corporativas Unidades apoyo superior dirección Unidades de desarrollo División de Correo División de Oficinas División de Exprés Estructura territorial Estructura territorial Figura 2.6: Organización de Correos Las tareas principales del Presidente son la coordinación de las divisiones, la supervisión y el desarrollo de la estrategia empresarial. Para llevarlas a cabo cuenta con cuatro unidades de apoyo: General Jurídica Auditoria Comunicación Alfredo Carreras Gómez Página 38

49 Además de las unidades de apoyo, existe como función Staff las Direcciones Corporativas que son: Dirección Económico Financiera Dirección de Recursos Humanos Dirección de Tecnología y Sistemas Dirección de Estrategia y Desarrollo Corporativo Dirección Comercial y de Marketing Las unidades de desarrollo también es una función Staff en el organigrama de Correos, y contiene las siguientes unidades: Servicios Financieros Filatelia E-Business Análisis de la situación A continuación se presenta una evaluación de la situación actual de Correos a través de un análisis DAFO (Debilidades, Amenazas, Fortalezas y Oportunidades). Éste pretende dar una imagen de los retos que afronta Correos en un mercado cada vez más abierto para la competencia, pero también las posibilidades que tiene la empresa de mantener su liderazgo en este entorno cambiante. Fortalezas Amplia red de distribución Amplia red de oficinas Amplia gama de servicios y posición de liderazgo Gran conocimiento de la marca Correos Monopolio para muchos productos Patrimonio inmobiliario relevante, con ubicación privilegiada Oportunidades Convertirse en el primer suministrador de servicio integrado de correspondencia, paquetería y logística Fuerte crecimiento del mercado de paquetería Red de oficinas adaptable a la comercialización de otros productos y servicios Desarrollo de e-business Diversificación en nuevas actividades empresariales asociadas a las capacidades y recursos de Correos Expansión de la red de distribución mediante acuerdos con otros operadores públicos o privados Alfredo Carreras Gómez Página 39

50 Identificación corporativa del equipo de dirección y del conjunto de los segmentos de la plantilla Solvencia económica Capacidad de recogida y distribución de buzones y 8453 vehículos Evolución de la forma jurídica Desarrollo de un plan de sistemas que posibilite la adecuación de los mismos y la infraestructura tecnológica a las necesidades de las actividades actuales y futuras de Correos Automatización de los procesos de clasificación Debilidades Deficiente optimización de los distintos procesos tanto de la operativa postal como la gestión interna Dependencia excesiva de los productos postales tradicionales Sistemas de información con notorias debilidades Escaso grado de automatización de las actividades de clasificación Insuficiente orientación al cliente en el conjunto de la organización Escasa presencia internacional de sus actividades Amenazas Progresiva aparición de nuevos competidores de dimensión nacional e internacional Creciente nivel de exigencia por parte de los clientes Mayor liberalización de las actividades postales y tendencia hacia la reducción de los servicios reservados a los operadores públicos Desaparición de las barreras entre la paquetería industrial y comercial Prácticas fraudulentas de competidores sobrepasando los límites del ámbito reservado Efecto sustitución por el avance de las nuevas tecnologías Estructura organizativa funcional tradicional, que limita la coordinación operativa y la agilidad de respuesta ante el entorno El apartado de amenazas corresponde al discurso que ofreció Sr. D. Benjamín Calzón, Subdirector de Organización de la Dirección de Estrategia y Desarrollo en Correos, en el Foro Postal Europa-América celebrado en Madrid en el 2002 sobre el tema La experiencia española en la adaptación al cambio del sector postal. En el discurso destacó los siguientes retos principales para Correos: Alfredo Carreras Gómez Página 40

51 La progresiva liberalización que podemos contemplar desde dos puntos de vista: por un lado, como un conjunto de nuevas oportunidades para los operadores entrantes y, desde otro, los cambios que van a tener que experimentar los operadores que venían gozando de posiciones de monopolio. El rápido progreso tecnológico va a facilitar a los operadores diseñar nuevos productos o desarrollar procesos de forma más eficiente y, a los clientes, exigir nuevos productos de mayor valor añadido. El cambio de las expectativas de los clientes: el aumento de la necesidad de concentrarse en el núcleo del negocio en las empresas, tiene como efecto la subcontratación creciente de actividades, principalmente en el ámbito logístico. Esto, obviamente, se transforma en un abanico de nuevas oportunidades. La globalización; donde la tendencia general del crecimiento del comercio internacional lleva a las empresas, y a los clientes, a que cada vez precisen más de servicios internacionales. Y aquí destacan los significativos movimientos estratégicos de distintos operadores para ofrecer cada vez servicios más globales, mucho más allá de las fronteras tradicionales Gestión de la logística Hay varias maneras de afrontar los retos que se ha propuesto Correos. La respuesta exacta consiste en numerosas acciones para mantener la posición de liderazgo en el mercado, pero los objetivos generales de todas estas acciones son: Crecimiento de las ventas, a menudo a través adquisiciones y fusiones. Desarrollo de nuevos negocios, por ejemplo basados en Internet. Reducción de los costes operacionales mientras se mejora el nivel de servicio exigido por el cliente. En el tercer punto, reducción de costes operacionales, el enfoque suele ser la disminución de costes de explotación, donde Correos gasta el mayor porcentaje de su presupuesto operacional. Una gran parte de estos costes de explotación corresponde a las actividades de Gestión y Programación de la red y Logística y Transporte, que constituyen el Core Business de su cadena de valor (value chain), véase figura 2.7. Alfredo Carreras Gómez Página 41

52 Planificación del Servicio Postal CORE BUSINESS Marketing y Ventas Gestión y programación de la Red Logística y Transporte Servicio atención al cliente PROCESOS DE SOPORTE Administración, servicios jurídicos y Finanzas Gestión RR.HH. Infraestructura logística Servicios de Informática Auditoria y Control Figura 2.7: La cadena de valor de Correos y Telégrafos Todas las técnicas para reducir los costes en estos campos tienen como fin la obtención de una visión y control global de la cadena de valor e incluyen, en primer lugar, la Planificación del Servicio Postal, actividad que corresponde a la alta dirección. Para gestionar y programar la red se utilizan técnicas de gestión de la demanda y gestión de los recursos necesarios, tanto en los centros de distribución como en la propia distribución, desde el remitente hasta el destinatario (End-to-End). Sobre todas esas funciones hay que realizar un seguimiento del rendimiento, también End-to-End, para obtener datos fiables y así poder analizar el rendimiento total de la cadena logística, tanto en costes como en calidad, desde el punto de vista del cliente, véase figura 2.8. Figura 2.8: El seguimiento de la calidad desde el punto de vista del cliente. Alfredo Carreras Gómez Página 42

53 Gestión de la demanda Para optimizar la utilización de los recursos, primero es imprescindible tener datos fiables de la demanda prevista. Con técnicas clásicas de previsión de demanda, que están basadas en datos históricos, e incluyendo escenarios futuros previstos, se puede determinar con buena precisión la demanda futura y su estacionalidad. Gestión de los recursos La planificación de recursos se descompone en dos partes: Gestión de los centros de distribución Gestión de la distribución A nivel de gestión de los centros de distribución, hay que prever el volumen de cartas y la hora de la llegada de estas cartas con ayuda de datos históricos y previsión de escenarios especiales, el número de empleados necesarios en cada momento y sus skills, como la asignación de máquinas y otros parámetros. Un ejemplo de la complejidad de la gestión de los centros de distribución es el nuevo centro de tratamiento automatizado en Vallecas, Madrid. En este centro se reciben y clasifican más de cartas diariamente que llegan y salen de Madrid, lo que significa el 38% del correo gestionado por la empresa. El centro cuenta con ocho líneas de clasificación automática, cada una con una capacidad de cartas por hora. Cada máquina funciona con un software específico para Correos y que es susceptible de actualización conforme al crecimiento urbanístico de las poblaciones y cualquier otra variación. Los nuevos equipos tecnológicos disponen de una sala de vídeo codificación, que permite trabajar aquella correspondencia rechazada por el sistema automático. La gestión de la distribución utiliza soluciones semejantes para la previsión de demanda y la planificación de recursos para optimizar las flotas internas y externas. La optimización incluye todos los flujos: remitente a centro de distribución A, centro A a centro B y centro B al destino final. El seguimiento del rendimiento End-to-End mide cómo la Planificación del Servicio Postal junto a la gestión de la red y la logística funcionan en su totalidad desde el punto de vista del cliente. Alfredo Carreras Gómez Página 43

54 2.1.3 Adquisición de conocimiento Para llevar a cabo la medición de la calidad de las cartas test se requiere un panel de empresas y particulares distribuidas entre las 52 provincias españolas, que pueden actuar tanto de emisores como de destinatarios de cartas test. Toda esta información relevante para el estudio se almacena en una base de datos histórica de gran tamaño. Etapas de una carta test Las etapas por las que pasa una carta test son: producción, impresión y manipulado, envío al remitente, llegada al destinatario, y por ultimo, llegada al Centro de recogida de datos donde se introducen los datos de la carta test en el sistema. A continuación se detallan cada una de estas etapas, describiendo los flujos de información más relevantes: 1.1 Producción semanal de cartas test Cada semana se determina el flujo de correo a generar, tanto para la línea básica como para la urgente. Para cada carta se especifica: Información relativa al remitente y al destinatario Formato del sobre Peso de la carta Método de franqueo Método de inducción Fecha prevista de inducción Línea a la que pertenece la carta: ordinaria o urgente Dirección postal escrita a mano o a maquina 1.2 Impresión y manipulado de cartas test Se produce la carta físicamente atendiendo a las características descritas anteriormente., tal y como se muestra en la figura 2.9. Alfredo Carreras Gómez Página 44

55 1 Impresión de cartas test 2 Ensobrado 3 Los sobres son agrupados 4 Las agrupaciones se ponen en lotes 5 La producción se deposita en el correo Figura 2.9: Impresión y manipulado de cartas test 1.3 Envío de fajos de cartas a los remitentes Las cartas se agrupan en fajos y se envían a los distintos remitentes. Las cartas se empaquetan en lotes para el emisor y se etiqueta con una identificación que indica los documentos del lote y las instrucciones de envío. Todos los lotes de un emisor determinado se agrupan. Cada uno de estos lotes tiene un identificador que lo vincula con el emisor. 1.4 El remitente recibe el/los fajos 1.5 El remitente induce las cartas en la fecha prevista (lo ideal) y rellena el cuestionario En el cuestionario a rellenar por el remitente se especifica: Fecha y hora de inducción real (si no coincide con la fecha prevista de inducción) Lugar de inducción (si no coincide con el lugar previsto de inducción) Ultima hora de recogida (solo para buzón) 1.6 El destinatario recibe la carta y rellena el cuestionario En el cuestionario a rellenar por el destinatario se especifica: Fecha de recepción Calidad del paquete recibido Alfredo Carreras Gómez Página 45

56 1.7 El remitente y el destinatario envían sus cuestionarios al Centro de Recogida de Datos En el Centro de Recogida de Datos se introducen los datos de los cuestionarios en la base de datos. 1.8 Integración de datos del Centro de Recogida de Datos con el almacén de datos de IBM. Cada semana se envían los datos recibidos en el Centro de Recogida de Datos y se hace la integración y actualización del almacén de datos de IBM. Alfredo Carreras Gómez Página 46

57 2.2 Definición de requisitos Se desea diseñar un Sistema Basado en Conocimiento, capaz de realizar una recuperación y asimilación de información y descubrimientos en una base de datos con gran volumen de información relativa al plazo de entrega y la calidad de recepción de cartas distribuidas por toda la geografía española, con una profundidad histórica que data desde el año En concreto, se trata de un problema de KDD (Knowledge Discovery in Databases) donde se aplicarán algoritmos de Data Mining para clasificación, segmentación (clustering), reglas de asociación, regresión y patrones de comportamiento. Requisitos del usuario: Se desea desarrollar algoritmos de clasificación y clustering para predecir el plazo de entrega y la calidad de recepción y para identificar relaciones entre atributos que influyan en la entrega. Se pretende poder construir un árbol de decisión y poder identificar las rutas óptimas y las tardías, así como poder predecir el plazo de entrega y el estado de recepción de una carta a partir de los datos históricos de los que se disponen. Requisitos del experto: Para realizar las tareas de clasificación se utilizarán algoritmos de la construcción de árboles de decisión. En concreto: ID3. Para el análisis de clustering y para la búsqueda de patrones se utilizará la técnica de Repertory Grid (emparrillados). Se realizará un nuevo diseño de la base de datos donde se almacenarán los datos significativos de las cartas test, para un posterior análisis. El gestor de base de datos será MS SQL Server Para el desarrollo de los algoritmos y para la interfaz del programa se utilizará como lenguaje de programación Visual Basic 6. La aplicación deberá ser capaz de trabajar con distintos orígenes de datos (ficheros planos, Excel,...) y distintos gestores (SLQ Server, DB2, Oracle,...), para conseguir que la herramienta de minería sea lo más portable posible. Alfredo Carreras Gómez Página 47

58 La herramienta deberá ser flexible para poder añadir nuevos algoritmos no contemplados inicialmente. Entre posibles algoritmos a incluir destacan: Naive Bayes, One Rule, C5.0, A priori, reglas de asociación y análisis de correlación entre dos variables. La aplicación deberá ser capaz de obtener resultados fiables y capaz de trabajar con un gran volumen de datos. Los resultados se mostrarán gráficamente y existirá la posibilidad de guardar los resultados obtenidos. Alfredo Carreras Gómez Página 48

59 2.3 Alcance del proyecto El alcance del proyecto es enorme. Mide la calidad en plazo de los envíos postales entre todas las provincias del país, entre todas las capitales de provincia, y entre una muestra de poblaciones de cada provincia que responden a categorías postales diferentes. Son casi flujos a medir! Cada semana se asigna el volumen de correo a enviar para cubrir unos requerimientos mínimos impuestos por Correos, llegando a enviarse anualmente cerca de cartas para la línea básica y para la línea urgente. El estudio mide la calidad en plazo de la carta ordinaria (envíos de carácter personal que no superen los 2 Kg.), tanto la línea básica como urgente, para flujos de correo local, provincial y nacional. Para cada uno de estos flujos se distingue el método de franqueo (sello, máquina de franquear o franqueo pagado), método de inducción (buzón, oficina de correos o centro de admisión masiva), el tipo de carta (definido según parámetros como tamaño, peso, dirección postal, lugar de recogida,...), dirección (escrita a mano o a maquina), tipo de panelista (empresa o particular), día de la semana en que fue depositada, etc. Alfredo Carreras Gómez Página 49

60 2.4 Objetivos del proyecto para: El objetivo del proyecto es diseñar una aplicación que utilice algoritmos de Data Mining - Identificar patrones y reglas a partir de casos históricos y cartas test # Determinar causas del retraso de una carta # Identificar patrones de comportamiento entre las distintas comunidades autónomas # Encontrar posibles relaciones entre atributos # Determinar causas del estado de recepción de una carta - Predecir información futura a partir de información histórica. # Predecir el plazo de entrega y la calidad de recepción de una carta - Clasificar automáticamente nuevos registros que se presenten: # Obtener los mejores separadores que determinan un atributo de clase. # Clasificar el tipo de retraso en la recepción de una carta # Tipo de provincias según flujo de correo entrante o saliente. - Extraer información táctica y estratégica almacenada en la base de datos y facilitar la toma de decisiones basadas en información de experiencias pasadas. # Comparación del rendimiento en diferentes rutas de correos, flujos, periodos, etc. # Valoración de los efectos (acciones de recuperación) en rutas en las que la demora en la recepción de envíos está por debajo de los estándares. # Identificar rutas optimas y tardías Alfredo Carreras Gómez Página 50

61 2.5 Análisis de viabilidad El estudio de viabilidad servirá para asegurarnos de una forma objetiva de que la tarea que vamos a emprender es factible. Hay muchos tipos de estudios de viabilidad. Usaré el test de Slagel para realizar el análisis. Este test consta de tres etapas: - Definición de las características - Asignación de los pesos - Evaluación de cada aplicación candidata Definición de las características Se consideran cuatro dimensiones: - Plausibilidad - Justificación - Adecuación - Éxito Test de Slagel CAT. IDEN. PESO (P) VALOR (V) DENOMINACIÓN DE LA CARACTERISTICA TIPO EX P EX P Existen expertos. Comentario: Los expertos existentes en el proyecto provienen de IBM y de Correos. Los expertos de Correos ayudarán en el uso del conocimiento obtenido y para contrastar resultados. El experto de IBM ayudará en las soluciones tecnológicas del sistema de medición de calidad. El experto asignado es genuino. Comentario: Los expertos son de reconocido prestigio. Los expertos de Correos son el Director de Estrategia y Desarrollo, y los responsables de departamento de la línea ordinaria y urgente. Entre los expertos de IBM destaca Enrique Montero, gerente de Consultoría. E E Alfredo Carreras Gómez Página 51

62 EX P3 8 8 EX P4 7 6 TA P TA P TA P El experto es cooperativo. Comentario: tanto Enrique como los responsables de departamento de Correos se muestran entusiastas con el proyecto, aportando sus ideas y enfoques para abordar el proyecto de una manera satisfactoria. El experto es capaz de articular sus métodos pero no categoriza. Comentario: los métodos usados para la medición están regulados según los estándares de la norma europea. Existen suficientes casos de prueba; normales, típicos, ejemplares, correosos,... Comentario: es necesario utilizar una muestra significativa como casos de prueba para verificar que los resultados obtenidos son coherentes, y sobre todo, útiles. La tarea está bien estructura y se entiende. Comentario: en Data Mining existen varias métodos de abordar una tarea. Es fundamental entender la tarea a desarrollar para poder valorar los distintos métodos y elegir el más apropiado. Ej.: para realizar tareas de clasificación se pueden utilizar métodos de árboles de decisión, mapas de Kohonen,... Sólo requiere habilidad cognoscitiva. Comentario: se requiere poder interpretar los resultados obtenidos después de aplicar la herramienta de Data Mining a los datos. D D E D D TA P8 9 8 TA P9 9 7 No precisan resultados verdaderamente comprometidos con el proyecto. Comentario: los resultados obtenidos servirán para mejorar la calidad de los servicios postales y tener una visión más detallada para cada una de las rutas de correo. La tarea no requiere sentido común. Comentario: aunque los datos con los que se trabajan son obtenidos del día a día, la aplicación en si no se basa en el razonamiento sobre lo cotidiano. D D DU P EX J Los directivos están verdaderamente comprometidos con el proyecto. Comentario: los resultados obtenidos con la herramienta serán de gran ayuda, facilitando la toma de decisiones a los directivos de Correos. El experto no está disponible. Comentario: los expertos de Correos se encuentran ubicados en otro edificio y es preciso concertar una cita con ellos previamente. Esto no es un inconveniente, ya que las reuniones con Correos son aproximadamente una vez al mes para tratar sobre el estado actual del proyecto y los nuevos avances realizados. Por otra parte, los expertos de IBM están totalmente disponibles. D E Alfredo Carreras Gómez Página 52

63 EX J TA J3 8 4 TA J TA J5 8 8 DU J DU J7 8 9 EX A1 5 5 Hay escasez de experiencia humana. Comentario: depende del uso que se haga de la aplicación. Si se quiere distribuir la herramienta por distintas zonas para analizar los resultados de medición de la calidad, puede ser conveniente que la experiencia sobre el servicio postal de una zona sea compartida entre las demás zonas para poder tener una visión global. Existe necesidad de experiencia simultanea en muchos lugares. Comentario: depende del uso que se haga de la aplicación. Si se quiere distribuir la herramienta por distintas zonas para analizar los resultados de medición de la calidad, puede ser conveniente que la experiencia sobre el servicio postal de una zona sea compartida entre las demás zonas para poder tener una visión global. Necesidad de experiencia en entornos hostiles, penosos y/o poco gratificantes. Comentario: al principio se empieza el proyecto con ilusión pero cuando todavía no se ve bien el resultado final, es muy frecuente desmoralizarse. Además, realizar análisis de datos es tedioso y puede resultar poco gratificante. Se invierte mucho tiempo hasta obtener el resultado deseado. Por tanto, se requiere experiencia en estos temas. No existen soluciones alternativas admisibles Comentario: en Data Mining existen varias métodos de abordar una tarea. Ej.: para realizar tareas de clasificación se pueden utilizar métodos de árboles mediante técnicas de ID3, CART, C4.5,... Es preciso entender el problema a tratar para seleccionar el método adecuado. Una solución alternativa puede ser posible, pero al tratarse de algoritmos ad-hoc, hechos a medida, se dificulta el aprovechar algoritmos ya existentes. Se espera una alta tasa de recuperación de la inversión. Comentario: una vez implantada la herramienta de Minería se obtendrían resultados muy útiles para las empresas postales. Se podrían detectar aquellas rutas en las que existen problemas de distribución, manipulación... pudiendo emprender acciones de mejora focalizadas. Esto ayudaría a mejorar los servicios y se obtendrían grandes ingresos, lo que permitiría recuperar rápidamente la inversión. Resuelve una tarea útil y necesaria. Comentario: esta aplicación sería útil para empresas de mensajera, marketing directo,... Permite obtener conocimiento sobre las rutas óptimas a seguir para entregar el paquete, identificar clientes potenciales para realizar una marketing especifico... La experiencia del experto está poco organizada. Comentario: los expertos de Correos tratan de organizan sus conocimientos sobre pliegos y documentos donde se especifica un modelo estadístico que recoge sus experiencias. Este documento contiene información sobre horarios de recogida en buzón, horario comercial en oficinas,... D D E E D E D Alfredo Carreras Gómez Página 53

64 TA A2 6 8 Tiene valor práctico. Comentario: la herramienta es capaz de obtener resultados útiles que se pueden aplicar a corto plazo. D TA A3 7 7 Es más táctica que estratégica. Comentario: la herramienta ayuda a la toma de decisiones estratégicas, aunque también describe información operacional y táctica, del día a día. D TA A4 7 8 TA A5 5 9 TA A6 6 3 EX A7 7 7 TA A8 6 6 TA A Sirve a necesidades a largo plazo. Comentario: se dispone de una base de conocimientos desde el año Después del análisis de los resultados obtenidos, se plantean las mejoras a realizar en los servicios postales, la mayoría de ellas, a medio-largo plazo. La tarea, que no es demasiado fácil, pero que es de conocimiento intensivo, tanto propio del dominio, como de manipulación de la información. Comentario: se requiere una gran labor de preparación de datos (limpieza, detección de valores faltantes, anómalos,...) y transformación para poder aplicar la herramienta de Minería y obtener resultados con un alto nivel de exactitud. Es de tamaño manejable, y/o es posible un enfoque gradual y/o, una descomposición en subtareas independientes. Comentario: se maneja una gran cantidad de información: se dispone de información de cartas test desde el año 2000, almacenada en una base de datos con miles de registros. Es necesario una agrupación y descomposición de los datos para poder operar con ellos. La transferencia de experiencia entre humanos es factible. Comentario: la experiencia obtenida puede ser fácilmente transferida, ya que toda persona está familiarizada con la entrega y/o recepción de cartas. Estaba identificada como un problema en el área y los efectos de la introducción de un SE pueden planificarse. Comentario: podrían aplicarse multitud de métodos para extraer conocimiento de la BBDD (SQL, OLAP,...). No obstante, lo más apropiado es realizar un sistema experto para la Minería de Datos, ya que al disponer de multitud de métodos de extracción de conocimiento, se facilita el desarrollo de la aplicación y se garantiza la fiabilidad del conocimiento extraído. No requiere respuestas en tiempo real "inmediato". Comentario: al ser un proyecto de Minería de Datos que se basa en un histórico almacenado en una BBDD, la extracción del conocimiento se hará una vez al principio y después, puede que con una periodicidad a determinar, pero en ningún momento será necesario dar una respuesta inmediata al usuario. E D D E D E Alfredo Carreras Gómez Página 54

65 TA A TA A TA A La tarea no requiere investigación básica y usa, si alguna, poca generación y entendimiento del lenguaje natural. Comentario: la tarea no requiere ni generación, ni ningún entendimiento del lenguaje natural, ya que únicamente va a operar con una BBDD. En cuanto a la investigación, la principal documentación necesaria es la propia BBDD y los algoritmos de minería para poder realizar la extracción de información útil. El experto usa básicamente razonamiento simbólico que implica factores subjetivos. Comentario: el razonamiento va a ser siempre objetivo, no cabe subjetividad ninguna. Los datos son los que están recogidos en la BBDD, y la forma de interpretarlos está claramente definida. Es esencialmente de tipo heurístico. Comentario: este sistema experto hará uso de un histórico de que dispone para extraer conocimiento mediante métodos heurísticos. E D D EX E1 8 9 EX E2 6 2 EX E3 5 5 EX E4 5 8 EX E5 6 7 No se sienten amenazados por el proyecto, son capaces de sentirse intelectualmente unidos al proyecto. Comentario: este proyecto pretende ser una ayuda, pero en ningún momento se enfrentará con los intereses de ninguna otra persona. Es una herramienta que le será útil para obtener conclusiones y facilitar la toma de decisiones a empresas dedicadas al servicio postal o la mensajería. Tienen un brillante historial en la realización de esta tarea. Comentario: esta tarea no se ha llevado a cabo antes, o al menos no a gran escala. Se ha podido consultar en un momento puntual la BBDD, pero nunca se ha extraído conocimiento de forma masiva. Hay acuerdos en lo que constituye una buena solución a la tarea. Comentario: se cuenta con todo el apoyo del cliente para llegar a la solución de las tareas y requisitos especificados. La única justificación para dar un paso en la solución es la calidad de la solución final. Comentario: los expertos de Correos podrán contrastar los resultados obtenidos, los cuales serán de gran utilidad para mejorar la calidad de los servicios postales. No hay un plazo de finalización estricto, ni ningún otro proyecto depende de esta tarea. Comentario: en este proyecto, no se dispone de ninguna fecha de finalización estricta. No obstante, influye la finalización de la beca en IBM de Alfredo, pero obviamente no es un requisito del proyecto. D D D D D Alfredo Carreras Gómez Página 55

66 TA E6 7 7 No está influenciada por vaivenes políticos. Comentario: al ser Correos una empresa pública, existe un trasfondo político por recortes de presupuestos, reasignación de puestos, etc. E TA E7 8 1 Existen ya SS.EE. que resuelvan esa o parecidas tareas. Comentario: no se dispone de ninguna otra aplicación con este mismo fin. D TA E8 8 4 TA E9 5 8 TA E DU E DU E Hay cambios mínimos en los procedimientos habituales. Comentario: los cambios aún se desconocen. Precisamente lo que se busca en este proyecto es extraer conclusiones del análisis de los datos. No obstante, no es probable que sean grandes cambios. Las soluciones son explicables o interactivas. Comentario: las soluciones se obtendrán de analizar el sistema y sus motivos serán fácilmente identificables. Adicionalmente, se mostrarán resultados gráficamente para la mejor comprensión de los resultados obtenidos. La tarea es de I+D de carácter práctico, pero no ambas cosas simultáneamente. Comentario: esta aplicación tiene tanto una parte de investigación, como una de desarrollo. La parte de investigación, que requiere un aprendizaje de las herramientas de Ingeniería del Conocimiento a utilizar en un Data Mining (redes, algoritmos genéticos, clustering, lógica borrosa,...), y una parte de desarrollo de la aplicación para realizar dicha investigación. Están mentalizados y tienen expectativas realistas tanto en el alcance como en las limitaciones. Comentario: la aplicación valorará objetivamente la calidad en el plazo de entrega del correo postal. No va a mejorar el sistema directamente, pero será capaz de proporciona la información necesaria para mejorar el sistema. No rechazan de plano esta tecnología. Comentario: el experto apuesta fuertemente por utilizar la tecnología de Data Mining para resolver este tipo de problema. D D E D E DU E DU E El sistema interactúa inteligente y amistosamente con el usuario. Comentario: el sistema interactuará con el usuario: se visualizarán los resultados obtenidos, se propondrán mejoras en la calidad del servicio, El sistema es capaz de explicar al usuario su razonamiento. Comentario: el sistema expondrá los resultados al usuario, con una breve explicación sobre los cálculos realizados para explicar el razonamiento del sistema. D D Alfredo Carreras Gómez Página 56

67 DU E DU E DU E La inserción del sistema se efectúa sin traumas; es decir, apenas se interfiere en la rutina cotidiana de la empresa. Comentario: Esta aplicación no tiene porqué interferir en absoluto en la rutina de la empresa. Es independientemente de todos los demás procesos. Si acaso a largo plazo, una vez que se hayan tomado las decisiones, puede modificar en algo la rutina de la empresa. Están comprometidos durante toda la duración del proyecto, incluso después de su implantación. Comentario: El cliente está comprometido durante toda la duración del proyecto. Después de su implantación, con las conclusiones extraídas, es posible que varíen sus prioridades. Se efectúa una adecuada transferencia tecnológica. Comentario: Los resultados y conclusiones obtenidas del sistema experto se publicarán, de manera que el conocimiento obtenido tras analizar los datos esté disponible. D D E VC1 = 71,597 VC2 = 60,696 VC3 = 39,681 VC4 = 39,585 4 VCi = 52,89 i= 1 4 Si todos los valores asignados fueran 10, el total sería: 76,213 Por tanto, el Total Normalizado del Test de Slagel es: 69,397 Es decir, el proyecto es viable. Alfredo Carreras Gómez Página 57

68 2.6 Metodología La metodología a utilizar consta de cuatro fases: 1. Identificación de las tareas 2. Desarrollo de los prototipos 3. Construcción y ejecución del sistema 4. Actuar para conseguir el mantenimiento 1. Identificación de las tareas El sistema experto a desarrollar será capaz de: - Clasificar automáticamente nuevos registros que se presenten en el modelo mediante técnicas de aprendizaje automático por inducción (árboles de decisión ID3) - Identificar patrones y reglas a partir de históricos mediante técnicas de distancia y similitud (Repertory Grid, Mapas de Kohonen o K-means) - Predecir el plazo de entrega de una carta test - Análisis de correlación entre el estado de recepción de una carta test y la distancia recorrida - Identificar rutas con plazos de entrega distintos a la ida y a la vuelta - Analizar el comportamiento de los datos a través del tiempo (análisis de producciones). 2. Desarrollo de los prototipos El prototipo desarrollado es capaz de ejecutar algoritmos de clasificación ID3 y utilizar Repertory Grid sobre una fuente de datos externa y preparada para minar. El prototipo es capaz de visualizar los resultados obtenidos. Se pretende que la aplicación final sea flexible para poder ser capaz de ejecutar más algoritmos: CART, k-means, Naive Bayes, 1Rule y Reglas de Asociación, entre otros, tal como se muestra en la figura Alfredo Carreras Gómez Página 58

69 Figura 2.10: Prototipos de la aplicación 3. Construcción y ejecución del sistema Tras la ejecución del sistema se mostrarán los resultados obtenidos. En el caso de clasificación automática el sistema mostrará el árbol de decisión (ver figura 2.11) con los separadores elegidos, los nodos resultantes y la información asociada a cada nodo (entropía, clase, nivel, ) Figura 2.11: Prototipo de árbol ID3 Alfredo Carreras Gómez Página 59

70 En la tarea de reconocimiento de patrones los resultados obtenidos se mostrarán gráficamente en forma de dendrograma (ver figura 2.12) Figura 2.12: Prototipo de dendrograma 4. Actuar para conseguir el mantenimiento Cada cierto tiempo se mantendrá revisiones para supervisar el funcionamiento del sistema, encontrar fallos no aparecidos con anterioridad y realizar posibles mejoras. Alfredo Carreras Gómez Página 60

71 2.6.1 Ciclo de vida del proyecto El ciclo de vida de un proyecto de Minería de Datos consta de seis fases: - Comprensión del negocio - Comprensión de los datos - Preparación de los datos - Construcción del modelo - Interpretación y evaluación - Despliegue La secuencia de las fases no son estrictas. Un proyecto de Data Mining continúa después de que una solución haya sido desplegada. El conocimiento obtenido durante el proceso puede ser utilizado como dato de entrada para obtener otro conocimiento más profundo del negocio. Los procesos de Data Mining siguientes se beneficiarán de los resultados obtenidos anteriormente. El ciclo de vida de un proyecto de Data Mining se resume en la figura 2.13: Figura 2.13: Ciclo de vida de un proyecto de Data Mining Alfredo Carreras Gómez Página 61

72 3. INTRODUCCIÓN A LA MINERIA DE DATOS 3. INTRODUCCIÓN LA MINERIA DE DATOS El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos digitales y otras fuentes ha crecido espectacularmente en las últimas décadas. Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que se han producido. Aparte de su función de "memoria de la organización", la información histórica es útil para explicar el pasado, entender el presente y predecir la información futura. La mayoría de las decisiones de empresas, organizaciones e instituciones se basan también en información sobre experiencias pasadas extraídas de fuentes muy diversas. Además, ya que los datos pueden proceder de fuentes diversas y pertenecer a diferentes dominios, parece clara la inminente necesidad de analizar los mismos para la obtención de información útil para la organización. El área de la extracción (semi-)automática de conocimiento de bases de datos ha adquirido recientemente una importancia científica y económica inusual. En muchas situaciones, el método tradicional de convertir los datos en conocimiento consiste en un análisis e interpretación realizada de forma manual. El especialista en la materia, analiza los datos y elabora un informe o hipótesis que refleja las tendencias o pautas de los mismos. Esta forma de actuar es lenta, cara y altamente subjetiva. De hecho, el análisis manual es impracticable en dominios donde el volumen de los datos crece exponencialmente: la enorme abundancia de datos desborda la capacidad humana de comprenderlos sin la ayuda de herramientas potentes. Consecuentemente, muchas decisiones importantes se realizan, no sobre la base de la gran cantidad de datos disponibles, sino siguiendo la propia intuición del usuario al no disponer de las herramientas necesarias. Éste es el principal cometido de la Minería de Datos: resolver problemas analizando los datos presentes en las bases de datos. Alfredo Carreras Gómez Página 62

73 3.1 El concepto de Minería de Datos y KDD La Minería de Datos se define como el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos. Es decir, la tarea fundamental de la Minería de Datos es encontrar modelos inteligibles a partir de los datos. Para que este proceso sea efectivo debería ser automático o semi-automático (asistido) y el uso de los patrones descubiertos debería ayudar a tomar decisiones más seguras que reporten, por tanto, algún beneficio a la organización. Por lo tanto, los retos de la Minería de Datos son: por un lado, trabajar con grandes volúmenes de datos, procedentes mayoritariamente de sistemas de información, con los problemas que ello conlleva (ruido, datos ausentes, intratabilidad, volatilidad de los datos...), y por el otro usar técnicas adecuadas para analizar los mismos y extraer conocimiento novedoso y útil. En muchos casos la utilidad del conocimiento minado está íntimamente relacionada con la comprensibilidad del modelo inferido. No debemos olvidar que, generalmente, el usuario final no tiene por qué ser un experto en las técnicas de Minería de Datos, ni tampoco puede perder mucho tiempo interpretando los resultados. Por ello, en muchas aplicaciones es importante hacer que la información descubierta sea más comprensible por los humanos (por ejemplo, usando representaciones gráficas, convirtiendo los patrones a lenguaje natural o utilizando técnicas de visualización de los jatos). Sin embargo, la idea de Data Mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, Data Mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de Data Mining y KDD. De una manera simplista pero ambiciosa, se puede decir que el objetivo de la Minería de Datos es convertir datos en conocimiento. La Minería de Datos es una etapa dentro del proceso de Descubrimiento de Conocimiento en Bases de datos, Knowledge Discovery in Databases, KDD. KDD se define como "el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos". Alfredo Carreras Gómez Página 63

74 Las propiedades deseables que el conocimiento extraído debe tener son: - válido: hace referencia a que los patrones deben seguir siendo precisos para datos nuevos (con un cierto grado de certidumbre), y no sólo para aquellos que han sido usados en su obtención. - novedoso: que aporte algo desconocido tanto para el sistema y preferiblemente para el usuario. - potencialmente útil: la información debe conducir a acciones que reporten algún tipo de beneficio para el usuario. - comprensible: la extracción de patrones no comprensibles dificulta o imposibilita su interpretación, revisión, validación y uso en la toma de decisiones. Desde el punto de vista de su utilidad, una información incomprensible no proporciona conocimiento. El KDD es un proceso complejo que incluye no sólo la obtención de los modelos o patrones (el objetivo de la Minería de Datos), sino también la evaluación y posible interpretación de los mismos, así como las fases iniciales de integración, recopilación y preparación de datos. Los sistemas de KDD permiten la selección, limpieza, transformación y proyección de los datos; analizar los datos para extraer patrones y modelos adecuados; evaluar e interpretar los patrones para convertirlos en conocimiento; consolidar el conocimiento resolviendo posibles conflictos Con conocimiento previamente extraído; y hacer el conocimiento disponible para su uso. Esta definición del proceso clarifica la relación entre el KDD y la Minería de Datos: el KDD es el proceso global de descubrir conocimiento útil desde las bases de datos mientras que la Minería de Datos se refiere a la aplicación de los métodos de aprendizaje y estadísticos para la obtención de patrones y modelos. Al ser la fase de generación de modelos, comúnmente se asimila KDD con Minería de Datos. Alfredo Carreras Gómez Página 64

75 3.2 Tipos de modelos La Minería de Datos tiene como objetivo analizar los datos para extraer conocimiento. Este conocimiento puede ser en forma de relaciones, patrones o reglas inferidos de los datos y (previamente) desconocidos, o bien en forma de una descripción más concisa (es decir, un resumen de los mismos). Estas relaciones o resúmenes constituyen el modelo de los datos analizados. Existen muchas formas diferentes de representar los modelos y cada una de ellas determina el tipo de técnica que puede usarse para inferirlos. En la práctica, los modelos pueden ser de dos tipos: predictivos y descriptivos. Los modelos predictivos pretenden estimar valores futuros o desconocidos de variables de interés, que denominamos variables objetivo o dependientes, usando otras variables o campos de la base de datos, a las que nos referiremos como variables independientes o predictivas. Por ejemplo, un modelo predictivo sería aquel que permite estimar la demanda de un nuevo producto en función del gasto en publicidad. Los modelos descriptivos identifican patrones que explican o resumen los datos, es decir, sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Por ejemplo, una agencia de viaje desea identificar grupos de personas con unos mismos gustos, con el objeto de organizar diferentes ofertas para cada grupo y poder así remitirles esta información; para ello analiza los viajes que han realizado sus clientes e infiere un modelo descriptivo que caracteriza estos grupos. Los modelos descriptivos más usuales junto con sus algoritmos son: - Agrupamiento o Mapas de Kohonen o K-means o C-means o Fuzzy c-means o... Alfredo Carreras Gómez Página 65

76 - Reglas de asociación o A priori o CN2 rules - Correlaciones o Regresión lineal o Análisis factorial o Análisis de componentes principales Los modelos predictivos más usuales junto con sus algoritmos son: - Clasificación o Árboles decisión ID3 o Árboles decisión CART o Árboles decisión C4.5 o Naive Bayes - Regresión o Redes Neuronales (RNA) o Algoritmos genéticos y evolutivos Alfredo Carreras Gómez Página 66

77 3.3 Tareas de la Minería de Datos Algunas tareas de Minería de Datos que producen modelos predictivos son: - la clasificación - la regresión y las que dan lugar a modelos descriptivos son: - el agrupamiento o clustering - las reglas de asociación - las reglas de asociación secuenciales - el análisis correlacional. Cada tarea puede ser realizada usando distintas técnicas. Por ejemplo, los modelos inferidos por los árboles de decisión y las redes neuronales pueden inferir modelos predictivos. Igualmente, para una misma técnica se han desarrollado diferentes algoritmos que difieren en la forma y criterios concretos con los que se construye el modelo. A continuación describo brevemente cada una de estas tareas: Clasificación La clasificación es quizá la tarea más utilizada. En ella, cada instancia (o registro de la base de datos) pertenece a una clase, la cual se indica mediante el valor de un atributo que llamamos la clase de la instancia. Este atributo puede tomar diferentes valores discretos, cada uno de los cuales corresponde a una clase. El resto de los atributos de la instancia (los relevantes a la clase) se utilizan para predecir la clase. El objetivo es predecir la clase de nuevas instancias de las que se desconoce la clase. Más concretamente, el objetivo del algoritmo es maximizar la razón de precisión de la clasificación de las nuevas instancias, la cual se calcula como el cociente entre las predicciones correctas y el número total de predicciones (correctas e incorrectas). Existen variantes de la tarea de la clasificación, como son el aprendizaje de "rankings", el aprendizaje de preferencias, el aprendizaje de estimadores de probabilidad, etc. Alfredo Carreras Gómez Página 67

78 3.3.2 Regresión La regresión es también una tarea predictiva que consiste en aprender una función real que asigna a cada instancia un valor real. Ésta es la principal diferencia respecto a la clasificación; el valor a predecir es numérico. El objetivo en este caso es minimizar el error (generalmente el error cuadrático medio) entre el valor predicho y el valor real Agrupamiento o clustering El clustering es la tarea descriptiva por excelencia y consiste en obtener grupos "naturales" a partir de los datos. Hablamos de grupos y no de clases, porque, a diferencia de la clasificación, en lugar de analizar datos etiquetados con una clase, los analiza para generar esta etiqueta. Los datos son agrupados basándose en el principio de maximizar la similitud entre los elementos de un grupo minimizando la similitud entre los distintos grupos. Es decir, se forman grupos tales que los objetos de un mismo grupo son muy similares entre sí y, al mismo tiempo, son muy diferentes a los objetos de otro grupo. Al agrupamiento también se le suele llamar segmentación, ya que parte o segmenta los datos en grupos que pueden ser o no disjuntos. El agrupamiento está muy relacionado con la sumarización, que algunos autores consideran una tarea en sí misma, en la que cada grupo formado se considera como un resumen de los elementos que lo forman para así describir de una manera concisa los datos Correlaciones Las correlaciones son una tarea descriptiva que se usa para examinar el grado de similitud de los valores de dos variables numéricas. Una fórmula estándar para medir la correlación lineal es el coeficiente de correlación r, el cual es un valor real comprendido entre -1 y 1. Si r es 1 (respectivamente, -1) las variables están perfectamente correlacionadas (perfectamente correlacionadas negativamente), mientras que si es 0 no hay correlación. Esto quiere decir que cuando r es positivo, las variables tienen un comportamiento similar (ambas crecen o decrecen al mismo tiempo) y cuando r es negativo si una variable crece la otra decrece. El análisis de correlaciones, sobre todo las negativas, puede ser muy útil para establecer reglas de ítems correlacionados. Alfredo Carreras Gómez Página 68

79 3.3.5 Reglas de asociación Las reglas de asociación son también una tarea descriptiva, muy similar a las correlaciones, que tiene como objetivo identificar relaciones no explícitas entre atributos categóricos. Pueden ser de muchas formas, aunque la formulación más común es del estilo " si el atributo X toma el valor d entonces el atributo y toma el valor b. Las reglas de asociación no implican una relación causa-efecto, es decir, puede no existir una causa para que los datos estén asociados. Este tipo de tarea se utiliza frecuentemente en el análisis de la cesta de la compra, para identificar productos que son frecuentemente comprados juntos, información esta que puede usarse para ajustar los inventarios, para la organización física del almacén o en campañas publicitarias. Las reglas se evalúan usando dos parámetros: precisión y soporte (cobertura) Reglas de asociación secuenciales Un caso especial de reglas de asociación, que recibe el nombre de reglas de asociación secuenciales, se usa para determinar patrones secuenciales en los datos. Estos patrones se basan en secuencias temporales de acciones y difieren de las reglas de asociación en que las relaciones entre los datos se basan en el tiempo. Alfredo Carreras Gómez Página 69

80 3.4 Técnicas de Minería de Datos Existen diversas técnicas para abordar una tarea de Minería de Datos, siendo las más utilizadas: - técnicas de inferencia estadística - árboles de decisión - redes neuronales - inducción de reglas - aprendizaje basado en instancias - algoritmos genéticos - aprendizaje bayesiano - programación lógica inductiva - métodos basados en núcleos Alfredo Carreras Gómez Página 70

81 3.5 Relación de la Minería de Datos con otras tecnologías de bases de datos SQL y OLTP Hasta no hace mucho, el análisis de los datos de una base de datos se realizaba mediante consultas efectuadas con lenguajes generalistas de consulta, como el SQL, y se producía sobre la base de datos operacional, es decir, junto al procesamiento transaccional en línea (On-Line Transaction Processing, OLTP) de las aplicaciones de gestión. No obstante, esta manera de actuar sólo permitía generar información resumida de una manera previamente establecida (generación de informes), poco flexible y, sobre todo, poco escalable a grandes volúmenes de datos. El procesamiento transaccional en tiempo real (OLTP) constituye el trabajo primario en un sistema de información. Este trabajo consiste en realizar transacciones, es decir, actualizaciones y consultas a la base de datos con un objetivo operacional: hacer funcionar las aplicaciones de la organización, proporcionar información sobre el estado del sistema de información y permitir actualizarlo conforme va variando la realidad del contexto de la organización. Muestras de este tipo de trabajo transaccional son, por ejemplo, en el caso de una empresa, la inserción de un nuevo cliente, el cambio de sueldo de un empleado, la tramitación de un pedido, el almacenamiento de una venta, la impresión de una factura, la baja un producto, etc. Es el trabajo diario y para el que inicialmente se ha diseñado la base de datos. Las herramientas de consulta y las herramientas de Data Mining son complementarias. Una herramienta de Data Mining no reemplaza una herramienta de consulta, pero da al usuario un montón de posibilidades adicionales. Los algoritmos de Data Mining pueden encontrar mucha información oculta de forma óptima, que no pueden lograrse de forma sencilla usando herramientas de consulta a bases de datos utilizando SQL. Data Mining utiliza queries con SQL y almacena los resultados intermedios. El conocimiento oculto en bases de datos es mucho más difícil de encontrar usando SQL. Se podría intentar adivinar algún criterio que relacione los datos de una base de datos de gran tamaño y realizar consultas a dicha base de datos para ver si el criterio funciona o no, en un proceso de prueba y error. Alfredo Carreras Gómez Página 71

82 Se podría desarrollar de forma gradual intuiciones sobre cuales son los atributos mas importantes que clasifican los datos, pero procediendo de este modo, podría llevar días o incluso meses encontrar una segmentación optima para una gran base de datos, mientras que un algoritmo de aprendizaje automático como redes neuronales o algoritmos genéticos podrían encontrar la respuesta automáticamente en un periodo de tiempo mucho mas corto, a veces en minutos o un par de horas. Una vez que la herramienta de Data Mining ha encontrado una segmentación, se suelen utilizar queries para consultar y analizar los perfiles encontrados. Si realmente se conoce la información que se desea buscar de la base de datos, se utiliza SQL; pero si solo se conoce vagamente lo que se está buscando, es preferible usar Data Mining. Alfredo Carreras Gómez Página 72

83 3.5.2 DataWarehouse y OLAP Recientemente ha surgido una nueva arquitectura conocida como almacén de datos (data warehouse). Se trata de un repositorio de fuentes heterogéneas de datos, integrados y organizados bajo un esquema unificado para facilitar su análisis y dar soporte a la toma de decisiones. Los almacenes de datos se utilizan para poder agregar y cruzar eficientemente la información de maneras sofisticadas. Por ello, los datos se modelan con una estructura de base de datos multidimensional, donde cada dimensión corresponde a un atributo o conjunto de atributos en el esquema en torno a unos "hechos" que almacenan el valor de alguna medida agregada, como por ejemplo la cantidad vendida de un producto en un día concreto en una tienda. Esta visión multidimensional hace a los almacenes de datos adecuados para el procesamiento analítico en línea (on-line analytical processing, OLAP), es decir, técnicas de análisis como pueden ser el resumen, la consolidación o la agregación, así como la posibilidad de ver la información desde distintas perspectivas. Las operaciones OLAP permiten un análisis multidimensional de los datos, que es superior al SQL para computar resúmenes y desgloses en muchas dimensiones, pudiendo utilizar conocimiento previo sobre el dominio de los datos para permitir su presentación a diferentes niveles de abstracción, acomodando así diferentes puntos de vista del usuario. El usuario de una herramienta OLAP utiliza la herramienta para obtener información agregada a partir de información detallada, combinando la información de manera flexible. Esto permite obtener informes y vistas sofisticadas en tiempo real. Además, las herramientas OLAP pueden utilizarse para comprobar rápidamente patrones y pautas hipotéticas sugeridas por el usuario con el objetivo de verificarlas o rechazarlas. Se trata, por lo tanto, de un proceso esencialmente deductivo. Por el contrario, la Minería de Datos, más que verificar patrones hipotéticos, usa los datos para encontrar estos patrones. Por lo tanto, es un proceso inductivo. Ambos tipos de herramientas se complementan: podemos usar OLAP al principio del proceso de KDD para explorar los datos (por ejemplo, para centrar nuestra atención en las variables importantes, identificar excepciones o encontrar interacciones), ya que cuanto más comprendamos los datos más efectivo será el proceso de descubrir conocimiento. Alfredo Carreras Gómez Página 73

84 Sin embargo, a pesar de que las herramientas OLAP soportan cierto análisis descriptivo y de sumarización que permite transformar los datos en otros datos agregados o cruzados de manera sofisticada, no generan reglas, patrones, pautas, es decir, conocimiento que pueda ser aplicado a otros datos. Sin embargo, en muchos contextos, como los negocios, la medicina o la ciencia, los datos por sí solos tienen un valor relativo. Lo que de verdad es interesante es el conocimiento que puede inferirse a partir de los datos y, más aún, la capacidad de poder usar este conocimiento. Existen otras herramientas analíticas que han sido empleadas para analizar los datos y que tienen su origen en la estadística, algo lógico teniendo en cuenta que la materia prima de esta disciplina son precisamente los datos. Aunque algunos paquetes estadísticos son capaces de inferir patrones a partir de los datos (utilizando modelización estadística paramétrica o no paramétrica), el problema es que resultan especialmente crípticos para los no estadísticos, generalmente no funcionan bien para la talla de las bases de datos actuales (cientos de tablas, millones de registros, talla de varios gigabytes y una alta dimensionalidad) y algunos tipos de datos frecuentes en ellos (atributos nominales con muchos valores, datos textuales, multimedia, etc.), y no se integran bien con los sistemas de información. Todos estos problemas y limitaciones de las aproximaciones clásicas han hecho surgir la necesidad de una nueva generación de herramientas y técnicas para soportar la extracción de conocimiento útil desde la información disponible, y que se engloban bajo la denominación de Minería de Datos. La Minería de Datos se distingue de las aproximaciones anteriores porque no obtiene información extensional (datos) sino intensional (conocimiento) y, además, el conocimiento no es, generalmente, una parametrización de ningún modelo preestablecido o intuido por el usuario, sino que es un modelo novedoso y original, extraído completamente por la herramienta. El resultado de la Minería de Datos son conjuntos de reglas, ecuaciones, árboles de decisión, redes neuronales, grafos probabilísticos... Alfredo Carreras Gómez Página 74

85 3.6 Relación de la Minería de Datos con otras disciplinas La Minería de Datos se crea por la aparición de nuevas necesidades y, especialmente, por el reconocimiento de un nuevo potencial: el valor, hasta ahora generalmente infrautilizado, de la gran cantidad de datos almacenados informáticamente en los sistemas de información de instituciones, empresas, gobiernos y particulares. Los datos pasan de ser un "producto" (el resultado histórico de los sistemas de información) a ser una "materia prima" que hay que explotar para obtener el verdadero "producto elaborado", el conocimiento; un conocimiento que ha de ser especialmente valioso para la ayuda en la toma de decisiones sobre el ámbito en el que se han recopilado o extraído los datos. Es cierto que la estadística es la primera ciencia que considera los datos como su materia prima, pero las nuevas necesidades y, en particular, las nuevas características de los datos (en volumen y tipología) hacen que las disciplinas que integran lo que se conoce como "Minería de Datos" sean numerosas y heterogéneas. La Minería de Datos es un campo multidisciplinar que se ha desarrollado en paralelo o como prolongación de otras tecnologías. Por ello, la investigación y los avances en la Minería de Datos se nutren de los que se producen en estas áreas relacionadas. Podemos destacar como disciplinas más influyentes las siguientes: - bases de datos: conceptos como los almacenes de datos y el procesamiento analítico en línea (OLAP) tienen una gran relación con la Minería de Datos, aunque en este último caso no se trata de obtener informes avanzados a base de agregar los datos de cierta manera compleja pero predefinida (como incluyen muchas herramientas de business intelligence, presentes en sistemas de gestión de bases de datos comerciales), sino de extraer conocimiento novedoso y comprensible. Las técnicas de indización y de acceso eficiente a los datos son muy relevantes para el diseño de algoritmos eficientes de Minería de Datos. - recuperación de información (information retrieval, IR): consiste en obtener información desde datos textuales, por lo que su desarrollo histórico se ha basado en el uso efectivo de bibliotecas (recientemente digitales) y en la búsqueda por Internet. Una tarea típica es encontrar documentos a partir de palabras claves, lo cual puede verse como un proceso de clasificación de los documentos en función de estas palabras clave. Para ello se usan medidas de similitud entre los documentos y la consulta. Alfredo Carreras Gómez Página 75

86 - estadística: esta disciplina ha proporcionado muchos de los conceptos, algoritmos y técnicas que se utilizan en Minería de Datos, como por ejemplo, la media, la varianza, las distribuciones, el análisis univariante y multivariante, la regresión lineal y no lineal, la teoría del muestreo, la validación cruzada, la modelización paramétrica y no paramétrica, las técnicas bayesianas, y un largo etcétera. De hecho, algunos paquetes de análisis estadístico se comercializan como herramientas de Minería de Datos. - aprendizaje automático: ésta es el área de la inteligencia artificial que se ocupa de desarrollar algoritmos (y programas) capaces de aprender, y constituye, junto con la estadística, el corazón del análisis inteligente de los datos. Los principios seguidos en el aprendizaje automático y en la Minería de Datos son los mismos: la máquina aprende un modelo a partir de ejemplos y lo usa para resolver el problema. - sistemas para la toma de decisión: son herramientas y sistemas informatizados que facilitan a los directivos la resolución de problemas y la toma de decisiones. El objetivo es proporcionar la información necesaria para realizar decisiones efectivas en el ámbito empresarial o en tareas de diagnóstico (por ejemplo en medicina). Herramientas como el análisis ROC o los mismos árboles de decisión provienen de esta área. - visualización de datos: el uso de técnicas de visualización permite al usuario descubrir, intuir o entender patrones que serían más difíciles de "ver" a partir de descripciones matemáticas o textuales de los resultados. Existen técnicas de visualización, como, por ejemplo: o las gráficas: diagramas de barras, gráficas de dispersión, histogramas, etc. o las icónicas: basadas en figuras, colores, etc. o las basadas en píxeles: cada dato se representa como un único píxel o las jerárquicas: dividiendo el área de representación en regiones dependiendo de los datos - computación paralela y distribuida: actualmente, muchos sistemas de bases de datos comerciales incluyen tecnologías de procesamiento paralelo, distribuido o de computación en grid. En estos sistemas el coste computacional de las tareas más complejas de Minería de Datos se reparte entre diferentes procesadores o computadores. Alfredo Carreras Gómez Página 76

87 Su éxito se debe en parte a la explosión de los almacenes de datos (su adaptación distribuida) y de la Minería de Datos, en los que las prestaciones de los algoritmos de consulta son críticas. Una de las principales ventajas del procesamiento paralelo es precisamente la escalabilidad de los algoritmos, lo que lo hace idóneo para estas aplicaciones. - reconocimiento de patrones (pattern recognition) - otras disciplinas: dependiendo del tipo de datos a ser minados o del tipo de aplicación, la Minería de Datos usa también técnicas de otras disciplinas como el lenguaje natural, el análisis de imágenes, el procesamiento de señales, los gráficos por computadora, etc. Alfredo Carreras Gómez Página 77

88 3.7 Áreas de Aplicación Los sistemas de Data Mining se implantan en diferentes áreas de negocio utilizan para la ayuda a la toma de decisiones. A continuación se muestran algunas de ellas, especificando los problemas tipo a resolver mediante Data Mining: Comercio/Marketing: - Ofrecer productos y servicios que se anticipen a las necesidades de los clientes - Entender y predecir el comportamiento individual de cada cliente - Identificar patrones de compra de los clientes. - Buscar asociaciones entre clientes y características demográficas. - Predecir respuesta a campañas de mailing. - Análisis de cestas de la compra. Finanzas / Banca: - Detectar patrones de uso fraudulento de tarjetas de crédito. - Identificar clientes leales. - Predecir clientes con probabilidad de cambiar su afiliación. - Determinar gasto en tarjeta de crédito por grupos. - Encontrar correlaciones entre indicadores financieros. - Identificar reglas de mercado de valores a partir de históricos. Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente. - Predecir qué clientes compran nuevas pólizas. - Identificar patrones de comportamiento para clientes con riesgo. - Identificar comportamiento fraudulento. Transportes: - Determinar la planificación de la distribución entre tiendas. - Analizar patrones de carga. Alfredo Carreras Gómez Página 78

89 Diseño y Gestión de Bases de Datos. - Reverse Engineering (dada una base de datos, desnormalizarla para que luego el sistema la normalice). - Mejora de Calidad de Datos. - Mejora de Consultas (si se descubren dependencias funcionales nuevas u otras condiciones evitables). Investigación científica - En áreas de medicina, astronomía, meteorología, psicología,... Medicina: - Identificación de terapias médicas satisfactorias para diferentes enfermedades. - Asociación de síntomas y clasificación diferencial de patologías. - Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo/salud en distintas patologías. - Segmentación de pacientes para una atención más inteligente según su grupo. - Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones. - Estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos, etc. Alfredo Carreras Gómez Página 79

90 4. EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO 4.EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO El proceso de descubrimiento de conocimiento en bases de datos (Knowledge Discovery from Databases, KDD) consta de una secuencia iterativa de etapas o fases, como se describe en la figura 4.1: 1. Integración y recopilación 2. Preparación de Datos 3. Minería de Datos 4. Evaluación 5. Difusión y Uso de Modelos Figura 4.1: Fases del proceso de KDD Integración y recopilación El primer paso en el proceso de extracción de conocimiento a partir de datos es precisamente reconocer y reunir los datos con los que se va a trabajar, es decir, determinar las fuentes de información (internas o externas) que pueden ser útiles y dónde conseguirlas. Preparación de Datos La calidad del conocimiento descubierto no sólo depende del algoritmo de minería utilizado, sino también de la calidad de los datos minados. Por ello, después de recopilación, el siguiente paso en el proceso de KDD es seleccionar y preparar el subconjunto de datos que se va a minar, los cuales constituyen lo que se conoce como vista minable. En la mayoría de bases de datos existe mucha información que es incorrecta o inconsistente. Estos problemas se acentúan Alfredo Carreras Gómez Página 80

91 cuando realizamos la integración de distintas fuentes. En esta fase se debe eliminar el mayor número posible de datos erróneos o inconsistentes (limpieza), irrelevantes (criba) o faltantes, y presentar los datos de la manera más apropiada para la Minería de Datos (Ej.: discretizaciones, cálculos). La transformación es una tarea necesaria para la preparación de los datos. Mediante la transformación se puede producir atributos derivados a los ya existentes que aporten mayor información, pueden producirse registros nuevos completos o valores transformados de atributos existentes. Los atributos derivados son nuevos atributos construidos a partir de uno o más atributos existentes en el mismo registro. Por ejemplo: area = longitud * altura. Además se pueden agregar atributos calculados como diferencias entre valores previos, promedio de ellos, diferencias de diferencias o promedios de diferencias y tantos otros como se puedan imaginar. Además de los atributos derivados pueden aparecer nuevos generarse nuevos registros, que describen la creación completa de nuevos registros. Por ejemplo: crear registros para clientes que no realizaron ninguna compra durante el año pasado. No habría ninguna razón para almacenar dichos registros en nuestra fuente de entrada, pero por motivos de modelización puede tener sentido representar explícitamente el hecho de que algunos clientes no han realizado ninguna compra. La cantidad atributos a incluir es una cuestión fundamental. Si se agregan demasiados atributos estos pueden provocar ruido en el algoritmo de clasificación confundiéndolo, en cambio muy pocos atributos no proporcionarían información suficiente para una correcta clasificación. Minería de Datos La fase de Minería de Datos es la más característica del KDD y, por esta razón, muchas veces se utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es producir nuevo conocimiento que pueda utilizar el usuario. Esto se realiza construyendo un modelo basado en los datos recopilados para este efecto Evaluación Tras la ejecución de modelos de minería se evalúan los patrones y se interpretan los resultados obtenidos mediante un conjunto de entrenamiento. Alfredo Carreras Gómez Página 81

92 Difusión y Uso de Modelos Tras evaluar los modelos de minería, si los resultados son correctos se evalúan sobre el total de la población. Además de las fases descritas, frecuentemente se incluye una fase previa de análisis de las necesidades de la organización y definición del problema, en la que se establecen los objetivos de Minería de Datos. El KDD es un proceso iterativo e interactivo. Es iterativo ya que la salida de alguna de las fases puede hacer volver a pasos anteriores y porque a menudo son necesarias varias iteraciones para extraer conocimiento de alta calidad. Es interactivo porque el usuario, o más generalmente un experto en el dominio del problema, debe ayudar en la preparación de los datos, validación del conocimiento extraído, etc. A continuación, se muestra gráficamente los esfuerzos asociados a las fases del proceso KDD: Figura 4.2: Esfuerzos asociados a las fases del proceso de KDD Data Mining es una de las etapas del proceso de KDD. Alfredo Carreras Gómez Página 82

93 4.1. FASE DE INTEGRACIÓN Y RECOPILACIÓN DE DATOS El primer paso en el proceso de extracción de conocimiento a partir de datos es precisamente reconocer y reunir los datos con los que se va a trabajar, es decir, determinar las fuentes de información que pueden ser útiles y dónde conseguirlas. El problema de reunir un conjunto de datos que posibilite la extracción de conocimiento requiere decidir, entre otros aspectos, qué fuentes, internas y externas, se van a obtener los datos, cómo se van a organizar, cómo se van a mantener con el tiempo y, finalmente, de qué forma se van a poder extraer parcial o totalmente, en detalle o agregados, con distintas "vistas minables" a las que podamos aplicar las herramientas concretas de Minería de Datos. Los datos necesarios para poder llevar a cabo un proceso de KDD pertenecen a distintos departamentos de una misma entidad (por una parte el Centro de Recogida de Datos y por otra el almacén de datos de IBM). Además de la información relativa a cartas test, algunos datos necesarios para el análisis nunca han sido recolectados en el ámbito de la organización por no ser necesarios para sus aplicaciones. Por esto, se han adquirido datos externos desde bases de datos públicas para los datos demográficos, para calcular las distancias entre las distintas provincias españolas. Cada fuente de datos usa diferentes formatos de registro, diferentes grados de agregación de los datos, diferentes claves primarias, diferentes tipos de error, etc. Lo primero, por lo tanto, es integrar todos estos datos. La idea de la integración de múltiples bases de datos ha dado lugar a la tecnología de almacenes de datos (data warehousing). Este término, tan popular actualmente, hace referencia a la tendencia actual en las empresas e instituciones de coleccionar datos de las bases de datos transaccionales y otras fuentes diversas para hacerlos accesibles para el análisis y la toma de decisiones. Un almacén de datos es muy aconsejable para la Minería de Datos si se va a trabajar con grandes volúmenes de datos, que varían con el tiempo y donde se desea realizar tareas de minerías de datos variadas, abiertas y cambiantes, aunque el hecho de tener un almacén de datos no es imprescindible. Alfredo Carreras Gómez Página 83

94 En algunos casos, en especial cuando el volumen no es muy grande, se puede trabajar con los datos originales o en formatos heterogéneos (archivos de texto, hojas de cálculo...). Con el uso de Data Warehouses se pretende proporcionar metodologías y tecnología para recopilar e integrar los datos históricos de una organización, cuyo fin es el análisis, la obtención de resúmenes e informes complejos y la extracción de conocimiento. Esta tecnología está diseñada especialmente para organizar grandes volúmenes de datos de procedencia generalmente estructurada (bases de datos relacionales, por ejemplo), aunque el concepto general es útil para la organización de pequeños conjuntos de datos en aplicaciones de Minería de Datos más modestas. Para el desarrollo de este proyecto se han integrado los datos procedentes del Centro de Recogida de Datos, del almacén de datos de IBM y la información demográfica en distintas tablas gestionadas bajo un sistema gestor de bases de datos, en concreto, SQL SERVER Figura 4.3: Fuentes de entrada del DW Una vez que la carta test es depositada por el emisor y recibida por el destinatario, éste la devuelve al Centro de Recogida de Datos, donde se registra en formato electrónico los datos pertenecientes a la carta. Alfredo Carreras Gómez Página 84

95 Figura 4.4: Flujos de información en el Centro de Recogida de Datos Por otro lado, Correos establece los estándares de calidad según la política interna, los diferentes flujos de correo a cubrir y el volumen de producción de carta test que debe haber en circulación mensualmente. Figura 4.5: Datos provenientes de Correos Tanto los datos provenientes de Correos como los del participante se registran en una base de datos transaccional, que va a ser la fuente principal que alimente al DataWarehouse. Además de estos datos, el DataWarehouse se alimenta de datos demográficos (zonas geográficas de España y distancias kilométricas entre las distintas comunidades autónomas). Para alimentar el DataWarehouse es preciso lanzar procesos ETL, encargados de la extracción, transformación y carga de los datos. Por tanto, el proceso de integración y recopilación de datos quedaría resumido en la siguiente imagen: Alfredo Carreras Gómez Página 85

96 Figura 4.6: Identificación de fuentes de datos (internas y eternas) Alfredo Carreras Gómez Página 86

97 4.1.1 Identificación de fuentes internas El Centro de Recogida de Datos contiene la información sobre las últimas cartas recibidas. Aquí es donde se envían rellenados los cuestionarios de los remitentes y los destinatarios, y donde se graban en formato electrónico los datos de cada carta. Una o dos veces por semana, se envían los datos del Centro de recogida al almacén de datos de IBM. Este almacén contiene toda la información de las cartas test. Es una base de datos de gran tamaño, pues contiene información histórica de cartas test desde el año Esquema de almacenamiento en el Centro de Recogida de Datos En el Centro de Recogida de Datos contiene información sobre las cartas test enviadas a los remitentes y devueltas por los destinatarios. Además de datos sobre cartas test, el centro dispone de información sobre los panelistas que participan en la medición de la calidad. Las cartas test enviadas a los remitentes y posteriormente devueltas por los destinatarios al Centro de Recogida de Datos, se registran en una base de datos transaccional con tablas para gestionar los panelistas y las cartas test. Varias veces por semana se exportan las cartas registradas al almacén de IBM, por lo que la estructura de estas tablas es la misma que en el almacén de datos en IBM. Alfredo Carreras Gómez Página 87

98 Esquema de almacenamiento en el almacén de datos de IBM El almacén de datos de IBM contiene, además de las tablas existentes en el Centro de Recogida de Datos, información de control del sistema, reglas de cálculo para estimar la calidad en plazo, los diferentes vínculos entre ciudades origen y destino, log del sistema, información geográfica, fiestas nacionales y locales... Para la creación del nuevo esquema de almacenamiento que integre los datos útiles para una posterior explotación en busca de conocimiento provenientes del centro de recogida de Datos y del almacén de IBM, describiré brevemente las tablas más importantes utilizadas y los atributos significativos que posee información útil para un posterior análisis mediante Minería de Datos: Address Esta tabla contiene información sobre la dirección del participante: tipo de dirección, ID del participante, nombre de la compañía, dirección postal, teléfono, ciudad, distrito, código postal y . Los datos más significativos a incluir en la vista minable son: - Mail_addres_l1: contiene información sobre la localidad y provincia del participante. El participante puede tener más de una dirección postal (lugar de vacaciones, trabajo,...) pero para el estudio sólo interesa tener la dirección del domicilio, que es donde se enviarán las cartas test. Addressing method Contiene información sobre la forma en que está escrita la dirección postal (a mano o a máquina). Datos a incluir en la vista minable: - method_desc: mano o máquina. Alfredo Carreras Gómez Página 88

99 Area Method_key method_id method_desc 96 H Mano 97 M Máquina Contiene información sobre las ciudades y provincias. Datos a incluir en la vista minable: - area_desc: contiene el nombre de las provincias españolas. Area level Contiene información sobre las ciudades agrupadas por provincia y zona. area_level_key area_level_id area_level_desc area_group_key 4 ProvN Province National 1 5 Prov Province 2 8 City City 2 10 ZoneN Zone National 1 11 Zone Zone 2 13 CTRY Country 3 Bundle Contiene información del fajo: ID fajo, semana de producción, ID del dropper, método de inducción, fecha de inducción planeada, fecha de inducción real, hora de inducción, ultima hora de recogida en buzón, peso del fajo,... Un fajo es un conjunto de cartas test enviadas a un mismo remitente, para que las distribuya entre diversos destinatarios. Las cartas incluidas en un fajo, no tienen por qué tener las mismas características físicas (peso, tamaño,...) y pueden pertenecer a distintos productos (línea básica o urgente). Datos a incluir en la vista minable: - bundle id: identificador del fajo. - prod_week_key: semana de producción - dropper_id: identificador del remitente Alfredo Carreras Gómez Página 89

100 - reported_indu_date: fecha de inducción del fajo - indu_time: hora de inducción - last_pickup_time: ultima hora de recogida en buzón Drop role category Contiene información del remitente. Datos a incluir en la vista minable: - drop_role_category_id: indica si el remitente es particular o empresa. drop_role_category_id drop_category_desc drop_role_category_key P Private 137 B Business 138 Dropper Contiene información sobre el remitente: ID de remitente, ID de participante, estado del remitente (activo, inactivo temporalmente o de baja), tipo de dirección, forma de pago (en caso de que el participante sea una empresa y franqueé él mismo las cartas tests. Este importe hay que devolverlo), fechas restringidas que el remitente ha especificado en las que no puede inducir cartas, lugar de inducción... Datos a incluir en la vista minable: - indu_week_pattern_id: días en los que puede inducir las cartas test (lunes a viernes o lunes a sábado). Franking_method Contiene información sobre el método de franqueo. Datos a incluir en la vista minable: - franking_method_id: ST (sello), MT (máquina de franquear), PP (franqueo pagado). Alfredo Carreras Gómez Página 90

101 Franking_method_keyfranking_method_id franked_by_dropper 82 ST N 83 MT Y 84 PP Y Induction_method Contiene información sobre el método de inducción. Datos a incluir en la vista minable: - induction_method_key: PO (oficina de correos), CA (centro admisión masiva) o MB (buzón). induction_method_key indu_method_id indu_desc 90 MB Buzón 91 PO Oficina de Correos 92 CA Centro Adm. Masiva Mail Es la tabla que posee la información más útil de las cartas test. Contiene información sobre la carta test: ID de la carta, código postal del remitente, set de producción (Local, Provincial, Nacional), ID del remitente, ID del destinatario, método de inducción, fecha de inducción, formato de la carta, ID del fajo, código de cancelación, fecha prevista de depósito, fecha de matasello, fecha de franqueo, fecha de recepción, hora de recepción, estado de recepción e ID del transpondedor. Datos a incluir en la vista minable: - mail_id: identificador de la carta - receiver_id: identificador del destinatario - stamp cancel date: fecha de matasello - meter date: fecha de franqueo - received date: fecha de recepción - damage_id: estado de recepción de la carta test Alfredo Carreras Gómez Página 91

102 Mail format Contiene información sobre el formato de la carta test. Datos a incluir en la vista minable: - format_desc: normalizado, C5, A4. Mail type Format_key Format_id Format_desc 93 Nor Normalizado 94 C5 C5 95 A4 A4 Contiene información sobre el tipo de carta test: ID del tipo de carta, método de franqueo, tipo de producto, tipo de dirección, formato de la carta, tamaño de la carta, peso y estándar del servicio. Datos a incluir en la vista minable: - weight_key: peso de la carta. - service_key: estándar del servicio. Participant Un participante puede ser remitente y/o destinatario a la vez. La tabla Participant contiene información sobre el participante: nombre, datos bancarios, país e idioma (entre otros). Datos a incluir en la vista minable: - role: indica si el participante es remitente, destinatario o ambos a la vez. Alfredo Carreras Gómez Página 92

103 Product Contiene información sobre la línea a la que pertenece la carta test (ordinaria o urgente). Datos a incluir en la vista minable: - product_id. : O, U. product_key product_id product_desc 81 O Carta ordinaria 154 U Carta urgente Rec_role_category Contiene información sobre el destinatario, especificando si es particular o empresa. Datos a incluir en la vista minable: - rec_role_category_id: particular o empresa. Zip_range_ext rec_role_category_key rec_role_category_id rec_category_desc 139 P Private 140 B Business Contiene información sobre los códigos postales, provincias, ciudades y zonas de la geografía española. Datos a incluir en el nuevo diseño: - zip_range_key: contiene el código postal Alfredo Carreras Gómez Página 93

104 - provn_key: contiene el nombre de la provincia al que pertenece el código postal. - city_key: contiene el nombre de la ciudad al que pertenece el código postal. - zone_key: contiene el nombre de la zona al que pertenece el código postal. Alfredo Carreras Gómez Página 94

105 4.1.2 Identificación de fuentes externas Sólo conociendo el contexto de cada organización o de cada problema en particular se puede determinar qué fuentes externas van a ser necesarias. Además, este proceso es generalmente iterativo. A medida que se va profundizando en un estudio, se pueden ir determinando datos externos que podrían ayudar y se pueden ir añadiendo a nuestro "repositorio de datos". Por tanto, la tarea de mantener un "repositorio" o un "almacén" con toda la información necesaria cobra mayor relevancia y complejidad. Aparte de la información interna de la organización, los almacenes de datos pueden recoger información externa: # Demografías (censo), páginas amarillas, gráficos web, información de otras organizaciones... # Datos compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc. # Datos resumidos de áreas geográficas, distribución de la competencia, evolución de la economía, información de calendarios y climatologías,... # Bases de datos externas compradas a otras compañias. En el proyecto se ha utilizado una base de datos de Datos demográficos contiene información sobre las distancias (en kilómetros) de las 52 provincias españolas a cualquier otra provincia española. Existen varias formas de mezclar las distintas bases de datos para crear el repositorio. Una posibilidad es simplemente hacer una copia de las bases de datos integrantes (probablemente eliminando inconsistencias y redundancias). Obviamente, esta aproximación limita las ventajas para acceder a bases de datos heterogéneas. Por ello, se ha optado a construir el almacén de datos vía un proceso de integración y almacenamiento en un nuevo esquema integrado. Figura 4.7: Identificación de fuentes externas Alfredo Carreras Gómez Página 95

106 4.1.3 Diseño del nuevo esquema de almacenamiento integrado Selección de variables significativas Datos de la carta test # Identificador de carta # Línea (ordinaria / urgente) # Formato de la carta (normalizado/ C5 / A4) # Peso (0-20gr / gr / gr) # Dirección postal (escrita a mano / a máquina) # Método de franqueo (sello / máquina de franquear / franqueo pagado) # Estándar de servicio # Semana de producción # Fecha de matasello # Fecha de franqueo # Fecha de recepción # Estado de recepción (buena / aceptable / mala o abierta / rota) Datos del fajo # Identificador de fajo # Método de inducción (buzón / oficina / centro de admisión masiva) # Fecha de inducción # Hora de inducción # Ultima hora de recogida en buzón Datos del remitente # Identificador de remitente # Ciudad origen # Provincia origen # Zona origen # Código postal # Categoría del remitente (particular / empresa) # Días de inducción del remitente (Lunes Viernes / Lunes Sábado) Alfredo Carreras Gómez Página 96

107 Datos del destinatario # Identificador de destinatario # Ciudad destino # Provincia destino # Zona destino # Código postal # Categoría del destinatario (particular / empresa) El diseño del DataWarehouse ha sido estructurado en las siguientes áreas: # Fuentes origen de datos Contiene información sobre las tablas/vistas necesarias para el aprovisionamiento del DataMart. # Fuentes preparadas para minar Contiene información sobre las tablas/vistas donde se realizará la búsqueda de conocimiento mediante técnicas de Data Mining. Los datos que se almacenan en estas tablas deberán haber sido previamente limpiados, transformados y codificados para poder ejecutar los algoritmos de minería. # Modelos de Minería Contiene información sobre las tablas/vistas que utiliza cada uno de los modelos de minería implementados por la herramienta desarrollada. # Resultados Minería Contiene información sobre las tablas donde se almacenan los resultados de aplicar un modelo de minería. A continuación se describe el diseño lógico y físico del DW realizado con la herramienta ERwin. Alfredo Carreras Gómez Página 97

108 Diseño lógico de DataWarehouse a construir # Fuentes origen de datos Provincias Id Provincia ComunidadAutonoma Provincias Provincia ComunidadAutonoma Kms CorreoValido IDcarta ciudad_origen ciudad_destino provincia_origen provincia_destino zona_origen zona_destino IDfajo IDremitente IDdestinatario linea metodo_induccion fecha_induccion fecha_recepcion dias_antelacion estandar_servicio dias_entrega CP_origen CP_destino categoria_remitente categoria_destinatario formato peso direccion metodo_franqueo semana_produccion hora_induccion ultima_hora_recogida estado fecha_matasello fecha_franqueo comunidad_origen comunidad_destino Alfredo Carreras Gómez Página 98

109 # Fuentes preparadas para minar T_DMM_RegresionLineal POrigen: VARCHAR(50) PDestino: VARCHAR(50) Dias: INTEGER Kms: INTEGER ConjuntoEntrenamiento ciudad_destino: VARCHAR(255) provincia_origen: VARCHAR(255) provincia_destino: VARCHAR(255) zona_origen: VARCHAR(255) zona_destino: VARCHAR(255) IDfajo: DOUBLE PRECISION IDcarta: DOUBLE PRECISION IDremitente: INTEGER IDdestinatario: INTEGER linea: VARCHAR(255) metodo_induccion: VARCHAR(255) fecha_induccion: VARCHAR(255) fecha_recepcion: VARCHAR(255) dias_antelacion: SMALLINT estandar_servicio: SMALLINT dias_entrega: SMALLINT CP_origen: SMALLINT CP_destino: SMALLINT categoria_remitente: VARCHAR(255) categoria_destinatario: VARCHAR(255 formato: VARCHAR(255) peso: VARCHAR(255) direccion: VARCHAR(255) metodo_franqueo: VARCHAR(255) semana_produccion: VARCHAR(255) hora_induccion: VARCHAR(255) ultima_hora_recogida: VARCHAR(255 estado: VARCHAR(255) fecha_matasello: VARCHAR(255) fecha_franqueo: VARCHAR(255) comunidad_origen: VARCHAR(255) comunidad_destino: VARCHAR(255) ciudad_origen: VARCHAR(255) Alfredo Carreras Gómez Página 99

110 # Resultados de minería T_Score_CorrelacionLineal ID_Modelo Variable_A Variable_B A B R T_Score_Clustering ID_Modelo Cluster_ID Elemento Num_Elementos FactoresCerteza ID_Modelo POrigen PDestino Flujo Linea Formato Peso Metodo_Induccion Cantidad Tiempo T_Score_Arbol_ID3 ID_Modelo A B Num_Elementos Entropia Alfredo Carreras Gómez Página 100

111 Diseño físico de DataWarehouse a construir # Fuentes origen de datos Contiene información sobre las tablas/vistas necesarias para el aprovisionamiento del DataMart. Provincias Id: INTEGER Provincia: VARCHAR(50) ComunidadAutonoma: VARCHAR(50) Kms Provincia_Origen: VARCHAR(50) Provincia_Destino: VARCHAR(50) Kms: INTEGER CorreoValido IDcarta: DOUBLE PRECISION ciudad_origen: VARCHAR(255) ciudad_destino: VARCHAR(255) provincia_origen: VARCHAR(255) provincia_destino: VARCHAR(255) zona_origen: VARCHAR(255) zona_destino: VARCHAR(255) IDfajo: DOUBLE PRECISION IDremitente: INTEGER IDdestinatario: INTEGER linea: CHAR(18) metodo_induccion: CHAR(18) fecha_induccion: CHAR(18) fecha_recepcion: TIME dias_antelacion: SMALLINT estandar_servicio: SMALLINT dias_entrega: SMALLINT CP_origen: SMALLINT CP_destino: SMALLINT categoria_remitente: CHAR(18) categoria_destinatario: CHAR(18) formato: CHAR(18) peso: CHAR(18) direccion: CHAR(18) metodo_franqueo: CHAR(18) semana_produccion: INTEGER hora_induccion: TIME ultima_hora_recogida: TIME estado: CHAR(18) fecha_matasello: DATE fecha_franqueo: DATE comunidad_origen: VARCHAR(50) comunidad_destino: VARCHAR(50) Alfredo Carreras Gómez Página 101

112 # Fuentes preparadas para minar Contiene información sobre las tablas/vistas donde se realizará la búsqueda de conocimiento mediante técnicas de Data Mining. Los datos que se almacenan en estas tablas deberán haber sido previamente limpiados, transformados y codificados para poder ejecutar los algoritmos de minería. T_DMM_RegresionLineal POrigen: VARCHAR(50) PDestino: VARCHAR(50) Dias: INTEGER Kms: INTEGER ConjuntoEntrenamiento IDcarta: DOUBLE PRECISION ciudad_origen: VARCHAR(255) ciudad_destino: VARCHAR(255) provincia_origen: VARCHAR(255) provincia_destino: VARCHAR(255) zona_origen: VARCHAR(255) zona_destino: VARCHAR(255) IDfajo: DOUBLE PRECISION IDremitente: INTEGER IDdestinatario: INTEGER linea: CHAR(18) metodo_induccion: CHAR(18) fecha_induccion: CHAR(18) fecha_recepcion: TIME dias_antelacion: SMALLINT estandar_servicio: SMALLINT dias_entrega: SMALLINT CP_origen: SMALLINT CP_destino: SMALLINT categoria_remitente: CHAR(18) categoria_destinatario: CHAR(18) formato: CHAR(18) peso: CHAR(18) direccion: CHAR(18) metodo_franqueo: CHAR(18) semana_produccion: INTEGER hora_induccion: TIME ultima_hora_recogida: TIME estado: CHAR(18) fecha_matasello: DATE fecha_franqueo: DATE comunidad_origen: VARCHAR(50) comunidad_destino: VARCHAR(50) Alfredo Carreras Gómez Página 102

113 # Resultados Minería Contiene información sobre las tablas donde se almacenan los resultados de aplicar un modelo de minería. T_Score_CorrelacionLineal ID_Modelo: VARCHAR(20) Variable_A: VARCHAR(20) Variable_B: VARCHAR(20) A: VARCHAR(50) B: VARCHAR(50) R: INTEGER T_Score_AjusteCurva ID_Modelo: VARCHAR(20) Atributo: VARCHAR(20) Valor: VARCHAR(50) Mes: INTEGER T_Score_Prediccion ID_Modelo: CHAR(18) POrigen: VARCHAR(50) PDestino: VARCHAR(50) Flujo: VARCHAR(50) Linea: VARCHAR(50) Formato: VARCHAR(50) Peso: VARCHAR(50) Metodo_Induccion: VARCHAR(50) Cantidad: INTEGER Tiempo: VARCHAR(50) T_Score_Arbol ID_Modelo: VARCHAR(20) Atributo: VARCHAR(20) Valor: VARCHAR(50) Num_Elementos: INTEGER Entropia: INTEGER Alfredo Carreras Gómez Página 103

114 A continuación, especifico los atributos a incluir en el nuevo esquema y el nuevo nombre que se les ha asignado para una mejor comprensión de los datos: Tabla CorreoValido Nombre Antiguo Nombre nuevo Clave Tipo de datos Longitud city_key ciudad_origen Varchar 50 city_key ciudad_destino Varchar 50 provn_key provincia_origen Varchar 50 provn_key provincia_destino Varchar 50 zone_key zona_origen Char 10 zone_key zona_destino Char 10 bundle_id IDfajo BigInt 8 mail_id IDcarta! BigInt 8 dropper_id IDremitente BigInt 8 receiver_id IDdestinatario BigInt 8 product_id linea Char 10 induction_method_key metodo_induccion Char 10 reported_indu_date fecha_induccion Char 10 received_date fecha_recepcion Char 10 dias_antelación Int 4 service_key estandar_servicio Int 4 dias_entrega Int 4 zip_range_key CP_origen Int 4 zip_range_key CP_destino Int 4 drop_role_category_key categoría_remitente Char 10 rec_role_category_key categoría_destinatario Char 10 format_desc Formato Char 11 weight_key peso Char 10 method_desc direccion Char 10 franking_method_id metodo_franqueo Char 10 prod_week_key semana_produccion Char 10 indu_time hora_induccion Char 10 last_pickup_time ultima_hora_recogida Char 10 damage_id estado Char 10 stamp_cancel_date fecha_matasello Char 10 meter_date fecha_franqueo Char 10 comunidad_origen Varchar 50 comunidad_destino Varchar 50 Alfredo Carreras Gómez Página 104

115 A continuación se detalla un diccionario de conceptos relativo a los atributos más significantes para el estudio de las cartas test, así como los diferentes objetos que son la fuente de información y unos posibles valores que pueden tener los atributos seleccionados: OBJETO ATRIBUTO VALOR CARTA IDfajo IDcarta línea formato peso direccion dias_entrega dias_antelacion estado {B, A, M} REMITENTE DESTINATARIO CORREOS ciudad_origen provincia_origen comunidad_origen zona_origen IDremitente método_induccion fecha_induccion hora_induccion CP_origen categoría_remitente ciudad_destino provincia_ destino comunidad_destino zona_ destino IDdestinatario fecha_recepcion CP_destino categoría_destinatario estandar_servicio método_franqueo fecha_matasello fecha_franqueo ultima_hora_recogida 12 dígitos. Ej.: dígitos. Ej.: {O,U} {Normalizado, A4,C5} {0-20, 20-50, } gr. {Mano, Máquina} [0,30] [-30,3] Ej: Getafe Ej.: Madrid Ej.: Madrid Zona dígitos. Ej.: {MB, PO, CA} 01/01/ /12/ :00 23:59 5 dígitos. Ej.: {P, B} Ej.: Illescas Ej.: Toledo Ej.: Castilla La Mancha Zona dígitos. Ej.: /01/ /12/ dígitos. Ej.: {P, B} {1,2,3} {ST, MT, PP} 01/01/ /12/ /01/ /12/ :00 22:00 IBM semana_produccion Alfredo Carreras Gómez Página 105

116 4.2 PREPARACIÓN DE DATOS La calidad del conocimiento descubierto no sólo depende del algoritmo de minería utilizado, sino también de la calidad de los datos minados. Por ello, después de recopilación, el siguiente paso en el proceso de KDD es seleccionar y preparar el subconjunto de datos que se va a minar, los cuales constituyen lo que se conoce como vista minable. Este paso es necesario ya que algunos datos coleccionados en la etapa anterior son irrelevantes o innecesarios para la tarea de minería que se desea realizar. En la mayoría de bases de datos existe mucha información que es incorrecta respecto al dominio de la realidad que se desea cubrir y un número menor, pero a veces también relevante, de datos inconsistentes. Estos problemas se acentúan cuando realizamos la integración de distintas fuentes. No obstante, mientras los datos erróneos crecen de manera lineal respecto al tamaño de los datos recopilados, los datos inconsistentes se multiplican; varias fuentes diferentes pueden afirmar cosas distintas sobre el mismo objeto. La integración también produce una disparidad de formatos, nombres, rangos, etc., que podría no existir, o en menor medida, en las fuentes originales. Esto dificulta en gran medida los procesos de análisis y extracción de conocimiento. Estos procesos reciben nombres bastante variados: preparación de datos, data cooking, preprocesamiento, etc. Conjuntamente, la preparación de datos tiene como objetivo la eliminación del mayor número posible de datos erróneos o inconsistentes (limpieza) e irrelevantes (criba), y trata de presentar los datos de la manera más apropiada para la Minería de Datos. En esta fase se transforman todos los datos a un formato común, frecuentemente mediante un almacén de datos que consiga unificar de manera operativa toda la información recogida, detectando y resolviendo las inconsistencias. Este almacén de datos facilita enormemente la "navegación" y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados. Dado que los datos provienen de diferentes fuentes, pueden contener valores erróneos o faltantes. Estas situaciones se tratan en la fase de selección, limpieza y transformación, en la que se eliminan o corrigen los datos incorrectos y se decide la estrategia a seguir con los datos incompletos. Alfredo Carreras Gómez Página 106

117 Además, se proyectan los datos para considerar únicamente aquellas variables o atributos que van a ser relevantes, con el objetivo de hacer más fácil la tarea propia de minería y para que los resultados de la misma sean más útiles. La selección incluye tanto una criba o fusión horizontal (filas / registros) como vertical (columna atributos). Las dos primeras fases del KDD se suelen englobar bajo el nombre de "preparación datos". El éxito de un proceso de Minería de Datos depende, no sólo de tener todos los datos necesarios (una buena recopilación), sino de que éstos estén íntegros, completos y consistentes (una buena limpieza e integración). Alfredo Carreras Gómez Página 107

118 4.2.1 Limpieza de datos Una vez integrados los datos, se debe realizar una estricta, completa y documentada depuración de datos. La limpieza de datos puede, en muchos casos, detectar y solucionar problemas de datos no resueltos durante la integración. En el proceso de cleaning (limpieza de datos) se detectan las cartas que incluyen algún tipo de inconsistencia Detección de valores erróneos Para identificar cualquier error o dato cuestionable, se han establecido unas ciertas reglas para validar los datos: 1. Cartas de Maquina de Franquear no franqueadas el mismo día de su inducción. Según Correos, todas las cartas de maquina de franquear, se franquean el mismo día que se inducen. Puede ocurrir que cuando se induzca la carta, la oficina esté cerrada por la fecha de deposito deberá ser el siguiente día laborable de la oficina de correos. Regla 1: Meter_date Reported_date <> 0 AND Meter_date Actual_date <> 0 2. Cartas de sello no mataselladas en los próximos 4 días después de su inducción Según Correos, se considera una carta errónea aquellas que: 1. Han sido mataselladas antes de ser inducidas (matasello negativo). 2. Han sido mataselladas 5 o más días después de ser inducidas. Regla 2: franking_method_id = ST AND [(stamp-actual) < 0 AND (reported-actual) <> (stamp-actual] OR [(stamp-actual) >= 5 AND (reported-actual) <> (stamp-actual)] 3. Cartas urgentes depositadas en buzón Se considera una carta no válida aquella carta urgente que haya sido inducida en Buzón. Una carta urgente debe ser depositada en una Oficina de Correos. Regla 3: product_id = U AND (indu_method_id) = MB Alfredo Carreras Gómez Página 108

119 4. Cartas recibidas en un día de no entrega Hay que detectar todas las cartas que han sido recibidas en días en los que no hay reparto de correo (festivos locales, festivos nacionales, fines de semana, etc.). Se permite la recepción de cartas en sábados, excepto del 15 de Julio al 15 de Septiembre, ya que en estas fechas no hay servicio de entrega. 5. Cartas de sello con fecha de franqueo Las cartas de sello deberán tener únicamente fecha de matasello. 6. Cartas de maquina de franquear con fecha de matasello Las cartas de máquina de franquear deberán tener únicamente fecha de franqueo. 7. Cartas de franqueo pagado con fecha de matasello o fecha de franqueo Las cartas de franqueo pagado no deberán tener fecha de matasello ni fecha de franqueo. 8. Cartas inducidas en un día de no recogida. Hay que comprobar todas las cartas inducidas en días de no recogida (festivos locales, festivos nacionales, domingos, etc.). Las cartas inducidas en buzón son válidas sea cual sea el día de inducción (puede inducirse en buzón cualquier día y a cualquier hora). 9. Cartas que llegan con un retraso mayor a 30 días. Detecta todas aquéllas cartas que han tardado más de 30 días en llegar a su destino. Estas cartas se consideraran anómalas y no serán objetos de estudio. 10. Horas de inducción extrañas Es preciso detectar aquellas cartas que han sido inducidas en horas extremas del día. - Las cartas de Buzón pueden inducirse a cualquier hora del día. - Las cartas de Oficina de Correos pueden inducirse a cualquier hora del día, sólo si son de Sello (ya que se inducen en el Buzón de la Oficina). Las demás cartas deberán ser depositadas dentro del horario comercial de la Oficina. Se supone que el horario de una Oficina de Correos es de 9:00 a 19:00. - Las cartas depositas en un Centro de Admisión Masiva deberán ser depositadas dentro del horario comercial del Centro. Se supone que este horario es de 9:00 a 18:00. Alfredo Carreras Gómez Página 109

120 Regla 10:[(indu_method_id) = PO AND (franking_method_id) <> ST AND (indu_time < 08:30h OR indu_time > 19:00h)] OR (indu_method_id)= CA AND (indu_time < 09:00h OR indu_time > 18:00h) 11. Cartas con plazo de entrega menor a 0 días Hay que comprobar todas las cartas cuyo plazo de entrega es: menor que 0, independientemente del flujo (local, provincial y nacional) igual que 0, cuyo flujo sea distinto de local. Esto suele detectarse cuando el participante desconoce la fecha exacta de recepción. Se trata de cartas cuya fecha de depósito es igual o superior a la de recepción. Por tanto, estas cartas no deben ser válidas. Alfredo Carreras Gómez Página 110

121 Detección de valores anómalos La presencia de valores que no se ajustan al comportamiento general de los datos (outliers) afecta a la calidad de los datos. Estos datos anómalos pueden representar errores en los datos o pueden ser valores correctos que son simplemente diferentes a los demás. Algunos algoritmos de Minería de Datos ignoran estos datos, otros los descartan considerándolos ruido o excepciones, pero otros son muy sensibles y el resultado se ve claramente perjudicado por ello. Sin embargo, no siempre es conveniente eliminarlos, ya que, en algunas aplicaciones, como la detección de compras fraudulentas efectuadas con tarjetas de crédito o la predicción de inundaciones, los eventos raros pueden ser más interesantes que los regulares (por ejemplo, compras por un importe mucho más elevado que el de las compras efectuadas habitualmente con la tarjeta, o días en los que la cantidad de lluvia recogida es muy superior a la media). Acciones ante datos anómalos (outliers): # ignorar: algunos algoritmos son robustos a datos anómalos (p.ej. árboles) # filtrar (eliminar o reemplazar) la columna: solución extrema, pero a veces existe otra columna dependiente con datos de mayor calidad. Preferible a eliminar la columna es reemplazarla por una columna discreta diciendo si el valor era normal outlier (por encima o por debajo). # filtrar la fila: claramente sesga los datos, porque muchas veces las causas de un dato erróneo están relacionadas con casos o tipos especiales. # reemplazar el valor: por el valor nulo si el algoritmo lo trata bien o por máximos o mínimos, dependiendo por donde es el outlier, o por medias. A veces se puede predecir a partir de otros datos, utilizando cualquier técnica de ML. # discretizar: transformar un valor continuo en uno discreto (p.ej. muy alto, alto, medio, bajo, muy bajo) hace que los outliers caigan en muy alto o muy bajo sin mayores problemas. Alfredo Carreras Gómez Página 111

122 Detección de valores faltantes La presencia de datos faltantes o perdidos (missing values) puede ser también un problema pernicioso que puede conducir a resultados poco precisos. No obstante, es necesario reflexionar primero sobre el significado de los valores faltantes antes de tomar ninguna decisión sobre cómo tratarlos ya que éstos pueden deberse a causas muy diversas, como a un mal funcionamiento del dispositivo que hizo la lectura del valor, a cambios efectuados en los procedimientos usados durante la colección de los datos o al hecho de que los datos se recopilen desde fuentes diversas. Acciones ante datos faltantes (missing values): # ignorar: algunos algoritmos son robustos a datos faltantes (p.ej. árboles). # filtrar (eliminar o reemplazar) la columna: solución extrema, pero a veces existe otra columna dependiente con datos de mayor calidad. Preferible a eliminar la columna, es reemplazarla por una columna booleana diciendo si el valor existía o no. # filtrar la fila: claramente sesga los datos, porque muchas veces las causas de un dato faltante están relacionadas con casos o tipos especiales. # reemplazar el valor: por medias. A veces se puede predecir a partir de otros datos, utilizando cualquier técnica de ML. # segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se obtienen modelos diferentes para cada segmento y luego se combinan. # modificar la política de calidad de datos y esperar hasta que los datos faltantes estén disponibles. A veces es importante examinar las razones tras datos faltantes y actuar en consecuencia: # algunos valores faltantes expresan características relevantes: p.ej. la falta de teléfono puede representar en muchos casos un deseo de que no se moleste a la persona en cuestión, o un cambio de domicilio reciente. # valores no existentes: muchos valores faltantes existen en la realidad, pero otros no. P.ej. el cliente que se acaba de dar de alta no tiene consumo medio de los últimos 12 meses. # datos incompletos: si los datos vienen de fuentes diferentes, al combinarlos se suele hacer la unión y no la intersección de campos, con lo que muchos datos faltantes representan que esas tuplas vienen de una/s fuente/s diferente/s al resto. Alfredo Carreras Gómez Página 112

123 Los valores faltantes que se presentan en la base de datos son: - Estado de la carta. Se considerará que el estado de la carta es buena por defecto. Por tanto, en los casos en que el destinatario no haya especificado el estado de la carta, se supondrá que el estado de recepción de la carta es bueno. - Ultima hora de recogida en buzón. Esta información no es obligatoria, y si no se especifica, la ultima hora de recogida será las 17:00. - Distancia en kilómetros. No se dispone de información sobre distancias con origen o destino fuera de la Península, como son las Islas Baleares, Islas Canarias, Ceuta y Melilla. Alfredo Carreras Gómez Página 113

124 4.2.2 Transformación de atributos Un aspecto muy importante a la hora de realizar los procesos de integración, limpieza, selección y transformación es que se debe conocer el dominio de donde provienen los datos. Por ejemplo, un histograma puede ayudar a detectar los datos anómalos más flagrantes pero no podrá ayudarnos para determinar otros casos que sólo pueden detectarse con seguridad si conocemos el dominio de los datos. En otros casos, conocer el dominio es imprescindible, como por ejemplo para la redefinición de atributos (mediante creación o separación). Alfredo Carreras Gómez Página 114

125 4.2.3 Discretización y numeración El tipo de los datos puede modificarse para facilitar el uso de técnicas que requieren tipos de datos específicos. Así, algunos atributos se pueden numerizar, lo que reduce el espacio y permite usar técnicas numéricas. El proceso inverso consiste en discretizar los atributos continuos, es decir, transformar valores numéricos en atributos discretos o nominales. Los atributos discretizados pueden tratarse como atributos categóricos con un número más pequeño de valores. La idea básica es partir los valores de un atributo continuo en una pequeña lista de intervalos, tal que cada intervalo es visto como un valor discreto del atributo. Los datos pueden ser de distinto tipo: - numéricos (sean enteros o reales, abiertos o cerrados por un intervalo, circulares) - nominales sin orden (incluyendo valores lógicos o booleanos, con valores prefijados o abiertos) - nominales con orden u ordinales (del estilo { bajo, mediano, alto}). Existen numerosas nomenclaturas alternativas, como pueden ser continuos y discretos, cuantitativos y cualitativos/categóricos, que no son exactamente equivalentes a la terminología de datos numéricos y nominales Alfredo Carreras Gómez Página 115

126 4.2.4 Selección de datos No es sólo suficiente con tener una buena calidad de datos, sino además poder proporcionar a los métodos de Minería de Datos el subconjunto de datos más adecuado para resolver el problema. Para ello es necesario seleccionar los datos apropiados. La selección de atributos relevantes es uno de los preprocesamientos más importantes, ya que es crucial que los atributos utilizados sean relevantes para la tarea de Minería de Datos. Idealmente, uno podría usar todas las variables y dejar que la herramienta de Minería de Datos fuera probando hasta elegir las mejores variables predictoras. Obviamente, esta forma de trabajar no funciona bien, entre otras cosas porque el tiempo requerido para construir un modelo crece con el número de variables. Aunque en principio algunos algoritmos de Minería de Datos automáticamente ignoran las variables irrelevantes, en la práctica nuestro conocimiento sobre el dominio del problema puede permitirnos hacer correctamente muchas de esas selecciones. Como en el caso de las variables, también podríamos construir el modelo usando todos los datos. Pero si tenemos muchos, tardaríamos mucho tiempo y probablemente también necesitaríamos una máquina más potente. Consecuentemente, una buena idea es usar una muestra (sample) a partir de algunos datos (o filas). La selección de la muestra debe ser hecha cuidadosamente para asegurar que es verdaderamente aleatoria. Otra tarea de preparación de los datos es la construcción de atributos, la cual consiste en construir automáticamente nuevos atributos aplicando alguna operación o función a los atributos originales con objeto de que estos nuevos atributos hagan más fácil el proceso de minería. La motivación principal para esta tarea es fuerte cuando los atributos originales no tienen mucho poder predictivo por sí solos o los patrones dependen de variaciones lineales de las variables originales. Alfredo Carreras Gómez Página 116

127 4.3 MINERÍA DE DATOS La fase de Minería de Datos es la más característica del KDD y, por esta razón, muchas veces se utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es producir nuevo conocimiento que pueda utilizar el usuario. Esto se realiza construyendo un modelo basado en los datos recopilados para este efecto. El modelo es una descripción de los patrones y relaciones entre los datos que pueden usarse para hacer predicciones, para entender mejor los datos o para explicar situaciones pasadas. Para ello es necesario tomar una serie de decisiones antes de empezar el proceso: - Determinar qué tipo de tarea de minería es el más apropiado (clasificación, clustering...) - Elegir el tipo de modelo. Por ejemplo, para una tarea de clasificación podríamos usar un árbol de decisión, porque queremos obtener un modelo en forma de reglas. - Elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de modelo que estamos buscando. Esta elección es pertinente porque existen muchos métodos para construir los modelos. Por ejemplo, para crear árboles de decisión para clasificación podríamos usar CART o C5.0, entre otros. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. Alfredo Carreras Gómez Página 117

128 4.3.1 Tareas de Minería de Datos realizadas Una tarea de Minería de Datos es un tipo de problema de Minería de Datos que se pretende resolver. Mediante técnicas o métodos de minería se pueden resolver las tareas planteadas. Cada tarea puede ser realizada usando distintas técnicas. Los modelos inferidos por los árboles de decisión pueden inferir modelos predictivos. Para una misma técnica se han desarrollado diferentes algoritmos que difieren en la forma y criterios concretos con lo que se construye el modelo. Dentro de los modelos predictivos, las tareas más importantes de Data Mining son: - Clasificación - Categorización - Regresión - Priorización Dentro de los modelos descriptivos, las tareas más importantes de Data Mining son: - Clustering (agrupamiento, segmentación) - Correlaciones y factorizaciones - Reglas de asociación - Dependencias funcionales - Detección de valores e instancias anómalas De entre todas estas tareas, el proyecto se centra fundamentalmente en las dos tareas de minería utilizadas por excelencia: clasificación y clustering. Además se han desarrollado otras tareas muy utilizadas en Data Mining: predicción, análisis de correlación y patrones de comportamiento (ver figura 4.8): Alfredo Carreras Gómez Página 118

129 Figura 4.8: Tareas de Data Mining utilizadas Alfredo Carreras Gómez Página 119

130 Clasificación La clasificación se refiere a seleccionar una respuesta a partir de un conjunto fijado previamente de alternativas en base a la información que se da como entrada. Es decir, se relacionará una situación única con un grupo mayor de casos similares. Para ello, se deberá definir un conjunto de entrenamiento o casos de prueba, y una vez contrastados los resultados obtenidos, se llevará a cabo las tareas de clasificación con la totalidad de los ejemplos disponibles. El enfoque algorítmico de Clasificación es generalmente utilizado en problemas de detección de transacciones fraudulentas, riesgo en la entrega de créditos, predicción de probabilidad de almacenamiento e identificación de procedimientos médicos. Básicamente, la clasificación emplea un conjunto de datos ( conjunto de entrenamiento ) para desarrollar un modelo y utilizarlo como un clasificador para una población mayor de registros, arrojando la descripción de las características de los registros a cada clase. El objetivo de esta operación es utilizar el contenido de la base de datos, datos históricos, y así generar automáticamente un modelo que podrá predecir un comportamiento futuro. Los métodos para poder realizar lo anterior pueden ser del tipo neuronal o simbólico. Los métodos neuronales, tales como el algoritmo backpropagation (algoritmo analizado en capítulo siguiente), representan el modelo final como una arquitectura de nodos y uniones según valores determinados. Los métodos simbólicos crean modelos que pueden ser representados como árboles de decisión, gráficos difusos o reglas del tipo if..then. El enfoque algorítmico de clasificación predice el estado de las clases, a través de resultados categóricos. Para identificar conceptos (atributo de clase) a partir de las características de un conjunto de ejemplos que los representan se ha de calcular la entropía en cada nodo. El árbol se genera dividiendo sucesivamente el conjunto de aprendizaje en subconjuntos de ejemplos cada vez más pequeños hasta conseguir conjuntos suficientemente puros. Es una partición recursiva en zonas homogéneas o puras a las que se les asocia una clase. Recibe como entrada un conjunto de ejemplos y a partir de ellos desarrolla un árbol de decisión de arriba a abajo guiado por la información de los ejemplos. Recibe como entrada un conjunto de ejemplos y a partir de ellos desarrolla un árbol de decisión de arriba a abajo guiado por la información de los ejemplos. Alfredo Carreras Gómez Página 120

131 El proceso de clasificación es realizado automáticamente a partir del conjunto de entrenamiento, que es una muestra de la base de datos que será minada, los registros para esta aplicación pertenecen a un pequeño conjunto de clases que ya han sido predefinidas por el experto. Junto con esta clasificación, se entregan patrones que esencialmente representan una generalización sobre los registros, y servirán para distinguir las clases. Posteriormente el algoritmo clasificador utiliza esta pre-clasificación para determinar el conjunto de parámetros requerido para realizar la discriminación y llegar al modelo. Una vez que esto se ha llevado a cabo, es necesario verificar la calidad del modelo a través del conjunto de validación. Cuando ya se ha logrado obtener un clasificador efectivo, este se utiliza de un modo predictivo para clasificar nuevos registros dentro de las mismas clases predefinidas. Por ejemplo, un clasificador capaz de identificar riesgos en los préstamos podrían ser utilizados para ayudar en la decisión de donde otorgar un préstamo. Una vez que ya se ha logrado un modelo este puede ser utilizado para predecir las clases de un nuevo conjuntos de registros no clasificados. Objetivos: # Mediante la construcción de árboles de decisión, se pretende poder identificar los atributos que clasifican el estado de recepción de una carta. # Obtener los mejores separadores que determinan un atributo de clase # Clasificar el tipo de retraso en la recepción de una carta # Tipo de provincias según flujo de correo entrante o saliente Alfredo Carreras Gómez Página 121

132 Predicción Lo que distingue a la regresión de la clasificación, es el tipo de salida que estas funciones predicen. Tal como se ha mencionado la clasificación predice estado de clases, mientras que el enfoque algorítmico de regresión predice un valor específico, por ejemplo el modelo predictivo para una regresión podría generar la siguiente sentencia: El ingreso económico de la alumna Alejandra Oñate será de $255 La regresión es utilizada en casos donde la salida predictiva puede tomar posibles valores ilimitados (variables continuas). Existen conversiones muy pequeñas que transforman un problema de clasificación en uno de regresión y viceversa. Mediante el siguiente ejemplo se explica este tipo de conversión: Se intenta predecir la probabilidad de que una persona responda positiva o negativamente a un programa de difusión de carrera, se puede generar un puntaje que fluctúe entre el rango de 0 y 1, los valores cercanos a cero son interpretados como muy probable que no responda, y los valores cercanos a 1 muy probable que responda. Aquellas personas con valores superiores a 0.5, se consideran como probables a responder. Como puede apreciarse, el problema de clasificación se ha convertido en uno de regresión. En un caso contrario, donde se intenta predecir la probabilidad de que un alumno que trabaja, este en las siguientes cuatro categorías de sueldo: no lucrativo (ingreso menor a $0), bajo (ingreso entre $0 y $1000), medio (ingreso entre $1000 y $5000) y alto (ingreso mayor a $5000), es posible tornar un problema de regresión (cantidad de ingreso) en un problema de clasificación (clase de ingreso). En general, un problema de regresión se convierte en uno de clasificación convirtiendo la variable continua, en una categoría discreta, y un problema de clasificación convertirse en uno de regresión prediciendo el puntaje o probabilidad de cada categoría y asignando un rango de puntajes para cada una de ellas. Objetivo: # Predecir el plazo de entrega de la calidad de recepción de una carta Alfredo Carreras Gómez Página 122

133 Análisis de correlación Mediante un análisis de correlación se pretende estudiar si existe relación entre el estado de recepción y la distancia. recorrida Análisis de correlación entre el estado de recepción de una carta test y la distancia Puede ser interesante analizar los datos en busca de una posible relación entre el estado de recepción de las cartas test (buena, rota, abierta ) y la distancia recorrida. En particular, estudiaré si existe una relación entre una carta recibida en malas condiciones. Esto puede ser debido a que haya recorrido una gran distancia y se haya deteriorado en el recorrido. Objetivos: # Demostrar si existe una relación lineal entre dos variables numéricas (ej: el estado de recepción de una carta test y la distancia recorrida) Alfredo Carreras Gómez Página 123

134 Reglas de asociación Este tipo de enfoque algorítmico es utilizado comúnmente en problemas del tipo Análisis de Canasta de Mercado (Market-Basket Analysis), con el fin de obtener las tendencias de compra de los clientes. La idea básica de la asociación, es encontrar en los datos reglas que identifican a los patrones de comportamiento, si se obtiene una comprensión de estos patrones, se puede lograr una visión realmente enriquecedora de los datos. La expresión de una regla de asociación, tiene dos componentes; uno es el componente del lado izquierdo, a veces llamado antecedente, y el otro, un componente del lado derecho llamado consecuente. Una regla tiene dos tipos de mediciones, la confianza y soporte. el soporte mide la frecuencia en que los ítems aparecen juntos, como el porcentaje total de transacciones. La confianza mide cuan dependiente es un ítem de otro. Una confianza del 100% es improbable, el analista debe poner mucho cuidado en estos resultados, ya que podrían estar tomándose situaciones en que se están analizando sólo datos de un periodo específico del tiempo. Otra precaución a tomar, es vigilar aquellas reglas que tienen un valor excesivamente alto o muy bajo, para mejores resultados es bueno considerar a estos valores como anomalías estadísticas. Una vez que los datos han sido minados y se ha detectado, examinado y valorado la asociación, los usuarios pueden tomar las decisiones sobre la base de las prácticas comunes que se han encontrado, a los grupos y servicios que tienen alguna preferencia y a la relación existente entre ellos. Parece interesante analizar las producciones de cartas test según la estacionalidad mensual en la que nos encontremos. Se pueden encontrar relaciones temporales curiosas, como por ejemplo, descubrir que durante los meses de verano el flujo de correo ha disminuido debido a las vacaciones de los participantes, o por el contrario, ver que la cantidad de correo ha aumentado durante fechas cercanas a la Navidad. Alfredo Carreras Gómez Página 124

135 También puede ser interesante encontrar rutas en las que el plazo medio de entrega sea diferente para cartas con la misma ruta, en las que se intercambien el origen y el destino. Por ejemplo, podemos descubrir que una carta básica enviada desde Lugo a Toledo tarda de media 2 días, mientras que de Toledo a Lugo tarda 5 días. Objetivos: # Identificar los atributos que repercuten de forma más directa sobre el estado en que llega la carta y el plazo de entrega. # Identificar rutas con plazos de entrega distintos a la ida y a la vuelta # Comparación del rendimiento en diferentes rutas de correos, flujos, periodos, etc. # Valoración de los efectos (acciones de recuperación) en rutas en las que la demora en la recepción de envíos está por debajo de los estándares. # Identificar rutas optimas y tardías Alfredo Carreras Gómez Página 125

136 Segmentación Este enfoque algorítmico nace debido a que actualmente las bases de datos crecen día a día de manera considerable y son pobladas con diversos tipos de datos que hacen necesaria una partición de ellos en colecciones de datos relacionados, para así obtener mayor comprensión de la información que almacenan, o un resumen de cada conjunto de datos, para hacerlos más útiles o bien, para ejecutar una técnica de minería de datos. Agrupamiento o clustering, como también se le conoce, agrupa registros que tienen un gran número de atributos, en un conjunto de grupos o segmentos relativamente pequeños, dicho de otra manera, se segmenta la base de datos en subconjuntos, o sea grupos, donde cada uno de ellos comparte un número de característica similares. Este proceso de asignación es ejecutado automáticamente por los algoritmos de agrupamiento que identifican las características distintivas de un conjunto de datos y entonces particiona en ndimensiones definido por los atributos. Este enfoque algorítmico se aplica en problemas de marketing, encontrando grupos con afinidades en sus gustos, igualmente es utilizado en problemas de cuidado de la salud, encontrando pacientes que padecen de los mismos malestares. Cuando se aplica este enfoque algorítmico no se conocen las clases ni tampoco el experto debiera conocerlas, ya que la meta del grupo es producir una segmentación razonable del conjunto de los registros de entrada de acuerdo a algún criterio, este criterio se define por una herramienta de agrupamiento. De esta forma, las diferentes funciones de agrupamiento pueden producir diferentes segmentaciones de un conjunto de registros, produciendo descripciones implícitas y explícitas. Por ejemplo, la herramienta podría definir grupos según año de ingreso a la Universidad, quedando los alumnos agrupados dependiendo de esta característica. Los resultados del agrupamiento son utilizados de dos maneras. Una de ellas es para resumir los contenidos de grandes base de datos, considerando las características de cada grupo creado, en vez de utilizar aquellas de los registros de la base de datos. Una segunda utilización es tomar estos resultados como entrada a otros métodos. Alfredo Carreras Gómez Página 126

137 Agrupamiento es generalmente utilizado en los primeros pasos del análisis del Data Mining, identificando grupos relacionados que pueden ser utilizados como punto de partida para próximas exploraciones. Las tareas de segmentación consisten en seleccionar una hipótesis en base a unos datos medidos y su información corolaria. A partir de los datos observables se infieren descripciones de situaciones a partir de datos observables. Mediante clustering se analizan los datos para determinar su significado. Para la construcción de clusters se ha utilizado algoritmo basado en distancia para encontrar grupos homogéneos de elementos: se construye una matriz de proximidad, y se van agrupando los elementos con mayor similitud. Se pretende descubrir patrones de comportamiento entre los distintos atributos que componen una carta test e incluso agrupar en clusters comunidades autónomas con comportamientos similares. Objetivos: # Identificar comunidades autónomas con patrones de comportamiento similares. Alfredo Carreras Gómez Página 127

138 4.3.2 Técnicas de Minería de Datos utilizadas Árboles de decisión Los árboles de decisión son una técnica de aprendizaje automático por inducción que permiten identificar conceptos (clases de objetos) a partir de las características de un conjunto de ejemplos que los representan. La información extraída de los mismos queda organizada jerárquicamente organizada jerárquicamente en forma de árbol. Es un proceso de generalización a partir de casos particulares. Se representan por un gráfico dirigido que consta de nodos y arcos. Los nodos corresponden a una pregunta o a un test que se hace a los ejemplos. La construcción de un árbol de decisión requiere: 1. Un conjunto de ejemplos representativos de lo que se desea aprender (Conjunto de entrenamiento Conjunto de entrenamiento) 2. Una representación simbólica representación simbólica del conocimiento (Ejemplos y definición de sus características) a través de atributos y sus valores 3. Un algoritmo de aprendizaje (clasificación) 4. Un esquema de valoración Un árbol de decisión tiene un nodo raíz, nodos intermedios y hojas. Cualquier nodo intermedio puede ser un nodo raíz de un subárbol. Esto conduce a una definición recursiva de árbol de decisión. Cada nodo intermedio y el raíz tienen asociados separadores que formulan una pregunta o realizan un test acerca de la existencia o no de una característica en cada caso ejemplo. Esto permite clasificar los ejemplos y determinar cuáles serían los nodos sucesores. Para la selección de los rasgos separadores, el rasgo a seleccionar debe de cumplir el objetivo de que su posición en algún punto del árbol genere un subárbol tan simple como sea posible y dé una concreta clasificación. Cuando se construye un árbol de decisión, es necesario tener un medio para determinar los atributos importantes requeridos para la clasificación y el orden de uso de esos atributos importantes. Es necesario un criterio de selección criterio de selección de separadores. Cada criterio de selección será un test restringido a una función de solamente uno de los atributos solamente uno de los atributos. Alfredo Carreras Gómez Página 128

139 Una hoja en el árbol corresponde a un conjunto de ejemplos que representan una sola clase. La clase se asigna por criterio de a la que pertenezcan la mayoría de los ejemplos en la subdivisión en cuestión. Las hojas del árbol de decisión representan los conceptos extraídos de manera automática. Una vez construido un árbol de decisión, un nuevo ejemplo desconocido será representante de la clase en donde caiga recorriendo el árbol desarrollado desde la raíz a las hojas. Para la construcción de árboles de decisión se ha escogido el algoritmo ID3. ID3 Es un método de construcción de árboles de decisión cuyas siglas significan Interactive Dichotomizer 3, diseñado por Quinlan en Utiliza la estrategia divide y vencerás y va construyendo el árbol de arriba abajo. Recibe como entrada un conjunto de ejemplos y a partir de ellos desarrolla un árbol de decisión de arriba a abajo guiado por la información de los ejemplos. Es un enfoque inductivo o "dirigido por datos, donde el orden de presentación de los ejemplos no es importante. La estructura básica del algoritmo ID3 es iterativa. El árbol se genera dividiendo sucesivamente el conjunto de aprendizaje en subconjuntos de ejemplos cada vez más pequeños hasta conseguir conjuntos suficientemente puros. Es una partición recursiva del espacio de entradas en zonas homogéneas o puras a las que se les asocia una clase. Un conjunto es bastante puro conjunto cuando casi todos sus ejemplos pertenecen a una sola clase. Un separador es un sólo atributo. Esto hace al árbol que tenga significado físico y es más sencillo interpretar. Se usan dos tipos de separadores: - Simbólico: el separador será una pregunta tipo: cuál es el valor del atributo X? - Ordenado: es el valor del atributo menor que un umbral determinado? En ambos casos, puede haber más de dos nodos hijos. Alfredo Carreras Gómez Página 129

140 Para seleccionar el mejor separador hay que utilizar una medida para distinguir entre posibles candidatos. La medida que se utiliza se basa en la entropía o cantidad de información definida en la teoría de la información. La entropía de un nodo N se calcula como: siendo Nclases el número de clases diferentes en el nodo y p(n,ci) la proporción de ejemplos en el nodo pertenecientes a la clase Ci. La selección del mejor separador se realiza eligiendo el que produce una disminución mayor en la impureza del nodo analizado. siendo: DI(N,S): el decremento de impureza del nodo N producido al aplicar el separador S I(N): impureza del nodo Nhijos: número de hijos generados al aplicar S p(nhi): proporción de ejemplos del nodo N que quedan en el nodo hijo i Se pueden usar varios criterios para decidir si el aumento de la capacidad de clasificación del árbol el expandir un nodo es suficientemente significativo como para compensar el incremento de complejidad del árbol. Normalmente se compara la impureza del nodo en estudio con un valor mínimo Hmin. Si la impureza del árbol es menor, el nodo no se expande. Alfredo Carreras Gómez Página 130

141 Predicción mediante Factores de Certeza El conocimiento humano está lleno de incertidumbre. Los esquemas de representación del conocimiento no contemplan la incertidumbre inherente a la experiencia humana. Estos esquemas han de ser complementados con sistemas de representación de la incertidumbre. El conocimiento queda representado por: - un esquema de representación - un método de representación de la incertidumbre Hay incertidumbre debido a muchas causas: - Insuficiente experiencia - Inadecuada representación del conocimiento - Información poco fiable - No completitud - Inexactitud inherente al lenguaje Los factores de certeza se basan en el juicio juicio que tiene un experto sobre el número de ocurrencias de ciertas situaciones o relaciones cuyo conocimiento se desea incluir en una base de conocimientos. Estas medidas de confianza o factores de certeza son evaluaciones o apreciaciones personales de los expertos que añaden al enunciado de su conocimiento. Ej.: Si se da A entonces se dará C casi con toda seguridad Se expresan mediante un número o factor de certeza. Los factores de certeza no se rigen por probabilidad. No se obtienen de poblaciones muestrales, sino de experiencia. En probabilidad la suma de la probabilidad de que se dé un hecho y su contrario es 1. Un experto puede sentir que algo es cierto de forma importante, pero puede no saber cuanto de importante es lo contrario. El factor de certeza es un valor en el intervalo [-1,1]. (1 indica completa confianza, -1 completa no creencia). Alfredo Carreras Gómez Página 131

142 Sean dos reglas R1 y R2 que alcanzan la misma conclusión h, a partir de dos evidencias e1 y e2 diferentes: R1 : Si e1 entonces h, CF(h, e1) R2 : Si e2 entonces h, CF(h, e2) El factor de certeza de h se calculará como: a) CF(h, e1)+cf(h, e2)(1-cf(h, e1)), si CF(h, e1)>0 y CF(h, e2)>0 b) CF(h, e1)+cf(h, e2)(1+cf(h, e1)), si CF(h, e1)<0 y CF(h, e2)<0 c) [CF(h, e1)+cf(h, e2)]/(1-min( CF(h, e1), CF(h, e2) ), en cualquier otro caso Un factor de certeza se puede asociar no sólo a una regla, sino que también se puede asociar a una condición de una regla. Sea: R1 : Si e1, CF(e1) Entonces h, CFR(h, e1) CFR(h, e1) es el factor de certeza de la regla R1 CF(e1) es el factor de certeza de e1 la certeza de h con la evidencia e1 se calcula: CF(h, e1)= CF(e1) * CFR(h, e1) Alfredo Carreras Gómez Página 132

143 Regresión lineal La regresión es la teoría que trata de encontrar una función matemática que ajuste de la mejor manera posible los valores de la variable bidimensional. Mediante regresión lineal se trata de obtener una recta que ajuste la nube de puntos. La ecuación de la recta, que permitirá pronosticar los valores de Y conocidos los de X, será por tanto de la forma: Y = a + b X Como es lógico, para una observación concreta (x i, y i ) habrá una diferencia entre el valor pronosticado a través de la recta para el valor x i, llamándose y * i, y el valor cierto real, y i, y se produce por tanto un error que será la diferencia entre ambos valores, al que se denomina residuo. La suma de todos los residuos es cero, pero el dato con el que se trabaja es con la suma de los errores al cuadrado que interesa que sea mínima. Impuesta esta condición, se obtienen los valores de a y b de la recta de regresión (de Y sobre X) que sería: y y = s xy / s 2 x (x x) Cálculos realizados A = (Σ(Y) Σ(X 2 )) - (Σ(X) Σ(X Y)) / (N Σ(X 2 )) - (Σ(X) 2 ) B = N Σ(X Y) - (Σ(X) Σ(Y)) / N Σ(X 2 )-(Σ(Y) 2 ) N = Count(X) R = N Σ(X Y) -(Σ(X) Σ(Y)) / SQUARET(N Σ(X 2 ) - (Σ(X)) 2 ) (N Σ(Y 2 ) - (Σ(Y)) 2 ) Alfredo Carreras Gómez Página 133

144 Ajuste de curva univariable El Ajuste de curva univariable descubre una función matemática que describe exactamente la distribución de los datos a través del tiempo. Pueden seleccionarse los siguientes tipos de curvas: # Mejor ajuste # Exponencial # Hipérbola # Lineal # Potencia # Racional # Recíproca Tratamiento de valores omitidos: los valores omitidos no están permitidos en los datos de series temporales. A continuación se presenta una descripción de las columnas de la Tabla de ajuste: 1. La primera columna muestra los números de las observaciones en las que se basan los diagramas. 2. La segunda columna muestra para qué periodo estacional se han observado los valores. 3. La tercera columna muestra los valores observados. 4. La cuarta columna muestra los valores ajustados. 5. La quinta columna muestra los valores residuales, que son las diferencias entre los valores observados y los ajustados. El ajuste de curva univariable se basa en la secuenciación. Este tipo de enfoque algorítmico es muy similar a la asociación, pero la diferencia radica en la inclusión del tiempo de análisis, agregando comparaciones de tiempo entre las transacciones. En este enfoque se intenta encontrar patrones entre eventos que ocurren en un periodo de tiempo, por ejemplo incluyendo: dentro de los seis meses, próxima vez o un conjunto de rangos como: próximo día, próxima semana, próximo mes, próximo año... Alfredo Carreras Gómez Página 134

145 La secuenciación requiere un identificador (por ejemplo: rut), que relacione las transacciones que han ocurrido en tiempos diferentes, tomando las combinaciones en pares de todas las transacciones que tienen este mismo identificador y computando el tiempo de diferencia entre estos pares, el algoritmo identifica el ordenamiento entre ellos. Debido a que el tiempo es un valor continuo (no categórico), se les debe agrupar en valores categóricos basado en un conjunto de valores de tiempo definido por el usuario. Este tipo de enfoque algorítmico es usado para identificar cursos de comportamiento rutinarios o excepcionales, identificando sucesiones comunes o no comunes de procedimientos múltiples a través del tiempo. Alfredo Carreras Gómez Página 135

146 Repertory Grid Para la construcción de clusters se han utilizado algoritmos basados en distancia, en particular, Emparrillados (Repertory Grid). Emparrillados (Repertory Grid) La malla de repertorios o "repertory grid" o "emparrillado" es una representación de la visión de un experto sobre un problema particular basada en la Personal Construct Theory. Según la Personal Construct Theory, desarrollado por Nelly en 1955, cada persona tiene su propio modelo personal del mundo que le rodea. Cada persona clasifica y jerarquiza su mundo, desarrollando una serie de teorías sobre él. Basándose en estas teorías es posible anticiparse a la reacción que puede tener una persona frente a una serie de estímulos del mundo. Un emparrillado consta de construcciones (constructs) y de elementos. (Equivalentes a atributos y sus ejemplos). Una construcción es una característica bipolar o dicotómica que tiene cada elemento en algún grado. Sirve para distinguir unos elementos de otros o verificar su similitud. Un elemento es una entidad abstracta o concreta. Es un caso importante desde la perspectiva del experto. El proceso de Adquisición del Conocimiento consiste en solicitar del experto todos los elementos y construcciones relativas al dominio de conocimiento a explorar. Las construcciones contemplan la asignación de valores graduales discretos entre sus polos. La escala puede ser simbólica o numérica y no puede variar el número de escalones (1 a 3 ó 1 a 5) en toda la malla aunque los nombres utilizados para cada símbolo sean diferentes. Con los elementos y las construcciones se construye una red donde las construcciones se ponen en filas y los elementos en columnas. Alfredo Carreras Gómez Página 136

147 El análisis de la malla mediante clusters o grupos consiste en encontrar grupos homogéneos de elementos o de construcciones. Para hacer este análisis se ha de definir una medida de similitud como una función que asocia un valor numérico a cualquier par de vectores para ver su similitud o semejanza. Con la función de similitud se construye una matriz de proximidad que es cuadrada y donde cada elemento de ella mide la similitud entre el elemento fila y columna que se presenta. La matriz de proximidad es la entrada al análisis de clusters. Hay varias técnicas de análisis de clusters, una de ellas es el clustering jerárquico. Un cluster es una subdivisión de un conjunto de objetos E en varios subconjuntos, Ei, que cubren E, de forma que: Una definición de función de similitud utilizada es: dados los vectores u y w definidos como u = (x1, x2,... xn) y w= (y1, y2,... yn), se define d(u,w) como la distancia entre los vectores u y w, donde d puede ser típicamente: D(u,v) = Σ xi yi ó D(u,v) = Σ xi yi 2 Pasos para la construcción de la malla: 1. Se construye una matriz de proximidad que es un emparrillado reducido 2. Se transforma a porcentaje mediante: siendo n = nº de construcciones D= diferencia máxima posible para una construcción 3. Cogemos el mínimo de la similitud para el nuevo objeto con el resto: 4. Continuamos desarrollando la malla 5. Se obtiene el dendrograma de clustering jerárquico para visualizar los resultados obtenidos. Alfredo Carreras Gómez Página 137

148 Comparación de construcciones Es algo más compleja que la de elementos, ya que hay que comparar las construcciones y también las construcciones inversas u opuestas. Si comparamos características físicas de personas, por ejemplo a través de las construcciones bajo/alto y mucho peso/poco peso, podría no haber similitud entre ellas. Pero si invertimos una construcción, quizás sí haya una mayor semejanza. Una construcción invertida X se obtiene de la construcción original X sustituyendo los valores en X por sus opuestos en la escala de valoración. Alfredo Carreras Gómez Página 138

149 4.3.3 Implementación de los algoritmos Algoritmo ID3 El modelo dinámico de proceso y control para la construcción de árboles de decisión mediante ID3 se podría resumir en el siguiente gráfico: CLASIFICACIÓN AUTOMÁTICA 1. Seleccionar atributo a clasificar (clase) 2. Calcular nº elementos de cada clase 3. Calcular entropía en nodo raíz 4. Elegir mejor separador 5. Continuar dividiendo el árbol? Cálculos realizados I(N) = - Σ p(n,c i )log 2 [p(n,c i )] I(N,S) = I(N) - Σp(Nh i ) I(Nh i ) Alfredo Carreras Gómez Página 139

150 A continuación se muestra la lógica del funcionamiento del algoritmo ID3 utilizado: Nivel=0 Elegir mejor Separador Aplicar Separador. Quedan Separadores? NO FIN SI Nivel++ Calcular mejor Separador para este nivel Aplicar mejor Separador Figura 4.9: Lógica del algoritmo ID3 Alfredo Carreras Gómez Página 140

151 Cálculo de Factores de Certeza Uno de los principales objetivos de este proyecto es la predicción, en base a unos parámetros, del estado y del plazo de entrega en que puede llegar una carta desde un origen X a un destino Y. Para ello, el primer paso sería identificar de entre todos los posibles parámetros de que se dispone en la Base de Datos, aquellos que puedan repercutir de forma más directa sobre el estado en que llega la carta (bueno, malo o regular) y sobre el plazo de entrega (temprano, a tiempo o tarde). Los factores que más directamente podrían repercutir serían los siguientes: - Flujo: Dependiendo del origen y del destino, el flujo se consideraría local si ambas ciudades de origen son las mismas, provincial si las ciudades son distintas pero coinciden en la Comunidad Autónoma, y nacional en otro caso - Línea: Las cartas pueden haber sido enviadas por correo ordinario o por correo urgente. Este factor repercute directamente en el tiempo de entrega, ya que si es correo urgente la entrega debe realizarse en el mismo día, vaya donde vaya la carta. En cambio, si es correo ordinario, depende: Si es de flujo local, también debe tardar un día. Si el flujo es provincial, 2 días. Y si se trata de flujo nacional, puede tardar hasta 3 días - Formato: El formato de la carta puede ser en A4, C5 o Normalizado. Depende del tamaño del sobre. - Peso de la carta: Se agrupan por rangos, que pueden ser gr, gr, o 0-20 gr. - Método de inducción: Es la forma en que depositó la carta para su envío. Puede ser el típico buzón, la oficina de correos directamente o los centros de admisión masiva. Para realizar el cálculo de las reglas de asociación, en este caso, al disponerse de una Base de Datos con toda la información necesaria, no se precisa de la valoración del experto. Es más, en principio los resultados que se obtengan deberían ser más fiables, ya que no están sujetos a la subjetividad del experto. El cálculo de los Factores de Certeza se va a realizar en varias etapas. Será preciso descargar datos en tablas temporales sobre las que hacer cálculos adicionales, ya que no se pueden calcular de golpe todos ellos. Los pasos que se han seguido para el cálculo de los factores de certeza son los que siguen: Alfredo Carreras Gómez Página 141

152 1. Creación de 3 tablas, una para cada tipo de flujo, con todos los campos de entrada que hemos seleccionado y que se han expuesto más arriba (línea, formato, peso de la carta y método de inducción) y con los factores que deseamos predecir (tiempo de entrega y estado en que llega) Para este cálculo es preciso realizar varias consultas: SELECT provincia_origen, provincia_destino, COUNT(*) AS [NºCartas], MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM dbo.correovalido WHERE (linea = 'O') GROUP BY provincia_origen, provincia_destino select PM.*, km from DataWarehouse.dbo.Kms, DataWarehouse.dbo.PlazoMedio as PM where (IDorigen=(select ID from DataWarehouse.dbo.provincias where provincia=provincia_origen)) and (IDdestino=(select ID from DataWarehouse.dbo.provincias where provincia=provincia_destino)) order by plazo_medio DESC, provincia_origen, provincia_destino obteniendo resultados del tipo: Provincia origen Provincia destino Nº cartas Máximo Mínimo Media Kms Ceuta Ávila NULL Sevilla Melilla NULL Guadalajara Soria Huelva Tarragona Valladolid Almería Para obtener esta información agrupada por comunidades hay que realizar los siguientes cambios en la consulta: SELECT comunidad_origen, comunidad_destino, COUNT(*) AS [NºCartas], MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM DataWarehouse.dbo.CorreoValido WHERE (linea = 'O') GROUP BY comunidad_origen, comunidad_destino ORDER BY 1,2 Alfredo Carreras Gómez Página 142

153 obteniendo resultados del tipo: Comunidad Origen Comunidad Destino Nº cartas Máximo Mínimo Plazo medio ANDALUCIA ANDALUCIA ANDALUCIA ARAGON ANDALUCIA ASTURIAS ANDALUCIA BALEARES ANDALUCIA CANARIAS Para predecir el plazo de entrega de una carta test para la línea urgente, es preciso recopilar esta información a partir de históricos. Para cada provincia, además del plazo medio de entrega, puede ser interesante tener información sobre el numero de cartas enviadas, el plazo máximo y mínimo en que la carta ha tardado en ser entregada, así como las distancia (en kilómetros) entre la ciudad de origen y destino. Para este cálculo es preciso realizar varias consultas: SELECT provincia_origen, provincia_destino, COUNT(*) AS [NºCartas], MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM dbo.correovalido WHERE (linea = 'U') GROUP BY provincia_origen, provincia_destino select PM.*, km from DataWarehouse.dbo.Kms, DataWarehouse.dbo.PlazoMedioU as PM where (IDorigen=(select ID from DataWarehouse.dbo.provincias where provincia=provincia_origen)) and (IDdestino=(select ID from DataWarehouse.dbo.provincias where provincia=provincia_destino)) order by plazo_medio DESC, provincia_origen, provincia_destino obteniendo resultados del tipo: Provincia origen Provincia destino Nº cartas Máximo Mínimo Media Kms Castellón Álava Almería Huelva Málaga Vizcaya Cáceres Jaén Castellón Badajoz Alfredo Carreras Gómez Página 143

154 Para obtener esta información agrupada por comunidades hay que realizar los siguientes cambios en la consulta: SELECT comunidad_origen, comunidad_destino, COUNT(*) AS [NºCartas], MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM DataWarehouse.dbo.CorreoValido WHERE (linea = 'U') GROUP BY comunidad_origen, comunidad_destino order by 1,2 obteniendo resultados del tipo: Comunidad Origen Comunidad Destino Nº cartas Máximo Mínimo Plazo medio ANDALUCIA ANDALUCIA ANDALUCIA ARAGON ANDALUCIA ASTURIAS ANDALUCIA BALEARES ANDALUCIA CANARIAS Agrupación de los datos obtenidos en las tablas anteriores. 3. Al disponer ya de todos los datos correctamente agrupados, se ha procedido al cálculo de los factores de certeza con ayuda del Excel. Para ver cómo se ha procedido a su cálculo, lo veremos en un ejemplo: Flujo Línea Formato Peso Método Inducción Número de ocurrencias Tiempo EstadoLlegada LOCAL O A gr CA 176 A tiempo A LOCAL O A gr CA 1505 A tiempo B LOCAL O A gr CA 59 A tiempo M LOCAL O A gr CA 136 Tarde A LOCAL O A gr CA 870 Tarde B LOCAL O A gr CA 43 Tarde M LOCAL O A gr CA 16 Temprano A LOCAL O A gr CA 112 Temprano B LOCAL O A gr CA 7 Temprano M En la tabla anterior hemos seleccionado aquellas ocurrencias que tengan los mismos parámetros de entrada, es decir, el flujo, la línea, el formato, el peso y el método de inducción. Vemos que en total hay 2924 registros. Sin embargo, de todos ellos, sólo hay 1505 que llegaron a tiempo y con buen estado de llegada. Por tanto, para calcular el Factor de Certeza de que una carta reúna esas condiciones, lo haríamos: 1505 / 2924 = 0.51 Alfredo Carreras Gómez Página 144

155 4. Por último, sólo falta realizar el programa en el que el usuario introducirá los parámetros de entrada que se han establecido y el programa le hará una predicción. A continuación, se presenta un pantallazo de dicho programa: Figura 4.10: Interfaz para calcular la predicción Alfredo Carreras Gómez Página 145

156 Cálculo del coeficiente de correlación lineal Para analizar si existe una correlación entre el estado de recepción de una carta test y la distancia recorrida, es preciso realizar varias consultas previamente. A continuación se muestra la relación entre las tablas CorreoValido, Provincias (Origen y Destino) y Kms Figura 4.11: Relación entre tablas CorreoValido, Provincias y Kms - seleccionar los provincias origen y destino, número de cartas enviadas, plazo máximo de entrega, plazo mínimo de entrega, media de entrega. SELECT provincia_origen, provincia_destino, COUNT(*) AS [NºCartas], MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM dbo.correovalido WHERE (estado = 'M') GROUP BY provincia_origen, provincia_destino - seleccionar los provincias origen y destino y la distancia en kilómetros entre ellas: select PM.*, km from DataWarehouse.dbo.Kms, DataWarehouse.dbo.PlazoMedioMalas as PM where (IDorigen=(select ID from DataWarehouse.dbo.provincias where provincia=provincia_origen)) and (IDdestino=(select ID from DataWarehouse.dbo.provincias where provincia=provincia_destino)) order by plazo_medio DESC, provincia_origen, provincia_destino Alfredo Carreras Gómez Página 146

157 obteniendo resultados del tipo: Provincia Provincia origen destino Nº cartas Máximo Mínimo Media Kms Álava Vizcaya Murcia Madrid Sevilla Zaragoza León Orense Huelva Huelva Para obtener esta información agrupada por comunidades hay que realizar los siguientes cambios en la consulta: SELECT comunidad_origen, comunidad_destino, COUNT(*) AS [NºCartas], MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM DataWarehouse.dbo.CorreoValido WHERE (estado = 'M') GROUP BY comunidad_origen, comunidad_destino order by 1,2 obteniendo resultados del tipo: Comunidad Origen Comunidad Destino Nº cartas Máximo Mínimo Plazo medio ANDALUCIA ANDALUCIA ANDALUCIA ARAGON ANDALUCIA ASTURIAS ANDALUCIA CANARIAS ANDALUCIA CASTILLA LA MANCHA Los resultados finales se almacenan en la tabla RegresionLineal donde se podrán consultar los valores calculados. SELECT POrigen, PDestino, Kms, ROUND(AVG(Dias),0) AS PlazoMedioEntrega FROM RegresionLineal GROUP BY POrigen, PDestino, Kms; Alfredo Carreras Gómez Página 147

158 Tabla de Ajuste Para la realización del ajuste de curva univariable se ha utilizado Excel para realizar el análisis para cada uno de los flujos de correo (local, provincial y nacional). Cada una de los hojas de Excel consta de las siguientes columnas: Provincia Tipo (ST, MT, PP) % de cumplimiento de la semana1 % de cumplimiento de la semana2 % de cumplimiento de la semana... % de cumplimiento de la semana53 volumen esperado en la semana1 volumen esperado en la semana2 volumen esperado en la semana.. volumen esperado en la semana153 volumen producido en la semana1 volumen producido en la semana2 volumen producido en la semana... volumen producido en la semana53 volumen acumulado en la semana1 volumen acumulado en la semana2 volumen acumulado en la semana... volumen acumulado en la semana53 Con toda esta información obtenida a través de consultas al DW, se puede dibujar gráficamente la evolución para cada una de las provincias según el método de franqueo seleccionado a lo largo de las 53 semanas del año. Alfredo Carreras Gómez Página 148

159 Clustering jerárquico Se pretende descubrir patrones de comportamiento entre los distintos atributos que componen una carta test e incluso agrupar en clusters comunidades autónomas con comportamientos similares. El modelo dinámico de proceso y control para la construcción de clusters mediante clustering jerárquico se podría resumir en el siguiente gráfico: EMPARRILLADOS 1. Calcular distancias entre elementos 2. Construir matriz de proximidad 3. Transformar a porcentajes 4. Seleccionar elementos con mayor similitud 5. Continuar desarrollando la malla En primer lugar, es preciso calcular los ratios del correo saliente por comunidad según el estado de recepción de las cartas test. Para ello, hay que calcular el número de cartas enviadas desde cada comunidad autónoma, y a continuación distinguir entre esas cartas, las que han sido entregadas en buen estado, estado aceptable o en mal estado. Para obtener esta información hay que realizar la siguiente consulta: SELECT comunidad_origen,count(*) AS [BN] FROM DataWarehouse.dbo.CorreoValido where ((ESTADO IS NULL) OR ESTADO='B') GROUP BY comunidad_origen ORDER BY 1; SELECT comunidad_origen,count(*) AS [A] FROM DataWarehouse.dbo.CorreoValido where (ESTADO='A') GROUP BY comunidad_origen ORDER BY 1; SELECT comunidad_origen,count(*) AS [M] FROM DataWarehouse.dbo.CorreoValido Alfredo Carreras Gómez Página 149

160 where (ESTADO='M') GROUP BY comunidad_origen ORDER BY 1; SELECT comunidad_origen,count(*) AS [NºCartas] FROM DataWarehouse.dbo.CorreoValido GROUP BY comunidad_origen ORDER BY 1,2; Por ultimo, se calcularán los ratios o porcentajes, para comparar unas comunidades autónomas con otras, obteniendo como resultado: COMUNIDAD BN A M total BN/total A/total M/total ANDALUCIA ,94% 2,52% 0,54% ARAGON ,28% 1,27% 0,44% ASTURIAS ,92% 1,61% 0,48% BALEARES ,68% 1,94% 0,37% CANARIAS ,42% 9,83% 0,75% CANTABRIA ,61% 1,90% 0,50% CASTILLA LA MANCHA ,02% 2,56% 0,42% CASTILLA LEÓN ,84% 1,74% 0,43% CATALUÑA ,37% 2,13% 0,50% CEUTA ,24% 2,69% 1,08% COMUNIDAD VALENCIANA ,04% 2,58% 0,37% EXTREMADURA ,58% 1,11% 0,31% GALICIA ,21% 6,21% 0,58% LA RIOJA ,28% 1,52% 0,20% MADRID ,15% 2,38% 0,48% MELILLA ,86% 19,10% 1,04% MURCIA ,94% 1,90% 0,16% NAVARRA ,57% 1,23% 0,20% PAIS VASCO ,04% 1,65% 0,31% Con estos datos calculados y mediante consultas a la base de datos, para el análisis de similitud entre las distintas comunidades autónomas, se han distribuido en forma de malla el número de cartas producidas por cada comunidad atendiendo a diferentes características de la carta test: # Línea: ordinaria, urgente # Formato de la carta: A4, C5, normalizado # Peso: 0-20gr, gr, gr # Método de franqueo: sello, máquina de franquear, franqueo pagado # Método de inducción: buzón, oficina de correos, centro de admisión masiva Alfredo Carreras Gómez Página 150

161 # Dirección postal: escrita a mano, a máquina # Estado de recepción: buena, aceptable, mala o abierta, rota # Participante: particular, empresa Figura 4.11: Malla inicial Estos datos se encuentran en valores absolutos. La última columna muestra el total de cartas producidas para cada comunidad autónoma. A partir del número total de cartas por comunidad se pueden transformar en valores porcentuales. Figura 4.12: Mallaron valores procentuales Tras obtener los datos agrupados por comunidades autónomas en forma de porcentaje, es preciso discretizarlos en una escala de valores enteros (en este caso, se ha optado por coger una escala de 1 a 5). Proceso de Discretización El proceso se discretización se realiza para cada una de las variables que intervienen en la malla. Los valores expresados en forma porcentual se discretizan en una escala de 1 a 5, donde el 1 representa la menor similitud y 5 la mayor. Alfredo Carreras Gómez Página 151

162 La construcción de histogramas de frecuencias facilitará la asignación de valores discretos. Línea Ordinaria Valor continuo Valor discreto Nº elementos 6 4 [0.95 1] 5 2 [ ) [ ) 3 5 [ ) 2 5 [0 0.89) 1 3 ATRIBUTO O O Línea Urgente Valor continuo Valor discreto Nº elementos 6 [0.1 1] [ ) [ ) 3 5 [ ) 2 4 [0 0.05) 1 2 GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID U Formato A4 Valor continuo Valor discreto Nº elementos 6 [0.06 1] [ ) [ ) 3 5 [ ) 2 4 [0 0.03) 1 4 GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID A4 Formato C5 Valor continuo Valor discreto Nº elementos 6 [0.14 1] [ ) [ ) 3 5 [ ) 2 3 [0 0.06) 1 2 GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID C5 Formato Normalizado Valor continuo Valor discreto Nº elementos 6 [0.90 1] [ ) [ ) 3 5 [ ) 2 5 [0 0.81) 1 2 GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID NORM Alfredo Carreras Gómez Página 152

163 Peso 0-20 gr Valor continuo Valor discreto Nº elementos 6 [0.90 1] [ ) [ ) 3 5 [ ) 2 4 [0 0.82) 1 3 GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID 0-20 Peso gr Valor continuo Valor discreto Nº elementos 6 [0.15 1] [ ) [ ) 3 4 [ ) 2 5 [0 0.08) 1 5 GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID Peso gr Valor continuo Valor discreto Nº elementos 6 [0.07 1] [ ) [ ) 3 5 [ ) 2 4 [0 0.03) 1 4 GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID Valor continuo Valor discreto Nº elementos [0.99 1] 5 3 [ ) 4 3 [ ) 3 6 [ ) 2 3 [0 0.04) 1 4 Sello GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID ST Máquina de franquear Valor continuo Valor discreto Nº elementos 6 [0.60 1] [ ) [ ) 3 4 [ ) 2 5 [0 0.10) 1 5 GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID MT Alfredo Carreras Gómez Página 153

164 Franqueo Pagado Valor continuo Valor Nº discreto elementos 5 [0.20 1) [ ) [ ) GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID PP Valor continuo Valor discreto Nº elementos [0.20 1) 5 2 [ ) 4 7 [ ) 3 5 [ ) 2 4 [0 0.2) 1 1 Buzón GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID MB Oficina Postal Valor continuo Valor discreto Nº elementos 6 [0.6 1) [ ) [ ) 3 5 [ ) 2 4 [0 0.2) 1 4 GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID PO Centro de Admisión Masiva Valor continuo Valor discreto Nº elementos 6 [0.6 1) [ ) [ ) 3 3 [ ) GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID PO Mano Valor continuo Valor discreto Nº elementos [0.27 1) 5 5 [ ) 4 2 [ ) 3 5 [ ) 2 5 [0 0.10) GALICIA MELILLA CASTILLA LA CATALUÑA CASTILLA LEÓN COMUNIDAD NAVARRA LA RIOJA MURCIA MADRID CA Alfredo Carreras Gómez Página 154

165 Máquina Valor continuo Valor discreto Nº elementos [0.90 1) 5 2 [ ) 4 5 [ ) 3 5 [ ) 2 1 [0 0.75) Comunidad ARAGON ANDALUCIA ASTURIAS CANARIAS EXTREMADURA CEUTA BALEARES PAIS VASCO CANTABRIA Se rie1 Estado Buena Valor continuo Valor discreto Nº elementos 6 [0.98 1) [ ) [ ) 3 3 [ ) 2 1 [0 0.80) 1 1 Comunidad ARAGON CEUTA PAIS VASCO CANTABRIA CASTILLA LEÓN MADRID BALEARES CANARIAS MELILLA Se rie1 Estado Aceptable Valor continuo Valor Nº discreto elementos 6 [0.05 1) [ ) [ ) 3 2 [ ) 2 7 [0 0.15) 1 3 LA RIOJA EXTREMADURA ANDALUCIA COMUNIDAD ASTURIAS PAIS VASCO CANTABRIA CATALUÑA NAVARRA GALICIA A Estado Mala Valor continuo Valor Nº discreto elementos 6 [ ) [ ) [ ) 3 7 [ ) 2 4 [ ) 1 3 CANARIAS MELILLA COMUNIDAD CASTILLA LEÓN CATALUÑA CANTABRIA ANDALUCIA MURCIA ARAGON PAIS VASCO M Particular Valor continuo Valor discreto Nº elementos [0.60 1) 5 2 [ [ ) 3 3 [ ) 2 6 [0 0.20) LA RIOJA PAIS VASCO EXTREMADURA CANTABRIA ARAGON NAVARRA ASTURIAS CASTILLA LEÓN MADRID CANARIAS P Alfredo Carreras Gómez Página 155

166 Empresa Valor continuo Valor discreto Nº elementos [0.85 1) 5 2 [ [ ) 3 5 [ ) 2 4 [0 0.50) CANARIAS MADRID CASTILLA LEÓN ASTURIAS NAVARRA ARAGON CANTABRIA EXTREMADURA PAIS VASCO LA RIOJA B Alfredo Carreras Gómez Página 156

167 Comunidad Autónoma O U A4 C5 NORM ST MT PP MB PO CA Mano Máquina B A M P B ANDALUCIA ARAGON ASTURIAS BALEARES CANARIAS CANTABRIA CASTILLA LA MANCHA CASTILLA LEÓN CATALUÑA CEUTA COMUNIDAD VALENCIANA EXTREMADURA GALICIA LA RIOJA MADRID MELILLA MURCIA NAVARRA PAIS VASCO Línea de la carta: Ordinaria, Urgente Formato: A4, C5, Normalizado Peso: 0-20 gr, gr, gr Método de franqueo: Sello, Máquina de franquear, Franqueo pagado Método de inducción: Buzón, Oficina de Correos, Centro de Admisión Masiva Dirección postal: A mano, A máquina Estado de recepción: Buena, Aceptable, Mala Tipo de participante: Privado, Empresa Alfredo Carreras Gómez Página 157

168 A partir de esta tabla discretizada, se construye la matriz de proximidad: Figura 4.13: Matriz de proximidad (iteración 0) D 4 N 19 siendo D la diferencia máxima posible para una construcción, y N el número de construcciones. Construyo la malla anterior a forma porcentual aplicando la siguiente formula: A continuación, se elige el elemento con mayor similitud Figura 4.14: Matriz de proximidad (iteración 1) Elementos E1 y E3 son 91% similares y se pueden considerar un nuevo objeto (E1,E3) 91% similar. Alfredo Carreras Gómez Página 158

169 Figura 4.15: Matriz de proximidad (iteración 2) Elementos (E1,E3) y E17 son 89% similares y se pueden considerar un nuevo objeto [(E1,E3),E17] 89% similar Figura 4.16: Matriz de proximidad (iteración 3) Elementos E13 y E19 son 88% similares y se pueden considerar un nuevo objeto (E13,E19) 89% similar Figura 4.17: Matriz de proximidad (iteración 4) Elementos E4 y E6 son 84% similares y se pueden considerar un nuevo objeto (E4,E6) 84% similar Figura 4.18: Matriz de proximidad (iteración 5) Alfredo Carreras Gómez Página 159

170 Elementos E7 y E10 son 83% similares y se pueden considerar un nuevo objeto (E7,E10) 83% similar Figura 4.19: Matriz de proximidad (iteración 6) Elementos E11 y E12 son 83% similares y se pueden considerar un nuevo objeto (E11,E12) 83% similar Figura 4.20: Matriz de proximidad (iteración 7) Elementos E15 y [(E1,E3),E17] son 79% similares y se pueden considerar un nuevo objeto {[(E1,E3),E17],E15} 79% similar Figura 4.21: Matriz de proximidad (iteración 8) Elementos E5 y E14 son 79% similares y se pueden considerar un nuevo objeto (E5,E14) 79% similar Figura 4.22: Matriz de proximidad (iteración 9) Alfredo Carreras Gómez Página 160

171 Elementos E16 y (E4,E6) son 74% similares y se pueden considerar un nuevo objeto [(E4,E6),E16] 74% similar Figura 4.23: Matriz de proximidad (iteración 10) Elementos E8 y (E7,E10) son 74% similares y se pueden considerar un nuevo objeto [(E7,E10),E8] 74% similar Figura 4.24: Matriz de proximidad (iteración 11) Elementos E9 y (E13,E19) son 74% similares y se pueden considerar un nuevo objeto [(E13,E19),E9] 74% similar Figura 4.25: Matriz de proximidad (iteración 12) Elementos E2 y E18 son 70% similares y se pueden considerar un nuevo objeto (E2,E18) 70% similar Alfredo Carreras Gómez Página 161

172 Figura 4.26: Matriz de proximidad (iteración 13) Elementos [(E4,E6),E16] y (E11,E12) son 64% similares y se pueden considerar un nuevo objeto {[(E4,E6),E16],(E11,E12)} 64% similar Figura 4.27: Matriz de proximidad (iteración 14) Elementos {[(E1,E3),E17],E15} y (E2,E18) son 63% similares y se pueden considerar un nuevo objeto {[(E1,E3),E17],E15},(E2,E18) 63% similar Figura 4.28: Matriz de proximidad (iteración 15) Elementos [(E13,E19),E9] y (E5,E14) son 54% similares y se pueden considerar un nuevo objeto {[(E13,E19),E9],(E5,E14)} 54% similar Alfredo Carreras Gómez Página 162

173 Figura 4.29: Matriz de proximidad (iteración 16) Elementos [(E7,E10),E8] y {[(E4,E6),E16],(E11,E12)} son 51% similares y se pueden considerar un nuevo objeto[(e7,e10),e8],{[(e4,e6),e16],(e11,e12)} 51% similar Figura 4.30: Matriz de proximidad (iteración 17) Elementos {[(E4,E6),E16],(E11,E12)} y [(E7,E10),E8][E13,E19] y son 43% similares y se pueden considerar un nuevo objeto {[(E4,E6),E16],(E11,E12)} [(E7,E10),E8][E13,E19] 43% similar. Figura 4.31: Matriz de proximidad (iteración 18) Finalmente, los dos últimos clusters tendrían un 38% de similitud. A partir de las mallas construidas, los resultados obtenidos se pueden visualizar en un dendrograma: Alfredo Carreras Gómez Página 163

174 Figura 4.32:Dendrograma resultante Alfredo Carreras Gómez Página 164

175 Otros cálculos realizados Identificar rutas con plazos de entrega distintos a la ida y a la vuelta Puede ser interesante encontrar rutas en las que el plazo medio de entrega sea diferente para cartas con la misma ruta, en las que se intercambien el origen y el destino. Por ejemplo, podemos descubrir que una carta básica enviada desde Lugo a Toledo tarda de media 2 días, mientras que de Toledo a Lugo tarda 5 días. Para obtener esta información hay que realizar la siguiente consulta: select PM1.provincia_origen, PM1.provincia_destino, PM1.plazo_medio as PlazoMedioIDA, PM2.plazo_medio as PlazoMedioVUELTA, PM1.plazo_medio- PM2.plazo_medio as Diferencia from datawarehouse.dbo.plazomedio as PM1,datawarehouse.dbo.plazomedio as PM2 where (PM1.provincia_origen=PM2.provincia_destino AND PM1.provincia_destino=PM2.provincia_origen AND PM1.plazo_medio>PM2.plazo_medio) order by 5 DESC,1,2 obteniendo resultados del tipo: Provincia Origen Provincia Destino PlazoMedioIDA PlazoMedioDESTINO Diferencia Guadalajara Soria Sevilla Melilla Badajoz Lérida Cantabria Baleares Huelva Tarragona Alfredo Carreras Gómez Página 165

176 4.4 EVALUACIÓN Y PRUEBAS En esta fase se evalúan los patrones y se analizan por los expertos, y si es necesario vuelve a las fases anteriores para una nueva iteración. Esto incluye resolver posibles conflictos con el conocimiento que se disponía anteriormente. Para la evaluación de los modelos de Minería de Datos es preciso conocer los conceptos de confianza, soporte y excepciones. La confianza mide cuan dependiente es un ítem de otro o dicho de otra forma, es el porcentaje especifico de ocurrencia y se expresa como un porcentaje. Otro punto a considerar es el número de filas que soporta un patrón. El soporte mide la frecuencia en que los ítems aparecen juntos. Las excepciones se definen como un patrón débil que existe junto con las filas de patrones más poderosos. La evaluación de la herramienta de Data Mining se ha elaborado mediante el establecimiento de un conjunto de entrenamiento. La generación de un conjunto de entrenamiento es un método de aprendizaje automático inductivo que pretende extraer conocimiento a partir de un conjunto de ejemplos. Ese conjunto de ejemplos se llama conjunto de entrenamiento. Son ejemplos de decisiones tomadas por un experto que describen por tanto la decisión tomada. En nuestro caso el conocimiento está recogido en una Base de Datos. Podríamos generar registros similares a los de la Base de Datos, pero perderíamos fiabilidad. Pretendemos obtener un conjunto significativo de todas las decisiones tomadas por el experto. Y para ello, qué mejor forma de hacerlo que obtenerlos directamente a partir de la Base de Datos? Alfredo Carreras Gómez Página 166

177 Bastaría simplemente con registrar en forma de tabla un conjunto de registros extraídos aleatóriamente de la Base de Datos. Cuánto más grande sea el conjunto de entrenamiento, más fiable y aproximado a la Base de Conocimiento de que disponemos será. El número de registros que se van a generar será a selección del usuario. De ese modo, el usuario de la aplicación, en el momento que lo necesite, podrá generar un conjunto de entrenamiento tan grande como le sea necesario. No obstante, al ser una Base de Datos muy grande y seleccionar los registros aleatóriamente, requerirá un tiempo directamente proporcional al número de registros que haya elegido. El usuario puede establecer el conjunto de entrenamiento desde la aplicación desarrollada: Figura 4.33: Interfaz para establecer conjunto de entrenamiento Los métodos de aprendizaje permiten construir modelos o hipótesis a partir de un conjunto de datos, o evidencia. En la mayoría de los casos es necesario evaluar la calidad de las hipótesis de la manera más exacta posible. Por lo tanto, la etapa de evaluación de modelos es crucial para la aplicación real de las técnicas de minaría de datos. Sin embargo establecer medidas justas y exhaustivas no es tarea sencilla. Una primera aproximación nos llevaría a utilizar el propio conjunto de entrenamiento como referencia para evaluar la calidad de un modelo. Sin embargo, Alfredo Carreras Gómez Página 167

178 esta aproximación es del todo equivocada, ya que premia los modelos que se ajustan más al conjunto de entrenamiento, por lo que favorecen los modelos que sobreajustan el conjunto de datos de entrenamiento y no generalizan para otros datos. Consecuentemente, una mejor opción es evaluar los modelos sobre un conjunto de datos diferente al conjunto de entrenamiento. En las siguientes secciones abordamos diferentes técnicas de evaluación basadas en esta partición de los datos de una evidencia en dos partes, una para el aprendizaje (entrenamiento), y otra para la evaluación (test). Otra aproximación, más realista por lo general, es la evaluación basada en costes. En este tipo de evaluación se avalúa el coste de los errores cometidos por un modelo. En este contexto, el mejor modelo es el modelo que comete errores con menor coste asociado, no el modelo que cometa menor número de errores. Por otra parte, los modelos de regresión no pueden evaluarse comparando si la clase predicha es igual, o no, a la clase real, ya que la clase es de tipo numérico. En estos casos, se utiliza la distancia entre ambos valores, ya sea real o cuadrática. El mejor modelo es, entonces, el modelo que minimice la distancia media entre ambos valores de los puntos utilizados para la evaluación. La evaluación de los modelos descriptivos es bastante complicada. Esto se debe fundamentalmente a la ausencia de una clase donde medir el grado de acierto de un modelo. Es por ello que las medidas de evaluación de modelos descriptivos se basan en conceptos tales como la complejidad del modelo y de los datos a partir del modelo, o bien, en agrupamiento, el nivel de compactación de los diferentes grupos. Alfredo Carreras Gómez Página 168

179 4.4.1 Evaluación del algoritmo de Clasificación Árboles de decisión ID3: Este algoritmo lo ejecutaremos sobre un conjunto de prueba, ya que de otro modo nos saldría un árbol enorme que nos saturaría la memoria del PC. En este caso, el conjunto de entrenamiento generado consta de 500 registros seleccionados aleatóriamente, y generamos el árbol ID3 cogiendo como criterio de clasificación el atributo estado. Como posibles separadores seleccionaremos el peso, el formato y la línea (ordinaria/urgente). Dado que no hemos seleccionado demasiados separadores, y que el árbol no es excesivamente grande, el sistema tarda poco en representárnoslo gráficamente. Una vez representado, podemos pedirle que nos muestre los datos correspondientes a las entropías y a los mejores separadores. Los mejores separadores seleccionados, son, por este orden: - Formato - Línea - Peso Se han seleccionado estos separadores para no tener más de 3 valores discretos, lo que agiliza la ejecución del programa. Además, son los factores que más probablemente puedan repercutir sobre el estado de llegada de la carta. Si entráramos a analizar otros factores, como la Comunidad Origen, tendríamos 52 valores posibles para este atributo, por lo que un nodo dividido mediante este separador pasaría a tener 52 nodos hijos, lo que ralentizaría mucho la ejecución. Alfredo Carreras Gómez Página 169

180 Las entropías calculadas por el programa son las que pueden verse a continuación: Figura 4.34:Resultados de los cálculos de entropía para cada nodo Como podemos ver, hay algunos nodos del árbol que quedan perfectamente clasificados. NOTA: Este algoritmo ha sido probado sobre otra BBDD (setas.mdb) para clasificar el tipo de seta venenosa o comestible a partir de características de localización (árbol o pradera), altura, color,..., cuyos resultados se han calculado manualmente y los resultados obtenidos han coincidido con los que visualiza la herramienta. Alfredo Carreras Gómez Página 170

181 4.4.2 Evaluación del algoritmo de Predicción Predecir plazo de entrega y estado de recepción: Este algoritmo parte de unos factores de certeza calculados previamente sobre la totalidad de los datos. Los valores predichos serán mucho más fiables si para su cálculo se ha cogido la totalidad de los datos que si sólo se han cogido unos pocos. Por tanto, al ejecutar esta parte de la aplicación, el usuario introduce unas variables de entrada que en este caso serían: - Provincia Origen - Provincia Destino - Línea - Formato - Peso - Método de inducción Y la aplicación le calcularía el plazo de entrega estimado así como el estado de recepción. Por ejemplo, si seleccionamos una carta que va de Madrid a Barcelona (Flujo Nacional) por línea ordinaria, con formato A4, peso entre 50 y 100 gr y la enviamos desde un buzón, el programa estima con un 58 % de probabilidad que la carta llegará temprano y en buen estado. Las conclusiones más importantes que se han extraído del cálculo de estos factores de certeza son: - Cuando se envía una carta por correo ordinario a nivel nacional, es muy probable que llegue antes de tiempo y en buen estado - A nivel local, el correo ordinario es bastante probable que se retrase, aunque llegaría en buen estado - A nivel provincial, el correo ordinario llegaría con mayor probabilidad, a tiempo y en buen estado. El formato de la carta y el peso de la carta afectan aproximadamente por igual en la calidad del servicio, ya que por lo general, una carta grande pesa más. Alfredo Carreras Gómez Página 171

182 4.4.3 Evaluación del algoritmo de Clustering Clustering jerárquico: En este caso se va a probar sobre la totalidad de los datos, puesto que sería imposible extraer conclusiones si lo calculáramos únicamente para un conjunto de entrenamiento. En la aplicación se parte de la totalidad de los datos y se van agrupando las comunidades según el parecido que tengan en cada una de sus variables. Después de realizar las agrupaciones, la aplicación nos muestra el dendrograma. En esta pantalla se puede ver la matriz completa, todavía sin normalizar. Figura 4.35: Interfaz de la aplicación con la malla inicial Por último, después de varias iteraciones que se van viendo por pantalla, vemos el dendrograma: Figura 4.36: Interfaz de la aplicación con el dendrograma generado Alfredo Carreras Gómez Página 172

183 En este dendrograma podemos apreciar gráficamente las comunidades autónomas que más se parecen. De entre las comunidades que más se parecen cabe destacar: - Andalucía y Asturias, junto con Murcia, son las que más se parecen entre sí. - País Vasco y Galicia, junto con Cataluña también se parecen mucho. Esto es notable ya que son las únicas comunidades que tengan otra lengua oficial reconocida aparte del castellano Alfredo Carreras Gómez Página 173

184 5. INTERPRETACIÓN DE RESULTADOS OBTENIDOS 5. INTERPRETACIÓN DE RESULTADOS OBTENIDOS 5.1 Interpretación del árbol de decisión ID3 En la figura 5.1 se muestra un ejemplo del árbol resultante para el atributo de clase estado y las columnas dependientes peso, linea, y formato. Figura 5.1: Árbol generado con atributo de clase estado y columnas dependientes peso, linea, y formato Se desea predecir el estado de llegada de una carta. Para ello, los mejores separadores son: Formato Línea Peso Alfredo Carreras Gómez Página 174

185 Figura 5.2: Separadores seleccionados para clasificar el estado de recepción Alfredo Carreras Gómez Página 175

186 5.2 Estimación de probabilidad Ejemplos de estimaciones para cartas ordinarias, tamaño A4, peso entre gr e inducidas en un centro de inducción masiva TIPO DE FLUJO ESTADO DE RECEPCIÓN PLAZO ENTREGA PROBABILIDAD Nacional Temprano Bueno 0.62 Provincial Temprano Bueno 0.48 Local A tiempo Bueno 0.51 Análisis del flujo local: Una carta con origen y destino la misma localidad llegará al día siguiente de la fecha de depósito con un 65% de probabilidad, en un 25% pasados dos días y más de dos días con un 10% de probabilidad. Alfredo Carreras Gómez Página 176

187 Análisis del flujo provincial: Una carta con origen y destino la misma provincia llegará al segundo dia de la fecha de depósito con un 64% de probabilidad, al día siguiente de la fecha de depósito con un 15% de probabilidad y más de dos días con un 21% de probabilidad. Análisis del flujo nacional: Una carta con origen y destino la distintas provincias llegará al día siguiente de la fecha de depósito con un 8% de probabilidad, en un 21% pasados dos días y más de dos días con un 71% de probabilidad. Alfredo Carreras Gómez Página 177

188 5.3 Análisis del coeficiente de correlación lineal Puede ser interesante analizar los datos en busca de una posible relación entre el estado de recepción de las cartas test y la distancia recorrida. Para ello utilizaremos el análisis de regresión lineal entre dos variables numéricas (plazo medio y kilómetros). Mediante el análisis de regresión lineal se puede ver si una determinada variable o columna depende directamente de otra variable. Haremos un estudio de estas variables para distintos grupos de datos de entrada: - Plazo medio de cartas recibidas en mal estado - Plazo medio de cartas ordinarias - Plazo medio de cartas urgentes En los tres datos de entrada, se dispone de información sobre: - provincia origen - provincia destino - número de cartas enviadas desde la provincia origen a la de destino - número total de cartas enviadas desde la provincia origen a la de destino - kilómetros de distancia entre la provincia origen y la de destino Alfredo Carreras Gómez Página 178

189 - Plazo medio de cartas recibidas en mal estado - La distancia recorrida apenas influye en el deterioro de una carta (r=0.15) Alfredo Carreras Gómez Página 179

190 Plazo medio de cartas ordinarias - En el correo ordinario, influye relativamente la distancia recorrida en el plazo de entrega (r=0.42) Alfredo Carreras Gómez Página 180

191 Plazo medio de cartas urgentes - En el correo urgente, no influye la distancia recorrida en el plazo de entrega (r=0.29) Alfredo Carreras Gómez Página 181

192 5.4 Análisis de curvas univariables Tras realizar el ajuste de curva univariable, las gráficas obtenidas se pueden clasificar en cuatro tipos. Tipo 1: Mediante esta gráfica se identifican comunidades que se comportan de forma distinta en verano que en invierno. Se ven influenciadas por el periodo vacacional (en verano disminuye y en invierno aumenta. Tipo 2: Mediante esta gráfica se identifican comunidades que se comportan de forma escalonada (dentro del mismo mes hay semanas que se producen más cartas que otras). Tipo 3: Mediante esta gráfica se identifican comunidades que se comportan de forma constante en el tiempo. Alfredo Carreras Gómez Página 182

193 Tipo 4: Mediante esta gráfica se identifican comunidades con escaso volumen de producción (Ej.: Ceuta). Alfredo Carreras Gómez Página 183

194 5.5 Análisis de los clusters generados Tras aplicar el algoritmo de clustering jerárquico se puede observar en el dendrograma que existen tres grupos bien diferenciados. Cluster1: Madrid, Andalucía, Asturias, Murcia, Aragón Cluster2: País Vasco, Galicia, Cataluña, La Rioja, Canarias Cluster 3: Cantabria, Baleares, Melilla, Extremadura, Comunidad valenciana, Ceuta, Castilla La Mancha, Castilla y León Alfredo Carreras Gómez Página 184

195 Las comunidades autónomas más parecidas son: - Andalucía y Asturias, junto con Murcia - País Vasco y Galicia Alfredo Carreras Gómez Página 185

196 6. CONCLUSIONES 6. CONCLUSIONES Un Sistema Data Mining nos permite analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, segmentar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos. La minería de datos es una herramienta que permite convertir los datos recogidos durante el funcionamiento normal de nuestro negocio en información valiosa. No es una tecnología que suplante a otras, sino que es complementaria y, en muchos casos, se aprovecha de lo que otros mecanismos, como la estadística, puedan aportarle. La llegada del Data Mining se considera como la última etapa de la introducción de métodos cuantitativos, científicos en el mundo del comercio, industria y negocios. Desde ahora, todos los no-estadísticos -es decir el 99,5% de nosotros - pueden construir modelos exactos de algunas de sus actividades, para estudiarlas mejor, comprenderlas y mejorarlas. Beneficios - Extraer información táctica y estratégica almacenada en sus Data Warehouse - La búsqueda de patrones la realiza en forma automatizada, por medio de herramientas que ejecutan el descubrimiento, generando modelos mediante la aplicación de diferentes técnicas - No requiere de personal experto en ciencias estadísticas o altamente entrenado en estas ciencias, por el contrario, es suficiente un especialista en análisis de datos y un experto en las áreas de la organización, que tengan conocimientos básicos en áreas estadísticas que les permita entender y aplicar los resultados. Alfredo Carreras Gómez Página 186

197 Problemas - La falta, por parte de las organizaciones, de un repositorio histórico, especialmente un Data Warehouse (o Data Marts), además de no contar con bases de datos bien definidas, con datos íntegros, consistentes, es decir, con datos en condiciones para la aplicación del Data Mining. - En otras palabras, la falta de una cultura informática y una visión corporativa, juegan un papel negativo al momento de aplicar el proceso de Data Mining. En organizaciones con estas características, el proceso puede requerir más tiempo, pero con una adecuada reestructuración de las bases de datos, creación de buenos repositorios y una serie de medidas, se pueden obtener buenos resultados pero con un gasto mayor de tiempo. Conclusiones obtenidas tras el análisis de curva univariable: Muchas veces la intuición humana asociada al profundo conocimiento del dominio del problema produce resultados asombrosos, pero cuando se pregunta a la persona que realizo la predicción en que se baso, ésta muchas veces no sabe que decir, otras da fundamentos demasiado ambiguos, superficiales y contradictorios en base a los cuales parece imposible realizar un algoritmo. Sin embargo hay formas de modelado en utilizando Fuzzy Logic que podrían incorporar esta experiencia a la predicción. # Durante el verano se produce un descenso en el correo producido. Esto debe ser debido a que en el periodo vacacional se envían/reciben menor cantidad de cartas.(vacaciones de la empresa) # Durante el invierno se produce un aumento en el correo producido. Este puede ser debido a que en la época de navidad se incremente el número de cartas (felicitaciones navideñas) Conclusiones obtenidas tras analizar el árbol ID3 generado: Alfredo Carreras Gómez Página 187

198 # Para clasificar el estado de recepción según línea, formato y método de inducción los separadores/atributos que influyen en que una carta llegue en buen o mal estado son el método de inducción, formato y línea, en este orden. Conclusiones obtenidas tras las regla de asociación: Correo ordinario a nivel nacional $ Llegará temprano y en buen estado Correo ordinario local $ Llegará tarde pero en buen estado Correo ordinario provincial $ Llegará a tiempo y en buen estado. El formato y el peso afectan por igual en la calidad del servicio Conclusiones obtenidas tras analizar el clustering jerárquico: # Se han identificado tres grupos con patrones de comportamiento similares en lo referente a al tratamiento de cartas producidas: 1. norte España y Canarias 2. interior y costa mediterránea 3. resto Alfredo Carreras Gómez Página 188

199 7. BIBLIOGRAFÍA 7. BIBLIOGRAFÍA [Adriaans, 96] Adriaans, P. W.; Zantige, D.: Data Mining. Addison-Wesley, [Berger, 04] Berger, C., Oracle Data Mining, Oracle Corporation, U.S.A., Septiembre [Berry, 96] Berry, M. J. A.; Linoff, G.: Data Mining Techniques. Wiley Computer Publishing. New York, [Fayyad, 96a] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P.; The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications of the ACM, November [Fayyad, 96b] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusame, R. (Eds): Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, Cambridge MA, [Glymour, 96] Glymour C., D. Madigan, D. Pregibon y P. Smyth, Statistical Inference and Data Mining, Communication of the ACM, Noviembre [Han ] Han, J. y M. Kamber, Data Mining: Concepts and Techniques. [Llovet, 00] Llovet, Juan, Statgraphics plus 4, Anaya. [Orallo ] Orallo, J., M.Ramirez, C. Ferri, Introducción a la Minería de Datos, Prentice Hall. Principles of Data Mining. Prentice Hall. Visual Data Mining: Techniques and Tools for Data Visualitation and Mining The Handbook of Data Mining. Lawrence Erlbaum Associates, Publishers. MIT Press - Principles of Data Mining Strategic Perspectives on the Postal Market International Post Corporation, Enero 2002 Quality-of-Service Measurement and Performance Monitoring IBM Postal Solutions, Marzo 2004 Logistics Management IBM Postal Solutions, Septiembre 2004 The Postal Industry 2010 Posteurop.org Alfredo Carreras Gómez Página 189

200 Plan Estratégico Correos 2000 POST-EXPO 2002 Quality of Service Monitoring Bjarne Sorensen Un Punto de Encuentro para el Mundo Postal Documentación del Foro Postal Europa- América de 2002 en Madrid Internet # Knoledge Discovery Network of Excellence, # Laboratorio de Inteligencia Artificial del MIT, # Web de Correos y Telégrafos, # Association of European Public Postal Operators, # Visual Basic Data Mining.NET, Alfredo Carreras Gómez Página 190

201 8. PLANIFICACIÓN TEMPORAL El Proyecto consta de las siguientes etapas con su duración estimada: 1. Fase de Análisis 88 días Comprensión del negocio 46 días Identificación del problema 17 días Estudiar posibles soluciones con Data Mining 30 días Definición de requisitos y alcance de la aplicación 15 días Análisis de viabilidad 6 días 2. Fase de Recopilación de datos 45 días Determinar fuentes de información 20 días Comprensión de los datos 40 días Datos recopilados 0 días 3. Fase de Preparación de los datos 73 días Limpieza de datos (cleaning) 28 días Valores anómalos 18 días Valores faltantes 10 días Selección de atributos 15 días Transformación 25 días Codificación 5 días Datos preparados para minar 0 días 4. Fase de Construcción del modelo de Minería de Datos 74 días Creación de la vista minable 10 días Seleccionar método de Minería de Datos 10 días Desarrollar de algoritmos de Data Mining 64 días Análisis 7 días Diseño 10 días Construcción 40 días Pruebas 7 días 5. Fase de Evaluación, interpretación y validación 34 días Identificación y caracterización del conjunto de entrenamiento 10 días Cálculo de incertidumbre 7 días Pruebas de validación 10 días Utilización de la herramienta de Data Mining desarrollada 7 días 6. Fase de Difusión y uso del nuevo conocimiento 16 días Generación de informes 11 días Visualización del conocimiento obtenido 11 días Dendrogramas 16 días Resultados según ubicación geográfica 16 días Alfredo Carreras Gómez Página 191

202 7.Interfaz de la aplicación Módulo de registro e importación de datos Módulo de preparación de datos Módulo de creación de la vista minable Módulo para la búsqueda de patrones de la vista minable Módulo para la visualización de resultados 33 días 11 días 16 días 11 días 11 días 11 días 8. Elaboración de manuales de la aplicación 5 días 9. Documentación del Proyecto 200 días Total duración estimada del PFC: 242 días Alfredo Carreras Gómez Página 192

203 A continuación se muestra el diagrama de Gantt correspondiente: Alfredo Carreras Gómez Página 193

204 9. PRESUPUESTO A) FASE INICIAL ,00 Personal de Gestión ,00 2 coordinadores 12 meses (2.000 *2*12) ,00 1 grabador 12 meses ( *12) ,00 Suplemento de personal (1.000 * 12) ,00 Gastos de teléfono de Gestión de Red 4.800,00 Estimación de una media mes de ,00 Selección de voluntarios 2.000,00 Panelistas (remitentes y destinatarios) tanto empresas como particulares 2.000,00 B) FASE DESARROLLO ,00 Recopilación de Datos 2.000,00 Limpieza de Datos 1.000,00 Desarrollo de Algoritmos de Minería 6.000,00 Evaluación, Interpretacion y Validación 1.000,00 C) FASE OPERATIVA ,00 PRODUCCIÓN ,00 Paquete remitente ,00 - Cartas test - Normalizado 1.000,00 - C5 300,00 - A4 500,00 - Sobres de envío (53 semanas) 2.000,00 - Sobre de retorno (53 semanas) 2.000,00 - Etiquetas 200,00 - Papel + fotocopia de las etiquetas 50,00 - Impresión de hoja resumen y de ficha envío fajos 600,00 - Impresión de formulario de recepción 3.000,00 - Producción de papel (hoja resumen+ficha envío fajos+formulario) 1.000,00 - Producción de papel de relleno - Hasta 20 gr. (0) 10,00 - De 20 a 50 (3 hojas) 100,00 - De 50 a 100 (8 hojas) 300,00 Paquete destinatario 490,00 - Sobre de envío 100,00 - Sobre de retorno (53 semanas) 300,00 Alfredo Carreras Gómez Página 194

205 - Etiquetas para sobres de envío (adhesivos) 10,00 - Etiquetas para sobres de envío (fotocopias) 20,00 - Manipulado (casado, ensobrado de 7 elem. y sobres de retorno y pegado de sellos) 60,00 MANIPULADO PAQUETE DEL REMITENTE 1.900,00 - Rellenos de los envíos 300,00 - Paquetes de los remitentes 1.000,00 - Pegado de sellos 600,00 MOTIVACIÓN RED 100,00 - Comunicación de vacaciones (verano y navidades) 100,00 RECOPILACIÓN DE LOS DATOS 300,00 Total - Almacenaje fisico de carta 300,00 TOTAL SIN IVA ,00 TOTAL CON IVA ,00 Alfredo Carreras Gómez Página 195

206 10. ANEXOS 8. ANEXOS Reglas de Predicción (FCs) Alfredo Carreras Gómez Página 196

207 Alfredo Carreras Gómez Página 197

208 Alfredo Carreras Gómez Página 198

209 Glosario de términos Algoritmos genéticos: Técnicas de optimización que usan procesos tales como combinación genética, mutación y selección natural en un diseño basado en los conceptos de evolución natural. Análisis de series de tiempo (time-series): Análisis de una secuencia de medidas hechas a intervalos específicos. El tiempo es usualmente la dimensión dominante de los datos. Análisis prospectivo de datos: Análisis de datos que predice futuras tendencias, comportamientos o eventos basado en datos históricos. Análisis exploratorio de datos: Uso de técnicas estadísticas tanto gráficas como descriptivas para aprender acerca de la estructura de un conjunto de datos. Análisis retrospectivo de datos: Análisis de datos que provee una visión de las tendencias, comportamientos o eventos basado en datos históricos. Árbol de decisión: Estructura en forma de árbol que representa un conjunto de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Ver CART y CHAID. Base de datos relacional: Es una base de datos donde éstos se almacenan en tablas conectadas o "relacionadas" entre sí. Una tabla puede contener direcciones y otra, la facturación. No es como un fichero plano, donde cada registro es un cliente, sino que cada variable está en una tabla propia. Base de datos multidimensional: Base de datos diseñada para procesamiento analítico online (OLAP). Estructurada como un hipercubo con un eje por dimensión. Alfredo Carreras Gómez Página 199

210 Borrosificar: Convertir en flexible o capaz de manipular la imprecisión del lenguaje humano. Bundle: Fajo. A continuación se muestra la relación entre un paquete, formado por muchos fajos, cada uno de los cuales puede estar formado por una o más cartas. PAQUETE FAJO CARTA CART Árboles de clasificación y regresión: Una técnica de árbol de decisión usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparación de datos que CHAID. CHAID Detección de interacción automática de Chi cuadrado: Una técnica de árbol de decisión usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear múltiples divisiones. Antecede, y requiere más preparación de datos, que CART. Clasificación: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a variable(s) específica(s) las cuales se están tratando de predecir. Por ejemplo, un problema típico de clasificación es el de dividir una base de datos de compañías en grupos que son lo más homogéneos posibles con respecto a variables como "posibilidades de crédito" con valores tales como "Bueno" y "Malo". Cluster: Clasificación, grupo. Alfredo Carreras Gómez Página 200

211 Cluster: nº max de cartas en un fajo Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a todas las variables disponibles. Computadoras con multiprocesadores: Una computadora que incluye múltiples procesadores conectados por una red. Ver procesamiento paralelo. Correo producido: correo cancelado + correo válido Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y correctamente registrados. Data Mart: Subconjunto de Data Warehouse, normalmente para un departamento concreto. datos. Data Mining: La extracción de información predecible escondida en grandes bases de Data Warehouse: Sistema para el almacenamiento y distribución de cantidades masivas de datos Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la carga) o que representan eventos inusuales. Dimensión: En una base de datos relacional o plana, cada campo en un registro representa una dimensión. En una base de datos multidimensional, una dimensión es un conjunto de entidades similares; por ej.: una base de datos multidimensional de ventas podría incluir las dimensiones Producto, Tiempo y Ciudad. Alfredo Carreras Gómez Página 201

212 Estacionalidad: Distribución de producción (%) por línea de producto y mes. Función de Agregación: Función que permite unir los valores de varias variables de el mismo tipo en un único valor. Knowledge Discovery in Databases (KDD): proceso de descubrimiento automático de patrones previamente desconocidos, reglas y otros contenidos regulares que se encuentren presentes implícitamente en grandes volúmenes de datos. Metadatos: Diccionario de definiciones de los datos almacenados. Es como una biblioteca que recoge cómo, dónde y qué datos se han incorporado en el Data Warehouse. Modelo analítico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un árbol de decisión es un modelo para la clasificación de un conjunto de datos Modelo lineal: Un modelo analítico que asume relaciones lineales entre una variable seleccionada (dependiente) y sus predictores (variables independientes). Modelo no lineal: Un modelo analítico que no asume una relación lineal en los coeficientes de las variables que son estudiadas. Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos. Navegación de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de datos multidimensional. Ver OLAP. ODBC: Open Database Connectivity. Permite el acceso desde aplicaciones Microsoft a diferentes gestores de bases de datos como, por ejemplo, Oracle. Alfredo Carreras Gómez Página 202

213 OLAP: Procesamiento analítico on-line (On Line Analitic prossesing). Se refiere a aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar, manipular y analizar bases de datos multidimensionales. Outlier: Un item de datos cuyo valor cae fuera de los límites que encierran a la mayoría del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberían ser examinados detenidamente; pueden dar importante información. Patrón del Dropper: días que tiene marcados como posibles para inducir correo. Procesamiento paralelo: Uso coordinado de múltiples procesadores para realizar tareas computacionales. El procesamiento paralelo puede ocurrir en una computadora con múltiples procesadores o en una red de estaciones de trabajo o PCs. RAID: Formación redundante de discos baratos (Redundant Array of inexpensive disks). Tecnología para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento. Regresión lineal: Técnica estadística utilizada para encontrar la mejor relación lineal que encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes). Selección: Operación consistente en seleccionar de una base de datos a individuos que respondan a las características de una acción concreta. Incluso si, después de la selección, quedasen pocos destinatarios de la oferta, el índice de respuesta será muy superior al de una oferta tradicional. Sistema Experto: El que es capaz de razonar siguiendo un proceso semejante al que emplea un especialista humano en la materia a la que concierne el problema a tratar cuando lleva a cabo su resolución. Dicho sistema, que actúa simultáneamente como sistemas de ejecución y de transmisión de conocimientos, está constituido por tres partes principales: la base de conocimientos, de la que forman parte las informaciones específicas, correspondientes al campo Alfredo Carreras Gómez Página 203

214 en cuestión. La memoria de trabajo o base de hechos, que contiene los datos concernientes al problema que se desea tratar y en la que la memorización de todos los resultados intermedios permite, además de la explicación del origen de las informaciones deducidas, la descripción del comportamiento del propio sistema. El motor de inferencia, es un programa que con los conocimientos y heurísticos (mecanismos específicos del proceso de descubrimiento) contenidos en la base de conocimientos resuelve el problema concreto, especificado gracias a los datos contenidos en la memoria de trabajo. Software: Los sistemas de tratamiento de datos informáticos se componen, además de sus interconexiones, de dos partes principales: el hardware o equipo físico y el software o equipo lógico. Este último compuesto por todos los programas que existen para el mencionado sistema. Structured Query Language (SQL): Lenguaje estructurado de consultas. Este lenguaje es un conjunto de instrucciones que permite realizar diversas operaciones sobre los datos almacenados en una Base de Datos Relacional. Estas bases de datos son aquellas que se caracterizan porque la información está contenida en estructuras, llamadas tablas, donde los datos están dispuestos en filas y columnas y donde existen relaciones entre las distintas tablas de una misma base de datos. Alfredo Carreras Gómez Página 204

215 Manual de usuario A continuación se describe el manual de usuario de la Herramienta de Data Mining. La finalidad de esta herramienta es poder realizar un análisis inteligente de los datos, identificar patrones novedosos y potencialmente útiles a partir de una origen de datos, ya sea en local o mediante una fuente de datos ODBC. Esta herramienta utiliza las siguientes técnicas de Minería de Datos: segmentación, árboles de decisión, reglas de asociación, regresión lineal y ajuste de curva univariable. Al abrir la aplicación, nos encontramos con una pantalla de bienvenida. Si le damos a siguiente, nos da la opción de utilizar un modelo que ya hayamos creado previamente, o de crear uno nuevo. Alfredo Carreras Gómez Página 205

216 Cree un nuevo modelo e indique el tipo de modelo y la tarea de minería que desea realizar. Una vez creado un modelo, puede ejecutarlo y guardar los resultados. En caso de que le demos a crear un nuevo modelo, el sistema nos pedirá que introduzcamos los datos del mismo, es decir, el nombre, la fecha y una descripción (opcional). Alfredo Carreras Gómez Página 206

217 Luego, deberemos seleccionar el origen de los datos. Navegaremos en busca del fichero mdb que contenga la BBDD y la seleccionaremos. Ya tenemos el modelo creado. Ahora ya pasaríamos a seleccionar el algoritmo que quisiéramos aplicar. Alfredo Carreras Gómez Página 207

218 Nos encontramos con algoritmos de diversos tipos, que son: Clustering Clustering jerárquico: Si seleccionamos este algoritmo, tenemos la opción de ejecutarlo sobre la totalidad de los datos. El sistema irá iterando paso a paso hasta generar el dendrograma que representa aquellas provincias que más se parecen entre sí. Y por último mostrará el resultado en forma de dendrograma. Alfredo Carreras Gómez Página 208

219 Al pulsar en Estadísticas mostrará los detalles de los clusters generados, junto con su localización geográfica. Clasificación Árboles ID3: Primero deberemos seleccionar el origen de los datos, que en nuestro caso sería Microsoft Jet 4.0 para un archivo mdb, y luego elegiríamos la ubicación del mismo. Alfredo Carreras Gómez Página 209

220 A continuación, el sistema nos pide que seleccionemos la tabla que queramos clasificar. Una vez seleccionada, deberemos seleccionar el atributo por el que queramos clasificar los datos, y finalmente todos los posibles separadores. Con todo ello, el sistema calculará el árbol ID3, que nos mostrará gráficamente. Alfredo Carreras Gómez Página 210