Inteligencia en Redes de Comunicaciones

Documentos relacionados
PREDICCIÓN METEOROLÓGICA

PREDICCIÓN METEOROLÓGICA

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

Tercera práctica de REGRESIÓN.

Algoritmo para Calcular Logaritmos

FORMACION DE HIELO EN EL CARBURADOR

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Tabla de cifrado 4677 ww = Tiempo presente. ww = Sin precipitaciones en la estación en el momento de la observación.

LA OBSERVACION METEOROLOGICA

Instrucciones para rellenar la hoja de datos

Inteligencia en Redes de Comunicaciones

UNIDAD 10: ECUACIONES DE SEGUNDO GRADO.

Tema 14: Sistemas Secuenciales

Método alternativo de descomposición factorial

Tema 2. Descripción Conjunta de Varias Variables

PROBLEMA DE PROGRAMACIÓN LINEAL RESUELTO POR MÉTODO SIMPLEX

ANEXO 1. CALIBRADO DE LOS SENSORES.

Introducción a las Observaciones Meteorológicas

CLIMATOLOGÍA AERONÁUTICA AEROPUERTO INTERNACIONAL DANIEL ODUBER QUIRÓS (COSTA RICA)

CAPÍTULO 4 RECOPILACIÓN DE DATOS Y CÁLCULO DEL VPN. En el presente capítulo se presenta lo que es la recopilación de los datos que se tomarán

PROPIEDADES DE LOS CAMPOS. Cada campo de una tabla dispone de una serie de características que proporcionan un control

UD Trigonometría Ejercicios Resueltos y Propuestos Col La Presentación

UNIDAD 3: QUERIDO PLANETA TIERRA

USO DE MODELOS NUMERICOS EN LA PREDICCION EN PERU

ECUACIONES.

Evaluación de modelos para la predicción de la Bolsa

CENTRO DE ENSEÑANZA SUPERIOR DON BOSCO EXPERIMENTO FÍSICA FLOTABILIDAD DE LOS CUERPOS

Matriz de Insumo - Producto

Tomamos como imagen de prueba la figura 4.17 en escala de grises. Figura Imagen de prueba.

Minería de Datos. Predicción Meteorológica

Elaboración de Documentos en Procesadores de Textos

TEST DE RAZONAMIENTO NUMÉRICO. Consejos generales

PREPARACION OLIMPIADA MATEMATICA CURSO

Sound Meteorological Environmental Correlation. Información técnica

Ecuaciones de primer grado

Tema 6: Trigonometría.

RESUMEN METEOROLÓGICO AÑO 2004 ESTACIÓN JORGE C. SCHYTHE 1 (53 08 S; W; 6 M S.N.M.)

Otra forma de enumerar los resultados es en una tabla de frecuencia:

Curso Completo de Electrónica Digital Simplificación de funciones booleanas

a) Factoriza el monomio común. En este caso 6 se puede dividir de cada término:

Selección de fuentes de datos y calidad de datos

SISTEMAS DE NUMERACION

INTRODUCCION 1.1.-PREAMBULO

Tema 1.- Correlación Lineal

1. Los pesos (en Kgs.) de los niños recién nacidos en una clínica maternal durante el último año han sido:

Qué es una tabla dinámica? Para qué sirve una tabla dinámica?

Tema 4: Probabilidad y Teoría de Muestras

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

1. Caso no lineal: ajuste de una función potencial

A c) Determinantes. Ejercicio 1. Calcula los siguientes determinantes:

Tema 8. Análisis de dos variables Ejercicios resueltos 1

1. dejar a una lado de la igualdad la expresión que contenga una raíz.

PROTOCOLO PARA LA PREDICCIÓN Y EL SEGUIMIENTO DE FENÓMENOS METEOROLÓGICOS ADVERSOS

Aritmética de Enteros

Factorización de polinomios FACTORIZACIÓN DE POLINOMIOS

Tema 2.- Formas Cuadráticas.

CREACIÓN Y MANEJO DE TABLAS Instructivo N 1

Capitulo 4. DECISIONES BAJO RIESGO TEORIA DE JUEGOS

Ministerio de Educación. Base de datos en la Enseñanza. Open Office. Módulo 5: Informes

FUNCIONES Y FÓRMULAS TRIGONOMÉTRICAS

Tema 2 Introducción a la Programación en C.

Fase 2. Estudio de mercado: ESTADÍSTICA

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

TEMA 10A: MASAS DE AIRE

CAPITULO II ANÁLISIS DEL CRECIMIENTO POBLACIONAL Y CALCULO DE CAUDALES DE DISEÑO

Predicción de los ciclos de El Niño

media = ( temp0 + temp1 + temp2 + temp3 + temp temp23 ) / 24; printf( "\nla temperatura media es %f\n", media );

MICROSOFT EXCEL PARA DIRECCIÓN FINANCIERA I. 1. Resolución de problemas de simulación de Montecarlo mediante el uso de la hoja de cálculo.

2.- Tablas de frecuencias

FORMATO CONDICIONAL EN EXCEL


Prácticas de Laboratorio de Hidráulica

TABLAS DE CIFRADO CLAVES METAR, SPECI Y TAF INSTITUTO NACIONAL DE METEOROLOGÍA

AJUSTE O ESTANDARIZACION DE TASAS Y CÁLCULO DE LOS AÑOS POTENCIALES DE VIDA PERDIDOS (APVP) 1.- CONDICIONES y TECNICAS PARA EL AJUSTE DE TASAS

Práctica 1: Entorno WEKA de aprendizaje automático y data mining.

11.2. Manual de GTC 2.0: El primer contacto

INFORME MENSUAL. Circuito Mintzita 470 Fraccionamiento Manantiales (443)

Método de diferencias finitas para ecuaciones diferenciales parciales elípticas. (Parte II)

Cálculos de ecuaciones

El polvo de bronce empleado ha sido suministrado por la empresa ECKART. Su denominación comercial es ECKA Spherical Bronze 89/11 AK.

FUNCIONES PHP: DECLARACIÓN Y LLAMADAS. PARÁMETROS, RETURN. EJERCICIOS EJEMPLOS RESUELTOS. (CU00827B)

Unidad 5. Tablas. La celda que se encuentra en la fila 1 columna 2 tiene el siguiente contenido: 2º Celda

TEMA 4: Sistemas de ecuaciones lineales II

Enero de Boletín Agrometereológico Mensual CLIMATOLOGIA Y FENOLOGIA AGRICOLA. UBICACION: LAT S - LONG W de G - A.S.N.M.

INTERPRETACION DE LAS CONDICIONES METEOROLOGICAS DENNYS RAMOS BERNEDO FLICHT DISPACHT

IRPF IRPF 10205B41 MICROTECH SISTEMAS, S.L. CIF: B / 12 A CORUÑA. LAS PALMAS Berruguete, 114, Bajos LOGROÑO BARCELONA.

Programación en Visual Basic Ricardo Rodríguez García

Arrays unidimensionales. Dim.Option Base. Erase. Ejemplos en Visual Basic (CU00311A)

MANUAL DEL PROGRAMA EXCEL LABORAL

COMO REALIZAR CONSULTAS CON EL CONSTRUCTOR DE GEOCONSULTAS DEL SIG GUADUA.

HIDROLOGÍA. CALSE 10: Precipitación Parte II. Julián David Rojo Hdz. I.C. Msc. Recursos Hidráulicos

MICROSOFT EXCEL 2010

TEMA 8.- NORMAS DE MATRICES Y

LABORATORIO Nº 8 FILTROS EN EXCEL

Diplomatura en Ciencias Empresariales X Y

Figura 1 Si la señal continua únicamante toma dos balores, entonces se denomina señal binaria, Figura 2. Figura 2

Inecuaciones lineales y cuadráticas

2. METODOLOGÍA. Los tipos fundamentales de Estudios de Investigación, como nos recuerda Bavaresco, son cuatro:

Tema 3: Sistemas de ecuaciones lineales

Transcripción:

Inteligencia en Redes de Comunicaciones Predicción meteorológica Aitor Mendaza Ormaza 100021542

INDICE Introducción 1 Tratamiento de Datos.5 Resultados y análisis 7

Introducción: El objetivo de esta práctica es desarrollar un sistema de caracterización metrológica, usando para ello la plataforma Weka como herramienta de aplicación de algoritmos de aprendizaje. En concreto, se procederá al desarrollo de tres modelos de predicción: Predicción de temperatura a la hora siguiente. Predicción de temperatura al día siguiente (24 horas exactas). Predicción de las condiciones meteorológicas del día siguiente (24 horas). Para el desarrollo de esta práctica, nos hemos apoyado en las simulaciones obtenidas por unos compañeros. Se ha procedido al estudio de la obtención de dichas simulaciones, así como del estudio de las razones que se usaron para el tratamiento de datos y la elección de los modelos de predicción/simulación. Los datos a partir de los cuales se ha realizado el estudio es información recogida a través del Metar (Meteorological Actual Report), disponibles de forma gratuita en internet. El uso de información a través del METAR simplifica las cosas, ya que usa un código establecido por el World Meteorological Organization (WMO), y adaptado por todas las naciones del mundo, por lo que dicho estudio podría ser usado en un futuro sin necesidad de complejos cambios. Los datos usados en el desarrollo de esta práctica son los correspondientes al aeropuerto Barajas de Madrid (código internacional LEMD) desde el año 1996 hasta el año 2004. Dichos datos contienen la siguiente información, tomada cada media hora: HoraCET (Dividia en Año, mes y hora) Temperatura (grados Farenheit) Punto de rocío (grados Farenheit) Humedad Presión (pulgadas) Visibilidad Dirección del viento Velocidad del viento (millas por hora) Velocidad de ráfagas de viento (millas por hora) Precipitación Eventos Condiciones A continuación mostramos un fragmento de los datos originales: HoraCET, TemperaturaF, Nivel de RocíoF, Humedad, PresiónIn, Visibilidad MPH, Wind Direction, Velocidad del vientomph, RáfagaMPH, Precipitación In, Hechos, Conditions. 12:00 AM,37.4,33.8,87,30.39,7.0,NNE,2.3,-,N/A,,Parcialmente Nublado 12:30 AM, 35.6,33.8,93,30.39,7.0,Calm,Calm,-,N/A,,Parcialmente Nublado 1:00 AM,35.6,33. 8,93,30.39,7.0,Calm,Calm,-,N/A,,Nubes Dispersas 1:30 AM,35.6,33.8,93,30.36,7. 0,Norte,1.2,-,N/A,,Nubes Dispersas 2:00 AM,35.6,33.8,93,30.36,7.0,Norte,1.2,-,N/A,,Nubes Dispersas 2:30 AM,35.6,33.8,93,30.36,7.0,NNO,1.2,-,N/A,,Nubes Dis persas 3:00 AM,35.6,33.8,93,30.36,7.0,NNO,1.2,-,N/A,,Nubes Dispersas 3:30 AM,33.8,32.0,93,30.33,7.0,Calm,Calm,-,N/A,,Parcialmente Nublado 4:00 AM,30.2, 32.0,100,30.33,7.0,Calm,Calm,-,N/A,,Parcialmente Nublado 4:30 AM,32.0,30.2,93,30.33,7.0,Calm,Calm,-,N/A,,Parcialmente Nublado 5:00 AM,32.0,30.2,93,30.30,7.0,Calm,Calm,-,N/A,,Parcialmente Nublado 5:30 AM,30.2,30.2,100,-9999,5.6,Calm,Calm,-,N/A,,Despejado

Como se puede observar en esta muestra, hay casos en los que faltan datos, o estos son incorrectos. Estos datos no han sido sometidos a ningún procesado de datos. Procedemos ahora a exponer los distintos filtros que se han aplicado a los datos para su posterior procesamiento con WEKA. Explicaremos también porque se han elegido dichos filtros.

TRATAMIENTO DE DATOS: El tratamiento de los datos en bruto se ha realizado mediante una serie de filtros, programados en java, para adecuar el formato de los datos a nuestras necesidades, así como para conseguir filtrar los datos inservibles o los que juzgamos innecesarios para los modelos que se eligieron estudiar. Para ello, iremos enumerando y describiendo uno por uno los distintos campos, en el orden correspondiente, de los datos obtenidos a través de METAR. AÑO: Indica el año en el que se tomó la muestra. Su valor está comprendido entre 1996 y 2004. MES: Al igual que el dato anterior, indica el mes en que la muestra fue tomada. Así mismo, no necesita ningún tratamiento, ya que se encuentra indicado de forma numérica, oscilando entre 01 y 12. DÍA: Indica el día en que fue tomada la muestra. Sus valores oscilan entre 01 y 31. Así mismo, tiene en cuenta las fechas por meses, es decir, que febrero sólo tiene 28 dias (29 si es bisiesto) y algunos de los meses sólo 30 en vez de 31. No es necesario que hagamos una comprobación del día en función del mes, porque asumimos que los datos obtenidos no tienen errores en estos campos. HORA: Indica el momento exacto en que fue tomada la muestra. El periodo de muestreo es de media hora, es decir, se toma una muestra cada media hora. A cada muestra se la etiqueta con un número, indicando el número de muestra por día. Es decir, la primera muestra, tomada a las 00:00h se etiqueta como 0. La siguiente muestra, tomada a las 00:30h se etiqueta como 1, y así sucesivamente hasta la última muestra, número 47 que corresponde a las 23:30h. Teniendo en cuenta el formato en que se indica la hora, no es necesario realizar ningún cambio en este campo de datos. TEMPERATURA: Este campo representa la medición de la temperatura en el momento de muestreo. Está indicada en grados Farenheit, en formato de tres dígitos con decimal. Sobre dicha medida tampoco se realiza ningún cambio. PUNTO DE ROCÍO: Variable de tres dígitos con decimal. Su unidad de medida son grados Farenheit. No se necesitó ningun preprocesado de datos para su posterior uso y tratamiento. HUMEDAD: Variable de tipo real. De nuevo, no se necesitó ningún preprocesado. PRESIÓN: Variable expresada con tres dígitos y decimal. Su unidad de medida es la pulgada. No se realizó ningún cambio. VISIBILIDAD: Variable de tipo real cuya unidad de medida son los metros. Los valores que toma esta variable en los datos usados son -9999 para condición de despejado, 7.0 para cualquier otra cosa, y? para filas de datos desconocidos. Se consideró, que debido a la poca información que aporta, y a no considerarse relevante, la

eliminación de esta columna de de datos para el procesamiento final de la información mediante WEKA. DIRECCIÓN DEL VIENTO: Variable cuyo atributo toma un string de entre los siguientes posibles valores:{calm, Variable, Este, ENE, NE, NNE, Norte, NNO, NO, ONO, Oeste, OSO, SO, SSO, Sur, SSE, SE, ESE}. No se realizó ningún cambio. VELOCIDAD DEL VIENTO: Puede tomar cualquier valor numérico, medida en millas, excepto cuando no existe viento, denotándose este estado por el estring Calm. Se sustituyó Calm por 0 para que la columna entera fuese de tipo numérico y facilitar su tratamiento. VELOCIDAD DE RÁFAGAS DE VIENTO: Variable de tipo real cuya unidad de medida. Su valor es siempre - por lo que se decidió eliminar esta columna de datos. PRECIPITACIÓN: Variable de tipo real cuyos valores no están disponibles N/A, por lo que se optó por su eleminación. EVENTOS: Variable no disponible (? ). Se eliminó esta fila de datos. CONDICIONES: Variable de tipo atributo que puede tener distintos valores con matices muy sutiles. Se decidió agruparlos dentro de clases, para que el error en el procesado de esta variable influyese lo menos posible en la simulación: Despejado, Nubes Dispersas Despejado. Nube en Embudo, Parcialmente Nublado, Nublado, Altamente Nublado Nublado. Bancos de Bruma, Bruma Ligera, Bruma Leve, Bruma, Bruma Helada Leve Bruma. Lluvias, Llovizna Leve, Llovizna, Llovizna Abundante, Llovizna Helada Leve, Lluvia Helada Leve, Lluvia Leve, Lluvia, Abundantes Lluvias, Fuertes Lluvias Lluvia. Tormenta Leve, Tormentas Leves y Lluvia, Tormenta, Tormentas y Lluvia, Fuertes Tormentas y Lluvia, Tormentas Leves con Granizo, Tormentas con Granizo Tormenta. Arena, Remolino de Polvo, Nubes de Polvo, Nubes Bajas de Polvo Nubes-de-Polvo. Leve Caída de Granizo Pequeño, Caídas de Granizo, Granizo Pequeño, Granizo Leve Granizo. Partículas de Nieve, Caídas de Nieve, Nevada Leve, Nieve, Abundante Nieve Nieve. Niebla, Abundante Niebla, Niebla Leve, Neblina Niebla. Desconocido Desconocido. Por último, se realizó un filtrado sobre todas las filas de datos con datos incompletos, eliminándose dichas filas, como por ejemplo la línea 1996, 07, 01, 25,?,?,?,?,?,?,?,?,?,? ya que no nos aportan ninguna información de utilidad. Además del filtrado de los datos usados eliminando información no necesaria o incompleta, se añadió una serie de datos que resultaban necesarios para el uso

de WEKA. Como WEKA para cada dato sólo acepta una línea, sin tener en cuenta las anteriores, incluimos en cada linea la siguiente información adicional: Variable Temperatura1hora para poder predecir la temperatura de en la hora siguiente necesitamos que en cada fila esté el valor real de dicha medida para poder hallar el error de predicción. Añadimos la variable a continuación de las demás. Variable Temperatura24horas Del mismo modo, necesitamos añadir la temperatura del día después a la misma hora para poder realizar la predicción. Variable Condiciones24horas Por último, añadimos otra variable más cuyo valor será la condición meteorológica del día siguiente a la misma hora para poder predecir dicha variable. Una vez filtrados todos los datos, se añadió una cabezera al fichero obtenido, con el fin de convertirlo en un fichero.arff para que pueda ser usado por WEKA. La cabezera del archivo quedaría de la siguiente forma: % comentarios @relation Meteorologia @attribute Anyo real @attribute Mes real @attribute Dia real... @attribute Direccion del viento {Calm, Variable, Este, ENE, NE, NNE, Norte, NNO, NO, ONO, Oeste, OSO, SO, SSO, Sur, SSE, SE, ESE}... @data 1996,07,01,10,66.2,41.0,40,29.98,Calm,0,Despejado,64.4,66.2,Despejado 1996,07,01,11,66.2,41.0,40,29.98,Calm,0,Despejado,64.4,66.2,Despejado 1996,07,01,12,64.4,48.2,56,29.98,Calm,0,Despejado,62.6,64.4,Despejado 1996,07,01,13,64.4,48.2,56,29.98,Calm,0,Despejado,62.6,64.4,Despejado 1996,07,01,14,62.6,48.2,59,29.98,Calm,0,Despejado,68.0,64.4,Despejado

RESULTADOS Y ANÁLISIS: A continuación mostraremos los distintos resultados y su posterior análisis de las predicciónes realizadas mediante WEKA. Destacamos aquí que se eligió usar un 80% de los datos para entrenar los diversos métodos, y el 20% restante para probar el modelo obtenido. Así mismo, no todos los campos fueron usados en todos los modelos. Esto lo veremos más detalladamente en cada modelo. Predicción de la temperatura a la hora siguiente: Para esta predicción tomamos en cuenta las siguientes variables: Mes Dia Hora Temperatura Humedad Presion Velocidaddelviento TemperaturaHoraSiguiente Mostramos los modelos de predicción usados: LeastMedSq (-S 4 -G 0) : Entre paréntesis aparecen los parámetros elegidos para el modelo en cuestión. Este método consiste en una regresión lineal por mínimo error medio cuadrático. Los valores obtenidos son: Linear Regression Model temperaturahorasiguiente = -0.1746 * mes + -0.0761 * dia + -0.0149 * hora + 1.1981 * temperatura + 0.1938 * humedad + 7.9914 * presion + -0.1086 * velocidaddelviento + -261.7461 === Evaluation on test split === Correlation coefficient 0.9481 Mean absolute error 2.287 Root mean squared error 3.2949 Relative absolute error 22.8006 % Root relative squared error 26.1584 % Total Number of Instances 284 Ignored Class Unknown Instances 13 El error absoluto de predicción es del 22.8% y la media de grados de error es de 2.3º. Obtenemos buenos resultados y es normal, ya que la regresión lineal se vale de datos inmediatamente anteriores para predecir el actual la temperatura no suele experimentar cambios bruscos en periodos cortos de tiempo. El error se puede deber a que la temperatura refleja cambios de las horas nocturnas a la diurnas, y se están cogiendo ambas en algunos casos. Es posible también que en circunstancias como precipitaciones intensas, como pueden ser las llamadas tormentas de verano, hagan que este error aumente, ya que sin previo aviso

cambia la temperatura y las condiciones climatológicas. Aún así, vemos que se obtienen unos resultados razonables. IBk (-K 1 -W 0): Este Algoritmo se basa en los K vecinos más próximos, de modo que función de K obtendremos unos resultados u otros. El mejor resultado se ha obtenido para K=1: === Evaluation on test split === Correlation coefficient 0.9266 Mean absolute error 1.1155 Root mean squared error 3.9484 Relative absolute error 11.1209 % Root relative squared error 31.3466 % Total Number of Instances 284 Ignored Class Unknown Instances 13 Con este método obtenemos mejores resultados, el error absoluto de predicción es del 11.12% y la media de grados de error es de 1.11º, ya que usa sólo como datos de predicción la línea anterior, y casi con seguridad la temperatura anterior es igual a la actual. Este método da mejores aproximaciones que el anterior método, ya que el anterior método sólo hace predicciones lineales, con lo cual se comete siempre un mayor error en modelos que no son lineales, como es la predicción de temperatura. El resto de algoritmos nos daban resultados bastante peores así que no recogemos más resultados dignos de mención. Predicción de la temperatura al día siguiente: Para esta predicción tomamos en cuenta las mismas variables y consideraciones que en el apartado anterior: LeastMedSq (-S 4 -G 0) : === Evaluation on test split === Correlation coefficient 0.9856 Mean absolute error 2.5894 Root mean squared error 4.5687 Relative absolute error 21.3327 % Root relative squared error 28.2149 % Total Number of Instances 280 Ignored Class Unknown Instances 2

El error absoluto de predicción es del 21.33% y la media de grados de error es de 2.6º. Vemos como este modelo, para predicciones de temperatura a 24 horas también da unos resultados bastante aceptables. Esto es debido a que en media, la variación de temperatura con respecto del tiempo, es muy lenta, y de un día al anterior, suele hacer la misma temperatura, con una muy leve tendencía de descenso o ascenso, según la época del año que sea. IBk (-K 1 -W 0): === Evaluation on test split === Correlation coefficient 0.9732 Mean absolute error 1.2011 Root mean squared error 2.5028 Relative absolute error 11.0825 % Root relative squared error 18.8435 % Total Number of Instances 281 Ignored Class Unknown Instances 16 El error absoluto de predicción es del 11.08% y la media de grados de error es de 2.5º. Este algoritmo nos da mejores resultados por las mismas razones expuestas en el apartado anterior. Predicción de las condiciones meteorológicas al día siguiente: El ultimo punto en la predicción consiste en intentar saber cuales serán las condiciones meteorológicas 24 horas después del momento de estudio. La principal diferencia que tiene este punto con respecto a los dos primeros es que ahora no queremos un valor numérico sino que queremos saber una característica que puede tener solo un número finito de valores posibles. Al intentar predecir un conjunto de valores, ha de tener en cuenta un mayor número de variables, y será más susceptible al error Para observar el correcto funcionamiento de nuestro sistema de predicción observaremos la matriz de confusión proporcionada por Weka. En dicha matriz representa los valores estimados frente a los valores reales en una matriz cuadrada. De forma que los aciertos aparecen en la diagonal de la matriz (valor estimado = valor real) y los errores en las restantes posiciones de la misma. Tras probar con muchos sistemas obtenemos que los mejores resultados se obtienen con los siguientes algoritmos: IBk (-K 4 -W 0): Se trata del algoritmo de los K-vecinos mas próximos usando los 4 vecinos que tienen valores de los parámetros conocidos mas parecidos al del caso de estudio:

=== Evaluation on test split === Correctly Classified Instances 1124 66.4303 % Incorrectly Classified Instances 568 33.5697 % Kappa statistic 0.4315 Mean absolute error 0.067 Root mean squared error 0.2009 Relative absolute error 60.928 % Root relative squared error 85.0601 % Total Number of Instances 1692 Ignored Class Unknown Instances 68 === Confusion Matrix === a b c d e f g h i j k <-- classified as 635 123 1 4 1 0 0 0 0 3 0 a = Despejado 257 415 3 22 2 0 0 2 0 7 0 b = Nublado 5 7 10 2 0 0 0 0 0 0 0 c = Bruma 21 58 0 44 0 0 0 0 0 1 1 d = Lluvia 3 3 0 0 1 0 0 0 0 0 0 e = Tormenta 0 0 0 0 0 0 0 0 0 0 0 f = Polvo 0 0 0 0 0 0 0 0 0 0 0 g = Granizo 4 7 0 3 0 0 0 2 0 0 0 h = Nieve 0 0 0 0 0 0 0 0 0 0 0 i = Humo 9 13 2 1 0 0 0 0 0 14 0 j = Niebla 2 0 0 1 0 0 0 0 0 0 3 k = Desconocido Donde observamos un porcentaje de acierto de 66.43% que es un valor bastante malo por lo que debemos mejorar el algoritmo. IBk (-K 1 -W 0): Se trata del algoritmo de los K-vecinos mas próximos usando solo el vecino que tiene valores de los parámetros conocidos mas parecidos al del caso de estudio: === Evaluation on test split === Correctly Classified Instances 1448 85.5792 % Incorrectly Classified Instances 244 14.4208 % Kappa statistic 0.7618 Mean absolute error 0.0267 Root mean squared error 0.1621 Relative absolute error 24.2339 % Root relative squared error 68.6503 % Total Number of Instances 1692 Ignored Class Unknown Instances 68 === Confusion Matrix === a b c d e f g h i j k <-- classified as 692 71 0 4 0 0 0 0 0 0 0 a = Despejado 68 612 1 18 0 0 0 2 0 6 1 b = Nublado 1 4 19 0 0 0 0 0 0 0 0 c = Bruma 10 30 0 81 0 0 0 3 0 1 0 d = Lluvia 0 2 0 0 5 0 0 0 0 0 0 e = Tormenta 0 0 0 0 0 0 0 0 0 0 0 f = Polvo 0 0 0 0 0 0 0 0 0 0 0 g = Granizo 3 3 0 3 0 0 0 7 0 0 0 h = Nieve 0 0 0 0 0 0 0 0 0 0 0 i = Humo 2 9 0 0 0 0 0 0 0 28 0 j = Niebla 2 0 0 0 0 0 0 0 0 0 4 k = Desconocido

Podemos observar que hemos mejorado el porcentaje de acierto hasta un 85.58% que es un valor mucho mejor y bastante aceptable. Observando la matriz de confusión, vemos que la mayor fuente de errores se produce al confundir los dias Despejados con Nublados y viceversa. Esto es así, porque al hacer la agrupación inicial se agruparon días similares en distintas categorias. Así, Parcialmente nublado pasó a Nublado y Parcialmente Despejado pasó a Despejado, habiendo poca diferencia entre parcialmente nublado y parcialmente despejado (la misma diferencia que entre el vaso medio lleno y el vaso medio vacío). Una forma de subsanar este error habría sido crear una categoría más en el preprocesado de datos en el que agrupar los dias parcialmente nublados y parcialmente despejados (en el simil del vaso, como diría un ingeniero: El vaso es dos veces más grande de lo necesario). J48 TREE: Pasamos a probar con algoritmos basados en árboles binarios. De los distintos árboles que nos ofrece la herramienta este es el que nos da los mejores resultados aunque si los observamos no llega a alcanzar los resultados que hemos obtenido con el algoritmo del vecino mas próximo. Nota: No representamos el árbol obtenido debido a su enorme tamaño. === Evaluation on test split === Correctly Classified Instances 1305 77.1277 % Incorrectly Classified Instances 387 22.8723 % Kappa statistic 0.6209 Mean absolute error 0.0467 Root mean squared error 0.1856 Relative absolute error 42.4584 % Root relative squared error 78.5717 % Total Number of Instances 1692 Ignored Class Unknown Instances 68 === Confusion Matrix === a b c d e f g h i j k <-- classified as 636 116 1 11 0 0 0 0 0 2 1 a = Despejado 118 556 3 22 0 0 0 2 0 7 0 b = Nublado 2 6 13 2 0 0 0 0 0 1 0 c = Bruma 11 47 1 62 0 0 0 2 0 2 0 d = Lluvia 0 5 0 0 2 0 0 0 0 0 0 e = Tormenta 0 0 0 0 0 0 0 0 0 0 0 f = Polvo 0 0 0 0 0 0 0 0 0 0 0 g = Granizo 3 3 0 0 0 0 0 10 0 0 0 h = Nieve 0 0 0 0 0 0 0 0 0 0 0 i = Humo 4 11 2 1 0 0 0 0 0 21 0 j = Niebla 1 0 0 0 0 0 0 0 0 0 5 k = Desconocido Donde observamos un porcentaje de acierto próximo al 77%. De nuevo podemos observar, y aquí de una forma más evidente, los fallos existenes que hay cuando los modelos confunden los dias parcialmente nublados y parcialmente despejados, en el punto de error entre dias despejados y dias

nublados. Este es un claro ejemplo de la importancia que tiene hacer una buena agrupación, ya que si se agrupan muchos datos en pocos grupos (como es el caso) se pierde precisión, al no haber una clara distinción en los datos de agrupamiento.