PREDICCIÓN METEOROLÓGICA

Transcripción

1 PREDICCIÓN METEOROLÓGICA PRÁCTICA FINAL INTELIGENCIA EN REDES DE COMUNICAIONES Roberto Díaz Morales Jaime Mayor Berzal

2 Índice Introducción Tratamiento de datos Predicciones Cuadro con errores Conclusiones Código para traducir el código METAR

3 Introducción Para desarrollar el sistema real de predicción meteorológica, se necesita algún tipo de información que nos ayude a lograr el objetivo. Dicha información es la información METAR (Meteorological Actual Report) que es preciso y fácil de leer. Dicho código proporciona información muy valiosa que utilizan líneas aéreas y organizaciones gubernamentales de todo el mundo. La forma de presentación de dichos datos es la siguiente: HoraCET Temperatura (grados Fahrenheit) Punto de rocío (grados Fahrenheit) Humedad Presión (pulgadas) Visibilidad Dirección del viento Velocidad del viento (millas por hora) Velocidad de ráfagas de viento (millas por hora) Precipitación Eventos Condiciones En cada Fichero con código METAR se tiene la información de un día. No se han utilizado todos los datos de todos los días ni de todas las horas, ya que mucha de esta información no estaba disponible o simplemente había tal cantidad de ficheros que hacían muy difícil el análisis de todos los datos. Los tres objetivos de la predicción son: Predicción de temperatura a 1 hora Predicción de temperatura a 24 horas Predicción de condiciones meteorológicas (Despejado, Parcialmente Nublado, etc) a 24 horas Para la realización de esta práctica se han obtenido datos desde Julio de 1996 hasta Octubre de 2004 de dos aeropuertos de Madrid: Barajas y Cuatro Vientos. A dichos datos se les ha aplicado un tratamiento de datos que se comentará en la siguiente sección.

4 Tratamiento de datos Con el fin de poder utilizar los datos METAR, se tiene que proceder a un procesamiento de datos. Dicho procesamiento fue realizado por un programa implementado por nosotros en Java. Dicho programa saca toda la información del código METAR y lo escribe en formato arff para que pueda ser utilizado por Weka. Los datos fueron tratados de muy diversas maneras y se escribió una notación para cada tipo de previsión. Todos los atributos de las tres previsiones son iguales a excepción del último y se escriben en el siguiente orden: 1. Día Este valor puede tomar valores desde 1 a 366, en el caso de que el año sea bisiesto. La razón de utilizar esta notación y no otra como puede ser día del mes y el mes es que con una numeración global de todo el año puede ser que Weka saque relaciones y mejores resultados y sobre todo usar solo un atributo en vez de dos, con lo que la carga computacional se reduce. 2. HoraCET La Hora toma valores desde 0 hasta 23.5 horas. Se ha modificado la presentación de los datos METAR que aparecían en medidas sexagesimales y AM y PM, para que de esta manera pueda ser más fácil relacionar una hora con su hora posterior para la predicción de 1 hora más tarde. 3. TemperaturaF Esta temperatura está en grados Fahrenheit. Había muchos valores incorrectos debido a los aparatos de medida que podía estropearse o funcionar mal dando. Por lo que se optó sólo dar por validos los valores que estuviesen por encima de 70 y por debajo de 140 que son unos valores más aceptables. 4. Nivel_de_Rocío Muchos de estos valores eran claramente erróneos, como la aparición del valor Por lo que después de ver la distribución total de estos datos y eliminando el valor 9999 se comprobó que la mayoría de los datos estaban en una franja muy delimitada por lo que se limitó los valores del rocío al rango 70 a 65 (el índice inferior podría ser mucho más grande pero se dejó para ver si se conseguían mejores resultados). 5. Humedad Estos son otros datos con muchos errores. Muchos valores no estaban disponibles (N/A) o eran totalmente erróneos (-9999). Además hay que añadir que para el año 2004 aparecen algunos valores expresados en porcentaje, con lo que no pueden usarse con el resto de datos de Humedad.

5 6. PresionIn Estos datos se tratan ajustándolos a un rango de valores normal, ya que ciertos valores eran muy exagerados o incluso totalmente erróneos. Se pusieron como desconocidos los valores no disponibles (N/A), el valor incorrecto 9999 y los valores fuera del rango que consideramos valores normales (entre 15 y 45 pulgadas). 7. Visibilidad Se quitaron los ya mencionados errores incorrectos como el 9999 y se consideraron correctos los valores que estaban en el rango de 70 a 140(el índice inferior podría ser mucho más grande pero se dejó para ver si se conseguían mejores resultados). 8. Dirección del viento Este atributo se transformó en dirección en grados y no en el nombre de las direcciones. Los valores METAR encontrados eran Este, ENE, NE, NNE, Norte, NNO, NO, ONO, Oeste, OSO, SO, SSO, Sur, SSE, SE, ESE, Calm y Variable, estos dos último se tomaban como desconocidos ya que no se podía determinar la dirección. Los demás posibles valores dividían a la circunferencia de 360 grados en 12 direcciones siendo el este 0 y 360º y el resto son valores que se van incrementando 22.5º. 9. Velocidad_del viento Estos valores son tratados de manera que cuando aparecen valores no numéricos como Calm (0, no hay velocidad) no produzcan error. También se quita el valor erróneo 9999 y como pueden aparecer valores excesivos (grandes ventiscas) que pueden perjudicar el problema, se limita la velocidad al rango entre 0 y 78 millas por hora. 10. Ráfaga El tratamiento de los datos es muy similar al caso de la velocidad del viento, pero la principal diferencia es que la cantidad de este tipo de datos es mucho menor. 11. Hechos Este atributo indica un hecho concreto que sucede, como que llueva o nieve. Es distinto al atributo condición: hay muchos menos tipos de hechos y además hay gran cantidad de valores desconocidos. Los hechos utilizados son Lluvia, Tormenta, Lluvia-Tormenta, Lluvia-Nieve, Nieve, Bruma, Tornado, Bruma- Lluvia, Granizo-Tormenta, Lluvia-Granizo-Tormenta, Granizo y Nieve-Granizo.

6 12. Condiciones En todos los archivos se han encontrado un número muy cercano a 50 posibles condiciones. Para simplificar el modelo, se ha reducido el número de condiciones tomando las siguientes simplificaciones: Despejado, Nubes Dispersas => Despejado Nube en Embudo, Parcialmente Nublado, Nublado, Altamente Nublado => Nublado Bancos de Bruma, Bruma Ligera, Bruma Leve, Bruma, Bruma Helada Leve => Bruma Lluvias, Llovizna Leve, Llovizna, Llovizna Abundante, Llovizna Helada Leve, Lluvia Helada Leve, Lluvia Leve, Lluvia, Abundantes Lluvias, Fuertes Lluvias => Lluvia Tormenta Leve, Tormentas Leves y Lluvia, Tormenta, Tormentas y Lluvia, Fuertes Tormentas y Lluvia, Tormentas Leves con Granizo, Tormentas con Granizo => Tormenta Arena, Remolino de Polvo, Nubes de Polvo, Nubes Bajas de Polvo =>Nubes-de-Polvo Leve Caída de Granizo Pequeño, Caídas de Granizo, Granizo Pequeño, Granizo Leve => Granizo Partículas de Nieve, Caídas de Nieve, Nevada Leve, Nieve, Abundante Nieve => Nieve Niebla, Abundante Niebla, Niebla Leve, Neblina => Niebla Humo => Humo Estas agrupaciones no son casuales. El hecho de que se agrupen tanto es que muchas condiciones aparecen muy poco, incluso sólo 1 vez. El hecho de que por ejemplo se agrupen Despejado y Nubes dispersas es que la diferenciación entre ambos suceso y a su vez la distinción de Parcialmente Nublado es muy difícil ya que varían muy poco las condiciones. Por eso se trata de conseguir un menor error reduciendo el número de condiciones. 13. Temperatura de una hora antes Está variable fue introducida para obtener una mejor predicción de la temperatura, ya que es muy probable que si la temperatura de antes y la de ahora son iguales la de la siguiente hora sería muy parecida. No se introdujeron más temperaturas de horas más atrasadas porque no consideramos que mejoraran en demasía el resultado. Además, haciendo un análisis de resultados esta variable no aparecía como una de las variables más determinantes. 14. Temperatura del día anterior a la misma hora Con esta variable pensamos que serviría tanto para estimar la temperatura dentro de una hora como la del día siguiente, ya que tal vez se podría ver una relación entre la hora del día anterior y la del actual y con ello sacar la temperatura del día siguiente.

7 15. Condiciones del día anterior a la misma hora La justificación de la inclusión es similar a la de la variable anterior, conseguir averiguar la posible relación entre las condiciones del día anterior y la del actual, para extrapolar y obtener las del siguiente. Hay un atributo número 16 que es distinto dependiendo de la predicción que queramos hacer: 1) Temperatura en 1 hora Se añade una columna que indica la temperatura en la hora siguiente. Esta será la variable que queremos utilizar para predecir el tiempo al cabo de 1 hora. Para realizar dicha predicción, se eliminaran todos los datos que no conozcan temperatura actual o temperatura dentro de una hora. 2) Temperatura en 24 hora Se añade una columna que indica la temperatura que habrá el día siguiente a la misma hora. Esta será la variable que queremos utilizar para predecir el tiempo al cabo de 24 horas. Para realizar dicha predicción, se eliminaran todos los datos que no conozcan temperatura actual o temperatura del día siguiente a la misma hora. 3) Condiciones en 24 horas Se añade una columna con las condiciones del día siguiente a la misma hora. Esta será la variable que queremos utilizar para predecir las condiciones al cabo de 24 horas. Para realizar dicha predicción, se eliminaran todos los datos que no conozcan condición actual o la condición del día siguiente a la misma hora. Este atributo aparecerá en cada uno de los 3 ficheros que se generan, según que se quiere predecir, temperatura de la hora siguiente, del día siguiente o condiciones del día siguiente. Además de este tratamiento, los datos se han muestreado de tal forma que para el conjunto de entrenamiento (ficheros desde 1996 a 2003) se obtuvieron alrededor de 7000 instancias y para el de Test (2004) unas 700. es decir, el 10% del conjunto de entrenamiento. Esto se ha hecho ya que si el fichero es demasiado grande no hay suficiente memoria para poder utilizar la herramienta Weka correctamente. No se ha descartado ninguna variable ya que al aplicar distintos algoritmos de selección de atributos obtuvimos resultados distintos y preferimos tener un poco de redundancia a quizá perder información. De todas formas realizamos unos análisis de atributos y obtuvimos los siguientes resultados:

8 Para las condiciones del día siguiente con CfsSubsetEval y como método de búsqueda BestFirst o GreedyStepwise se obtuvieron que los atributos más importantes eran: día Humedad PresionIn Visibilidad_MPH Velocidad_vientoMPH Conditions TemperaturaF1HAntes Conditions1DAntes Para estimar la temperatura de la hora siguiente y la del día siguiente usando los mismos métodos, obtuvimos que la variable determinante era la temperatura actual.

9 Predicciones Predicción de las condiciones a 24 horas Para predecir las condiciones hemos usado todos las clasificadores que nos permitía usar Weka. Para ello hemos aplicado uno o varios algoritmos de cada tipo para ver con cuales obteníamos mejores resultados. Rules Este es el clasificador del que más algoritmos hemos probado. Este tipo de clasificadores crea un conjunto de reglas a partir de las cuales tratan de predecir cuáles serán las condiciones del día siguiente. Los resultados varían según que algoritmo se utilice. A continuación se muestran los distintos algoritmos: Conjunctive Rule Esta clase implementa un algoritmo crea una regla conjuntiva sencilla. Dicha regla consiste en realizar la conjunción (AND) de los antecedentes del atributo a predecir mediante una clasificación (si hubiera sido numérica la variable hubiera sido una regresión) El resumen del resultado se muestra a continuación Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % En estos resultados se puede observar que de las 713 correspondientes al año 2004 del fichero de Test, 441 han sido correctamente clasificadas y 272 no lo han sido, lo que nos da un error ERROR #aciertos 272 = = 0, ,14866% #aciertos + #fallos 713 == Como se puede ver en la matriz de confusión, el principal error aparece cuando intenta decidir si está nublado o está despejado.

10 === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo Decisión Table Crea una tabla de decisión para clasificar las condiciones. Los resultados son los siguientes: Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 711 A partir de los resultados se obtiene el siguiente error: ERROR #aciertos 260 = = 0, ,5682 % #aciertos + #fallos 711 == La matriz de confusión, como en el caso anterior confunde en gran medida la condición nublado y despejado. El error en este caso es menor porque diferencia mucho mejor la condición despejado con respecto a nublado, pero no así nublado de despejado. Además el número de sucesos despejado es mucho mayor por lo que el algoritmo ante la duda opta por el que más instancias hay. === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo

11 Part Crea una lista de decisión PART. Utiliza divide y vencerás. Construye un árbol de decisión parcial en cada iteración y convierte la mejor hoja de este árbol en regla. Los resultados son Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Con los que se obtiene el error ERROR #aciertos 256 = = 0,359 35,9% #aciertos + #fallos 713 == Observando el error se ve que es menor a todos los demás porque aunque confunde más despejados que con el algoritmo anterior acierta más nublados, es decir aunque confunde más el caso despejado, sólo confunde unos pocos, clasifica como nublados casi el doble más que antes. === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo Para este tipo de clasificadores no se comentan más algoritmos, sí se destaca que el uso del algoritmo ZeroR no sería adecuado si no fuese Madrid una zona donde la mayor parte del año está despejado, ya que este algoritmo mira cual es la media o la moda de los resultados y toma como predicción ese caso. Para las condiciones clasifica toda instancia como despejado con lo que al haber mayor numero de despejados da que el error es menor que los tres algoritmos anteriores ya que acierta todos los casos despejados y falla todos los demás. El error de este algoritmo es #aciertos 236 ERROR = = 0,331 == 33,1% #aciertos + #fallos 713

12 Trees Se crean árboles de decisión para predecir qué condición habrá al día siguiente. Los nodos intermedios representan atributos de los ejemplos presentados, las ramas sus posibles valores y las hojas los resultados. Hay que apuntar que debido al gran tamaño de estos árboles (ocuparían varias hojas) sólo se presentaran los que sean más pequeños y los demás es podrán observar en los ficheros resultado entregados junto con esta memoria. Se han usado tres algoritmos de este tipo J48 Este algoritmo es la implementación de Weka al algoritmo C.45, que a su vez es una extensión del algoritmo ID3. Puede rescribirse en formas de reglas IF- THEN. Los resultados son los siguientes Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 711 El error es ERROR #aciertos 252 = = 0, ,44% #aciertos + #fallos 711 == Fijándonos en la matriz de confusión se puede observar que identifica la mayoría de los casos despejados aunque sigue fallando bastante en los casos nublados. === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo

13 DecisionStump Este algoritmo se basa en coger un atributo y con el elegir el resultado. Los datos desconocidos se consideran otra situación. En este caso sólo se fija en el atributo Visibilidad. Según un valor de esta decide si es nublado o despejado (las 2 condiciones mayoritarias) Decision Stump Classifications Visibilidad_MPH <= 6.3 : Nublado Visibilidad_MPH > 6.3 : Despejado Visibilidad_MPH is missing : Despejado Si miramos los resultados se obtienen que son los de menor error. Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 711 El error obtenido es 31,5% que es el menor obtenido por el hecho de que trata de diferenciar los dos tipos de sucesos que más ejemplos tienen ERROR #aciertos 224 = = 0,315 31,5% #aciertos + #fallos 711 == === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo Al igual de antes se vuelve a apuntar que otro algoritmo, User Classifier, tiene un error muy bajo gracias al gran numero de condiciones despejado que hay entre las instancias.

14 Meta Muchos de estos algoritmos dependen del clasificador que se utilicen. Si se utiliza un clasificador que de buenos resultados, el algoritmo de este tipo también dará buenos resultados. De este tipo de algoritmos sólo se comentará se comentara el Filtered Classifier usando Decisión Table adjuntando los demás modelos y resultados probados. === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 711 ERROR #aciertos 243 = = 0, ,2% #aciertos + #fallos 711 == === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo Como se puede ver los resultados son ligeramente mejores que con el clasificador Decisión Table.

15 Lazy Los algoritmos utilizados son los que se basan en los K vecinos más próximos. Se ha jugado con el número de vecinos hasta obtener la mejor solución. La mejor solución que hemos obtenido ha sido para K=17 y distancia 1/w (no se utilizó K mayores por el gran tiempo que tardaban en ejecutarse) Los resultados obtenidos son los que se muestran a continuación: Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 711 === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo Se puede observar de la matriz de confusión que sólo identifica despejado y nublados identificando gran numero de ellos. ERROR #aciertos 250 = = 0, ,16% #aciertos + #fallos 711 == Functions Dentro de este tipo se encuentran los métodos para hacer regresiones lineales (que servirán para el caso de predecir temperatura, no en el de predecir condiciones) y redes de neuronas como pueden ser el perceptron y sus variantes y las redes de neuronas base radial. Estas últimas han sido elegidas porque son más rápidas que las otras y por que son más fácilmente configurables al sólo la capa oculta. Pero hay que tener cuidado con el número de neuronas elegido ya que la red puede sobreaprender y el error sería muy elevado ya que la red se habría aprendido los sucesos de entrenamiento y no sería capaz de generalizar que es nuestro objetivo.

16 Perceptron Multicapa El perceptron multicapa es una red neuronal con varias capas ocultas de neuronas que utiliza como función de aprendizaje el backpropagation o propagación hacia atrás. Es muy útil para resolución de problemas lineales y para resolver problemas de más complejidad lo que hay que hacer es aumentar su número de neuronas y de capas (sin que llegue a sobreaprender) Los resultados son: Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 711 El error es el siguiente: #aciertos 252 ERROR = = 0,35443 == 35,443% #aciertos + #fallos 711 === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo Sólo discrimina entre despejado y nublado porque no hay el número suficiente de ocurrencias de las otras condiciones que permiten que la red aprenda esa condición. Red de Base Radial Como se ha comentado antes estas redes son muy rápidas y se usan para resolver problemas no lineales. Como no sabemos si la relación de la variable condiciones del día después con el resto de variables es lineal aplicamos está red. Hemos utilizado 7 clústeres. Los resultados son:

17 === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 711 === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo El error es ERROR #aciertos 227 = = 0, ,9268% #aciertos + #fallos 711 == Se puede observar que sólo discrimina entre nublado y despejado, pero casi todo es clasificado como despejado, de ahí que el error sea bajo. Redes bayesianas El uso de estas redes es adecuado ya que estas redes son grafos acíclicos y cada nodo representa una variable, como puede ser la temperatura, la humedad Los arcos que unen variables indican influencia causal mientras que la ausencia de ellos indica independencia a priori (puede ser que se supongan independientes y más tarde se comprueben que no lo son y haya que definir un arco) Son redes probabilísticas con lo que va a afectar la ocurrencia de las condiciones. Si no conocen el dato de algún nodo lo estiman con distintos algoritmos. Red Bayesiana Es una red bayesiana normal. Los resultados se muestran a continuación: === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 711

18 === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo El error es ERROR #aciertos 273 = = 0, ,39% #aciertos + #fallos 711 == Como se observa en la matriz de confusión, el error es muy parecido a los anteriores porque casi todas las instancias están clasificadas como despejadas, aunque al contrario que en otros casos hay más condiciones que sólo las dos mayoritarias (aunque las clasifique mal) NaiveBayesian Esta es una red bayesiana más simple. Coge los estimadores basándose en el análisis del conjunto de entrenamiento. === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic K&B Relative Info Score % K&B Information Score bits 0.17 bits/instance Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 711 === Confusion Matrix === a b c d e f g h i j <-- classified as a = Lluvia b = Tormenta c = Despejado d = Bruma e = Nublado f = Humo g = Granizo h = Nieve i = Niebla j = Nubes-de-Polvo El error es muy malo ya que no se limita como anteriores algoritmos a identificar solamente nublado y despejado sino también otras condiciones como es la lluvia. El problema es que lo hace mal y comete muchos más errores.

19 Predicción de la temperatura de la hora siguiente y del día siguiente Para predecir la temperatura hemos utilizado casi la totalidad de métodos que Weka nos permitía. Se han utilizado varios algoritmos de cada tipo, excepto de las redes Bayesianas ya que estas se utilizan para clasificar y no para predecir un número real, para ver con cuales obteníamos mejores resultados. Functions Dentro de este tipo se encuentran los métodos para hacer regresiones lineales (que servirán para el caso de predecir temperatura, no en el de predecir condiciones) y redes de neuronas como pueden ser el perceptron y sus variantes y las redes de neuronas base radial. Estas últimas han sido elegidas porque son más rápidas que las otras y por que son más fácilmente configurables al sólo la capa oculta. Pero hay que tener cuidado con el número de neuronas elegido ya que la red puede sobreaprender y el error sería muy elevado ya que la red se habría aprendido los sucesos de entrenamiento y no sería capaz de generalizar que es nuestro objetivo. LeastMedSq Implementa una regresión lineal least median squared para calcular los coeficientes de la función, el resumen del resultado es el siguiente: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 2,742 % Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 5,870 % Linear regresion Implementa una regresión lineal para calcular los coeficientes de la función, el resumen del resultado es el siguiente:

20 Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 2,742 % Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 5,807 % Multilayer Perceptron Es una red neuronal que usa propagación hacia atrás para entrenar, el resumen del resultado es el siguiente: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 2,74 % Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 5,87 %

21 3.2 Lazy: Los algoritmos utilizados son los que se basan en los K vecinos más próximos. IB1 Clasifica por el método del vecino más cercano, el resumen del resultado es el siguiente: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 13,93 % Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 13,68 % IBK Clasifica por el método de los k vecinos más cercanos, el resumen del resultado es el siguiente, por ejemplo, para 67 vecinos más próximos hemos obtenido estos resultados: Correlation coefficient Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 734 ERROR = media( abs(tpredicha-treal)/treal )*100 = 6,23%

22 -Para predecir la temperatura del día siguiente: KSTAR Correlation coefficient Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 7,69% Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 3,69% Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 7,43% LWL Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 11,64%

23 Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 11,99% META: Muchos de estos algoritmos dependen del clasificador que se utilicen. Si se utiliza un clasificador que de buenos resultados, el algoritmo de este tipo también dará buenos resultados. Additive Regresión: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 5,84% Correlation coefficient Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 7,34%

24 Attribute Selected Clasifier: Correlation coefficient 0 Class complexity order bits bits/instance Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 21,71% Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 22,06% Bagging: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 2,33% Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 5,40%

25 CV Parameter Selection: Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 21,71% Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 22,06% Filtered Classifier: Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 21,70% Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 22,07%

26 Multischeme: Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 21,71% Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 22,07% Regresion by Discretization: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 3,80% Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 6,95%

27 Stacking: Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 21,71% Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 22,06% Vote: Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 21,71% Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 22,06%

28 TREES: Se crean árboles de decisión para predecir qué condición habrá al día siguiente. Los nodos intermedios representan atributos de los ejemplos presentados, las ramas sus posibles valores y las hojas los resultados. Hay que apuntar que debido al gran tamaño de estos árboles (ocuparían varias hojas) sólo se presentaran los que sean más pequeños y los demás es podrán observar en los ficheros resultado entregados junto con esta memoria. Se han usado tres algoritmos de este tipo Decision Stump: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 12,51% Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % M5P: ERROR = media( abs(tpredicha-treal)/treal )*100 = 13,09% Con este árbol se han obtenido buenos resultados Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 2,33%

29 Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 5,79% La forma de este árbol para calcular la temperatura del día siguiente sería: REP Tree: Consiste en un árbol que aprenden mediante decisión rápida, el resumen de resultados es el siguiente: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 2,55%

30 RULES: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 5,96% Este tipo de clasificadores crea un conjunto de reglas a partir de las cuales tratan de predecir cual será la temperatura. Los resultados varían según que algoritmo se utilice. A continuación se muestran los distintos algoritmos: ZeroR: Consiste simplemente en un decisor 0-R, el resultado ha sido el siguiente: Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 21,71% Correlation coefficient 0 Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error 100 % Root relative squared error 100 % ERROR = media( abs(tpredicha-treal)/treal )*100 = 22,06%

31 M5 Rules: Genera una lista de decisión para problemas de regresión usando separación y conquista. El resumen de los resultados es el siguiente: Correlation coefficient Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 2,31% Correlation coefficient Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Decision Table: ERROR = media( abs(tpredicha-treal)/treal )*100 = 5,75% Crea una tabla de decisión para clasificar las condiciones. Los resultados son los siguientes: Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 3,64% Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 6,43%

32 Conjunctive Rule: Esta clase implementa un algoritmo crea una regla conjuntiva sencilla. Dicha regla consiste en realizar la conjunción (AND) de los antecedentes del atributo a predecir mediante una regresión. El resumen del resultado se muestra a continuación Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 12,51% Correlation coefficient Class complexity scheme bits bits/instance Complexity improvement (Sf) bits bits/instance Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % ERROR = media( abs(tpredicha-treal)/treal )*100 = 12,90%

33 Cuadro con errores obtenidos Temperaturas Función 1 hora 24 horas LeastMedSq 2,74 5,87% Linear Regresion 2,74 5,87% Multilayer Perceptron 2,74 5,87% IB1 13,93 13,68% IBK 6,23 7,69% KStar 3,69 7,43% LWL 11,64 11,99% Additive Regresion 5,84 7,34% Attribute Selecte Clasifier 21,71 22,06% Baggins 2,33 5,4% CVParameter selection 21,71 22,06% Filtered Clasifier 21,71 22,06% Multischeme 21,71 22,06% Regresion by discretization 3,80 6,95% Staking 21,71 22,06% Vote 21,71 22,06% Decisión Stump 12,51 13,09% M5P 2,33 5,79% REP Tree 2,55 5,96% ZeroR 21,71 22,06% M5 Rules 2,31 5,75% Decisión Table 3,64 6,43% Conjunctive Rule 12,51 12,90% Condiciones: Conjuntive Rule 38,14% Tabla de Decisión 36,56% Part 35,90% ZeroR 33,1% J48 35,443% Decisión Stump 31,5% Filtered Classifier (con decision table) 34,17% IBK (K=7) 35,16% Perceptron multicapa 35,443% Red de Base Radial 31,92% Red Bayesiana 38,39% Naive Bayesian 40,08%