Predicción meteorológica

Documentos relacionados
PREDICCIÓN METEOROLÓGICA

Inteligencia en Redes de Comunicaciones

Análisis de Datos. Práctica de métodos predicción de en WEKA

Evaluación de modelos para la predicción de la Bolsa

Inteligencia en Redes de Comunicaciones

DISEÑO DE UN ANIMADOR DE ALGORITMOS DE BÚSQUEDA Y ORDENACIÓN ( ID2012/055 )

Sistema Operativo Linux

INDICE Parte 1. Visual Basic Capitulo 1. Qué es Visual Basic? Capitulo 22. Mi Primera Aplicación Capitulo 3. Elementos del lenguaje

ANÁLISIS DE DATOS DE LOS ENTORNOS VIRTUALES DE APRENDIZAJE, USANDO TÉCNICAS DE MINERÍA DE DATOS.

Laboratorio de Visión para Robots. Práctica 2

Trabajo final de Ingeniería

Práctica 1: Entorno WEKA de aprendizaje automático y data mining.

MICROSOFT EXCEL 2016 Avanzado

MICROSOFT EXCEL 2010

Explicación didáctica sobre comandos de Linux: Comandos de Inicio

Microsoft Excel 2003 (Completo)

Microsoft Excel 2003 (Completo)

Extensión K2B proyectos para Smart Devices

MANUAL DE USUARIO DEL SISTEMA MATEGE

PREDICCIÓN METEOROLÓGICA

SISTEMA INTEGRAL PARA LA PROYECCIÓN Y DETECCIÓN DE LA PREVENCIÓN DEL DELITO, MEDIANTE MINERÍA DE DATOS.

Una Interfaz Grafo-Matriz

FUNDAMENTOS DE INFORMÁTICA

BOLETÍN METEOROLÓGICO DE GUAYAQUIL Y SUS ALREDEDORES. PRONÓSTICO METEOROLÓGICOO Paraa Guayaquil y sus alrededores

INFORME MENSUAL. Circuito Mintzita 470 Fraccionamiento Manantiales (443)

Teoría de la decisión

Solicitudes MINECO. Manual de usuario de firma electrónica

ANÁLISIS DE LAS PRINCIPALES VULNERABILIDADES DE UN SISTEMA INFORMÁTICO

Brigada Nuevo León Unido

QUÉ ES UNA CLASE JAVA? ATRIBUTOS (PROPIEDADES O CAMPOS), CONSTRUCTOR Y MÉTODOS. (CU00623B)

Qué hacemos en I+D del Servicio Meteorológico Nacional? Yanina García Skabar.

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I)

Estadística Básica. Unidad 2. Actividades

Facultad De Ingeniería Programa de Ingeniería Industrial

La Herramienta Redmine para la Administración de Proyectos

M1. FUNDAMENTOS DE MINERÍA DE DATOS

Contenido. Introducción Usando di Monitoring como un usuario normal Uso de di Monitoring como un operador de entrada de datos...

Nuevo programa de ayuda IEET

Creación y Modificación de Blog

Ministerio de Educación. Base de datos en la Enseñanza. Open Office. Módulo 3: Elementos esenciales del formulario

OPENOFFICE IMPRESS. Creación básica de presentaciones digitales

Manual de operación del usuario

MICROSOFT OFFICE 2010

Fundamentos de Ordenadores. Depurar programas usando Nemiver

La Herramienta Redmine para la Administración de Proyectos

Objetivos. <?echo $telefono;?>

SEGUIMIENTO DE LOS ACUERDOS DE NIVEL DE SERVICIO DE INTERNET. Paloma Sánchez López Subdirección General de Informática TGSS

Bloque temático Marketing turístico Curso Segundo. Tipos asignatura Obligatoria Créditos 6 cr. ECTS Horas de trabajo autónomo

Diseño de sitios web administrables con Joomla 3

Longitud Lado 1 Longitud Lado 2 Perímetro Área. En base a lo anterior, Cuál es la decisión que debe tomar Romualdo?

Importación de Datos

El avance de proyectos con MS Project

Desde los programas más simples escritos en un lenguaje de programación suelen realizar tres tareas en forma secuencial.

SESIÓN 11 DERIVACIÓN DE FUNCIONES TRIGONOMETRICAS INVERSAS

SISTEMAS OPERATIVOS MONOPUESTO 1. CONTENIDOS MÍNIMOS PARA LA EVALUACIÓN POSITIVA

CAPÍTULO 4 RECOPILACIÓN DE DATOS Y CÁLCULO DEL VPN. En el presente capítulo se presenta lo que es la recopilación de los datos que se tomarán

Crear una tabla dinámica

Jornadas sobre Gnu/Linex: Uso de Software Libre en las Administraciones públicas. Sonia Pizarro Redondo

Agosto de 2012 TUTORIAL PSEINT. Servicio Nacional de Aprendizaje SENA Jordan Angulo Canabal

EJEMPLO. Práctica de clustering

Rúbrica evaluativa. SUBPRODUCTO 1: Descripción de artículos

Tema 15: Combinación de clasificadores

Universidad Nacional Autónoma de Nicaragua UNAN-Managua. Curso de Investigación de Operaciones

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

Guía práctica de estudio 03: Algoritmos

1. Descripción del Entorno de Usuario: Donde se detalla la función y utilidad de los distintos iconos, botones y opciones de la aplicación.

Presentación del simulador Simbad. March 27, 2016

FUNCIONES Y FÓRMULAS FUNCIONES

Una base de datos de Access puede estar conformada por varios objetos, los más comunes son los siguientes:

GUÍA DOCENTE DE ESTADÍSTICA EMPRESARIAL I

Evaluación de Modelos para Predicción Meteorológica

1 MANUAL DE USUARIO DE LA MACRO ANÁLISIS ESTADÍSTICO DE SERIES DE CAUDALES

A toda persona que utilice o esté interesado en mejorar su dominio en el paquete ofimático de Microsoft.

4. ANÁLISIS DE LOS DESVÍOS DE LA ENERGÍA EÓLICA 2012

PROYECTO GRUPAL. GUIA DE LA ACTIVIDAD DE TRABAJO COLABORATIVO Muestreo y Estimación de Parámetros METODOLOGÍA. Procedimiento:

CURSO DE EXCEL -INTERMEDIO

Software de control y adquisición de datos SCM4000

EXPRESIONES ALGEBRAICAS EXPRESIONES ALGEBRAICAS Y POLINOMIOS

Tutoriales y Guías de uso con Orientaciones Pedagógicas Entorno Virtual de Aprendizaje Plataforma Blackboard WIKIS

La última versión disponible cuando se redactó este manual era la 5 Beta (versión ), y sobre ella versa este manual.

El ejemplo: Una encuesta de opinión

Firma de Aceptación / Renuncia de Plaza Erasmus

Tema 4. Reducción del ruido

Guía Rapida Herramienta Análisis de Clima

APLICACIONES PRACTICAS CON EXCEL 2016

Informe de Reporte Ejemplo. Análisis de. Aptitudes

PROGRAMACIÓN DE AULA: OBJETIVOS CONTENIDOS MATERIALES y RECURSOS MODULO MATEMATICAS-TECNOLOGÍA

Curso de Outlook Simulación - Familiarizándonos con el entorno de trabajo

Manual de usuario MetaTrader 4 TraderNovo:

REDUCCIÓN DEL RUIDO EN UNA IMAGEN DIGITAL

Expresión Gráfica

Práctica 3: Almacenamiento de modelos con WEKA.

Selección de fuentes de datos y calidad de datos

Sistema de Predicción Numérica del Tiempo a muy corto plazo

Monografía. Por sus raíces griegas ( mono, uno, y graphos, estudio), se refiere al estudio de un

Manual de GeoConcept 6 II Parte

MANUAL DESCARGA DE CALIFICACIONES

Tercera práctica de REGRESIÓN.

Tema 2 Bienestar Térmico y Clima

Ubuntu Server HOW TO : DHCP

Transcripción:

Predicción meteorológica Trabajo hecho por: Roberto García Sanchez Pablo Casas Muñoz

Qué es WEKA? Acrónimo de Waikate Environment for Knowledge Analisis Es un entorno para experimentación de análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes de análisis de datos, principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de datos del usuario.

Cómo se han tratado los datos? En nuestro caso el profesor se ha encargado de proporcionarnos un fichero procesado en el que se contemplan todos los datos en orden, hora a hora, desde el primer día hasta el último. El fichero "lemd.csv" proporcionado contiene estos datos, con el formato de 1 registro por línea (189.936 registros), correspondiente a datos cada media hora, con campos separados por comas, con valores nulos marcados con?, y comenzando por AÑO, MES, DIA, HORA donde HORA va de 0 (12:00AM) a 47 (11:30 PM).

Cómo se han tratado los datos?(ii) Despues se han hecho programas de concatenación(en Java) para añadir en cada caso, las variables que eran necesarias para la predicción a realizar. En el caso de la temperatura a una hora, a veinticuatro horas y condiciones meteorologicas se han añadido las condiciones de media hora antes,una hora antes y una hora y media antes con sus registros completos que serían posteriormente filtradas por distintos mecanismos.

Cómo se han tratado los datos?(iii) Para la realización del filtrado lo que se ha hecho es ó bien usar el comando de la shell de linux cut que permite eliminar registros(columnas) que estan separados por comas o bien usar el filtro remove que proporciona Weka y que permite eliminar aquellas variables que no son de importancia para la predicción

Cómo se han tratado los datos?(iv) Cómo saber que variables eliminar ha sido una de las cuestiones más dificiles de la practica, para ello se han utilizado los gráficos que permiten visualizar la relacion entre variables por medio de Weka. En función de dichos graficos y un poco nuestro sentido de selección se han escogido las variables más importantes a nuestro juicio.

Cómo se han tratado los datos? Previo paso, para la visualización de los datos en Weka hemos tenido que realizar un fichero con las variables que fuese entendible por Weka. La estrucutura general de los ficheros entendibles por Weka son de la siguiente forma:

Formato entendible por Weka (formato arff) % comentarios @relation NOMBRE_RELACION @attribute r1 real @attribute r2 real @attribute i1 integer @attribute i2 integer @attribute s1 {v1_s1, v2_s1,, vn_s1} @attribute s2 {v1_s1, v2_s1,, vn_s1} @data DATOS Los atributos pueden ser principalmente de dos tipos: numéricos de tipo real o entero (indicado con la palabra real o integer tras el nombre del atributo), y simbólicos, en cuyo caso se especifican los valores posibles que puede tomar entre llaves.

Adecuación del archivo a formato arff Para las condiciones se han tenido que sustituir los espacios en blanco por guiones bajos,_, porque sino Weka el fichero lo entendía como otro token(cada palabra separada por espacios en blanco) y el fichero no se cargaba en Weka correctamente. Los valores desconocidos para Weka como son 9999.0,-9999,N/A,-, y los datos vacíos han sido sustituidos por el valor desconocido que entiende la herramienta que es?.

Variables eleminidas para las predicciones Para las predicciones las variables que hemos eliminado han sido los eventos porque en muchos de los casos esta variable estaba vacía y no daba información, la precipitación y la velocidad de ráfagas del viento por la misma razón, ya que en el caso de la precipitación aparecía el valor N\A y en el de velocidad de ráfagas del viento venía un -, por lo que se ha considerado como falta de dato

Selección de líneas de código Para el uso de Weka hemos tenido que trabajar con archivos de menos líneas para poder hacer operable el programa Weka, ya que en caso contrario si usábamos toda la información disponible obteníamos problemas derivados con la sobrecarga de datos y nos salían errores de escasez de memoria para poder ejecutar los algoritmos.la selección de las líneas se ha hecho de forma aleatoria y de forma uniforme en todo el fichero incial con todos los registros.

Qué algoritmos hemos utilizado? Decision Table(perteneciente a rules) REPTree(perteneciente a trees) Kstar(perteneciente a lazy) IB1(perteneciente a lazy) Regresion lineal(perteneciente a functions) Decision Stump(perteneciente a trees) OneR(perteneciente a rules) SMO(perteneciente a functions) SMOReg(perteneciente a functions)

Resultados obtenidos (I) Para la predicción de la temperatura a una hora posterior Relative hemos Mean obtenido: Algoritm o Root Mean Squared Error Absolute Error(%) Absolute Error Decision Table 4.1705 22.8365 3.0151 RepTree 3.9841 21.548 2.845 Kstar 3.473 19.9362 2.6322 LeastMedSq 3.7665 18.9094 2.4966 SMOreg 4.3007 18.1676 2.3987 IB1 5.8299 31.0165 4.0951 IBK(K=1) 5.8299 31.0165 4.0951 Regresion Lineal 5.7214 20.5757 2.7166 Decision Stump 9.3118 57.9357 7.6493

Resultados obtenidos(ii) Desde el punto de vista del mean absolute error el mejor algoritmo es el de SMOreg

Resultados obtenidos(iii) Para la predicción a veinticuatro horas los resultados obtenidos han sido: Algoritmo Root Mean Squared Error Relative Absolute Error(%) Decision Table 18.8325 46.5582 6.1871 RepTree 18.0967 40.5375 5.387 Kstar 17.7841 40.1686 5.338 LeastMedSq 18.3754 37.6777 5.007 M5P 17.5404 36.4379 4.8409 Mean Absolute Error IB1 21.6829 82.1117 10.9118 IB5 19.6625 63.9462 8.4978 Regresion Lineal 18.0609 39.7511 5.2825 Decision Stump 20.1665 65.0802 8.6485

Resultados obtenidos (IV) En este caso el mejor método encontrado es el M5P que es el que menor mean absolute error tiene.

Resultados obtenidos(v) Para la predicción de las condiciones meteorológicas obtenemos la siguiente tabla de resultados Algoritmo Root Mean Squared Error Relative Absolute Error(%) Mean Absolute Error Tasa de aciertos Decision Table 0.1244 910.177 0.0299 44.0171 RepTree 0.1308 913.677 0.03 41.2393 Kstar 0.1437 874.079 0.0287 37.2863 SMO 0.1419 123.9237 0.0407 44.9786 LWL 0.1235 917.871 0.0302 42.6282 IB1 0.17 879.445 0.0289 33.547 IB5 0.1326 894.628 0.0294 39.1026 OneR 0.1578 75.785 0.0249 41.1325 Decision Stump 0.1237 929.109 0.0305 42.735

Resultados obtenidos(vi) En este caso el método OneR es el que mejor mean absolute error tiene. En este caso también se añade una tasa de aciertos, el método que mejor tasa de aciertos tiene es el SMO.

Final Fin de la presentación