ESTUDIO DE CORRELACIONES DE RESULTADOS FUTBOLÍSTICOS DE REAL MADRID C.de F.

Documentos relacionados
Automatización de la Evaluación del Impacto Social en Proyectos de Inversión Publica

Predicción meteorológica

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -

Práctica 2: Utilización de WEKA desde la línea de comandos.

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

ESTADISTICA DESCRIPTIVA. Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos.

La forma en que se determina el Elo de un jugador fue ideada para el ajedrez en 1959, por el profesor de matemáticas, el Dr. Élő Árpád.

Aprendizaje Automatizado

Estadística. Análisis de datos.

Regresión ponderada y falta de ajuste

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.

Control Estadístico de Procesos Capacidad de Proceso

Reglas de Asociación en Weka

ANÁLISIS DE DATOS. Jesús García Herrero

Primero definiré lo que es un gráfico o diagrama en estadística

Tabla 7: Ejemplo matriz CaractE

Teoría del muestreo. Tipos de muestras

Práctica 5: Clasificación con número variable de ejemplos.

Econometría II Grado en finanzas y contabilidad

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

Qué es una regresión lineal?

Técnicas de Minería de Datos

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

CLASES DE ESTADÍSTICA II ESPERANZA ABSOLUTA

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL

Distribución normal estándar. Juan José Hernández Ocaña

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Práctica 4. Contraste de hipótesis

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN

Inteligencia en Redes de Comunicaciones

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Predicción de resultados de Fútbol

La eficiencia de los programas

Ms. C. Marco Vinicio Rodríguez

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

MINERIA DE DATOS: ANÁLISIS DE DATOS ELECTORALES

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

PROBABILIDAD Y ESTADÍSTICA

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Aprendizaje Automático. Objetivos. Funciona? Notas

LA ESTRATEGIA FACTOR DETERMINANTE DEL RESULTADO EN EL FÚTBOL-SALA

BÚSQUEDA INTELIGENTE BASADA EN METAHEURÍSTICAS

Capítulo 8. Análisis Discriminante

Tema 13: Contrastes No Paramétricos

ESTADÍSTICA UNIDIMENSIONAL

Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas

Hasta ahora hemos visto los proyectos de inversión como flujos de caja conocidos y ciertos o conociendo diversos valores del mismo en términos de

2.1. Es un juego de información perfecta o imperfecta? Fundamente su respuesta.

MEDIDAS DE VARIABILIDAD

Desafío 135. Mayor o Menor (Superpanzeta)

Unidad III: Estadística descriptiva

Capítulo 6: EVALUACIÓN Y COMPARACIÓN DE MÉTODOS

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Identificación mediante el método de los mínimos cuadrados

Búsqueda en línea y Búsqueda multiagente

Teniendo en cuenta los valores de las variables se tienen 3 tipos de modelos lineales enteros:

Estimación de Parámetros

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Estadística ESTADÍSTICA

Tema 2. Regresión Lineal

Tercera práctica de REGRESIÓN.

Fase 2. Estudio de mercado: ESTADÍSTICA

ALUMNO: MARCOS PINA UTRILLA PROFESOR: Fernando Gimeno Marco CURSO:

1. Ejercicios. 2 a parte

ESTABILIZADOR1X2 BETA - JUNIO 2017

Sobreajuste - Overfitting

Algoritmos genéticos

Posibles trabajos HIA

Emparejamientos aplicados a la elaboración de calendarios deportivos (II/II)

VARIABLES ALEATORIAS INTRODUCCIÓN

Julio Deride Silva. 4 de junio de 2010

Selección de atributos

b) Si decides elegir el trabajo que con más probabilidad te permita ganar más de 900 euros al mes, qué trabajo debes elegir?

Tema: Análisis de valores faltantes con SPSS

Procedimiento para crear un curso en Moodle Editar un curso en Moodle

Reconocimiento de Patrones

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

1 CÁLCULO DE PROBABILIDADES

Antigüedad y Desempeño Laboral en la Muestra General

Modelos Estadísticos de Crimen

Prof. Angel Zambrano ENERO 2009 Universidad de Los Andes Escuela de Estadística

Códigos IRA. Máster en Multimedia y Comunicaciones Comunicaciones Digitales. Luca Martino

Otra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza

Probabilidad. Generalidades

2. Editor de Fórmulas Léxico...5

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

Inteligencia Artificial

MANUAL PARA LA PERSONA USUARIA CONSULTA DE BASE DATOS EN LÍNEA PROGRAMA REDATAM

Transcripción:

ESTUDIO DE CORRELACIONES DE RESULTADOS FUTBOLÍSTICOS DE REAL MADRID C.de F. FRANCISCO SANTOS IGLESIAS Universidad Carlos III de Madrid 100025248@alumnos.uc3m.es DANIEL ÁNGEL RODRÍGUEZ PLAZA Universidad Carlos III de Madrid 100025251@alumnos.uc3m.es RESUMEN En este estudio vamos a usar la herramienta Weka para tratar de predecir los resultados de los partidos de fútbol jugados por el Real Madrid C. de F. a partir de múltiples variables referentes a las últimas temporadas. Los datos forman parte de 300 partidos, y a pesar de que este número se puede ampliar puede dejar de haber correlación entre los resultados por tratarse de equipos y estrategias totalmente distintas. Categorías y Descripción H.2.8 Database Apllications [Database management]: Data mining Términos Generales Algoritmo, diseño, experimentación, teoría. Palabras Clave Predicción, algoritmo, correlación. weka 1. INTRODUCCIÓN La minería de datos consiste en la extracción cuyo objetivo es el de descubrir hechos contenidos en las bases de datos mediante un trabajo automatizado y con poca, si hay alguna, intervención humana a lo largo del proceso. Mucha de la información valiosa que se busca es desconocida con anterioridad, por ello hay que descubrirla, y estas técnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto. Las reglas que se encuentren permiten entender el modelo del sistema relacionado con los datos observados y la predicción de ciertos estado del sistema. WEKA, que es una herramienta de aprendizaje automático y data mining, escrita en lenguaje Java, gratuita y desarrollada en la Universidad e Waikato (WEKA = Waikato Environment for Knowledge Analysis). Dentro de las múltiples interfaces gráficas que ofrece se utilizará la interfaz de usuario, que es un interfaz gráfico con la posibilidad de comparar el funcionamiento de diversos algoritmos de aprendizaje. Se trabajará sobre una base de datos construida a partir de datos encontrados en las fuentes citadas [1,2,3] sobre los partidos de los clubes de la primera división de la liga de fútbol profesional Real Madrid, Barcelona, Athletic Club de Bilbao y Valencia. Se trata de una base de datos en la que se pretende determinar cuáles son los factores y correlaciones que permitan determinar las reglas que permiten estimar la victoria, el empate ó la derrota del club de fútbol Real Madrid. Por ello cada instancia de la base de datos se corresponde con un partido de fútbol jugado por el Real Madrid cierto día y recoge los siguientes atributos: PUNTOS_MEDIOS_POR_JORNADA: Esta variable se ha obtenido de la base de datos creada sumando los puntos que va acumulando el Real Madrid a lo largo de las jornadas de la liga y dividiéndose por el número de jornadas transcurridas correspondiente. Para cada jornada actual se dispondrá de los puntos medios por jornada obtenidos a partir de las jornadas anteriores. GOLES_MEDIOS_POR_JORNADA: Variable obtenida sumando los goles marcados que va acumulando el Real Madrid a lo largo de las jornadas de la liga y dividiéndose por el número de jornadas transcurridas correspondiente. En cada jornada actual se dispondrá de los goles medios por jornada obtenidos a partir de partidos pasados. JORNADA: Número de jornada en la que se jugó el partido en la temporada correspondiente. ). Se conoce para cada partido. HORA_PARTIDO: Hora del partido (en formato 24 horas). Se conoce para cada partido. DÍA DE LA SEMANA {L,M,X,J,V,S,D}. DÍA: Día del mes en que se juega el partido. ). Se conoce para cada partido. MES: Mes en que se juega el partido. ). Se conoce para cada partido - 1 -

SUMA FECHA A UN DÍGITO: Suma de la fecha en que se juega el partido, hasta reducirlo a un número. Por ejemplo: 12-3-2007->1+2+3+2+7=15->1+5=6 DIFERENCIA_PUNTOS_MEDIOS_MADRID_BARS A: Esta variable está formada por los valores de la diferencia de puntos medios entre el Real Madrid y el Barcelona para la jornada de la liga correspondiente a ese partido a partir de las jornadas anteriores. Lo que se busca con esta variable es algún tipo de correlación con el resultado que tenga el Real Madrid en el partido de esa jornada en particular. Puede tener sentido el pensar en que si el Real Madrid es superior en media de puntos al Barcelona, uno de los mejores equipos de la liga española, es que está en muy buen momento de forma, y es más probable que gane su encuentro de fútbol. Esto mismo lo hacemos con el Valencia y el Athletic Club de Bilbao, como comentamos a continuación. DIFERENCIA_PUNTOS_MEDIOS_MADRID_VALE NCIA: Variable que contiene los valores de la diferencia de puntos medios entre el Real Madrid y el Valencia para la jornada de la liga correspondiente a ese partido a partir de las jornadas anteriores. DIFERENCIA_PUNTOS_MEDIOS_MADRID_BILB AO: Variable con los valores de la diferencia de puntos medios entre el Real Madrid y el Athletic Club de Bilbao para la jornada de la liga correspondiente al partido del Real Madrid a partir de las jornadas anteriores. BARSA RESULTADOS: Victoria, derrota, ó empate del Barcelona en la jornada anterior. VALENCIA RESULTADOS: Victoria, derrota, ó empate del Valencia en la jornada anterior BILBAO RESULTADOS: Victoria, derrota, ó empate del Athletic Club de Bilbao en la jornada anterior PIERDE EMPATA GANA * GOLES MARCADOS: En esta variable se ha multiplicado el resultado del partido de cada jornada anterior (2=gana, 1=empata, 0=pierde) con los goles medios marcados por jornada del Real Madrid hasta esa jornada anterior. RES_ALEAT: Con el objetivo de conseguir un reparto mayor de los resultados del Real Madrid a lo largo del eje de abscisas ú ordenadas, de forma que no se centren las comparaciones con otras variables del estudio en (2=gana, 1=empata, 0=pierde) se ha modificado el posible resultado del partido del Real-Madrid (2=gana, 1=empata, 0=pierde) multiplicándose por un factor de escala y añadiendo un número aleatorio. Por ejemplo, factor de escala 2 -> perder=0, empatar=2, ganar=4 y se añade un número aleatorio entre 0 y el factor de escala, de forma que queda finalmente: perder: entre 0 y 2, empatar: entre 2 y 4, ganar: a partir de 4. RES_ALEAT_+_SUMAT_DIFGOLES_entre3_+_SU MAT_DIFPUNTOS_entre3: Esta variable es resultado de algunas operaciones de algunas de las anteriores variables utilizadas. Está formada por la variable RES_ALEAT, las media de las diferencias de puntos medios del Real Madrid respecto al Barcelona, Valencia y Athletic Club de Bilbao y la media de las diferencias de goles medios del Real Madrid respecto a estos tres equipos. Puede tener sentido el pensar en que si el Real Madrid es superior en media de puntos con los tres equipos con los que se compara en este estudio en cuanto a puntos medios y goles medios por jornada es que está en muy buen momento de forma, y es más probable que gane su encuentro de fútbol. SUMAMEDIA_DIFERENCIAS: Esta variable es resultado de algunas operaciones de algunas de las anteriores variables utilizadas. Al igual que en la variable anterior se utilizan los sumatorios de las diferencias de goles y de puntos medios del Real Madrid respecto a los tres equipos del estudio. La diferencia es que se realizan tres operaciones distintas según el Real Madrid gane, pierda, ó empate el partido de la jornada anterior. En el caso de que el Real Madrid ganase la anterior jornada se suma un número aleatorio al resultado de sumar los sumatorios. Es posible razonar que si el Real Madrid gana un partido puede ganar otro partido, ponderando con su nivel de juego respecto a los otros equipos con los que se compara en este estudio. Si empata se realiza la misma operación pero añadiendo un número aleatorio entre 0 y 2. Si pierde no se añade número aleatorio. Se busca el objetivo de que se vea de forma mas clara la clase perder, separándola de las otras dos posibles clases. VARIABLE_A_PREDECIR {GANA,EMPATA,PIERDE} Se dispone de datos desde la temporada 1999-2000 hasta la temporada 2007-2008 y el objetivo es determinar cuál es la relación entre estas variables y el resultado del Real Madrid. 2. DESARROLLO Y RESULTADOS 2.1 Preprocesado de los Datos En WEKA al cargar los datos y hacer clic sobre cada uno de los atributos, se muestra información sobre el mismo en la parte derecha de la ventana. En el caso de atributos discretos se indica el número de instancias que toman cada uno de los valores posibles; y en el caso de atributos reales se muestran los valores máximo, mínimo, medio y la desviación estándar. Asimismo, se muestra un gráfico en el que las distintas clases de las variables elegidas se representan con colores distintos. Esta variable es la VARIABLE_A_PREDECIR {perder (azul oscuro), empatar(rojo), ganar (azul claro)} - 2 -

En esta variable se puede apreciar una correlación entre el resultado de ganar en la jornada actual y los puntos medios por jornada que el Real Madrid acumula en la jornada anterior. Cuando tiene el equipo unos puntos medios por jornada entre 1.6 y 1.8, la probabilidad de tener un resultado de victoria en la siguiente jornada es muy alto comparado con los otros posibles valores de la variable. Un empate ó una derrota, sin embargo, no muestran una clara correlación con algún rango de valores, de forma que se pueda distinguir entre ambas clases.. En esta variable no se una aprecia correlación clara con los tres resultados posibles, asemejándose la distribución de los datos a una función de densidad uniforme prácticamente. En los goles medios por jornada se aprecia de nuevo una distribución gaussiana de los resultados para los tres tipos posibles de clases. Las tres distribuciones están centradas en un valor de 1.8 goles medios. Como se ve en la gráfica cuando el Real Madrid tiene este promedio de goles, es muy probable Ganar. Sin embargo, los resultados de empatar y perder no se destacan y es difícil clasificarlos. A su vez se aprecia a partir de 3 puntos medios por jornada como la probabilidad de ganar es altísima, lo que es lógico, dado que marcar más de 3 goles por jornada es sinónimo casi de la victoria en el partido. Curiosamente si el promedio es 2.5 goles, la probabilidad de empatar es alta. En la siguiente figura se muestra otra vista de las mismas variables: En lo que respecta a la hora del partido se aprecia como el resultado de ganar sobresale sobre los otros dos posibles resultados. La mayor cantidad de victorias está en las 22 horas, lo que es lógico, porque es donde se juega la mayor cantidad de partidos. Es prácticamente imposible poder discernir entre las clases empate y derrota. En esta figura se puede ver, como la mayor cantidad de partidos del Real Madrid se concentran en el sábado y el domingo, como era esperable. En ambos día de la semana se aprecia una cantidad de victorias similar. - 3 -

En lo que respecta al día del mes en que se juega el partido es complicado sacar conclusiones respecto a las tres clasificaciones, dado que siguen una función de densidad similar a una uniforme, salvo que el resultado de ganar sería el más probable de los tres todos los días. Al analizar las estadísticas de la diferencia de puntos medios por jornada del Real Madrid respecto al Barcelona, vemos cómo se distingue el resultado de ganar cuando hay una diferencia entre ambos equipos entre 0 y 1. El Barcelona es uno de los equipos de la liga profesional con mejores resultados en todas las temporadas, por lo que tiene sentido que si el Real Madrid está por encima del Barcelona en puntos, indica que se está realizando un juego con cierta calidad. En lo que respecta al mes en el que se juega el partido, se obtienen las mismas conclusiones que en la figura anterior. La bajada de las estadísticas entre 6 y 8 indica que en Mayo-Junio termina la liga y vuelve a empezar en Agosto-Septiembre. En el caso del Valencia, al analizar las estadísticas de la diferencia de puntos medios por jornada con el Real Madrid vemos como se distingue el resultado de ganar cuando hay una diferencia entre ambos equipos entre 0 y 1, pero especialmente en el valor cero, es decir, cuando ambos equipos consiguen la misma media de puntos por jornada, el Real Madrid tiene una gran probabilidad de ganar. El Valencia es un equipo de la liga de fútbol profesional con buenos, aunque peores que el Barcelona, casi en todas las temporadas. Tiene sentido razonar que si el Real Madrid está por encima del Valencia en puntos se tiene un buen juego y alta probabilidad de obtener la victoria. La variable suma de la fecha a un dígito indica que el Real Madrid gana con mayor probabilidad las fechas que suman entre 1, 4, 5, 8 y 9. En la figura de abajo se tiene otra vista de las mismas variables. Los valores de empate y derrota tienen una distribución similar de probabilidad, siendo ambos casi equiprobables donde aparecen. - 4 -

En el caso del Bilbao, la mayor concentración de victorias del Real Madrid se da cuando éste tiene una diferencia de puntos medios sobre el Bilbao entre 1 y 1.5. El Bilbao es uno de los equipos de la liga profesional con buenos resultados casi en todas las temporadas, por lo que tiene sentido que si el Real Madrid está por encima del Bilbao en media de puntos se está realizando un juego bueno. Una vista similar a la anterior es la siguiente, donde se que los resultados se concentran en los valores que hemos comentado. Como se ha ido viendo en las diversas gráficas hasta ahora es muy complicado distinguir con una probabilidad de acierto razonable cuando el equipo pierde ó empata. Con la variable RES_ALEAT se consigue que las clases perder, empatar y ganar no se centren en 3 valores discretos. Así se consigue que haya una mayor distribución al comparar el resultado de los partidos con otras variables. Cuando es tenga que decidir a qué clase pertenece un valor determinado, se tiene que ver si cae dentro de un rango. Si está entre 0 y 2 será partido perdido con una probabilidad alta. En el caso de que cayese entre 2 y 4 se decidiría empate, y para valores que cayesen por encima de 4 se decidiría victoria. Partiendo de la variable anterior y de las variables que tienen en cuenta las diferencias de goles y de puntos medios se obtienen unos resultados que se pueden considerar aceptables para decidir si el equipo gana, pero se distingue mal cuando pierde y empata. Cuando la suma de los goles medios y los puntos medios del Real Madrid respecto a los tres equipos de valores positivos y grandes, querrá decir que el Real Madrid tiene un nivel de juego dentro de la liga española de gran calidad y es muy probable la victoria. Esta misma variable se muestra en la figura siguiente con otra vista: No se ve una correlación clara entre los resultados del Real Madrid y los resultados de los otros equipos del análisis. Con la variable Pierde_Empata_gana*goles_marcados conseguimos distinguir de forma clara cuando gana el Real Madrid, pero no en el caso de las otras dos clases (perder, ganar) - 5 -

descartadas antes de volver a ejecutar las funciones de manera recursiva. 2.1.3 Resultados El resultado obtenido en ambos métodos es el mismo, recomendándose la selección de los parámetros: DÍA DE LA SEMANA y SUMAMEDIA_DIFERENCIAS. 2.2 Agrupamiento (CLUSTERES) En esta variable se puede observar como se ha conseguido resaltar la diferencia entre las clases perder y empatar, habiendo una cierta correlación con las tres posibles clases del estudio. Por último, en la siguiente gráfica, se puede ver que las clases de la variable a predecir {PIERDE, EMPATA, GANA}. En la variable a predecir se ve cómo el número de victorias es unas 3 veces la cantidad de derrotas, y el doble que los empates Para el desarrollo del agrupamiento se van a utilizar dos algoritmos con la finalidad de comparar los resultados obtenidos. Los métodos seleccionados serán el método de las k-medias y algoritmo EM. 2.2.1 K-medias El objetivo de este algoritmo es situar un conjunto de vectores centroide en el espacio de entrada que describan de forma discreta la densidad de las muestras observadas. Así en aquellos lugares más densos situará más vectores y viceversa. Para ello, en su versión en línea realiza descenso de gradiente en línea en el error cuadrático medio. Existen dos modos de funcionamiento del algoritmo dependiendo de si las muestras se reciban de manera continua o bien si estas muestras se encuentran previamente en una base de datos. El resultado de su ejecución es: Se utiliza a su vez la opción de WEKA de seleccionar variables, utilizándose el evaluador de parámetros CfsSubsetEval con el método de búsqueda BestFirst, y el método GeneticSearch. Este evaluador considera el valor predictivo individual de cada atributo. Los métodos de búsqueda trabajan del siguiente modo 2.1.1 Best First Recorre el árbol expandiendo primero las ramas más prometedoras con respecto a una regla dada. Para ello supone la existencia de una función de evaluación que debe medir la distancia estimada al objetivo. Esta función puede depender de la variable sobre la que aplicarla, la descripción del objetivo, la información disponible hasta ese momento o un conocimiento añadido sobre el problema. El algoritmo no asegura una solución óptima. 2.1.2 Genetic Search Se fundamenta en la mímica de los principios de evolución y genética. A diferencia de los algoritmos convencionales trabajan con una codificación del conjunto solución, y la búsqueda se realiza sobre un grupo de estas soluciones en lugar de sobre una sola. Sobre este grupo se emplean funciones que los hacen evolucionar de manera semejante a como ocurre en la evolución biológica, de forma que al aplicar unos criterios de selección se deciden cuales son las muestras mas adaptadas y cuales las menos, que son Cluster 0 Mean/Mode: 1.8639 1.8057 19.559 20.6252 S 15.2422 6.2547 4.882 0.0504 0.0491 0.6767 1.236 1.3851 0.9441 3.2298 4.2828 3.7386 2.8039 Std Devs: 0.5387 0.5444 11.546 1.0349 N/A 8.7047 3.6968 2.5504 0.5962 0.5303 0.7245 0.833 0.767 0.8821 3.125 2.1919 1.7479 2.9477 Cluster 1 Mean/Mode: 1.8482 1.8296 19.4336 19.0042 D 16.1189 6.0769 5.049-0.0478 0.1497 0.6511 1.3846 1.1049 0.958 3.2308 4.2251 3.6885 2.8335 Std Devs: 0.4187 0.4754 10.3547 1.4361 N/A 8.5757 4.0855 2.549 0.4988 0.5456 0.4399 0.7865 0.8534 0.8038 3.0203 1.9948 1.6981 2.5185 Clustered Instances 0 8 ( 44%) 1 10 ( 56%) - 6 -

2.2.2 EM Este método puede aplicarse en situaciones en las que se desea estimar un conjunto de parámetros que describen una distribución de probabilidad subyacente cuando únicamente están disponibles los datos de una parte observada de la distribución. Estos datos conocidos forman un vector X que al complementarse con el vector de datos ocultos Y forman el conjunto completo de datos Z. Los elementos de Z pueden obtenerse a partir de los parámetros a estimar y de los datos observados incluidos en el vector X. Por otro lado como X es una variable aleatoria, por lo que Z será otra variable aleatoria al estar definida a partir de X. Este algoritmo busca la hipótesis h2 que maximiza la esperanza del logaritmo de la distribución de probabilidad que define el conjunto total de datos Z y que es función de los parámetros desconocidos. Esta distribución define la verosimilitud de los datos completos Z dada una hipótesis h2 de los parámetros ocultos. Al maximizar el logaritmo de la distribución se consigue maximizar la verosimilitud, trabajando con la esperanza de esta función debido a que se trata de una variable aleatoria. Se debe tener en cuenta que esta distribución contiene valores ocultos, por lo que para obtener un resultado correcto se deben considerar todos los posibles valores de la variable oculta Y ponderados según su probabilidad. Por lo tanto esta distribución está determinada por los valores observados X más por la distribución de los valores ocultos Y. Dado que se desconoce la distribución de Z al ser función en parte de parámetros ocultos que se pretende estimar, el método EM se basa en la hipótesis actual h1 para obtener esta distribución. Se define una función Q(h2 h1) que proporciona la esperanza del logaritmo de la distribución Z como función de h2 suponiendo que los parámetros ocultos coinciden con h1 y dado el conjunto de observaciones conocido X. Por lo tanto, la distribución de probabilidad de Z estaría definida por X y h1 y se utilizará para calcular la esperanza del logaritmo de Z para una hipótesis cualquiera h2. Para la realización del algoritmo EM se repiten los siguientes pasos hasta obtener la convergencia: Paso 1: estimación. Calcular Q(h2 h1) mediante h1 y los datos observados X para estimar la distribución de probabilidad de Z. Paso 2: maximización. Sustituir h1 por la hipotesis h2 que maximiza la función Q. Cluster: 0 Prior probability: 0.1082 Cluster: 1 Prior probability: 0.1511 Cluster: 2 Prior probability: 0.1281 Cluster: 3 Prior probability: 0.1452 Cluster: 4 Prior probability: 0.3195 Cluster: 5 Prior probability: 0.1478 Clustered Instances 0 2 ( 11%) 2 1 ( 6%) Log likelihood: -35.86079 4 7 ( 39%) 5 8 ( 44%) Por todo ello se eligen las variables para la creación del modelo SUMAMEDIA_DIFERENCIAS (la cual es contribución de varias variables del estudio)y como ha indicado WEKA DÍA DE LA SEMANA. 2.3 Asociación (CLASSIFIERS) Para realizar la asociación principalmente se ha utilizado el algoritmo J48 de WEKA, aunque también se ha tratado el OneR 2.3.1 Algoritmo OneR Algoritmo One Rule. Simple y rápido, pero muy efectivo. Genera un árbol de decisión de un solo nivel mediante la selección de atributos basada en errores. A pesar de su simplicidad se consiguen resultados ligeramente peores a los obtenidos con métodos más complejos y difíciles de entender para los humanos. Genera una regla para cada atributo del espacio de entrenamiento y elige la regla que tiene menor tasa de error. Para crear esa regla se debe determinar la clase más frecuente de cada atributo, es decir, la que aparece en más ocasiones. 2.3.2 Algoritmo J48 Este método se basa en el algoritmo C4.5, que a su vez es una extensión del ID3. Realiza una construcción de un arbol de clasificación y una selección de atributos para maximizar la ganancia de información, esto es, conseguir una reducción de entropía como consecuencia de realizar una división de los datos del espacio. La diferencia de este algoritmo con el ID3 consiste en que el C4.5 permite además de su aplicación sobre datos discretos, la ejecución en espacios continuos. El árbol de clasificación se construye basándose en atributos y umbral, mediante los cuales se decide la creación de las ramas a partir del nodo raíz. El problema reside en la selección de estos dos parámetros, si bien no es necesario comprobar todo el espacio de umbrales ya que será infinito. 3. EVALUACIÓN Para el entrenamiento de los algoritmos se han utilizado los datos de las temporadas 1999-2000 hasta la temporada 2006-2007. Con los resultados de la temporada 2007-2008 se ha hecho un test (pasando todos los datos a WEKA en otro fichero excepto si gana, ierde ó empata en esa jornada) para comprobar el acierto del modelo creado a partir de las variables elegidas. También se ha - 7 -

comprobado el tanto por ciento de acierto haciendo un test con los propios datos de entrenamiento. Los resultados correctos para el test son: 1. GANA 2. GANA 3. GANA 4. GANA 5. GANA 6. EMPATA 7. GANA 8. PIERDE 9. GANA 10. GANA 11. PIERDE 12. GANA 13. GANA 14. GANA 15. EMPATA 16. GANA 17. GANA 18. GANA 3.1.1 Algoritmo OneR inst#, actual, predicted, error, probability distribution 1? 3:GANA + 0 0 *1 2? 3:GANA + 0 0 *1 3? 3:GANA + 0 0 *1 4? 3:GANA + 0 0 *1 5? 3:GANA + 0 0 *1 6? 3:GANA + 0 0 *1 7? 3:GANA + 0 0 *1 8? 3:GANA + 0 0 *1 9? 3:GANA + 0 0 *1 10? 2:EMPATA + 0 *1 0 11? 3:GANA + 0 0 *1 12? 3:GANA + 0 0 *1 13? 3:GANA + 0 0 *1 14? 2:EMPATA + 0 *1 0 15? 2:EMPATA + 0 *1 0 16? 2:EMPATA + 0 *1 0 17? 2:EMPATA + 0 *1 0 18? 3:GANA + 0 0 *1 Con este test se consigue una predicción correcta de 11 de 18. El acierto es aquí del (18-7) /18*100= 61% Al evaluar con los mismos datos de entrenamiento: === Evaluation on training set === === Summary === Correctly Classified Instances 216 71.0526 % Incorrectly Classified Instances 88 28.9474 % Kappa statistic 0.4758 Mean absolute error 0.193 Root mean squared error 0.4393 Relative absolute error 49.0344 % Root relative squared error 99.0923 % Total Number of Instances 304 3.1.2 Algoritmo J48 === Predictions on test set === inst#, actual, predicted, error, probability distribution 1? 1:PIERDE + *0.667 0 0.333 2? 2:EMPATA + 0 *1 0 3? 3:GANA + 0 0.25 *0.75 4? 3:GANA + 0 0 *1 5? 3:GANA + 0 0.25 *0.75 6? 2:EMPATA + 0 *1 0 7? 3:GANA + 0 0.25 *0.75 8? 3:GANA + 0.25 0 *0.75 9? 1:PIERDE + *0.667 0 0.333 10? 3:GANA + 0 0 *1 11? 3:GANA + 0.25 0 *0.75 12? 3:GANA + 0 0.25 *0.75 13? 2:EMPATA + 0 *1 0 14? 2:EMPATA + 0 *1 0 15? 2:EMPATA + 0 *1 0 16? 2:EMPATA + 0 *1 0 17? 2:EMPATA + 0 *1 0 18? 3:GANA + 0 0 *1 Con este test se consigue una predicción correcta de 9 de 18. El acierto es aquí del (18-9) /18*100= 50% 4. TRABAJOS FUTUROS Se podría estudiar la relación del Real Madrid con otros equipos de la liga española, ó de otras ligas ó deportes. Una variable que se podria incluir y que resulta muy interesante es el valor medio - 8 -

de puntos obtenidos por partido del contrincante del Real Madrid. Con esto el programa tendría información muy precisa de la situación y la calidad del equipo contra el que juega, siendo esta información muy accesible a la hora de la búsqueda de las bases de datos. Además se podrían incluir muchos más temporadas de fútbol. 5. CONCLUSIONES WEKA proporciona un entorno de trabajo sencillo y adecuado para analizar todos los datos con una gran cantidad de algoritmos. De los resultados obtenidos se ve la complejidad de predecir este tipo de resultados deportivos, en lo que intervienen multitud de factores difíciles de identificar. La predicción de este tipo de acontecimientos deportivos implica tener acceso a una gran cantidad de información, la cual no se encuentra con facilidad. De los resultados obtenidos en el test se concluye que la probabilidad de acertar el resultado de un partido del Real Madrid está entre el 50 y 60 % para los algoritmos utilizados. Si se quisiera predecir el resultado conjunto de varios equipos, por ejemplo en la quiniela, se ve que la probabilidad conjunta de acertar un pleno al 15 es realmente poco probable. 6. REFERENCIAS [1] http://www.sportytrader.es/estadistica-deportiva.php [2] http://onlae.terra.es/1x2/resultados/indiceategies/indice.htm [3] http://www.futbolme.com/laliga/porjornadas/unauna/index3. as - 9 -