ESTUDIO DE CORRELACIONES DE RESULTADOS FUTBOLÍSTICOS DE REAL MADRID C.de F.

Tamaño: px
Comenzar la demostración a partir de la página:

Download "ESTUDIO DE CORRELACIONES DE RESULTADOS FUTBOLÍSTICOS DE REAL MADRID C.de F."

Transcripción

1 ESTUDIO DE CORRELACIONES DE RESULTADOS FUTBOLÍSTICOS DE REAL MADRID C.de F. FRANCISCO SANTOS IGLESIAS Universidad Carlos III de Madrid DANIEL ÁNGEL RODRÍGUEZ PLAZA Universidad Carlos III de Madrid RESUMEN En este estudio vamos a usar la herramienta Weka para tratar de predecir los resultados de los partidos de fútbol jugados por el Real Madrid C. de F. a partir de múltiples variables referentes a las últimas temporadas. Los datos forman parte de 300 partidos, y a pesar de que este número se puede ampliar puede dejar de haber correlación entre los resultados por tratarse de equipos y estrategias totalmente distintas. Categorías y Descripción H.2.8 Database Apllications [Database management]: Data mining Términos Generales Algoritmo, diseño, experimentación, teoría. Palabras Clave Predicción, algoritmo, correlación. weka 1. INTRODUCCIÓN La minería de datos consiste en la extracción cuyo objetivo es el de descubrir hechos contenidos en las bases de datos mediante un trabajo automatizado y con poca, si hay alguna, intervención humana a lo largo del proceso. Mucha de la información valiosa que se busca es desconocida con anterioridad, por ello hay que descubrirla, y estas técnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto. Las reglas que se encuentren permiten entender el modelo del sistema relacionado con los datos observados y la predicción de ciertos estado del sistema. WEKA, que es una herramienta de aprendizaje automático y data mining, escrita en lenguaje Java, gratuita y desarrollada en la Universidad e Waikato (WEKA = Waikato Environment for Knowledge Analysis). Dentro de las múltiples interfaces gráficas que ofrece se utilizará la interfaz de usuario, que es un interfaz gráfico con la posibilidad de comparar el funcionamiento de diversos algoritmos de aprendizaje. Se trabajará sobre una base de datos construida a partir de datos encontrados en las fuentes citadas [1,2,3] sobre los partidos de los clubes de la primera división de la liga de fútbol profesional Real Madrid, Barcelona, Athletic Club de Bilbao y Valencia. Se trata de una base de datos en la que se pretende determinar cuáles son los factores y correlaciones que permitan determinar las reglas que permiten estimar la victoria, el empate ó la derrota del club de fútbol Real Madrid. Por ello cada instancia de la base de datos se corresponde con un partido de fútbol jugado por el Real Madrid cierto día y recoge los siguientes atributos: PUNTOS_MEDIOS_POR_JORNADA: Esta variable se ha obtenido de la base de datos creada sumando los puntos que va acumulando el Real Madrid a lo largo de las jornadas de la liga y dividiéndose por el número de jornadas transcurridas correspondiente. Para cada jornada actual se dispondrá de los puntos medios por jornada obtenidos a partir de las jornadas anteriores. GOLES_MEDIOS_POR_JORNADA: Variable obtenida sumando los goles marcados que va acumulando el Real Madrid a lo largo de las jornadas de la liga y dividiéndose por el número de jornadas transcurridas correspondiente. En cada jornada actual se dispondrá de los goles medios por jornada obtenidos a partir de partidos pasados. JORNADA: Número de jornada en la que se jugó el partido en la temporada correspondiente. ). Se conoce para cada partido. HORA_PARTIDO: Hora del partido (en formato 24 horas). Se conoce para cada partido. DÍA DE LA SEMANA {L,M,X,J,V,S,D}. DÍA: Día del mes en que se juega el partido. ). Se conoce para cada partido. MES: Mes en que se juega el partido. ). Se conoce para cada partido - 1 -

2 SUMA FECHA A UN DÍGITO: Suma de la fecha en que se juega el partido, hasta reducirlo a un número. Por ejemplo: > =15->1+5=6 DIFERENCIA_PUNTOS_MEDIOS_MADRID_BARS A: Esta variable está formada por los valores de la diferencia de puntos medios entre el Real Madrid y el Barcelona para la jornada de la liga correspondiente a ese partido a partir de las jornadas anteriores. Lo que se busca con esta variable es algún tipo de correlación con el resultado que tenga el Real Madrid en el partido de esa jornada en particular. Puede tener sentido el pensar en que si el Real Madrid es superior en media de puntos al Barcelona, uno de los mejores equipos de la liga española, es que está en muy buen momento de forma, y es más probable que gane su encuentro de fútbol. Esto mismo lo hacemos con el Valencia y el Athletic Club de Bilbao, como comentamos a continuación. DIFERENCIA_PUNTOS_MEDIOS_MADRID_VALE NCIA: Variable que contiene los valores de la diferencia de puntos medios entre el Real Madrid y el Valencia para la jornada de la liga correspondiente a ese partido a partir de las jornadas anteriores. DIFERENCIA_PUNTOS_MEDIOS_MADRID_BILB AO: Variable con los valores de la diferencia de puntos medios entre el Real Madrid y el Athletic Club de Bilbao para la jornada de la liga correspondiente al partido del Real Madrid a partir de las jornadas anteriores. BARSA RESULTADOS: Victoria, derrota, ó empate del Barcelona en la jornada anterior. VALENCIA RESULTADOS: Victoria, derrota, ó empate del Valencia en la jornada anterior BILBAO RESULTADOS: Victoria, derrota, ó empate del Athletic Club de Bilbao en la jornada anterior PIERDE EMPATA GANA * GOLES MARCADOS: En esta variable se ha multiplicado el resultado del partido de cada jornada anterior (2=gana, 1=empata, 0=pierde) con los goles medios marcados por jornada del Real Madrid hasta esa jornada anterior. RES_ALEAT: Con el objetivo de conseguir un reparto mayor de los resultados del Real Madrid a lo largo del eje de abscisas ú ordenadas, de forma que no se centren las comparaciones con otras variables del estudio en (2=gana, 1=empata, 0=pierde) se ha modificado el posible resultado del partido del Real-Madrid (2=gana, 1=empata, 0=pierde) multiplicándose por un factor de escala y añadiendo un número aleatorio. Por ejemplo, factor de escala 2 -> perder=0, empatar=2, ganar=4 y se añade un número aleatorio entre 0 y el factor de escala, de forma que queda finalmente: perder: entre 0 y 2, empatar: entre 2 y 4, ganar: a partir de 4. RES_ALEAT_+_SUMAT_DIFGOLES_entre3_+_SU MAT_DIFPUNTOS_entre3: Esta variable es resultado de algunas operaciones de algunas de las anteriores variables utilizadas. Está formada por la variable RES_ALEAT, las media de las diferencias de puntos medios del Real Madrid respecto al Barcelona, Valencia y Athletic Club de Bilbao y la media de las diferencias de goles medios del Real Madrid respecto a estos tres equipos. Puede tener sentido el pensar en que si el Real Madrid es superior en media de puntos con los tres equipos con los que se compara en este estudio en cuanto a puntos medios y goles medios por jornada es que está en muy buen momento de forma, y es más probable que gane su encuentro de fútbol. SUMAMEDIA_DIFERENCIAS: Esta variable es resultado de algunas operaciones de algunas de las anteriores variables utilizadas. Al igual que en la variable anterior se utilizan los sumatorios de las diferencias de goles y de puntos medios del Real Madrid respecto a los tres equipos del estudio. La diferencia es que se realizan tres operaciones distintas según el Real Madrid gane, pierda, ó empate el partido de la jornada anterior. En el caso de que el Real Madrid ganase la anterior jornada se suma un número aleatorio al resultado de sumar los sumatorios. Es posible razonar que si el Real Madrid gana un partido puede ganar otro partido, ponderando con su nivel de juego respecto a los otros equipos con los que se compara en este estudio. Si empata se realiza la misma operación pero añadiendo un número aleatorio entre 0 y 2. Si pierde no se añade número aleatorio. Se busca el objetivo de que se vea de forma mas clara la clase perder, separándola de las otras dos posibles clases. VARIABLE_A_PREDECIR {GANA,EMPATA,PIERDE} Se dispone de datos desde la temporada hasta la temporada y el objetivo es determinar cuál es la relación entre estas variables y el resultado del Real Madrid. 2. DESARROLLO Y RESULTADOS 2.1 Preprocesado de los Datos En WEKA al cargar los datos y hacer clic sobre cada uno de los atributos, se muestra información sobre el mismo en la parte derecha de la ventana. En el caso de atributos discretos se indica el número de instancias que toman cada uno de los valores posibles; y en el caso de atributos reales se muestran los valores máximo, mínimo, medio y la desviación estándar. Asimismo, se muestra un gráfico en el que las distintas clases de las variables elegidas se representan con colores distintos. Esta variable es la VARIABLE_A_PREDECIR {perder (azul oscuro), empatar(rojo), ganar (azul claro)} - 2 -

3 En esta variable se puede apreciar una correlación entre el resultado de ganar en la jornada actual y los puntos medios por jornada que el Real Madrid acumula en la jornada anterior. Cuando tiene el equipo unos puntos medios por jornada entre 1.6 y 1.8, la probabilidad de tener un resultado de victoria en la siguiente jornada es muy alto comparado con los otros posibles valores de la variable. Un empate ó una derrota, sin embargo, no muestran una clara correlación con algún rango de valores, de forma que se pueda distinguir entre ambas clases.. En esta variable no se una aprecia correlación clara con los tres resultados posibles, asemejándose la distribución de los datos a una función de densidad uniforme prácticamente. En los goles medios por jornada se aprecia de nuevo una distribución gaussiana de los resultados para los tres tipos posibles de clases. Las tres distribuciones están centradas en un valor de 1.8 goles medios. Como se ve en la gráfica cuando el Real Madrid tiene este promedio de goles, es muy probable Ganar. Sin embargo, los resultados de empatar y perder no se destacan y es difícil clasificarlos. A su vez se aprecia a partir de 3 puntos medios por jornada como la probabilidad de ganar es altísima, lo que es lógico, dado que marcar más de 3 goles por jornada es sinónimo casi de la victoria en el partido. Curiosamente si el promedio es 2.5 goles, la probabilidad de empatar es alta. En la siguiente figura se muestra otra vista de las mismas variables: En lo que respecta a la hora del partido se aprecia como el resultado de ganar sobresale sobre los otros dos posibles resultados. La mayor cantidad de victorias está en las 22 horas, lo que es lógico, porque es donde se juega la mayor cantidad de partidos. Es prácticamente imposible poder discernir entre las clases empate y derrota. En esta figura se puede ver, como la mayor cantidad de partidos del Real Madrid se concentran en el sábado y el domingo, como era esperable. En ambos día de la semana se aprecia una cantidad de victorias similar

4 En lo que respecta al día del mes en que se juega el partido es complicado sacar conclusiones respecto a las tres clasificaciones, dado que siguen una función de densidad similar a una uniforme, salvo que el resultado de ganar sería el más probable de los tres todos los días. Al analizar las estadísticas de la diferencia de puntos medios por jornada del Real Madrid respecto al Barcelona, vemos cómo se distingue el resultado de ganar cuando hay una diferencia entre ambos equipos entre 0 y 1. El Barcelona es uno de los equipos de la liga profesional con mejores resultados en todas las temporadas, por lo que tiene sentido que si el Real Madrid está por encima del Barcelona en puntos, indica que se está realizando un juego con cierta calidad. En lo que respecta al mes en el que se juega el partido, se obtienen las mismas conclusiones que en la figura anterior. La bajada de las estadísticas entre 6 y 8 indica que en Mayo-Junio termina la liga y vuelve a empezar en Agosto-Septiembre. En el caso del Valencia, al analizar las estadísticas de la diferencia de puntos medios por jornada con el Real Madrid vemos como se distingue el resultado de ganar cuando hay una diferencia entre ambos equipos entre 0 y 1, pero especialmente en el valor cero, es decir, cuando ambos equipos consiguen la misma media de puntos por jornada, el Real Madrid tiene una gran probabilidad de ganar. El Valencia es un equipo de la liga de fútbol profesional con buenos, aunque peores que el Barcelona, casi en todas las temporadas. Tiene sentido razonar que si el Real Madrid está por encima del Valencia en puntos se tiene un buen juego y alta probabilidad de obtener la victoria. La variable suma de la fecha a un dígito indica que el Real Madrid gana con mayor probabilidad las fechas que suman entre 1, 4, 5, 8 y 9. En la figura de abajo se tiene otra vista de las mismas variables. Los valores de empate y derrota tienen una distribución similar de probabilidad, siendo ambos casi equiprobables donde aparecen

5 En el caso del Bilbao, la mayor concentración de victorias del Real Madrid se da cuando éste tiene una diferencia de puntos medios sobre el Bilbao entre 1 y 1.5. El Bilbao es uno de los equipos de la liga profesional con buenos resultados casi en todas las temporadas, por lo que tiene sentido que si el Real Madrid está por encima del Bilbao en media de puntos se está realizando un juego bueno. Una vista similar a la anterior es la siguiente, donde se que los resultados se concentran en los valores que hemos comentado. Como se ha ido viendo en las diversas gráficas hasta ahora es muy complicado distinguir con una probabilidad de acierto razonable cuando el equipo pierde ó empata. Con la variable RES_ALEAT se consigue que las clases perder, empatar y ganar no se centren en 3 valores discretos. Así se consigue que haya una mayor distribución al comparar el resultado de los partidos con otras variables. Cuando es tenga que decidir a qué clase pertenece un valor determinado, se tiene que ver si cae dentro de un rango. Si está entre 0 y 2 será partido perdido con una probabilidad alta. En el caso de que cayese entre 2 y 4 se decidiría empate, y para valores que cayesen por encima de 4 se decidiría victoria. Partiendo de la variable anterior y de las variables que tienen en cuenta las diferencias de goles y de puntos medios se obtienen unos resultados que se pueden considerar aceptables para decidir si el equipo gana, pero se distingue mal cuando pierde y empata. Cuando la suma de los goles medios y los puntos medios del Real Madrid respecto a los tres equipos de valores positivos y grandes, querrá decir que el Real Madrid tiene un nivel de juego dentro de la liga española de gran calidad y es muy probable la victoria. Esta misma variable se muestra en la figura siguiente con otra vista: No se ve una correlación clara entre los resultados del Real Madrid y los resultados de los otros equipos del análisis. Con la variable Pierde_Empata_gana*goles_marcados conseguimos distinguir de forma clara cuando gana el Real Madrid, pero no en el caso de las otras dos clases (perder, ganar) - 5 -

6 descartadas antes de volver a ejecutar las funciones de manera recursiva Resultados El resultado obtenido en ambos métodos es el mismo, recomendándose la selección de los parámetros: DÍA DE LA SEMANA y SUMAMEDIA_DIFERENCIAS. 2.2 Agrupamiento (CLUSTERES) En esta variable se puede observar como se ha conseguido resaltar la diferencia entre las clases perder y empatar, habiendo una cierta correlación con las tres posibles clases del estudio. Por último, en la siguiente gráfica, se puede ver que las clases de la variable a predecir {PIERDE, EMPATA, GANA}. En la variable a predecir se ve cómo el número de victorias es unas 3 veces la cantidad de derrotas, y el doble que los empates Para el desarrollo del agrupamiento se van a utilizar dos algoritmos con la finalidad de comparar los resultados obtenidos. Los métodos seleccionados serán el método de las k-medias y algoritmo EM K-medias El objetivo de este algoritmo es situar un conjunto de vectores centroide en el espacio de entrada que describan de forma discreta la densidad de las muestras observadas. Así en aquellos lugares más densos situará más vectores y viceversa. Para ello, en su versión en línea realiza descenso de gradiente en línea en el error cuadrático medio. Existen dos modos de funcionamiento del algoritmo dependiendo de si las muestras se reciban de manera continua o bien si estas muestras se encuentran previamente en una base de datos. El resultado de su ejecución es: Se utiliza a su vez la opción de WEKA de seleccionar variables, utilizándose el evaluador de parámetros CfsSubsetEval con el método de búsqueda BestFirst, y el método GeneticSearch. Este evaluador considera el valor predictivo individual de cada atributo. Los métodos de búsqueda trabajan del siguiente modo Best First Recorre el árbol expandiendo primero las ramas más prometedoras con respecto a una regla dada. Para ello supone la existencia de una función de evaluación que debe medir la distancia estimada al objetivo. Esta función puede depender de la variable sobre la que aplicarla, la descripción del objetivo, la información disponible hasta ese momento o un conocimiento añadido sobre el problema. El algoritmo no asegura una solución óptima Genetic Search Se fundamenta en la mímica de los principios de evolución y genética. A diferencia de los algoritmos convencionales trabajan con una codificación del conjunto solución, y la búsqueda se realiza sobre un grupo de estas soluciones en lugar de sobre una sola. Sobre este grupo se emplean funciones que los hacen evolucionar de manera semejante a como ocurre en la evolución biológica, de forma que al aplicar unos criterios de selección se deciden cuales son las muestras mas adaptadas y cuales las menos, que son Cluster 0 Mean/Mode: S Std Devs: N/A Cluster 1 Mean/Mode: D Std Devs: N/A Clustered Instances 0 8 ( 44%) 1 10 ( 56%) - 6 -

7 2.2.2 EM Este método puede aplicarse en situaciones en las que se desea estimar un conjunto de parámetros que describen una distribución de probabilidad subyacente cuando únicamente están disponibles los datos de una parte observada de la distribución. Estos datos conocidos forman un vector X que al complementarse con el vector de datos ocultos Y forman el conjunto completo de datos Z. Los elementos de Z pueden obtenerse a partir de los parámetros a estimar y de los datos observados incluidos en el vector X. Por otro lado como X es una variable aleatoria, por lo que Z será otra variable aleatoria al estar definida a partir de X. Este algoritmo busca la hipótesis h2 que maximiza la esperanza del logaritmo de la distribución de probabilidad que define el conjunto total de datos Z y que es función de los parámetros desconocidos. Esta distribución define la verosimilitud de los datos completos Z dada una hipótesis h2 de los parámetros ocultos. Al maximizar el logaritmo de la distribución se consigue maximizar la verosimilitud, trabajando con la esperanza de esta función debido a que se trata de una variable aleatoria. Se debe tener en cuenta que esta distribución contiene valores ocultos, por lo que para obtener un resultado correcto se deben considerar todos los posibles valores de la variable oculta Y ponderados según su probabilidad. Por lo tanto esta distribución está determinada por los valores observados X más por la distribución de los valores ocultos Y. Dado que se desconoce la distribución de Z al ser función en parte de parámetros ocultos que se pretende estimar, el método EM se basa en la hipótesis actual h1 para obtener esta distribución. Se define una función Q(h2 h1) que proporciona la esperanza del logaritmo de la distribución Z como función de h2 suponiendo que los parámetros ocultos coinciden con h1 y dado el conjunto de observaciones conocido X. Por lo tanto, la distribución de probabilidad de Z estaría definida por X y h1 y se utilizará para calcular la esperanza del logaritmo de Z para una hipótesis cualquiera h2. Para la realización del algoritmo EM se repiten los siguientes pasos hasta obtener la convergencia: Paso 1: estimación. Calcular Q(h2 h1) mediante h1 y los datos observados X para estimar la distribución de probabilidad de Z. Paso 2: maximización. Sustituir h1 por la hipotesis h2 que maximiza la función Q. Cluster: 0 Prior probability: Cluster: 1 Prior probability: Cluster: 2 Prior probability: Cluster: 3 Prior probability: Cluster: 4 Prior probability: Cluster: 5 Prior probability: Clustered Instances 0 2 ( 11%) 2 1 ( 6%) Log likelihood: ( 39%) 5 8 ( 44%) Por todo ello se eligen las variables para la creación del modelo SUMAMEDIA_DIFERENCIAS (la cual es contribución de varias variables del estudio)y como ha indicado WEKA DÍA DE LA SEMANA. 2.3 Asociación (CLASSIFIERS) Para realizar la asociación principalmente se ha utilizado el algoritmo J48 de WEKA, aunque también se ha tratado el OneR Algoritmo OneR Algoritmo One Rule. Simple y rápido, pero muy efectivo. Genera un árbol de decisión de un solo nivel mediante la selección de atributos basada en errores. A pesar de su simplicidad se consiguen resultados ligeramente peores a los obtenidos con métodos más complejos y difíciles de entender para los humanos. Genera una regla para cada atributo del espacio de entrenamiento y elige la regla que tiene menor tasa de error. Para crear esa regla se debe determinar la clase más frecuente de cada atributo, es decir, la que aparece en más ocasiones Algoritmo J48 Este método se basa en el algoritmo C4.5, que a su vez es una extensión del ID3. Realiza una construcción de un arbol de clasificación y una selección de atributos para maximizar la ganancia de información, esto es, conseguir una reducción de entropía como consecuencia de realizar una división de los datos del espacio. La diferencia de este algoritmo con el ID3 consiste en que el C4.5 permite además de su aplicación sobre datos discretos, la ejecución en espacios continuos. El árbol de clasificación se construye basándose en atributos y umbral, mediante los cuales se decide la creación de las ramas a partir del nodo raíz. El problema reside en la selección de estos dos parámetros, si bien no es necesario comprobar todo el espacio de umbrales ya que será infinito. 3. EVALUACIÓN Para el entrenamiento de los algoritmos se han utilizado los datos de las temporadas hasta la temporada Con los resultados de la temporada se ha hecho un test (pasando todos los datos a WEKA en otro fichero excepto si gana, ierde ó empata en esa jornada) para comprobar el acierto del modelo creado a partir de las variables elegidas. También se ha - 7 -

8 comprobado el tanto por ciento de acierto haciendo un test con los propios datos de entrenamiento. Los resultados correctos para el test son: 1. GANA 2. GANA 3. GANA 4. GANA 5. GANA 6. EMPATA 7. GANA 8. PIERDE 9. GANA 10. GANA 11. PIERDE 12. GANA 13. GANA 14. GANA 15. EMPATA 16. GANA 17. GANA 18. GANA Algoritmo OneR inst#, actual, predicted, error, probability distribution 1? 3:GANA *1 2? 3:GANA *1 3? 3:GANA *1 4? 3:GANA *1 5? 3:GANA *1 6? 3:GANA *1 7? 3:GANA *1 8? 3:GANA *1 9? 3:GANA *1 10? 2:EMPATA + 0 *1 0 11? 3:GANA *1 12? 3:GANA *1 13? 3:GANA *1 14? 2:EMPATA + 0 *1 0 15? 2:EMPATA + 0 *1 0 16? 2:EMPATA + 0 *1 0 17? 2:EMPATA + 0 *1 0 18? 3:GANA *1 Con este test se consigue una predicción correcta de 11 de 18. El acierto es aquí del (18-7) /18*100= 61% Al evaluar con los mismos datos de entrenamiento: === Evaluation on training set === === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances Algoritmo J48 === Predictions on test set === inst#, actual, predicted, error, probability distribution 1? 1:PIERDE + * ? 2:EMPATA + 0 *1 0 3? 3:GANA *0.75 4? 3:GANA *1 5? 3:GANA *0.75 6? 2:EMPATA + 0 *1 0 7? 3:GANA *0.75 8? 3:GANA *0.75 9? 1:PIERDE + * ? 3:GANA *1 11? 3:GANA * ? 3:GANA * ? 2:EMPATA + 0 *1 0 14? 2:EMPATA + 0 *1 0 15? 2:EMPATA + 0 *1 0 16? 2:EMPATA + 0 *1 0 17? 2:EMPATA + 0 *1 0 18? 3:GANA *1 Con este test se consigue una predicción correcta de 9 de 18. El acierto es aquí del (18-9) /18*100= 50% 4. TRABAJOS FUTUROS Se podría estudiar la relación del Real Madrid con otros equipos de la liga española, ó de otras ligas ó deportes. Una variable que se podria incluir y que resulta muy interesante es el valor medio - 8 -

9 de puntos obtenidos por partido del contrincante del Real Madrid. Con esto el programa tendría información muy precisa de la situación y la calidad del equipo contra el que juega, siendo esta información muy accesible a la hora de la búsqueda de las bases de datos. Además se podrían incluir muchos más temporadas de fútbol. 5. CONCLUSIONES WEKA proporciona un entorno de trabajo sencillo y adecuado para analizar todos los datos con una gran cantidad de algoritmos. De los resultados obtenidos se ve la complejidad de predecir este tipo de resultados deportivos, en lo que intervienen multitud de factores difíciles de identificar. La predicción de este tipo de acontecimientos deportivos implica tener acceso a una gran cantidad de información, la cual no se encuentra con facilidad. De los resultados obtenidos en el test se concluye que la probabilidad de acertar el resultado de un partido del Real Madrid está entre el 50 y 60 % para los algoritmos utilizados. Si se quisiera predecir el resultado conjunto de varios equipos, por ejemplo en la quiniela, se ve que la probabilidad conjunta de acertar un pleno al 15 es realmente poco probable. 6. REFERENCIAS [1] [2] [3] as - 9 -

Automatización de la Evaluación del Impacto Social en Proyectos de Inversión Publica

Automatización de la Evaluación del Impacto Social en Proyectos de Inversión Publica Automatización de la Evaluación del Impacto Social en Proyectos de Inversión Publica Ronald René Vergara Pareja 1 Agenda Objetivo de la Investigación. Situación Actual de los Proyectos de Inversión Publica.

Más detalles

Predicción meteorológica

Predicción meteorológica Predicción meteorológica Trabajo hecho por: Roberto García Sanchez Pablo Casas Muñoz Qué es WEKA? Acrónimo de Waikate Environment for Knowledge Analisis Es un entorno para experimentación de análisis de

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 11 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Resolución manual de clasificación bayesiana

Más detalles

Práctica 2: Utilización de WEKA desde la línea de comandos.

Práctica 2: Utilización de WEKA desde la línea de comandos. PROGRAMA DE DOCTORADO TECNOLOGÍAS INDUSTRIALES APLICACIONES DE LA INTELIGENCIA ARTIFICIAL EN ROBÓTICA Práctica 2: Utilización de WEKA desde la línea de comandos. Objetivos: Utilización de WEKA desde la

Más detalles

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill. GLOSARIO ESTADÍSTICO Fuente: Murray R. Spiegel, Estadística, McGraw Hill. CONCEPTOS Y DEFINICIONES ESPECIALES Es el estudio científico de los métodos para recoger, organizar, resumir y analizar los datos

Más detalles

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD. Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de

Más detalles

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD. Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de

Más detalles

ESTADISTICA DESCRIPTIVA. Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos.

ESTADISTICA DESCRIPTIVA. Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos. ESTADISTICA DESCRIPTIVA 1. DEFINICION La estadística es una ciencia que facilita la toma de decisiones: Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos. Reduciendo

Más detalles

La forma en que se determina el Elo de un jugador fue ideada para el ajedrez en 1959, por el profesor de matemáticas, el Dr. Élő Árpád.

La forma en que se determina el Elo de un jugador fue ideada para el ajedrez en 1959, por el profesor de matemáticas, el Dr. Élő Árpád. 1.1.1 Qué es el Elo y cómo se calcula?. El Elo es un valor numérico que se asigna a cada jugador en relación con su "fuerza" o nivel de juego, en base al cual se puede estimar su probabilidad de victoria

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Estadística. Análisis de datos.

Estadística. Análisis de datos. Estadística Definición de Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un

Más detalles

Regresión ponderada y falta de ajuste

Regresión ponderada y falta de ajuste Capítulo 4 Regresión ponderada y falta de ajuste 4.1. Introducción En este capítulo se presentan la regresión ponderada y la prueba de falta de ajuste como un conjunto adicional de herramientas usadas

Más detalles

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión. ARBOLES DE DECISION Miguel Cárdenas-Montes Los árboles de decisión son estructuras lógicas con amplia utilización en la toma de decisión, la predicción y la minería de datos. Objetivos: Entender como funcionan

Más detalles

Control Estadístico de Procesos Capacidad de Proceso

Control Estadístico de Procesos Capacidad de Proceso Control Estadístico de Procesos Capacidad de Proceso Un proceso de fabricación es un conjunto de equipos, materiales, personas y métodos de trabajo que genera un producto fabricado. Maquinaria Métodos

Más detalles

Reglas de Asociación en Weka

Reglas de Asociación en Weka Reglas de Asociación en Weka Este documento muestra cómo establecer reglas de asociación en Weka usando como ejemplo los datos de un banco "bank.arff". El punto de inicio consiste en discretizar los datos

Más detalles

ANÁLISIS DE DATOS. Jesús García Herrero

ANÁLISIS DE DATOS. Jesús García Herrero ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar

Más detalles

Primero definiré lo que es un gráfico o diagrama en estadística

Primero definiré lo que es un gráfico o diagrama en estadística 8. Tipos de Grafícas 8.1 Tipos de Gráficas. Primero definiré lo que es un gráfico o diagrama en estadística Un diagrama es una especie de esquemático, formado por líneas, figuras, mapas, utilizado para

Más detalles

Tabla 7: Ejemplo matriz CaractE

Tabla 7: Ejemplo matriz CaractE 8 RESULTADOS EXPERIMENTALES 8.1 MATRICES DE CARACTERÍSTICAS Con el fin de dar una idea más precisa de cómo se conforman las matrices de características usadas en el reconocimiento de patrones y qué valores

Más detalles

Teoría del muestreo. Tipos de muestras

Teoría del muestreo. Tipos de muestras Teoría del muestreo El total de un grupo de datos de llama población o universo, y una porción representativa de este grupo se llama muestra. Las muestras desempeñan un papel muy importante en los trabajos

Más detalles

Práctica 5: Clasificación con número variable de ejemplos.

Práctica 5: Clasificación con número variable de ejemplos. 5º INGENIERÍA DE TELECOMUNICACIÓN INTELIGENCIA ARTIFICIAL Y RECONOCIMIENTO DE PATRONES Práctica 5: Clasificación con número variable de ejemplos. Objetivos: Utilización de conjuntos de entrenamiento y

Más detalles

Econometría II Grado en finanzas y contabilidad

Econometría II Grado en finanzas y contabilidad Econometría II Grado en finanzas y contabilidad Variables aleatorias y procesos estocásticos. La FAC y el correlograma Profesora: Dolores García Martos E-mail:mdgmarto@est-econ.uc3m.es Este documento es

Más detalles

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES 1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;

Más detalles

Qué es una regresión lineal?

Qué es una regresión lineal? Apéndice B Qué es una regresión lineal? José Miguel Benavente I. Introducción En varios capítulos de este libro se ocupan regresiones lineales y se afirma que el coeficiente de regresión indica cuánto

Más detalles

Técnicas de Minería de Datos

Técnicas de Minería de Datos Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.

Más detalles

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE Jorge Fallas jfallas56@gmail.com 2010 1 Temario Introducción: correlación y regresión Supuestos del análisis Variación total de Y y variación explicada por

Más detalles

CLASES DE ESTADÍSTICA II ESPERANZA ABSOLUTA

CLASES DE ESTADÍSTICA II ESPERANZA ABSOLUTA 1 CLASES DE ESTADÍSTICA II CLASE ) ESPERANZA ABSOLUTA. ESPERANZA CONDICIONAL. ESPERANZA ABSOLUTA El cálculo de valores esperados o esperanzas a nivel de dos variables aleatorias es una generalización matemática

Más detalles

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos

Más detalles

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL En esta clase se presenta un método de inducción de modelos numéricos de regresión a partir de datos. En el tema de técnicas clásicas se presentó la

Más detalles

Distribución normal estándar. Juan José Hernández Ocaña

Distribución normal estándar. Juan José Hernández Ocaña Distribución normal estándar Juan José Hernández Ocaña Tipos de variables jujo386@hotmail.com Tipos de variables Cualitativas Son las variables que expresan distintas cualidades, características o modalidades.

Más detalles

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. 1 Objetivos del tema Conocer en qué consiste un árbol de decisión. Aprender los problemas que pueden

Más detalles

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) Fortino Vela Peón fvela@correo.xoc.uam.mx FVela-0 Objetivo Introducir las ideas básicas del principio de máxima verosimilitud. Problema Considere el experimento

Más detalles

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA Definición de Estadística: La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer

Más detalles

Práctica 4. Contraste de hipótesis

Práctica 4. Contraste de hipótesis Práctica 4. Contraste de hipótesis Estadística Facultad de Física Objetivos Ajuste a una distribución discreta uniforme Test χ 2 Comparación de muestras Ajuste a una distribución normal 1 Introducción

Más detalles

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN Carteras minoristas Ejemplo: Construcción de un scoring de concesión basado en un árbol de decisión Grupo de Tesorería y Modelos de Gestión de Riesgos Sergio Gavilá II Seminario sobre Basilea II Validación

Más detalles

Inteligencia en Redes de Comunicaciones

Inteligencia en Redes de Comunicaciones Inteligencia en Redes de Comunicaciones Autores: -Daniel Pérez Vaquero. -Javier García Lloreda. Fecha: -17 de Diciembre de 2013. 1. Introducción Al Clustering. El clustering no es más que el agrupamiento

Más detalles

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Reconocimiento de patrones (RP): clasificar objetos en un número de categorías o clases.

Más detalles

Predicción de resultados de Fútbol

Predicción de resultados de Fútbol Predicción de resultados de Fútbol Recuperación de Información y Recomendaciones en la Web Integrantes: Juan Pablo Pascual 4.569.366-6 Nicolás Sanguinetti 4.712.015-4 Kevin Quincke 4.789.663-6 Miguel Langone

Más detalles

La eficiencia de los programas

La eficiencia de los programas La eficiencia de los programas Jordi Linares Pellicer EPSA-DSIC Índice General 1 Introducción... 2 2 El coste temporal y espacial de los programas... 2 2.1 El coste temporal medido en función de tiempos

Más detalles

Ms. C. Marco Vinicio Rodríguez

Ms. C. Marco Vinicio Rodríguez Ms. C. Marco Vinicio Rodríguez mvrodriguezl@yahoo.com http://mvrurural.wordpress.com/ Uno de los objetivos de la estadística es saber acerca del comportamiento de parámetros poblacionales tales como:

Más detalles

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica ECONOMETRÍA II Prof.: Begoña Álvarez 2007-2008 TEMA 1 INTRODUCCIÓN Estimación por máxima verosimilitud y conceptos de teoría asintótica 1. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MAXIMUM LIKELIHOOD) La estimación

Más detalles

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,

Más detalles

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos. La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadístico consta de las siguientes

Más detalles

MINERIA DE DATOS: ANÁLISIS DE DATOS ELECTORALES

MINERIA DE DATOS: ANÁLISIS DE DATOS ELECTORALES MINERIA DE DATOS: ANÁLISIS DE DATOS ELECTORALES Rubén Gómez-Chacón Camuñas rgomezch@ing.uc3m.es Javier Jimenez Dorado jjdorado@ing.uc3m.es RESUMEN En este artículo vamos a tratar un problema de minería

Más detalles

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1 Tema 1: Estadística descriptiva Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1 Introducción Objetivo: estudiar una característica o variable en una población. Ejemplos:

Más detalles

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste Técnicas de Inferencia Estadística II Tema 3. Contrastes de bondad de ajuste M. Concepción Ausín Universidad Carlos III de Madrid Grado en Estadística y Empresa Curso 2010/11 Tema 3. Contrastes de bondad

Más detalles

PROBABILIDAD Y ESTADÍSTICA

PROBABILIDAD Y ESTADÍSTICA PROBABILIDAD Y ESTADÍSTICA Pablo Torres Facultad de Ciencias Exactas, Ingeniera y Agrimensura - Universidad Nacional de Rosario Unidad 2: Probabilidad INTRODUCCIÓN Al lanzar un dado muchas veces veremos

Más detalles

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- Estadística variable unidimensional 1. Conceptos de Estadística 2. Distribución de frecuencias 2.1. Tablas de valores con variables continuas 3. Parámetros

Más detalles

Aprendizaje Automático. Objetivos. Funciona? Notas

Aprendizaje Automático. Objetivos. Funciona? Notas Introducción Las técnicas que hemos visto hasta ahora nos permiten crear sistemas que resuelven tareas que necesitan inteligencia La limitación de estos sistemas reside en que sólo resuelven los problemas

Más detalles

LA ESTRATEGIA FACTOR DETERMINANTE DEL RESULTADO EN EL FÚTBOL-SALA

LA ESTRATEGIA FACTOR DETERMINANTE DEL RESULTADO EN EL FÚTBOL-SALA LA ESTRATEGIA FACTOR DETERMINANTE DEL RESULTADO EN EL FÚTBOL-SALA Javier Alvarez Medina, Alberto Nuviala Nuviala Facultad Ciencias de la Salud y del Deporte. Universidad de Zaragoza. Departamento de Fisiatría

Más detalles

BÚSQUEDA INTELIGENTE BASADA EN METAHEURÍSTICAS

BÚSQUEDA INTELIGENTE BASADA EN METAHEURÍSTICAS Departamento de Inteligencia Artificial Grupo de Análisis de Decisiones y Estadística BÚSQUEDA INTELIGENTE BASADA EN METAHEURÍSTICAS PRÁCTICAS 1 Existen varias características que pueden causar dificultades

Más detalles

Capítulo 8. Análisis Discriminante

Capítulo 8. Análisis Discriminante Capítulo 8 Análisis Discriminante Técnica de clasificación donde el objetivo es obtener una función capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas variables

Más detalles

Tema 13: Contrastes No Paramétricos

Tema 13: Contrastes No Paramétricos Tema 13: Contrastes No Paramétricos Presentación y Objetivos. La validez de los métodos paramétricos depende de la validez de las suposiciones que se hacen sobre la naturaleza de los datos recogidos. La

Más detalles

ESTADÍSTICA UNIDIMENSIONAL

ESTADÍSTICA UNIDIMENSIONAL ESTADÍSTICA UNIDIMENSIONAL DEFINICIÓN DE VARIABLE Una variable estadística es cada una de las características o cualidades que poseen los individuos de una población. TIPOS DE VARIABLE ESTADÍSTICAS Ø Variable

Más detalles

Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary

Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary P. Duygulu, K. Barnard, J.F.G. de Freitas, and D.A. Forsyth Dr. Enrique Sucar 1 Victor Hugo Arroyo Dominguez 1

Más detalles

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016 ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una

Más detalles

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13 Auxiliar 9 MNL y MLE Daniel Olcay IN4402 21 de octubre de 2014 Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de 2014 1 / 13 Índice Modelos no lineales Probabilidad lineal Probit Logit Máxima verosimilitud

Más detalles

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas Apellidos, nombre Capilla Romá, Carmen 1 (ccapilla@eio.upv.es) Departamento Centro 1 Estadística e Investigación

Más detalles

Hasta ahora hemos visto los proyectos de inversión como flujos de caja conocidos y ciertos o conociendo diversos valores del mismo en términos de

Hasta ahora hemos visto los proyectos de inversión como flujos de caja conocidos y ciertos o conociendo diversos valores del mismo en términos de Hasta ahora hemos visto los proyectos de inversión como flujos de caja conocidos y ciertos o conociendo diversos valores del mismo en términos de probabilidad, traducidos a un sólo valor por período a

Más detalles

2.1. Es un juego de información perfecta o imperfecta? Fundamente su respuesta.

2.1. Es un juego de información perfecta o imperfecta? Fundamente su respuesta. Ejercicios 3. Considere la siguiente versión del juego del ultimátum. Hay 3 monedas. J puede ofrecer quedarse con o con. acepta o rechaza. Si rechaza, los dos jugadores obtienen. Suponga que los jugadores

Más detalles

MEDIDAS DE VARIABILIDAD

MEDIDAS DE VARIABILIDAD MEDIDAS DE VARIABILIDAD 1 Medidas de variabilidad Qué son las medidas de variabilidad? Las medidas de variabilidad de una serie de datos, muestra o población, permiten identificar que tan dispersos o concentrados

Más detalles

Desafío 135. Mayor o Menor (Superpanzeta)

Desafío 135. Mayor o Menor (Superpanzeta) Desafío 135. Mayor o Menor (Superpanzeta) Ángela, Benito y Carlos son amigos, y aficionados a las apuestas. Primera parte: Ángela le propone a Benito una apuesta de un Euro por el siguiente procedimiento:

Más detalles

Unidad III: Estadística descriptiva

Unidad III: Estadística descriptiva Unidad III: Estadística descriptiva 3.1 Conceptos básicos de estadística: Definición, Teoría de decisión, Población, Muestra aleatoria, Parámetros aleatorios TEORÍA DE DECISIÓN Estudio formal sobre la

Más detalles

Capítulo 6: EVALUACIÓN Y COMPARACIÓN DE MÉTODOS

Capítulo 6: EVALUACIÓN Y COMPARACIÓN DE MÉTODOS Capítulo 6: EVALUACIÓN Y COMPARACIÓN DE MÉTODOS En este capítulo, se realiza la evaluación y comparación de los métodos de paralelización de recurrencias descritos y propuestos en este trabajo. Los resultados

Más detalles

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple Pronósticos, Series de Tiempo y Regresión Capítulo 4: Regresión Lineal Múltiple Temas Modelo de regresión lineal múltiple Estimaciones de Mínimos Cuadrados Ordinarios (MCO); estimación puntual y predicción

Más detalles

Identificación mediante el método de los mínimos cuadrados

Identificación mediante el método de los mínimos cuadrados Ingeniería de Control Identificación mediante el método de los mínimos cuadrados Daniel Rodríguez Ramírez Teodoro Alamo Cantarero Contextualización del tema Conocimientos relevantes aprendidos previamente:

Más detalles

Búsqueda en línea y Búsqueda multiagente

Búsqueda en línea y Búsqueda multiagente Búsqueda en línea y Búsqueda multiagente Ingeniería Informática, 4º Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani 1 Tema 2: Agentes basados en Búsqueda Resumen: 2. Agentes basados

Más detalles

Teniendo en cuenta los valores de las variables se tienen 3 tipos de modelos lineales enteros:

Teniendo en cuenta los valores de las variables se tienen 3 tipos de modelos lineales enteros: Tema 5 Programación entera En este tema introducimos problemas lineales en los que algunas o todas las variables están restringidas a tomar valores enteros. Para resolver este tipo de problemas se han

Más detalles

Estimación de Parámetros

Estimación de Parámetros Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: p Estimación de Parámetros Prueba de Hipótesis Estimación

Más detalles

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental Universidad de Puerto Rico Recinto de Aguadilla Programa CeCiMat Elemental Definición de conceptos fundamentales de la Estadística y la Probabilidad y su aportación al mundo moderno Dr. Richard Mercado

Más detalles

Estadística ESTADÍSTICA

Estadística ESTADÍSTICA ESTADÍSTICA La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadístico consta

Más detalles

Tema 2. Regresión Lineal

Tema 2. Regresión Lineal Tema 2. Regresión Lineal 3.2.1. Definición Mientras que en el apartado anterior se desarrolló una forma de medir la relación existente entre dos variables; en éste, se trata de esta técnica que permite

Más detalles

Tercera práctica de REGRESIÓN.

Tercera práctica de REGRESIÓN. Tercera práctica de REGRESIÓN. DATOS: fichero practica regresión 3.sf3 1. Objetivo: El objetivo de esta práctica es aplicar el modelo de regresión con más de una variable explicativa. Es decir regresión

Más detalles

Fase 2. Estudio de mercado: ESTADÍSTICA

Fase 2. Estudio de mercado: ESTADÍSTICA 1. CONCEPTO DE ESTADÍSTICA. ESTADÍSTICA DESCRIPTIVA 2. 3. TABLA DE FRECUENCIAS 4. REPRESENTACIONES GRÁFICAS 5. TIPOS DE MEDIDAS: A. MEDIDAS DE POSICIÓN B. MEDIDAS DE DISPERSIÓN C. MEDIDAS DE FORMA 1 1.

Más detalles

ALUMNO: MARCOS PINA UTRILLA PROFESOR: Fernando Gimeno Marco CURSO:

ALUMNO: MARCOS PINA UTRILLA PROFESOR: Fernando Gimeno Marco CURSO: Universidad de Zaragoza Facultad de Ciencias de la Salud y del Deporte Grado de Ciencias de la Actividad Física y del Deporte Asignatura: Psicología de la Actividad Física y del Deporte ALUMNO: MARCOS

Más detalles

1. Ejercicios. 2 a parte

1. Ejercicios. 2 a parte 1. Ejercicios. 2 a parte Ejercicio 1 Calcule 1. P (χ 2 9 3 33) 2. P (χ 2 15 7 26). 3. P (15 51 χ 2 8 22). 4. P (χ 2 70 82). Ejercicio 2 Si X χ 2 26, obtenga un intervalo [a, b] que contenga un 95 % de

Más detalles

ESTABILIZADOR1X2 BETA - JUNIO 2017

ESTABILIZADOR1X2 BETA - JUNIO 2017 ESTABILIZADOR1X2 BETA - JUNIO 2017 Por Eduardo Losilla MANUAL DE USO ESTABILIZA TU COMBINACIÓN EN BASE A: > Los porcentajes de signos que quieras jugar en cada partido. > El número de apuestas a jugar.

Más detalles

Sobreajuste - Overfitting

Sobreajuste - Overfitting Sobreajuste - Overfitting Miguel Cárdenas-Montes Cuando se evalúa la calidad de un modelo o un ajuste, es importante medir el error en el conjunto de entrenamiento y en la predicción. La utilización exclusiva

Más detalles

Algoritmos genéticos

Algoritmos genéticos Algoritmos genéticos Introducción 2 Esquema básico 3 El problema de la mochila 7 Asignación de recursos 0 El problema del viajante 3 Variantes del esquema básico 5 Por qué funciona? 9 Observaciones finales

Más detalles

Posibles trabajos HIA

Posibles trabajos HIA Posibles trabajos HIA Posibles trabajos Comparar otras herramientas de Minería de Datos con Weka Estudiar la influencia del ruido en bagging y boosting Estudiar la influencia del parámetro de poda en J48

Más detalles

Emparejamientos aplicados a la elaboración de calendarios deportivos (II/II)

Emparejamientos aplicados a la elaboración de calendarios deportivos (II/II) Emparejamientos aplicados a la elaboración de calendarios deportivos (II/II) Aida Olalla Díaz Fernández Ingeniera Técnica en Informática de Gestión, estudia en la actualidad º curso de Ingeniería Informática.

Más detalles

VARIABLES ALEATORIAS INTRODUCCIÓN

VARIABLES ALEATORIAS INTRODUCCIÓN DOCENTE: SERGIO ANDRÉS NIETO DUARTE CURSO: ESTADÍSTICA DE LA PROBABILIDAD VARIABLES ALEATORIAS INTRODUCCIÓN Normalmente, los resultados posibles (espacio muestral E) de un experimento aleatorio no son

Más detalles

Julio Deride Silva. 4 de junio de 2010

Julio Deride Silva. 4 de junio de 2010 Curvas ROC y Regresión Lineal Julio Deride Silva Área de Matemática Facultad de Ciencias Químicas y Farmcéuticas Universidad de Chile 4 de junio de 2010 Tabla de Contenidos Curvas ROC y Regresión Lineal

Más detalles

Selección de atributos

Selección de atributos Selección de atributos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Clasificación de las técnicas Esquema General Evaluadores

Más detalles

b) Si decides elegir el trabajo que con más probabilidad te permita ganar más de 900 euros al mes, qué trabajo debes elegir?

b) Si decides elegir el trabajo que con más probabilidad te permita ganar más de 900 euros al mes, qué trabajo debes elegir? Ignacio Cascos Fernández Departamento de Estadística Universidad Carlos III de Madrid Hoja 4, curso 2006 2007. Ejercicio 1. Suponer que los cuatro motores de una aeronave comercial se disponen para que

Más detalles

Tema: Análisis de valores faltantes con SPSS

Tema: Análisis de valores faltantes con SPSS Tema: Análisis de valores faltantes con SPSS 1.- Introducción Hemos de comenzar advirtiendo que el Procedimiento Valores perdidos no se incluye en el sistema Base de SPSS, por lo que solo estará disponible

Más detalles

Procedimiento para crear un curso en Moodle Editar un curso en Moodle

Procedimiento para crear un curso en Moodle Editar un curso en Moodle Procedimiento para crear un curso en Moodle Editar un curso en Moodle ÍNDICE Procedimiento para crear un curso... 3 Características básicas del curso... 6 Estructura general del curso... 6 Módulos comunes

Más detalles

Reconocimiento de Patrones

Reconocimiento de Patrones Reconocimiento de Patrones Técnicas de validación (Clasificación Supervisada) Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica, Óptica y Electrónica Clasificación Supervisada Para qué evaluar

Más detalles

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA ESTADÍSTICA La estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comprobaciones y sacar conclusiones. Un estudio estadístico consta

Más detalles

1 CÁLCULO DE PROBABILIDADES

1 CÁLCULO DE PROBABILIDADES 1 CÁLCULO DE PROBABILIDADES 1.1 EXPERIENCIAS ALEATORIAS. SUCESOS 1.1.1 Definiciones Experiencia aleatoria: experiencia o experimento cuyo resultado depende del azar. Suceso aleatorio: acontecimiento que

Más detalles

Antigüedad y Desempeño Laboral en la Muestra General

Antigüedad y Desempeño Laboral en la Muestra General RESULTADOS La investigación tuvo como objetivo estudiar la relación entre Actitud de Compromiso y Desempeño Laboral; así como la relación la Antigüedad del trabajador y el Desempeño Laboral y la Actitud

Más detalles

Modelos Estadísticos de Crimen

Modelos Estadísticos de Crimen Universidad de los Andes Modelos Estadísticos de Crimen 27 de Mayo de 2015 Motivacion Conocer la densidad de probabilidad del crimen sobre una ciudad, a distintas horas del día, permite Modelos Estadísticos

Más detalles

Prof. Angel Zambrano ENERO 2009 Universidad de Los Andes Escuela de Estadística

Prof. Angel Zambrano ENERO 2009 Universidad de Los Andes Escuela de Estadística Prof. Angel Zambrano ENERO 009 Universidad de Los Andes Escuela de Estadística Muestreo: Es una metodología que apoyándose en la teoría estadística y de acuerdo a las características del estudio, indica

Más detalles

Códigos IRA. Máster en Multimedia y Comunicaciones Comunicaciones Digitales. Luca Martino

Códigos IRA. Máster en Multimedia y Comunicaciones Comunicaciones Digitales. Luca Martino Códigos IRA Máster en Multimedia y Comunicaciones Comunicaciones Digitales Luca Martino Codificación de Canal! Supongamos tener un canal binario discreto, simétrico sin memoria:! Objetivo: encontrar una

Más detalles

Otra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza

Otra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza CARACTERÍSTICAS DE LA POBLACIÓN. Una pregunta práctica en gran parte de la investigación de mercado tiene que ver con el tamaño de la muestra. La encuesta, en principio, no puede ser aplicada sin conocer

Más detalles

Probabilidad. Generalidades

Probabilidad. Generalidades robabilidad Generalidades a probabilidad estudia experimentos en los que se pueden esperar varios resultados y no solamente uno. os experimentos se pueden clasificar como aleatorios o determinísticos.

Más detalles

2. Editor de Fórmulas Léxico...5

2. Editor de Fórmulas Léxico...5 Manual de Fórmulas Sumario 1. Introducción... 2 1.1. Tipos de Conceptos a incluir en la fórmula...2 2. Editor de Fórmulas...4 2.1. Área de Datos de Aplicación...4 2.2. Área de Variables...4 2.3. Área de

Más detalles

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico. Estadística Definición de Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un

Más detalles

Inteligencia Artificial

Inteligencia Artificial I.T. en Informática de Sistemas, 3º Curso académico: 2009/2010 Profesores: Sascha Ossowski y Ramón Hermoso 1 Tema 2: Búsqueda Resumen: 2. Búsqueda 2.1. Agentes de resolución de problemas 2.2. Búsqueda

Más detalles

MANUAL PARA LA PERSONA USUARIA CONSULTA DE BASE DATOS EN LÍNEA PROGRAMA REDATAM

MANUAL PARA LA PERSONA USUARIA CONSULTA DE BASE DATOS EN LÍNEA PROGRAMA REDATAM INSTITUTO NACIONAL DE ESTADÍSTICA Y CENSOS Área de Censos de Población y Vivienda Unidad de Diseño, Procesamiento y Análisis MANUAL PARA LA PERSONA USUARIA CONSULTA DE BASE DATOS EN LÍNEA PROGRAMA REDATAM

Más detalles