ESTUDIO DE CORRELACIONES DE RESULTADOS FUTBOLÍSTICOS DE REAL MADRID C.de F.
|
|
- Rosa María Iglesias Rojo
- hace 7 años
- Vistas:
Transcripción
1 ESTUDIO DE CORRELACIONES DE RESULTADOS FUTBOLÍSTICOS DE REAL MADRID C.de F. FRANCISCO SANTOS IGLESIAS Universidad Carlos III de Madrid DANIEL ÁNGEL RODRÍGUEZ PLAZA Universidad Carlos III de Madrid RESUMEN En este estudio vamos a usar la herramienta Weka para tratar de predecir los resultados de los partidos de fútbol jugados por el Real Madrid C. de F. a partir de múltiples variables referentes a las últimas temporadas. Los datos forman parte de 300 partidos, y a pesar de que este número se puede ampliar puede dejar de haber correlación entre los resultados por tratarse de equipos y estrategias totalmente distintas. Categorías y Descripción H.2.8 Database Apllications [Database management]: Data mining Términos Generales Algoritmo, diseño, experimentación, teoría. Palabras Clave Predicción, algoritmo, correlación. weka 1. INTRODUCCIÓN La minería de datos consiste en la extracción cuyo objetivo es el de descubrir hechos contenidos en las bases de datos mediante un trabajo automatizado y con poca, si hay alguna, intervención humana a lo largo del proceso. Mucha de la información valiosa que se busca es desconocida con anterioridad, por ello hay que descubrirla, y estas técnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto. Las reglas que se encuentren permiten entender el modelo del sistema relacionado con los datos observados y la predicción de ciertos estado del sistema. WEKA, que es una herramienta de aprendizaje automático y data mining, escrita en lenguaje Java, gratuita y desarrollada en la Universidad e Waikato (WEKA = Waikato Environment for Knowledge Analysis). Dentro de las múltiples interfaces gráficas que ofrece se utilizará la interfaz de usuario, que es un interfaz gráfico con la posibilidad de comparar el funcionamiento de diversos algoritmos de aprendizaje. Se trabajará sobre una base de datos construida a partir de datos encontrados en las fuentes citadas [1,2,3] sobre los partidos de los clubes de la primera división de la liga de fútbol profesional Real Madrid, Barcelona, Athletic Club de Bilbao y Valencia. Se trata de una base de datos en la que se pretende determinar cuáles son los factores y correlaciones que permitan determinar las reglas que permiten estimar la victoria, el empate ó la derrota del club de fútbol Real Madrid. Por ello cada instancia de la base de datos se corresponde con un partido de fútbol jugado por el Real Madrid cierto día y recoge los siguientes atributos: PUNTOS_MEDIOS_POR_JORNADA: Esta variable se ha obtenido de la base de datos creada sumando los puntos que va acumulando el Real Madrid a lo largo de las jornadas de la liga y dividiéndose por el número de jornadas transcurridas correspondiente. Para cada jornada actual se dispondrá de los puntos medios por jornada obtenidos a partir de las jornadas anteriores. GOLES_MEDIOS_POR_JORNADA: Variable obtenida sumando los goles marcados que va acumulando el Real Madrid a lo largo de las jornadas de la liga y dividiéndose por el número de jornadas transcurridas correspondiente. En cada jornada actual se dispondrá de los goles medios por jornada obtenidos a partir de partidos pasados. JORNADA: Número de jornada en la que se jugó el partido en la temporada correspondiente. ). Se conoce para cada partido. HORA_PARTIDO: Hora del partido (en formato 24 horas). Se conoce para cada partido. DÍA DE LA SEMANA {L,M,X,J,V,S,D}. DÍA: Día del mes en que se juega el partido. ). Se conoce para cada partido. MES: Mes en que se juega el partido. ). Se conoce para cada partido - 1 -
2 SUMA FECHA A UN DÍGITO: Suma de la fecha en que se juega el partido, hasta reducirlo a un número. Por ejemplo: > =15->1+5=6 DIFERENCIA_PUNTOS_MEDIOS_MADRID_BARS A: Esta variable está formada por los valores de la diferencia de puntos medios entre el Real Madrid y el Barcelona para la jornada de la liga correspondiente a ese partido a partir de las jornadas anteriores. Lo que se busca con esta variable es algún tipo de correlación con el resultado que tenga el Real Madrid en el partido de esa jornada en particular. Puede tener sentido el pensar en que si el Real Madrid es superior en media de puntos al Barcelona, uno de los mejores equipos de la liga española, es que está en muy buen momento de forma, y es más probable que gane su encuentro de fútbol. Esto mismo lo hacemos con el Valencia y el Athletic Club de Bilbao, como comentamos a continuación. DIFERENCIA_PUNTOS_MEDIOS_MADRID_VALE NCIA: Variable que contiene los valores de la diferencia de puntos medios entre el Real Madrid y el Valencia para la jornada de la liga correspondiente a ese partido a partir de las jornadas anteriores. DIFERENCIA_PUNTOS_MEDIOS_MADRID_BILB AO: Variable con los valores de la diferencia de puntos medios entre el Real Madrid y el Athletic Club de Bilbao para la jornada de la liga correspondiente al partido del Real Madrid a partir de las jornadas anteriores. BARSA RESULTADOS: Victoria, derrota, ó empate del Barcelona en la jornada anterior. VALENCIA RESULTADOS: Victoria, derrota, ó empate del Valencia en la jornada anterior BILBAO RESULTADOS: Victoria, derrota, ó empate del Athletic Club de Bilbao en la jornada anterior PIERDE EMPATA GANA * GOLES MARCADOS: En esta variable se ha multiplicado el resultado del partido de cada jornada anterior (2=gana, 1=empata, 0=pierde) con los goles medios marcados por jornada del Real Madrid hasta esa jornada anterior. RES_ALEAT: Con el objetivo de conseguir un reparto mayor de los resultados del Real Madrid a lo largo del eje de abscisas ú ordenadas, de forma que no se centren las comparaciones con otras variables del estudio en (2=gana, 1=empata, 0=pierde) se ha modificado el posible resultado del partido del Real-Madrid (2=gana, 1=empata, 0=pierde) multiplicándose por un factor de escala y añadiendo un número aleatorio. Por ejemplo, factor de escala 2 -> perder=0, empatar=2, ganar=4 y se añade un número aleatorio entre 0 y el factor de escala, de forma que queda finalmente: perder: entre 0 y 2, empatar: entre 2 y 4, ganar: a partir de 4. RES_ALEAT_+_SUMAT_DIFGOLES_entre3_+_SU MAT_DIFPUNTOS_entre3: Esta variable es resultado de algunas operaciones de algunas de las anteriores variables utilizadas. Está formada por la variable RES_ALEAT, las media de las diferencias de puntos medios del Real Madrid respecto al Barcelona, Valencia y Athletic Club de Bilbao y la media de las diferencias de goles medios del Real Madrid respecto a estos tres equipos. Puede tener sentido el pensar en que si el Real Madrid es superior en media de puntos con los tres equipos con los que se compara en este estudio en cuanto a puntos medios y goles medios por jornada es que está en muy buen momento de forma, y es más probable que gane su encuentro de fútbol. SUMAMEDIA_DIFERENCIAS: Esta variable es resultado de algunas operaciones de algunas de las anteriores variables utilizadas. Al igual que en la variable anterior se utilizan los sumatorios de las diferencias de goles y de puntos medios del Real Madrid respecto a los tres equipos del estudio. La diferencia es que se realizan tres operaciones distintas según el Real Madrid gane, pierda, ó empate el partido de la jornada anterior. En el caso de que el Real Madrid ganase la anterior jornada se suma un número aleatorio al resultado de sumar los sumatorios. Es posible razonar que si el Real Madrid gana un partido puede ganar otro partido, ponderando con su nivel de juego respecto a los otros equipos con los que se compara en este estudio. Si empata se realiza la misma operación pero añadiendo un número aleatorio entre 0 y 2. Si pierde no se añade número aleatorio. Se busca el objetivo de que se vea de forma mas clara la clase perder, separándola de las otras dos posibles clases. VARIABLE_A_PREDECIR {GANA,EMPATA,PIERDE} Se dispone de datos desde la temporada hasta la temporada y el objetivo es determinar cuál es la relación entre estas variables y el resultado del Real Madrid. 2. DESARROLLO Y RESULTADOS 2.1 Preprocesado de los Datos En WEKA al cargar los datos y hacer clic sobre cada uno de los atributos, se muestra información sobre el mismo en la parte derecha de la ventana. En el caso de atributos discretos se indica el número de instancias que toman cada uno de los valores posibles; y en el caso de atributos reales se muestran los valores máximo, mínimo, medio y la desviación estándar. Asimismo, se muestra un gráfico en el que las distintas clases de las variables elegidas se representan con colores distintos. Esta variable es la VARIABLE_A_PREDECIR {perder (azul oscuro), empatar(rojo), ganar (azul claro)} - 2 -
3 En esta variable se puede apreciar una correlación entre el resultado de ganar en la jornada actual y los puntos medios por jornada que el Real Madrid acumula en la jornada anterior. Cuando tiene el equipo unos puntos medios por jornada entre 1.6 y 1.8, la probabilidad de tener un resultado de victoria en la siguiente jornada es muy alto comparado con los otros posibles valores de la variable. Un empate ó una derrota, sin embargo, no muestran una clara correlación con algún rango de valores, de forma que se pueda distinguir entre ambas clases.. En esta variable no se una aprecia correlación clara con los tres resultados posibles, asemejándose la distribución de los datos a una función de densidad uniforme prácticamente. En los goles medios por jornada se aprecia de nuevo una distribución gaussiana de los resultados para los tres tipos posibles de clases. Las tres distribuciones están centradas en un valor de 1.8 goles medios. Como se ve en la gráfica cuando el Real Madrid tiene este promedio de goles, es muy probable Ganar. Sin embargo, los resultados de empatar y perder no se destacan y es difícil clasificarlos. A su vez se aprecia a partir de 3 puntos medios por jornada como la probabilidad de ganar es altísima, lo que es lógico, dado que marcar más de 3 goles por jornada es sinónimo casi de la victoria en el partido. Curiosamente si el promedio es 2.5 goles, la probabilidad de empatar es alta. En la siguiente figura se muestra otra vista de las mismas variables: En lo que respecta a la hora del partido se aprecia como el resultado de ganar sobresale sobre los otros dos posibles resultados. La mayor cantidad de victorias está en las 22 horas, lo que es lógico, porque es donde se juega la mayor cantidad de partidos. Es prácticamente imposible poder discernir entre las clases empate y derrota. En esta figura se puede ver, como la mayor cantidad de partidos del Real Madrid se concentran en el sábado y el domingo, como era esperable. En ambos día de la semana se aprecia una cantidad de victorias similar
4 En lo que respecta al día del mes en que se juega el partido es complicado sacar conclusiones respecto a las tres clasificaciones, dado que siguen una función de densidad similar a una uniforme, salvo que el resultado de ganar sería el más probable de los tres todos los días. Al analizar las estadísticas de la diferencia de puntos medios por jornada del Real Madrid respecto al Barcelona, vemos cómo se distingue el resultado de ganar cuando hay una diferencia entre ambos equipos entre 0 y 1. El Barcelona es uno de los equipos de la liga profesional con mejores resultados en todas las temporadas, por lo que tiene sentido que si el Real Madrid está por encima del Barcelona en puntos, indica que se está realizando un juego con cierta calidad. En lo que respecta al mes en el que se juega el partido, se obtienen las mismas conclusiones que en la figura anterior. La bajada de las estadísticas entre 6 y 8 indica que en Mayo-Junio termina la liga y vuelve a empezar en Agosto-Septiembre. En el caso del Valencia, al analizar las estadísticas de la diferencia de puntos medios por jornada con el Real Madrid vemos como se distingue el resultado de ganar cuando hay una diferencia entre ambos equipos entre 0 y 1, pero especialmente en el valor cero, es decir, cuando ambos equipos consiguen la misma media de puntos por jornada, el Real Madrid tiene una gran probabilidad de ganar. El Valencia es un equipo de la liga de fútbol profesional con buenos, aunque peores que el Barcelona, casi en todas las temporadas. Tiene sentido razonar que si el Real Madrid está por encima del Valencia en puntos se tiene un buen juego y alta probabilidad de obtener la victoria. La variable suma de la fecha a un dígito indica que el Real Madrid gana con mayor probabilidad las fechas que suman entre 1, 4, 5, 8 y 9. En la figura de abajo se tiene otra vista de las mismas variables. Los valores de empate y derrota tienen una distribución similar de probabilidad, siendo ambos casi equiprobables donde aparecen
5 En el caso del Bilbao, la mayor concentración de victorias del Real Madrid se da cuando éste tiene una diferencia de puntos medios sobre el Bilbao entre 1 y 1.5. El Bilbao es uno de los equipos de la liga profesional con buenos resultados casi en todas las temporadas, por lo que tiene sentido que si el Real Madrid está por encima del Bilbao en media de puntos se está realizando un juego bueno. Una vista similar a la anterior es la siguiente, donde se que los resultados se concentran en los valores que hemos comentado. Como se ha ido viendo en las diversas gráficas hasta ahora es muy complicado distinguir con una probabilidad de acierto razonable cuando el equipo pierde ó empata. Con la variable RES_ALEAT se consigue que las clases perder, empatar y ganar no se centren en 3 valores discretos. Así se consigue que haya una mayor distribución al comparar el resultado de los partidos con otras variables. Cuando es tenga que decidir a qué clase pertenece un valor determinado, se tiene que ver si cae dentro de un rango. Si está entre 0 y 2 será partido perdido con una probabilidad alta. En el caso de que cayese entre 2 y 4 se decidiría empate, y para valores que cayesen por encima de 4 se decidiría victoria. Partiendo de la variable anterior y de las variables que tienen en cuenta las diferencias de goles y de puntos medios se obtienen unos resultados que se pueden considerar aceptables para decidir si el equipo gana, pero se distingue mal cuando pierde y empata. Cuando la suma de los goles medios y los puntos medios del Real Madrid respecto a los tres equipos de valores positivos y grandes, querrá decir que el Real Madrid tiene un nivel de juego dentro de la liga española de gran calidad y es muy probable la victoria. Esta misma variable se muestra en la figura siguiente con otra vista: No se ve una correlación clara entre los resultados del Real Madrid y los resultados de los otros equipos del análisis. Con la variable Pierde_Empata_gana*goles_marcados conseguimos distinguir de forma clara cuando gana el Real Madrid, pero no en el caso de las otras dos clases (perder, ganar) - 5 -
6 descartadas antes de volver a ejecutar las funciones de manera recursiva Resultados El resultado obtenido en ambos métodos es el mismo, recomendándose la selección de los parámetros: DÍA DE LA SEMANA y SUMAMEDIA_DIFERENCIAS. 2.2 Agrupamiento (CLUSTERES) En esta variable se puede observar como se ha conseguido resaltar la diferencia entre las clases perder y empatar, habiendo una cierta correlación con las tres posibles clases del estudio. Por último, en la siguiente gráfica, se puede ver que las clases de la variable a predecir {PIERDE, EMPATA, GANA}. En la variable a predecir se ve cómo el número de victorias es unas 3 veces la cantidad de derrotas, y el doble que los empates Para el desarrollo del agrupamiento se van a utilizar dos algoritmos con la finalidad de comparar los resultados obtenidos. Los métodos seleccionados serán el método de las k-medias y algoritmo EM K-medias El objetivo de este algoritmo es situar un conjunto de vectores centroide en el espacio de entrada que describan de forma discreta la densidad de las muestras observadas. Así en aquellos lugares más densos situará más vectores y viceversa. Para ello, en su versión en línea realiza descenso de gradiente en línea en el error cuadrático medio. Existen dos modos de funcionamiento del algoritmo dependiendo de si las muestras se reciban de manera continua o bien si estas muestras se encuentran previamente en una base de datos. El resultado de su ejecución es: Se utiliza a su vez la opción de WEKA de seleccionar variables, utilizándose el evaluador de parámetros CfsSubsetEval con el método de búsqueda BestFirst, y el método GeneticSearch. Este evaluador considera el valor predictivo individual de cada atributo. Los métodos de búsqueda trabajan del siguiente modo Best First Recorre el árbol expandiendo primero las ramas más prometedoras con respecto a una regla dada. Para ello supone la existencia de una función de evaluación que debe medir la distancia estimada al objetivo. Esta función puede depender de la variable sobre la que aplicarla, la descripción del objetivo, la información disponible hasta ese momento o un conocimiento añadido sobre el problema. El algoritmo no asegura una solución óptima Genetic Search Se fundamenta en la mímica de los principios de evolución y genética. A diferencia de los algoritmos convencionales trabajan con una codificación del conjunto solución, y la búsqueda se realiza sobre un grupo de estas soluciones en lugar de sobre una sola. Sobre este grupo se emplean funciones que los hacen evolucionar de manera semejante a como ocurre en la evolución biológica, de forma que al aplicar unos criterios de selección se deciden cuales son las muestras mas adaptadas y cuales las menos, que son Cluster 0 Mean/Mode: S Std Devs: N/A Cluster 1 Mean/Mode: D Std Devs: N/A Clustered Instances 0 8 ( 44%) 1 10 ( 56%) - 6 -
7 2.2.2 EM Este método puede aplicarse en situaciones en las que se desea estimar un conjunto de parámetros que describen una distribución de probabilidad subyacente cuando únicamente están disponibles los datos de una parte observada de la distribución. Estos datos conocidos forman un vector X que al complementarse con el vector de datos ocultos Y forman el conjunto completo de datos Z. Los elementos de Z pueden obtenerse a partir de los parámetros a estimar y de los datos observados incluidos en el vector X. Por otro lado como X es una variable aleatoria, por lo que Z será otra variable aleatoria al estar definida a partir de X. Este algoritmo busca la hipótesis h2 que maximiza la esperanza del logaritmo de la distribución de probabilidad que define el conjunto total de datos Z y que es función de los parámetros desconocidos. Esta distribución define la verosimilitud de los datos completos Z dada una hipótesis h2 de los parámetros ocultos. Al maximizar el logaritmo de la distribución se consigue maximizar la verosimilitud, trabajando con la esperanza de esta función debido a que se trata de una variable aleatoria. Se debe tener en cuenta que esta distribución contiene valores ocultos, por lo que para obtener un resultado correcto se deben considerar todos los posibles valores de la variable oculta Y ponderados según su probabilidad. Por lo tanto esta distribución está determinada por los valores observados X más por la distribución de los valores ocultos Y. Dado que se desconoce la distribución de Z al ser función en parte de parámetros ocultos que se pretende estimar, el método EM se basa en la hipótesis actual h1 para obtener esta distribución. Se define una función Q(h2 h1) que proporciona la esperanza del logaritmo de la distribución Z como función de h2 suponiendo que los parámetros ocultos coinciden con h1 y dado el conjunto de observaciones conocido X. Por lo tanto, la distribución de probabilidad de Z estaría definida por X y h1 y se utilizará para calcular la esperanza del logaritmo de Z para una hipótesis cualquiera h2. Para la realización del algoritmo EM se repiten los siguientes pasos hasta obtener la convergencia: Paso 1: estimación. Calcular Q(h2 h1) mediante h1 y los datos observados X para estimar la distribución de probabilidad de Z. Paso 2: maximización. Sustituir h1 por la hipotesis h2 que maximiza la función Q. Cluster: 0 Prior probability: Cluster: 1 Prior probability: Cluster: 2 Prior probability: Cluster: 3 Prior probability: Cluster: 4 Prior probability: Cluster: 5 Prior probability: Clustered Instances 0 2 ( 11%) 2 1 ( 6%) Log likelihood: ( 39%) 5 8 ( 44%) Por todo ello se eligen las variables para la creación del modelo SUMAMEDIA_DIFERENCIAS (la cual es contribución de varias variables del estudio)y como ha indicado WEKA DÍA DE LA SEMANA. 2.3 Asociación (CLASSIFIERS) Para realizar la asociación principalmente se ha utilizado el algoritmo J48 de WEKA, aunque también se ha tratado el OneR Algoritmo OneR Algoritmo One Rule. Simple y rápido, pero muy efectivo. Genera un árbol de decisión de un solo nivel mediante la selección de atributos basada en errores. A pesar de su simplicidad se consiguen resultados ligeramente peores a los obtenidos con métodos más complejos y difíciles de entender para los humanos. Genera una regla para cada atributo del espacio de entrenamiento y elige la regla que tiene menor tasa de error. Para crear esa regla se debe determinar la clase más frecuente de cada atributo, es decir, la que aparece en más ocasiones Algoritmo J48 Este método se basa en el algoritmo C4.5, que a su vez es una extensión del ID3. Realiza una construcción de un arbol de clasificación y una selección de atributos para maximizar la ganancia de información, esto es, conseguir una reducción de entropía como consecuencia de realizar una división de los datos del espacio. La diferencia de este algoritmo con el ID3 consiste en que el C4.5 permite además de su aplicación sobre datos discretos, la ejecución en espacios continuos. El árbol de clasificación se construye basándose en atributos y umbral, mediante los cuales se decide la creación de las ramas a partir del nodo raíz. El problema reside en la selección de estos dos parámetros, si bien no es necesario comprobar todo el espacio de umbrales ya que será infinito. 3. EVALUACIÓN Para el entrenamiento de los algoritmos se han utilizado los datos de las temporadas hasta la temporada Con los resultados de la temporada se ha hecho un test (pasando todos los datos a WEKA en otro fichero excepto si gana, ierde ó empata en esa jornada) para comprobar el acierto del modelo creado a partir de las variables elegidas. También se ha - 7 -
8 comprobado el tanto por ciento de acierto haciendo un test con los propios datos de entrenamiento. Los resultados correctos para el test son: 1. GANA 2. GANA 3. GANA 4. GANA 5. GANA 6. EMPATA 7. GANA 8. PIERDE 9. GANA 10. GANA 11. PIERDE 12. GANA 13. GANA 14. GANA 15. EMPATA 16. GANA 17. GANA 18. GANA Algoritmo OneR inst#, actual, predicted, error, probability distribution 1? 3:GANA *1 2? 3:GANA *1 3? 3:GANA *1 4? 3:GANA *1 5? 3:GANA *1 6? 3:GANA *1 7? 3:GANA *1 8? 3:GANA *1 9? 3:GANA *1 10? 2:EMPATA + 0 *1 0 11? 3:GANA *1 12? 3:GANA *1 13? 3:GANA *1 14? 2:EMPATA + 0 *1 0 15? 2:EMPATA + 0 *1 0 16? 2:EMPATA + 0 *1 0 17? 2:EMPATA + 0 *1 0 18? 3:GANA *1 Con este test se consigue una predicción correcta de 11 de 18. El acierto es aquí del (18-7) /18*100= 61% Al evaluar con los mismos datos de entrenamiento: === Evaluation on training set === === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances Algoritmo J48 === Predictions on test set === inst#, actual, predicted, error, probability distribution 1? 1:PIERDE + * ? 2:EMPATA + 0 *1 0 3? 3:GANA *0.75 4? 3:GANA *1 5? 3:GANA *0.75 6? 2:EMPATA + 0 *1 0 7? 3:GANA *0.75 8? 3:GANA *0.75 9? 1:PIERDE + * ? 3:GANA *1 11? 3:GANA * ? 3:GANA * ? 2:EMPATA + 0 *1 0 14? 2:EMPATA + 0 *1 0 15? 2:EMPATA + 0 *1 0 16? 2:EMPATA + 0 *1 0 17? 2:EMPATA + 0 *1 0 18? 3:GANA *1 Con este test se consigue una predicción correcta de 9 de 18. El acierto es aquí del (18-9) /18*100= 50% 4. TRABAJOS FUTUROS Se podría estudiar la relación del Real Madrid con otros equipos de la liga española, ó de otras ligas ó deportes. Una variable que se podria incluir y que resulta muy interesante es el valor medio - 8 -
9 de puntos obtenidos por partido del contrincante del Real Madrid. Con esto el programa tendría información muy precisa de la situación y la calidad del equipo contra el que juega, siendo esta información muy accesible a la hora de la búsqueda de las bases de datos. Además se podrían incluir muchos más temporadas de fútbol. 5. CONCLUSIONES WEKA proporciona un entorno de trabajo sencillo y adecuado para analizar todos los datos con una gran cantidad de algoritmos. De los resultados obtenidos se ve la complejidad de predecir este tipo de resultados deportivos, en lo que intervienen multitud de factores difíciles de identificar. La predicción de este tipo de acontecimientos deportivos implica tener acceso a una gran cantidad de información, la cual no se encuentra con facilidad. De los resultados obtenidos en el test se concluye que la probabilidad de acertar el resultado de un partido del Real Madrid está entre el 50 y 60 % para los algoritmos utilizados. Si se quisiera predecir el resultado conjunto de varios equipos, por ejemplo en la quiniela, se ve que la probabilidad conjunta de acertar un pleno al 15 es realmente poco probable. 6. REFERENCIAS [1] [2] [3] as - 9 -
Automatización de la Evaluación del Impacto Social en Proyectos de Inversión Publica
Automatización de la Evaluación del Impacto Social en Proyectos de Inversión Publica Ronald René Vergara Pareja 1 Agenda Objetivo de la Investigación. Situación Actual de los Proyectos de Inversión Publica.
Más detallesPredicción meteorológica
Predicción meteorológica Trabajo hecho por: Roberto García Sanchez Pablo Casas Muñoz Qué es WEKA? Acrónimo de Waikate Environment for Knowledge Analisis Es un entorno para experimentación de análisis de
Más detallesFundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 11 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Resolución manual de clasificación bayesiana
Más detallesPráctica 2: Utilización de WEKA desde la línea de comandos.
PROGRAMA DE DOCTORADO TECNOLOGÍAS INDUSTRIALES APLICACIONES DE LA INTELIGENCIA ARTIFICIAL EN ROBÓTICA Práctica 2: Utilización de WEKA desde la línea de comandos. Objetivos: Utilización de WEKA desde la
Más detallesGLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.
GLOSARIO ESTADÍSTICO Fuente: Murray R. Spiegel, Estadística, McGraw Hill. CONCEPTOS Y DEFINICIONES ESPECIALES Es el estudio científico de los métodos para recoger, organizar, resumir y analizar los datos
Más detallesEstimación de Parámetros. Jhon Jairo Padilla A., PhD.
Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de
Más detallesEstimación de Parámetros. Jhon Jairo Padilla A., PhD.
Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de
Más detallesESTADISTICA DESCRIPTIVA. Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos.
ESTADISTICA DESCRIPTIVA 1. DEFINICION La estadística es una ciencia que facilita la toma de decisiones: Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos. Reduciendo
Más detallesLa forma en que se determina el Elo de un jugador fue ideada para el ajedrez en 1959, por el profesor de matemáticas, el Dr. Élő Árpád.
1.1.1 Qué es el Elo y cómo se calcula?. El Elo es un valor numérico que se asigna a cada jugador en relación con su "fuerza" o nivel de juego, en base al cual se puede estimar su probabilidad de victoria
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesEstadística. Análisis de datos.
Estadística Definición de Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un
Más detallesRegresión ponderada y falta de ajuste
Capítulo 4 Regresión ponderada y falta de ajuste 4.1. Introducción En este capítulo se presentan la regresión ponderada y la prueba de falta de ajuste como un conjunto adicional de herramientas usadas
Más detallesARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.
ARBOLES DE DECISION Miguel Cárdenas-Montes Los árboles de decisión son estructuras lógicas con amplia utilización en la toma de decisión, la predicción y la minería de datos. Objetivos: Entender como funcionan
Más detallesControl Estadístico de Procesos Capacidad de Proceso
Control Estadístico de Procesos Capacidad de Proceso Un proceso de fabricación es un conjunto de equipos, materiales, personas y métodos de trabajo que genera un producto fabricado. Maquinaria Métodos
Más detallesReglas de Asociación en Weka
Reglas de Asociación en Weka Este documento muestra cómo establecer reglas de asociación en Weka usando como ejemplo los datos de un banco "bank.arff". El punto de inicio consiste en discretizar los datos
Más detallesANÁLISIS DE DATOS. Jesús García Herrero
ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar
Más detallesPrimero definiré lo que es un gráfico o diagrama en estadística
8. Tipos de Grafícas 8.1 Tipos de Gráficas. Primero definiré lo que es un gráfico o diagrama en estadística Un diagrama es una especie de esquemático, formado por líneas, figuras, mapas, utilizado para
Más detallesTabla 7: Ejemplo matriz CaractE
8 RESULTADOS EXPERIMENTALES 8.1 MATRICES DE CARACTERÍSTICAS Con el fin de dar una idea más precisa de cómo se conforman las matrices de características usadas en el reconocimiento de patrones y qué valores
Más detallesTeoría del muestreo. Tipos de muestras
Teoría del muestreo El total de un grupo de datos de llama población o universo, y una porción representativa de este grupo se llama muestra. Las muestras desempeñan un papel muy importante en los trabajos
Más detallesPráctica 5: Clasificación con número variable de ejemplos.
5º INGENIERÍA DE TELECOMUNICACIÓN INTELIGENCIA ARTIFICIAL Y RECONOCIMIENTO DE PATRONES Práctica 5: Clasificación con número variable de ejemplos. Objetivos: Utilización de conjuntos de entrenamiento y
Más detallesEconometría II Grado en finanzas y contabilidad
Econometría II Grado en finanzas y contabilidad Variables aleatorias y procesos estocásticos. La FAC y el correlograma Profesora: Dolores García Martos E-mail:mdgmarto@est-econ.uc3m.es Este documento es
Más detallesAPRENDIZAJE PROBABILÍSTICO NAIVE BAYES
1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;
Más detallesQué es una regresión lineal?
Apéndice B Qué es una regresión lineal? José Miguel Benavente I. Introducción En varios capítulos de este libro se ocupan regresiones lineales y se afirma que el coeficiente de regresión indica cuánto
Más detallesTécnicas de Minería de Datos
Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.
Más detallesANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE
ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE Jorge Fallas jfallas56@gmail.com 2010 1 Temario Introducción: correlación y regresión Supuestos del análisis Variación total de Y y variación explicada por
Más detallesCLASES DE ESTADÍSTICA II ESPERANZA ABSOLUTA
1 CLASES DE ESTADÍSTICA II CLASE ) ESPERANZA ABSOLUTA. ESPERANZA CONDICIONAL. ESPERANZA ABSOLUTA El cálculo de valores esperados o esperanzas a nivel de dos variables aleatorias es una generalización matemática
Más detallesAnálisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos
Más detallesJesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL
Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL En esta clase se presenta un método de inducción de modelos numéricos de regresión a partir de datos. En el tema de técnicas clásicas se presentó la
Más detallesDistribución normal estándar. Juan José Hernández Ocaña
Distribución normal estándar Juan José Hernández Ocaña Tipos de variables jujo386@hotmail.com Tipos de variables Cualitativas Son las variables que expresan distintas cualidades, características o modalidades.
Más detallesMASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.
MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. 1 Objetivos del tema Conocer en qué consiste un árbol de decisión. Aprender los problemas que pueden
Más detallesEL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)
EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) Fortino Vela Peón fvela@correo.xoc.uam.mx FVela-0 Objetivo Introducir las ideas básicas del principio de máxima verosimilitud. Problema Considere el experimento
Más detallesESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA Definición de Estadística: La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer
Más detallesPráctica 4. Contraste de hipótesis
Práctica 4. Contraste de hipótesis Estadística Facultad de Física Objetivos Ajuste a una distribución discreta uniforme Test χ 2 Comparación de muestras Ajuste a una distribución normal 1 Introducción
Más detallesCarteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN
Carteras minoristas Ejemplo: Construcción de un scoring de concesión basado en un árbol de decisión Grupo de Tesorería y Modelos de Gestión de Riesgos Sergio Gavilá II Seminario sobre Basilea II Validación
Más detallesInteligencia en Redes de Comunicaciones
Inteligencia en Redes de Comunicaciones Autores: -Daniel Pérez Vaquero. -Javier García Lloreda. Fecha: -17 de Diciembre de 2013. 1. Introducción Al Clustering. El clustering no es más que el agrupamiento
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Reconocimiento de patrones (RP): clasificar objetos en un número de categorías o clases.
Más detallesPredicción de resultados de Fútbol
Predicción de resultados de Fútbol Recuperación de Información y Recomendaciones en la Web Integrantes: Juan Pablo Pascual 4.569.366-6 Nicolás Sanguinetti 4.712.015-4 Kevin Quincke 4.789.663-6 Miguel Langone
Más detallesLa eficiencia de los programas
La eficiencia de los programas Jordi Linares Pellicer EPSA-DSIC Índice General 1 Introducción... 2 2 El coste temporal y espacial de los programas... 2 2.1 El coste temporal medido en función de tiempos
Más detallesMs. C. Marco Vinicio Rodríguez
Ms. C. Marco Vinicio Rodríguez mvrodriguezl@yahoo.com http://mvrurural.wordpress.com/ Uno de los objetivos de la estadística es saber acerca del comportamiento de parámetros poblacionales tales como:
Más detallesECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica
ECONOMETRÍA II Prof.: Begoña Álvarez 2007-2008 TEMA 1 INTRODUCCIÓN Estimación por máxima verosimilitud y conceptos de teoría asintótica 1. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MAXIMUM LIKELIHOOD) La estimación
Más detallesAgro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos
Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,
Más detallesUn estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.
La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadístico consta de las siguientes
Más detallesMINERIA DE DATOS: ANÁLISIS DE DATOS ELECTORALES
MINERIA DE DATOS: ANÁLISIS DE DATOS ELECTORALES Rubén Gómez-Chacón Camuñas rgomezch@ing.uc3m.es Javier Jimenez Dorado jjdorado@ing.uc3m.es RESUMEN En este artículo vamos a tratar un problema de minería
Más detallesTema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1
Tema 1: Estadística descriptiva Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1 Introducción Objetivo: estudiar una característica o variable en una población. Ejemplos:
Más detallesTécnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste
Técnicas de Inferencia Estadística II Tema 3. Contrastes de bondad de ajuste M. Concepción Ausín Universidad Carlos III de Madrid Grado en Estadística y Empresa Curso 2010/11 Tema 3. Contrastes de bondad
Más detallesPROBABILIDAD Y ESTADÍSTICA
PROBABILIDAD Y ESTADÍSTICA Pablo Torres Facultad de Ciencias Exactas, Ingeniera y Agrimensura - Universidad Nacional de Rosario Unidad 2: Probabilidad INTRODUCCIÓN Al lanzar un dado muchas veces veremos
Más detallesFLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional
FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- Estadística variable unidimensional 1. Conceptos de Estadística 2. Distribución de frecuencias 2.1. Tablas de valores con variables continuas 3. Parámetros
Más detallesAprendizaje Automático. Objetivos. Funciona? Notas
Introducción Las técnicas que hemos visto hasta ahora nos permiten crear sistemas que resuelven tareas que necesitan inteligencia La limitación de estos sistemas reside en que sólo resuelven los problemas
Más detallesLA ESTRATEGIA FACTOR DETERMINANTE DEL RESULTADO EN EL FÚTBOL-SALA
LA ESTRATEGIA FACTOR DETERMINANTE DEL RESULTADO EN EL FÚTBOL-SALA Javier Alvarez Medina, Alberto Nuviala Nuviala Facultad Ciencias de la Salud y del Deporte. Universidad de Zaragoza. Departamento de Fisiatría
Más detallesBÚSQUEDA INTELIGENTE BASADA EN METAHEURÍSTICAS
Departamento de Inteligencia Artificial Grupo de Análisis de Decisiones y Estadística BÚSQUEDA INTELIGENTE BASADA EN METAHEURÍSTICAS PRÁCTICAS 1 Existen varias características que pueden causar dificultades
Más detallesCapítulo 8. Análisis Discriminante
Capítulo 8 Análisis Discriminante Técnica de clasificación donde el objetivo es obtener una función capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas variables
Más detallesTema 13: Contrastes No Paramétricos
Tema 13: Contrastes No Paramétricos Presentación y Objetivos. La validez de los métodos paramétricos depende de la validez de las suposiciones que se hacen sobre la naturaleza de los datos recogidos. La
Más detallesESTADÍSTICA UNIDIMENSIONAL
ESTADÍSTICA UNIDIMENSIONAL DEFINICIÓN DE VARIABLE Una variable estadística es cada una de las características o cualidades que poseen los individuos de una población. TIPOS DE VARIABLE ESTADÍSTICAS Ø Variable
Más detallesObject Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary
Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary P. Duygulu, K. Barnard, J.F.G. de Freitas, and D.A. Forsyth Dr. Enrique Sucar 1 Victor Hugo Arroyo Dominguez 1
Más detallesINSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016
ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una
Más detallesAuxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13
Auxiliar 9 MNL y MLE Daniel Olcay IN4402 21 de octubre de 2014 Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de 2014 1 / 13 Índice Modelos no lineales Probabilidad lineal Probit Logit Máxima verosimilitud
Más detallesAplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas
Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas Apellidos, nombre Capilla Romá, Carmen 1 (ccapilla@eio.upv.es) Departamento Centro 1 Estadística e Investigación
Más detallesHasta ahora hemos visto los proyectos de inversión como flujos de caja conocidos y ciertos o conociendo diversos valores del mismo en términos de
Hasta ahora hemos visto los proyectos de inversión como flujos de caja conocidos y ciertos o conociendo diversos valores del mismo en términos de probabilidad, traducidos a un sólo valor por período a
Más detalles2.1. Es un juego de información perfecta o imperfecta? Fundamente su respuesta.
Ejercicios 3. Considere la siguiente versión del juego del ultimátum. Hay 3 monedas. J puede ofrecer quedarse con o con. acepta o rechaza. Si rechaza, los dos jugadores obtienen. Suponga que los jugadores
Más detallesMEDIDAS DE VARIABILIDAD
MEDIDAS DE VARIABILIDAD 1 Medidas de variabilidad Qué son las medidas de variabilidad? Las medidas de variabilidad de una serie de datos, muestra o población, permiten identificar que tan dispersos o concentrados
Más detallesDesafío 135. Mayor o Menor (Superpanzeta)
Desafío 135. Mayor o Menor (Superpanzeta) Ángela, Benito y Carlos son amigos, y aficionados a las apuestas. Primera parte: Ángela le propone a Benito una apuesta de un Euro por el siguiente procedimiento:
Más detallesUnidad III: Estadística descriptiva
Unidad III: Estadística descriptiva 3.1 Conceptos básicos de estadística: Definición, Teoría de decisión, Población, Muestra aleatoria, Parámetros aleatorios TEORÍA DE DECISIÓN Estudio formal sobre la
Más detallesCapítulo 6: EVALUACIÓN Y COMPARACIÓN DE MÉTODOS
Capítulo 6: EVALUACIÓN Y COMPARACIÓN DE MÉTODOS En este capítulo, se realiza la evaluación y comparación de los métodos de paralelización de recurrencias descritos y propuestos en este trabajo. Los resultados
Más detallesPronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple
Pronósticos, Series de Tiempo y Regresión Capítulo 4: Regresión Lineal Múltiple Temas Modelo de regresión lineal múltiple Estimaciones de Mínimos Cuadrados Ordinarios (MCO); estimación puntual y predicción
Más detallesIdentificación mediante el método de los mínimos cuadrados
Ingeniería de Control Identificación mediante el método de los mínimos cuadrados Daniel Rodríguez Ramírez Teodoro Alamo Cantarero Contextualización del tema Conocimientos relevantes aprendidos previamente:
Más detallesBúsqueda en línea y Búsqueda multiagente
Búsqueda en línea y Búsqueda multiagente Ingeniería Informática, 4º Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani 1 Tema 2: Agentes basados en Búsqueda Resumen: 2. Agentes basados
Más detallesTeniendo en cuenta los valores de las variables se tienen 3 tipos de modelos lineales enteros:
Tema 5 Programación entera En este tema introducimos problemas lineales en los que algunas o todas las variables están restringidas a tomar valores enteros. Para resolver este tipo de problemas se han
Más detallesEstimación de Parámetros
Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: p Estimación de Parámetros Prueba de Hipótesis Estimación
Más detallesDr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental
Universidad de Puerto Rico Recinto de Aguadilla Programa CeCiMat Elemental Definición de conceptos fundamentales de la Estadística y la Probabilidad y su aportación al mundo moderno Dr. Richard Mercado
Más detallesEstadística ESTADÍSTICA
ESTADÍSTICA La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadístico consta
Más detallesTema 2. Regresión Lineal
Tema 2. Regresión Lineal 3.2.1. Definición Mientras que en el apartado anterior se desarrolló una forma de medir la relación existente entre dos variables; en éste, se trata de esta técnica que permite
Más detallesTercera práctica de REGRESIÓN.
Tercera práctica de REGRESIÓN. DATOS: fichero practica regresión 3.sf3 1. Objetivo: El objetivo de esta práctica es aplicar el modelo de regresión con más de una variable explicativa. Es decir regresión
Más detallesFase 2. Estudio de mercado: ESTADÍSTICA
1. CONCEPTO DE ESTADÍSTICA. ESTADÍSTICA DESCRIPTIVA 2. 3. TABLA DE FRECUENCIAS 4. REPRESENTACIONES GRÁFICAS 5. TIPOS DE MEDIDAS: A. MEDIDAS DE POSICIÓN B. MEDIDAS DE DISPERSIÓN C. MEDIDAS DE FORMA 1 1.
Más detallesALUMNO: MARCOS PINA UTRILLA PROFESOR: Fernando Gimeno Marco CURSO:
Universidad de Zaragoza Facultad de Ciencias de la Salud y del Deporte Grado de Ciencias de la Actividad Física y del Deporte Asignatura: Psicología de la Actividad Física y del Deporte ALUMNO: MARCOS
Más detalles1. Ejercicios. 2 a parte
1. Ejercicios. 2 a parte Ejercicio 1 Calcule 1. P (χ 2 9 3 33) 2. P (χ 2 15 7 26). 3. P (15 51 χ 2 8 22). 4. P (χ 2 70 82). Ejercicio 2 Si X χ 2 26, obtenga un intervalo [a, b] que contenga un 95 % de
Más detallesESTABILIZADOR1X2 BETA - JUNIO 2017
ESTABILIZADOR1X2 BETA - JUNIO 2017 Por Eduardo Losilla MANUAL DE USO ESTABILIZA TU COMBINACIÓN EN BASE A: > Los porcentajes de signos que quieras jugar en cada partido. > El número de apuestas a jugar.
Más detallesSobreajuste - Overfitting
Sobreajuste - Overfitting Miguel Cárdenas-Montes Cuando se evalúa la calidad de un modelo o un ajuste, es importante medir el error en el conjunto de entrenamiento y en la predicción. La utilización exclusiva
Más detallesAlgoritmos genéticos
Algoritmos genéticos Introducción 2 Esquema básico 3 El problema de la mochila 7 Asignación de recursos 0 El problema del viajante 3 Variantes del esquema básico 5 Por qué funciona? 9 Observaciones finales
Más detallesPosibles trabajos HIA
Posibles trabajos HIA Posibles trabajos Comparar otras herramientas de Minería de Datos con Weka Estudiar la influencia del ruido en bagging y boosting Estudiar la influencia del parámetro de poda en J48
Más detallesEmparejamientos aplicados a la elaboración de calendarios deportivos (II/II)
Emparejamientos aplicados a la elaboración de calendarios deportivos (II/II) Aida Olalla Díaz Fernández Ingeniera Técnica en Informática de Gestión, estudia en la actualidad º curso de Ingeniería Informática.
Más detallesVARIABLES ALEATORIAS INTRODUCCIÓN
DOCENTE: SERGIO ANDRÉS NIETO DUARTE CURSO: ESTADÍSTICA DE LA PROBABILIDAD VARIABLES ALEATORIAS INTRODUCCIÓN Normalmente, los resultados posibles (espacio muestral E) de un experimento aleatorio no son
Más detallesJulio Deride Silva. 4 de junio de 2010
Curvas ROC y Regresión Lineal Julio Deride Silva Área de Matemática Facultad de Ciencias Químicas y Farmcéuticas Universidad de Chile 4 de junio de 2010 Tabla de Contenidos Curvas ROC y Regresión Lineal
Más detallesSelección de atributos
Selección de atributos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Clasificación de las técnicas Esquema General Evaluadores
Más detallesb) Si decides elegir el trabajo que con más probabilidad te permita ganar más de 900 euros al mes, qué trabajo debes elegir?
Ignacio Cascos Fernández Departamento de Estadística Universidad Carlos III de Madrid Hoja 4, curso 2006 2007. Ejercicio 1. Suponer que los cuatro motores de una aeronave comercial se disponen para que
Más detallesTema: Análisis de valores faltantes con SPSS
Tema: Análisis de valores faltantes con SPSS 1.- Introducción Hemos de comenzar advirtiendo que el Procedimiento Valores perdidos no se incluye en el sistema Base de SPSS, por lo que solo estará disponible
Más detallesProcedimiento para crear un curso en Moodle Editar un curso en Moodle
Procedimiento para crear un curso en Moodle Editar un curso en Moodle ÍNDICE Procedimiento para crear un curso... 3 Características básicas del curso... 6 Estructura general del curso... 6 Módulos comunes
Más detallesReconocimiento de Patrones
Reconocimiento de Patrones Técnicas de validación (Clasificación Supervisada) Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica, Óptica y Electrónica Clasificación Supervisada Para qué evaluar
Más detallesESTADISTICA Y PROBABILIDAD ESTADÍSTICA
ESTADÍSTICA La estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comprobaciones y sacar conclusiones. Un estudio estadístico consta
Más detalles1 CÁLCULO DE PROBABILIDADES
1 CÁLCULO DE PROBABILIDADES 1.1 EXPERIENCIAS ALEATORIAS. SUCESOS 1.1.1 Definiciones Experiencia aleatoria: experiencia o experimento cuyo resultado depende del azar. Suceso aleatorio: acontecimiento que
Más detallesAntigüedad y Desempeño Laboral en la Muestra General
RESULTADOS La investigación tuvo como objetivo estudiar la relación entre Actitud de Compromiso y Desempeño Laboral; así como la relación la Antigüedad del trabajador y el Desempeño Laboral y la Actitud
Más detallesModelos Estadísticos de Crimen
Universidad de los Andes Modelos Estadísticos de Crimen 27 de Mayo de 2015 Motivacion Conocer la densidad de probabilidad del crimen sobre una ciudad, a distintas horas del día, permite Modelos Estadísticos
Más detallesProf. Angel Zambrano ENERO 2009 Universidad de Los Andes Escuela de Estadística
Prof. Angel Zambrano ENERO 009 Universidad de Los Andes Escuela de Estadística Muestreo: Es una metodología que apoyándose en la teoría estadística y de acuerdo a las características del estudio, indica
Más detallesCódigos IRA. Máster en Multimedia y Comunicaciones Comunicaciones Digitales. Luca Martino
Códigos IRA Máster en Multimedia y Comunicaciones Comunicaciones Digitales Luca Martino Codificación de Canal! Supongamos tener un canal binario discreto, simétrico sin memoria:! Objetivo: encontrar una
Más detallesOtra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza
CARACTERÍSTICAS DE LA POBLACIÓN. Una pregunta práctica en gran parte de la investigación de mercado tiene que ver con el tamaño de la muestra. La encuesta, en principio, no puede ser aplicada sin conocer
Más detallesProbabilidad. Generalidades
robabilidad Generalidades a probabilidad estudia experimentos en los que se pueden esperar varios resultados y no solamente uno. os experimentos se pueden clasificar como aleatorios o determinísticos.
Más detalles2. Editor de Fórmulas Léxico...5
Manual de Fórmulas Sumario 1. Introducción... 2 1.1. Tipos de Conceptos a incluir en la fórmula...2 2. Editor de Fórmulas...4 2.1. Área de Datos de Aplicación...4 2.2. Área de Variables...4 2.3. Área de
Más detallesUna población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.
Estadística Definición de Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un
Más detallesInteligencia Artificial
I.T. en Informática de Sistemas, 3º Curso académico: 2009/2010 Profesores: Sascha Ossowski y Ramón Hermoso 1 Tema 2: Búsqueda Resumen: 2. Búsqueda 2.1. Agentes de resolución de problemas 2.2. Búsqueda
Más detallesMANUAL PARA LA PERSONA USUARIA CONSULTA DE BASE DATOS EN LÍNEA PROGRAMA REDATAM
INSTITUTO NACIONAL DE ESTADÍSTICA Y CENSOS Área de Censos de Población y Vivienda Unidad de Diseño, Procesamiento y Análisis MANUAL PARA LA PERSONA USUARIA CONSULTA DE BASE DATOS EN LÍNEA PROGRAMA REDATAM
Más detalles