Aprendizaje Automático
|
|
- María Isabel Pereyra Miranda
- hace 7 años
- Vistas:
Transcripción
1 Aprendizaje Automático Andrea Mesa 21 de mayo de 2010
2 Aprendizaje automático Otras denominaciones: machine learning, statistical learning, data mining, inteligencia artificial. Las técnicas de Aprendizaje Automático pueden utilizarse cuando se quiere modelar un fenómeno en cualquier área de la ciencia.
3 Problemas frecuentes en modelización interacciones complejas entre las variables de interés datos faltantes observaciones dependientes tamaño de las muestras y número de variables
4 Ventajas del Aprendizaje Automático predicciones cuantitativas eficientes comprensión cualitativa del fenómeno a modelar y eventualmente su causalidad dependiendo de los objetivos que se planteen se priorizará la exactitud de la predicción o la comprensión de los patrones subyacentes se puede trabajar con comodidad, aun cuando el número de datos y/o de variables sea grande
5 Aprendizaje automático Se divide en: Aprendizaje supervisado: regresión, clasificación Aprendizaje no supervisado: clustering
6 Aprendizaje supervisado Objetivo aprender a predecir el output Y dado el input X, mediante la construcción de una función f que llamamos predictor.
7 Variables X: variable independiente, explicativa, de entrada, input Y: variable dependiente, de salida, output reales o multidimensionales continuas, categóricas, binarias, etc. si Y es continua: problema de regresión si Y es discreta o categórica: problema de clasificación datos: (X 1,Y 1 ),.(X n,y n ) donde cada X i puede ser un vector de observaciones
8 Esquema de ML Datos Muestra de entrenamiento (X 1,Y 1 ),.(Xn,Yn) Elección del algoritmo Muestra de validación Datos Frescos Modificación o no del los parámetros del algoritmo Salida Y
9 Ejemplo 1 Contaminación ambiental Variables de entrada X: vector de variables ambientales en el día n (temperatura, nivel de ozono, presión atmosférica, vientos, etc.) Variable de salida Y: nivel de contaminación ambiental en el día n+1 El ejemplo corresponde a un problema de regresión, pero si se considera la variable de salida Y dividida en categorías el problema es de clasificación.
10 Ejemplo 2 Selección de hábitat de Antilorca americana Variables de entrada X : abundancia de alimento, características del terreno (altitud, pendiente), distancia al agua, etc. Variable de salida Y: presencia/ausencia de Antilorca americana El output Y es una variable binaria, esto es toma sólo los valores 0,1, por lo que el ejemplo es de clasificación.
11 Predictor Buscamos una función (predictor) que minimice el riesgo de predecir mal, para ello se define una función de pérdida, L(X, f(x), Y), y se busca f**, entre todas las funciones de una cierta clase C, que haga mínimo el valor esperado de L (que llamamos riesgo). Riesgo:
12 Predictor En la práctica este predictor se basa en la muestra de entrenamiento y se construye como aquella función que minimiza el riesgo empírico.
13 Performance del predictor Para evitar el sobreajuste (overfitting), se evalúa la performance del predictor con una nueva muestra llamada muestra de evaluación o de testeo, independiente de la muestra de entrenamiento. Otras formas de evaluar el predictor: validación cruzada, bootstrap.
14 Errores Llamamos f* al mejor entre todos los predictores posibles f** al mejor de los predictores posibles en la clase de funciones C f al predictor que usamos en la práctica (esto es: el que minimiza el riesgo empírico)
15 Errores Error de modelización: f* - f** depende de la elección de la clase C, si consideramos C como la familia de todas las funciones posibles, tendremos overfitting. Error de estimación: f** - f es un error estadístico, si el tamaño n de la muestra es grande, bajo ciertas hipótesis sobre la clase C, se cumple que f converge a f** Se debe lograr un compromiso entre ambos errores, de forma tal que el error total sea el menor posible
16 Errores
17 Teorema fundamental del Learning El Teorema fundamental del Learning establece que, bajo ciertas condiciones sobre la clase de funciones C, f converge a f**. Estas condiciones están relacionadas con la dimensión de Vapnik-Chervonenkis (VC) de C. La dimensión VC mide cuan grande es una clase infinita de funciones, así si C no es demasiado grande, esto es la dimensión VC es finita, se está en las hipótesis del Teorema fundamental del Learning.
18 Problemas clásicos de la estadística Regresión Reconocimiento de patrones Estimación de densidades
19 Regresión Si la función de pérdida es la cuadrática La función solución es la función de regresión Así el problema de regresión puede verse como un problema de minimización del riesgo.
20 Reconocimiento de patrones Si la función de pérdida es la indicatriz Minimizar la probabilidad de clasificar mal equivale a minimizar el riesgo.
21 Estimación de densidades Si la función de pérdida es Usando varios resultados y haciendo algunas operaciones, el problema de estimar la densidad g puede verse como un problema de minimización del riesgo.
22 Algunos métodos de aprendizaje automático Generalized Additive Models, GAM Support Vector Machine, SVM Classification and Regression Trees, CART
23 GAM Generalized additive models Hastie & Tibshirani, 1986
24 GAM Los modelos aditivos generalizados, GAM, son una generalización de los modelos lineales que brindan además, una excelente forma de interpretar los datos de manera gráfica.
25 Modelos lineales Y =β 0 + β 1 X 1 + β 2 X β d X d + donde N(0, σ 2 ). Si llamamos µ =E(Y) tenemos que µ =β 0 + β 1 X 1 + β 2 X β d X d Las componentes del vector Y son variables independientes con distribución normal con E(Y) = μ y varianza constante σ 2. Las variables X 0,.., X d originan un predictor lineal η dado por η = β 0 + β 1 X β d X d, o en forma matricial, η = Aβ.
26 Modelos lineales generalizados g(µ) =β 0 + β 1 X 1 + β 2 X β d X d O en forma matricial Las componentes del vector Y son variables independientes con distribución proveniente de una familia exponencial. El predictor lineal y la variable dependiente están relacionados por una función de enlace o link g, siendo g monótona y diferenciable.
27 Modelos aditivos generalizados g(µ) =β 0 + f 1 (X 1 ) + f 2 (X 2 ) + + f d (X d ) Las funciones f i (X i ) son funciones no paramétricas definidas a partir de los datos denominadas smoothers. Las componentes del vector Y son variables independientes con distribución proveniente de una familia exponencial. El predictor aditivo y la variable dependiente están relacionados por una función de enlace o link g, siendo g monótona y diferenciable.
28 LM GLM GAM Parámetros β 0, β 1,,β d β 0, β 1,,β d Estimación Mínimos cuadrados Máxima verosimilitud Se estima f(x) mediante el algoritmo Backfitting Bondad de ajuste R 2 Desvianza Desvianza Comparación de modelos AIC F AIC Desvianza AIC Desvianza Supuestos Residuos normales y homocedásticos Y, familia exponencial Y, familia exponencial
29 Ejemplo Cifosis Objetivo: identificación de factores de riesgo de Cifosis (importancia de la edad al momento de la cirugía, efecto del número y ubicación de las vértebras a tratar) Datos: 83 pacientes Variable dependiente: kyphosis (ausencia=0, presencia=1) Variables independientes: edad (Age), número de vértebras (Number), vértebra inicial (Start) Modelo: log(p/1-p)=s(age)+s(number)+s(start) donde p es la probabilidad de presencia de kyphosis.
30 Ejemplo Cifosis
31 SVM Support Vector Machine Vapnik, 1995
32 SVM En el contexto de clasificación SVM es una metodología que consiste en encontrar una curva que separe bien los datos.
33 SVM Si los datos son linealmente separables:
34 SVM Si los datos no son linealmente separables: se proyectan los datos en un espacio de dimensión mayor ( feature space ) donde los datos son linealmente separables.
35 Ejemplo Iris Objetivo: Predecir la especie de la flor de Iris. Datos: 150 flores Variable dependiente: especie (setosa, virginica, versicolor) Variables independientes: largo y ancho del sépalo, largo y ancho del pétalo
36 Ejemplo Clasificación de la flor de Iris en setosa, virginica y versicolor.
37 CART Classification and Regression Trees Breiman, 1984
38 CART Árboles de regresión: para predecir variables continuas Árboles de clasificación: para predecir variables categóricas
39 CART muestra de entrenamiento nodo raíz separación binara de los datos mediante condiciones sobre las variables nodos internos nodos terminales (hojas)
40 Etapas de construcción de un árbol Etapa 1 Separación binaria de los datos de acuerdo a una regla Etapa 2 Decisión del tamaño del árbol Etapa 3 Asignación de una clase o de un valor a los nodos terminales
41 Etapa 1 Separación binaria de los datos de acuerdo a una regla La división de los nodos depende de una única condición sobre una o más variables La mejor partición es aquella que incrementa la pureza en los nodos hijos Medidas de impureza: error de clasificación, entropía, índice de gini error cuadrático medio
42 Etapa 2 Decisión del tamaño del árbol Criterio de parada Se fija un umbral de parada y se detiene el proceso de división cuando se llega a que la impureza en los nodos es inferior al umbral. Criterio de poda Criterio más utilizado. Evita que el crecimiento del árbol se detenga antes de tiempo.
43 Etapa 3 Asignación de una clase o de un valor a los nodos terminales Clasificación Se elige la clase que esté más representada en cada nodo terminal (voto mayoritario simple) Si el máximo se alcanza para dos o más clases, se realiza un sorteo y se asigna arbitrariamente. Regresión Se asigna el promedio de los valores de la variable dependiente para los casos que están en el nodo terminal.
44 Ejemplo: Contaminación ambiental Problema de Regresión: Variables de Entrada (X): variables meteorológicas Variable de Salida (Y): concentración de ozono
45 Ejemplo: Contaminación ambiental
46 Performance del modelo Bagging, Boosting Validación cruzada
47 Bagging, Boosting Breiman, 1994 Freund & Schapire, 1996
48 Bagging, Boosting Tanto en Bagging y Boosting la idea consiste en combinar varios predictores para construir un predictor más potente. Son métodos que permiten estabilizar algoritmos inestables de regresión y/o clasificación, como por ejemplo árboles de decisión.
49 Los árboles son algoritmos inestables
50 Bagging Bootstrap AGGregatING El clasificador bagging combina los outputs de varios clasificadores construidos utilizando remuestras (muestras bootstrap) del conjunto de entrenamiento. La clase que recibe más votos entre los clasificadores es la clase asignada por el clasificador bagging.
51 Qué es una remuestra? Se le asigna a cada observación el mismo peso (1/n) X 1, X 2,..,X n ~ F Se muestrea de forma aleatoria y con reemplazo obteniendo B nuevas muestras: cada una de las cuales tiene distribución asintótica próxima a la empírica de la muestra original.
52 Qué probabilidad tiene cada observación de salir en la remuestra? Para valores de n grandes esta cantidad se aproxima a: Es decir cada observación tiene un 63% de salir sorteada en la remuestra.
53 Ejemplo de muestras bootstrap s=randsample(1:10,10,true) s = s = s = s = s =
54 Algoritmo Bagging Paso1: conjunto de entrenamiento Paso2: elección del estimador Paso3: construcción de las remuestras Paso4: para cada remuestra se calcula el estimador Paso5: construcción del estimador Bagging, por ejemplo si el modelo es de regresión
55 Boosting Boosting es un proceso iterativo que combina los output de varios clasificadores débiles para obtener un clasificador más eficiente. Los clasificadores que muestran mejor desempeño en la fase de entrenamiento tienen mayor peso en la votación final. Ejemplo de algoritmo de Boosting: Adaboost.M1 (Freund & Schapire, 1997)
56 Adaboost.M1 Algoritmo de boosting más conocido para bases de datos con dos clases. Bajo desempeño en problemas de varias clases. Al inicio se considera una distribución uniforme para los pesos de las observaciones, en las sucesivas iteraciones esta distribución cambia, asignando mayor peso a las observaciones mal clasificadas en el paso anterior (remuestras ponderadas) Los clasificadores que muestran mejor performance en el entrenamiento tienen mayor peso en la votación final.
57 Ejemplo de remuestras ponderadas vector de pesos w=[ ] s=randsample(1:10, 10, true, w) s= s= s= s= s=
58 Adaboost.M1
59 Bagging vs Adaboost.M1 Bagging 3 iteraciones Adaboost.M1 3 iteraciones Árbol 1 Clase 1 Árbol 2 Clase 1 Árbol 3 Clase 2 Árbol 1 Clase 1 Score=0.6 Árbol 2 Clase 1 Score=0.8 Árbol 3 Clase 2 Score=1.7 Votos clase 1: 2 Votos clase 2: 1 Predicción Bagging: clase 1 Votos clase 1: 2 Votos ponderados clase 1: 1.4 Votos clase 2: 1 Votos ponderados clase 2 : 1.7 Predicción Adaboost.M1: clase 2
60 Validación cruzada 1. división del conjunto de entrenamiento en k partes iguales (folds) 2. entrenamiento del modelo con k-1 partes 3. evaluación del modelo con la parte que no fue utilizada en el paso anterior 4. se repite el proceso para cada una de las k partes 5. el error se calcula como el promedio de los errores calculados en cada paso
61 Validación cruzada En este ejemplo 8-fold se entrena el modelo con los datos amarillos y se evalúa con los de color rojo. En cada paso se calcula el error y el error total se define como el promedio de los errores cometidos en cada paso.
62 Bibliografía Breiman, L. Bagging predictors. Machine Learning, 24, (1996) Defeo, O. & Gomez, J. (2005) Morphodynamics and habitat safety in sandy beaches: life history adaptations ni a supralittoral amphipod. Mar Ecol Prog Ser, 293: Devroye, L. Györfi, L. Lugosi, G A Probability Theory of Pattern Recognition. Springer. Hastie, T.J; Tibshirani, R.J Generalized Additive Models. Chapman & Hall. Hastie, T.J, Tibshirani, R.J, Friedman, J Elements of Statistical Learning: data mining, inference and prediction. Springer & Verlag. Vapnik, V. 1998, Statistical Learning Theory. Wiley. Wood, S. N Generalized Additive Models, An Introduction with R. Chapman & Hall.
Aprendizaje: Boosting y Adaboost
Técnicas de Inteligencia Artificial Aprendizaje: Boosting y Adaboost Boosting 1 Indice Combinando clasificadores débiles Clasificadores débiles La necesidad de combinar clasificadores Bagging El algoritmo
Más detallesAnálisis de datos Categóricos
Introducción a los Modelos Lineales Generalizados Universidad Nacional Agraria La Molina 2016-1 Introducción Modelos Lineales Generalizados Introducción Componentes Estimación En los capítulos anteriores
Más detallesGUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)
GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior
Más detallesTema 15: Combinación de clasificadores
Tema 15: Combinación de clasificadores p. 1/21 Tema 15: Combinación de clasificadores Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesAux 6. Introducción a la Minería de Datos
Aux 6. Introducción a la Minería de Datos Gastón L Huillier 1,2, Richard Weber 2 glhuilli@dcc.uchile.cl 1 Departamento de Ciencias de la Computación Universidad de Chile 2 Departamento de Ingeniería Industrial
Más detallesMétodos de agregación de modelos y aplicaciones
Métodos de agregación de modelos y aplicaciones Model aggregation methods and applications Mathias Bourel 1 Recibido: Mayo 2012 Aprobado: Agosto 2012 Resumen.- Los métodos de agregación de modelos en aprendizaje
Más detallesAprendizaje Supervisado Árboles de Decisión
Aprendizaje Supervisado Árboles de Decisión 10 10 Modelo general de los métodos de Clasificación Id Reembolso Estado Civil Ingresos Anuales 1 Sí Soltero 125K No 2 No Casado 100K No 3 No Soltero 70K No
Más detallesTeorema Central del Límite (1)
Teorema Central del Límite (1) Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadístico. La distribución de los valores que puede tomar un estadístico
Más detalles2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...
Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................
Más detallesFacultad de Ciencias Sociales - Universidad de la República
Facultad de Ciencias Sociales - Universidad de la República Estadística y sus aplicaciones en Ciencias Sociales Edición 2016 Ciclo Avanzado 3er. Semestre (Licenciatura en Ciencia Política/ Licenciatura
Más detallesCLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres
CLASIFICACIÓN DE LA IMAGEN TÉCNICA QUE PERMITE LA IDENTIFICACIÓN DE LOS DIFERENTES OBJETOS O GRUPOS PRESENTES EN UNA IMAGEN MULTI-ESPECTRAL. MÉTODO NO SUPERVISADO MÉTODO SUPERVISADO El Desarrollo De Las
Más detalles1. DATOS DE LA ASIGNATURA
1. DATOS DE LA ASIGNATURA Nombre de la asignatura: Curso Avanzado de Estadística Titulación: Máster en Matemáticas y aplicaciones Código Breve Descripción: El curso está centrado en dos temas relativamente
Más detallesAprendizaje basado en ejemplos.
Aprendizaje basado en ejemplos. In whitch we describe agents that can improve their behavior through diligent study of their own experiences. Porqué queremos que un agente aprenda? Si es posible un mejor
Más detallesMinería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria
Minería de Datos Árboles de Decisión Cristina Tîrnăucă Dept. Matesco, Universidad de Cantabria Fac. Ciencias Ing. Informática Otoño de 2012 Twenty questions Intuición sobre los árboles de decisión Juego
Más detallesCómo se usa Data Mining hoy?
Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta
Más detallesTEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte)
TEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte) Francisco José Ribadas Pena Modelos de Razonamiento y Aprendizaje 5 Informática ribadas@uvigo.es 17 de abril de 2012 FJRP ccia [Modelos
Más detallesAgro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos
Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,
Más detallesMétodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013
Métodos de Clasificación sin Métrica Reconocimiento de Patrones- 03 Métodos de Clasificación sin Métrica Datos nominales sin noción de similitud o distancia (sin orden). Escala nominal: conjunto de categorías
Más detallesRandom Forests. Felipe Parra
Applied Mathematics Random Forests Abril 2014 Felipe Parra Por que Arboles para Clasificación PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones Interpretación intuitiva
Más detallesPROGRAMA ACADEMICO Ingeniería Industrial
1. IDENTIFICACIÓN DIVISION ACADEMICA Ingenierías DEPARTAMENTO Ingeniería Industrial PROGRAMA ACADEMICO Ingeniería Industrial NOMBRE DEL CURSO Análisis de datos en Ingeniería COMPONENTE CURRICULAR Profesional
Más detalles478 Índice alfabético
Índice alfabético Símbolos A, suceso contrario de A, 187 A B, diferencia de los sucesos A y B, 188 A/B, suceso A condicionado por el suceso B, 194 A B, intersección de los sucesos A y B, 188 A B, unión
Más detallesCAPITULO 1: PERSPECTIVE GENERAL DE LA
CONTENIDO CAPITULO 1: PERSPECTIVE GENERAL DE LA INVESTIGACION DE OPERACIONES 1 1.1 Modelos matemáticos de investigación de operaciones. 1 1.2 Técnicas de investigación de operaciones 3 1.3 Modelado de
Más detallesUNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Facultad de Medicina Veterinaria y Zootecnia Licenciatura en Medicina Veterinaria y Zootecnia Clave 1212 Modalidad del curso: Carácter Métodos estadísticos en medicina
Más detallesIntroducción a la regresión ordinal
Introducción a la regresión ordinal Jose Barrera jbarrera@mat.uab.cat 20 de mayo 2009 Jose Barrera (UAB) Introducción a la regresión ordinal 20 de mayo 2009 1 / 11 Introducción a la regresión ordinal 1
Más detallesINSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016
ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una
Más detallesTema 5 Algunas distribuciones importantes
Algunas distribuciones importantes 1 Modelo Bernoulli Distribución Bernoulli Se llama experimento de Bernoulli a un experimento con las siguientes características: 1. Se realiza un experimento con dos
Más detallesRESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO
RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO 1 rojo 1 2 3 4 5 6 Supongamos que tenemos dos dados, uno rojo y otro verde, cada uno de los cuales toma valores entre
Más detalles15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:
15. Regresión lineal Este tema, prácticamente íntegro, está calacado de los excelentes apuntes y transparencias de Bioestadística del profesor F.J. Barón López de la Universidad de Málaga. Te recomiendo
Más detalles4. NÚMEROS PSEUDOALEATORIOS.
4. NÚMEROS PSEUDOALEATORIOS. En los experimentos de simulación es necesario generar valores para las variables aleatorias representadas estas por medio de distribuciones de probabilidad. Para poder generar
Más detallesTema 2. Descripción Conjunta de Varias Variables
Tema 2. Descripción Conjunta de Varias Variables Cuestiones de Verdadero/Falso 1. La covarianza mide la relación lineal entre dos variables, pero depende de las unidades de medida utilizadas. 2. El análisis
Más detallesOtros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid
Otros aspectos Procesado de la entrada Procesado de la salida Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Procesado de la entrada 1. Motivación y tareas
Más detalles1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA
MODELO DE REGRESIÓN LOGÍSTICA Introducción A grandes rasgos, el objetivo de la regresión logística se puede describir de la siguiente forma: Supongamos que los individuos de una población pueden clasificarse
Más detallesSimulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12
Simulación I Prof. José Niño Mora Investigación Operativa, Grado en Estadística y Empresa, 2011/12 Esquema Modelos de simulación y el método de Montecarlo Ejemplo: estimación de un área Ejemplo: estimación
Más detallesINTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)
INTERVALOS DE CONFIANZA La estadística en cómic (L. Gonick y W. Smith) EJEMPLO: Será elegido el senador Astuto? 2 tamaño muestral Estimador de p variable aleatoria poblacional? proporción de personas que
Más detallesCURSO MINERÍA DE DATOS AVANZADO
CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En
Más detallesTeléfono:
Apartado postal 17-01-218 1. DATOS INFORMATIVOS: MATERIA O MÓDULO: ESTADISTICA II CÓDIGO: 15017 CARRERA: Economía NIVEL: Cuarto No. CRÉDITOS: SEMESTRE / AÑO ACADÉMICO: III semestre 2011-2012 PROFESOR:
Más detallesINTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión
INTERPRETACIÓN DE LA REGRESIÓN Este gráfico muestra el salario por hora de 570 individuos. 1 Interpretación de la regresión. regresión Salario-Estudios Source SS df MS Number of obs = 570 ---------+------------------------------
Más detallesESTADISTICA APLICADA: PROGRAMA
Pág. 1 de 5 ESTADISTICA APLICADA: PROGRAMA a) OBJETIVOS Y BLOQUE 1: Teoría de Probabilidades 1.1 Comprender la naturaleza de los experimentos aleatorios y la estructura de los espacios de probabilidades,
Más detallesDEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM
UNIDAD I: NÚMEROS (6 Horas) 1.- Repasar el cálculo con números racionales y potencias de exponente entero. 2.- Resolver problemas de la vida cotidiana en los que intervengan los números racionales. 1.-
Más detallesAprendizaje Computacional. Eduardo Morales y Jesús González
Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas
Más detallesUNIVERSIDAD DEL NORTE
UNIVERSIDAD DEL NORTE 1. IDENTIFICACIÓN DIVISIÓN ACADÉMICA DIVISIÓN DE CIENCIAS BÁSICAS DEPARTAMENTO MATEMÁTICAS Y ESATADÍSTICA. PROGRAMA ACADÉMICO ESTADÍSTICA I-AD CÓDIGO DE LA ASIGNATURA EST 1022 PRE-REQUISITO
Más detallesContenido. 2 Probabilidad 9. Prefacio. 1 Introducci6n a la estadfstica y al an;!llisis de datos
Contenido Prefacio ix 1 Introducci6n a la estadfstica y al an;!llisis de datos 1 1.1 1.2 1.3 1.4 1.5 1.6 Repaso 1 EI papel de la probabilidad 2 Medidas de posici6n: media de una muestra 4 Medidas de variabilidad
Más detallesRobusticidad de los Diseños D-óptimos a la Elección. de los Valores Locales para el Modelo Logístico
Robusticidad de los Diseños D-óptimos a la Elección de los Valores Locales para el Modelo Logístico David Felipe Sosa Palacio 1,a,Víctor Ignacio López Ríos 2,a a. Escuela de Estadística, Facultad de Ciencias,
Más detallesLOS SISTEMAS ADAPTATIVOS
0010100100100101010110010001 0101010001010100101000101 0010100011110010110010001 11111111111010100010101001010010100010101010101 0010100011110101010101011100101001001010101100100010010100011110101010001
Más detallesEstadística Espacial en Ecología del Paisaje
Estadística Espacial en Ecología del Paisaje Introducción H. Jaime Hernández P. Facultad de Ciencias Forestales U. de Chile Tipos de datos en análisis espacial Patrones espaciales puntuales Muestras geoestadísticas
Más detallesDesigualdad de ingresos en Costa Rica a la luz de las ENIGH 2004 y 2013
SIMPOSIO Encuesta Nacional de Ingresos y Gastos de los Hogares Desigualdad de ingresos en Costa Rica a la luz de las ENIGH 2004 y 2013 Andrés Fernández Arauz Marzo 2015 Introducción INEC (2014): la desigualdad
Más detallesUN PROBLEMA DE OPTIMIZACIÓN CON CABRI: LA REGRESIÓN LINEAL.
UN PROBLEMA DE OPTIMIZACIÓN CON CABRI: LA REGRESIÓN LINEAL. Benjamín R. Sarmiento Lugo. Universidad Pedagógica Nacional bsarmiento@pedagogica.edu.co Esta conferencia está basada en uno de los temas desarrollados
Más detallesESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua
ESTADÍSTICA Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal Cuantitativa discreta continua DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta: fi Frecuencia relativa:
Más detallesTema 1: Introducción
Estadística Universidad de Salamanca Curso 2010/2011 Outline 1 Estadística 2 Outline 1 Estadística 2 La estadística es una ciencia que comprende la recopilación, tabulación, análisis e interpretación de
Más detallesIng. Eduardo Cruz Romero w w w. tics-tlapa. c o m
Ing. Eduardo Cruz Romero eduar14_cr@hotmail.com w w w. tics-tlapa. c o m La estadística es tan vieja como la historia registrada. En la antigüedad los egipcios hacían censos de las personas y de los bienes
Más detallesDistribuciones de probabilidad
Distribuciones de probabilidad Prof, Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada Inferencia estadística: Parte de la estadística que estudia grandes colectivos a partir
Más detallesVARIABLES ALEATORIAS DISCRETAS
VARIABLES ALEATORIAS DISCRETAS M. en C. Juan Carlos Gutiérrez Matus Instituto Politécnico Nacional Primavera 2004 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus Variables Aleatorias Variables Aleatorias Definición:
Más detallesAprendizaje Supervisado K - Vecinos más cercanos Knn-Method
Aprendizaje Supervisado K - Vecinos más cercanos Knn-Method 10 10 Modelo general de los métodos de Clasificación Id Reembolso Estado Civil Ingresos Anuales 1 Sí Soltero 125K No 2 No Casado 100K No 3 No
Más detallesT1. Distribuciones de probabilidad discretas
Estadística T1. Distribuciones de probabilidad discretas Departamento de Ciencias del Mar y Biología Aplicada Inferencia estadística: Parte de la estadística que estudia grandes colectivos a partir de
Más detallesPROGRAMACIÓN DE LOS CONTENIDOS DE MATEMÁTICAS EN LA PREPARACIÓN DE LA PARTE COMÚN DE LA PRUEBA DE ACCESO A LOS C.F.G.S. (Opción C)
PROGRAMACIÓN DE LOS CONTENIDOS DE MATEMÁTICAS EN LA PREPARACIÓN DE LA PARTE COMÚN DE LA PRUEBA DE ACCESO A LOS C.F.G.S. (Opción C) I.E.S. Universidad Laboral de Málaga Curso 2015/2016 PROGRAMACIÓN DE LA
Más detallesESCUELA COMERCIAL CÁMARA DE COMERCIO EXTENSIÓN DE ESTUDIOS PROFESIONALES MAESTRÍA EN ADMINISTRACIÓN
CICLO, ÁREA O MÓDULO: TERCER CUATRIMESTRE OBJETIVO GENERAL DE LA ASIGNATURA: Al termino del curso el alumno efectuara el análisis ordenado y sistemático de la Información, a través del uso de las técnicas
Más detallesÍndice. Resumen 15 Motivación 15 Desarrollos y aportes 16 Publicaciones derivadas de esta tesis doctoral 19
Índice Resumen 15 Motivación 15 Desarrollos y aportes 16 Publicaciones derivadas de esta tesis doctoral 19 Capítulo 1. Introducción a la Minería de Datos 21 1. Minería de datos 21 1.1. Tipos de datos 24
Más detallesESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.
1 Introducción ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M. En este capítulo, vamos a abordar la Estimación Puntual, que es uno de los tres grandes conjuntos de técnicas que
Más detallesTema 1.- Correlación Lineal
Tema 1.- Correlación Lineal 3.1.1. Definición El término correlación literalmente significa relación mutua; de este modo, el análisis de correlación mide e indica el grado en el que los valores de una
Más detallesDistribución Chi (o Ji) cuadrada (χ( 2 )
Distribución Chi (o Ji) cuadrada (χ( 2 ) PEARSON, KARL. On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably
Más detallesIntroducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina
Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera
Más detallesConceptos Básicos de Inferencia
Conceptos Básicos de Inferencia Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Inferencia Estadística Cuando obtenemos una muestra, conocemos
Más detallesPONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE INGENIERIA ESCUELA DE INGENIERIA DE SISTEMAS
1 1. DATOS INFORMATIVOS PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE INGENIERIA ESCUELA DE INGENIERIA DE SISTEMAS MATERIA: ESTADISTICA CODIGO: 11715 CARRERA: INGENIERIA DE SISTEMAS NIVEL: TERCERO
Más detallesPROGRAMACIÓN NO LINEAL INTRODUCCIÓN
PROGRAMACIÓN NO LINEAL Conceptos generales INTRODUCCIÓN Una suposición importante de programación lineal es que todas sus funciones Función objetivo y funciones de restricción son lineales. Aunque, en
Más detallesEscuela Técnica Superior de Ingeniería Informática
Escuela Técnica Superior de Ingeniería Informática Máster en Ingeniería Informática aplicada a la Industria, a la Ingeniería del Software y a los Sistemas y Tecnologías de la Información GUÍA DOCENTE DE
Más detallesMulticolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17
Román Salmerón Gómez Universidad de Granada RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17 exacta: aproximada: exacta: aproximada: RSG Incumplimiento de las
Más detallesCONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS
CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS 1 POR QUÉ SE LLAMAN CONTRASTES NO PARAMÉTRICOS? A diferencia de lo que ocurría en la inferencia paramétrica, ahora, el desconocimiento de la población que vamos
Más detallesMÓDULO 1: GESTIÓN DE CARTERAS
MÓDULO 1: GESTIÓN DE CARTERAS TEST DE EVALUACIÓN 1 Una vez realizado el test de evaluación, cumplimenta la plantilla y envíala, por favor, antes del plazo fijado. En todas las preguntas sólo hay una respuesta
Más detallesContenidos mínimos Criterios de evaluación Ejemplos de preguntas
Contenidos mínimos Criterios de evaluación Ejemplos de preguntas 1º ESO Números naturales, enteros y decimales: operaciones elementales. Fracciones: operaciones elementales. Potencias de exponente natural.
Más detallesTécnicas de análisis estadístico basado en inteligencia artificial
GUÍA DOCENTE: Técnicas de análisis estadístico basado en inteligencia artificial 1. Técnicas de análisis estadístico basado en inteligencia artificial 1.1. Datos de la asignatura Tipo de estudios Máster
Más detallesTema 4: Probabilidad y Teoría de Muestras
Tema 4: Probabilidad y Teoría de Muestras Estadística. 4 o Curso. Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 4: Probabilidad y Teoría de Muestras Curso 2008-2009
Más detallesSelección de fuentes de datos y calidad de datos
Selección de fuentes de datos y calidad de datos ESCUELA COMPLUTENSE DE VERANO 2014 MINERIA DE DATOS CON SAS E INTELIGENCIA DE NEGOCIO Juan F. Dorado José María Santiago . Valores atípicos. Valores faltantes.
Más detallesModelos Estadísticos de Crimen
Universidad de los Andes Modelos Estadísticos de Crimen 27 de Mayo de 2015 Motivacion Conocer la densidad de probabilidad del crimen sobre una ciudad, a distintas horas del día, permite Modelos Estadísticos
Más detallesSVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid
SVM: Máquinas de Vectores Soporte Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Clasificación lineal con modelos lineales 2. Regresión
Más detallesUNIVERSIDAD AUTONOMA DE SANTO DOMINGO
UNIVERSIDAD AUTONOMA DE SANTO DOMINGO FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES DEPARTAMENTO DE ESTADISITICA CATEDRA Estadística Especializada ASIGNATURA Estadística Descriptiva Para Psicólogos (EST-225)
Más detallesIII Verano de Probabilidad y Estadística Curso de Procesos de Poisson (Víctor Pérez Abreu) Lista de Ejercicios
III Verano de Probabilidad y Estadística Curso de Procesos de Poisson (Víctor Pérez Abreu) Lista de Ejercicios Esta lista contiene ejercicios y problemas tanto teóricos como de modelación. El objetivo
Más detallesIndicaciones para el lector... xv Prólogo... xvii
ÍNDICE Indicaciones para el lector... xv Prólogo... xvii 1. INTRODUCCIÓN Qué es la estadística?... 3 Por qué estudiar estadística?... 5 Empleo de modelos en estadística... 6 Perspectiva hacia el futuro...
Más detallesMatemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis
Matemáticas 2.º Bachillerato Intervalos de confianza. Contraste de hipótesis Depto. Matemáticas IES Elaios Tema: Estadística Inferencial 1. MUESTREO ALEATORIO Presentación elaborada por el profesor José
Más detallesINFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón
Metodología de Investigación Tesifón Parrón Contraste de hipótesis Inferencia Estadística Medidas de asociación Error de Tipo I y Error de Tipo II α β CONTRASTE DE HIPÓTESIS Tipos de Test Chi Cuadrado
Más detallesUNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)
UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro) 1. ESTADÍSTICA: CLASES Y CONCEPTOS BÁSICOS En sus orígenes históricos, la Estadística estuvo ligada a cuestiones de Estado (recuentos, censos,
Más detallesTécnicas Multivariadas Avanzadas
Regresión lineal Universidad Nacional Agraria La Molina 2014-2 Regresión lineal Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión
Más detallesTema 5. Contraste de hipótesis (I)
Tema 5. Contraste de hipótesis (I) CA UNED de Huelva, "Profesor Dr. José Carlos Vílchez Martín" Introducción Bienvenida Objetivos pedagógicos: Conocer el concepto de hipótesis estadística Conocer y estimar
Más detallesEstimación no-paramétrica Máximo Camacho Alonso Universidad de Murcia
Estimación no-paramétrica Máximo Camacho Alonso Universidad de Murcia www.um.es/econometria/tecpre mcamacho@um.es Maximo Camacho Estimación no-paramétrica 1 Contenido del tema Introducción: ventajas e
Más detallesANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.
ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos
Más detallesCONTENIDOS MÍNIMOS SEPTIEMBRE. DEPARTAMENTO DE MATEMÁTICAS
CONTENIDOS MÍNIMOS SEPTIEMBRE. DEPARTAMENTO DE MATEMÁTICAS CONTENIDOS MÍNIMOS MATEMÁTICAS 1º ESO U.D. 1 Números Naturales El conjunto de los números naturales. Sistema de numeración decimal. Aproximaciones
Más detallesEstadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR
Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple Facultad de Ciencias Sociales - UdelaR Índice 7.1 Introducción 7.2 Análisis de regresión 7.3 El Modelo de Regresión
Más detallesAplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés
Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica
Más detallesFundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es
Más detallesAlgunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides
Algunas Distribuciones Continuas de Probabilidad UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides Introducción El comportamiento de una variable aleatoria queda
Más detallesESTADÍSTICA. Tema 4 Regresión lineal simple
ESTADÍSTICA Grado en CC. de la Alimentación Tema 4 Regresión lineal simple Estadística (Alimentación). Profesora: Amparo Baíllo Tema 4: Regresión lineal simple 1 Estructura de este tema Planteamiento del
Más detallesPronósticos Automáticos
Pronósticos Automáticos Resumen El procedimiento de Pronósticos Automáticos esta diseñado para pronosticar valores futuros en datos de una serie de tiempo. Una serie de tiempo consiste en un conjunto de
Más detallesTrabajo No 1. Derivados Financieros
Trabajo No 1. Derivados Financieros Norman Giraldo Gómez Escuela de Estadística - Universidad Nacional de Colombia ndgirald@unal.edu.co Marzo, 2010 1. Introducción Este trabajo consiste de un punto asignado
Más detallesMATERIA: MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II INSTRUCCIONES Y CRITERIOS GENERALES DE CALIFICACIÓN
UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO MODELO DE EXAMEN CURSO 2014-2015 MATERIA: MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES
Más detallesPROBABILIDADES VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES. Prof. Johnny Montenegro 1 M.
PROBABILIDADES VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES Prof. Johnny Montenegro 1 M. PROBABILIDADES 2 Una variable es aleatoria si toma los valores de los resultados de un experimento aleatorio. Esta
Más detallesMarco de referencia. a) Es útil saber si la estrategia de tratamiento sin un. biológico (menos costosa), tiene mejor o igual eficacia
Marco de referencia a) Es útil saber si la estrategia de tratamiento sin un biológico (menos costosa), tiene mejor o igual eficacia que la estrategia con un biológico en AR temprana. b) No hay estudios
Más detallesEvaluación de modelos para la predicción de la Bolsa
Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario
Más detallesFACULTAD DE INGENIERÍA UNAM PROBABILIDAD Y ESTADÍSTICA Irene Patricia Valdez y Alfaro irenev@servidor.unam.m T E M A S DEL CURSO. Análisis Estadístico de datos muestrales.. Fundamentos de la Teoría de
Más detallesDistribuciones de probabilidad discretas
Lind, Douglas; William G. Marchal y Samuel A. Wathen (2012). Estadística aplicada a los negocios y la economía, 15 ed., McGraw Hill, China. Distribuciones de probabilidad discretas Capítulo 6 FVela/ McGraw-Hill/Irwin
Más detalles