Introducción al Análisis Multivariante

Documentos relacionados
Estadística II Tema 1: Distribución normal multivariante

Tema 2 Datos multivariantes

ESTADÍSTICA BASICA EN CONTROL DE CALIDAD

Capítulo 2. Medidas Estadísticas Básicas Medidas estadísticas poblacionales

Análisis multivariante II

Técnicas de Inferencia Estadística II. Tema 6. Contrastes de independencia

Análisis discriminante.

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

ANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes

Indice

Tema 9: Estadística en dos variables (bidimensional)

Tema 10: Introducción a los problemas de Asociación y Correlación

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

UNIDAD DIDÁCTICA III ESTADÍSTICA BIDIMENSIONAL Y REGRESIÓN LINEAL SIMPLE

Análisis de Correspondencias Simple

ESTADÍSTICA BIDIMENSIONAL

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez

Estadística Descriptiva II: Relación entre variables

Análisis factorial. 1. Introducción. Eliseo Martínez H.

Tema 8: Regresión y Correlación

Estadística aplicada a la comunicación

Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN

Clasificación Supervisada

6 Vectores. Dependencia e independencia lineal.

PROGRAMA DE LA ASIGNATURA Curso académico 2012/2013

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Tema 4. Análisis multivariante de la varianza

TALLER DE ANÁLISIS MULTIVARIABLE TÉCNICA DE COMPONENTES PRINCIPALES SEPTIEMBRE DE 2012

Distribuciones Bidimensionales.

Tema 9: Estadística descriptiva

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

SOLUCIONES AL EXAMEN DE SEPTIEMBRE DE ESTADÍSTICA EXAMEN DE MATEMÁTICAS II

Estadística II Ejercicios Tema 4

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Análisis multivariante II

Módulo de Estadística

Clasificación. Aurea Grané. Análisis Discriminante

Introducción Ordenación Clasificación Ord. + Clas. Geobotánica. Tema 12 Ordenación y clasificación

Part I. Descripción estadística de dos variables. Estadística I. Mario Francisco. Variable. bidimensional. Distribuciones de frecuencias

I. TÉCNICAS DE ANÁLISIS MULTIVARIANTE

Estadística Estadística descriptiva bivariante

AMD - Análisis Multivariante de Datos

Econometría II Grado en finanzas y contabilidad

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Tema 9. Análisis factorial discriminante

Tema 4. Regresión lineal simple

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

TÉCNICAS ESTADÍSTICAS PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE

RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)

Clasificación Supervisada. Métodos jerárquicos. CART

Minería de Datos Web. Cursada 2018

Análisis de los resultados de la evaluación del aprendizaje de procedimientos de análisis descriptivo en ingeniería informática

Técnicas Cuantitativas para el Management y los Negocios

Introducción a las técnicas de. Análisis multivariante

Sistemas de Reconocimiento de Patrones

Tema1. Modelo Lineal General.

peso edad grasas Regresión lineal simple Los datos

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

LECCIÓN PÚBLICA. Tema 6 Descripción Multivariante de Datos. Profa. María Fátima Dos Santos

EJERCICIOS RESUELTOS TEMA 4. Tarea realizada 68 (84,8) --- (---) 96 (112,8) --- (---)

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

3. ARTÍCULOS DE APLICACIÓN

Técnicas de Inferencia Estadística II. Tema 2. Contrastes de hipótesis en poblaciones normales

PROGRAMA DE LA ASIGNATURA

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

DISEÑO ESTADÍSTICO DE EXPERIMENTOS

CLASIFICACIÓN PROBLEMA SOLUCIÓN

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL

ANÁLISIS DE REGRESIÓN

Prueba de Evaluación Continua Grupo A 26-XI-14

y = 2, entonces: a) x es más dispersa que y. b) son igual de dispersas. 9.- Sean dos variables estadísticas x e y con los siguientes valores x = 5, σ

RELACIÓN 1. DESCRIPTIVA

ALGEBRA LINEAL Segundo Semestre. Parte II

Técnicas de Inferencia Estadística II. Tema 2. Contrastes de hipótesis paramétricos. Parte II. Contrastes para dos muestras

INTRODUCCION AL ANALISIS DE CLUSTER

1 Tema 4: Variable Aleatoria Bidimensional y n-dimensional

ASIGNATURA: MÉTODOS ESTADÍSTICOS DE LA INGENIERÍA

RECONOCIMIENTO DE PAUTAS

Técnicas de Investigación Social

Distribución bidimensional. Marginales. Correlación lineal. Rectas de regresión.

CARACTERÍSTICAS GRALES.

U ED Tudela Introducción al Análisis de Datos - Tema 5

Tema 3: Análisis de datos bivariantes

Tema 7: Estadística y probabilidad

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Teórica básica. Incluimos. - Temas

LICENCIATURA EN ECONOMÍA Y LICENCIATURA EN ADMINISTRACIÓN DE EMPRESAS

Análisis de datos en CCSS: introducción al análisis descriptivo e inferencial

Taller Análisis de Datos Multinivel

MASTER EN CIENCIAS ACTUARIALES Y FINANCIERAS PLAN Módulo: ANÁLISIS DEL RIESGO ACTUARIAL Y FINANCIERO

Hasta ahora hemos considerado una variable. En este tema estudiamos varias variables y cada una de ellas representa una característica.

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

ANÁLISIS DE COMPONENTES PRINCIPALES

Transcripción:

al Análisis Multivariante Vectores aleatorios, técnicas de análisis multivariante, distancias estadísticas Curso 2011-2012

Considero que el cerebro de cada cual es como una pequeña pieza vacía que vamos amueblando con elementos de nuestra elección. Un necio echa mano de cuanto encuentra a su paso, no encuentra cabida o, en el mejor de los casos, se halla tan revuelto con las demás cosas que resulta difícil dar con él. El operario hábil selecciona con sumo cuidado el contenido de ese vaso disponible que es su cabeza. Sólo de herramientas útiles se compondrá su arsenal, pero éstas serán abundantes y estarán en perfecto estado. Constituye un grave error el suponer que las paredes de la pequeña habitación son elásticas o capaces de dilatarse indefinidamente. A partir de cierto punto, cada nuevo dato añadido desplaza necesariamente a otro que ya poseíamos. Resulta por tanto de inestimable importancia vigilar que los hechos inútiles no arrebaten espacio a los útiles. Sherlock Holmes en Estudio en Escarlata

Son muchas las situaciones reales en las que necesitamos tener en cuenta varias variables de forma simultánea. Podemos pensar en problemas sencillos en todas las disciplinas en los que registremos datos de más de una variable sobre distintos elementos o individuos de una muestra. Por ejemplo: Si los individuos son organismos, podemos recoger datos de diferentes medidas morfológicas o psicológicas. En ecología se suele disponer de distintas medidas químicas obtenidas sobre los individuos de la muestra.... En algunas ocasiones puede resultar adecuado estudiar cada una de las variables de interés de forma individual. Sin embargo, en general las variables están relacionadas entre sí de tal manera que los análisis individuales proporcionan poca información sobre la estructura del conjunto de datos.

Ya hemos considerado datos multivariantes al hacer regresión múltiple. Aun así, hay muchas otras técnicas que permiten analizar datos multivariantes. Las técnicas de análisis multivariante incluyen tanto métodos puramente descriptivos que tienen por objetivo extraer información de los datos disponibles, como métodos de inferencia que, a través de la construcción de modelos, pretenden obtener conclusiones sobre la población que ha generado los datos.

Ejemplo de datos multivariantes: datos Iris de Fisher

Ejemplo de datos multivariantes: datos Iris de Fisher

Qué podemos hacer con técnicas de análisis multivariante? Contrastar la hipótesis de que las medias de las variables analizadas tienen un valor específico (Inferencia sobre la media en poblaciones multivariantes).

Qué podemos hacer con técnicas de análisis multivariante? Contrastar la hipótesis de que las medias de las variables analizadas tienen un valor específico (Inferencia sobre la media en poblaciones multivariantes). Representar la información mediante un número menor de variables construidas como combinaciones lineales de las originales y que expliquen la mayor parte de la variabilidad original (Análisis de Componentes Principales).

Qué podemos hacer con técnicas de análisis multivariante? Contrastar la hipótesis de que las medias de las variables analizadas tienen un valor específico (Inferencia sobre la media en poblaciones multivariantes). Representar la información mediante un número menor de variables construidas como combinaciones lineales de las originales y que expliquen la mayor parte de la variabilidad original (Análisis de Componentes Principales). Encontrar un modelo que nos permita predecir un grupo de variables del conjunto original a partir de otro grupo de variables (Modelos de regresión multivariante).

Qué podemos hacer con técnicas de análisis multivariante? Contrastar la hipótesis de que las medias de las variables analizadas tienen un valor específico (Inferencia sobre la media en poblaciones multivariantes). Representar la información mediante un número menor de variables construidas como combinaciones lineales de las originales y que expliquen la mayor parte de la variabilidad original (Análisis de Componentes Principales). Encontrar un modelo que nos permita predecir un grupo de variables del conjunto original a partir de otro grupo de variables (Modelos de regresión multivariante). Comparar las medias de las variables en dos poblaciones (Test de Hotelling)

Qué podemos hacer con técnicas de análisis multivariante? Contrastar la hipótesis de que las medias de las variables analizadas tienen un valor específico (Inferencia sobre la media en poblaciones multivariantes). Representar la información mediante un número menor de variables construidas como combinaciones lineales de las originales y que expliquen la mayor parte de la variabilidad original (Análisis de Componentes Principales). Encontrar un modelo que nos permita predecir un grupo de variables del conjunto original a partir de otro grupo de variables (Modelos de regresión multivariante). Comparar las medias de las variables en dos poblaciones (Test de Hotelling) Comparar las medias de las variables en más de dos poblaciones (Análisis Multivariante de la Varianza).

Qué podemos hacer con técnicas de análisis multivariante? Contrastar la hipótesis de que las medias de las variables analizadas tienen un valor específico (Inferencia sobre la media en poblaciones multivariantes). Representar la información mediante un número menor de variables construidas como combinaciones lineales de las originales y que expliquen la mayor parte de la variabilidad original (Análisis de Componentes Principales). Encontrar un modelo que nos permita predecir un grupo de variables del conjunto original a partir de otro grupo de variables (Modelos de regresión multivariante). Comparar las medias de las variables en dos poblaciones (Test de Hotelling) Comparar las medias de las variables en más de dos poblaciones (Análisis Multivariante de la Varianza). Clasificar en dos o más grupos a individuos en los que hemos observado varias variables (Análisis Cluster).

Distancias estadísticas El concepto de distancia entre objetos o individuos observados permite interpretar geométricamente muchas técnicas de análisis multivariante. En el caso unidimensional, la distancia entre dos puntos x e y se mide de manera natural mediante la distancia eucĺıdea x y. Y cuando disponemos de una variable vectorial?

Distancias estadísticas Ejemplo: Disponemos de los datos de peso y estatura de 300 mujeres con edades comprendidas entre 30 y 40 años. Queremos determinar la posición con respecto a la media de tres nuevas mujeres a partir de sus respectivos pesos y estaturas. Supongamos que la mujer A pesa 63 kg. y mide 180 cm. La mujer B pesa 60 kg. y mide 177 cm. La mujer C pesa 69 kg. y mide 177 cm. 58 60 62 64 66 68 70 170 172 174 176 178 180 Peso en kg. Estatura en cm. C A B

Distancias estadísticas Sean X i = (X i1,..., X id ) y X k = (X k1,..., X kd ) las observaciones de dos individuos i, k obtenidas al medir el vector d-dimensional (X 1,..., X d ). Se define la distancia eucĺıdea entre X i y X j como d E (X i, X k ) = d (X ij X kj ) 2 La distancia eucĺıdea es la más utilizada pero tiene como inconvenientes que: j=1 depende de las unidades de medida de las variables (no es invariante ante cambios de escala) y presupone que las variables son incorrelacionadas y de varianza unidad. Se define la distancia de Mahalanobis entre X i y X k como d M (X i, X k ) = (X i X k ) Σ 1 (X i X k ) donde Σ representa la matriz de covarianzas. Es adecuada como medida de discrepancia entre datos, porque es invariante ante cambios de escala, tiene en cuenta las correlaciones entre las variables

Análisis cluster Los métodos de análisis cluster tiene por objetivo identificar grupos de individuos con características comunes a partir de la observación de varias variables en cada uno de ellos. Un cluster es un grupo de individuos homogéneos entre sí y separados de los individuos de los otros clusters. El objetivo es por lo tanto ordenar los individuos en grupos de forma que el grado de asociación/similitud entre miembros del mismo cluster sea más fuerte que el grado de asociación/similitud entre miembros de diferentes clusters.

Análisis cluster

Análisis cluster

Análisis cluster Métodos basados en particiones: Producen una partición de los individuos en un número especificado de grupos. Ejemplo: Algoritmo de k-medias. Métodos jerárquicos: Métodos divisivos. Parten de un único cluster que se va dividiendo paso a paso, hasta obtener tantos clusters como datos. Métodos aglomerativos: Parten de tantos clusters como datos y en cada paso se van juntando dos clusters hasta obtener un único cluster con todos los datos.