TÉCNICAS MULTIVARIANTES

Máster en Ordenación y Gestión del Desarrollo Territorial y Local Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL CURSO TÉCNICAS MULTIVARIANTES Prof. Dr. Rosa Jordá Borrell http://www.geografia.us.es 2

ETAPAS APLICACIÓN T. MULTIVARIANTES 1) Objetivos del análisis Se define el problema especificando los objetivos y las técnicas multivariantes que se van a utilizar El investigador debe establecer el problema en términos conceptuales definiendo los conceptos y las relaciones fundamentales que se van a investigar. Se deben establecer si dichas relaciones van a ser relaciones de dependencia o de interdependencia. Con todo esto se determinan las variables a observar 2) Diseño del análisis. Se determina el tamaño muestral, las ecuaciones a estimar (si procede), las distancias a calcular (s procede) y las técnicas de estimación a emplear. Una vez determinado todo esto se proceden a observar los datos 3) Realización del análisis Se estima el modelo y se evalúa el ajuste a los datos. En este paso pueden aparecer observaciones atípicas cuya influencia sobre las estimaciones y la bondad de ajuste se debe analizar. 4) Interpretación de los resultados Dichas interpretaciones pueden llevar a reespecificaciones adicionales de las variables o del modelo con lo cual se puede volver de nuevo a los pasos 3) y 4) 3

TECNICAS MULTIVARIANTES. Sirven para analizar grandes cantidades de datos complejos EJEMPLO Mundo 95 Análisis univariante: análisis de distribuciones de una sola variable Análisis bivariante es una correlación, clasificaciones cruzadas, regresiones simples y son utilizadas para analizar dos variables. Son métodos y técnicas estadísticas Por qué sería un Método? 4

DEFINICIONES El término multivariante no se usa de la misma forma en la literatura científica 1.-El Análisis Multivariante es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para cada individuo ú objeto estudiado. Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio, obteniendo información que los métodos estadísticos univariantes y bivariantes son incapaces de conseguir. 2.-Para ser considerado verdaderamente multivariante todas las variables deben ser aleatorias y estar relacionadas de tal forma que sus diferentes efectos no puedan ser interpretados separadamente con algún sentido. 5

Métodos técnicas multivariantes Algunos de los métodos del análisis multivariante son métodos puramente descriptivos que realizan un estudio de datos muestrales exclusivamente. En otros se trata de realizar inferencias acerca de parámetros poblacionales. Para realizar inferencias es necesario incorporar hipótesis estadísticas En el análisis multivariante la distribución normal multivariante juega un papel esencial, de la misma manera que en el univariante lo hace la distribución normal. En el análisis multivariante se suelen realizar ciertas transformaciones de los datos originales, utilizándose datos en desviaciones respecto a la media y datos tipificados. Por qué se utilizan datos tipificados? Porque los datos se ven afectados por la escala de medida. Una observación está tipificada cuando se divide la observación, expresada en desviaciones respecto la media, por la desviación típica. 6

ESCALAS DE MEDIDA Dos tipos de datos: no métricos (cualitativos) y métricos (cuantitativos). Los primeros son atributos, características o propiedades categóricas.escalas nominal y ordinal. Métricas: son las escalas de intérvalos y de razón 7

TIPOS DE TECNICAS MULTIVARIANTES 1) Métodos de dependencia Suponen que las variables analizadas están divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los métodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qué forma. 2) Métodos de interdependencia Estos métodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qué variables están relacionadas, cómo lo están y por qué. 3) Métodos estructurales Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos métodos es analizar, no sólo como las variables independientes afectan a las variables dependientes, sino también cómo están relacionadas las variables de los dos grupos entre sí. 8

CLASIFICACIÓN T. MULTIVARIANTES Métodos de Dependencia Dependiente Métrica Dependiente No Métrica Análisis de Regresión Análisis de Supervivencia MANOVA Correlación Canónica Análisis Discriminante Regresión Logística Análisis Conjoint Técnicas Multivariantes Métodos de Interdependencia Datos Métricos Datos No Métricos A. Comp. Principales Análisis Factorial Escalas Multidimensionales Análisis Cluster Análisis de Correspondencias Modelos log-lineales Escalas Multidimensionales Análisis Cluster Modelos estructurales 9

ANÁLISIS FACTORIAL (AF) INTRODUCCIÓN Aborda el problema de cómo analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables. Por lo tanto tendrá por objeto simplificar las múltiples y complejas relaciones que puedan existir entre las variables observadas. DIBUJO haz factores Es una clase de método multivariante cuyo propósito principal es definir, conocer la estructura subyacente en una matriz de datos. Como medir el nivel de desarrollo de un país, qué características distinguen unas marcas de pastas de dientes de otras? EJEMPLO Mundo ver vista variables Para ello trata de encontrar dimensiones comunes o factores que ligan a las aparentemente no relacionadas. Es una técnica de reducción de la dimensionalidad de los datos. Su propósito es buscar el nº mínimo de dimensiones capaces de explicar el máximo de información contenida en los datos. Y que esa información sea fácilmente interpretable 10

ANÁLISIS FACTORIAL (AF) INTRODUCCIÓN Consiste en encontrar un conjunto de k < p factores no observables que expliquen suficientemente bien a las variables observadas: Perdiendo el mínimo de observación Que sean fácilmente explicadas Por tanto resumen la información y reducen el número de datos El AF es una técnica de interdependencia en la que se consideran todas las variables simultáneamente cada una relacionada con todas las demás. Todas las variables son independientes 12

COMUNALIDAD/especificidad o unicidad Comunalidad: proporción de la varianza explicada de una variable por el conjunto de los factores comunes. Proporción de varianza que puede ser explicada por el modelo factorial obtenido Especificidad parte de la varianza debida a los factores únicos 15

DISEÑO DEL ANÁLISIS: VARIABLES A INCLUIR TAMAÑO MUESTRA Variables preferentemente métricas Estudiar los datos. Ejemplo base datos MUNDO (buscar, religión, región, cregrano, clima y densidad) vista variables Si las variables A y B están englobadas en C Se incluyen las tres? muestra no inferior a 50 observaciones/casos, preferible 100 o más. El tamaño aceptable es un ratio de 10 observaciones/casos por una variable. Qué hacer con los datos ausentes? 17

DISEÑO DEL ANÁLISIS: VALORES PERDIDOS Excluir casos según lista, opción por defecto. Se excluyen los casos que tengan valores perdidos en cualquiera de las variables empleadas en el Análisis Factorial. Esta forma puede suponer la pérdida de un gran número de casos y la reducción del tamaño muestra Excluir casos según pareja, los casos con valor perdido en una variable se excluyen del análisis sólo para el cálculo estadístico en el que esté implicada esa variable Reemplazar por la media, en la medida en que el nº de valores perdidos aumenta, la sustitución por la media tiene el efecto de centrar las variables disminuyendo su variabilidad. 18

INTERPRETACIÓN DE FACTORES Se sugieren dos pasos: 1.- Estudiar la composición de las saturaciones significativas de cada factor 2.-Intentar dar nombre a los factores. Nombre que se debe dar de acuerdo con la estructura de las saturaciones, conociendo su contenido.- Eliminar las cargas factoriales bajas inferiores a 0,30.- Factores bipolares, son aquellos en los que unas variables cargan positivamente y otras tienen cargas negativas 19

FASES DEL ANALISIS FACTORIAL 1.-Cálculo de una matriz capaz de expresar la variabilidad conjunta de todas las variables (m. correlaciones) 2.-Extracción de un nº óptimo de factores: Criterios Revisión de autovalores Métodos principales para extraer factores: diferencias y revisión de comunalidad 3.-Rotación de la solución para facilitar su interpretación Estadísticos asociados a Matriz de Correlaciones 4.-Estimación de las puntuaciones de los sujetos/casos en las nuevas dimensiones Ejemplo OCDE,ir a SPSS y mostrar pasos 21

MATRIZ DE CORRELACIÓN. FASE 1ª La finalidad de este análisis es comprobar si las características son las más adecuadas para realizar el AF: variables estén muy intercorrelacionadas Coeficientes de correlación: mide la variabilidad conjunta de las variables. Son los coeficientes de Pearson entre cada par variables Qué tiene que contener la matriz? Cuándo un índice de correlación es significativo? Niveles de significación: niveles críticos unilaterales asociados a cada coeficiente correlación. Nivel menor de 0,05 es lo que interesa Un nivel inferior a 0,05 indica que la correlación poblacional entre el correspondiente par de variables puede ser considerado significativamente distinto de cero 22

CARGAS FACTORIALES SIGNIFICATIVAS SEGÚN TAMAÑO MUESTRA Carga Factorial Tamaño muestra 0,30 350 0,35 250 0,40 200 0,45 150 0,50 120 0,55 100 0,60 85 0,65 70 0,70 60 0,75 50 23

CRITERIOS PARA EL CÁLCULO Nº DE FACTORES A EXTRAER. FASE 2ª Autovalores mayores de 1(los menores de 1 explican como máximo una variable). por qué? Explicarlo el ejemplo Autovalores cantidad de varianza total explicada por cada factor La suma de las cargas factoriales (elevadas al cuadrado) de un mismo factor con todas las variables, se denomina valor propio, autovalor o eigenvalue de dicho factor Porcentaje de la varianza. En ciencias naturales los factores extraídos deben contar con el 95% varianza. En ciencias sociales considerar una solución que represente un 60% de la varianza. Cómo se obtiene este porcentaje? En las sumas de cuadrados de columna total si el método es el componentes coincide con autovalores, en los otros métodos no coincide ejemplo 24

COMPONENTES PRINCIPALES. FASE 2ª Cuando se aplica este método para la extracción de factores la comunalidad de la extracción inicial de cada variable es = 1 ya que se consideran todos los componentes/factores incluyendo la unicidad. No le interesa tanto explicar las estructuras latentes No hace distinción entre varianza única y común Explicar la mayor parte de la variabilidad total de las variables con el menor nº de factores /componentes posibles y reduciendo al máximo la unicidad 26

COMPONENTES PRINCIPALES. FASE 2ª Los valores propios de la extracción final coinciden con los de la inicial El primer factor explica la mayor parte de la varianza total, el 2º explicaría la mayor parte de la varianza restante. 27

COMUNALIDAD/especificidad o unicidad Comunalidad: proporción de la varianza explicada de una variable por el conjunto de los factores comunes. Proporción de varianza que puede ser explicada por el modelo factorial obtenido Podemos ver cuales son las variables mejor o peor explicadas Especificidad parte de la varianza debida a los factores únicos El problema que se plantea en AF es la estimación de los coeficientes llamados cargas factoriales, es decir pesos de los distintos factores en la estimación de la comunalidad de cada variable 28

EJES PRINCIPALES. 2ª FASE Se centra en el análisis factorial común. Los factores que resultan se basan en la varianza común Las comunalidades son menores (CP) en la 1ª extracción y obedece a la menor varianza total explicada La varianza común inicial es desconocida y debe estimarse: correlación múltiple al cuadrado La varianza total explicada no es igual al nº de variables sino que será igual a la suma de los valores de la diagonal principal de la matriz de correlaciones reproducidas. EJEMPLO: ocde CON EJES PRINCIPALES 29

EJES PRINCIPALES La varianza total explicada en 2ª extracción no es igual a la inicial y obedece a que la estructura factorial ha cambiado porque la forma de obtener la comunalidad inicial y la de extracción es diferente y ésta última depende del nº de factores. Es un método iterativo. En algunas ocasiones no permite llegar a unas estimaciones adecuadas debido a problemas de convergencia que plantean dichos métodos, sobre todo en muestras pequeñas. Iterativo: Se ejecuta repetitivamente hasta alcanzar la solución idónea Cuando el nº de variables excede de 30, el tamaño de la muestra está en torno a 300 y la varianza compartida excede de 0,60 para la mayoría de variables los resultados del análisis de componentes principales y de Ejes Principales son iguales 30

MATRIZ DE COMPONENTES/ MATRIZ DE ESTRUCTURA FACTORIAL Contiene las correlaciones entre las variables originales (o saturaciones) y cada uno de los factores. Esta matriz cambia de denominación en función del método de extracción elegido 31

ROTACION. 3ª FASE El efecto último de rotar la matriz de factores es redistribuir la varianza de los primeros factores a los últimos para lograr un patrón de factores más simple, más significativo y más fácil de interpretar (en la solución inicial cada uno de los factores comunes están correlacionados en mayor o menor medida con cada una de las variables originales). Cada una de las variables originales tengan una correlación lo más próximo a 1 con uno de los factores y correlaciones próximas a 0 con el resto de factores 33

METODOS DE ROTACIÓN.3ª FASE VARIMAX minimiza el nº de variables que tienen saturaciones altas en cada factor, es decir simplifica la columnas QUARTIMAX: minimiza el nº de factores necesarios para explicar cada variable. Simplifica la interpretación de los factores optimizando la solución por filas Las variables con mayores comunalidades tienen mayor influencia en la solución final (normalización de Kaiser) Normalización de Kaiser: consiste en dividir cada carga factorial al cuadrado por la comunalidad de la variable Con estos métodos de rotación lo que cambia es el valor de las cargas factoriales y el % de varianza total explicada por cada factor Ejemplo OCDE 35

ESTADISTICOS ASOCIADOS a Matriz CORRELACIONES. DESCRIPTIVOS I y II Niveles de significación: niveles críticos unilaterales asociados a cada coeficiente. Nivel menor de 0,05 es lo que interesa Determinante: próximo a 0 indican que las variables están relacionadas AF es una técnica pertinente. Si es muy bajo significa que hay variables con interrelaciones muy altas Reproducida: contiene las correlaciones que es posible reproducir utilizando la información contenida en la solución factorial hallada Residual: diferencias entre las correlaciones observadas y las reproducidas. Si el modelo es correcto, el nº de residuos con valores elevados debe ser mínimo 36

ESTADISTICOS ASOCIADOS A MATRIZ DE CORRELACIONES. DESCRIPTIVOS II KMO compara la magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de correlación parcial. Debe tomar un valor próximo a 1. Los menores de 0,5 indican que no de be emplearse el AF con los datos muestrales empleados poner formula PRUEBA ESFERICIDAD DE BARTLETT asumiendo que los datos provienen de una distribución normal multivariante, el estadístico B. se distribuye según el modelo de chi-cuadrado. Si el nivel de significación es mayor de 0,05 no podremos asegurar que el modelo factorial es adecuado para explicar los datos. 37

KMO y prueba de Bartlett Medida de adecuación muestral de Kaiser-Meyer-Olkin.,562 Prueba de esfericidad de Bartlett Chi-cuadrado aproximado gl Sig. 77,787 21,000 38

FASES DEL ANALISIS FACTORIAL 1.-Cálculo de una matriz capaz de expresar la variabilidad conjunta de todas las variables (m. correlaciones) 2.-Extracción de un nº óptimo de factores: Criterios Revisión de autovalores y comunalidad Métodos principales para extraer factores: diferencias 3.-Rotación de la solución para facilitar su interpretación Estadísticos asociados a Matriz de Correlaciones 4.-Estimación de las puntuaciones de los sujetos/casos en las nuevas dimensiones Ejemplo OCDE,ir a SPSS y mostrar pasos 39

PUNTUACIONES. 4º FASE Son puntuaciones de los sujetos en cada uno de los factores resultantes de la extracción a fin de valorar la situación relativa de cada caso/sujeto Equivalen a las cargas factoriales? 40

Puntuaciones de los factores.4fase Son estimaciones Regresión es el método más generalizado. Tiene una varianza = al cuadrado de la correlación múltiple entre las puntuaciones estimadas y los valores factoriales verdaderos No es = a 1. Cuando se utiliza CP las puntuaciones F. no son estimadas sino calculadas a partir de las variables originales Las puntuaciones factoriales de los casos dependerá del método de extracción, el método de rotación elegido y el método de estimación de las puntuaciones factoriales Las puntuaciones positivas son puntuaciones mayores que la media, las negativas son menores que la media y las puntuaciones de 0 corresponden a una p. factorial igual a la media. Ejemplos poner OCDE y Cataluña mapa 41