ANÁLISIS DE DATOS MULTIDIMENSIONALES

Documentos relacionados
17/02/2015. Ángel Serrano Sánchez de León

Modelos lineales Regresión simple y múl3ple

Tema 6. Estadística descriptiva bivariable con variables numéricas

ESTADÍSTICA BIDIMENSIONAL ÍNDICE GENERAL

Medidas de centralización

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Población 1. Población 1. Población 2. Población 2. Población 1. Población 1. Población 2. Población 2. Frecuencia. Frecuencia

Problemas donde intervienen dos o más variables numéricas

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

Prueba de Evaluación Continua

TEMA 3. VARIABLE ALEATORIA

16/02/2015. Ángel Serrano Sánchez de León

Capítulo 2: ANALISIS EXPLORATORIO de DATOS Estadística Computacional 1º Semestre 2003

Relaciones entre variables

Medidas de Variabilidad

CLAVE - Laboratorio 1: Introducción

Figura 1

Tema 1: Estadística Descriptiva Unidimensional

ESTADÍSTICA (GRUPO 12)

Descripción de una variable

COLEGIO INGLÉS MEDIDAS DE DISPERSIÓN

Aspectos fundamentales en el análisis de asociación

Problema: Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?

Estadísticos muéstrales

INTRODUCCIÓN. Técnicas estadísticas

EJERCICIOS: Tema 3. Los ejercicios señalados con.r se consideran de conocimientos previos necesarios para la comprensión del tema 3.

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

CAPÍTULO 4 MARCO TEÓRICO

1. Notación y tabulación

ESTADÍSTICA DESCRIPTIVA

Licenciatura en Administración y Dirección de Empresas INTRODUCCIÓN A LA ESTADÍSTICA EMPRESARIAL

Instituto Tecnológico Superior del Sur del Estado de Yucatán EGRESIÓN LINEAL REGRESI. 10 kg. 10 cm

Tema 8 - Estadística - Matemáticas CCSSI 1º Bachillerato 1

Ejercicios y Talleres. puedes enviarlos a

Tema 1: Análisis de datos unidimensionales

UNIDAD 12: Distribuciones bidimensionales. Correlación y regresión

Regresión Lineal Simple y Correlación

DISTRIBUCIONES BIDIMENSIONALES

Para dos variables x1 y x2, se tiene el espacio B 2 el que puede considerarse definido por: {0, 1}X{0, 1} = {(00), (01), (10), (11)}

Variables Aleatorias

Variables Aleatorias

10. VIBRACIONES EN SISTEMAS CON N GRADOS DE LIBERTAD

CAPITULO 3.- ANÁLISIS CONJUNTO DE DOS VARIABLES. 3.1 Presentación de los datos. Tablas de doble entrada.

Tema 4: Variables aleatorias

MATEMÁTICAS para estudiantes de primer curso de facultades y escuelas técnicas

Extracción de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311

x j x 1,,x n, j 1,,n La condición necesaria y suficiente es que el determinante Jacobiano de la transformación no se anule,

MEDIDAS DE ASOCIACIÓN: COEFICIENTES DE CORRELACIÓN Y DE REGRESIÓN I.- Introducción En el tema I estudiamos las medidas descriptivas para una

Un ejemplo de Análisis Factorial de Correspondencias

para cualquier a y b, entonces f(x) es la función de densidad de probabilidad de la variable aleatoria continua X.

CAPÍTULO 1: VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES

1. Variable aleatoria. Clasificación

LECTURA 07: MEDIDAS DE TENDENCIA CENTRAL (PARTE II) LA MEDIANA Y LA MODA TEMA 17: LA MEDIANA Y LA MODA

Variables Aleatorias. Variables Aleatorias. Variables Aleatorias. Objetivos del tema: Al final del tema el alumno será capaz de:

SEMANA 13. CLASE 14. MARTES 20/09/16

TEMA 5. ANÁLISIS DE UNA VARIABLE (III). MEDIDAS DE ASIMETRÍA, CURTOSIS Y CONCENTRACIÓN

H 0 : La distribución poblacional es uniforme H 1 : La distribución poblacional no es uniforme

e i para construir el modelo econométrico que se escribe a continuación:

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 6 de Junio de :00 horas. Pregunta 19 A B C En Blanco. Pregunta 18 A B C En Blanco

Estas medidas serán más significativas cuanto más homogéneos sean los datos y pueden ser engañosas cuando mezclamos poblaciones distintas.

MODELOS DE ELECCIÓN BINARIA

FISICOQUÍMICA FARMACÉUTICA (0108) UNIDAD 1. CONCEPTOS BÁSICOS DE CINÉTICA QUÍMICA

UNIDAD 1: Tablas de frecuencias

Universidad Simón Bolívar Conversión de Energía Eléctrica - Prof. José Manuel Aller

TEMA 1.- CONCEPTOS BÁSICOS

Tema 1:Descripción de una variable. Tema 1:Descripción de una variable. 1.1 El método estadístico. 1.1 El método estadístico. Describir el problema

PUBLICACIONES DE 4º CURSO

ESTADÍSTICA DESCRIPTIVA I

ESTADÍSTICA. Definiciones

Introducción a la Física. Medidas y Errores

Tema 9: Distribuciones Bidimensionales.

TEMA 10: ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA

A. Una pregunta muy particular que se puede hacer a una distribución de datos es de qué magnitud es es la heterogeneidad que se observa.

TODO ECONOMETRIA. Variables cualitativas

SEGUNDA PARTE RENTAS FINANCIERAS

ESTADISTÍCA. 1. Población, muestra e individuo. 2. Variables estadísticas. 3. El proceso que se sigue en estadística

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

REGRESION LINEAL SIMPLE

Organización y resumen de datos cuantitativos

ACTIVIDADES ESTADÍSTICA UNIDIMENSIONAL. a) Calcula la temperatura media y la temperatura mediana de la semana.

Método de reponderación aplicado en la EPA

SEMANA 5 MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

Diagnóstico de Fortalezas y Debilidades Comunales

CAPÍTULO IV. MEDICIÓN. De acuerdo con Székely (2005), existe dentro del período información

TRABAJO 1: Variables Estadísticas Unidimensionales (Tema 1).

Análisis de la varianza de un factor

PyE_ EF2_TIPO1_

PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE SOLUCIÓN

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Tema 9: Otros temas de aplicación

el blog de mate de aida CSI: Estadística unidimensional pág. 1

ESTADÍSTICA (GRUPO 12)

Especialista en Estadística y Docencia Universitaria REGRESION LINEAL MULTIPLE

Introducción. Escuela Técnica Superior de Ingeniería Informática. Universidad de La Laguna. Fernando Pérez Nava

Transcripción:

AÁLISIS DE DATOS MULTIDIMESIOALES ITRODUCCIÓ DISTRIBUCIÓ DE FRECUECIAS MULTIDIMESIOAL DISTRIBUCIOES MARGIALES DISTRIBUCIOES CODICIOADAS IDEPEDECIA ESTADÍSTICA ESTUDIO AALÍTICO DE DISTRIBUCIOES MULTIDIMESIOALES COVARIAZA VECTOR DE MEDIAS MATRIZ DE VARIAZAS-COVARIAZAS COEFICIETE DE CORRELACIÓ MATRIZ DE CORRELACIÓ En muchas ocasones nteresa estudar el com portamento de m ás de una caracterís tca (2 o m ás) en una poblacón.es evdente que sem pre se podrá estudar cada característca por separado, a tr avés de su correspondente d strbucón de frecuencas y analzar su com portamento a trav és de lo s ndcadores ya estudados de poscón, dspersón, for ma y concentracón.pero puede resultar necesaro analzar, tam bén el comportamento conjunto de 2 o más de las característcas observadas, con el fn de dlucdar la nfluenca de una en otra u otras, d etermnar las relacones exstentes entre ellas,etc.para ello es mprescndble estudar conjuntamente las ob servacones de todas las característcas (varables o atrbutos), a trav és de la dstrbucón de frecuencas multdmensonal. Dada una poblacón de ndvduos, de la que se dsponen observacones de varas característcas (supong amos cuanttatvas, va rables) éstas pueden, en prncpo representarse a través de un lstado (matrcal) smlar a una base de datos en el que en cada fla aparecerá uno de los ndvduos segudo de los valores que cada varable toma para cada ndv duo, lo que co nsttuye un regstro.(cada varable es lo que en la termnología de las bases de datos se llama campo): IDIVIDUO VARIABLE ( X ) ASIG.MATRICUL. VARIABLE 2( X 2 ) EDAD VARIABLE 3 ( X 3 ) ASIG. APROBADAS º JUA X 8 X 2 2 X 3 7 2º PEDRO X 2 7 X 22 22 X 32 6 3º MARÍA X 3 9 X 23 24 X 33 6 4º AA X 4 9 X 24 2 X 34 5 5º LUIS X 5 9 X 25 9 X 35 5

Otra forma de repre sentar los da tos multdmensonales, esp ecalmente útl en el c aso bdmensonal, es agrupando los datos por frecuencas. En el caso bdm ensonal, consderaríamos una tabla de doble entrada para cada una de las varables,cada fla corresponde a un valor de la prmera varable(x o ben x ),cada columna a un valor de la segunda varable(x 2j o ben y j ), y en cada celd a aparecería la frecuenca de cada par de valores (n j ). Y(aprobadas) Y Y 2 Y 3 n. X (matrculadas.) 5 6 7 X n n 2 n 3 n. 7 X 2 n 2 n 22 n 23 n 2. 8 X 3 n 3 n 32 n 33 n 3. 9 2 3 n.j n. 2 n.2 2 n.3 5 Una tabla de este tpo recbe el nombre de tabla de correlacón. S, en lugar de estar representadas las observacones de dos varab les (cuanttatva s), s e tra tara de d os atrbutos, con dstntos nveles, hablaríamos de tabla de contngenca. Cada una de las frecuencas nj que nos n forma del número de ndvduos que toman el valor x para la varable x, e y j para la varable y,recbe el nombre de frecuenca conjunta. S sumamos las frecuencas conjuntas a lo largo de una fla () se obtene el número total de observacones del valor de x, x, con ndependenca del valor que tom e la otra varable: n.= j n j = nº de observacones de x Las n. se conocen como frecuencas margnales de la varable x. Análogamente,s sum amos las frecuencas conj untas a lo largo de una columna (j) se obtene el número total de observacones del valor de y, y j, con ndependenca del valor que tome la otra varable: n. j = n j = nº de observacones de y j Las n. j se conocen como frecuencas margnales de la varable y. 2

Dstrbucones margnales Las dstrbucones margnales son las dstrbucones undmensonales que nos nforman del número de observacones para cada valor de una de las varable s,(prescndendo de la nformacón sobre los valores de las demás varables). En el caso bdm ensonal hay dos (una pa ra la x y otra para la y), en el caso multdmensonal hay tantas como varables. A partr de la tabla de correlacón pueden construrse las dstrbucones m argnales, asgnando a cada valor de la varable consderada su frecuenca margnal. En el caso de dm ensón mayor de dos, y s upuestos los datos en form a de base datos matrcal, habrá que consderar úncamente una de las varables (una columna) y a partr del lstado de observacones, se podrá construr la tabla de frecuencas de la dstrbucón margnal. Las dstrbucones margnales son dstrbucones de frecuencas undmensonales como las ya estudadas y pueden analzarse de la manera habtual (meda, varanza, asmetría, curtoss, etc.). Dstrbucones condconadas En el caso bdm ensonal,se pueden consd erar adem ás otras dstrbucones que nos especfquen las observacones que hay de cad a valor de una de las varables cuando mponemos la condcón de que la otra toma un valor determnado. Esto supone consderar úncam ente una columna de la tabla de correlacón (dstrbucón de x condconada a un valor de y) o una fla de la tabla (dstrbucón de y condconada a un valor de x). En el caso multdm ensonal, con u na representacón de ba se de datos, establecer una condcón supone realzar una seleccón parcal de los dato s, el resultado d e esta seleccón s ería la ds trbucón condconada, que en este caso puede ser un o multdmensonal, dependendo de la condcón (seleccón). Independenca estadístca Dos vara bles es tadístcas son estadístcamente ndependentes cuando el comportamento estadístco de una de ellas no se ve afectado por los valores que toma la otra; esto es cuando las relatvas de las dstrbucones condconadas no se ven afectadas por la condcón, y concden en todos los casos con las frecuencas relatvas margnales. Esta defncón puede hacers e m ás operatva, a través de la caracterzacón sgu ente: Dos varables son estadístcam ente ndepe ndentes cuando para todos los pares de valores se cum ple que la frecuenca relat va conjunta es gual al producto de las frecuencas relatvas margnales.: 3

para todo,j : n n n = j,., j, Ejemplo: Y X 2 3 n. 5 5 6 2 2 32 5 4 4 2 64 n. j 7 7 35 2 n n n j,., j =,, j para el prmer par, tendríamos para el segundo par,2 tendríamos 6 7 = que cumple 2 2 2 6 7 = que cumple 2 2 2 lo comprobaríamos hasta el últmo 2 64 35 para el últmo par 3,3, tendríam os = que cumple, por tanto X e Y son 2 2 2 estadístcamente IDEPEDIETES Estudo analítco de dstrbucones multdmensonales: Vector de Medas, matrz de Varanzas-Covaranzas Aunque s la ds trbucón multdmensonal estudada tene una dm ensón superor a 2 es posble defnr ndcadores (basados en los momentos) que consderen a la totald ad de las varables, en la práctca basta con analzar la totaldad de las varables por parejas para poder contar con toda la nformacón ndspensable para manejarse adecuadamente con una dstrbucón multdmensonal. 4

De esta form a, dada una dstrbucón de frecuencas m ultdmensonal ( de cualq uer dmensón) nos nteresará, por un lado cons ervar los nd cadores unvarantes de cada dstrbucón m argnal (m edas, varanzas, etc.,-- de cada varable por separado) y consderar adem ás algunos ndcadores (bv arantes), de cada pareja de varables posble. COVARIAZA En este sentdo el ndcador bvarante más mportante es la covaranza: Dadas dos varables estadístcas x e y defnremos la covaranza Sxy como: S xy, = k h j= = ( )( ) X x Y y n, j en el caso de dsponer de la dstrbucón agregada por frecuencas en una tabla de correlacón S xy, = k h j= = ( X x)( Y y) en el caso de dsponer de la dstrbucón sn agregar por frecuen cas (en un lstado matrcal de datos donde cada regstro es una observacón y nº de regstros= ) Propedades:. La covaranza es el momento central de orden, de la dstrbucón bdmensonal. 2. Es nvarante ante los cambos de orgen en cualquera de las dos varables. 3. Sn embargo depende de los cambos de undad.s se camba de undad de medda en ambas varables la covaranza se modfca proporconalmente a ambos cambos: u= a+bx v = c + dy S uv = b.d.s xy 5

4. La expresón de cálculo de la covaranza es s = a, x y donde a es el llamado momento (ordnaro) mxto y su expresón es: xy a k XYn,, j j= = h = s las observacones están agregadas por frecuencas, o ben: a, k h = j= = XY s las observacones no están agregadas por frecuencas 5. S dos varables son ndepe ndentes su covaranza es cero (el resultado recíproco no es necesaramente certo). 6. La covaranza nos m de la covaracón conjunta de dos varables: S es postva nos dará la nform acón de que a valores alto s de una de las varable hay una m ayor tendenca a encontrar v alores altos de la o tra varable y a valores ba jos de una de las varable,correspondentemente valores bajos. En cambo s la covaranza es negatva, la covaracón de am bas varables será en sentdo nv erso: a va lores altos le corresponderán bajos, y a valores bajos, al tos.s la covaranza es cero no hay una covaracón clara en nnguno de los dos sent dos.sn embargo el hecho de que la covaranza dependa de las m eddas de las varables no perm te establecer comparacones entre unos casos y otros. VECTOR DE MEDIAS: Dada una varable estadístca n-dm ensonal (X,X 2,X 3,...,X n ), llam aremos vector de medas al vector co lumna formado por las m edas de las dstrbucones m argnales de cada varable por separado. 6

MATRIZ DE VARIAZAS-COVARIAZAS: Dada una varable estadí stca n-dm ensonal (X,X 2,X 3,...,X n ), llam aremos m atrz de varanzas-covaranzas (m atrz de varan zas) (m atrz de covaranzas ), a la m atrz cuadrada, n n, que dsponga en su dagonal prncpal de las varanzas de cada una de las dstrbucones m argnales undm ensonales, y en los elem entos no-dagonales (,j) de las correspondentes covaranzas entre cada dos varables S j Propedades. La matrz de varanzas-covaranzas es smétrca respecto a su dagonal prncpal 2. La matrz de varanzas-covaranzas es defnda postva 3. El determnante de la matrz de varanzas-covaranzas (tambén llamado determnante de momentos) es sempre no negatvo L mayor o gual a 4. En el caso bdmensonal tendremos: det V = L = S 2 x S 2 y - (S xy ) 2 COEFICIETE DE CORRELACIÓ Para poder contar con un ndcador que nos perm ta, por un lado establecer la covaracón conjunta de dos var ables, y por otro, que tenga la unversaldad sufcente para poder estab lecer comparacones entre dst ntos caso s, se utlza el coefcen te de correlacón (ln eal, de Pearson).La correlac ón es, pues una m edda de covaracón conjunta que nos nform a del sentdo de esta y de su relevanca, que está acotada y permte la comparacón entre dstntos casos. El coefcen te de co rrelacón en tre dos var ables puede defnrse como la covaran za exstente entre sus dos varables tpfcadas y tene por expresón de cálculo: S S x y xy, = uv, = = X X, Y Y S S x, y x Sy r S S 7

Interpretacón: **S r < Hay correlacón negatva : las dos varables s e correlac onan en sentdo nverso.a valores altos de una de ellas le su elen corresponder valor bajos de la otra y vceversa.cuánto más próxmo a - esté el coefcente de correlacón m ás patente será esta covaracón extrema.s r = - h ablaremos de correlacón negatva perfecta lo que supone una determnacón absoluta entre las do s varables ( en sentdo nverso): Exste una relacón funconal perfecta entre ambas(una relacón lneal de pendente negatva). ** S r > Hay correlacón postva: las dos varab les se correlacon an en sentd o drecto.a valores altos de una le corresponden valores altos de la otra e gualm ente con los valores bajos. Cuánto m ás próxm o a + esté el coef cente de correlacón más patente será esta covaracón. S r = hablaremos de correlacón postva perfecta lo que supone una determ nacón absoluta entre las dos varables (en sentdo drecto) :Exste una relacón lneal perfecta ( con pendente postva). ** S r = se dce que las varables están ncorrelaconadas: no pued e establecerse nngún sentdo de covaracón. Propedad m portante: S dos varables son ndependentes estarán ncorrelaconadas aunque el resultado recíproco no es necesaramente certo. MATRIZ DE CORRELACIÓ En el caso de estar ana lzando una dstrbucón n-d mensonal con n > 2, podemos construr la llamada matrz de correlacón: La matrz de correlacón R es una matrz cuadrada n n cosnttuda por los coefcentes de correlacón de cada pareja de varables; de m anera que tendrá unos en su dagonal prncpal, y en los elem entos no dagonales (,j) los correspondente s coefcentes de correlacón r j La m atrz de correlacón será, obvam ente, sm étrca, y conservará las propedades de ser defnda- postva y tener un determnante no negatvo, ( adem ás el determnante será sempre menor o gual que ). Puede consderarse co mo la matrz de varanzas entre las varables tpfcadas. 8

9