MEDIDAS DE ASOCIACIÓN: COEFICIENTES DE CORRELACIÓN Y DE REGRESIÓN I.- Introducción En el tema I estudiamos las medidas descriptivas para una

Documentos relacionados
Modelos lineales Regresión simple y múl3ple

Problemas donde intervienen dos o más variables numéricas

Medidas de Variabilidad

COLEGIO INGLÉS MEDIDAS DE DISPERSIÓN

DISTRIBUCIONES BIDIMENSIONALES

CAPÍTULO 4 MARCO TEÓRICO

Tema 6. Estadística descriptiva bivariable con variables numéricas

SEMANA 13. CLASE 14. MARTES 20/09/16

17/02/2015. Ángel Serrano Sánchez de León

Población 1. Población 1. Población 2. Población 2. Población 1. Población 1. Población 2. Población 2. Frecuencia. Frecuencia

Medidas de centralización

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Aspectos fundamentales en el análisis de asociación

Prueba de Evaluación Continua

Figura 1

Relaciones entre variables

REGRESION LINEAL SIMPLE

Licenciatura en Administración y Dirección de Empresas INTRODUCCIÓN A LA ESTADÍSTICA EMPRESARIAL

CAPÍTULO IV. MEDICIÓN. De acuerdo con Székely (2005), existe dentro del período información

REGRESION LINEAL SIMPLE

A. Una pregunta muy particular que se puede hacer a una distribución de datos es de qué magnitud es es la heterogeneidad que se observa.

Introducción a la Física. Medidas y Errores

Estadísticos muéstrales

ESTADÍSTICA BIDIMENSIONAL ÍNDICE GENERAL

TRABAJO 1: Variables Estadísticas Unidimensionales (Tema 1).

Ejercicios y Talleres. puedes enviarlos a

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

Algunas aplicaciones del test del signo

Resolución. Instrucciones: Leer detenidamente los siete enunciados y resolver seis de los siete problemas propuestos.

PyE_ EF2_TIPO1_

Apéndice A: Metodología para la evaluación del modelo de pronóstico meteorológico

Instituto Tecnológico Superior del Sur del Estado de Yucatán EGRESIÓN LINEAL REGRESI. 10 kg. 10 cm

Regresión y Correlación Métodos numéricos

Problema: Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?

Estas medidas serán más significativas cuanto más homogéneos sean los datos y pueden ser engañosas cuando mezclamos poblaciones distintas.

Midiendo la Asociación lineal entre dos variables

5.0 ESTADÍSTICOS PARA DATOS AGRUPADOS.

PyE_ EF1_TIPO1_

3 - VARIABLES ALEATORIAS

Tema 1:Descripción de una variable. Tema 1:Descripción de una variable. 1.1 El método estadístico. 1.1 El método estadístico. Describir el problema

Variables Aleatorias

Instrucciones: Leer detenidamente los siete enunciados y resolver seis de los siete problemas propuestos. Frecuencia absoluta (f i )

Variables Aleatorias

ESTADÍSTICA. Definiciones

Tema 1.3_A La media y la desviación estándar

SISTEMA DIÉDRICO I Intersección de planos y de recta con plano TEMA 8 INTERSECCIONES. Objetivos y orientaciones metodológicas. 1.

UNIDAD 12: Distribuciones bidimensionales. Correlación y regresión

CLAVE - Laboratorio 1: Introducción

Capítulo 2: ANALISIS EXPLORATORIO de DATOS Estadística Computacional 1º Semestre 2003

ENUNCIADOS DE LOS EJERCICIOS PROPUESTOS EN 2011 EN MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES. 3 y

ACTIVIDADES ESTADÍSTICA UNIDIMENSIONAL. a) Calcula la temperatura media y la temperatura mediana de la semana.

IES Menéndez Tolosa (La Línea) Física y Química - 1º Bach - Gráficas

Organización y resumen de datos cuantitativos

Lección 4. Ejercicios complementarios.

LECTURA 03: DISTRIBUCIONES DE FRECUENCIAS (PARTE II)

Capitalización y descuento simple

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

EJERCICIOS: Tema 3. Los ejercicios señalados con.r se consideran de conocimientos previos necesarios para la comprensión del tema 3.

10. VIBRACIONES EN SISTEMAS CON N GRADOS DE LIBERTAD

SEMANA 5 MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

LECTURA 06: MEDIDAS DE TENDENCIA CENTRAL (PARTE I) LA MEDIA ARITMÉTICA TEMA 15: MEDIDAS ESTADISTICAS: DEFINICION Y CLASIFICACION

Un estimado de intervalo o intervalo de confianza ( IC

MAGNITUD: propiedad o cualidad física susceptible de ser medida y cuantificada. Ejemplos: longitud, superficie, volumen, tiempo, velocidad, etc.

2. EL TENSOR DE TENSIONES. Supongamos un cuerpo sometido a fuerzas externas en equilibrio y un punto P en su interior.

Regresión lineal y correlación lineal

Ejemplo: Consumo - Ingreso. Ingreso. Consumo. Población 60 familias

TEMA 3. VARIABLE ALEATORIA

Análisis de Resultados con Errores

Inferencia en Regresión Lineal Simple

Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y serán objeto de nuestro estudio.

Probabilidad Grupo 23 Semestre Segundo examen parcial

Regresión Lineal Simple y Correlación

SEGUNDA PARTE RENTAS FINANCIERAS

LECTURA 03: DISTRIBUCIONES DE FRECUENCIAS (PARTE II)

Reconciliación de datos experimentales. MI5022 Análisis y simulación de procesos mineralúgicos

Facultad de Ciencias Básicas

Estimación de incertidumbres en calibración de Osciladores

Utilizar sumatorias para aproximar el área bajo una curva

Tema 8 - Estadística - Matemáticas CCSSI 1º Bachillerato 1

b) Realiza el diagrama de dispersión c) Calcula media y desviación típica de cada variable 2

Slide 1. Slide 2 Organización y Resumen de Datos. Slide 3. Universidad Diego Portales. Tablas de Frecuencia. Estadística I

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS. Métodos multivariantes en control estadístico de la calidad

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Bloque 5. Probabilidad y Estadística Tema 2. Estadística descriptiva Ejercicios resueltos

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

INTRODUCCIÓN. Técnicas estadísticas

EJERCICIOS DE ESTADÍSTICA BIDIMENSIONAL.

Análisis de la varianza de un factor

Ejercicios y problemas (páginas 131/133)

Tema 1: Estadística Descriptiva Unidimensional

Correlación y regresión lineal simple

CAPÍTULO 1: VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES

Modelos unifactoriales de efectos aleatorizados

Estadistica No Parametrica

MATEMÁTICAS para estudiantes de primer curso de facultades y escuelas técnicas

Estadística Unidimensional: SOLUCIONES

Transcripción:

MEDIDAS DE ASOCIACIÓ: COEFICIETES DE CORRELACIÓ DE REGRESIÓ I.- Introduccón En el tema I estudamos las meddas descrptvas para una varable, y además, planteamos que tales meddas tambén exsten para dos o más varables de una muestra. Cuando las medas descrptvas se emplean para estudar dos o más varables, de modo conjunto, se denomnan meddas de asocacón. Las medas de asocacón, según sus usos, se clasfcan en meddas de correlacón y meddas de regresón. La correlacón es la técnca estadístca que estuda el problema de medr la ntensdad o el grado de relacón que exste entre las varables que se nvestgan. S la correlacón se mde entre dos varables, se dce que es smple y cuando es entre tres o más, se llama correlacón múltple. Para medr el grado de correlacón entre las varables, se utlzan los coefcentes de correlacón. Entre estos tenemos: 1.- El coefcente de correlacón ph..- El coefcente de correlacón C de contngenca. 3.- El coefcente de correlacón T de Chuprov. 4.- El coefcente de correlacón r c de contngenca. 5.- El coefcente de correlacón K de Cramer. 6.- El coefcente de correlacón punto bseral. 7.- El coefcente de correlacón de rangos. 8.- El coefcente de correlacón lneal smple. 9.- El coefcente de correlacón concordanca de Kendall W La regresón, por su parte, es la técnca estadístca que estuda el problema de encontrar la mejor funcón matemátca que descrbe el comportamento conjunto de las varables que se nvestgan. S la regresón se mde entre dos varables, se dce que es smple y cuando es entre tres o más, se denomna regresón múltple. A la funcón matemátca que se utlza en la regresón se le nombra funcón o curva de regresón y de acuerdo con el tpo de funcón utlzada, la regresón puede ser lneal (s la funcón lo es) o no lneal (s la funcón no lo es). Así, la funcón de regresón podrá ser una recta, una parábola u otra funcón cualquera. Báscamente, en esta leccón abordaremos la correlacón y la regresón smples. II.- La correlacón entre dos varables Consderaremos una muestra aleatora de volumen en la que, a cada uno de los elementos de esa muestra, se le han meddo dos varables X e. En cada caso, especfcaremos las escalas en las que se mden las varables, y s es o no necesaro, tabular dchas varables de modo conjunto.

1.- El coefcente de correlacón ph Este coefcente se emplea cuando se busca la correlacón entre dos varables que estén meddas, ambas, en escala nomnal dcotómca. Para su cálculo requere que se construya, con los datos de la muestra, una tabla smple de doble entrada. La tabla tendrá que tener dos flas (h) y de dos columnas (k), es decr, será del tpo X: a las frecuencas absolutas conjuntas le llamaremos, respectvamente, A, B, C y D; tal y como se muestra a contnuacón: X 1 TOTAL 1 A B A+B C D C+D TOTAL A+C B+D A partr de las frecuencas obtendas aquí, se defne el coefcente ph: φ AD BC ( A + B)( C + D)( A + C)( B + D) En resumen, para calcular el valor de ph, seguremos los sguentes pasos: 1.- Construr la tabla bvarada con dos flas y dos columnas y obtener las frecuencas observadas conjuntas (A,B,C,D); así como, las margnales (A+B, C+D, A+C y B+D)..- Calcular los productos "cruzados" A D y B C y hallar la dferenca entre los resultados de estos productos. S esta dferenca dera negatva, gnorar el sgno menos. 3.- Calcular el producto de todas las frecuencas margnales y hallar la raíz cuadrada al resultado. 4.- Dvdr el resultado del paso por el del paso 3. A contnuacón nos refermos a las propedades de este coefcente, que son útles para la nterpretacón práctca de él. Propedades de ph: 1.- El menor valor que puede tomar ph es cero..- El mayor valor que puede tomar ph es uno. Comentaro: cuando ph es cero, ndca que entre las varables no exste relacón; en cambo, cuando es uno, sgnfca que entre esas varables exste una relacón perfecta. Estas observacones tambén son váldas para los coefcentes que sguen. Ejemplo 1: En una muestra aleatora de cuarenta estudantes se observó el nterés por el estudo (X) y el sexo () de cada uno de ellos. Mda la correlacón entre estas varables, a partr de los dados en la sguente tabla: Tabla #1 Interés por el estudo según El sexo de los alumnos de la la escuela Oscar Ortz Curso: 1995-1996 X M F TOTAL

SÍ 10 10 0 O 8 1 0 TOTAL 18 40 Fuente: Muestra nvestgada Leyenda: X: Interés por el estudo. : Sexo Solucón: tanto la varable X como la están meddas en escala nomnal dcotómca. Se ha construdo una tabla de doble entrada en la que h y k; además A10, B10, C8, D1 y las frecuencas margnales son A+B0, C+D0, A+C18 y B+D. A D10X110, B C10X880 y A D-B C10-8040. (A+B)(C+D)A+C)(B+D)0X0X18X158400 y la raíz cuadrada de este resultado es: 397.994974843, por tanto, el coefcente es: 40 φ.10050378156.10. Exste una correlacón muy baja entre 397.994974843 las varables nterés y sexo..- El coefcente de correlacón C de contngenca Una lmtacón que tene ph es que solo se puede utlzar en tablas del tpo X, por tal motvo no sempre es aplcable. En ocasones, podremos utlzar el coefcente C de contngenca. Este coefcente se emplea cuando se busca la correlacón entre dos varables que estén meddas, ambas, en escala nomnal, pero no necesaramente una y la otra tenen que ser dcotómcas. Para su cálculo requere que se construya, con los datos de la muestra, una tabla smple de doble entrada de h flas (h) y de k columnas (k). Además, h y k pueden ser guales o no. A partr de la tabla hxk construda, el coefcente C se defne por: C h k χ j, donde χ ( χ + 1 j 1 j 1) En resumen, para calcular el valor de C, seguremos los sguentes pasos: 1.- Construr la tabla bvarada con h flas y k columnas y obtener las frecuencas observadas conjuntas ; así como, las margnales y..- Calcular el valor de χ². Para ello se debe: 1ro.- Elevar al cuadrado cada j. do.- Multplcar cada por cada.. j.. j. j 3ro.- Dvdr cada resultado del subpaso 1ro. por cada uno de los productos del subpaso do.. j. 4to.- Sumar los resultados del subpaso anteror y a ese total, restarle uno. 5to.- Multplcar por el tamaño de la muestra el resultado del cálculo del subpaso anteror.

3.- Adconar al valor de χ², calculado en el paso, el de. 4.- Dvdr el valor de χ², calculado en el paso, por el resultado del paso 3. 5.- Hallar la raíz cuadrada al resultado del paso 4. Propedades de C: 1.- El menor valor que puede tomar C es cero..- El mayor valor que puede tomar C es sempre menor que uno. 3.- En el caso en que hk, el mayor valor que podrá tomar C es k 1 k o h 1, por ser hk. h Comentaro: la razón de que C nunca alcance el valor de uno, es su gran lmtacón, ya que, en nngún caso se podrá llegar a saber s entre las dos varables exste una relacón perfecta. Ejemplo : Utlce los datos del ejemplo 1 para calcular el coefcente C. Solucón: como ya se djo, estamos ante dos varables meddas en escala nomnal dcotómca; s estas fueran poltómcas, tambén se podría aplcar el coefcente C, no así el φ. La tabla está dada en el ejemplo 1: 11 10, 1 10, 1 8 y 1; además, 1. 0,. 0,.1 18 y.. Calculemos ahora el valor de χ²: j j.. j.. j j.. j 10 100 0 18 0X18360.77777777778 10 100 0 0X440.777773 8 64 - - 0X18360.177777777778 1 144 - - 0X440.3777773 1.0101010101 1.0101010101-1.010101010101, χ²40x.010101010101.40404040404 χ²+.40404040404+4040.404040404 C χ χ +.404040404 40.404040404.0099999. 099 1 El mayor valor de C, teórcamente, aquí es.707106781187, como C.099 se aleja consderablemente de este valor, se puede decr que la relacón entre estas varables es muy baja. 3.- El coefcente de correlacón T de Chuprov: Atendendo al hecho de que C nunca puede tomar el valor de uno, en ocasones podremos utlzar el coefcente T de Chuprov. Este coefcente se emplea cuando se busca la correlacón entre dos varables que estén meddas, ambas, en escala nomnal, pero no necesaramente una y la otra tenen que ser dcotómcas. Para su cálculo requere que se construya, con los datos de la muestra, una tabla smple de doble entrada de h flas (h) y de k columnas (k). Además, h y k pueden ser guales o no.

A partr de la tabla hxk construda, el coefcente T se defne por: T χ ( h 1)( k 1), donde χ² fue dado antes. En resumen, para calcular el valor de T, seguremos los sguentes pasos: 1.- Construr la tabla bvarada con h flas y k columnas y obtener las frecuencas observadas conjuntas j ; así como, las margnales. y.j..- Calcular el valor de χ². Para ello se deben segur las ndcacones que al respecto dmos en el otro coefcente. 3.- Calcular el producto de h-1 por k-1 y hallar la raíz cuadrada de ese resultado. 4.- Multplcar por el resultado del paso 3. 5.- Dvdr el resultado del paso por el del paso 4. 6.- Hallar la raíz cuadrada al resultado del paso 4. Propedades de T: 1.- El menor valor que puede tomar T es cero..- El mayor valor que puede tomar T sempre será menor o gual que uno. 3.- Solo en el caso en que hk, el coefcente T, podrá tomar el valor de uno. Comentaro: la razón de que T solo pueda alcanzar el valor de uno cuando hk, es su gran lmtacón, ya que, su utlzacón se restrnge a casos partculardades. Cuando h k no se puede llegar a saber s entre las dos varable exste una relacón perfecta, n squera se podrá conocer s esa relacón es o no "alta", pues no se no exste un "extremo" superor para este coefcente en estos casos. Ejemplo 3: Utlce los datos del ejemplo 1 para calcular el coefcente T. Solucón: como ya se djo, estamos ante dos varables meddas en escala nomnal dcotómca; s estas fueran poltómcas, tambén se podría aplcar el coefcente T, no así el φ. La tabla está dada en el ejemplo 1 y el valor de χ².40404040404 fue obtendo en el ejemplo. (h-1)(k-1)(1)(-1)1 y 1 1; ( h 1)( k 1) 40(1)40;.404040404 40.010101010101;. 010101010101.010050378156. 10 Como en este caso hk, teórcamente T hubese poddo ser uno, por tanto, la relacón entre X e es muy baja, ya que el valor de este coefcente obtendo antes, está muy cerca de cero. 4.- El coefcente de correlacón r c de contngenca Un nuevo coefcente que, en algunos casos se puede utlzar como alternatva de los anterores, es el coefcente r c de contngenca. Este coefcente se emplea cuando se busca la correlacón entre dos varables que estén meddas, ambas, en escala nomnal, pero no necesaramente una y otra varables tenen que ser dcotómcas. Para su cálculo requere que se construya, con los datos

de la muestra, una tabla smple de doble entrada de h flas (h) y de k columnas (k), pero necesaramente h y k tenen que ser guales. A partr de la tabla hxk construda (hk), el coefcente r c se defne por: r c χ, donde χ² fue dado antes. ( k 1) En resumen, para calcular el valor de r c, seguremos los sguentes pasos: 1.- Construr la tabla bvarada con h flas y k columnas (hk) y obtener las frecuencas observadas conjuntas j ; así como, las margnales. y.j..- Calcular el valor de χ². Para ello seguremos las ndcacones dadas en el coefcente anteror. 3.- Calcular el producto de por k-1. Observe que sería lo msmo utlzar h-1, dado que hk. 4.- Dvdr el resultado del paso por el del paso 3. 5.- Hallar la raíz cuadrada al resultado del paso 4. Propedades de r c : 1.- El menor valor que puede tomar r c es cero..- El mayor valor que puede tomar r c es uno. Comentaro: cuando r c es cero, ndca que entre las varables no exste relacón; en cambo, cuando es uno, sgnfca que entre esas varables exste una relacón perfecta. La gran lmtacón de este coefcente es que h tene que ser gual a k. Ejemplo 4: Utlce los datos del ejemplo 1 para calcular el coefcente r c. Solucón: como ya se djo, estamos ante dos varables meddas en escala nomnal dcotómca; s estas fueran poltómcas, tambén se podría aplcar el coefcente, pero solo s hk. La tabla está dada en el ejemplo 1 y el valor de χ².40404040404 fue obtendo en el ejemplo. (k-1)40(-1)40(1)40; r c χ ( k 1).40404040404.10050378156. 40 Como en este caso hk, se pudo utlzar este coefcente, por tanto, la relacón entre X e es muy baja, ya que el valor de r c obtendo antes, está muy cerca de cero. 5.- El coefcente de correlacón K de Cramer Un coefcente que elmna las lmtacones de todos los anterores es el K de Cramer. Este coefcente se emplea cuando se busca la correlacón entre dos varables que estén meddas, ambas, en escala nomnal, pero no necesaramente una y la otra tendrán que ser dcotómcas. Para su cálculo requere que se construya, con los datos de la muestra, una tabla smple de doble entrada de h flas (h) y de k columnas (k). Además, h y k pueden ser guales o no. A partr de la tabla hxk construda, el coefcente K se defne por:

K χ, donde χ² fue dado antes. mn( k 1, k 1) En resumen, para calcular el valor de K, seguremos los sguentes pasos: 1.- Construr la tabla bvarada con h flas y k columnas y obtener las frecuencas observadas conjuntas j ; así como, las margnales. y.j..- Calcular el valor de χ² como se explcó con anterordad. 3.- Calcular el producto de por el menor valor entre h-1 y k-1; es decr, habrá que calcular h-1 y k-1 y de esas dos restas, tomar la menor para multplcarla por. 4.- Dvdr el resultado del paso por el del paso 3. 5.- Hallar la raíz cuadrada al resultado del paso 4. Propedades de K: 1.- El menor valor que puede tomar K es cero..- El mayor valor que puede tomar K es uno. Comentaro: cuando K es cero, ndca que entre las varables no exste relacón; en cambo, cuando es uno, sgnfca que entre esas varables exste una relacón perfecta. Ejemplo 5: Utlce los datos del ejemplo 1 para calcular el coefcente K. Solucón: como ya se djo, estamos ante dos varables meddas en escala nomnal dcotómca; s estas fueran poltómcas, tambén se podría aplcar el coefcente, sn nnguna lmtacón. La tabla está dada en el ejemplo 1 y el valor de χ².40404040404 fue obtendo en el ejemplo. En este caso hk, por ello h-1-1 1 y k-1-1 1, el menor valor de estas dos restas es 1: mín (h-1,k-1)1, por tanto, mín (h-1,k-1)40(1)40..40404040404 K.10050378156: aquí podemos realzar una nterpretacón 40 smlar a la del ejemplo anteror. 6.- El coefcente de correlacón bseral puntual: El coefcente de correlacón bseral puntual, tambén llamado coefcente de correlacón punto bseral, se emplea cuando se busca la correlacón entre dos varables, una de ellas medda en escala métrca y la otra, en escala nomnal dcotómca. Para su cálculo no requere que se hayan tabulado prevamente las varables; aunque tambén, prmero se pueden tabular estas de modo conjunto, y después calcular dcho coefcente. La tabla que se confeccone puede ser smple o de agrupacón y tendrá h flas (h) y k columnas. osotros trataremos el caso en el que las varables no se hayan tabulado. Denotaremos por r bp el coefcente de correlacón punto bseral. Consderemos una muestra de volumen, en la que se han meddo, en escala métrca la varable X y en escala nomnal dcotómca la varable. Sean X 1,X,X 3,...,X y 1,, 3,...,, respectvamente, los valores de X y de (aquí las solo toman

dos valores dferentes). Llamémosle P a la proporcón de elementos de la muestra que corresponden a una de esas dos categorías; por tanto, en la otra categoría tendremos una proporcón gual 1-P. Por otro lado, sea S la desvacón estándar de la varable medda en escala métrca. Agrupemos los datos de la varable métrca en dos subgrupos según los valores de la varable, y calculemos, tambén para varable X, las medas artmétcas correspondentes a cada uno de los dos subgrupos formados. Sean X P y X Q las medas de la varable X de los subgrupos que tenen proporcones P y 1-P, respectvamente. Con esto defnmos el coefcente ( X P X Q ) P(1 P) bseral puntual por: rbp S En resumen, para calcular el valor de r bp, seguremos los sguentes pasos: 1.- Calcular la desvacón estándar de la varable métrca, para ello se segurán las ndcacones dadas en la leccón anteror..- Dvdr los elementos de la muestra en dos subgrupos, según las categorías de la varable (nomnal dcotómca). 3.- Calcular las proporcones P y 1-P de elementos de la muestra que están ncludos en cada uno de estos subgrupos: para ello se dvde la cantdad de elementos de un subgrupo por el volumen de dcha muestra. La proporcón 1-P resulta drectamente para el otro subgrupo. 4.- Calcular la meda artmétca de la varable X (métrca) de cada subgrupo por separado: se deberá tener en cuenta que la meda X P corresponda al subgrupo cuya proporcón es P. 5.- Calcular el producto de P por 1-P y determnar la raíz cuadrada de él. 6.- Calcular la dferenca entre las medas artmétcas halladas en el paso 4 y multplcar esta dferenca por el resultado del paso 5. 7.- Dvdr el resultado del paso 6 por el del paso 1. Propedades de r bp : 1.- El menor valor que puede tomar r bp es menos uno..- El mayor valor que puede tomar r bp es uno. Comentaro: cuando r bp es cero, ndca que entre las varables no exste relacón; en cambo, cuando es uno o menos uno, sgnfca que entre esas varables exste una relacón perfecta. El sgno negatvo de un valor de r bp ndca que la relacón entre las varables es nversa. Por otro lado, s el sgno de r bp es postvo ndca que la relacón entre las varables es drecta. Ejemplo 6: En una muestra aleatora de ses estudantes se observó el peso en klogramos (X) y el sexo () de cada uno de ellos. Mda la correlacón entre estas varables, a partr de los sguentes datos: Alumnos A 1 A A 3 A 4 A 5 A 6 X 6 61 61 58 64 66 M F F F M M Solucón: X está medda en escala de razones y en nomnal dcotómca. La desvacón estándar de la varable X es S.7568097504. Al dvdr los elementos de la

muestra en dos subgrupos, según el sexo, tenemos que los alumnos A 1, A 5 y A 6 ntegran un subgrupo (masculnos) y los alumnos A, A 3 y A 4 ntegran el otro subgrupo (femenno). La proporcón de alumnos masculnos en la muestra es P3/6.5, mentras que la de femenno es 1-P1-.5.5. La meda del subgrupo de los alumnos es La meda del subgrupo de las hembras es 6 + 64 + 66 X P 64kg. 3 61+ 61+ 58 X Q 60kg. 3 P(1-P).5(1-.5).5X.5.5 y. 5. 5. X X 64 60 4, por tanto, ( X X ) P(1 P) 4.5 P Q. De aquí se tene que r bp /.7568097504.754765011. Entre el peso y el sexo de los alumnos de esta muestra exste una relacón drecta y alta. 7.- El coefcente de correlacón de rangos El coefcente de correlacón de rangos, tambén llamado coefcente de correlacón de Spearman, se emplea cuando se busca la correlacón entre dos varables que estén meddas en escala ordnal o métrca; es decr, las dos varables pueden estar meddas en escala métrca, las dos en escala ordnal o una en escala métrca y la otra en ordnal. Denotaremos por r s el coefcente de correlacón de Spearman y para una muestra de volumen, en la que se han meddo, en escala ordnal o métrca, las varables X e con los valores X 1,X,X 3,...,X y 1,, 3,...,, respectvamente, se determnan las dferencas d entre cada valor de X y su correspondente valor de : d X -, con ello se defne este coefcente 6 d por: rs 1. ( 1) En resumen, para calcular el valor de r s, seguremos los sguentes pasos: 1.- Colocar en columnas contguas los valores de X y los de, de modo tal que, el par de valores de estas varables que corresponden a un msmo elemento de la muestra, queden uno al lado del otro..- Convertr de modo ndependente, s fuera necesaro, los valores de cada una de estas varables en rangos. Esto es mprescndble, para la varable que esté medda en escala métrca. 3.- Determnar, para un msmo elemento de la muestra, las dferencas d entre cada rango de la varable X obtendos en el paso y su correspondente rango de la varable. 4.- En una nueva columna, elevar al cuadrado cada resultado del paso anteror y obtener la suma de esa columna. 5.- Multplcar por ses el resultado del paso 4. 6.- Elevar al cuadrado el tamaño de la muestra, restarle uno a ese resultado y a contnuacón multplcarlo por el volumen de la muestra. 7.- Dvdr el resultado del paso 5 por el del paso 6. P Q

8.- Al valor uno restarle el resultado del paso 7. Propedades de r s : 1.- El menor valor que puede tomar r s es menos uno..- El mayor valor que puede tomar r s es uno. Comentaro: cuando r s es cero, ndca que entre las varables no exste relacón; en cambo, cuando es uno o menos uno, sgnfca que entre esas varables exste una relacón perfecta. El sgno negatvo de un valor de r s ndca que la relacón entre las varables es nversa: a valores altos de una varable corresponderán valores bajos de la otra. Por otro lado, s el sgno de r s es postvo ndca que la relacón entre las varables es drecta: a valores altos de una varable corresponderán, tambén, valores altos de la otra. Ejemplo 7: En una muestra aleatora de sete estudantes se observaron las calfcacones en Matemátca (X) y en Físca (), ambas en puntos, de cada uno de ellos. A partr de los sguentes datos obtenga el coefcente de correlacón de rangos: Alumnos A 1 A A 3 A 4 A 5 A 6 A 7 X 98 97 90 88 84 86 83 97 96 96 96 88 88 78 Solucón: ambas varables X e están meddas en escala de ntervalo (métrca), por tanto, es posble utlzar el coefcente de correlacón de Spearman. Los rangos asgnados a los valores de cada una de estas varables por separado; así como, las dferencas entre ellos y su cuadrado se muestran a contnuacón: Rangos de Df. X X d d 98 97 7.0 7.0.0.00 97 96 6.0 5.0 1.0 1.00 90 96 5.0 5.0.0.00 88 96 4.0 5.0-1.0 1.00 84 88.0.5 -.5.5 86 88 3.0.5.5.5 83 78 1.0 1.0.0.00 - - - - - d.50 6 d 6(.50)15, (²-1)(7²-1)49-148, (²-1)7(48)336, 6 d /[²-1)]15/336.04464857149, 6 d rs 1 1-.04464857149.95535714857 ( 1) Entre las calfcacones de Matemátca y Físca de los alumnos de esta muestra exste una relacón drecta y alta. 8.- El coefcente de correlacón lneal smple El coefcente de correlacón lneal smple, tambén llamado coefcente de correlacón de Pearson, se emplea cuando se busca la correlacón entre dos varables que estén meddas, ambas, en escala métrca. Para su cálculo no

requere que se hayan tabulado prevamente las varables; aunque tambén, prmero se pueden tabular estas de modo conjunto, y después calcular dcho coefcente. La tabla que se confeccone puede ser smple o de agrupacón y tendrá h flas (h) y k columnas (k). osotros trataremos el caso en el que las varables no se hayan tabulado. Antes de calcular este coefcente es convenente representar las varable X e que se nvestgan, en un sstema de coordenadas cartesanas. Cada par de valores (X, ) se ploteará como un punto aslado, por lo que se obtendrá una "nube de puntos" que se denomna dagrama de dspersón. Este dagrama es útl porque ofrece a pror una nformacón sobre el comportamento conjunto de los datos de la muestra, específcamente, en él se vsualza a qué funcón matemátca se ajustan los datos de esa muestra. Denotaremos por r el coefcente de correlacón de Pearson y para una muestra de volumen, en la que se han meddo, en escala métrca, las varables X e con los valores X 1,X,X 3,...,X y 1,, 3,...,, respectvamente, se tene que: r [ X X X ( X ) ][ ( ) Para determnar este coefcente, es convenente realzar una secuenca de pasos y un "esquema de cálculo" como se exponen a contnuacón. X X X 1.- Colocar en columnas X contguas los valores de X y los 1 X 1 1 1 X 1 1 X de, de modo tal que, el par de X X valores de estas varables que..... corresponden a un msmo..... elemento de la muestra, queden..... uno al lado del otro y sumar, de X X X modo ndependente, los datos de cada columna. X X X.- Multplcar, en una tercera columna, cada valor de X por su correspondente valor de. Obtener la suma de esta columna. 3.- En una cuarta columna, elevar al cuadrado cada valor de X y obtener la suma de ella. 4.- En una qunta columna, elevar al cuadrado cada valor de y obtener la suma de ella. 5.- Multplcar por el tamaño de la muestra, el resultado obtendo en el paso 6.- Multplcar las sumas de las columnas uno y dos del paso 1. 7.- Restarle al resultado del paso 5, el resultado del paso 6. 8.- Multplcar por el resultado del paso 3. 9.- Elevar al cuadrado la suma de los valores de X obtenda en la prmera columna del paso 1. 10.- Restarle al resultado del paso 8 el del paso 9. ]

11.- Multplcar por el resultado del paso 4. 1.- Elevar al cuadrado la suma de los valores de obtenda en la segunda columna del paso 1. 13.- Restarle al resultado del paso 11 el del paso 1. 14.- Multplcar el resultado del paso 10 por el del paso 13. 15.- Calcular la raíz cuadrada del resultado del paso 14. 16.- Dvdr el resultado del paso 7 por el del paso 15. Propedades de r: 1.- El menor valor que puede tomar r es -1..- El mayor valor que puede tomar r es uno. Comentaro: cuando r es cero, ndca que entre las varables no exste relacón lneal; en cambo, cuando es uno, ndependentemente del sgno postvo o negatvo que tenga este número, sgnfca que entre esas varables exste una relacón lneal perfecta. El sgno negatvo de un valor de r ndca que la relacón entre las varables es nversa: a valores altos de una varable corresponderán valores bajos de la otra. Por otro lado, s el sgno de r es postvo ndca que la relacón entre las varables es drecta: a valores altos de una varable corresponderán, tambén, valores altos de la otra. 9.- El coefcente de concordanca de Kendall W (correlacón entre más de dos varables) S en el ejemplo anteror, además de las asgnaturas de Matemátca y de Físca se ncluyera la de Químca, entonces estaríamos ante una stuacón en la que se desea medr la correlacón entre tres varables (h3). Esta medcón no se puede realzar con los coefcentes anterores, aunque el procedmento para el cálculo del coefcente es smlar al anteror: las varables beben estar meddas en escala métrca u ordnal. Los valores de cada una de estas varables se transforman en rangos de modo ndependente una de otras, a contnuacón se determnan la suma de los rangos que le corresponden a cada alumno (R j ) y el promedo de estas sumas (meda). Segudamente, se determna la suma del cuadrado de las dferencas de cada rango con respecto a la meda de ellos, a lo cual llamaremos S; con 1S esto se tene que: W 3 h ( ) Propedades de W: Sempre será un valor entre 0 y 1: cero ndca que no hay concordanca entre las varables, mentras que uno ndca concordanca perfecta. La razón por la cual W no puede ser negatvo está dada en que entre más de dos varables no pueden exstr desacuerdos dscrepantes totalmente: por ejemplo s X y están en desacuerdo, y a la vez, X está en desacuerdo con Z, necesaramente entre y Z hay concordanca. Ejemplo: calcular el coefcente W para los sguentes datos, de una muestra aleatora de 7 alumnos, donde X: notas de Matemátca,

: notas de Físca y Z: notas de Químca. Alumnos A 1 A A 3 A 4 A 5 A 6 A 7 X 98 97 90 88 84 86 83 97 96 96 96 88 88 78 Z 91 98 9 88 87 96 85 Solucón: 7 (tamaño de la muestra o total de alumnos). h3 (total de varables) De aquí, se tene que h²( 3 -) 3²(7 3-7) 9(343-7)9(336)304 (que es el denomnador de W (ver la fórmula). Para calcular S, prmero se transforman en rangos los datos de cada varable: Alumnos A 1 A A 3 A 4 A 5 A 6 A 7 X 7 6 5 4 3 1 7 5 5 5.5.5 1 Z 4 7 5 3 6 1 R j 18 18 15 1 6.5 11.5 3 (suma de los rangos) R j 18 + 18 + 15 + 1 + 6.5 + 11.5 + 3 meda de los rangos: R 1 7 S (18-1)²+(18-1)²+(15-1)²+(1-1)²+(6.5-1)²+(11.5-1)²+(3-1)² S 6²+6²+3²+0²+(-5.5)²+(-.5)²+(-9)² S 36+36+9+0+30.5+0.5+81183.5 1(183.5) W 0.78174603175 (Interprete el resultado) 304 Observacón: este coefcente se puede emplear cuando se mdan tres o más varables. Además, el se suele emplear cuando en la nvestgacón se utlza el crtero de expertos (jueces) para medr el grado de concordanca entre estos. En tal caso, las varables serían los jueces y la muestra los ítems que se den a los expertos para que ellos ofrezcan su crtero. III.- La regresón La regresón, como planteamos con anterordad, es la técnca estadístca que estuda el problema de encontrar la mejor funcón matemátca que descrbe el comportamento conjunto de las varables que se nvestgan. Una nformacón prelmnar sobre esto lo obtenemos al observar el dagrama de dspersón. A la funcón matemátca que se utlza en la regresón sabemos que se le nombra funcón o curva de regresón; partcularmente, s esta es una recta le llamaremos recta de regresón. S el nvestgador "descubre" que entre sus dos varables exste "una verdadera relacón lneal", determnar la recta de regresón para esas varables le será muy útl, ya que podrá realzar "pronóstcos" de la varable dependente, a partr de un valor específco de la varable ndependente. 1.- La recta de regresón Cuando el nvestgador llega a la conclusón de que entre las dos varables que

está estudando exste relacón lneal, podrá entonces "buscar cuál es la mejor recta que descrbe el comportamento conjunto de esas varables". Esa recta de regresón, estadístcamente, se obtene aplcando el llamado método de los mínmos cuadrados. Sabemos que, matemátcamente, la recta se defne por la expresón y b + 0 b1 X ; aquí X e son las varables que se nvestgan, específcamente, X es la varable ndependente y es la dependente, b0 y b 1 se denomnan coefcentes de la recta de regresón, partcularmente, b 1 es la pendente de la recta y b 0 es el punto de nterseccón de esta funcón con el eje de las ordenadas (eje vertcal). Para encontrar esta recta, basta con saber el valor de los coefcentes de ella, precsamente, para determnar estos coefcentes se utlza el método de los mínmos cuadrados, que consste en hacer mínma la suma de los cuadrados de las desvacones vertcales de cada dato de la muestra, con respecto a dcha funcón: en símbolos buscar el valor mínmo de ( ). Con la aplcacón de este método se obtenen fórmulas para calcular, a partr de los datos de la muestra, los valores de b 0 y b 1. Estas fórmulas son: 0 X X X ( X ) X b, X X X ( X ) 1 b Para determnar estos coefcentes, es convenente realzar una secuenca de pasos y un "esquema de cálculo" como se exponen a contnuacón: 1.- Colocar en columnas contguas los valores de X y los de, de modo tal que, el par de valores de estas varables que corresponden a un msmo elemento de la muestra, queden uno al lado del otro y sumar, de modo ndependente, los datos de cada columna..- Multplcar, en una tercera columna, cada valor de X por su correspondente valor de. Obtener la suma de esta columna. 3.- En una cuarta columna, elevar al cuadrado cada valor de X y obtener la suma de ella. (El esquema de cálculo que debemos utlzar en este caso es smlar al confecconado para calcular r, excepto que no utlza la últma columna de aquel). 4.- Calcular b 0 del sguente modo: 1ro.- multplcar el resultado del paso 3 por la suma de los valores de, obtenda en la segunda columna del paso 1. do.- multplcar la suma de los valores de X obtenda en la prmera columna del paso 1, por el resultado del paso. 3ro.- restar al resultado del subpaso 1ro. el del subpaso do. 4to.- multplcar el tamaño de la muestra por el resultado del paso 3. 5to.- elevar al cuadrado la suma de los valores de X obtenda en la prmera columna del paso 1. 6to.- restar al resultado del subpaso 4to. el del subpaso 5to.

7mo.- dvdr el resultado del subpaso 3ro. por el del 6to. 5.- Calcular b 1 del sguente modo: 1ro.- multplcar el tamaño de la muestra por el resultado del paso. do.- multplcar las sumas obtendas en las dos prmeras columnas del paso 1. 3ro.- restar al resultado del subpaso 1ro. el del subpaso do. 4to.- multplcar el tamaño de la muestra por el resultado del paso 3. 5to.- elevar al cuadrado la suma de los valores de X obtenda en la prmera columna del paso 1. 6to.- restar al resultado del subpaso 4to. el del subpaso 5to. 7mo.- dvdr el resultado del subpaso 3ro. por el del 6to. Ejemplo 8: En una muestra aleatora de cnco estudantes se observaron las calfcacones en Matemátca (X) y en Físca (), ambas en puntos, de cada uno de ellos. A partr de los sguentes datos: Alumnos A 1 A A 3 A 4 A 5 a) Confeccone un dagrama de X 60 65 71 77 8 dspersón con estos datos. 70 74 80 86 89 b) Calcule e nterprete el coefcente de correlacón entre estas varables. c) Obtenga, s es posble, la recta de regresón. d) Qué nota tendrá un alumno que obtenga 70 puntos en Matemátca? Solucón: tanto X como están meddas en escala de razones, 5. a) En el dagrama de dspersón: se observa que los datos están muy próxmos a una recta que tene pendente postva. b) Para responder este ncso, hagamos un esquema de cálculo, como se ndcó antes:

X X X 60 70 400 3600 4900 65 74 4810 45 5476 71 80 5680 5041 6400 77 86 66 599 7396 8 89 798 674 791 X 355 399 X 8610 X 5519 3093 X X X ( X ) ][ ( r [ ) ] 5(8610) (355)(399) [5(5519) (355) ][5(3093) (399) ] r 143050 141645 [17595 1605][160465 15901] 1405 [1570][164] 1405 1984480 1405 1408.7157718.9973633004 Entre las calfcacones de Matemátca y Físca de los alumnos de esta muestra exste una relacón lneal drecta y alta. c) Para obtener la recta de regresón, como r es dferente de cero, e ncluso cercano a uno, se aprovecharán muchos de los cálculos realzados al calcular este coefcente. X X X ( X ) X (5519)(399) (355)(8610) 5531 b 0 16. 6 5(5519) (355) 1570 X X X ( X ) 5(8610) (355)(399) 1405 b 1 0. 89 1570 1570 De aquí tenemos que la recta b 0 + b 1 X queda expresada, en este caso, por: 16.6+0.89X. d) Un alumno que obtenga 70 puntos en Matemátca (varable X), se espera que tenga en Físca (varable ): 16.6+.89(70)78.56 puntos. Más adelante abundaremos sobre la valdez de este "pronóstco".