1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto <=> altura / peso adulto k*altura * relación de la circunferencia al radio c = 2. π.r * la presión de una masa de gas en relación a su temperatura y volumen V 1.P 1.T 0 = V 0.P 0.T 1 2.- El problema estadístico se convierte en que dado un conjunto de datos hipotéticamente relacionados entre sí cómo evidenciar esa relación? Desarrollar un modelo que permita (de ser posible) predecir con determinada certeza el valor de una variable (dependiente) con respecto a otra relacionada (independiente) cada vez que esta última toma un valor. y = f(x) 1
3.- Diagrama de dispersión: Representación gráfica de las observaciones de dos variables aparente o hipotéticamente relacionadas, con el objeto de evidenciar tal relación. Relación lineal positiva Relación lineal negativa Relación curva creciente Relación curva decreciente Relación curva en U No hay relación entre X e Y 2
4.- El ajuste de la curva es el procedimiento de hallar una curva que represente lo más eficazmente posible la distribución de los datos. El objeto es determinar la ecuación de la curva que represente la menos desviación posible del conjunto de datos considerado. 5.- A estos efectos el procedimiento de mínimos cuadrados, es la técnica matemática de análisis numérico que permite encontrar la función que mejor se aproxime al conjunto de datos (ajuste) siguiendo el criterio del menor error cuadrático. Se trata de minimizar la suma de los cuadrados entre los puntos generados por la función y los correspondientes en los datos. 6.- Se llama Regresión a la media de la distribución de una variable (dependiente) con respecto a un valor determinado de otra (independiente). 7.- Regresión lineal simple es el proceso de ajustar una recta a un conjunto de datos cuya dispersión sugiere este tipo de síntesis matemática. 3
El modelo puede representarse como: Y i = b 0 + b 1 X i + ε i Y i : variable dependiente b 0 : intersección con el eje de ordenadas b 1 : pendiente real de la población X i : variable independiente ε i : error aleatorio en Y para la observación i Y i = b 0 + b 1 X i + ε i 8.- Determinación de la ecuación de regresión. En esencia el problema consiste en determinar a partir de los datos los elementos descriptivos de la recta; a saber su intersección con el eje de ordenadas y su pendiente. 4
Sujeto a las siguientes condiciones: (1) Normalidad: La variable dependiente debe presentar una distribución normal para cada valor de la variable independiente. (2) Homocedasticidad: La variación en torno a la recta de regresión debe ser constante para todos los valores de la variable independiente. (3) Independencia del error. La diferencia residual entre la predicción y la observación debe ser independiente del valor de X. 5
El método de mínimos cuadrados nos permite determinar, dentro de estas premisas, la ecuación bajo el siguiente modelo general: ^ Y i b0 b1 X i 6
Ejercicio 1 El contador de costos de una empresa de construcción tiene el problema de estimar los costos de construcción para viviendas unifamiliares en el próximo año, para asignar los posibles precios. Tiene a mano los registros de todas las viviendas construidas en el último año. Por experiencia supone como razonable la hipótesis que el costo de la construcción está relacionado con el tamaño de la parcela: decide tomar una muestra aleatoria de 12 casas, según tabla a continuación: área parcela (mts 2 ) 500,0 700,0 1.000,0 1.000,0 1.200,0 2.000,0 2.200,0 1.500,0 3.000,0 4.000,0 1.200,0 1.500,0 Costo Const. (MBs.) 31,6 32,4 41,7 50,2 46,2 58,5 59,3 48,4 63,7 85,3 53,4 54,5 7
Costo de construcción MBs. Teoría de la decisión A partir de esta data, el contador construye un gráfico de dispersión con el objeto de determinar a grandes rasgos si su hipótesis es correcta: 90,0 área parcela vs. costo construcción 80,0 70,0 60,0 50,0 40,0 30,0 20,0 10,0 0,0 500,0 650,0 800,0 950,0 1.100,0 1.250,0 1.400,0 1.550,0 1.700,0 1.850,0 2.000,0 Tamaño de la parcela (m 2 ) 8
área parcela (mts 2) Costo Const.(MBs.) XY X 2 Y 2 1 500,0 31,6 15.800,00 250.000,00 998,56 2 700,0 32,4 22.680,00 490.000,00 1.049,76 3 1000,0 41,7 41.700,00 1.000.000,00 1.738,89 4 1000,0 50,2 50.200,00 1.000.000,00 2.520,04 5 1200,0 46,2 55.440,00 1.440.000,00 2.134,44 6 2000,0 58,5 117.000,00 4.000.000,00 3.422,25 7 2200,0 59,3 130.460,00 4.840.000,00 3.516,49 8 1500,0 48,4 72.600,00 2.250.000,00 2.342,56 9 3000,0 63,7 191.100,00 9.000.000,00 4.057,69 10 4000,0 85,3 341.200,00 16.000.000,00 7.276,09 11 1200,0 53,4 64.080,00 1.440.000,00 2.851,56 12 1500,0 54,5 81.750,00 2.250.000,00 2.970,25 Sumas 19.800,00 625,20 1.184.010,00 43.960.000,00 34.878,58 medias 1.650,00 52,10 b 1 = 0,014 b 0 = 29,823 9
9. Error estándar de la estimación. Al igual que las observaciones no están ubicadas exactamente sobre su media aritmética, tampoco lo estarán sobre la recta de regresión tal cual como observamos en la tabla en la columna Y-Y est. Por tanto las estimaciones obtenidas son aproximaciones, y por ello es necesario desarrollar un estadístico que mida la variabilidad en los valores reales de Y a partir de las estimaciones Y est. Esta medida se llama error estándar de la estimación se le denota por S xy o su equivalente S YX i 1 2 i b 0 i 1 n Y n Y i n 2 b n 1 i 1 X Y i i Dato original área parcela (mts 2) Costo Const (MBs.) estimación Y est Y - Y est 1 500,0 31,6 36,57-4,97 2 700,0 32,4 39,27-6,87 3 1000,0 41,7 43,32-1,62 4 1000,0 50,2 43,32 6,88 5 1200,0 46,2 46,02 0,18 6 2000,0 58,5 56,83 1,67 7 2200,0 59,3 59,53-0,23 8 1500,0 48,4 50,07-1,67 9 3000,0 63,7 70,33-6,63 10 4000,0 85,3 83,83 1,47 11 1200,0 53,4 46,02 7,38 12 1500,0 54,5 50,07 4,43 10
variación total: medida de la variación de los valores de Y en torno a su media. Y i variación explicada: consecuencia de la relación que existe entre Y y X. Variación total Variación no explicada Y est = b 0 + b 1 X i Variación explicada variación no explicada: consecuencia de factores diferentes de tal relación. Y est X i 11
12
11. Coeficiente de determinación (r 2 ). Si obtenemos la razón de la variación explicada a la variación total podremos calcular el porcentaje de la variación explicada por el modelo de regresión y por tanto una medida de cuán confiable es el modelo. Esta medida se define como: r 2 = V exp V total 12. Correlación. Este estadístico mide cuán fuerte es la relación entre dos variables, a través de un coeficiente ρ de correlación, tal que 1 ρ +1 Correlación negativa perfecta (ρ = -1) No hay correlación (ρ = 0) Correlación positiva perfecta (ρ = + 1) 13
El coeficiente de correlación viene dado por la ecuación r = r 2 Si sólo se efectúa el análisis de correlación en un grupo de datos; es decir sin asociarlo a la regresión, el coeficiente de correlación de la muestra puede calcularse directamente con: r = n n i=1 X i X Y i Y i=1 X i X 2 i=1 Y i Y 2 n 14
Error típico Variaciones de la estimación con respecto a la observación Coeficiente de determinación Coeficiente de correlación S YX = 4,976 V exp = 2.058,008 V nexp = 247,652 V total = 2.305,660 r 2 = 0,893 r = 0,945 15
Ejercicio 2.- El Director de una Universidad en su proceso de evaluación de conductas de entrada cree que el promedio de los últimos dos años de bachillerato y el índice académico de los alumnos están relacionados. Sólo toma como referencia los alumnos del 4to. Año de ellos toma una muestra de 15 alumnos que se detalla a continuación: Promedio bach. 87 88 80 83 80 98 78 85 80 92 76 81 82 89 78 Indice académico 2,3 2,8 2,9 3,0 2,8 3,9 2,6 3,3 2,5 3,0 3,2 3,2 2,6 3,2 2,7 16
Indice académico Teoría de la decisión 4,00 Indice académico 3,75 3,50 3,25 3,00 2,75 2,50 2,25 2,00 70,00 75,00 80,00 85,00 90,00 95,00 100,00 Promedio en Bachillerato 17
Promedio bachillerato Indice académico XY X 2 Y 2 Y est Y - Y est 87,00 2,30 200,10 7.569,00 5,2900 b 1 = 0,0323 3,0387-0,7387 88,00 2,80 246,40 7.744,00 7,8400 b 0 = 0,2295 3,0709-0,2709 80,00 2,90 232,00 6.400,00 8,4100 S YX = 0,3524 2,8126 0,0874 83,00 3,00 249,00 6.889,00 9,0000 V exp = 0,5301 2,9095 0,0905 80,00 2,82 225,60 6.400,00 7,9524 V total = 2,1442 2,8126 0,0074 98,00 3,86 378,28 9.604,00 14,8996 r 2 = 0,2472 3,3938 0,4662 78,00 2,60 202,80 6.084,00 6,7600 r = 0,4972 2,7481-0,1481 85,00 3,34 283,90 7.225,00 11,1556 2,9741 0,3659 80,00 2,50 200,00 6.400,00 6,2500 2,8126-0,3126 92,00 3,00 276,00 8.464,00 9,0000 3,2001-0,2001 76,00 3,20 243,20 5.776,00 10,2400 2,6835 0,5165 81,00 3,20 259,20 6.561,00 10,2400 2,8449 0,3551 82,00 2,64 216,48 6.724,00 6,9696 2,8772-0,2372 89,00 3,21 285,69 7.921,00 10,3041 3,1032 0,1068 78,00 2,66 207,48 6.084,00 7,0756 2,7481-0,0881 1.257,00 44,03 3.706,13 105.845,00 131,3869 18
19
Predicciones en el análisis de regresión (interpolación vs. extrapolación) 1. Utilizar el rango del conjunto de datos (interpolación) 2. Las inferencia fuera de ese rango no son aconsejables (no extrapolar). (a) datos fuera del dominio (b) cambian media y desviación típica (c) cambian los supuestos matemáticos (d) alta probabilidad de no aceptabilidad de la precisión de la predicción 20
Intervalo de confianza para predecir la media del conjunto (µ YX ) El ancho del intervalo depende de:. El valor del error típico, al aumentar la variación el intervalo es más ancho. El tamaño de la muestra, su aumento tiende a reducir el intervalo. La cercanía del dato a la media que estrecha el intervalo a medida que se acercan 21
Ejercicio 3.- se desea calcular el costo promedio real para casas con terrenos de 1.500 mts 2 con un intervalo de confianza del 95% 22