Unidad de Consultoría Estadística

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Unidad de Consultoría Estadística"

Transcripción

1 UNIVERSIDAD DE OVIEDO Unidad de Consultoría Curso Avanzado del Paquete Estadístico R Introducción a la modelización estadística 1201B Unidad de Consultoría U N I O V I C E

2 Coordinador: Emilio Torres Manzanera Departamento de e Investigación Operativa y Didáctica de la Matemática Universidad de Oviedo E.U. Jovellanos - Campus de Viesques torres@uniovi.es Han colaborado en la elaboración de este material docente: Susana Montes Rodríguez, Ignacio Montes, Pelayo Izquierdo García, Tania Iglesias Cabo, Patricia Díaz Díaz. Universidad de Oviedo Unidad de Consultoría c/ Luis Moya Gijón- Spain Tel uce@uniovi.es Se concede permiso para copiar, distribuir o modificar este documento bajo los términos de la Licencia de Documentación Libre de GNU, versión 1.3 o cualquier otra versión posterior publicada por la Free Software Foundation; sin Secciones Invariantes ni Textos de Portada ni Textos de Contraportada. 2

3 Índice 1. Iniciar R-Commander 4 2. Conceptos básicos Análisis descriptivo Variable cualitativa-nominal Cuantitativa-discreta Cuantitativa-continua Contrastes de hipótesis Introducción Tests para el promedio Comparación de dos promedios Comparación de dos varianzas Test para la proporción Comparación de dos proporciones Relaciones entre variables Comparación de más de dos promedios Regresión lineal Modelización estadística Modelo de regresión lineal simple Transformaciones de variables Regresión lineal múltiple Análisis de la varianza Experimentos factoriales. Contrastes ortogonales y no ortogonales Modelo lineal con un factor Interacciones entre factores Análisis de la covarianza Introducción El consumo de energía según la producción de TBC y la línea Variables indicadoras Modelo completo Redacción de un artículo Ejercicios 99 A. Bases de datos 105 A.1. Producción de acero A.2. Consumo de alcohol

4 1. Iniciar R-Commander Antes de profundizar en el conocimiento de la, es útil empezar motivándose mediante una interfaz que nos facilite la realización de las tareas, al menos de las más sencillas. Para ello, R-Commander presenta una interfaz que, además de permitirnos interactuar con R para realizar análisis estadísticos básicos, presenta el código en lenguaje R que corresponde a las acciones solicitadas. Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta suficiente para todos los análisis estadísticos que necesiten abordar. Quienes encuentren R-Commander insuficiente, una vez superado el respeto inicial hacia R, podrán manejarse directamente con la consola de R, creando y editando las instrucciones, lo que puede resultar más engorroso, pero al mismo tiempo permite un control total sobre los procedimientos que en cada momento se van a aplicar. Según la version de R y R-Commander que se eligió instalar, hay distintas formas de lanzar R- Commander. Si instaló R-UCA o R-commander, abriendo Rterm automáticamente se inicia también el R-Commander. Si instaló directamente R, o bien R-Excel, siga las instrucciones que se indican a continuación. Desde la consola de R, seleccione Paquetes y después Cargar paquete..., tal como se muestra en la figura 1. Figura 1: Cargar paquetes en R Se visualizará una lista de paquetes; baje hasta encontrar Rcmdr y selecciónelo. Se inicia la ventana del R-Commander. Este interface consta de las siguientes partes: barra de menús, barra de elementos activos (conjuntos de datos y modelos), área de instrucciones, área de resultados y área de mensajes (Fig. 2). Figura 2: R-Commander 4

5 Para abrir una base de datos, accedemos al menú de Datos (Fig.3) y si deseamos trabajar con un fichero con el formato nativo de R (.rda), escogemos la opción Cargar conjunto de datos (Fig. 4). Figura 3: Menú de datos. Figura 4: Cargar datos El programa R y el paquete R-Commander no sólo permiten crear y trabajar sobre datos con formato nativo, sino que importan ficheros provenientes de otros programas: texto puro (en fichero, portapapeles o dirección URL), SPSS, Minitab, STATA, Excel y Access. 5

6 2. Conceptos básicos 2.1. Análisis descriptivo La estadística descriptiva es la parte de la que se dedica a resumir los datos. Este análisis fundamenta todo estudio desde el inicio. Las primeras conclusiones obtenidas tras el análisis descriptivo proporcionan un poder de inferencia mínimo, pero facilitan la utilización de técnicas más avanzadas (inferencia, contrastes). Una vez depurados los posibles errores de los datos, sintetizamos la información mediante tablas, gráficos y medidas descriptivas. Las variables estadísticas se clasifican en tres categorías: nominales, ordinales y numéricas. Las variables nominales clasifican según modalidades, atributos o niveles, como por ejemplo el estado civil, grupo sanguíneo, etc. Las variables ordinales corresponden a otro caso particular de variables no numéricas y ocurre cuando existe una relación de orden entre los atributos, como por ejemplo, nivel de estudios (primarios, secundarios, superiores), capacitación laboral (baja, media, alta), etc. Las variables numéricas cuantifican alguna magnitud: velocidad, edad, tiempo, etc. Las dos primeras se integrarán en las llamadas características cualitativas (factores), mientras que el tercer tipo corresponde a características cuantitativas (numéricas). Dentro de las cuantitativas también se pueden hacer dos grupos: discretas y continuas. Una variable discreta es aquella que entre dos valores posibles de la variable, siempre existe uno que no puede ser un valor posible de la variable. Por ejemplo, el número de hijos de una familia, puesto que pueden ser 3 o 4, pero no pueden ser 3 5. Otros ejemplos de variables discretas son el número de cilindros de un coche, el número de averías en una hora, etc. Por otro lado, se dice que una variable numérica es continua si entre cualesquiera dos valores posibles de la variable, siempre existe un valor posible. Una variable continua sería la estatura de una persona, puesto que al poder ser 1 70 ó 1 75 metros, en potencia al menos podría tomar cualquier valor intermedio como 1 73 metros, por ejemplo. Longitudes, pesos, temperaturas, etc. son otros ejemplos de variables continuas. Una vez identificadas, recopiladas y organizadas, las variables se tratarán combinando medidas estadísticas con representaciones gráficas. Conviene seleccionar y mostrar, en cada caso, aquellas que aportan información relevante (cuadro 1). Cuadro 1: Principales estadísticos de resumen. Tipo de Medidas Medidas Gráficos más Variable posición dispersión habituales Cualitativa-nominal Moda Diagrama de barras (sexo, raza,... ) Porcentajes Diagrama de sectores + Cualitativa-ordinal Mediana Diagrama de barras (nivel de estudios,... ) Percentiles Diagrama de sectores + Cuantitativa-discreta Media Desviación Diagrama de barras (Nº dias, Nº errores) Percentiles típica Diagrama de sectores + Cuantitativa-continua Media Desviación Histograma (peso, consumo,... ) Percentiles típica Diagrama de cajas + No se recomienda Variable cualitativa-nominal Dentro de la base de datos acero aparece la variable averias, que consta de dos modalidades (Sí, No). Por lo tanto, es evidente que es de naturaleza cualitativa y nominal. Ejemplo 2.1. Obtenga la moda y los porcentajes de la variable averias. 6

7 Solución: Estos estadísticos se obtienen de la siguiente forma: Estadísticos yresúmenes ydistribución de frecuencias... Seleccionar la variable averias Los procedimientos anteriores proporcionan el siguiente resultado: > Tabla <- table(acero$averias) # counts for averias > Tabla No Sí > 100 * Tabla/sum(Tabla) # percentages for averias No Sí Así, se ha obtenido el número de casos de cada modalidad y el porcentaje que representan dentro de la muestra. La moda es el dato que más se repite; en este caso, la modalidad No. Ejemplo 2.2. Obtenga el gráfico de barras de la variable averias. Solución: Los gráficos de barras se obtienen con la opción del menú Gráficas. En particular, Gráficas ygráfica de barras... Seleccionar la variable averias Con esto se obtendría el gráfico de barras correspondiente. Para modificar las etiquetas de los ejes, se podrían cambiar los nombres que aparecen en la ventana de instrucciones como sigue: > barplot(table(acero$averias), xlab = "avería", ylab = "Frecuencia") Esta instrucción realiza el siguiente diagrama de barras: 7

8 2.3. Cuantitativa-discreta Como ejemplo de una variable cuantitativa discreta disponemos en la base de datos de la variable naverias. Tal como se comentó en el Cuadro 1, para esta variable interesa obtener su media, su desviación típica y algunos de sus percentiles. Ejemplo 2.3. Calcule la media, desviación típica y percentiles de la variable naverias. Solución: Estos valores se obtienen de la siguiente forma: Estadísticos yresúmenes yresúmenes numéricos Seleccionar la variable naverias Las salidas del procedimiento anterior son: > numsummary(acero[,"naverias"], statistics=c("mean", "sd", "quantiles"), + quantiles=c(0,.25,.5,.75,1)) mean sd 0% 25% 50% 75% 100% n 0' Los resultados nos indican que la media es de aproximadamente averías por hora, con una desviación típica de El número de averías varía desde 0 hasta 4, y al menos el 75 % de la observaciones no presentaron averías. En total disponemos de 117 observaciones. Ejemplo 2.4. Obtenga el gráfico de barras de la variable naverias. 8

9 Solución: Nos hemos de percatar que al ser una variable numérica, R la considera continua y, por tanto, no nos permitiría hacer este gráfico. Debemos pues, crear en primer lugar una nueva variable de tipo factor con estos datos. Datos ymodificar variables del conjunto... yconvertir variable numérica en factor Seleccionar la variable naverias yutilizar números yescribir un nombre para la nueva variable > acero$naver <- as.factor(acero$naverias) Realizamos con esta variable el gráfico como en el Ejemplo 2.2: Gráficas ygráfica de barras con lo que obtenemos un gráfico similar al siguiente: 2.4. Cuantitativa-continua Dentro de la base de datos acero escogemos la variable consumo como ejemplo de variable cuantitativa continua. Para las variables continuas, tal como vimos en el Cuadro 1, los descriptivos que nos interesa obtener son la media, la desviación típica y los percentiles (en particular los cuartiles). Ejemplo 2.5. Calcule los principales estadísticos descriptivos de la variable consumo. 9

10 Solución: Estos valores se consiguen mediante el siguiente procedimiento: Estadísticos yresúmenes yresúmenes numéricos con el que se obtiene: > numsummary(acero[,"consumo"], statistics = c("mean", "sd", "quantiles"), + quantiles=c(0,.25,.5,.75,1)) mean sd 0% 25% 50% 75% 100% n ' ' Con esta información podemos concluir que el consumo medio se sitúa en torno a Megavatios/hora, con una desviación típica de Mg./hora. El consumo mínimo desciende hasta 17 5 y el máximo asciende hasta El 25 % de los casos analizados consumen megavatios o menos, el 50 % menos de y un 25 % consume más de Ejemplo 2.6. Obtenga el histograma y el diagrama de cajas de la variable consumo. Solución: Vamos a realizar este ejemplo en dos etapas: 1. Para representar el histograma, seguimos los pasos que se detallan a continuación: Gráficas yhistograma... Seleccionar la variable consumo se obtiene el siguiente histograma para la variable consumo: Hist(acero$consumo, scale = "frequency", + breaks="sturges", col="darkgray") 10

11 2. Para representar el diagrama de cajas, los pasos a seguir son: Gráficas ydiagrama de caja... Seleccionar la variable consumo que dan como resultado: > boxplot(acero$consumo, ylab = "consumo") A partir de dicho diagrama se observa, por ejemplo, que no existen datos atípicos para la variable (consumo) en esta muestra. 11

12 3. Contrastes de hipótesis 3.1. Introducción Los métodos descriptivos proporcionan una idea de cómo es la muestra. Para obtener conclusiones relativas a la población necesitamos utilizar técnicas de inferencia estadística. Dentro de éstas la más habitual es el contraste de hipótesis. Una hipótesis es una afirmación sobre las características estadísticas de un proceso, por lo que se puede considerar una hipótesis como una conjetura. Por ejemplo: si un técnico observa el consumo de energía durante varias horas, sabrá el consumo medio de las horas que observó. Con la ayuda de la inferencia, puede avanzar un paso más y conjeturar que el consumo medio de todas las horas de trabajo en esa fábrica es de 120. El proceso científico consiste entonces en probar su hipótesis contra una hipótesis alternativa: Hipótesis nula H 0 : consumo medio = 120 Hipótesis alternativa H 1 : consumo medio 120 Un test consiste en un procedimiento estadístico para determinar la validez de una hipótesis (la hipótesis nula). Si los datos de la muestra resultan poco creíbles de obtenerse en caso de ser cierta dicha hipótesis, nuestra razón nos obligará a rechazarla. En caso contrario, no hay base suficiente para rechazarla. La aceptación de la hipótesis nula es muy difícil si sólo se usan procedimientos estadísticos. Sin embargo, desde el punto de vista práctico, el no rechazo de una hipótesis nos llevará a concluir que no hay evidencias significativas en contra de dicha hipótesis y, por tanto, que puede considerarse admisible. La forma habitual de presentar los resultados de un test de hipótesis es a través del p-valor o nivel crítico. Simplemente con este número se puede concluir si la hipótesis nula es o no rechazada a un nivel de significación (α). El p-valor es el nivel de significación menor que llevaría al rechazo de la hipótesis nula H 0. Una vez que se conoce el p-valor, el responsable de tomar las decisiones puede determinar por sí mismo en qué medida son significativos los datos sin que se le imponga formalmente un nivel de significación predeterminado. Una vez conocido el valor del p-valor y fijado el nivel de significación del contraste, la decisión a tomar se obtiene comparando ambos valores, tal como puede verse en el cuadro 2. Cuadro 2: Regla de decisión. REGLA DE DECISIÓN P-valor < α = Rechazo H 0 P-valor α = No rechazo H 0 Generalmente se considera α = La decisión es el último paso de un contraste de hipótesis. Un esquema de todo el proceso asociado a un contraste puede verse en la figura 5. En dicho esquema se pone de manifiesto el hecho de que los niveles de significación habituales son siempre menores de 0 1, destacando los valores 0 1, 0 05 y De entre todos ellos, el nivel 0 05 predomina con claridad. Como ejemplos de test de hipótesis, vamos a considerar algunos de los más habituales en la práctica. Éstos aparecen descritos a continuación, junto con un ejemplo de pregunta que sería contestada mediante dicho test. Promedio de una población: El consumo medio es menor de 140? Comparación de promedios: El consumo medio es mayor cuando hubo averías? Proporción poblacional: El porcentaje de horas con averías es mayor del 10 %? 12

13 Figura 5: Pasos en un contraste de hipótesis. Comparación de proporciones: El porcentaje de horas con averías es mayor cuando estaba encendido el sistema que cuando no? Desviación típica: La variabilidad del consumo es menor de 50? Comparación de desviaciones típicas: La variabilidad del consumo es la misma durante las horas que hubo averías y durante las que no? Ejemplos de la mayoría de los contrastes anteriores serán analizados en detalle en las Secciones 3.2 a Tests para el promedio Para realizar un test cualquiera debemos considerar las siguientes etapas: seleccionar el contraste adecuado en el caso en estudio, establecer quiénes son H 0 y H 1 en ese contraste e interpretar el p-valor. En un test sobre el valor promedio de la población, debemos tener en cuenta si los datos siguen aproximadamente una distribución normal o no, así como el tamaño de la muestra, y según sea el resultado, decidir qué contraste realizamos (cuadro 3). Cuadro 3: Contrastes para el promedio. Contraste para la Distribución aproximadamente Tipo de test normal o n grande? Media (µ) Sí Test t para una muestra Mediana (Me) No Test de Wilcoxon para una muestra Si la muestra dispone de un suficiente número de datos (habitualmente se exige que tenga al menos 30), se puede utilizar el test t para una muestra para realizar contrastes acerca de la media de la población. En caso contrario, es necesario que se pueda admitir la normalidad de los datos para realizar dicho test. Si no fuera normal, se utilizaría el test de Wilcoxon para una muestra. En los contrastes de normalidad de los datos utilizaremos del test de Shapiro-Wilk. Para este test las hipótesis a contrastar son: TEST DE BONDAD DE AJUSTE A LA NORMAL H 0 : los datos provienen de una población normal H 1 : los datos NO provienen de una población normal 13

14 REGLA DE DECISIÓN P-valor < α = Rechazo H 0 (la distribución no es normal) P-valor α = No rechazo H 0 (se puede admitir la normalidad) Generalmente se considera α = En nuestro ejemplo, si queremos analizar el valor promedio de la variable consumo, al tener 117 datos ya podemos utilizar directamente el test t para una muestra. Así pues, estamos en condiciones de realizar un contraste para la media, comparándola con el valor 120. El test adecuado en este caso es el test t para una muestra, cuyas hipótesis a contrastar (H 0 y H 1 ) pueden ser de tres tipos: H 0 : µ = 120 H 0 : µ 120 H 0 : µ 120 H 1 : µ 120 H 1 : µ < 120 H 1 : µ > 120 Ejemplo 3.1. Es el consumo medio igual a 120? Solución: En este caso se tiene: H 0 : el consumo medio es de 120 H 1 : el consumo medio no es de 120 Estadísticos ymedias ytest t para una muestra... Seleccionar la variable consumo yponemos 120 en la hipótesis nula Las salidas de este test son: > t.test(acero$consumo, mu = 120, conf.level = 0.95) One Sample t-test data: acero$consumo t = , df = 116, p-value = alternative hypothesis: true mean is not equal to percent confidence interval: sample estimates: mean of x Puesto que la adaptación de la regla de decisión a este test en particular sería: P-valor < α = Rechazo H 0 (consumo medio 120) P-valor α = No rechazo H 0 (consumo medio = 120) Generalmente se considera α =

15 simplemente debemos considerar el valor del p-valor asociado a este contraste para esta muestra y, en base a él, tomar la decisión correspondiente. Puesto que hemos obtenido que el p-valor es , éste es menor que α = 0 05, por lo que la decisión es rechazar la hipótesis nula (H 0 ). Como conclusión podemos decir que la media poblacional es distinta de 120. El ejemplo anterior corresponde al tipo de test bilateral, puesto que la hipótesis alternativa es que el valor del parámetro es distinto de un número. Cuando la alternativa lleve el símbolo menor (<) o mayor (>), en lugar del símbolo distinto (, se denomina test unilateral. En ejemplo de dicho tipo de test unilateral puede verse a continuación. Ejemplo 3.2. El consumo medio es menor de 140? Solución: En este caso, tal como comentamos en el ejemplo anterior, se verifican las hipótesis para utilizar el test t para una muestra. Así, el test adecuado para contestar a esta pregunta contrastaría las siguientes hipótesis: y sería realizado tal como sigue: Estadísticos ymedias ytest t para una muestra H 0 : el consumo medio es mayor o igual que 140 H 1 : el consumo medio es menor de 140 Seleccionar la variable consumo yponemos 140 en la hipótesis nula ymarcar Media poblacional < mu0 Los resultados obtenidos son: > t.test(acero$consumo, alternative = "less", mu = 140, conf.level = 0.95) One Sample t-test data: acero$consumo t = , df = 116, p-value = alternative hypothesis: true mean is less than percent confidence interval: -Inf sample estimates: mean of x Como el p-valor (0 4577) supera los valores habituales de α, no se rechaza la hipótesis nula, por lo que podemos concluir que estos datos no aportan evidencias suficientes de que la media sea menor de 140. Vamos por último a analizar el caso de una variable en la que no se den las condiciones para aplicar el test t para una muestra. Ejemplo 3.3. Durante los días que hubo averías, la producción promedio de galvanizado 1 se sitúa en menos de 400 toneladas? 15

16 Solución: Comenzaremos seleccionando los datos para quedarnos sólo con aquellos que corresponden a días en los que hubo averías. Para ello podemos seguir los siguientes pasos: Datos yconjunto de datos activo yfiltrar el conjunto de datos... Seleccionar averias yexpresión de... averias=="sí" ynombre del nuevo... acero2 Datos yconjunto de datos activo yactualizar conjunto de datos activo Así, disponemos de un nuevo conjunto de datos activado, solamente con los datos relativos a las horas en las que hubo avería. Como son 28 datos, tal como vimos en el ejemplo 2.1, no podemos aplicar sin más el test t para la media y debemos comprobar si se cumple la hipótesis de normalidad. Realizaremos pues el test de normalidad a la variable pr.galv1. Estadísticos yresúmenes ytest de normalidad de Shapiro... Seleccionar pr.galv1 Los resultados de dicho test son: > shapiro.test(acero2$pr.galv1) Shapiro-Wilk normality test data: acero2$pr.galv1 W = , p-value = Como el p-valor ( ) es menor que α = 0 05, se rechaza la hipótesis nula, por lo tanto no hay normalidad. 16

17 Cómo podemos hacer para contrastar la hipótesis sobre el valor promedio de la producción de galvanizado 1 en las horas con averías? Al no haber normalidad y disponer de pocos datos, debemos realizar el test de Wilcoxon para una muestra. Para éste los distintos tipos de contrastes de hipótesis para la mediana son: La hipótesis que nos interesa es: H 0 : Me = 400 H 0 : Me 400 H 0 : Me 400 H 1 : Me 400 H 1 : Me < 400 H 1 : Me > 400 two.sided less greater La producción promedio es menor de 400? H 0 : Me 400 (la producción promedio es alta) H 1 : Me < 400 (la producción promedio es baja) Para realizar este test escribimos en la ventana de instrucciones lo que sigue: wilcox.test(acero2$pr.galv1,alternative="less",mu=400) y pinchamos en Ejecutar. Figura 6: Test de Wilcox para una muestra Lo que da como resultado > wilcox.test(acero2$pr.galv1, alternative = "less", mu = 400) Wilcoxon signed rank test with continuity correction data: acero2$pr.galv1 V = 277, p-value = alternative hypothesis: true location is less than 400 Como el p-valor (0 9552) es mayor que el nivel de significación α, no se rechaza la hipótesis nula, por lo tanto podemos suponer que la producción es alta, es decir mayor o igual de Comparación de dos promedios La comparación de dos promedios consiste en comprobar si el promedio de una variable varía según determinadas características. Dependiendo de la situación existen diversas posibilidades de contrastes. El cuadro 4 recoge los principales tests aplicados habitualmente. Ejemplo 3.4. Se puede afirmar que cuando se producen averías el consumo de energía se incrementa? 17

18 Cuadro 4: Contrastes para igualdad de promedios. Contrastes para comparar dos Distribuciones aproximadamente normales o tamaños muestrales grandes? Independientes? Tipo de test Medias Sí Sí Test t para muestras independientes Medias Sí No Test t para datos relacionados Medianas No Sí Test de Wilcoxon para dos muestras Medianas No No Test de Wilcoxon para muestras pareadas Solución: Lo primero de todo será volver a activar la base de datos acero. Para ello, pinchamos a la derecha de Conjunto de datos:, en el botón que pone acero2 y seleccionamos de nuevo la base de datos acero. Una vez hecho esto, vamos a verificar la normalidad del consumo para cada uno de las dos situaciones (cuando haya averías y cuando no) mediante el test de Shapiro-Wilk. Para esto ponemos en la línea de comandos: Figura 7: Normalidad del consumo según las averías Los resultados de ejecutar ambas líneas de comando son: > shapiro.test(subset(acero, subset = averias == "No")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = averias == "No")$consumo W = , p-value = > shapiro.test(subset(acero, subset = averias == "Sí")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = averias == "Sí")$consumo W = , p-value = Los p-valores correspondientes superan el nivel α, por lo que podemos considerar normalidad en ambos casos. Por la naturaleza del problema, es evidente que se puede trabajar con la hipótesis de que las poblaciones son independientes, con lo cual estamos en condiciones de aplicar el test t para muestras independientes. Ahora bien, a la hora de realizar dicho test es necesario especificar si se supone que las varianzas son iguales o no, puesto que el estadístico utilizado al obtener el p-valor y, por tanto, el valor de dicho p-valor, difiere según la opción elegida. En la sección 3.4 se puede ver cómo contrastar la igualdad de varianzas. El contraste para este ejemplo en particular está realizado en el Ejemplo 3.6, donde se obtiene que no hay evidencias en contra de suponer que las varianzas de ambas poblaciones sean iguales. En estas circunstancias, aplicamos el test t para muestras independientes, suponiendo las varianzas iguales. 18

19 Quiénes son H 0 y H 1 en ese contraste? Dependiendo de la hipótesis alternativa considerada, los tres contrastes que podemos realizar con el test t para muestras independientes para comparar las medias de dos poblaciones son: H 0 : µ 1 = µ 2 H 0 : µ 1 µ 2 H 0 : µ 1 µ 2 H 1 : µ 1 µ 2 H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 Ahora bien, antes de nada debemos tener claro a quien asigna R como primera clase (clase 1 con media µ 1 ) y como segunda clase (clase 2 con media µ 2 ). Por defecto, el programa considera el orden alfabético, es decir, si como en este caso las clases son No y Sí, la primera clase corresponde al no (sin averías y la segunda al sí (con avería). Que consuma más con avería se traduciría por lo tanto en µ 2 > µ 1, por lo que para este ejemplo vamos a considerar el contraste: H 0 : µ 1 µ 2 (consumo menor o igual con avería) H 1 : µ 1 < µ 2 (consumo mayor con avería) y para calcularlo procedemos de la siguiente forma: Estadísticos ymedias ytest t para muestras independientes Seleccionar las variables averias y consumo ymarcar: Diferencias < 0 ymarcar: Varianzas iguales Los resultados de estos pasos son: > t.test(consumo ~ averias, alternative = "less", conf.level = 0.95, + var.equal = TRUE, data = acero) Two Sample t-test data: consumo by averias t = , df = 115, p-value = alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf sample estimates: mean in group No mean in group Sí Como el p-valor (0 174) es mayor que el nivel de significación α, no se rechaza la hipótesis nula. Así pues, los datos no aportan evidencias de que el consumo promedio sea mayor cuando haya avería. 19

20 Qué ocurriría si las poblaciones no fueran independientes? En tal caso, si suponemos normalidad, realizamos el test t para muestras relacionadas. Se elige la siguiente opción del menú: Estadísticos ymedias ytest t para muestras relacionadas Sería este el caso, por ejemplo, si comparamos la resistencia de una pieza antes y después de aplicarle un procedimiento en el horno, el nivel de glóbulos rojos de una persona antes y después de recibir un determinado tratamiento o la producción de galvanizado tipo 1 y la producción de galvanizado tipo 2. Cuando las poblaciones no son normales y no tienen suficiente número de datos (habitualmente se suele exigir al menos 30) se realiza el test de Wilcoxon para dos muestras si las poblaciones son independientes, o el test de Wilcoxon para muestras pareadas si tal independencia no es supuesta. Realicemos unos ejemplos para aclarar tales situaciones. Ejemplo 3.5. Estudie el comportamiento de la producción de galvanizado 1 en función de las averías. Solución: Aunque ya sabemos que no podemos asegurar que la producción de galvanizado 1 siga una distribución normal, vamos a actuar como si aún no conociésemos dicha información. Así, determinamos el tipo de test más apropiado. Para ello aplicamos el test de normalidad de Shapiro-Wilk a ambas poblaciones: Figura 8: Test Shapiro de galvanizado por averias y los resultados de los mismos se detallan a continuación: > shapiro.test(subset(acero, subset = averias == "No")$pr.galv1) Shapiro-Wilk normality test data: subset(acero, subset = averias == "No")$pr.galv1 W = , p-value = 8.081e-08 > shapiro.test(subset(acero, subset = averias == "Sí")$pr.galv1) Shapiro-Wilk normality test data: subset(acero, subset = averias == "Sí")$pr.galv1 W = , p-value =

21 A la vista de los resultados (ambos p-valores son menores de ) podemos considerar la no normalidad de los datos y no disponemos de un número suficiente de datos (para horas con avería sólo contamos con 28 observaciones, tal como vimos en el ejemplo 2.1). Por tanto vamos a abordar este problema realizando un test para muestras sin normalidad, el test de Wilcoxon. En este caso, dada la naturaleza de los datos, se realizará el test de Wilcoxon para muestras independientes. Para este problema, puesto que el No representa la clase 1 y el Sí la clase 2, las hipótesis a contrastar son: H 0 : Me 1 Me 2 (producción menor o igual con avería) H 1 : Me 1 < Me 2 (producción mayor con avería) aunque de nuevo se podría considerar de la misma forma la alternativa de mayor (>) o de distinto ( ), tal como ocurría con el test t de igualdad de medias. Para realizar el test seguimos los siguientes pasos: Estadísticos ytest no paramétricos ytest de Wilcoxon para dos muestras Seleccionar las variables averias y pr.galv1 ymarcar: Diferencia < 0 Los resultados obtenidos en este caso son: > tapply(acero$consumo, acero$averias, median, na.rm = TRUE) No Sí > wilcox.test(consumo ~ averias, alternative = "less", data = acero) Wilcoxon rank sum test with continuity correction data: consumo by averias W = , p-value = alternative hypothesis: true location shift is less than 0 Como el p-valor (0 1579) es mayor que el nivel de significación considerado (α), no se rechaza la hipótesis nula y, por tanto, no podemos concluir que la producción de galvanizado 1 sea mayor cuando haya averías. En el caso de que las muestras no fueran independientes se tendría que haber elegido, si no se supone normalidad, el test de Wilcoxon para muestras pareadas. Dicho test se realiza eligiendo la siguiente opción del menú: 21

22 Estadísticos ytest no paramétricos ytest de Wilcoxon para muestras pareadas 3.4. Comparación de dos varianzas Como ya comentamos, un paso previo al contraste t de igualdad de medias es determinar la igualdad de varianzas, lo cual supone la realización de un test previo de igualdad de varianzas. Para este contraste de hipótesis vamos a considerar dos tipos de test, según la naturaleza de los datos, tal como se detalla en el cuadro 5 Cuadro 5: Contrastes para igualdad de varianzas. Contrastes para comparar dos Normalidad? Tipo de test Varianzas Sí Test F para dos varianzas Varianzas No Test de Levene En nuestro ejemplo comparamos el consumo con o sin averías y ya habíamos visto que se podían suponer ambas poblaciones normales. Por lo que realizaremos el test F para dos varianzas. Quiénes son H 0 y H 1 en ese contraste? Los distintos tipos de contrastes de hipótesis para dos varianzas, según la hipótesis alternativa considerada, son: H 0 : σ1 2 = σ2 2 H 0 : σ1 2 σ2 2 H 0 : σ1 2 σ2 2 H 1 : σ1 2 σ2 2 H 1 : σ1 2 < σ2 2 H 1 : σ1 2 > σ2 2 two.sided less greater En el contraste de igualdad de medias, la comprobación previa consiste precisamente en el primero de estos tres contrastes. Vamos a ver como se realiza mediante el siguiente ejemplo. Ejemplo 3.6. Son iguales las varianzas del consumo con o sin averías? Solución: Las hipótesis para el test son las siguientes. H 0 : σ1 2 = σ2 2 (varianzas iguales) H 1 : σ1 2 σ2 2 (varianzas distintas) Los pasos a seguir para obtener el p-valor asociado a dicho contraste son: Estadísticos yvarianzas ytest F para dos varianzas... 22

23 Seleccionar las variables averias y consumo yseñalar Bilateral Los resultados que presenta el R al finalizar estos pasos son: > tapply(acero$consumo, acero$averias, var, na.rm = TRUE) No Sí > var.test(consumo ~ averias, alternative = "two.sided", conf.level = 0.95, + data = acero) F test to compare two variances data: consumo by averias F = , num df = 88, denom df = 27, p-value = alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: sample estimates: ratio of variances Como el p-valor (0 7731) es mayor que el nivel de significación α, no se rechaza la hipótesis nula y, por tanto, podemos suponer que no existen diferencias significativas entre las varianzas del consumo con o sin avería (tienen la misma varianza). Como ya hemos comentado, si quisiésemos comparar la varianza de dos poblaciones que no suponemos normales, se debería realizar el test de Levene. Vamos a ver su funcionamiento mediante un ejemplo. Ejemplo 3.7. Es homocedástica la producción de galvanizado 1 (pr.galv1) según las averías? Solución: Para la variable pr.galv1 sabíamos que los datos se comportan sin normalidad. En este caso se realiza el test de Levene. Las hipótesis del test son: H 0 : σ1 2 = σ2 2 (varianzas iguales) H 1 : σ1 2 σ2 2 (varianzas distintas) La realización de este test se lleva acabo como sigue: Estadísticos yvarianzas ytest de Levene 23

24 Seleccionar las variables averias y pr.galv1 Los resultados del test de Levene para estos datos son: > levene.test(acero$pr.galv1, acero$averias) No Sí Levene's Test for Homogeneity of Variance Df F value Pr(>F) group * Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Como el p-valor ( ) es menor que α se rechaza la hipótesis nula, podemos por tanto suponer que hay diferencias significativas entre las varianzas. Más aún, podemos ver que la varianza sin avería es de mientras que cuando hay avería la varianza toma el valor de Test para la proporción Es frecuente el interés por saber qué proporción o porcentaje de individuos de una población, presentan una característica A, frente a los que no la presentan. Dicha proporción no será en general conocida, pero se pueden hacer contrastes de hipótesis sobre su valor, en función de los datos de una muestra. Para la realización de dichos tests es necesario un tamaño suficiente de muestra. Habitualmente se exige que dicho tamaño (n) sea mayor o igual que 30. Por ejemplo de aplicación de dichos tests sería si queremos saber si porcentaje de horas con avería es excesivo, considerándose excesivo si el porcentaje es mayor del 10 %. Para responder a esta pregunta un contraste de hipótesis adecuado es el test de proporciones para una muestra. Vamos a ver un ejemplo de aplicación de dicho test. Ejemplo 3.8. Siguiendo con los datos de nuestro ejemplo, puede considerarse que el porcentaje de averías es mayor del 10 %? Solución: Tendríamos en cuenta que p es la primera clase por orden alfabético, en este caso No. Plantearse si el porcentaje de horas con averías es mayor del 10 % es lo mismo que plantearse si el porcentaje de horas sin averías es menor del 90 %. Puesto que los distintos tipos de contrastes de hipótesis para la proporción son de la forma: las hipótesis a contrastar serían: H 0 : p = 90 % H 0 : p 90 % H 0 : p 90 % H 1 : p 90 % H 1 : p < 90 % H 1 : p > 90 % two.sided less greater H 0 : p 90 % (proporción razonable de averías) H 1 : p < 90 % (proporción excesiva de averías) 24

25 Ahora solo habría que hacer Estadísticos yproporciones ytest de proporciones para una muestra Seleccionar la variable averias yescribir 0.9 como hipótesis nula yproporción de la población < p0 Las soluciones de este procedimiento son: > prop.test(rbind(xtabs(~averias, data = acero)), alternative = "less", + p = 0.9, conf.level = 0.95, correct = FALSE) 1-sample proportions test without continuity correction data: rbind(xtabs(~averias, data = acero)), null probability 0.9 X-squared = , df = 1, p-value = 2.542e-07 alternative hypothesis: true p is less than percent confidence interval: sample estimates: p Como el p-valor es tan pequeño ( ), se rechaza la hipótesis nula, por lo que se concluye que ha habido un porcentaje excesivo de averías. En la muestra se ve que dicho porcentaje ha sido de alrededor del 24 %. Otra manera de abordar el problema, sobre todo si hubiera más de 2 clases sería reordenar los niveles de factor y poner como primer factor de la variable averias el factor Sí. Datos ymodificar variables yrecodificar niveles de factor 25

26 Seleccionar la variable averias Reordenar de la forma deseada Las salidas obtenidas son: > acero$averias <- factor(acero$averias, levels = c("sí", "No")) De esta manera las nuevas hipótesis del test serán: H 0 : p 10 % (proporción razonable de averías) H 1 : p > 10 % (proporción excesiva de averías) En estas condiciones el test se realizaría del siguiente modo: Estadísticos yproporciones ytest de proporciones para una muestra Seleccionar la variable averias yescribimos 0.1 como hipótesis nula yproporción de la población > p0 Las salidas obtenidas son: > prop.test(rbind(xtabs(~averias, data = acero)), alternative = "greater", + p = 0.1, conf.level = 0.95, correct = FALSE) 1-sample proportions test without continuity correction data: rbind(xtabs(~averias, data = acero)), null probability 0.1 X-squared = , df = 1, p-value = 2.542e-07 alternative hypothesis: true p is greater than

27 95 percent confidence interval: sample estimates: p Como el p-valor (2 542e 07) (que es el mismo para los dos contrastes) es menor que α se rechaza la hipótesis nula y se concluye que la proporción de averías es excesiva. De nuevo vemos que para estos datos el porcentaje de horas con averías es de aproximadamente el 24 % Comparación de dos proporciones Además de analizar el comportamiento de una proporción, se puede querer comparar la proporción de una determinada característica en dos poblaciones distintas. Al igual que ocurría en la sección anterior, el número de datos en cada muestra debe ser suficientemente grande (habitualmente se exigen al menos 30 datos por muestra). Así, por ejemplo, para poder determinar si el porcentaje de horas con avería es mayor cuando estaba apagado el sistema que cuando no, deberíamos plantear un test de proporciones para dos muestras. Los distintos tipos de contrastes de hipótesis en este caso son: H 0 : p 1 = p 2 H 0 : p 1 p 2 H 0 : p 1 p 2 H 1 : p 1 p 2 H 1 : p 1 < p 2 H 1 : p 1 > p2 two.sided less greater donde p 1 representa la proporción en el primer grupo (por orden alfabético) y p 2 en el segundo. Vamos a ver el funcionamiento de este test a través de un ejemplo concreto. Ejemplo 3.9. El porcentaje de horas con avería es mayor cuando estaba encendido el sistema que cuando no? Solución: Hemos de tener en cuenta que p 1 es siempre la primera clase por orden alfabético. Como en este caso trabajamos con las modalidades No y Sí, las hipótesis a contrastar son: H 0 : p NO p SI (igual o mejor con el sistema encendido) H 1 : p NO < p SI (peor con el sistema encendido) La obtención del p-valor asociado a este test se realizaría mediante los siguientes pasos en R: Estadísticos yproporciones ytest de proporciones para dos muestras... 27

28 Seleccionar las variables sistema y averias ymarcar: Diferencia < 0 Las salidas de este procedimiento son: > prop.test(xtabs(~sistema + averias, data = acero), alternative = "less", + conf.level = 0.95, correct = FALSE) 2-sample test for equality of proportions without continuity correction data: xtabs(~sistema + averias, data = acero) X-squared = , df = 1, p-value = alternative hypothesis: less 95 percent confidence interval: sample estimates: prop 1 prop Como el p-valor (0 2076) es mayor que α no se rechaza la hipótesis nula, no hay evidencias de que vaya peor con el sistema encendido Relaciones entre variables Muchas veces nos podemos preguntar si tiene sentido estudiar dos variables de forma conjunta, si existe una relación entre ellas y en caso de existir como de fuerte es esa relación. Para contestar a estas preguntas se establece una serie de coeficientes: Para estudiar la relación general, se puede estudiar, entre otros, el coeficiente Chi-cuadrado de Pearson. Para estudiar la relación lineal, el más habitual es el coeficiente de correlación de Pearson. Para seleccionar el contraste más adecuado a la muestra, tendremos en cuenta la naturaleza de nuestras variables. Para variables Cuantitativas, Cuantitativas-Discretas o cuantitativas-continuas Discretizadas, se utiliza el test Chi-cuadrado de Pearson de independencia. Para variables Cuantitativas-Continuas, se usará el test de correlación de Pearson. Las hipótesis a contrastar en este tipo de problemas son siempre del tipo: H 0 : no existe relación entre las variables H 1 : sí existe relación entre las variables 28

29 donde la relación será o no del tipo lineal dependiendo del coeficiente utilizado en el contraste. Así pues, un p-valor claramente menor de 0 05 indicará que existe relación entre las variables. Si es mayor de 0 05, los datos no nos proporcionarán evidencias de dicha relación. Ejemplo Existe relación entre que haya habido o no averías y la línea utilizada? Solución: Como las variables son cualitativas vamos a utilizar el test chi-cuadrado. Para hacer esto vamos a Estadísticos ytablas de contingencias ytabla de doble entrada... Seleccionar las variables averias y linea Las salidas de este procedimiento son: > xtabs(~averias + linea, data = acero) linea averias A B C No Sí > chisq.test(xtabs(~averias + linea, data = acero), correct = FALSE) Pearson's Chi-squared test data: xtabs(~averias + linea, data = acero) X-squared = , df = 2, p-value = Como el p-valor (0 7199) es mayor que α no se rechaza la hipótesis nula, es decir, no hay evidencias de que las líneas afecten en que haya o no averías. Ejemplo Existe relación entre la producción de galv1 y de galv2? 29

30 Solución: Como las variables son cuantitativas continuas, podemos utilizar el test de correlación de Pearson, para lo cual haremos: Estadísticos yresúmenes... ymatriz de correlaciones Seleccionar las variables pr.galv1 y pr.galv2 Los resultados obtenidos son: > cor.test(acero$pr.galv1, acero$pr.galv2, alternative = "two.sided", + method = "pearson") Pearson's product-moment correlation data: acero$pr.galv1 and acero$pr.galv2 t = , df = 115, p-value = alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor Como el p-valor (0 595) es mayor que α no se rechaza la hipótesis nula. Así pues, de nuevo no hay evidencias de relación lineal entre las dos producciones (al aumentar una no tiene por qué aumentar o disminuir significativamente la otra) Comparación de más de dos promedios El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable cuantitativa. Se trata, por tanto, de una generalización del test t para dos muestras independientes en el caso de diseños con más de dos factores de agrupación. Veremos aquí su utilización como simple generalización de dicho test, aunque volveremos sobre este tema en más profundidad en los capítulos 5 y 6. A la variable categórica (nominal u ordinal) que define los grupos que deseamos comparar, la llamamos independiente o factor. A la variable cuantitativa (de intervalo o razón) en la que deseamos comparar los grupos, la llamamos dependiente. Si queremos, por ejemplo, averiguar cuál de tres programas distintos de incentivos aumenta de forma 30

31 más eficaz el rendimiento de un determinado colectivo, podemos seleccionar tres muestras aleatorias de ese colectivo y aplicar a cada una de ellas uno de los tres programas. Después, podemos medir el rendimiento de cada grupo y averiguar si existen o no diferencias entre ellos. Tendremos una variable independiente categórica (el tipo de programa de incentivos) cuyos niveles deseamos comparar entre sí, y una variable dependiente cuantitativa (la medida del rendimiento), en la cual queremos comparar los tres programas. El ANOVA de un factor permite obtener información sobre el resultado de esa comparación. Es decir, permite concluir si los sujetos sometidos a distintos programas difieren de la medida de rendimiento utilizada. La hipótesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las medias de la variable dependiente en cada nivel de la variable independiente) son iguales. Si las medias poblacionales son iguales, eso significa que los grupos no difieren en la variable dependiente y que, en consecuencia, la variable independiente o factor no influye en la variable dependiente. Lo que habitualmente se conoce como Análisis de la varianza es una versión paramétrica del test de la F. Para poder aplicarse deben verificarse ciertas condiciones previas (normalidad, independencia y homocedasticidad (igualdad de varianzas)). En caso contrario existen alternativas paramétricas y no paramétricas. NORMALIDAD HOMOCEDASTICIDAD TEST RECOMENDADO Sí Sí NO Sí Test de la F Sí NO Test de Welch o Test de Kruskal Wallis NO Sí o NO Test de Kruskal Wallis *No drástico, p-valores del test de normalidad entre 0 01 y Recordar que la normalidad la estudiábamos con el test de Shapiro-Wilk, mientras que la homocedasticidad se puede comprobar utilizando el test de Barlett. En este tipo de tests de igualdad de más de dos promedios, las hipótesis a contrastar son: H 0 : promedios iguales H 1 : no todos los promedios son iguales Si volvemos a mirar la regla de decisión, dicha decisión en este caso sería: P-valor < α = Rechazo H 0 (no todos los promedios son iguales) P-valor α = No rechazo H 0 (los promedios son iguales) Vamos a ver varios ejemplos con algunos de los casos que se pueden presentar. Ejemplo Comparar el consumo promedio para las tres temperaturas. Solución: Lo primero que tenemos que estudiar es la normalidad de los datos para cada grupo de temperatura, para ello utilizábamos es test de Shapiro-Wilk, que tenía como hipótesis: H 0 : los datos provienen de una población normal H 1 : los datos NO provienen de una población normal La forma más rápida de realizar los tres tests (uno para cada modalidad de la temperatura) es escribir en la línea de comandos: Cuyos resultados son: > shapiro.test(subset(acero, subset = temperatura == "Alta")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = temperatura == "Alta")$consumo W = , p-value =

32 Figura 9: Test de Shapiro-Wilk para el consumo por temperatura > shapiro.test(subset(acero, subset = temperatura == "Media")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = temperatura == "Media")$consumo W = , p-value = > shapiro.test(subset(acero, subset = temperatura == "Baja")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = temperatura == "Baja")$consumo W = , p-value = Los p-valores obtenidos son, respectivamente, , y , con lo que en todos los casos es suficientemente grande como para no rechazar la hipótesis nula (se puede admitir la normalidad). Para contrastar la igualdad de varianzas en más de dos poblaciones, se utiliza el test de Barlett, que tiene como hipótesis: Para realizar dicho test vamos a: H 0 : las varianzas son iguales H 1 : las varianzas son distintas Estadísticos yvarianzas ytest de Bartlett Seleccionar temperatura y consumo Cuyas salidas son: > bartlett.test(consumo ~ temperatura, data = acero) 32

33 Bartlett test of homogeneity of variances data: consumo by temperatura Bartlett's K-squared = , df = 2, p-value = Como el p-valor (0 4953) es mayor que α no se rechaza la hipótesis nula, con lo que se pueden suponer las varianzas iguales. Como hay normalidad y homocedasticidad, el test que realizaremos es el test de la F para la igualdad de medias, es decir, el típico análisis de la varianza de un factor. A este modelo le vamos a llamar Anova1. Los pasos a seguir para obtener el correspondiente p-valor son: Estadísticos ymedias yanova de un factor Introducimos el nombre Anova1 yseleccionar temperatura y consumo yaceptamos Cuyos resultados son: > Anova1 <- aov(consumo ~ temperatura, data = acero) > summary(anova1) Df Sum Sq Mean Sq F value Pr(>F) temperatura e-09 *** Residuals Signif. codes: 0 *** ** 0.01 * > numsummary(acero$consumo, groups=acero$temperatura, statistics=c("mean", + "sd")) mean sd n Alta Media Baja Como el p-valor ( ) es menor que α, se rechaza la hipótesis nula, con lo que se puede suponer que no todas las medias son iguales. Gráficamente podríamos ver como se comporta cada grupo haciendo los correspondientes diagramas de cajas o gráficos de medias. Comenzaremos con los diagramas de cajas: 33

34 Gráficas ydiagrama de cajas... Seleccionar consumo ygráfica según:temperatura Con lo que se obtiene: > boxplot(consumo ~ temperatura, ylab = "Consumo", xlab = "Temperatura", + data = acero) Aunque el diagrama de cajas es muy utilizado, al estar comparando medias, un gráfico más adecuado podría ser el de medias. Para obtenerlo los pasos a seguir son: Gráficas ygráficas de la media 34

35 Seleccionar las variables temperatura y consumo Con el procedimiento anterior se obtendrían los gráficos de medias para los tres grupos de temperatura. Bien modificando las salidas en la ventana de instrucciones o bien tecleando directamente, podemos cambiar las opciones del gráfico, como por ejemplo las etiquetas de los ejes o el título del gráfico. Para ello deberíamos ejecutar la siguiente orden: Cuyas salidas son: > plotmeans(acero$consumo, acero$temperatura, error.bars = "conf.int", + level = 0.95, xlab = "Temperatura", ylab = "Consumo", n.label = FALSE, + main = "Distribución del consumo por temperatura", col = "black", + barcol = "blue", connect = TRUE) 35

36 Si se rechaza la hipótesis nula, es decir, si se concluye que las medias no son todas iguales, no ocurre como en el caso de dos poblaciones en el que claramente una de ellas tendría media superior a la otra, sino que ahora habrá que evaluar las relaciones entre las distintas poblaciones. Existen una gran cantidad de test que realizan comparaciones múltiples. Cabe destacar, por su uso más extendido, Duncan, Newman-Keuls, Bonferroni, Scheffé y HSD de Tukey. Para realizar esta comparación solo hay que marcar la casilla: Comparación dos a dos de las medias, tal como puede verse a continuación: Estadísticos ymedias yanova de un factor Introducimos el nombre Anova1 yseleccionanos temperatura y consumo ycomparación dos a dos de las medias yaceptamos Cuyas salidas son: > comparacion <- glht(anova1, linfct = mcp(temperatura = "Tukey")) > summary(comparacion) Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts Fit: aov(formula = consumo ~ temperatura, data = acero) Linear Hypotheses: Estimate Std. Error t value Pr(> t ) B - A == <0.001 *** M - A == * M - B == <0.001 *** --- Signif. codes: 0 *** ** 0.01 * (Adjusted p values reported -- single-step method) Simultaneous Confidence Intervals Multiple Comparisons of Means: Tukey Contrasts Fit: aov(formula = consumo ~ temperatura, data = acero) Quantile = % family-wise confidence level 36

37 Linear Hypotheses: Estimate lwr upr Media - Alta == Baja - Alta == Baja - Media == > plot(comparacion) Para añadir la línea vertical tenemos que poner en la línea de comandos: tal como puede verse a continuación: abline(v = 0, col = "red") y ejecutar la línea de comando. A la vista del gráfico podemos concluir que el consumo a temperatura alta es mayor que a temperatura media o baja y el consumo a temperatura media es significativamente mayor que el consumo a temperatura baja. Ejemplo Comparar el consumo promedio para las tres líneas. 37

38 Solución: Al igual que antes veamos si los datos están normalizados y hay homocedasticidad. Para la normalidad aplicamos el test de Shapiro-Wilk, como lo hay que realizar por casos lo tenemos que implementar por comandos, para ello escribimos y obtenemos: > shapiro.test(subset(acero, subset = linea == "A")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = linea == "A")$consumo W = , p-value = > shapiro.test(subset(acero, subset = linea == "B")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = linea == "B")$consumo W = , p-value = > shapiro.test(subset(acero, subset = linea == "C")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = linea == "C")$consumo W = , p-value = Para los datos de la línea A el p-valor es , para los de la línea B es y para los de la C es En los tres casos suficientemente grande como para que no se rechace la hipótesis nula (se puede admitir la normalidad). La homocedasticidad la estudiamos por medio del test de Bartlett: Estadísticos yvarianzas ytest de Bartlett 38

39 Seleccionar las variables linea y consumo Los resultados obtenidos son: > tapply(acero$consumo, acero$linea, var, na.rm = TRUE) A B C > bartlett.test(consumo ~ linea, data = acero) Bartlett test of homogeneity of variances data: consumo by linea Bartlett's K-squared = , df = 2, p-value = Dado que el p-valor ( ) es menor que α, se rechaza la hipótesis nula al nivel 0 05, con lo que no pueden suponerse las varianzas iguales. En este caso, como no hay homocedasticidad, realizaremos el test de Kruskal-Wallis, donde las hipótesis a contrastar son: Para realizar el test hacemos: H 0 : promedios iguales para A, B y C H 1 : no todas los promedios son iguales Estadísticos ytest no paramétricos ytest de Kruskal-Wallis Seleccionar las variables linea y consumo Obteniendo los siguientes resultados: > kruskal.test(consumo ~ linea, data = acero) Kruskal-Wallis rank sum test data: consumo by linea Kruskal-Wallis chi-squared = , df = 2, p-value = 1.688e-06 39

40 Como el p-valor ( ) es menor que α se rechaza la hipótesis nula, no todas las medias son iguales. Gráficamente lo podemos ver mediante diagramas de cajas: Gráficas ydiagrama de cajas Seleccionar consumo ygráfica según:linea Bien tecleando directamente el código o bien modificando las salidas del proceso anterior se pueden hacer modificaciones en el gráfico. Así, mediante la orden por comandos obtenemos el siguiente diagrama de cajas: > boxplot(consumo~linea, ylab="consumo", xlab="linea", data=acero) 40

41 Aunque en este caso sería menos aconsejable, también podríamos hacer un gráfico de medias. Los pasos a seguir son: Gráficas ygráficas de la media Seleccionar las variables linea y consumo Con el procedimiento anterior se obtendría el correspondiente gráfico de medias. No obstante, vamos a hacer modificaciones en la ventana de instrucciones a fin de especificar ciertas opciones del gráfico. Así, ejecutaremos la siguiente orden de comandos: Dicha ejecución da lugar a las siguientes salidas: > plotmeans(acero$consumo ~ acero$linea, error.bars = "conf.int", + level = 0.95, xlab = "Linea", ylab = "Consumo", n.label = FALSE, + main = "Distribución del consumo por linea", col = "black", + barcol = "blue", connect = TRUE) 41

42 42

43 4. Regresión lineal 4.1. Modelización estadística Si se sospecha de la existencia de una relación entre diversas variables o magnitudes (por ejemplo, la influencia de la experiencia profesional de los trabajadores en sus respectivos sueldos, la estatura en el peso de las personas, etc.) surge de forma natural plantearse cómo formalizar esa relación y si puede extrapolarse a situaciones más generales. El modelado estadístico obtiene un conjunto de modelos que se ajustan a los datos disponibles de una forma razonable. En general, los modelos más sencillos buscan explicar la variabilidad de una magnitud Y, denominada variable dependiente, en función de otras variables, X 1, X 2,..., X k, llamadas variables independientes. No siempre resulta fácil determinar cuál es la variable dependiente y cuáles intervienen como independientes. La influencia o relación causa-efecto depende del planteamiento del problema y su concreción y formalización corresponden al investigador que diseña el experimento. Las técnicas estadísticas disponibles abarcan una gran variedad de situaciones y de nuevo concierne al responsable del estudio seleccionar el procedimiento más correcto para modelar los datos. Sin ser exhaustivos, el Cuadro 6 detalla los modelos más habituales. Cuadro 6: Principales modelos estadísticos según la naturaleza de las variables. Variable respuesta Continua Proporción Conteo Binarias Tiempo de muerte Variables independientes Todas son continuas: regresión normal Todas son categóricas: análisis de la varianza Ambos tipos: análisis de la covarianza Regresión logística Modelos log-lineales Regresión logística binaria Análisis de supervivencia La principal regla para realizar el modelado consiste en asumir que el resultado obtenido siempre será mejorable. El modelo ha de adaptarse a los datos y evitar la tentación de que los datos casen con un determinado modelo. De principio, un buen ajuste ha de explicar la mayor parte de la variabilidad y simplificar al máximo las relaciones entre las variables. No encontraremos un único modelo, sino un conjunto de soluciones que se amoldan razonablemente bien a los datos. El principio de parsimonia (la navaja de Ockham) induce a optar por un modelo sencillo en vez de uno complicado. Dado un conjunto de posibles explicaciones igualmente buenas, la más sencilla se convierte en la mejor; cuantos menos parámetros intervengan en el modelo, relaciones lineales o con pocos factores señalan pistas que orientan nuestra búsqueda. Sin embargo, no exageremos en la sencillez del modelo. También existe la navaja de Einstein: A model should be as simple as possible. But not simpler Modelo de regresión lineal simple El principio de parsimonia indica que el modelo de regresión lineal se convierte en el primer candidato para explicar la relación entre las variables. En este ejemplo, deseamos estudiar el consumo de energía de la fábrica: la variable dependiente (Y ) es el consumo, mientras que el resto de variables disponibles comprenden el conjunto de variables independientes. Es decir, deseamos encontrar un modelo que cuantifique el consumo energético a partir de las diferentes producciones. La forma más facil de comenzar consiste en realizar representaciones gráficas. Ejemplo 4.1. Realice un diagrama de dispersión de la variable consumo con las variables de producción. 43

44 Solución: Dibujamos una matriz con los diagramas de dispersión: Gráficas ymatriz de diagrama de dispersión Seleccionamos consumo, pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc. > scatterplot.matrix(~consumo + pr.ca + pr.cc + pr.galv1 + pr.galv2 + + pr.pint + pr.tbc, reg.line = lm, smooth = TRUE, span = 0.5, + diagonal = "density", data = acero) De los diferentes gráficos que aparecen, los más ajustados a nuestra hipótesis de trabajo se encuentran en la primera hilera, ya que la variable dependiente, el consumo, corresponde al eje de ordenadas, mientras que las independientes, las diferentes producciones, se representan en el eje de abscisas. Qué nube de punto de la primera fila muestra un patrón más claro de relación? Si bien no siempre aparece claramente un comportamiento visual, se puede intuir cierta dependencia entre el consumo energía y la producción del tren de bandas en caliente (pr.tbc). 44

45 Después de realizar una representación gráfica, procedemos a cuantificar la relación lineal entre las variables. Ejemplo 4.2. Calcule los coeficientes de correlación lineal del consumo con el resto de producciones. Solución: El coeficiente de correlación lineal varía de 1 a 1. Cuanto mayor sea en valor absoluto, más intensidad existe en la relación. Estadísticos yresúmenes ymatriz de correlaciones Seleccionamos consumo, pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc. ycoeficiente de Pearson > cor(acero[, c("consumo", "pr.ca", "pr.cc", "pr.galv1", "pr.galv2", + "pr.pint", "pr.tbc")], use = "complete.obs") consumo pr.ca pr.cc pr.galv1 pr.galv2 pr.pin consumo pr.ca pr.cc pr.galv pr.galv pr.pint pr.tbc pr.tbc consumo pr.ca pr.cc pr.galv pr.galv pr.pint pr.tbc La primera columna muestra la correlación de la variable consumo con el resto de las producciones. La relación más intensa se produce entre el consumo y la pr.tbc. Investigamos con más detalle la relación entre consumo y la pr.tbc. De nuevo, empezamos con un gráfico. Ejemplo 4.3. Dibuje el diagrama de dispersión del consumo y la pr.tbc. 45

46 Solución: El gráfico se consigue de la siguiente forma: Gráficas ymatriz de diagrama de dispersión Seleccionamos: consumo y pr.tbc ymarcamos: Identificar Observaciones El eje de abscisas muestra la producción de TBC y el de ordenadas el consumo de energía. Se observa una relación creciente entre ambas magnitudes. En el gráfico aparecen dos líneas. Una es la recta de regresión (el modelo más simple) y la otra la línea de regresión no paramétrica (el mejor ajuste posible). Si ambas líneas coinciden, el ajuste lineal resulta adecuado. En este caso la línea recta no sigue muy bien el comportamiento de la línea no paramétrica, por lo que el modelo lineal no ajustará bien los datos. Además en el gráfico se muestran dos posibles observaciones atípicas, la 107 y la 88. Si bien el gráfico sugiere que el modelo lineal no casa bien con los datos, procedemos a construir un modelo lineal que cuantifica la relación entre el consumo y la pr.tbc. Consumo de energía = a + b Producción de TBC La formulación matemática de este modelo determina que el consumo sólo depende de la producción de TBC y de ninguna otra producción. Este modelo a priori parece demasiado sencillo, ya que ignora el resto de información disponible. 46

47 Ejemplo 4.4. Estime el consumo a partir de la producción de TBC. Llame a este modelo Modelo1. Solución: Procedemos con el modelo lineal, ya que su sencillez favorece la interpretación de los coeficientes. Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: Modelo1 yformula del... consumo pr.tbc > Modelo1 <- lm(consumo ~ pr.tbc, data = acero) > summary(modelo1) Call: lm(formula = consumo ~ pr.tbc, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** pr.tbc < 2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 115 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 142 on 1 and 115 DF, p-value: < 2.2e-16 La columna de Estimate proporciona los valores de los coeficientes. consumo = 36, , pr.tbc (1) Si deseamos incorporar la variabilidad de esos coeficientes, incorporamos en la formulación sus desviaciones típicas consumo = 36,075( s.e. 9,328) + 0,014( s.e. 0,001) pr.tbc (2) Todos los coeficientes del modelo son significativos (distintos de 0) ya que sus p-valor (Pr(> t )) minoran a 0,05. El R cuadrado, R 2, representa la fracción de la variación de la variable dependiente explicada por la regresión. El % del consumo de energía se debe a la producción del tren de bandas en caliente. Hemos de mencionar que el R 2 no es un buen criterio para comparar modelos (el AIC es preferible). 47

48 Respecto a los grados de libertad (DF, degree of freedom), cuantos más parámetros incorpore el modelo, menos grados de libertad dispone. El principio de parsimonia prioriza los modelos con más grados de libertad. Después de estimar el modelo, hemos de verificar una serie de requisitos. Si cumple con todos ellos, el modelo ajusta correctamente los datos. Si no los verifica, hemos de plantear otra formulación. Destacan los siguientes condiciones: homocedasticidad (varianza constante) de los errores, normalidad de los errores, ausencia de observaciones atípicas, relación lineal y ausencia de colinealidad. Ejemplo 4.5. Determine si los residuos del modelo Modelo1 son homocedásticos. Solución: Para estudiar la homocedasticidad de un modelo usamos el test de Breusch-Pagan. Modelos ydiagnósticos numéricos ytest de Breusch-Pagan... Aceptar > bptest(consumo ~ pr.tbc, varformula = ~fitted.values(modelo1), + studentize = FALSE, data = acero) Breusch-Pagan test data: consumo ~ pr.tbc BP = , df = 1, p-value = Como el p-valor (0,2837) es menor que α, los residuos se comportan de forma homocedástica (la varianza es igual en todo el gráfico). Si el p-valor hubiera superado el valor α (normalmente 0,05), se produciría una variabilidad no constante en el ajuste (heterocedástico) y habría que encontrar otra relación. Ejemplo 4.6. El modelo lineal Modelo1 (Y = a + bx) ajusta de forma correcta?, no conviene más un modelo cuadrático (Y = a + bx + cx 2 ) o cúbico? Solución: Para estudiar la linealidad de los residuos se utiliza el test Reset de no linealidad: Modelos ydiagnósticos numéricos ytest Reset de no linealidad... 48

49 Desmarcar 3 cubos > resettest(consumo ~ pr.tbc, power = 2, type = + "regressor", data = acero) RESET test data: consumo ~ pr.tbc RESET = , df1 = 1, df2 = 114, p-value = Como el p-valor (0,01724) es inferior a α, se concluye que el modelo lineal no ajusta adecuadamente. Nuestra labor de modelado empieza de nuevo planteándonos otras relaciones, como por ejemplo consumo = a + b pr.tbc + c pr.tbc 2 Si bien ya hemos concluido que este ajuste lineal no cumple con los requisitos necesarios, como práctica realizamos también el control de las observaciones atípicas. Ejemplo 4.7. Existen observaciones atípicas que distorsionen el análisis del Modelo1? Solución: El test de valores atípicos de Bonferroni indica la presencia de observaciones atípicas. Modelos ydiagnósticos numéricos ytest de valores atípicos de Bonferroni... > outlier.test(modelo1) max rstudent = , degrees of freedom = 114, unadjusted p = , Bonferroni p = Observation: 107 El p-valor es menor que α e implica que hay observaciones atípicas: la número

50 4.3. Transformaciones de variables Hasta ahora sólo se han considerado los datos originales y como resultado hemos concluido que el modelo lineal no ajusta adecuadamente. Llega el momento de abandonar el modelo inicial y buscar alternativas. Existe algún modelo teórico que corresponda a nuestros datos? Por ejemplo, estimar el volumen de un depósito de aguas, Volumen = Base Altura, determinar la distancia que recorre un cuerpo en caída libre, Distancia = a g tiempo 2 o calcular el crecimiento demográfico, N = a e b tiempo. En todos estos planteamientos, la relación no es lineal; Pero con una sencilla transformación, obtenemos una. Por ejemplo, si Y = X 2 Z, entonces log(y ) = 2 log(x) + log(z). La transformación más inmediata consiste en tomar logaritmos de la variable dependiente, de la independiente o de ambas. Ejemplo 4.8. Represente consumo y log(pr.tbc). Solución: Este dibujo se consigue transformando la escala de los ejes: Gráficas ymatriz de diagrama de dispersión Seleccionamos pr.tbc y consumo ymarcamos Log eje-x Visualmente se comprueba que la relación lineal no es adecuada. Por lo tanto desechamos esta transformación. 50

51 Ejemplo 4.9. Dibuje un gráfico de log(consumo) y log(pr.tbc). Solución: Procedemos de forma similar al ejemplo anterior. Gráficas ymatriz de diagrama de dispersión Seleccionamos pr.tbc y consumo ymarcamos Log eje-x y Log eje-y En ambos casos, la distribución de los puntos no sigue una línea recta, por lo que no transformamos la variable x (pr.tbc). La transformación de Box-Cox efectúa un cambio de variable sobre la variable dependiente de la forma: { y λ 1 λ si λ 0 (3) log y si λ = 0 Los valores de λ más usuales son: log y (λ = 0), y (λ = 1/2), y 1/3 (λ = 1/3), y 2 (λ = 2),.... Esta transformación debe ser realizada por línea de comandos. En la ventana de instrucciones, escribimos primero library(mass), ejecutamos; luego boxcox(modelo1) y ejecutamos (Fig. 10). 51

52 Figura 10: Transformación de Box-Cox aplicada al Modelo1. Proporciona un intervalo de valores válidos para λ (Fig. 11). De entre este intervalo, escogeremos aquellos λ más naturales: 0, 1/2, 1/3, 2/3, 1, 3/2, etc. En este caso determinamos que λ = 0,5, que equivale transformar la variable consumo mediante su raíz cuadrada. Calculamos esta nueva variable raiz.consumo tal como como indica la Fig. 12. Figura 11: Estimación del parámetro λ de Box-Cox. > acero$raiz.consumo <- with(acero, box.cox(consumo, 0.5)) Para que el R-commander reconozca esta nueva variable, actualizamos la base de datos: Datos yconjunto de datos activos yactualizar conjunto... Ejemplo Realice un gráfico de dispersión de la variable raiz.consumo y de la pr.tbc. 52

53 Figura 12: Transformación de Box-Cox de la variable consumo. Solución: El gráfico de dispersión se realiza mediante: Gráficas ymatriz de diagrama de dispersión Seleccionamos pr.tbc y raiz.consumo yidentificar Observaciones > scatterplot(raiz.consumo ~ pr.tbc, reg.line = lm, smooth = TRUE, + labels = FALSE, boxplots = "xy", span = 0.5, data = acero) 53

54 Ejemplo Determine el modelo que relaciona raiz.consumo con la pr.tbc. Llame a este modelo Modelo2. Solución: Los coeficientes se calculan estimando un modelo lineal: Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: Modelo2 yfórmula del... raiz.consumo pr.tbc > Modelo2 <- lm(raiz.consumo ~ pr.tbc, data = acero) > summary(modelo2) Call: lm(formula = raiz.consumo ~ pr.tbc, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.112e e <2e-16 *** pr.tbc 1.316e e <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 115 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 115 DF, p-value: < 2.2e-16 Los coeficientes son significativos y el modelo resultante queda: raiz.consumo = 1, , pr.tbc La fracción de la variación de la variable dependiente que explica este modelo asciende al 60,89 %. Ejemplo Es homocedástico el modelo Modelo2? Solución: Esta duda se resuelve mediante el test de Breusch-Pagan. Modelos ydiagnósticos numéricos ytest de Breusch-Pagan 54

55 Aceptar > bptest(raiz.consumo ~ pr.tbc, varformula = + ~fitted.values(modelo2), + studentize = FALSE, data = acero) Breusch-Pagan test data: raiz.consumo ~ pr.tbc BP = , df = 1, p-value = Como el p-valor (0,2897) supera a 0,05, el modelo es homocedástico. Ejemplo El ajuste lineal casa bien con los datos? Solución: Para comprobar si tenemos que aumentar el grado en el modelo procedemos del siguiente modo: Modelos ydiagnósticos numéricos ytest Reset de no linealidad... Desmarcar 3 cubos > resettest(raiz.consumo ~ pr.tbc, power = 2, type = "regressor", + data = acero) RESET test data: raiz.consumo ~ pr.tbc RESET = , df1 = 1, df2 = 114, p-value = Como el p-valor (0,3070) es mayor que 0,05 no se rechaza la hipótesis nula y no se necesita incrementar el grado del modelo. Ejemplo Hay observaciones atípicas? 55

56 Solución: Realizamos el test de valores atípicos de Bonferroni. Modelos ydiagnósticos numéricos ytest de valores atípicos de Bonferroni... > outlier.test(modelo2) max rstudent = , degrees of freedom = 114, unadjusted p = , Bonferroni p = Observation: 107 Podemos ver que la observación 107 sigue siendo atípica. Verificamos si distorsiona el modelo dibujando las bandas de confianza. Modelos ygráficas ygráficas de comparación de... Bandas de confianza simuladas yaceptamos > qq.plot(modelo2, simulate = TRUE, labels = FALSE) 56

57 4.4. Regresión lineal múltiple La regresión lineal múltiple generaliza el modelo anterior al incorporar dos o más variables dependientes. Ejemplo Estime la raiz.consumo en función de las diferentes producciones. Llame a este modelo Modelo3. Solución: Intervienen como variable dependiente raiz.consumo y como variables independientes pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc. Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: Modelo3 yformula del... raiz.consumo pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc > Modelo3 <- lm(raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 + + pr.pint + pr.tbc, data = acero) > summary(modelo3) Call: lm(formula = raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 7.679e e < 2e-16 *** pr.ca 1.845e e pr.cc 2.387e e *** pr.galv e e e-06 *** pr.galv e e *** pr.pint 1.055e e pr.tbc 1.214e e < 2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 110 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 66.2 on 6 and 110 DF, p-value: < 2.2e-16 57

58 Al haber coeficientes no significativos (sin estrellas) este modelo incorpora demasiadas variables independientes y se ha de simplificar. Ejemplo Simplifique el modelo anterior. Solución: La depuración del modelo se realiza del siguiente modo: Modelos yselección de modelos paso a paso Marcamos las pestañas atrás/adelante y BIC yaceptamos Start: AIC=213.1 raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc Df Sum of Sq RSS AIC - pr.ca pr.pint <none> pr.cc pr.galv pr.galv pr.tbc Step: AIC= raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc Df Sum of Sq RSS AIC - pr.pint <none> pr.cc pr.galv pr.galv pr.tbc Step: AIC= raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc Df Sum of Sq RSS AIC <none> pr.cc pr.galv pr.galv pr.tbc

59 Esta salida muestra el modelo simplificado (raiz.consumo pr.cc + pr.galv1 + pr.galv2 + pr.tbc). Las variables eliminadas (pr.ca, pr.pint) no influyen significativamente en el consumo energético cuando operan las otras producciones. Ejemplo Estime el modelo simpiflicado anterior y llámelo Modelo4. Solución: Seguimos los siguientes pasos: Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: Modelo4 yformula del... raiz.consumo pr.cc + pr.galv1 + pr.galv2 + pr.tbc Call: lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 7.773e e < 2e-16 *** pr.cc 2.537e e *** pr.galv e e e-07 *** pr.galv e e *** pr.tbc 1.209e e < 2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 112 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 4 and 112 DF, p-value: < 2.2e-16 En este modelo sólo intervienen variables con coeficientes significativos. El modelo ajustado adquiere la siguiente expresión: raiz.consumo = 7,773+2, pr.cc+3, pr.galv1+1, pr.galv2+ 1, pr.tbc Una vez estimamos el modelo verificamos si ajusta bien o no los datos. Ejemplo Determine la bondad del modelo Modelo4. 59

60 Solución: Para tal menester seguimos los siguientes pasos: 1. Estudio de la colinealidad. Modelos ydiagnósticos numéricos yfactores de inflacción de... > vif(modelo4) pr.cc pr.galv1 pr.galv2 pr.tbc Si alguno de los valores supera el valor 4 implica que hay colinealidad (sobra alguna variable). En este modelo todos los valores no minoran dicha cantidad y por lo tanto, no hay colinealidad. 2. Comprobemos ahora si el modelo es homocedástico mediante el test de Breusch-Pagan. Modelos ydiagnósticos numéricos ytest de Breusch-Pagan Aceptar > bptest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc, + varformula = ~fitted.values(modelo4), + studentize = FALSE, data = acero) Breusch-Pagan test data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc BP = 0.904, df = 1, p-value = Como el p-valor (0,3417) supera 0,05 el modelo pasa este test. 60

61 3. Verifiquemos si el ajuste lineal es suficiente o hay que aumentar el grado del modelo. Modelos ydiagnósticos numéricos ytest Reset de no linealidad... Desmarcar 3 cubos > resettest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc, + power = 2, type = "regressor", data = acero) RESET test data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc RESET = , df1 = 4, df2 = 108, p-value = Como el p-valor (0,314) es mayor que α no se rechaza la hipótesis nula. No se necesita incrementar el grado del modelo. 4. Por último veamos la presencia de observaciones atípicas que distorsionen el modelo. Modelos ydiagnósticos numéricos ytest de valores atípicos de Bonferroni... > outlier.test(modelo4) max rstudent = , degrees of freedom = 111, unadjusted p = , Bonferroni p = Observation: 107 La observación 107 sigue siendo atípica Los test anteriores se pueden analizar gráficamente: 61

62 Modelos ygráficas ygráficas básicas de diagnóstico... > oldpar <- par(oma = c(0, 0, 3, 0), mfrow = c(2, 2)) > plot(modelo4) > par(oldpar) 6. Cálculo de intervalo de confianza para las obseraciones atípicas. Nuestro interés se centra en la observación 107 (si bien la distancia de Cook indica que apenas influye en el análisis). Modelos ygráficas ygráficas de comparación de... Bandas de confianza simuladas yaceptamos > qq.plot(modelo4, simulate = TRUE, labels = FALSE) 62

63 Como la observación 107 queda dentro de las bandas de confianza podemos concluir que este modelo ajusta razonablemente bien los datos. 63

64 5. Análisis de la varianza 5.1. Experimentos factoriales. Contrastes ortogonales y no ortogonales El análisis de la varianza se convierte en la técnica más habitual cuando las variables explicativas son categóricas y cuantitativa la variable explicada. Las variables independientes se denominan factores, constan de dos o más niveles y pueden interactuar entre ellas. Esta técnica contrasta mediante el análisis de la variabilidad si los valores medios de la variable dependiente difiere según las diferentes combinaciones de factores e interacciones. Los experimentos factoriales pueden complicarse tanto como se deseen e incorporar efectos aleatorios, multinivel, jerárquicos, anidados, fijos, etc. Existe una amplia gama de situaciones que se presentan de forma habitual al realizar un experimento o análisis. Si bien el acercamiento básico al análisis de la varianza proviene de los contrastes de medias para dos o más niveles, el enfoque más correcto nace desde el análisis de regresión. El análisis de la varianza particulariza el modelo de regresión lineal cuando las variables independientes son cualitativas y la independiente cuantitativa. Considerar esta situación desde los modelos de regresión permite al investigador un estudio completo, detallado y sistematizado del experimento factorial. Cuando en los modelos de regresión intervienen variables independientes cualitativas, el abordaje se realiza mediante dos tipos de contrastes: los denominados a priori y los contrastes a posteriori. Si bien a nivel matemático se establece un isomorfismo entre ambos enfoques por lo que son equivalentes, a nivel práctico el investigador debe optar por uno de esos contrastes. Los contrastes ortogonales, o a priori, se utilizan habitualmente en el ámbito de las Ciencias Experimentales. Los factores intervienen en el modelo de forma controlada (por ejemplo, a un ratón le inyectamos 100 gramos del compuesto I y a otro roedor 200 gramos) y se suele denominar Diseño de Experimentos. Las principales ventajas de los contrastes ortogonales residen en que el orden de los factores no influye en el modelo, éste adopta una única expresión (ortogonal) y resulta fácil detectar qué factores o niveles influyen o no. El principal inconveniente consiste en que los coeficientes del modelo han de interpretarse con precaución. En el otro extremo aparecen los contrastes no ortogonales, o a posteriori, muy usuales en las Ciencias Sociales. Estos estudios no disponen de condiciones controladas desde donde puedan observar las reacciones de los sujetos entrevistados. En estos modelos el orden de los factores o variables nominales que intervienen en el modelo sí importan, lo que conlleva a diferentes modelos igualmente válidos. La principal ventaja en estos modelos surge de que los coeficientes son muy fáciles de interpretar. Ejemplo 5.1. En la base de datos de acero aparecen las siguientes variables nominales: linea, hora y averia. Determine si estas variables se realizaron bajo condiciones controladas o no. Solución: Las variables linea, hora y averia se han controlado de forma dispar: Línea: Hemos seleccionado conscientemente un número determinado de mediciones en cada línea, por lo que este factor se encuentra bajo nuestro control. Hora: De nuevo, la obtención de datos por hora fue diseñada a priori. Avería: Este factor con dos modalidades (no hubo avería, sí la hubo) no estaba controlada, pues las averías surgen sin control. En lo que sigue, trabajaremos exclusivamente con contrastes no ortogonales Modelo lineal con un factor Analizaremos el consumo de energía en función de la línea de producción, la presencia de averías y la hora de captura de los datos. Diseñaremos un modelo para cada uno de los factores. 64

65 Ejemplo 5.2. Genere un modelo lineal que relacione raiz.consumo y la linea. Llame al modelo fmodelo1. Solución: Los coeficientes del modelo, fmodelo1, se calculan del siguiente modo. Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: fmodelo1 yformula del... raiz.consumo linea > fmodelo1 <- lm(raiz.consumo ~ linea, data = acero) > summary(fmodelo1) Call: lm(formula = raiz.consumo ~ linea, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** linea[t.b] * linea[t.c] e-06 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 114 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 2 and 114 DF, p-value: 8.428e-06 El consumo medio de la línea A se sitúa en 18,6262, el consumo medio de la línea B supera en 2,0871 unidades el de la línea A, y el de la línea C gasta 5,2648 más que el de la línea A. Estas diferencias son significativas (p-valor<0,05). El modelo resultante queda por tanto, raiz.consumo = 18, ,0871 linea B + 5,2649 linea C (4) con linea B y linea C variables indicadoras que valen 1 ó 0 si corresponden a la línea B y C, respectivamente. raiz.consumo= 18,62620 si es de la línea A 18, ,0871 si es de la línea B 18, ,2648 si es de la línea C 65

66 Ejemplo 5.3. Determine cómo influye la presencia de averías en el consumo (raiz.consumo). Nomine a este modelo como fmodelo2. Solución: Se trata de estimar la relación lineal entre raiz.consumo y averias. Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: fmodelo2 yformula del... raiz.consumo averias > fmodelo2 <- lm(raiz.consumo ~ averias, data = acero) > summary(fmodelo2) Call: lm(formula = raiz.consumo ~ averias, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** averias[t.sí]

67 --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 115 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 1 and 115 DF, p-value: El coeficiente de la modalidad Sí de la variable averias no difiere significativamente de 0 (pvalor>0,05). Por lo tanto, el consumo no varía en función de la presencia de averías. Ejemplo 5.4. Estime la influencia de la hora (1,2,...,8) del turno en el consumo de energía raiz.consumo. Solución: Denominaremos la relación lineal entre raiz.consumo y hora como fmodelo3. Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: fmodelo3 yformula del... raiz.consumo hora > fmodelo3 <- lm(raiz.consumo ~ hora, data = acero) > summary(fmodelo3) Call: lm(formula = raiz.consumo ~ hora, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** hora[t.2] hora[t.3] hora[t.4] hora[t.5] hora[t.6] hora[t.7] hora[t.8] Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 109 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 7 and 109 DF, p-value:

68 No hay diferencias de consumo según la hora del turno ya que ningún coeficiente muestra un p-valor inferior a 0, Interacciones entre factores Los modelos mostrados hasta el momento no contienen interacciones entre los factores y éstos han sido estudiados de forma independiente. Llega el momento de abordar relaciones más complejas entre las variables explicativas. Ejemplo 5.5. Influye la linea, las averias y sus posibles interacciones en raiz.consumo? Denomine este modelo como fmodelocomplicado. Solución: La expresión que muestra todas las posibles interacciones entre las dos variables adopta la siguiente forma: averia*linea. El asterisco denota los efectos simples e interacciones de ambos factores. Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo:fmodelocomplicado yformula del... raiz.consumo averias * linea > fmodelocomplicado <- lm(raiz.consumo ~ averias * linea, data = acero) > summary(fmodelocomplicado) Call: lm(formula = raiz.consumo ~ averias * linea, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** averias[t.sí] * linea[t.b] * linea[t.c] e-07 *** averias[t.sí]:linea[t.b] averias[t.sí]:linea[t.c] Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 111 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 5 and 111 DF, p-value: 4.032e-05 68

69 Estos resultados nos conducen a un modelo de la forma: 17, ,9050(avería Si ) si es de la línea A. raiz.consumo= 17, , (3,9050 4,3282)avería Si si es de la línea B. 17, , (3,9050 4,2160)avería Si si es de la línea C. Al disponer de dos modelos posibles, fmodelo1 y fmodelocomplicado, para explicar el consumo, nos hemos de plantear cuál ajusta mejor los datos mediante el análisis del AIC. R dispone de un test (anova) que contrasta si ambos modelos se comportan de forma similar o bien difieren significativamente: H 0 : No hay diferencias entre los modelos H 1 : Hay diferencias entre los modelos Ejemplo 5.6. De los modelos fmodelo1 y fmodelocomplicado cuál ajusta mejor? Solución: La comparación entre los modelos se realiza de la siguiente forma. Modelos ytest de hipótesis ycomparar dos modelos Seleccionar los modelos yfmodelo1 y fmodelocomplicado > anova(fmodelo1, fmodelocomplicado) Analysis of Variance Table Model 1: raiz.consumo ~ linea Model 2: raiz.consumo ~ averias * linea Res.Df RSS Df Sum of Sq F Pr(>F) Como el p-valor 0,1968 es mayor que 0,05 no se observan diferencias entre los dos modelos. Escogeremos el modelo más sencillo (el que tenga más grados de libertad, Res.Df): en este caso el fmodelo1. Ejemplo 5.7. Es posible simplificar el fmodelo1? Solución: La realización de este ejercicio nos llevará una serie de pasos. 1. Recordemos el modelo fmodelo1. Modelos yseleccionar modelo activo yfmodelo1 69

70 Modelos yresumir el modelo > summary(fmodelo1) Call: lm(formula = raiz.consumo ~ linea, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** linea[t.b] * linea[t.c] e-06 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 114 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 2 and 114 DF, p-value: 8.428e-06 Podemos observar que la línea B y C difieren significativamente de la línea A. 2. Calculamos el intervalo de confianza para los coeficientes de estas líneas. Modelos yintervalos de confianza Aceptar > confint(fmodelo1, level = 0.95) 2.5 % 97.5 % (Intercept) linea[t.b] linea[t.c] El consumo medio de la línea B es superior a la línea A, con valores entre 0, y 4, unidades, mientras que el consumo adicional de la línea C varía entre 3, y 7, unidades, con una confianza del 95 %. Pero se puede asegurar que la línea B difiere de la línea C?; y en caso negativo se puede simplificar el modelo? 70

71 3. Recodificaremos la variable linea, creando una nueva variable, que llamaremos reco.linea, que tome valores A si es de la línea A y B y C si es de la línea B o C, para lo que haremos: Datos ymodificar variables yrecodificar variables... Seleccionar linea ynuevo nombre... reco.linea yasignar los valores y A = A ; else= ByC > acero$reco.linea <- recode(acero$linea, '"A"="A"; "else"="byc"; ', + as.factor.result=true) 4. Ahora construimos el modelo, que llamaremos fmodelo1.simpli Estadísticos yajuste de modelos ymodelo lineal... > fmodelo1.simpli <- lm(raiz.consumo ~ reco.linea, data = acero) > summary(fmodelo1.simpli) Call: lm(formula = raiz.consumo ~ reco.linea, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** 71

72 reco.linea[t.byc] *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 115 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 15.5 on 1 and 115 DF, p-value: El modelo obtenido queda de la siguiente forma: { 18,6263 si es de la línea A raiz.consumo= 18, ,6760 si es de la línea B o C De los dos modelos observados, fmodelo1 o fmodelo1.simpli, cuál es mejor? Ejemplo 5.8. Comparar los modelos fmodelo1 y fmodelo1.simpli. Solución: La comparación de modelos se realiza del siguiente modo. Modelos ytest de hipótesis ycomparar dos modelos Seleccionar los modelos yfmodelo1 y fmodelo1.simpli > anova(fmodelo1, fmodelo1.simpli) Analysis of Variance Table Model 1: raiz.consumo ~ linea Model 2: raiz.consumo ~ reco.linea Res.Df RSS Df Sum of Sq F Pr(>F) ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Como el p-valor 0, es menor que 0,05 se rechaza que ambos modelos ajusten igual. Escogeremos por tanto el modelo con menos grados de libertad, en este caso el fmodelo1. 18,62620 si es de la línea A raiz.consumo= 18, ,0871 si es de la línea B 18, ,2648 si es de la línea C. 72

73 6. Análisis de la covarianza 6.1. Introducción El análisis de la covarianza se refiere a los modelos en los que intervienen simultáneamente variables numéricas y factores como variables independientes. Por ejemplo, el consumo de energía depende de la línea de producción (factor) y de la producción de TBC (numérica). Veamos gráficamente algunos ejemplos. Ejemplo 6.1. Dibuje el diagrama de dispersión del consumo y la pr.tbc según averias. Solución: Procedemos del siguiente modo. Gráficas ymatriz de diagrama de dispersión Seleccionamos: consumo y pr.tbc ydesmarcar: Línea suavizada ygráfica según: averias yaceptamos > scatterplot(raiz.consumo ~ pr.tbc averias, reg.line = lm, smooth = TRUE, + labels = FALSE, boxplots = "xy", span = 0.5, by.groups = TRUE, + data = acero) Ambas rectas de regresión muestran una trayectoria muy similar. Este gráfico muestra que la presencia o no de averías apenas diferencia el consumo de energía según la producción de TBC. 73

74 Ejemplo 6.2. Dibuje el diagrama de dispersión del consumo y pr.tbc según linea. Solución: Procedemos del siguiente modo. Gráficas ymatriz de diagrama de dispersión Seleccionamos: consumo y pr.tbc ydesmarcar: Línea suavizada ygráfica según: linea yaceptamos > scatterplot(raiz.consumo ~ pr.tbc linea, reg.line = lm, smooth = TRUE, + labels = FALSE, boxplots = "xy", span = 0.5, by.groups = TRUE, + data = acero) Las rectas estimadas no son paralelas. El consumo de producción varía en función de la producción y de la línea de trabajo El consumo de energía según la producción de TBC y la línea. Analizaremos el consumo de energía según la producción del tren de bandas calientes (pr.tbc) y la línea de producción (linea). Ejemplo 6.3. Estime el consumo a partir de la producción de TBC y de la línea. Llame a este modelo CoModelo1. 74

75 Solución: Procedemos con un modelo lineal. Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: CoModelo1 yformula del... raiz.consumo pr.tbc + linea > CoModelo1 <- lm(raiz.consumo ~ pr.tbc + linea, data = acero) > summary(comodelo1) Call: lm(formula = raiz.consumo ~ pr.tbc + linea, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.005e e < 2e-16 *** pr.tbc 1.223e e < 2e-16 *** linea[t.b] 1.720e e ** linea[t.c] 3.584e e e-07 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 113 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 85.4 on 3 and 113 DF, p-value: < 2.2e-16 Por cada unidad producida en pr.tbc, el raiz.consumo de energía aumenta en 1, unidades. Si se ha producido en la línea A, hay que añadir al raiz.consumo 10,05 unidades adicionales, mientras que si se fabrica en la línea B, el raiz.consumo aumenta en 10,05 + 1,720 unidades y si se produce en la línea C el raiz.consumo se incrementa en 10,05 + 3,584. Así el modelo se formaliza y representa de la siguiente forma: 75

76 raiz.consumo= 1, , pr.tbc si es de la línea A 1, , , pr.tbc si es de la línea B 1, , , pr.tbc si es de la línea C En este modelo, la variación de energía consumida es constante para las tres líneas de producción (las rectas de regresión son paralelas). Ejemplo 6.4. Estime el consumo a partir de la producción de TBC, la línea de producción y sus posibles interaciones. Nomine a este modelo CoModelo2. Solución: El modelo con interacción se obtiene de la siguiente forma: Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: CoModelo2 yformula del... raiz.consumo pr.tbc * linea > CoModelo2 <- lm(raiz.consumo ~ pr.tbc * linea, data = acero) Call: lm(formula = raiz.consumo ~ pr.tbc * linea, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** pr.tbc e-07 *** linea[t.b] * linea[t.c] pr.tbc:linea[t.b] *** pr.tbc:linea[t.c] Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 111 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 59.8 on 5 and 111 DF, p-value: < 2.2e-16 Al haber coeficientes no significativos (sin estrellas) este modelo incorpora demasiadas variables independientes y se ha de simplificar. Antes de estudiar el modelo en profundidad, comprobemos si realmente mejora este modelo al anterior. 76

77 Ejemplo 6.5. Compare los modelos CoModelo1 y CoModelo2. Solución: Al igual que en apartados anteriores la comparación de modelos se realiza del siguiente modo. Modelos ytest de hipótesis ycomparar dos modelos Seleccionar los modelos ycomodelo1 y CoModelo2 > anova(comodelo1, CoModelo2) Analysis of Variance Table Model 1: raiz.consumo ~ pr.tbc + linea Model 2: raiz.consumo ~ pr.tbc * linea Res.Df RSS Df Sum of Sq F Pr(>F) ** --- Signif. codes: 0 *** ** 0.01 * Se verifica la diferencia entre ambos modelos. Escogemos el modelo raiz.consumo pr.tbc * linea. Ejemplo 6.6. Interprete el CoModelo2. Solución: Recordemos el CoModelo2. Modelos yseleccionar modelo activo ycomodelo2 Modelos yresumir el modelo > summary(comodelo2) Call: lm(formula = raiz.consumo ~ pr.tbc * linea, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: 77

78 Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** pr.tbc e-07 *** linea[t.b] * linea[t.c] pr.tbc:linea[t.b] *** pr.tbc:linea[t.c] Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 111 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 59.8 on 5 and 111 DF, p-value: < 2.2e-16 Como los coeficientes de la línea C no resultan significativamente diferente de la línea A, podemos intentar agrupar los resultados de las líneas A y C. La interpretación gráfica de este modelo muestra que las rectas de regresión de A y de C son casi paralelas Variables indicadoras Las variables indicadores, ficticias o dummy, permiten desagregar fácilmente las variables nominales. Por cada categoría de la variable nominal se crea una variable indicadora, que vale 1 si el registro pertenece a dicho atributo y cero en otro caso. Dado que la suma de todas las variables indicadoras generadas a partir de una misma variable nominal vale 1, y por lo tanto son linealmente dependientes, sólo se utilizan k 1 variables indicadoras, siendo k el número de modalidades presentes en la variable nominal. Por ejemplo, en el caso de la línea de producción se disponen de tres modalidades (A, B, C). Crearemos tres variables indicadoras, lineaa, lineab y lineac que valdrán 1 si son de la línea A, B y C, respectivamente, y cero en otro caso. linea lineaa lineab lineac A B C Ejemplo 6.7. Genere las variables dummys lineaa, lineab y lineac que tomen valores 1 y 0 según sean la producción de la línea A, B o C respectivamente Solución: Crearemos tres nuevas variables en nuestra base de datos. 78

79 > acero <- cbind(acero,model.matrix(~linea-1,acero)) Actualizamos la base de datos: Datos yconjunto de datos... yactualizar conjunto de datos... Repetiremos el modelo anterior utilizando estas variables indicadoras: raiz.consumo (lineab + lineac) pr.tbc Ejemplo 6.8. Determine el modelo que relaciona raiz.consumo con las variables pr.tbc, lineab y lineac. Llame a este modelo CoModelo3. Solución: Los coeficientes se calculan de la siguiente forma: Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: CoModelo3 yformula del... raiz.consumo (lineab + lineac) * pr.tbc > CoModelo3 <- lm(raiz.consumo ~ (lineab + lineac) * pr.tbc, data = acero) > summary(comodelo3) Call: lm(formula = raiz.consumo ~ (lineab + lineac) * pr.tbc, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** lineab * 79

80 lineac pr.tbc e-07 *** lineab:pr.tbc *** lineac:pr.tbc Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 111 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 59.8 on 5 and 111 DF, p-value: < 2.2e-16 Al aparecer coeficientes no significativos (sin estrellas), este modelo incorpora demasiadas variables independientes y se ha de simplificar. Ejemplo 6.9. Simplifique el modelo anterior. Solución: La depuración del modelo se realiza del siguiente modo: Modelos yselección de modelos paso a paso Marcamos las pestañas atrás/adelante y BIC yaceptamos Start: AIC= raiz.consumo ~ (lineab + lineac) * pr.tbc Df Sum of Sq RSS AIC - lineac:pr.tbc <none> lineab:pr.tbc Step: AIC= raiz.consumo ~ lineab + lineac + pr.tbc + lineab:pr.tbc Df Sum of Sq RSS AIC <none> lineac:pr.tbc lineab:pr.tbc lineac Esta salida muestra el modelo simplificado (raiz.consumo lineab + lineac + pr.tbc + lineab:pr.tbc). Ejemplo Estime el modelo anterior y denomínelo CoModelo4. 80

81 Solución: Seguiremos los siguientes pasos: Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: CoModelo4 yfórmula del... raiz.consumo lineab + lineac + pr.tbc + lineab:pr.tbc Call: lm(formula = raiz.consumo ~ lineab + lineac + pr.tbc + lineab * pr.tbc, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** lineab * lineac e-09 *** pr.tbc e-13 *** lineab:pr.tbc *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 112 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 75.2 on 4 and 112 DF, p-value: < 2.2e-16 Todos los coeficientes son significativos. Las líneas A y C consumen igual por cada unidad producida de TBC (son paralelas), mientras que la línea B consume más (mayor pendiente de la recta). 81

82 raiz.consumo= 12, , pr.tbc si es de la línea A 12,1147 2, (9, , )pr.tbc si es de la línea B 12, , , pr.tbc si es de la línea C 6.4. Modelo completo Para finalizar el estudio introducimos en el modelo todas las variables de producción y consideramos las interacciones con las variables linea y averias, generando un modelo de la forma: raiz.consumo (pr.ca+pr.cc+pr.galv1+pr.galv2+pr.pint+pr.tbc)*(lineab+lineac)*averias que llamaremos ModeloComple0 Ejemplo Estime el modelo anterior. Solución: Los coeficientes se calculan ajustando un modelo lineal. Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: ModeloComple0 yformula del... raiz.consumo (pr.ca + pr.cc + pr.galv1 + + pr.galv2 + pr.pint + pr.tbc) * (lineab + lineac) * averias > ModeloComple0 <- lm(raiz.consumo ~ (pr.ca + pr.cc + pr.galv1 + + pr.galv2 + pr.pint + pr.tbc) * (lineab + lineac) * averias, + data = acero) > summary(modelocomple0) Call: lm(formula = raiz.consumo ~ (pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc) * (lineab + lineac) * averias, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 7.650e e e-06 *** pr.ca 7.545e e * pr.cc 2.661e e pr.galv e e pr.galv e e ** pr.pint 1.254e e pr.tbc 8.679e e e-07 *** 82

83 lineab 6.343e e lineac 2.949e e averias[t.sí] e e pr.ca:lineab e e * pr.ca:lineac e e pr.cc:lineab e e pr.cc:lineac 1.219e e pr.galv1:lineab 3.023e e pr.galv1:lineac 4.059e e pr.galv2:lineab e e pr.galv2:lineac e e pr.pint:lineab 7.073e e pr.pint:lineac e e pr.tbc:lineab 4.426e e pr.tbc:lineac 6.164e e pr.ca:averias[t.sí] e e pr.cc:averias[t.sí] e e pr.galv1:averias[t.sí] 8.798e e pr.galv2:averias[t.sí] e e pr.pint:averias[t.sí] e e pr.tbc:averias[t.sí] 1.703e e lineab:averias[t.sí] 8.275e e lineac:averias[t.sí] 7.868e e pr.ca:lineab:averias[t.sí] 1.707e e pr.ca:lineac:averias[t.sí] e e pr.cc:lineab:averias[t.sí] 1.131e e pr.cc:lineac:averias[t.sí] 8.028e e pr.galv1:lineab:averias[t.sí] e e pr.galv1:lineac:averias[t.sí] e e pr.galv2:lineab:averias[t.sí] 1.259e e pr.galv2:lineac:averias[t.sí] 3.783e e pr.pint:lineab:averias[t.sí] 8.848e e pr.pint:lineac:averias[t.sí] 9.872e e pr.tbc:lineab:averias[t.sí] e e pr.tbc:lineac:averias[t.sí] e e Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 75 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 12.4 on 41 and 75 DF, p-value: < 2.2e-16 Como era de suponer, el modelo muestra coeficientes no significativos (sin estrellas). Dado que anteriormente ya se había analizado qué variables intervienen de forma significativa, consideramos el siguiente modelo. Ejemplo Estime un modelo de la forma raiz.consumo (pr.cc + pr.galv1 + pr.galv2 + pr.tbc)*(lineab + lineac). Llame lo ModeloComple1 Solución: Procedemos de la siguiente forma: 83

84 Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: ModeloComple1 yformula del... raiz.consumo (pr.cc + pr.galv1 + pr.galv2 + + pr.tbc) * (lineab + lineac) > ModeloComple1 <- lm(raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 + + pr.tbc) * (lineab + lineac), data = acero) Call: lm(formula = raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 + pr.tbc) * (lineab + lineac), data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-09 *** pr.cc pr.galv pr.galv ** pr.tbc e-10 *** lineab lineac pr.cc:lineab pr.cc:lineac pr.galv1:lineab pr.galv1:lineac pr.galv2:lineab pr.galv2:lineac pr.tbc:lineab ** pr.tbc:lineac Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 102 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 14 and 102 DF, p-value: < 2.2e-16 De nuevo aparecen coeficientes no significativos (sin estrellas). Ejemplo Simplifique el modelo anterior. Solución: Utilizamos el procedimiento automático de reducción. 84

85 Modelos yselección de modelos paso a paso Marcamos las pestañas atrás/adelante y BIC yaceptamos Start: AIC= raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 + pr.tbc) * (lineab + lineac) Df Sum of Sq RSS AIC - pr.cc:lineac pr.cc:lineab pr.galv2:lineac pr.galv2:lineab pr.tbc:lineac pr.galv1:lineab pr.galv1:lineac <none> pr.tbc:lineab Step: AIC= raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.cc:lineab + pr.galv1:lineab + pr.galv1:lineac + pr.galv2:lineab + pr.galv2:lineac + pr.tbc:lineab + pr.tbc:lineac Df Sum of Sq RSS AIC - pr.galv2:lineac pr.cc:lineab pr.galv2:lineab pr.tbc:lineac pr.galv1:lineab pr.galv1:lineac <none> pr.tbc:lineab pr.cc:lineac Step: AIC= raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.cc:lineab + pr.galv1:lineab + pr.galv1:lineac + pr.galv2:lineab + pr.tbc:lineab + pr.tbc:lineac Df Sum of Sq RSS AIC - pr.galv2:lineab pr.cc:lineab pr.tbc:lineac pr.galv1:lineab

86 - pr.galv1:lineac <none> pr.tbc:lineab pr.galv2:lineac pr.cc:lineac Step: AIC= raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.cc:lineab + pr.galv1:lineab + pr.galv1:lineac + pr.tbc:lineab + pr.tbc:lineac Df Sum of Sq RSS AIC - pr.cc:lineab pr.tbc:lineac pr.galv1:lineab pr.galv1:lineac <none> pr.tbc:lineab pr.galv2:lineab pr.cc:lineac pr.galv2:lineac pr.galv Step: AIC= raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.galv1:lineab + pr.galv1:lineac + pr.tbc:lineab + pr.tbc:lineac Df Sum of Sq RSS AIC - pr.tbc:lineac pr.galv1:lineab pr.galv1:lineac <none> pr.tbc:lineab pr.cc:lineac pr.cc:lineab pr.galv2:lineab pr.galv2:lineac pr.cc pr.galv Step: AIC= raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.galv1:lineab + pr.galv1:lineac + pr.tbc:lineab Df Sum of Sq RSS AIC - pr.galv1:lineab pr.galv1:lineac <none> pr.tbc:lineab pr.tbc:lineac pr.cc:lineac pr.cc:lineab

87 + pr.galv2:lineac pr.galv2:lineab pr.cc pr.galv Step: AIC= raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.galv1:lineac + pr.tbc:lineab Df Sum of Sq RSS AIC - pr.galv1:lineac <none> pr.tbc:lineab pr.galv1:lineab pr.cc:lineac pr.tbc:lineac pr.galv2:lineac pr.cc:lineab pr.galv2:lineab pr.cc pr.galv Step: AIC= raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.tbc:lineab Df Sum of Sq RSS AIC <none> pr.tbc:lineab pr.galv1:lineac pr.cc:lineac pr.cc pr.tbc:lineac pr.galv2:lineac pr.galv2:lineab pr.galv1:lineab pr.cc:lineab pr.galv pr.galv lineac Call: lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.tbc:lineab, data = acero) Coefficients: (Intercept) pr.cc pr.galv1 pr.galv2 pr.tbc lineab lineac pr.tbc:lineab

88 Esta salida muestra el modelo simplificado (raiz.consumo pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.tbc:lineab). Las variables eliminadas no influyen significativamente en el consumo energético. Ejemplo Estime el modelo simplificado anterior. Llámelo ModeloComple2. Solución: Procedemos de la siguiente forma: Estadísticos yajuste de modelos ymodelo lineal Nombre del modelo: ModeloComple2 yformula del... raiz.consumo pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.tbc:lineab Call: lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.tbc:lineab, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 8.530e e e-15 *** pr.cc 2.030e e ** pr.galv e e *** pr.galv e e e-05 *** pr.tbc 9.934e e < 2e-16 *** lineab e e lineac 2.741e e e-06 *** pr.tbc:lineab 3.746e e * --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 109 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 7 and 109 DF, p-value: < 2.2e-16 Al haber coeficientes no significativos (sin estrellas) este modelo incorpora demasiadas variables independientes y se ha de simplificar. La coeficientes relacionados con la variable lineab muestran ciertas dudas respecto a su significatividad. Generamos un modelo sin este factor aislado. 88

89 raiz.consumo pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineac + pr.tbc:lineab Ejemplo Genere el modelo anterior y denomínelo ModeloComple3. Solución: Procedemos de forma similar al ejemplo anterior: Nombre del modelo: ModeloComple3 yformula del... raiz.consumo pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineac + pr.tbc:lineab Call: lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineac + pr.tbc:lineab, data = acero) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 7.922e e < 2e-16 *** pr.cc 2.141e e ** pr.galv e e *** pr.galv e e e-06 *** pr.tbc 1.043e e < 2e-16 *** lineac 2.778e e e-06 *** pr.tbc:lineab 2.558e e *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.18 on 110 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 6 and 110 DF, p-value: < 2.2e-16 Todos los coeficientes son significativos y no habría que simplificar nada. La duda surge de si hemos simplificado demasiado el modelo. De entre los modelos obtenidos, (ModeloComple0, ModeloComple2, ModeloComple3), estimaremos si ajustan igual de bien o por el contrario muestran diferencias. Ejemplo Compare los modelos ModeloComple2 y el ModeloComple3. Solución: Al igual que en apartados anteriores la comparación de modelos se realiza del siguiente modo: Modelos ytest de hipótesis ycomparar dos modelos 89

90 Selecionar los modelos ymodelocomple2 y ModeloComple3 > anova(modelocomple2, ModeloComple3) Analysis of Variance Table Model 1: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineab + lineac + pr.tbc:lineab Model 2: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineac + pr.tbc:lineab Res.Df RSS Df Sum of Sq F Pr(>F) El ajuste es igual de bueno en ambos casos ( p-valor 0,3500 >0,05). La búsqueda de la sencillez nos indica escoger el modelo con más grados de libertad ModeloComple3). Ejemplo Compare los modelos ModeloComple0 y el ModeloComple3. Solución: Efectuamos un análisis del AIC: Modelos ytest de hipótesis ycomparar dos modelos Selecionar los modelos ymodelocomple0 y ModeloComple3 > anova(modelocomple0, ModeloComple3) Analysis of Variance Table Model 1: raiz.consumo ~ (pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc) * (lineab + lineac) * averias Model 2: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineac + pr.tbc:lineab Res.Df RSS Df Sum of Sq F Pr(>F) Como el p-valor 0,7347 supera a 0,05 ambos modelos ajustan igual de bien. Seleccionamos el modelo más simple (ModeloComple3, con 110 grados de libertad). Para finalizar, chequeamos la bondad del modelo. Ejemplo Determine la bondad del modelo ModeloComple3. 90

91 Solución: Para tal menester seguimos los siguientes pasos: 1. Estudio de la colinealidad. Modelos ydiagnósticos numéricos yfactores de inflacción de... > vif(modelocomple3) pr.cc pr.galv1 pr.galv2 pr.tbc lineac pr.tbc:lineab Si alguno de los valores supera el valor 4 implica colinealidad (y por lo tanto, sobra alguna variable en el modelo). En este modelo todos los valores no sobrepasan dicha cantidad y por lo tanto no presentan colinealidad. 2. Comprobemos ahora si el modelo es homocedástico mediante el test de Breusch-Pagan. Modelos ydiagnósticos numéricos ytest de Breusch-Pagan Aceptar > bptest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + + lineac + pr.tbc:lineab, varformula = ~fitted.values(modelocomple3), + studentize = FALSE, data = acero) Breusch-Pagan test data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineac + pr.tbc:lineab BP = , df = 1, p-value = Como el p-valor (0,5137) supera a 0,05 no se rechaza la hipótesis de homocedasticidad. 3. Respecto a la linealidad o no del modelo: 91

92 Modelos ydiagnósticos numéricos ytest Reset de no linealidad... Desmarcar 3 cubos > resettest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + + lineac + pr.tbc:lineab, power = 2, type = "regressor", + data = acero) RESET test data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineac + pr.tbc:lineab RESET = 0.474, df1 = 6, df2 = 104, p-value = Como el p-valor 0,8263 es mayor que α no se rechaza la hipótesis nula, por lo que no se requiere aumentar el grado al modelo. 4. Por último veamos si hay alguna observación atípica que distorsione el modelo. Modelos ydiagnósticos numéricos ytest de valores atípicos de Bonferroni... > outlier.test(modelocomple3) max rstudent = , degrees of freedom = 109, unadjusted p = , Bonferroni p = Observation: 107 Tenemos que la observación 107 sigue siendo atípica Los test anteriores se pueden analizar gráficamente: Modelos ygráficas ygráficas básicas de diagnóstico... 92

93 > oldpar <- par(oma = c(0, 0, 3, 0), mfrow = c(2, 2)) > plot(modelo4) > par(oldpar) 6. Cálculo de intervalo de confianza para las obseraciones atípicas. Nuestro interés se centra en la observación 107 (si bien la distancia de Cook indica que apenas influye en el análisis). Modelos ygráficas ygráficas de comparación de... Bandas de confianza simuladas yaceptamos > qq.plot(modelocomple3, simulate = TRUE, labels = FALSE) 93

94 Como se mantiene dentro del intervalo de confianza no nos preocupamos por la observación 107. La estimación finaliza con el siguiente modelo: 2( consumo 1) =7,922 (0,685) + 2, (7, )pr.cc + 2, (7, )pr.galv1 + 1, (3, )pr.galv2 + 1, (7, )pr.tbc + 2, (7, )lineab pr.tbc + 2,778 (5, )lineac + ɛ Adjusted R-squared: 0,8137 Residual standard error: 2,18 on 110 degrees of freedom con σ ɛ = 2,18. 94

95 7. Redacción de un artículo La difusión del trabajo se convierte habitualmente en nuestra última meta. Si bien no existen reglas precisas para garantizar la publicación de nuestra investigación, y sin ánimo de hablar ex cathedra, en esta sección sugerimos diversas observaciones que el investigador puede considerar. Lo primero consiste en identificar un grupo de revistas interesadas por el trabajo. Seguidamente, comprobamos si en esas revistas han publicado modelos similares al nuestro. Si aparecen artículos similares, lo escribiremos dos o tres veces imitando dichos trabajos. La cuarta versión la redactaremos por nuestra cuenta. En caso de que nuestro trabajo sea novedoso y no aparezca ninguna referencia previa, hemos de ser conscientes de que tal vez los revisores de la revista descozcan completamente nuestra metodología. Esto implica un especial cuidado con la redacción y exposición de nuestra investigación, procurando un enfoque muy pedagógico. En general los artículos con metodología estadística se dividen en las siguientes secciones: introducción, metodología, resultados, conclusiones, referencias, tablas y gráficos. A continuación presentamos un conjunto de ideas o sugerencias para publicar el modelo obtenido. Metodología. Objetivo: analizar la relación del consumo de energía con la producción. Datos: Se realizaron 39 observaciones en cada una de las tres líneas de producción, recogiéndose 15 observaciones en cada turno (5 para cada línea) salvo en el último, que sólo se pudo realizar 12 mediciones (4 en cada línea). En total se disponen de 117 mediciones que recogen el consumo de energía, la producción colada continua (cc), convertidor de acero (ca), galvanizado tipo 1, galvanizado tipo 2, tren de bandas caliente (tbc) y chapa pintada (pint). Además, se anotó si durante el turno correspondiente se detectó alguna anomalía o no en la producción. Método de análisis: Se realizó una análisis de la covarianza y se empleó la transformación de Box-Cox con λ = 0,5 con el fin de conseguir normalidad, linealidad y homocedasticidad en el modelo (α = 0,05). Se empleó el software estadístico R (Venables and Ripley, 2002; Crawley, 2009). Resultados 2( consumo 1) =7,922 (0,685) + 2, (7, )pr.cc + 2, (7, )pr.galv1 + 1, (3, )pr.galv2 + 1, (7, )pr.tbc + 2, (7, )lineab pr.tbc + 2,778 (5, )lineac + ɛ Adjusted R-squared: 0,8137 Residual standard error: 2,18 on 110 degrees of freedom con σ ɛ = 2,18. El resto de variables e interacciones no son significativas al 5 %. Se presenta de forma sucinta una posible interpretación del modelo: Existe diferente consumo según la línea de producción empleada. 95

96 La línea que menos consume es la A; la C consume más que la A de una forma constante, y la línea B gasta más de una forma proporcional a la producción del tren de bandas en caliente. El producto que más consume por unidad producida es el Galvanizado I, seguido del CC, y del Galvanizado II, siendo el de menor gasto el tren de bandas en caliente. La producción de CA y de PINT no influyen significativamente en el consumo de la empresa. La presencia o no de averías tampoco afecta en el consumo. El modelo explica el % de la energía consumida por la empresa. El restante % de la energía se debe a otros factores no contemplados en el estudio. Tablas y gráficos. Presentamos a continuación una serie de gráficos que explican el modelo. No todos los presentados son igualmente relevantes. Decida qué gráfico publicaría y cuál no. (Fig. 13, 14, 15, 16 y 17). Figura 13: Gráficas básicas de diagnóstico de una regresión. 96

97 Figura 14: Gráficas de comparación de cuantiles de los residuos de un modelo. Figura 15: Matriz de diagramas de dispersión. 97

98 Figura 16: Matriz de diagramas de dispersión (para variables significativas). Figura 17: Relaciones entre producción y consumo de energía, por la línea de montaje (diferentes escalas). 98

Práctica 3. Emilio Torres. Departamento de Estadística Universidad de Oviedo http://uce.uniovi.es/gradoacero/ February 23, 2011

Práctica 3. Emilio Torres. Departamento de Estadística Universidad de Oviedo http://uce.uniovi.es/gradoacero/ February 23, 2011 Práctica 3 Emilio Torres Departamento de Estadística Universidad de Oviedo http://uce.uniovi.es/gradoacero/ February 23, 2011 Emilio Torres (Universidad de Oviedo) Práctica 3 February 23, 2011 1 / 21 1

Más detalles

Introducción a R-Commander. Frecuencias y porcentajes. Gráficas.

Introducción a R-Commander. Frecuencias y porcentajes. Gráficas. Práctica 1 Introducción a R-Commander. Frecuencias y porcentajes. Gráficas. 1.1. R-Commander Antes de nada, presentaremos el programa informático con que se realizarán las tareas de estas prácticas de

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

Práctica 5. Contrastes paramétricos en una población

Práctica 5. Contrastes paramétricos en una población Práctica 5. Contrastes paramétricos en una población 1. Contrastes sobre la media El contraste de hipótesis sobre una media sirve para tomar decisiones acerca del verdadero valor poblacional de la media

Más detalles

UNIVERSIDAD CARLOS III DE MADRID MASTER EN CALIDAD TOTAL MANUAL DE SPSS

UNIVERSIDAD CARLOS III DE MADRID MASTER EN CALIDAD TOTAL MANUAL DE SPSS UNIVERSIDAD CARLOS III DE MADRID MASTER EN CALIDAD TOTAL MANUAL DE SPSS I. INTRODUCCIÓN Y MANEJO DE DATOS MANUAL DE SPSS 1 MASTER CALIDAD TOTAL 1/ INTRODUCCIÓN Las aplicaciones de la Estadística en la

Más detalles

1 Ejemplo de análisis descriptivo de un conjunto de datos

1 Ejemplo de análisis descriptivo de un conjunto de datos 1 Ejemplo de análisis descriptivo de un conjunto de datos 1.1 Introducción En este ejemplo se analiza un conjunto de datos utilizando herramientas de estadística descriptiva. El objetivo es repasar algunos

Más detalles

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL 1. Introducción ESTADÍSTICA CO EXCEL La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en

Más detalles

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics-

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics- Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics- 1. Introducción Ficheros de datos: TiempoaccesoWeb.sf3 ; AlumnosIndustriales.sf3 El objetivo de esta práctica es asignar un modelo

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

Solución ESTADÍSTICA. Prueba de evaluación contínua 2 - PEC2

Solución ESTADÍSTICA. Prueba de evaluación contínua 2 - PEC2 Semestre set04 - feb05 Módulos 11-17 Prueba de evaluación contínua 2 - PEC2 Solución Presentación i objetivos Enunciados: descripción teórica de la práctica a realizar Materiales Criterios de evaluación

Más detalles

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie.

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie. Adaptación al NPGC Introducción Nexus 620, ya recoge el Nuevo Plan General Contable, que entrará en vigor el 1 de Enero de 2008. Este documento mostrará que debemos hacer a partir de esa fecha, según nuestra

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Introducción a la Estadística con Excel

Introducción a la Estadística con Excel Introducción a la Estadística con Excel En el siguiente guión vamos a introducir el software Excel 2007 y la manera de trabajar con Estadística Descriptiva. Cargar o importar datos En Excel 2007 podemos

Más detalles

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68. Departamento de Economía Aplicada: UDI de Estadística. Universidad Autónoma de Madrid Notas sobre el manejo de Excel para el análisis descriptivo y exploratorio de datos. (Descriptiva) 1 1 Introducción

Más detalles

Ecuaciones de primer grado con dos incógnitas

Ecuaciones de primer grado con dos incógnitas Ecuaciones de primer grado con dos incógnitas Si decimos: "las edades de mis padres suman 120 años", podemos expresar esta frase algebraicamente de la siguiente forma: Entonces, Denominamos x a la edad

Más detalles

ANÁLISIS DESCRIPTIVO CON SPSS

ANÁLISIS DESCRIPTIVO CON SPSS ESCUELA SUPERIOR DE INFORMÁTICA Prácticas de Estadística ANÁLISIS DESCRIPTIVO CON SPSS 1.- INTRODUCCIÓN Existen dos procedimientos básicos que permiten describir las propiedades de las distribuciones:

Más detalles

2. Seleccionar Insertar función:

2. Seleccionar Insertar función: Estadística I Curso 2014/2015 Guión de la Práctica 1 Introducción a la Estadística con Excel; Estadística Descriptiva En el siguiente guión vamos a ver cómo realizar Estadística Descriptiva con el software

Más detalles

SPSS: ANOVA de un Factor

SPSS: ANOVA de un Factor SPSS: ANOVA de un Factor El análisis de varianza (ANOVA) de un factor nos sirve para comparar varios grupos en una variable cuantitativa. Esta prueba es una generalización del contraste de igualdad de

Más detalles

TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS

TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS 1. Introducción 2. Definición de variables 3. Introducción de los datos 4. Análisis de los datos 5. Otras utilidades 1. INTRODUCCIÓN El SPSS es un paquete

Más detalles

ESTADÍSTICA DESCRIPTIVA CON SPSS

ESTADÍSTICA DESCRIPTIVA CON SPSS ESTADÍSTICA DESCRIPTIVA CON SPSS (2602) Estadística Económica Joaquín Alegre y Magdalena Cladera SPSS es una aplicación para el análisis estadístico. En este material se presentan los procedimientos básicos

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Ejercicio de estadística para 3º de la ESO

Ejercicio de estadística para 3º de la ESO Ejercicio de estadística para 3º de la ESO Unibelia La estadística es una disciplina técnica que se apoya en las matemáticas y que tiene como objetivo la interpretación de la realidad de una población

Más detalles

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos El programa Minitab: breve introducción a su funcionamiento Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos estadísticos en la actualidad, el libro se acompaña, en todo

Más detalles

Instalación del programa PSPP y obtención de una distribución de frecuencias.

Instalación del programa PSPP y obtención de una distribución de frecuencias. Práctica 2. Instalación del programa PSPP y obtención de una distribución de frecuencias. Con esta práctica instalaremos el programa PSPP. El programa es un software específico para el análisis estadístico

Más detalles

1. Análisis de variables cuantitativas (2 a parte)

1. Análisis de variables cuantitativas (2 a parte) Práctica 3: Análisis descriptivo de variables. Parte II. 1. Análisis de variables cuantitativas (2 a parte) Realizaremos un estudio descriptivo completo de variables cuantitativas. Ilustraremos los conceptos

Más detalles

Otras medidas descriptivas usuales

Otras medidas descriptivas usuales Tema 7 Otras medidas descriptivas usuales Contenido 7.1. Introducción............................. 1 7.2. Medidas robustas.......................... 2 7.2.1. Media recortada....................... 2 7.2.2.

Más detalles

Instalación del programa PSPP y obtención de una distribución de frecuencias.

Instalación del programa PSPP y obtención de una distribución de frecuencias. Práctica 2. Instalación del programa PSPP y obtención de una distribución de frecuencias. Con esta práctica instalaremos el programa PSPP. El programa es un software específico para el análisis estadístico

Más detalles

... Formas alternativas de escribir un texto. Columnas. anfora CAPÍTULO 4

... Formas alternativas de escribir un texto. Columnas. anfora CAPÍTULO 4 CAPÍTULO 4. Formas alternativas de escribir un texto........ Columnas Para fijar columnas se posiciona el Punto de Inserción donde se desee que comiencen las columnas, o bien se selecciona el texto que

Más detalles

Aplicaciones de Estadística Descriptiva

Aplicaciones de Estadística Descriptiva Aplicaciones de Estadística Descriptiva Contenidos de la presentación Funciones estadísticas en Excel. Gráficos. El módulo de análisis de datos y las tablas dinámicas de Excel. Información Intentaremos

Más detalles

6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS

6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS 6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS Esquema del capítulo Objetivos 6.1. 6.. 6.3. 6.4. ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS COEFICIENTES DE CONTINGENCIA LA

Más detalles

Capítulo 9. Archivos de sintaxis

Capítulo 9. Archivos de sintaxis Capítulo 9 Archivos de sintaxis El SPSS permite generar y editar archivos de texto con sintaxis SPSS, es decir, archivos de texto con instrucciones de programación en un lenguaje propio del SPSS. Esta

Más detalles

Presentaciones. Con el estudio de esta Unidad pretendemos alcanzar los siguientes objetivos:

Presentaciones. Con el estudio de esta Unidad pretendemos alcanzar los siguientes objetivos: UNIDAD 8 Presentaciones Reunión. (ITE. Banco de imágenes) as presentaciones son documentos formados por una sucesión de páginas, llamadas diapositivas, que transmiten información estructurada de manera

Más detalles

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL OBJETIVO Mejorar el nivel de comprensión y el manejo de las destrezas del estudiante para utilizar formulas en Microsoft Excel 2010. 1) DEFINICIÓN Una fórmula de Excel es un código especial que introducimos

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS Nuestra empresa es una pequeña editorial que maneja habitualmente su lista de ventas en una hoja de cálculo y desea poder realizar un análisis de sus

Más detalles

Tests de hipótesis estadísticas

Tests de hipótesis estadísticas Tests de hipótesis estadísticas Test de hipótesis sobre la media de una población. Introducción con un ejemplo. Los tests de hipótesis estadísticas se emplean para muchos problemas, en particular para

Más detalles

TEMA 4: Variables binarias

TEMA 4: Variables binarias TEMA 4: Variables binarias Econometría I M. Angeles Carnero Departamento de Fundamentos del Análisis Económico Curso 2011-12 Econometría I (UA) Tema 4: Variables binarias Curso 2011-12 1 / 51 Variables

Más detalles

10. El entorno de publicación web (Publiweb)

10. El entorno de publicación web (Publiweb) 10. El entorno de publicación web (Publiweb) 10.1. Introducción El entorno de publicación Web es una herramienta que permite la gestión de nuestras páginas Web de una forma visual. Algunos ejemplos de

Más detalles

MANUAL DE USUARIO Y EJEMPLO DE UTILIZACIÓN HERRAMIENTA DLP-DELPHI LEARNING PACKAGE

MANUAL DE USUARIO Y EJEMPLO DE UTILIZACIÓN HERRAMIENTA DLP-DELPHI LEARNING PACKAGE MANUAL DE USUARIO Y EJEMPLO DE UTILIZACIÓN HERRAMIENTA DLP-DELPHI LEARNING PACKAGE PROFESOR: Creación y puesta en marcha de un proceso de aprendizaje Delphi: En esta fase el profesor debe realizar las

Más detalles

GENERACIÓN DE ANTICIPOS DE CRÉDITO

GENERACIÓN DE ANTICIPOS DE CRÉDITO GENERACIÓN DE ANTICIPOS DE CRÉDITO 1 INFORMACIÓN BÁSICA La aplicación de generación de ficheros de anticipos de crédito permite generar fácilmente órdenes para que la Caja anticipe el cobro de créditos

Más detalles

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de cualquier modelo en el software Algor. La preparación de un modelo,

Más detalles

Manual SBR. Pero antes de explicar las actividades que principalmente podemos desarrollar vamos a dar una visión global de la aplicación.

Manual SBR. Pero antes de explicar las actividades que principalmente podemos desarrollar vamos a dar una visión global de la aplicación. Manual SBR Este proyecto consta de una herramienta denominada SBR mediante la cual el usuario podrá realizar principalmente las siguientes actividades: Crear un nuevo dominio. Modificar el dominio existente.

Más detalles

La ventana de Microsoft Excel

La ventana de Microsoft Excel Actividad N 1 Conceptos básicos de Planilla de Cálculo La ventana del Microsoft Excel y sus partes. Movimiento del cursor. Tipos de datos. Metodología de trabajo con planillas. La ventana de Microsoft

Más detalles

GUIA APLICACIÓN DE SOLICITUDES POR INTERNET. Gestión de Cursos, Certificados de Aptitud Profesional y Tarjetas de Cualificación de Conductores ÍNDICE

GUIA APLICACIÓN DE SOLICITUDES POR INTERNET. Gestión de Cursos, Certificados de Aptitud Profesional y Tarjetas de Cualificación de Conductores ÍNDICE ÍNDICE ACCESO A LA APLICACIÓN... 2 1.- HOMOLOGACIÓN DE CURSOS... 4 1.1.- INICIAR EXPEDIENTE... 4 1.2.- CONSULTA DE EXPEDIENTES... 13 1.3.- RENUNCIA A LA HOMOLOGACIÓN... 16 2.- MECÁNICA DE CURSOS... 19

Más detalles

PRÁCTICA 4. Ingeniería Técnica Industrial (2º) - Mecánica.

PRÁCTICA 4. Ingeniería Técnica Industrial (2º) - Mecánica. PRÁCTICA 4. Ingeniería Técnica Industrial (2º) - Mecánica. Profesores: Javier Faulín y Francisco Ballestín 1. Introducción. El objetivo de esta parte es obtener resultados sobre contrastes de hipótesis

Más detalles

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión... Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación

Más detalles

Asignatura: Econometría. Conceptos MUY Básicos de Estadística

Asignatura: Econometría. Conceptos MUY Básicos de Estadística Asignatura: Econometría Conceptos MUY Básicos de Estadística Ejemplo: encuesta alumnos matriculados en la UMH Estudio: Estamos interesados en conocer el nivel de renta y otras características de los estudiantes

Más detalles

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora Plataforma e-ducativa Aragonesa Manual de Administración Bitácora ÍNDICE Acceso a la administración de la Bitácora...3 Interfaz Gráfica...3 Publicaciones...4 Cómo Agregar una Publicación...4 Cómo Modificar

Más detalles

Tema 12: Contrastes Paramétricos

Tema 12: Contrastes Paramétricos Tema 1 Tema 1: Contrastes Paramétricos Presentación y Objetivos. Se comienza este tema introduciendo la terminología y conceptos característicos de los contrastes de hipótesis, típicamente a través de

Más detalles

Tema 9 Estadística Matemáticas B 4º E.S.O. 1 TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS EN VARIABLES DISCRETAS

Tema 9 Estadística Matemáticas B 4º E.S.O. 1 TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS EN VARIABLES DISCRETAS Tema 9 Estadística Matemáticas B º E.S.O. TEMA 9 ESTADÍSTICA TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS EN VARIABLES DISCRETAS EJERCICIO : En un grupo de personas hemos preguntado por el número

Más detalles

1. MEDIDAS DE TENDENCIA CENTRAL

1. MEDIDAS DE TENDENCIA CENTRAL 1. MEDIDAS DE TENDENCIA CENTRAL Lo importante en una tendencia central es calcular un valor central que actúe como resumen numérico para representar al conjunto de datos. Estos valores son las medidas

Más detalles

Manual del Alumno de la plataforma de e-learning.

Manual del Alumno de la plataforma de e-learning. 2 Manual del Alumno de la Plataforma de E-learning 3 4 ÍNDICE 1. Página de Inicio...7 2. Opciones generales...8 2.1. Qué es el Campus...8 2.2. Nuestros Cursos...9 2.3. Cómo matricularme...9 2.4. Contactar...9

Más detalles

ESCUELA SUPERIOR DE INFORMATICA Prácticas de Estadística UNA SESIÓN EN SPSS

ESCUELA SUPERIOR DE INFORMATICA Prácticas de Estadística UNA SESIÓN EN SPSS UNA SESIÓN EN SPSS INTRODUCCIÓN. SPSS (Statistical Product and Service Solutions) es un paquete estadístico orientado, en principio, al ámbito de aplicación de las Ciencias sociales, es uno de las herramientas

Más detalles

Manual Oficina Web de Clubes (FBM)

Manual Oficina Web de Clubes (FBM) Manual Oficina Web de Clubes (FBM) INTRODUCCIÓN: La Oficina Web de Clubes de Intrafeb es la oficina virtual desde la que un club podrá realizar las siguientes operaciones durante la temporada: 1. Ver información

Más detalles

Departamento CERES Área de Tarjetas Inteligentes Manual de Usuario

Departamento CERES Área de Tarjetas Inteligentes Manual de Usuario 14 CORREO SEGURO. Hay aplicaciones de correo que permiten enviar y recibir correos cifrados y firmados digitalmente utilizando criptografía. Estas operaciones garantizan el intercambio seguro de información,

Más detalles

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido Tema 3 Medidas de tendencia central Contenido 31 Introducción 1 32 Media aritmética 2 33 Media ponderada 3 34 Media geométrica 4 35 Mediana 5 351 Cálculo de la mediana para datos agrupados 5 36 Moda 6

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

PRÁCTICAS DE GESTIÓN GANADERA:

PRÁCTICAS DE GESTIÓN GANADERA: PRÁCTICAS DE GESTIÓN GANADERA: MANEJO DE HOJA DE CÁCULO (EXCEL) 1. INTRODUCCIÓN AL MANEJO DE EXCEL La pantalla del programa consta de una barra de herramientas principal y de una amplia cuadrícula compuesta

Más detalles

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros TEMA 0: INTRODUCCIÓN Y REPASO 1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros desconocidos 4. Comparación

Más detalles

Actividades con GeoGebra

Actividades con GeoGebra Conectar Igualdad - "Netbooks Uno a Uno" Actividades con GeoGebra Nociones básicas, rectas Silvina Ponce Dawson Introducción. El GeoGeobra es un programa que permite explorar nociones matemáticas desde

Más detalles

7.6 Comparación entre dos medias Poblacionales usando muestras independientes

7.6 Comparación entre dos medias Poblacionales usando muestras independientes 7.6 Comparación entre dos medias Poblacionales usando muestras independientes Supongamos que se tiene dos poblaciones distribuidas normalmente con medias desconocidas µ y µ, respectivamente. Se puede aplicar

Más detalles

Procesamiento de información para la investigación utilizando el programado Excel recopilados. Los participantes rán en

Procesamiento de información para la investigación utilizando el programado Excel recopilados. Los participantes rán en Procesamiento de información para la investigación utilizando el programado Excel recopilados. Los participantes rán en Julio E. Rodríguez Torres el Joel uso O. Lucena de Excel. Quiles Centro para la Excelencia

Más detalles

Curso de Estadística no-paramétrica

Curso de Estadística no-paramétrica Curso de Estadística no-paramétrica Sesión 1: Introducción Inferencia no Paramétrica David Conesa Grup d Estadística espacial i Temporal Departament d Estadística en Epidemiologia i Medi Ambient i Investigació

Más detalles

El e-commerce de Grupo JAB es una herramienta que permite a los clientes del Grupo, realizar un amplio conjunto de servicios de consulta, petición y

El e-commerce de Grupo JAB es una herramienta que permite a los clientes del Grupo, realizar un amplio conjunto de servicios de consulta, petición y El de Grupo JAB es una herramienta que permite a los clientes del Grupo, realizar un amplio conjunto de servicios de consulta, petición y compra en los diversos almacenes del Grupo JAB. En concreto podremos:

Más detalles

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:

Más detalles

ESTUDIO PRELIMINAR DE ALGUNOS FACTORES INFLUYENTES EN EL RENDIMIENTO ACADÉMICO DE ALUMNOS DEL GRUPO EXECUTIVE FISIOTERAPIA

ESTUDIO PRELIMINAR DE ALGUNOS FACTORES INFLUYENTES EN EL RENDIMIENTO ACADÉMICO DE ALUMNOS DEL GRUPO EXECUTIVE FISIOTERAPIA ESTUDIO PRELIMINAR DE ALGUNOS FACTORES INFLUYENTES EN EL RENDIMIENTO ACADÉMICO DE ALUMNOS DEL GRUPO EXECUTIVE FISIOTERAPIA Autores: Noemí Díaz Matas; Carlos Martín Saborido; Raquel Díaz-Meco Conde; Silvia

Más detalles

MANUAL PARA LA GESTIÓN DEL PRÉSTAMO ENTRE LAS BIBLIOTECAS DE LA RED DE LECTURA PÚBLICA DE EUSKADI

MANUAL PARA LA GESTIÓN DEL PRÉSTAMO ENTRE LAS BIBLIOTECAS DE LA RED DE LECTURA PÚBLICA DE EUSKADI MANUAL PARA LA GESTIÓN DEL PRÉSTAMO ENTRE LAS BIBLIOTECAS DE LA RED DE LECTURA PÚBLICA DE EUSKADI El presente documento recoge el procedimiento mediante el cual las bibliotecas pertenecientes a la red

Más detalles

15 CORREO WEB CORREO WEB

15 CORREO WEB CORREO WEB CORREO WEB Anteriormente Hemos visto cómo funciona el correo electrónico, y cómo necesitábamos tener un programa cliente (Outlook Express) para gestionar los mensajes de correo electrónico. Sin embargo,

Más detalles

MANUAL DE USUARIO. Se deben seguir los siguientes pasos para la correcta instalación del módulo descargable:

MANUAL DE USUARIO. Se deben seguir los siguientes pasos para la correcta instalación del módulo descargable: MANUAL DE USUARIO La aplicación para la convocatoria Parques Científicos y Tecnológicos consta de un programa descargable más un módulo web. Mediante el módulo descargable, es posible cumplimentar todos

Más detalles

MÓDULO 2. LEYES FINANCIERAS DE CAPITALIZACIÓN Y DESCUENTO SIMPLE

MÓDULO 2. LEYES FINANCIERAS DE CAPITALIZACIÓN Y DESCUENTO SIMPLE MÓDULO 2. LEYES FINANCIERAS DE CAPITALIZACIÓN Y DESCUENTO SIMPLE Índice de contenidos: 1. Ley Financiera de capitalización a interés vencido. 1.1. Equivalencia de capitales. 1.2. Tipos de interés equivalentes.

Más detalles

Operación Microsoft Access 97

Operación Microsoft Access 97 Trabajar con Controles Características de los controles Un control es un objeto gráfico, como por ejemplo un cuadro de texto, un botón de comando o un rectángulo que se coloca en un formulario o informe

Más detalles

Programa diseñado y creado por 2014 - Art-Tronic Promotora Audiovisual, S.L.

Programa diseñado y creado por 2014 - Art-Tronic Promotora Audiovisual, S.L. Manual de Usuario Programa diseñado y creado por Contenido 1. Acceso al programa... 3 2. Opciones del programa... 3 3. Inicio... 4 4. Empresa... 4 4.2. Impuestos... 5 4.3. Series de facturación... 5 4.4.

Más detalles

PRUEBAS NO PARAMÉTRICAS

PRUEBAS NO PARAMÉTRICAS PRUEBAS NO PARAMÉTRICAS 1. PRUEBAS DE NORMALIDAD Para evaluar la normalidad de un conjunto de datos tenemos el Test de Kolmogorov- Smirnov y el test de Shapiro-Wilks La opción NNPLOT del SPSS permite la

Más detalles

Módulo 7: Los activos de Seguridad de la Información

Módulo 7: Los activos de Seguridad de la Información Módulo 7: Los activos de Seguridad de la Información Se explica en este tema cómo deben abordarse la elaboración de un inventario de activos que recoja los principales activos de información de la organización,

Más detalles

Internet como herramientas de comunicación: El correo electrónico

Internet como herramientas de comunicación: El correo electrónico Internet como herramientas de comunicación: El correo electrónico 1. El correo electrónico Objetivo del tema: Aprender a manejar el correo electrónico y los medios de comunicación existentes en Internet.

Más detalles

Construyendo gráficos estadísticos con ayuda de Microsoft Excel

Construyendo gráficos estadísticos con ayuda de Microsoft Excel Construyendo gráficos estadísticos con ayuda de Microsoft Excel Eduardo Aguilar Fernández Universidad Nacional Heredia, Costa Rica eaguilar2@gmail.com Andrey Zamora Araya Universidad Nacional Heredia,

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

Uso de Visual C++ Pre-Practica No. 3

Uso de Visual C++ Pre-Practica No. 3 Pre-Practica No. 3 Uso de Visual C++ Microsoft Visual C++ 2010 es una versión de Visual Studio específica para el lenguaje de programación C++. Es un entorno de desarrollo muy completo y profesional. Por

Más detalles

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Es un conjunto de herramientas estadísticas que permiten recopilar, estudiar y analizar la información

Más detalles

Manual de Introducción a SIMULINK

Manual de Introducción a SIMULINK Manual de Introducción a SIMULINK Autor: José Ángel Acosta Rodríguez 2004 Capítulo Ejemplo.. Modelado de un sistema dinámico En este ejemplo se realizará el modelado de un sistema dinámico muy sencillo.

Más detalles

Análisis estadístico con Microsoft Excel

Análisis estadístico con Microsoft Excel Análisis estadístico con Microsoft Excel Microsoft Excel ofrece un conjunto de herramientas para el análisis de los datos (denominado Herramientas para análisis) con el que podrá ahorrar pasos en el desarrollo

Más detalles

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso 2008-2009

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso 2008-2009 Índice general 6. Regresión Múltiple 3 6.1. Descomposición de la variabilidad y contrastes de hipótesis................. 4 6.2. Coeficiente de determinación.................................. 5 6.3. Hipótesis

Más detalles

GENERACIÓN DE TRANSFERENCIAS

GENERACIÓN DE TRANSFERENCIAS GENERACIÓN DE TRANSFERENCIAS 1 INFORMACIÓN BÁSICA La aplicación de generación de ficheros de transferencias permite generar fácilmente órdenes para que la Caja efectúe transferencias, creando una base

Más detalles

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS ANÁLISIS DE DATOS Hoy día vamos a hablar de algunas medidas de resumen de datos: cómo resumir cuando tenemos una serie de datos numéricos, generalmente en variables intervalares. Cuando nosotros tenemos

Más detalles

MANUAL DE AYUDA MODULO TALLAS Y COLORES

MANUAL DE AYUDA MODULO TALLAS Y COLORES MANUAL DE AYUDA MODULO TALLAS Y COLORES Fecha última revisión: Enero 2010 Índice TALLAS Y COLORES... 3 1. Introducción... 3 CONFIGURACIÓN PARÁMETROS TC (Tallas y Colores)... 3 2. Módulos Visibles... 3

Más detalles

En términos generales, un foro es un espacio de debate donde pueden expresarse ideas o comentarios sobre uno o varios temas.

En términos generales, un foro es un espacio de debate donde pueden expresarse ideas o comentarios sobre uno o varios temas. 1 de 18 Inicio Qué es un foro En términos generales, un foro es un espacio de debate donde pueden expresarse ideas o comentarios sobre uno o varios temas. En el campus virtual, el foro es una herramienta

Más detalles

Sistema de Facturación de Ventas WhitePaper Enero de 2007

Sistema de Facturación de Ventas WhitePaper Enero de 2007 Sistema de Facturación de Ventas WhitePaper Enero de 2007 Ronda Guglielmo Marconi, 9 Parque Tecnológico 46980 Paterna Valencia Spain T +34 96 338 99 66 ventas@preference.es Please Recycle PrefSuite Document

Más detalles

PLANTILLAS EN MICROSOFT WORD

PLANTILLAS EN MICROSOFT WORD PLANTILLAS EN MICROSOFT WORD Una plantilla es un modelo o patrón para crear nuevos documentos. En una plantilla se guarda internamente el formato utilizado, es decir, el estilo de la fuente, el tamaño,

Más detalles

UNIDAD 1 LAS LEYES FINANCIERAS DE CAPITALIZACIÓN DESCUENTO

UNIDAD 1 LAS LEYES FINANCIERAS DE CAPITALIZACIÓN DESCUENTO - 1 - UNIDAD 1 LAS LEYES FINANCIERAS DE CAPITALIZACIÓN Y DESCUENTO Tema 1: Operaciones financieras: elementos Tema 2: Capitalización y descuento simple Tema 3: Capitalización y descuento compuesto Tema

Más detalles

Manual para la utilización de PrestaShop

Manual para la utilización de PrestaShop Manual para la utilización de PrestaShop En este manual mostraremos de forma sencilla y práctica la utilización del Gestor de su Tienda Online mediante Prestashop 1.6, explicaremos todo lo necesario para

Más detalles

Análisis de los datos

Análisis de los datos Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización

Más detalles

Servicio de Informática Vicerrectorado de Tecnologías de la Información y la Comunicación

Servicio de Informática Vicerrectorado de Tecnologías de la Información y la Comunicación Vicerrectorado de Tecnologías de la Información y la Comunicación Conexión mediante Escritorio Remoto de Windows Última Actualización 16 de septiembre de 2013 Histórico de cambios Fecha Descripción Autor

Más detalles

Ajustes del Curso en egela (Moodle 2.5)

Ajustes del Curso en egela (Moodle 2.5) Ajustes del Curso en egela (Moodle 2.5) Manual para el profesorado Versión 2 (12/05/2015) El presente manual ha sido desarrollado por el Campus Virtual de la Universidad del País Vasco / Euskal Herriko

Más detalles

Actualmente existen dos maneras de enviar y publicar las estadísticas en la página web de la Federación Española de Baloncesto:

Actualmente existen dos maneras de enviar y publicar las estadísticas en la página web de la Federación Española de Baloncesto: MANUAL ENVÍO Y PUBLICACIÓN DE ESTADÍSTICAS: Este manual está orientado a todos aquellos estadísticos de clubes que actualmente NO realizan Jornada Virtual a través de http://baloncestoenvivo.feb.es. Como

Más detalles

TEMA 5. INTRODUCCIÓN AL MANEJO DE ORIGIN 6.1

TEMA 5. INTRODUCCIÓN AL MANEJO DE ORIGIN 6.1 TEMA 5. INTRODUCCIÓN AL MANEJO DE ORIGIN 6.1!"# 1. Introducción En muchos aspectos, el Origin es muy similar a Excel. Y lo es, más que en su apariencia, en la versatilidad y en las funciones que permite

Más detalles

SOLUCIÓN CASO GESTIÓN DE PERSONAL I

SOLUCIÓN CASO GESTIÓN DE PERSONAL I SOLUCIÓN CASO GESTIÓN DE PERSONAL I Empezaremos abriendo un nuevo libro de trabajo que podemos guardar como Nóminas e introducimos los datos que nos proporciona el enunciado relativos a coste por hora

Más detalles

Cómo creo las bandejas del Registro de Entrada /Salida y de Gestión de Expedientes?

Cómo creo las bandejas del Registro de Entrada /Salida y de Gestión de Expedientes? Preguntas frecuentes Cómo creo las bandejas del Registro de Entrada /Salida y de Gestión de Expedientes? Atención! Esta opción es de configuración y solamente la prodrá realizar el administrador de la

Más detalles

CAPITULO V. SIMULACION DEL SISTEMA 5.1 DISEÑO DEL MODELO

CAPITULO V. SIMULACION DEL SISTEMA 5.1 DISEÑO DEL MODELO CAPITULO V. SIMULACION DEL SISTEMA 5.1 DISEÑO DEL MODELO En base a las variables mencionadas anteriormente se describirán las relaciones que existen entre cada una de ellas, y como se afectan. Dichas variables

Más detalles