1. Descripción de datos univariantes

Documentos relacionados
Práctica 2: Estadística Descriptiva. 1. Descripción de datos univariantes. acumuladas de las modalidades. Tabla con todas las frecuencias

1. Tablas de doble entrada

1. Descripción de datos univariantes

INICIACIÓN A LA INVESTIGACIÓN EN ESTADÍSTICA APLICADA EN INGENIERÍA

Tema 8: Distribuciones Unidimensionales y Distribuciones Bidimensionales. Consideraciones iniciales:

INGENIERO EN COMPUTACION TEMA 1.2: PRESENTACIÓN GRÁFICA DE DATOS

Tema 3: Análisis de datos bivariantes

Práctica 3: DIAGRAMAS DE DATOS UNIVARIANTES

Sumario Prólogo Unidad didáctica 1. Introducción a la estadística. Conceptos preliminares Objetivos de la Unidad...

TEMA 1: INTRODUCCIÓN

Estadística Inferencial. Estadística Descriptiva

Apuntes de Estadística

Tema 1: Análisis de datos univariantes

ESTADÍSTICA DESCRIPTIVA

REPASO DE ESTADÍSTICA DESCRIPTIVA

3 ANALISIS DESCRIPTIVO DE LOS DATOS

MATEMÁTICAS 1º BI-NM Serie Estadística Unidimensional y Bidimensional

ESTADÍSTICA CON EXCEL

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

Tema 2: Análisis de datos bivariantes

COLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.

ESTADÍSTICA. Individuo. Es cada uno de los elementos que forman la población o muestra.

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

Curso 2016/17 Grados en Biología y Biología Sanitaria Departamento de Física y Matemáticas Marcos Marvá Ruiz ESTADÍSTICA

1 Resolución de algunos ejemplos y ejercicios del tema 1.

Tema 2 Estadística Descriptiva

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

Estadística ESTADÍSTICA

9.- Análisis estadísticos con R Commander

1 POBLACIÓN Y MUESTRA

2º ESO UNIDAD 14 ESTADÍSTICA Y PROBABILIDAD

Análisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz

Guía de actividad Independiente No 5. Estadística Descriptiva. Nombre del estudiante: Fecha:

Métodos Estadísticos de la Ingeniería 2º I.T.I. Electricidad Curso 2010/2011 PRÁCTICA 2 ESTUDIOS DESCRIPTIVOS BIDIMENSIONALES

Curso de Estadística Aplicada a las Ciencias Sociales

15 CASOS PRÁCTICOS DE ESTADÍSTICA APLICADA A LAS CIENCIAS DEL TRABAJO ANTONIO FERNÁNDEZ MORALES

CRITERIOS DE EVALUACIÓN ESTÁNDARES DE APRENDIZAJE EVALUABLES

Tema 2: Estadísitica descriptiva univariante

El ejemplo: Una encuesta de opinión

Metodología II: Análisis de Datos. Prof. Reinaldo Mayol Derecho

El Método Científico. Metodología de Investigación. Te sifón Parrón

Tema 4. Herramientas de representación gráfica

Descripción de los Datos

Estadística Descriptiva. Poblaciones y muestras.

Tema 9: Estadística en dos variables (bidimensional)

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

Y accedemos al cuadro de diálogo Descriptivos

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

PRÁCTICAS DE ESTADÍSTICA CON R

Cátedra: Estadística Técnica Facultad de Ingeniería UNCuyo. Índice D. Fernández & M. Guitart TABLA DE CONTENIDOS

ESTADÍSTICA. Rincón del Maestro:

2.- Tablas de frecuencias

ESTADÍSTICA. A su vez, las variables pueden ser :

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

Tema 2: Análisis de datos bivariantes

Estadística Descriptiva Univariante

CURSO VIRTUAL. Acceso a fuentes de información y manejo de redes sociales. Módulo 2

TEMA 1: ESTADISTICA DESCRIPTIVA

Tema 1. Tabulación y representación gráfica de los datos

Gráficos y tipos de variables. Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos Profesor Iván Fernando Camacho

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

ANÁLISIS DE DATOS. L.A. y M.C.E. Emma Linda Diez Knoth

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

Una vez que tenga la información de la muestra ordenada, se pueden emitir conclusiones finales.

INTRODUCCIÓN AL MANEJO DE STATGRAPHICS

La estadística es una ciencia que demuestra que si mi vecino tiene

Estadística Descriptiva Bivariante con STATGRAPHICS -Dependencia lineal y Regresión-

Tema 3: Estadística Descriptiva

Los estadísticos descriptivos clásicos (Robustez)

Unidad 1. Obtención, Medición y Representación de Datos. Estadística E.S.O.

Estadística. Análisis de datos.

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

Conceptos de Estadística

Construcción de Gráficas en forma manual y con programados

+ f 2. + f 3. p i. =h i 100. F i. = f i. H i. = h i. P i. = p i

Módulo de Estadística

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS CON LA HOJA DE CÁLCULO EXCEL

ESTADÍSTICA UNIDIMENSIONAL

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

ESTADISTICA. Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos:

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

TEMA 8: ESTADÍSTICA DESCRIPTIVA.

Estadística Aplicada a la Educación

Estadística Descriptiva I

Estadística Descriptiva

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

Gráficos para variables cuantitativas

SILABO DEL CURSO ESTADÍSTICA DESCRIPTIVA 1. DATOS GENERALES

X Y

Julio Deride Silva. 18 de agosto de 2010

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados.

Capítulo 1 Probabilidades y Estadística

Dr. Abner A. Fonseca Livias

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Tipos de gráficas y selección según los datos CIENCIA, TECNOLOGIA Y AMBIENTE

ÁREAS DE LA ESTADÍSTICA

Transcripción:

Práctica 2: Análisis exploratorio de datos 1. Descripción de datos univariantes En primer lugar hemos de insistir que la Estadística Descriptiva dispone de un abanico de procedimientos que deben ser usados según el objetivo que tengamos y la naturaleza de la variable que ha generado los datos de la muestra. Una clasicación sintética de estos procedimientos aparece en la siguiente tabla. Tipo de Procedimientos variable Tablas Grácos Estadísticos Cualitativa Cuantitativa discreta Cuantitativa continua 1.1. Variables Cualitativas Diagrama de sectores Diagramas de barras y Diagrama de Tallo y Hojas Histogramas Moda y medidas porcentuales Tabla de Frecuencias absolutas y relativas NO acumuladas de las modalidades observadas Tabla con todas las frecuencias de valores aislados Tabla con todas las frecuencias de valores agrupados en clases de intervalo Mediana, cuantiles, rango y rango intercuartílico Todos los estadísticos y además el Diagrama de Caja y bigotes Normalmente, la descripción de datos comienza con la tabulación de estos. El objetivo de las tablas de frecuencias es ordenar y clasicar los datos observados. Estas tablas permiten, además de sintetizar la información contenida en los datos, extraer de forma rápida una descripción básica de la muestra; como la moda o modalidad de mayor frecuencia o el número de modalidades distintas observadas. El gráco que usamos comúnmente para representar datos cualitativos se llaman Diagramas de Sectores. Cada sector tiene un área proporcional a la frecuencia que representa. También es posible llevar a cabo el diagrama de barras, aunque éste último se reserva más para aquellas variables cuyas modalidades se hallan ordenadas en alguna escala. Práctica 1.1 (Convertir variable numérica en factor) En muchas ocasiones una variable cualitativa se halla codicada con números de forma que R-Commander la entiende por numérica. En estos casos, las opciones para ejecutar los procedimientos de Práctica 2 Página: 1

descripción de variables cualitativas, como la tabla de frecuencia y los diagramas de barras y de sectores, no se encuentran activos. La forma de activarlos es modicar dicha variable para que R-Commander entienda que es cualitativa. Para hacer esto último seleccionamos Modicar variables en el conjunto de datos activo del menú Datos y a continuación la opción Convertir variable numérica en factor. El chero Pulse.TXT contiene, entre otras variables cuantitativas, los valores de las pulsaciones de 91 individuos antes y después del ejercicio físico, y varias variables cualitativas, como el tipo de actividad física que realiza (Activity), el sexo (Sex), o si fuma (Smokes), sin embargo, en el momento que ellas fueron creadas en el chero de datos, aparecen como si fueran de tipo numérico. Llevar a cabo la operación de Convertir variable numérica en factor para las variables Sex y Activity del chero Pulse.TXT. Práctica 1.2 Construir la tabla de frecuencias, el diagrama de barras y el diagrama de sectores de la variable cualitativa Activity. Hay variables cualitativas cuyas modalidades pueden ser ordenadas según cierta escala y que se llaman ordinales. Estas variables son de uso muy frecuente en encuestas sociológicas cuando se quiere investigar el grado o nivel con que cierto fenómeno se presenta en un conjunto de individuos. Algunos ejemplos pueden ser los siguientes: nivel de estudios, nivel de aceptación de cierta medida del gobierno o nivel de satisfacción con la labor docente de un profesor. Las modalidades de este tipo de variables suelen estar codicadas mediante números; por ejemplo, si nos referimos a la variable nivel de satisfacción con la labor docente de un profesor, la modalidad nada satisfecho puede codicarse con el valor 1, poco satisfecho con un 2, bastante satisfecho con un 3, muy satisfecho con un 4 y totalmente satisfecho con un 5. Estas variables, con ciertas precauciones a la hora de interpretar resultados, pueden ser tratadas usando además los procedimientos para variables cuantitativas discretas, que se describen a continuación. 1.2. Variables Cuantitativas Discretas Se trata ahora de describir variables numéricas que toman valores enteros. Si con variables cualitativas las frecuencias se han calculado para cada modalidad aisladamente, ahora, además, también podemos calcular frecuencias acumuladas. La diferencia con la situación anterior es que ahora las clases son numéricas y podemos ordenar en la escala de los números enteros. Una frecuencia acumulada de una clase es la suma de frecuencias de la propia clase y de las clases inferiores a ella. Es por lo que carece de sentido calcular frecuencias acumuladas en variables cualitativas. R-Commander presenta una limitación en el tratamiento de este tipo de variables, pues no distingue entre variables cuantitativas discretas y continuas. Puede tratarlas como cualitativas (de convertirla a factor, como los casos anteriores) y en este caso podría ofrecernos la tabla de frecuencias y el diagrama de barras o como cuantitativas continuas y ofrecernos algunos estadísticos y el histograma. De tenernos que decantar por una de las dos alternativas, es preferible la primera pues el histograma construye clases de intervalo y cada una de estas clases contendría más de un valor de la variable. Esto no interesa puesto que se reduce la información de forma innecesaria cuando el número de valores distintos de la variable es relativamente bajo. Sin embargo, podremos tratar con Práctica 2 Página: 2

variables discretas pero que una muestra grande posea un número también grande de valores distintos observados. En esos casos será mejor optar por un tratamiento numérico como si se tratase de una variable continua. Otra posibilidad, la mejor, es usar la ventana de instrucciones de R-Commander para ejecutar las órdenes precisas en cada caso. Si nuestro chero de datos lleva por nombre Datos, algunos comandos útiles para estos casos son las siguientes: names(datos)# ofrece el listado de todas las variables del chero attach(datos) # pone a disposición de R todas las variables. Supongamos que una de ellas lleva por nombre Var1 table(var1) # ofrece la tabla de frecuencias de la variable Var1 table(var1)->x # guarda la tabla de frecuencias en el objeto x length(var1) # ofrece el número de observaciones de la variable Var1 length(var1)->n # guarda el tamaño de muestra en el objeto n table(var1)/length(var1) # ofrece la tabla de frecuencias relativas. También podríamos haber hecho x/n si se crearon os objetos x y n. cumsum(table(var1)) # ofrece la tabla de frecuencias acumuladas. También podríamos haber hecho cumsum(x) si se creó el objeto x cumsum(table(var1))/length(var1) # ofrece la tabla de frecuencias relativas acumuladas. También podríamos haber hecho cumsum(x)/n si se crearon los objetos x y n. barplot(table(var1)) # ofrece el diagrama de barras de la variable Var1. También podíamos haber hecho barplot(x) o barplot(cumsum(x)) si queremos hacer el diagrama de barras de frecuencias acumuladas. Práctica 1.3 (Tratamiento de una variable discreta mediante instrucciones de R) El chero houses.txt contiene la información de 150 casas vendidas en el último trimestre en cierta región. La variable Baths informa del número de baños que contiene cada una y la variable Rooms del número total de habitaciones. Siguiendo las instrucciones de arriba, realiza las tablas de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas para la variable discreta Rooms del chero Houses.TXT. Realiza los correspondientes diagramas de barras. ¾Cuál es la moda?. ¾Y el recorrido de la variable?. Hay variables de naturaleza continua pero de observación discreta, como la variable Area, expresada en metros cuadrados, del chero Houses.TXT. Este tipo de variables pueden ser tratadas con los procedimientos de variables continuas, pues al haber muchos valores distintos observados, la tabla de valores aislados o el diagrama de barras se hacen ilegibles y poco operativos. Pero tampoco podemos olvidar que cuando hacemos una tabla en clases de intervalos o un histograma perdemos información acerca de los valores concretos que se han observado. Un procedimiento gráco muy útil para evitar esta pérdida de información es el Diagrama de Tallo y Hojas. El Diagrama de Tallo y Hojas es otra forma de representar una tabla de frecuencias, cuando ésta es muy extensa por el número de clases distintas observadas, y además tiene la ventaja de ofrecer todo el conjunto de valores observados. El número a la izquierda de la barra es el tallo, que hay que unir a cada hoja, representadas a la derecha de la barra, para conocer cada una de las observaciones. Práctica 2 Página: 3

Práctica 1.4 (Diagrama de tallo y hojas) Llevar a cabo el diagrama de tallo y hojas de la variable Area del chero Houses.TXT. Ejecutar la orden table(area) comprobando que la información que ofrece es la misma que la del diagrama de tallo y hojas, pero en éste último la información tiene una disposición más sintética y por tanto es más adecuado. Por el mismo motivo, tampoco sería adecuado realizar un diagrama de barras para esta variable. ¾Cuál es el recorrido de la variable?. ¾Cual es la mediana?. Calcular los estadísticos básicos mediante la opción Resúmenes numéricos. Realiza el diagrama de caja y bigotes para entender mejor cómo se comporta la muestra. A excepción de la construcción de la tabla de frecuencias (que hemos considerado poco o nada adecuada en este caso y que R-Commander sólo ejecuta para variables cualitativas), el resto de los procedimientos pueden ser ejecutados mediante opciones de los menús Estadísticos y Grácas de R-Commander. Pero para que vayamos aprendiendo algo más de R stem.leaf(var1) # ofrece el diagrama de tallo y hojas summary(var1) # ofrece los estadísticos básicos de la variable Var1 boxplot(var1) # ofrece el diagrama de caja y bigotes de la variable Var1 Práctica 1.5 (Aprendiendo algo más de R) Realiza la misma práctica anterior usando los comandos de R anteriormente descritos. 1.3. Variables Cuantitativas Continuas Una variable es continua si toma valores en cualquier intervalo de la recta real. El número de valores distintos observados suele ser alto o casi coincidir con el tamaño de la muestra, de forma que para construir una tabla de frecuencias hay necesariamente que agrupar éstos en clases de intervalo. Además, a este tipo de variables se les puede calcular cualquier estadístico denido para variables cuantitativas continuas. Práctica 1.6 (Describiendo variables continuas) Transforma la variable Price del chero Houses.TXT en miles de euros. Lleva a cabo el histograma, los estadísticos básicos y el diagrama de caja y bigotes dela variable transformada. Discute las características más signicativas de la muestra, respecto a sus parámetros de centralización, de dispersión y de forma. 2. Descripción de datos bivariantes 2.1. Cualitativa vs Cualitativa R-Commander dispone de la opción para construir tablas de doble entrada para una pareja de variables cualitativas, además de poder construir las distribuciones de frecuencias condicionadas por las o por columnas. Las opciones se encuentran en Tabla de doble entrada del menú Tabla de contingencia de Estadísticos. Práctica 2 Página: 4

Práctica 2.1 (Tabla de contingencia) Usando el chero Pulse.TXT convierte las variables Sex y Activity en factores mediante la opción Convertir variable numérica en factor del menú modicar variables del conjunto de datos activo, si no se hizo en la práctica 1.1. Construye la tabla de contingencia de la pareja de variables, además de las distribuciones de la variable Activity en función de Sex. Para describir una pareja de variables cualitativas X, Y, cuyos datos se encuentran en los vectores x, y, la función table(x,y) construye la tabla de frecuencias absolutas conjuntas o tabla de doble entrada. Si hacemos tabla<-table(x,y), funciones como las siguientes pueden ser aplicadas al objeto tabla. prop.table(tabla) prop.table(tabla,1) prop.table(tabla,2) pie(tabla) barplot(table(x,y)) barplot(table(y,x)) Distribución de frecuencias conjuntas Distribuciones de frecuencias condicionadas por las Distribuciones de frecuencias condicionadas por columnas Gráco de sectores de la distribución de frecuencias conjuntas (no es práctico si la tabla tiene más de 6 casillas) Gráco en forma de barras (proporciones de valores de x para cada valor de y) Gráco en forma de barras (proporciones de valores de y para cada valor de x) Práctica 2.2 (Aprendiendo R) Describe la pareja de variables Sex y Activity del chero Pulse.TXT mediante las funciones de R y la ventana de instrucciones de R- Commander. 2.2. Cuantitativa Continua vs Cualitativa Pasamos directamente a este caso más frecuente porque si la variable dependiente fuera cuantitativa discreta con pocos valores observados diferentes podremos describirla como el caso anterior. La diferencia esencial es que si la variable dependiente Y es continua es posible calcular estadísticos mientras que en la situación anterior sólo proporciones y grácos. Cuando es numérica discreta también es posible algunos estadísticos básicos como la moda, la mediana o el recorrido de la variable. En general, cuando trabajamos con variables condicionadas Y x, como variables univariantes, el tipo de tratamiento estadístico es el mismo que para la variable marginal Y. La diferencia es que nos interesa tratar todas las variables Y x para analizar si su comportamiento depende del valor X = x (variables dependientes) o por el contrario en el comportamiento de todas las variables condicionadas Y x no hay diferencias signicativas (variables independientes). Como ya dijimos, un resumen descriptivo de una variable cuantitativa puede venir dado mediante el diagrama de caja y bigotes, pues éste recoge para ser interpretadas las características de centralización, localización, dispersión y forma de la distribución de frecuencias. Por ello, como herramienta básica para analizar la dependencia entre una variable cuantitativa y una cualitativa vamos a usar este gráco. Práctica 2.3 (Diagrama de caja y bigotes por grupos) Vamos a construir el diagrama de caja y bigotes de la variable Pulse2 para cada tipo de actividad. La opción la Práctica 2 Página: 5

podemos encontrar en diagrama de caja del menú Grácas y seleccionando la opción Gráca por grupos. Discute las características de cada una de las tres muestras comparándolas entre ellas. En la opción Tabla de estadísticas del menú Resúmenes en Estadísticos podemos obtener algunos estadísticos básicos de las distribuciones condicionadas. La función summary(var1), by=factor1) en la ventana de instrucciones aporta los valores de los estadísticos básicos de la variable cuantitativa Var1 para cada modalidad del factor Factor1 que se han representado en el diagrama de caja y bigotes. 2.3. Cuantitativa Continua vs Cuantitativa Continua Cuando estudiamos la posible relación entre dos variables cuantitativas continuas es necesario en primer lugar intuir tanto la forma como la intensidad de la relación. Ello podemos llevarlo a cabo mediante un gráco llamado Diagrama de dispersión que representa en el plano bidimensional las parejas de valores (x i, y i ), desde i = 1, 2,..., n. Si la forma de la nube de puntos sugiere un ajuste lineal como el mejor de todos los posibles, podemos obtener los parámetros de la recta de mínimos cuadrados mediante la opción Regresión lineal del menú Ajustes de modelos en Estadísticos. También, mediante la opción Matriz de correlaciones del menú Resúmenes en Estadísticos podremos obtener el valor del coeciente de correlación de Pearson. La opción gráca del diagrama de dispersión también permite dibujar la recta de regresión e incluso clasicar los puntos de la nube según las modalidades de cierto factor. Práctica 2.4 (Ajustes lineales) Mediante el chero Pulse.TXT realiza las siguientes prácticas: 1. Diagrama de dispersión de la variable Height en función de la variable Weight. 2. Obtención de los parámetros de la recta de regresión 3. Valor del coeciente de correlación de Pearson 4. Diagrama de dispersión de la variable Height en función de la variable Weight y señalando la opción de linea de regresión. 5. Diagrama de dispersión de la variable Height en función de la variable Weight y señalando la opción de linea de regresión y clasicando los puntos en función del sexo. Interpreta los resultados. Práctica 2 Página: 6