I. Estadística Descriptiva de una variable Objetivo: Organizar un conjunto de datos para extraer el máximo posible de información Herramientas: A. Estadísticos: Media, Varianza, moda, etc B. Representaciones gráficas: Diagrama de tallos y hojas etc
Guión I.1 Tipos de Variables I.2 Notación básica I.3 Estadísticos Medidas de dispersión Medidas de Centralización I.4 Representaciones gráficas I.4.1 Diagramas de cajas y bigotes I.4.2 Diagramas de tallos y hojas I.4.3 Histogramas
1 Tipos de Variables respuesta (Carácteristicas, propiedades de una población (muestra) a) Explicativas (No Numéricas) b) Cuantitativas: (valores numéricos) Discretas: Conjunto finito de valores (numero de descencientes) Continuas: Cualquier valor en un intervalo (longitud, altura)
2 Notación básica Datos discretos n = Tamaño de la muestra x1,... x n = n valores de la variable respuesta Datos agrupados Los datos pueden venir dados en una serie de intervalos o clases A1,..., A k = k clases de la variable respuesta x1,... xk n1,..., nk f 1,... fk = k representantes de la variable respuesta = frecuencias absolutas de las clases = frecuencias relativas de las clases f i ni n
3 Estadisticos 3.1 Medidas de centralizacion Buscan el mejor valor que representa los datos (Media Muestral): Es la media arítmética de los datos V Discreta 1 n X i n i 1 Datos agrupados x 1 k k i i i i n n x i 1 i 1 f x
3.1 Medidas de centralizacion 2 Mediana Muestral m : Es el valor central de los datos V Discreta Datos agrupados Paso 1: Se escoge el intervalo mediano Paso 2: Se interpola
P: Si alguien introduce un valor falso muy grande en los datos quien es mas sensible? Nota 1: La mediana es mas robusta que la media P: Cual es más facil de calcular? Nota 2: La mediana exige un esfuerzo computacional mas alto
3.2 Medidas de Dispersión: V Discreta Mínima 1 Cuartil Q1: Es el valor que deja el 25% de los datos debajo de el (La mediana de la primera mitad de los datos) 2 Cuartil Q2: Mediana 3 Cuartil Q3:Es el valor que deja el 75 % de los datos debajo de el. Máxima Percentil p: Es el valor que deja el p% de los datos debajo de el. Agrupados: Se argumenta como en el caso de la mediana Nota 3: El cálculo de los cuartiles es ligeramente distinto en cada software
V Discreta Varianza: Medidas de dispersión 2 Desviacion típica: Nota 4 En diversos textos se divide por n-1. Razon N-1 grados de libertad Los cuadrados se hacen para que si s=0 no hay dispersion La desviación típica no es robusta La formula sencilla se deduce del binomio de Newton Agrupados: Se supone que existen n_i copias de x_i como en el caso de la media
4 Representaciones gráficas 4.1 Diagrama de tallos y hojas 1. Se redondean los datos a un número conveniente de cifras significativas 2.Colocan en una tabla con dos columnas separadas por una linea de la Siguiente forma a) Todas las cifras menos la ultima se escriben a la izquierda de la linea (tallo) b) La ultima cifra se escribe a la derecha (es la hoja) 3. Cada tallo define una clase. El numero de hojas representa la frecuencia de Dicha clase
4 Representaciones gráficas 4.2 Diagrama de cajas y bigotes (box-plot) (Simple) 1 Un rectángulo vertical (caja) que comienza en Q1 y termina en Q3 y tiene una linea central en M 2 Dos lineas que unen la caja con el mínimo y el máximo (Bigotes) Rango Intercuartílico = R.I= Q3-Q1 4.2 Con Datos atípicos Límite admisible inferior = L.I= Q1-1.5 (R.I) Límite admisible superior = L.S=Q3+1.5 (R.I) Datos atipicos: Los que están fuera del intervalo (L.I, L.S) 2 Dos lineas que unen la caja con el mínimo y el maximo en (L.I,L.S) 3. Se señalan los datos atípicos
4 Representaciones gráficas 4.3 Histogramas Disponemos los datos agrupados en k intervalos cada uno con anchura a_i, i=1.j. El histograma consiste en construir sobre cada intervalo un Rectangulo cuya area represente la frecuencia (absoluta o relativa) de dicho Intervalo. De este modo si pensamos por ejemplo en frecuencias absolutas, la altura h_i de cada rectangulo seria Area ni ah i i h i n a i i
Qué observar de una distribución? Variabilidad Datos atípicos Simetría Modalidad (Histogramas) Normalidad