Dpto. Producción Animal Universidad de Córdoba

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Dpto. Producción Animal Universidad de Córdoba"

Transcripción

1 PRINCIPIOS DEL ANÁLISIS DE DATOS Prof Dr José Perea Prof. Dr. José Perea Dpto. Producción Animal Universidad de Córdoba

2 PRINCIPIOS DEL ANÁLISIS DE DATOS 1. Tipos y medición de variables 2. Estadística descriptiva 3. Tablas de correlación y contingencia 4. Construcción y manejo de una base de datos 5. Caso práctico

3 variables - Variable. Característica ti de cada caso (explotación, animal, ganadero, etc.) de una base de datos. - Variable viene de variar, porque varía encada caso. - Cada caso tiene un valor para cada variable. - Por ejemplo, a las explotaciones se las puede describir respecto a características como: superficie, capital, trabajadores, antigüedad, especies explotadas, etc. - Medir es el proceso de asociación de números o símbolos a determinadas características de los objetos (explotaciones, animales, etc.) según reglas preestablecidas.

4 variables - Escala. Conjunto de valores que puede tomar una variable. - Superficie: 0 a miles de ha - Capital: 0 a miles de euros - Trabajadores: 0 a cientos - Antigüedad: 0 a décadas - Especies explotadas: b, o, c, p, e - Pero también: - Superficie: pequeña, mediana, grande - Antigüedad: antigua, reciente, moderna

5 variables - Definir i y medir bien las variables es fundamental para el éxito de la investigación. - Errores en la definición i ió oen la medición ió hacen que todos los análisis e interpretaciones posteriores sean erróneas. - Hay variables fáciles de definir: superficie, especie explotada - Otras habría que matizarlas: trabajadores, estado civil del ganadero Otras hay que definirlas muy bien: dependencia de las - Otras hay que definirlas muy bien: dependencia de las subvenciones, adecuación de la estructura productiva

6 variables - Las escalas de las variables determinan qué análisis i se pueden desarrollar. - Por ejemplo: Establecer una relación de dependencia entre el resultado neto de la explotación y su dimensión. - Si medimos RN en y Superficie en ha podemos hacer una regresión lineal. - Si medimos RN en (pérdidas o ganancias) podemos hacer una regresión logística multinominal. - Hay 4 escalas clásicas, aunque actualmente quedan debates pendientes de resolver: nominal, ordinal, de intervalo y de razón.

7 variables Escala nominal. Los valores son etiquetas. t - Se pueden utilizar nombres, letras, etc. Por ejemplo, las especies explotadas: o, c, b, p,e. - También números: 0=1, c=2, b=3, p=4 y e=5, aunque no se pueden establecer jerarquías: 0=1=2=3=4=5 - Los valores son categorías, son diferentes por una cualidad, no por una cantidad - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden calcular estadísticos como: recuento de frecuencias, moda y tablas de contingencia (no hay media ni varianza)

8 variables Escala ordinal. Los valores son etiquetas t ordenadas. d - Se utilizan números que codifican a las categorías. - Por ejemplo, la preferencia del ganadero por 4 modelos de tractores: A=1; B=2; C=3; D=4 - Se pueden establecer jerarquías: 1<2<3<4 - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - CUIDADO: los valores siguen siendo categorías, son diferentes por una cualidad, no por una cantidad, es decir: - El tractor D le gusta más que C y que A; pero no le gusta 4 veces más D que A (aunque 4 1 = 3 ) - Se pueden calcular, además de lo anterior, la mediana y los percentiles

9 variables Escala de intervalo. - Los valores son números cuyas diferencias tienen sentido. - La escala es arbitraria. - Por ejemplo, la temperatura en ºC - Se pueden establecer jerarquías y diferencias, pero no razones. - Se pueden calcular todos los estadísticos menos los basados en ratios, como el coeficiente de variación.

10 variables Escala de razón. - Los valores son números cuyas diferencias y razones tienen sentido. - La escala no es arbitraria, es absoluta. - Por ejemplo, la temperatura en ºK o el número de vacas - No hay restricciones en el cálculo de estadísticos

11 variables - Variables no métricas (cualitativas): ti nominalesyordinales l - Variables métricas (cuantitativas): de intervalo y de razón - Intervalo: número de valores que puede tomar la variable entre dos valores - Finito: variables discretas, p.e. Número de propietarios - Infinito: variables continuas, p.e. Superficie

12 Estadística descriptiva Introducción. - Inicialmente los datos de una variable no nos dicen nada - Es necesario resumir la información que contiene - Hay 3 aspectos clave: posición, dispersión y forma - Cada técnica de estadística descriptiva resume alguno de estos aspectos de interés de la variable Por ejemplo: Para conocer la actitud de los ganaderos bovinos ecológicos sobre el posible cesede las ayudas en 2013 se plantea una encuesta de n ganaderos: opinión sobre el cese de las ayudas Variable: escala ordinal 1 a 9 (1 total desacuerdo, 9 total acuerdo)

13 Estadística descriptiva Expresar las frecuencias en porcentajes y porcentajes acumulados X f fr % %a 1 6 0, , ,33 11, , , , , , , , ,67 82, ,0933 9, , , Total

14 Estadística descriptiva Distribución de frecuencias. - Indican la forma de dispersión de los datos de una variable. - Se puede expresar en tablas de frecuencias o en histogramas. - Si la escala es muy amplia se pueden agrupar en clases, p.e. - Ejemplo anterior: adversos al cambio (1 a 3) indiferentes (4 a 6) favorables al cambio (7 a 9) - Dimensión: pequeñas (menos de 10) mediana (10 a 20) grandes (20 a 30) muy grandes (más de 30)

15 Estadística descriptiva - Se suelen elegir como n - Las clases suelen ser de 4 a 20 - Deben tener amplitud uniforme - Ojo, suponen pérdida de información - Se representan: [L i,l j ]aunqueseutilizalamarcadeclasex i (valor central del intervalo: Ii Xi ni fi Ni Fi [L o, L 1 ] x 1 n 1 f 1 =n 1 /N N 1 =n 1 F 1 =N 1 /N [L 1,L 2 ] x 2 n 2 f 2 =n 2 /N N 2 =n 1 +n 2 F 2 =N 2 /N [L 2,L k ] x k n k f k =n k /N N k =N F k =1 Σn i =N Σf i =1 marca de clase

16 Estadística descriptiva - Histogramas: 40 Histogram for Subvenciones frequ uency Subvenciones

17 Estadística descriptiva - Histogramas: 150 Histogram for Subvenciones frequ uency Subvenciones

18 Estadística descriptiva Medidas de posición. - Resumen un valor central. - Diferentes valores centrales. - Media aritmética: suma de todos los valores dividido por el número total de datos. - Media geométrica: raíz enésima del producto de todos los valores de la distribución. - Se usa para promediar variables de variaciones acumulativas (porcentajes, tasas, índices, etc.) - No con valores=0 ni negativos

19 Estadística descriptiva - Mediana: valor central de la distribución. Si la distribución es par, la media aritmética de los dos valores centrales. - Moda: valor de la distribución que más se repite. - Cuartiles: 4 intervalos que dividen la distribución en el 25%. - Deciles: intervalos que dividen la distribución en el 10%. - Percentiles: intervalos que dividen la distribución en el 1%. Por ejemplo: Para conocer el resultado neto de la actividad bovina ecológica de leche se plantea una encuesta de 200 ganaderos: resultado neto Variable: escala de razón ( ) - miles de euros a + miles de euros

20 Estadística descriptiva Scatterplot for RN ,6-0,2 0,2 0,6 1 (X ) RN

21 Estadística descriptiva Frequency Tabulation for RN Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency at or below ,0 0 0, , , , ,7 6 0, , , , ,0 9 0, , , , ,3 7 0, , ,0-3333, ,7 17 0, , , , , , , , , ,7 28 0, , , , ,3 42 0, , , , ,0 21 0, , , , ,0 0 0, ,0000 above ,0 0 0, ,

22 Estadística descriptiva Medidas de dispersión. - Indican la representatividad de una medida de posición. - Para lo que cuantifican la distancia de los diferentes valores de la distribución respecto a dicha medida. - Esa distancia es la variabilidad. - Por ejemplo, una media será más representativa del comportamiento de una variable cuanto más cerca de ella se distribuyan los valores. - Generalmente acompañan una o dos medidas de dispersión a las medidas de posición para referenciar la representatividad. - Pueden ser absolutas o relativas según dependan o no de las unidades de medida.

23 Estadística descriptiva Medidas de dispersión absolutas no referentes a promedios. - Recorrido: diferencia entre el valor máximo y el mínimo. - Recorrido intercuartílico: Idem pero entre el 3 y 1 cuartil. Medidas de dispersión relativas no referentes a promedios. - Coeficiente de apertura: cociente entre el valor máximo y el mínimo. - Recorrido relativo: cociente entre el recorrido y la media. - Recorrido semiintercuartílico: cociente entre el recorrido - Recorrido semiintercuartílico: cociente entre el recorrido intercuartílico y la suma del primer y tercer cuartil.

24 Estadística descriptiva Medidas de dispersión referentes a promedios. Miden el error que se comete al utilizar el promedio en cuestión. Medidas de dispersión absolutas referentes a promedios. - Desviación media: media aritmética de las desviaciones de cada valor con la media de la distribución en valor absoluto. - Desviación respecto a la mediana: idem pero con la mediana. - Varianza: igual que la desviación media pero con las desviaciones al cuadrado. - Desviación típica: la raíz cuadrada de la varianza. - Error estándar: cociente entre la desviación típica y n.

25 Medidas de dispersión relativas referentes a promedios. Estadística descriptiva - Coeficiente de variación: cociente entre la desviación típica y la media aritmética. - Muy útil para comparar medias de variables con diferentes unidades - Se suele expresar en porcentaje

26 Estadística descriptiva Summary Statistics for RN Count = 200 Average = 21678,6 Median = 13709,5 Mode = Geometric mean = Variance = 1,96557E9 Standard deviation = 44334,7 Standard error = 3134,94 Minimum = ,0 Maximum = 98863,0 Range = ,0 Lower quartile = 838,5 Upper quartile = 57540,0 Interquartile range = 56701,5 Coeff. of variation = 204,509%

27 Estadística descriptiva Box-and-Whisker Plot -1-0,6 06-0, ,2 06 0,6 1 (X ) RN

28 Estadística descriptiva Medidas de forma. - Se basan en la representación gráfica de la variable sin llegar a representarla. - Corrigen el error de la medida de posición. - Medidas de asimetría. - Si existe el mismo número de valores a ambos lados de la media. - Si estos valores son equidistantes dos a dos y su frecuencia es la misma. - Coeficiente de Fisher: =0, simétrica; <0 asimétrica -; >0 asimétrica + - Fisher estandarizado. - Pearson. - Bowley.

29 Estadística descriptiva - Medidas de curtosis. - Estudian la distribución de frecuencias en la zona central. - Es decir, si la distribución es más o menos apuntada. - Es necesario definir previamente una distribución tipo. - Generalmente la normal. - Coeficiente de curtosis. =0, mesocúrtica, <0, platicúrtica, >0, leptocúrtica - de curtosis estandarizado.

30 Estadística descriptiva Summary Statistics for RN Co nt 200 Count = 200 Skewness = -0, Stnd. skewness = -2,75528 Kurtosis = 0, Stnd. kurtosis = 0,17347

31 Estadística descriptiva ( 10000) n(x 12 distan nce ab bove median Symmetry Plot for RN (X 10000) distance below median

32 correlación y contingencia Tablas de correlación y contingencia. - Distribuciones bidimensionales. - Se consideran simultáneamente dos características (variables) de la misma muestra. - Para variables cualitativas: tablas de contingencia. - Para variables cuantitativas: tablas de correlación. - Ejemplo: peso y alzada a la cruz; superficie y tamaño del rebaño

33 correlación y contingencia Tablas de correlación. - Sea una muestra estudiada simultáneamente según dos variables: XeY. - Genéricamente: x i ;y j ;n ij, donde x i ;y j son dos valores cualesquiera y n ij es la frecuencia absoluta conjunta del valor i-ésimo de X con el j- ésimo de Y. - Se representa como tabla de doble entrada: y1 y2... yj... ni. fi. x1 n11 n12... n1j... n1. f1. x2 n21 n22... n2j... n2. f xi ni1 ni2... nij... ni. fi n.j n.1 n.2... n.j... N f.j f.1 f.2... f.j... 1

34 correlación y contingencia Tipos de distribuciones. - Distribución conjunta. - Distribuciones marginales. - Distribuciones condicionadas. su per fi cie v ,28 a ,19 c ,23 a , ,18 0,26 0,24 0,32 1

35 correlación y contingencia Distribución conjunta. - Frecuencia absoluta conjunta. Número de veces que (x i ;y j ) aparece ordenado: n ij - Frecuencia relativa conjunta. Cociente entre la frecuencia absoluta conjunta y el total de observaciones (f ij ) - Se cumple: - La suma de todas las frecuencias absolutas conjuntas = n - La suma de todas las frecuencias relativas conjuntas = 1

36 correlación y contingencia su per fi cie v ,28 a ,19 c ,23 a , ,18 0,26 0,24 0,32 1

37 correlación y contingencia Distribuciones marginales. - Sólo se tiene en cuenta una de las variables. - Frecuencia absoluta marginal. Número de veces que (x i ; ) aparece sin tener en cuenta el valor de y: n i. - Frecuencia relativa marginal. Cociente entre la frecuencia absoluta marginal y el total de observaciones (f i.) - Se cumple: - La suma de todas las frecuencias absolutas marginales = n - La suma de todas las frecuencias relativas marginales = 1

38 correlación y contingencia Distribuciones condicionadas. - Sólo se tiene en cuenta una fila o una columna, como si fuera una nueva muestra. y1 y2... yj... ni. fi. x1 n11 n12... n1j... n1. f1. x2 n21 n22... n2j... n2. f xi ni1 ni2... nij... ni. fi n.j n.1 n.2... n.j... N f.j f.1 f.2... f.j... 1

39 correlación y contingencia Covarianza. - Mide la forma en que varía conjuntamente dos variables X e Y - En el estudio conjunto de dos variables, interesa es saber si existe algún tipo de relación entre ellas (S xy ). - Lo importante no es la magnitud, sino su signo: - Si S<0 Y decrece si X crece - Si S>0 Y crece con X - Si S=0 Y es independiente linealmente de X

40 correlación y contingencia Covarianza. - S xy = *127 = Lo importante no es la magnitud, sino su signo: - Si S<0 Y decrece si X crece - Si S>0 Y crece con X - Si S=0 Y es independiente linealmente de X

41 correlación y contingencia Dependencia. - Independencia - Dependencia funcional - Dependencia estadística Existe dependencia cuando los valores de una distribución condicionan a los de la otra (X,Y)

42 correlación y contingencia Independencia. - Dos variables son independientes entre si cuando una de ellas no influye en la distribución de la otra condicionada por el valor que adopte la primera. - La condición necesaria y suficiente para que X e Y sean independientes es: - Si X es independiente de Y, las frecuencias relativas condicionadas X/Y j son idénticas a las respectivas frecuencias relativas marginales de X. - Si X es independiente de Y, Y es independiente de X. - Si X e Y son 2 variables independientes, su covarianza es cero; pero p, ; p la covarianza de 2 variables puede tomar valor cero, y no ser independientes.

43 correlación y contingencia Dependencia funcional. - Existe una relación matemática exacta entre ambas variables. - La variable X depende de Y si a cada modalidad y j de Y corresponde una única modalidad posible de X. - Por tanto, cualquiera que sea j, la frecuencia absoluta n ij vale cero j salvo para un valor de i correspondiente a una columna j. - La dependencia de X respecto de Y no implica que Y dependa de X. - Para que la dependencia sea recíproca, los caracteres X e Y deben presentar el mismo número de modalidades y en cada fila como en cada columna de la tabla debe haber uno y solo un término diferente de cero.

44 correlación y contingencia Dependencia funcional. su per fi cie v ,04 a ,06 c ,07 a , ,19 0,04 0,06 0,07 0,03 0,19

45 correlación y contingencia Dependencia funcional. su per fi cie v ,04 a ,1 c ,07 a ,2 0,04 0,06 0,07 0,06 0,22

46 correlación y contingencia Dependencia estadística. - Existe relación matemática no exacta entre ambas variables. - La regresión estudia la dependencia. - La correlación estudia el grado de dependencia. - Regresión: - Una de las variables influye sobre la otra y la regresión tiene por objetivo descubrir el modo en que se relacionan. - En la mayoría de los casos la relación entre las variables es mutua, y es difícil saber qué variable influye sobre la otra. - Ejemplos: - Peso y alzada a la cruz - Superficie y número de vacas

47 correlación y contingencia - X = variable independiente (superficie) - Y = variables dependiente (número de vacas) X Superficie Y Vacas El problema de encontrar una relación entre dos variables es muy complejo, ya que existen infinidad de funciones de formas distintas. - El caso más sencillo de relación entre dos variables es la relación LINEAL: Y = a + bx Y (vacas s) X (superficie)

48 correlación y contingencia - Para cada dato de X (xi, superficie) hay emparejado un dato de Y (yi, vacas). - También está el valor de Y (y*i) predicho por las diferentes ecuaciones. - El error de cada ecuación: e = (yi y*i) - Se escoge la recta que minimice la suma de los cuadrados de todos los errores, que es la misma que minimiza la varianza de los errores. Y (vacas) y = 6,0648x + 4, X (superficie)

49 correlación y contingencia - Correlación lineal: - Mide la fuerza de la relación lineal entre dos variables X e Y. - R o coeficiente de correlación lineal de Pearson. - Si: - R=1, correlación perfecta positiva entre X e Y - R=-1, correlación perfecta negativa - R=0, no existe correlación lineal (puede existir otro tipo de relación) - 0<R<1, correlación positiva y dependencia directa - -1<R<0, correlación negativa y dependencia inversa

50 correlación y contingencia - Relación entre la regresión lineal y el coeficiente de correlación: - Si X e Y están relacionadas linealmente, parte de la variabilidad de la variable Y, vendrá explicada por variaciones de X (variabilidad explicada por el modelo). - El resto responderá a variaciones de fenómenos relacionados con la variable Y o con el azar (variabilidad no explicada por el modelo). - R 2 es el porcentaje de la variabilidad de la variable explicada que se debe a la variabilidad de la variable explicativa (coeficiente de determinación lineal). - El signo del coeficiente de correlación lineal será el mismo que el de la covarianza.

51 correlación y contingencia Y (vacas) y = 6,0648x + 4,537 R 2 = 0, X (superficie)

52 correlación y contingencia Distribuciones de más de dos dimensiones. - Matriz de covarianzas - Matriz de correlaciones - Matriz de correlaciones parciales

53 correlación y contingencia Matriz de covarianzas. - Resume las covarianzas para todos los posibles pares de variables. S 11 S 12 S S 1n S 21 S 22 S S 2n C = S n1 S n2 S n3... S nn

54 correlación y contingencia Matriz de correlaciones. - Resume las correlaciones para todos los posibles pares de variables. r 11 r 12 r r 1n r 21 r 22 r r 2n R = r n1 r n2 r n3... r nn

55 correlación y contingencia Matriz de correlaciones parciales - Resume las correlaciones para todos los posibles pares de variables, teniendo en cuenta la posible influencia del resto de variables. r 11 r 12 r r 1n r 21 r 22 r r 2n P = r n1 r n2 r n3... r nn

56 correlación y contingencia Con Statgrafics: Correlations NHT NVAC RN NHT 0,4957 0,3642 ( 12) ( 12) 0,1013 0,2444 NVAC 0,4957-0,4641 ( 12) ( 12) 0,1013 0,1285 RN 0,3642-0,4641 ( 12) ( 12) 0,2444 0,

57 correlación y contingencia Tablas de contingencia. - 2 variables cualitativas o al menos una cualitativa. Tabla de doble entrada con una variable en las filas y otra en las columnas. - En las celdas resultantes del cruce de las filas y las columnas se incluye el número de elementos de la distribución que presentan ambas modalidades. - Distribuciones absolutas, marginales y condicionadas y1 y2... yj... ni. fi. x1 n11 n12... n1j... n1. f1. x2 n21 n22... n2j... n2. f xi ni1 ni2... nij... ni. fi n.j n.1 n.2... n.j... N f.j f.1 f.2... f.j... 1

58 correlación y contingencia Asociación de variables cualitativas. - 2 variables son independientes si el producto de sus frecuencias relativas es igual a la frecuencia relativa conjunta. - Sinosecumple, ambas variables son dependientes: El valor n es la frecuencia absoluta conjunta teórica que existiría si - El valor n ij es la frecuencia absoluta conjunta teórica que existiría si los 2 atributos fuesen independientes y n ij es la frecuencia absoluta conjunta observada.

59 correlación y contingencia Asociación de variables cualitativas. - Coeficiente de contingencia: varía de cero a altas magnitudes - Coeficiente de contingencia de Pearson: varía entre 0 y 1

60 correlación y contingencia Asociación de variables cualitativas. - Coeficiente lambda. - Coeficiente V de cramer. - Coeficiente i T de Th Tshuprow. - Chi cuadrado.

61 supuestos básicos Condiciones i deaplicabilidad. d - Normalidad - Homocedasticidad

62 supuestos básicos Normalidad. d - Cuando se pretende comprobar una hipótesis se pueden cometer 2 errores: - Error tipo 1 (α): probabilidad de equivocarnos al rechazar la hipótesis (normalmente se elige 0,05) 05) - Error tipo 2 (β): probabilidad de equivocarnos al aceptar la hipótesis (1- β: potencia del contraste) - El investigador quiere pruebas potentes y valores α pequeños. Si las variables no son normales multivariantes el error tipo 1 se incrementa.

63 Normalidad. supuestos básicos - Estudiar la asimetría y curtosis de la variable (si la variable está tipificada, la asimetría es cero y la curtosis 3) - Exploración gráfica con gráficos Q-Q - Contrastes de normalidad 3 0

64 supuestos básicos Contrastes t de normalidad: d - Todos tienen como hipótesis nula la normalidad de la distribución ib ió - Cada uno tiene su utilidad - Shapiro Wilk funciona bien con muestras pequeñas - El más habitual es Kolmogorov-Smirnov - En muestras pequeñas es mejor ser conservador con el nivel de significación

65 supuestos básicos Con Statgraphics: t Computed Chi-Square goodness-of-fit statistic = 116,48 P-Value = 1,92957E Shapiro-Wilks W statistic = 0, P-Value = 5,58428E E Z score for skewness = 1,91137 P-Value = 0, Z score for kurtosis = 0, P-Value = 0,744192

66 supuestos básicos Exploración gráfica Q-Q: Q (sólo para más de 20 casos) Quantile-Quantile Plot NH HT Normal distribution

67 Homoscedasticidad: supuestos básicos - En datos agrupados, la homoscedasticidad significa que la varianza de la variable continua es estadísticamente la misma en todos los grupos que la variable no métrica delimita los grupos. - El contraste es si la varianza es la misma - Por ejemplo: - Variable continua: superficie i (ha) - Variable no métrica: especie (0=ovino, 1=caprino) - Dentro de los grupos 0 y 1, la varianza de la superficie debe ser estadísticamente la misma

68 supuestos básicos - Contraste t de Levene (hipótesis i nula: la varianza de la variable X es igual en todos los niveles que forma la variable Z)

69 valores perdidos y outliers Valores perdidos y anómalos: fiabilidad de los datos de partida

70 valores perdidos y outliers Valores perdidos: - La existencia de valores perdidos es inevitable si se trabaja con encuestas. - El ganadero no quiere declarar si tiene préstamo - Se anota una cantidad en una casilla equivocada - La cuantía de las ayudas aún no se conoce para el ejercicio en concreto, etc. - La consecuencia depende de su patrón de distribución, de la cantidad de valores y de la causa de pérdida. - Lo más importante es su distribución: si es aleatoria no causará muchos daños, si tiene un patrón será muy dañino.

71 valores perdidos y outliers Por ejemplo: Opinión de los ganaderos sobre las políticas sectoriales: V1 = las ayudas perjudican el libre comercio V2 = no deben aplicarse aranceles europeos V3 = a la UE le interesa poco el medio ambiente V4 = deben disminuir las ayudas V5 = ganadero ecológico (1) o convencional (2)

72 Caso V1 V2 V3 V4 V4* V5 V valores perdidos y outliers

73 valores perdidos y outliers V4 = deben disminuiri i las ayudas N Min Max Med D.E. V ,92 1,53 V4* ,43 1,37

74 valores perdidos y outliers Diagnóstico de aleatoriedad de los valores perdidos: - Procedimiento basado en la lógica de la investigación: - Si el patrón es sistemático (no aleatorio), el comportamiento de la variable con valores perdidos debe ser diferente respecto a otras variables sin valores perdidos. - El investigador deberá comprobar qué variables se comportan de manera distinta a posteriori. - Si no existen variables distintas a posteriori, hayque asumir la aleatoriedad de los valores perdidos.

75 valores perdidos y outliers - Se realiza una prueba t para muestras independientes: di - A partir de la variable a analizar se crea otra ficticia, i codificada d con 0=hay dato; 1=dato faltante - Se desarrolla la prueba t con otra variable sin datos faltantes (variable dependiente) según la variable ficticia (factor) - Si las medias son significativamente diferentes, la distribución sigue un patrón sistemático

76 valores perdidos y outliers En el ejemplo: Prueba t con V2 Caso V1 V2 V3 V4 V4* V5 V V4(COD) V4*(COD)

77 valores perdidos y outliers En el ejemplo: Prueba t con V2 V4(COD) V4*(COD) 1 0 t 1 0 t V2(media) 3,96 3,83 0,23 4,30 2,71-3,95* Luego, la distribución de los valores perdidos de V4 es aleatoria, mientras que V4* sigue un patrón sistemático

78 valores perdidos y outliers Diagnóstico de aleatoriedad d de los valores perdidos: - Prueba de las correlaciones dicotomizadas : - Procedimiento basado en la coincidencia significativa entre los casos concretos en que las variables toman un valor perdido. - Las variables con casos perdidos se transforman en variables ficticias codificadas: 0=valor perdido, 1=hay dato - Se calcula la matriz de correlaciones - Si hay correlación significativa entre las variables ficticias estamos ante un posible patrón significativo

79 valores perdidos y outliers En el ejemplo: V4(COD) V4*(COD) V2(COD) V4(COD) 1 0,118 (0,53) -0,19 (0,29) V4*(COD) 0,18 (0,53) 1 0,71 (0,00)* V2(COD) -0,19 (0,29) 0,71 (0,00)* 1 Luego, la distribución de los valores perdidos de V4 es Luego, la distribución de los valores perdidos de V4 es aleatoria, mientras que V4* sigue un patrón sistemático

80 valores perdidos y outliers Tratamiento t de los valores perdidos: - Si los valores siguen un patrón: - Grave problema - No hay medios estadísticos conocidos para reducir el número de valores perdidos - No es posible generalizar los resultados - Si los valores son aleatorios: - Problema menor con dos opciones: - Eliminar todos los casos con un valor perdido - Imputar un valor estimado

81 valores perdidos y outliers - Eliminari todos los casos con un valor perdido: - Procedimiento por defecto en los programas estadísticos ti - Se corre el riesgo de perder mucha información - Especial cuidado en los análisis basados en análisis de varianzas-covarianzas, correlaciones - Se puede eliminar selectivamente en cada análisis sólo los casos con datos faltantes en una de las variables implicadas - Aunque esto genera problemas por el continuo cambio de tamaño muestral

82 - Imputar valores en los datos perdidos: - Lo más utilizado es imputar la media: - Procedimiento conservador valores perdidos y outliers - La media no cambia pero la varianza se reduce

83 - Imputar valores en los datos perdidos: - Como método alternativo, la regresión: valores perdidos y outliers - Como variable dependiente se usa la variable con datos perdidos y como variables independientes se usan el resto de las variables con todos los datos - Deben ser todas variables métricas - Método más razonable que la media, aunque: - Las estimaciones serán más coherentes con las variables independientes que los valores reales - La varianza también se reduce - Sólo si las estimaciones pertenecen al rango de la variable (por ejemplo, V4 no puede ser 7)

84 valores perdidos y outliers Valores atípicos (outliers): - Aquellos casos que una, dos o más variables toman valores extremos que difieren del comportamiento del resto de la muestra y hacen sospechar de que han sido generados por mecanismos distintos. - Consecuencias: - Distorsionan los resultados - Suelen afectar a la normalidad

85 Valores atípicos (outliers): - Causas: valores perdidos y outliers - Errores en los datos (recogida e introducción) - Errores intencionados por parte del encuestado - Errores de muestreo (introducir i en la muestra un individuo que no pertenece a la población) - Outliers verdaderos: casos que pertenecen a la población objeto de estudio y que realmente difieren del resto por la variabilidad inherente

86 Detección de valores atípicos - Univariante - Bivariante - Multivariante valores perdidos y outliers

87 Detección univariante de valores atípicos valores perdidos y outliers - Considerar atípicos aquellos casos cuyos valores estandarizados (media = 0 y desviación típica = 1) superen el siguiente i umbral (k): - N < 80 2,5 - N > 80 3o4 - Si la variable sigue una distribución normal 3 (x ) =(x i x)/s x x < x + ks x - Test de Grubbs

88 valores perdidos y outliers ,5 1,5 2 2,5 0 0, , ,

89 Qué hacer con los valores atípicos? valores perdidos y outliers - Si es un error evidente es conveniente corregirlo o eliminarlo - Error en la introducción de los datos: buscar el original y corregirlo - Error en el registro: - Volver a encuestar el caso en cuestión - Si no se puede (p.e. la encuesta es anónima) cambiarlo por el valor medio

90 Qué hacer con los valores atípicos? valores perdidos y outliers - Si es un outlier verdadero o no se puede descartar que no lo sea: - Algunos autores consideran correcto su eliminación para que los análisis reflejen la tendencia mayoritaria de la población - Otros consideran que la eliminación no se debe hacer: - Suavizar su influencia con transformaciones (aunque dificulta la interpretación de los resultados) - Utilizar contrastes no paramétricos (son más robustos)

91 BIBLIOGRAFÍA Técnicas estadísticas con SPSS César Pérez. Editorial Prentice Hall. ISBN: A áli i lti i t li d 2005 E i l Ui l Análisis multivariante aplicado Ezequiel Uriel y Joaquín Aldás. Editorial Thomson. ISBN:

Módulo de Estadística

Módulo de Estadística Módulo de Estadística Tema 2: Estadística descriptiva Tema 2: Estadísticos 1 Medidas La finalidad de las medidas de posición o tendencia central (centralización) es encontrar unos valores que sinteticen

Más detalles

478 Índice alfabético

478 Índice alfabético Índice alfabético Símbolos A, suceso contrario de A, 187 A B, diferencia de los sucesos A y B, 188 A/B, suceso A condicionado por el suceso B, 194 A B, intersección de los sucesos A y B, 188 A B, unión

Más detalles

Fase 2. Estudio de mercado: ESTADÍSTICA

Fase 2. Estudio de mercado: ESTADÍSTICA 1. CONCEPTO DE ESTADÍSTICA. ESTADÍSTICA DESCRIPTIVA 2. 3. TABLA DE FRECUENCIAS 4. REPRESENTACIONES GRÁFICAS 5. TIPOS DE MEDIDAS: A. MEDIDAS DE POSICIÓN B. MEDIDAS DE DISPERSIÓN C. MEDIDAS DE FORMA 1 1.

Más detalles

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua ESTADÍSTICA Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal Cuantitativa discreta continua DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta: fi Frecuencia relativa:

Más detalles

Estadística Inferencial. Estadística Descriptiva

Estadística Inferencial. Estadística Descriptiva INTRODUCCIÓN Estadística: Ciencia que trata sobre la teoría y aplicación de métodos para coleccionar, representar, resumir y analizar datos, así como realizar inferencias a partir de ellos. Recogida y

Más detalles

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada. ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos

Más detalles

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo U.D.1: Análisis estadístico de una variable Consideraciones iniciales: - Población: Es el conjunto de todos los elementos que cumplen una determinada característica. Ej.: Alumnos del colegio. - Individuo:

Más detalles

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández El método incluye diferentes elementos Justificación Planteamiento del problema

Más detalles

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0 Ignacio Martín Tamayo 11 Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0 ÍNDICE ------------------------------------------------------------- 1. Introducción 2. Frecuencias 3. Descriptivos 4. Explorar

Más detalles

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón Metodología de Investigación Tesifón Parrón Contraste de hipótesis Inferencia Estadística Medidas de asociación Error de Tipo I y Error de Tipo II α β CONTRASTE DE HIPÓTESIS Tipos de Test Chi Cuadrado

Más detalles

Estadística descriptiva y métodos diagnósticos

Estadística descriptiva y métodos diagnósticos 2.2.1. Estadística descriptiva y métodos diagnósticos Dra. Ana Dorado Díaz Consejería de Sanidad Diplomado en Salud Pública Diplomado en Salud Pública - 2 Objetivos específicos 1. El alumno aprenderá a

Más detalles

TÉCNICAS MULTIVARIANTES. 1. Introducción 2. Clasificación de las técnicas 3. Etapas de análisis 4. Supuestos básicos 5. Valores perdidos y anómalos

TÉCNICAS MULTIVARIANTES. 1. Introducción 2. Clasificación de las técnicas 3. Etapas de análisis 4. Supuestos básicos 5. Valores perdidos y anómalos TÉCNICAS MULTIVARIANTES 1. Introducción 2. Clasificación de las técnicas 3. Etapas de análisis 4. Supuestos básicos 5. Valores perdidos y anómalos introducció Definición. - Conjunto de métodos estadísticos

Más detalles

Temas de Estadística Práctica

Temas de Estadística Práctica Temas de Estadística Práctica Antonio Roldán Martínez Proyecto http://www.hojamat.es/ Tema 2: Medidas de tipo paramétrico Resumen teórico Medidas de tipo paramétrico Medidas de tendencia central Medidas

Más detalles

ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA Medidas de tendencia central y de dispersión Giorgina Piani Zuleika Ferre 1. Tendencia Central Son un conjunto de medidas estadísticas que determinan un único valor que define el

Más detalles

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO UNIVERSIDAD AUTONOMA DE SANTO DOMINGO FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES DEPARTAMENTO DE ESTADISITICA CATEDRA Estadística Especializada ASIGNATURA Estadística Descriptiva Para Psicólogos (EST-225)

Más detalles

ÍNDICE INTRODUCCIÓN... 21

ÍNDICE INTRODUCCIÓN... 21 INTRODUCCIÓN... 21 CAPÍTULO 1. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS... 23 1. ORGANIZACIÓN DE LOS DATOS... 23 1.1. La distribución de frecuencias... 24 1.2. Agrupación en intervalos...

Más detalles

DISTRIBUCIONES BIDIMENSIONALES

DISTRIBUCIONES BIDIMENSIONALES La estadística unidimensional estudia los elementos de un conjunto de datos considerando sólo una variable o característica. Si ahora incorporamos, otra variable, y se observa simultáneamente el comportamiento

Más detalles

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va Jesús Fernández Fernández Carmen María Sordo García DEPARTAMENTO DE MATEMÁTICA APLICADA Y CIENCIAS DE LA COMPUTACIÓN UNIVERSIDAD DE CANTABRIA

Más detalles

ANÁLISIS DE DATOS UNIDIMENSIONALES

ANÁLISIS DE DATOS UNIDIMENSIONALES ANÁLISIS DE DATOS UNIDIMENSIONALES TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS MEDIDAS DE POSICIÓN MEDIDAS DE TENDENCIA CENTRAL MEDIA ARITMÉTICA OTRAS MEDIAS: GEOMÉTRICA.ARMÓNICA.MEDIA GENERAL MEDIANA

Más detalles

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición... Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................

Más detalles

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS 1. INTRODUCCIÓN Este tema se centra en el estudio conjunto de dos variables. Dos variables cualitativas - Tabla de datos - Tabla de contingencia - Diagrama de barras - Tabla de diferencias entre frecuencias

Más detalles

Unidad Nº 3. Medidas de Dispersión

Unidad Nº 3. Medidas de Dispersión Unidad Nº 3 Medidas de Dispersión 1.-Definición.- Las medidas de tendencia central nos enseñaban a localizar el centro de la información en una serie de observaciones o distribución, pero no a realizar

Más detalles

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24 Comenzado el lunes, 25 de marzo de 2013, 17:24 Estado Finalizado Finalizado en sábado, 30 de marzo de 2013, 17:10 Tiempo empleado 4 días 23 horas Puntos 50,00/50,00 Calificación 10,00 de un máximo de 10,00

Más detalles

MEDIDAS DE TENDENCIA CENTRAL

MEDIDAS DE TENDENCIA CENTRAL MEDIDAS DE TENDENCIA CENTRAL Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro

Más detalles

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016 ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una

Más detalles

Selección de fuentes de datos y calidad de datos

Selección de fuentes de datos y calidad de datos Selección de fuentes de datos y calidad de datos ESCUELA COMPLUTENSE DE VERANO 2014 MINERIA DE DATOS CON SAS E INTELIGENCIA DE NEGOCIO Juan F. Dorado José María Santiago . Valores atípicos. Valores faltantes.

Más detalles

Tema 2. Descripción Conjunta de Varias Variables

Tema 2. Descripción Conjunta de Varias Variables Tema 2. Descripción Conjunta de Varias Variables Cuestiones de Verdadero/Falso 1. La covarianza mide la relación lineal entre dos variables, pero depende de las unidades de medida utilizadas. 2. El análisis

Más detalles

Capítulo 6. Análisis bivariante de variables

Capítulo 6. Análisis bivariante de variables Contenidos: Capítulo 6 Análisis bivariante de variables Distribución bidimensional de frecuencias ( tabla de correlación o contingencia ) Distribuciones marginales Coeficientes de Asociación Análisis de

Más detalles

Estadística. Análisis de datos.

Estadística. Análisis de datos. Estadística Definición de Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un

Más detalles

ESTADÍSTICA SEMANA 3

ESTADÍSTICA SEMANA 3 ESTADÍSTICA SEMANA 3 ÍNDICE MEDIDAS DESCRIPTIVAS... 3 APRENDIZAJES ESPERADOS... 3 DEFINICIÓN MEDIDA DESCRIPTIVA... 3 MEDIDAS DE POSICIÓN... 3 MEDIDAS DE TENDENCIA CENTRAL... 4 MEDIA ARITMÉTICA O PROMEDIO...

Más detalles

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA MODELO DE REGRESIÓN LOGÍSTICA Introducción A grandes rasgos, el objetivo de la regresión logística se puede describir de la siguiente forma: Supongamos que los individuos de una población pueden clasificarse

Más detalles

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011 NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011 CÓMO CARACTERIZAR UNA SERIE DE DATOS? POSICIÓN- dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos CENTRALIZACIÓN-

Más detalles

Análisis de datos cualitativos

Análisis de datos cualitativos Capítulo Análisis de datos cualitativos DEFINICIÓN DE VARIABLES CUALITATIVAS Son aquellas variables cuyos valores son un conjunto de cualidades no numéricas a las que se llama categorías o modalidades.

Más detalles

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas: Ejercicio 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas: a) Marca de los coches. b) Peso de los coches. c) Número de coches vendidos

Más detalles

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION. Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION. Distribuciones uni- y pluridimensionales. Hasta ahora se han estudiado los índices y representaciones de una sola variable por individuo. Son las distribuciones

Más detalles

Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor

Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor Esquema (1) Análisis de la arianza y de la Covarianza ANOA y ANCOA 1. (Muestras independientes). () 3. Análisis de la arianza de Factores 4. Análisis de la Covarianza 5. Análisis con más de Factores J.F.

Más detalles

Medidas de centralización

Medidas de centralización 1 1. Medidas de centralización Medidas de centralización Hemos visto cómo el estudio del conjunto de los datos mediante la estadística permite realizar representaciones gráficas, que informan sobre ese

Más detalles

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO UNIVERSIDAD AUTONOMA DE SANTO DOMINGO FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES DEPARTAMENTO DE ESTADISITICA CATEDRA Estadística Especializada ASIGNATURA Estadística Industrial (EST-121) NUMERO DE CREDITOS

Más detalles

Bioestadística: Estadística Descriptiva

Bioestadística: Estadística Descriptiva Bioestadística: M. González Departamento de Matemáticas. Universidad de Extremadura Bioestadística 1 2 Bioestadística 1 2 Coneptos Básicos ESTADÍSTICA Ciencia que estudia el conjunto de métodos y procedimientos

Más detalles

Tema 1.- Correlación Lineal

Tema 1.- Correlación Lineal Tema 1.- Correlación Lineal 3.1.1. Definición El término correlación literalmente significa relación mutua; de este modo, el análisis de correlación mide e indica el grado en el que los valores de una

Más detalles

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL DEPARTAMENTO DE GEOGRAFÍA FACULTAD DE HUMANIDADES UNNE Prof. Silvia Stela Ferreyra Revista Geográfica Digital. IGUNNE. Facultad de Humanidades.

Más detalles

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17 Román Salmerón Gómez Universidad de Granada RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17 exacta: aproximada: exacta: aproximada: RSG Incumplimiento de las

Más detalles

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD Contrastes de hipótesis paramétricos para una y varias muestras: contrastes sobre la media, varianza y una proporción. Contrastes sobre la diferencia

Más detalles

2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual

2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual Prueba Escrita de matemática / Nivel: Sétimo año 1. Estadística - Unidad estadística - Características - Datos u observaciones - Población - Muestra - Variabilidad de los datos - Variables cuantitativas

Más detalles

MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA

MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA 1 UNIVERSIDAD NACIONAL EXPERIMENTAL DE LOS LLANOS OCCIDENTALES EZEQUIEL ZAMORA VICE-RECTORADO DE PLANIFICACIÓN Y DESARROLLO SOCIAL PROGRAMA CIENCIAS SOCIALES Y JURIDICAS SUBPROGRAMA ADMINISTRACIÓN SUBPROYECTO:

Más detalles

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012 NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012 Matilde Ungerovich- mungerovich@fisica.edu.uy DEFINICIÓN PREVIA: Distribución: función que nos dice cuál es la probabilidad de que cada suceso

Más detalles

Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m

Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m Ing. Eduardo Cruz Romero eduar14_cr@hotmail.com w w w. tics-tlapa. c o m La estadística es tan vieja como la historia registrada. En la antigüedad los egipcios hacían censos de las personas y de los bienes

Más detalles

El Análisis de Correspondencias tiene dos objetivos básicos:

El Análisis de Correspondencias tiene dos objetivos básicos: Tema 8 Análisis de correspondencias El Análisis de Correspondencias es una técnica de reducción de dimensión y elaboración de mapas percentuales. Los mapas percentuales se basan en la asociación entre

Más detalles

Teorema Central del Límite (1)

Teorema Central del Límite (1) Teorema Central del Límite (1) Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadístico. La distribución de los valores que puede tomar un estadístico

Más detalles

Medidas de dispersión

Medidas de dispersión Medidas de dispersión Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución. Las medidas de dispersión son: Rango o recorrido El rango es la diferencia

Más detalles

A qué nos referimos con medidas de dispersión?

A qué nos referimos con medidas de dispersión? Estadística 1 Sesión No. 4 Nombre: Medidas de dispersión. Contextualización A qué nos referimos con medidas de dispersión? En esta sesión aprenderás a calcular las medidas estadísticas de dispersión, tal

Más detalles

Dispone de 1 hora para resolver las siguientes cuestiones planteadas.

Dispone de 1 hora para resolver las siguientes cuestiones planteadas. ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL FACULTAD DE ECONOMÍA Y NEGOCIOS EXAMEN TEÓRICO DE ESTADÍSTICA COMPUTARIZADA NOMBRE: PARALELO: Dispone de 1 hora para resolver las siguientes cuestiones planteadas.

Más detalles

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,

Más detalles

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords A. PRUEBAS DE BONDAD DE AJUSTE: Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords B.TABLAS DE CONTINGENCIA Marta Alperin Prosora Adjunta de Estadística alperin@fcnym.unlp.edu.ar http://www.fcnym.unlp.edu.ar/catedras/estadistica

Más detalles

MEDIDAS DE POSICIÓN. FUENTE: Gómez, Elementos de Estadística Descriptiva Levin & Rubin. Estadística para Administradores

MEDIDAS DE POSICIÓN. FUENTE: Gómez, Elementos de Estadística Descriptiva Levin & Rubin. Estadística para Administradores UNIVERSIDAD DE COSTA RICA ESCUELA DE ESTADÍSTICA Prof. Olman Ramírez Moreira MEDIDAS DE POSICIÓN FUENTE: Gómez, Elementos de Estadística Descriptiva Levin & Rubin. Estadística para Administradores 1 OBJETIVO

Más detalles

CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo...

CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo... CONTENIDO Prólogo a la 3. a edición en español ampliada.................................. Prólogo.................................................................. vii xvii 1. Métodos descriptivos................................................

Más detalles

ESTADÍSTICA I Código: 8219

ESTADÍSTICA I Código: 8219 ESTADÍSTICA I Código: 8219 Departamento : Metodología Especialidad : Ciclo Básico Prelación : Sin Prelación Tipo de Asignatura : Obligatoria Teórica y Práctica Número de Créditos : 3 Número de horas semanales

Más detalles

ESTADÍSTICA CON EXCEL

ESTADÍSTICA CON EXCEL ESTADÍSTICA CON EXCEL 1. INTRODUCCIÓN La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en

Más detalles

MATEMÁTICA DE CUARTO 207

MATEMÁTICA DE CUARTO 207 CAPÍTULO 1 CONJUNTOS NUMÉRICOS 1 Introducción... pág. 9 2 Números naturales... pág. 10 3 Números enteros... pág. 10 4 Números racionales... pág. 11 5 Números reales... pág. 11 6 Números complejos... pág.

Más detalles

Transformaciones de variables

Transformaciones de variables Transformaciones de variables Introducción La tipificación de variables resulta muy útil para eliminar su dependencia respecto a las unidades de medida empleadas. En realidad, una tipificación equivale

Más detalles

ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO

ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO RELACIÓN DE PROBLEMAS PROPUESTOS DE UNA VARIABLE Curso académico 2004-2005 DPTO. ECONOMÍA APLICADA I 1. Obtener las frecuencias acumuladas, las frecuencias relativas

Más detalles

PROGRAMA ACADEMICO Ingeniería Industrial

PROGRAMA ACADEMICO Ingeniería Industrial 1. IDENTIFICACIÓN DIVISION ACADEMICA Ingenierías DEPARTAMENTO Ingeniería Industrial PROGRAMA ACADEMICO Ingeniería Industrial NOMBRE DEL CURSO Análisis de datos en Ingeniería COMPONENTE CURRICULAR Profesional

Más detalles

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos: 15. Regresión lineal Este tema, prácticamente íntegro, está calacado de los excelentes apuntes y transparencias de Bioestadística del profesor F.J. Barón López de la Universidad de Málaga. Te recomiendo

Más detalles

2.- Tablas de frecuencias

2.- Tablas de frecuencias º BACHILLERATO MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II TEMA 3.- ESTADÍSTICA DESCRIPTIVA PROFESOR: RAFAEL NÚÑEZ -----------------------------------------------------------------------------------------------------------------------------------------------------------------

Más detalles

M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.

M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana. Medidas de tendencia central y variabilidada para datos agrupados Media (media aritmética) ( X ) Con anterioridad hablamos sobre la manera de determinar la media de la muestra. Si hay muchos valores u

Más detalles

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016 Pruebas de Hipótesis-ANOVA Curso de Seminario de Tesis Profesor Q Jose Avila Parco Año 2016 Análisis de la Varianza de un factor (ANOVA) El análisis de la varianza (ANOVA) es una técnica estadística paramétrica

Más detalles

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I) VARIABLES Variable: característica de cada sujeto (cada caso) de una base de datos. Se denomina variable precisamente porque varía de sujeto a sujeto. Cada sujeto tiene un valor para cada variable. El

Más detalles

Regresión con variables independientes cualitativas

Regresión con variables independientes cualitativas Regresión con variables independientes cualitativas.- Introducción...2 2.- Regresión con variable cualitativa dicotómica...2 3.- Regresión con variable cualitativa de varias categorías...6 2.- Introducción.

Más detalles

Curva de Lorenz e Indice de Gini Curva de Lorenz

Curva de Lorenz e Indice de Gini Curva de Lorenz Curva de Lorenz e Indice de Gini Curva de Lorenz La curva de Lorenz es útil para demostrar la diferencia entre dos distribuciones: por ejemplo quantiles de población contra quantiles de ingresos. También

Más detalles

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS 1 POR QUÉ SE LLAMAN CONTRASTES NO PARAMÉTRICOS? A diferencia de lo que ocurría en la inferencia paramétrica, ahora, el desconocimiento de la población que vamos

Más detalles

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios. ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Ejemplos y ejercicios de Estadística Descriptiva yanálisis de Datos Diplomatura en Estadística Curso 007/08 Descripción estadística de una variable. Ejemplos

Más detalles

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro) UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro) 1. ESTADÍSTICA: CLASES Y CONCEPTOS BÁSICOS En sus orígenes históricos, la Estadística estuvo ligada a cuestiones de Estado (recuentos, censos,

Más detalles

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS) 1 REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS) 1. EN LA REGIÓN DE DRAKUL DE LA REPÚBLICA DE NECROLANDIA, LAS AUTORIDADES ECONÓMICAS HAN REALIZADO UNA REVISIÓN

Más detalles

1º CURSO BIOESTADÍSTICA

1º CURSO BIOESTADÍSTICA E.U.E. MADRID CRUZ ROJA ESPAÑOLA UNIVERSIDAD AUTÓNOMA DE MADRID CURSO ACADÉMICO 2012/2013 1º CURSO BIOESTADÍSTICA Coordinación: Eva García-Carpintero Blas Profesores: María de la Torre Barba Fernando Vallejo

Más detalles

Tercera práctica de REGRESIÓN.

Tercera práctica de REGRESIÓN. Tercera práctica de REGRESIÓN. DATOS: fichero practica regresión 3.sf3 1. Objetivo: El objetivo de esta práctica es aplicar el modelo de regresión con más de una variable explicativa. Es decir regresión

Más detalles

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Facultad de Medicina Veterinaria y Zootecnia Licenciatura en Medicina Veterinaria y Zootecnia Clave 1212 Modalidad del curso: Carácter Métodos estadísticos en medicina

Más detalles

Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística

Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística Fuente de los comics: La Estadística en Comic. LarryGonicky Woollcatt Smith. Ed. ZendreraZariquiey, 1999 ESTADÍSTICA ESTADÍSTICA

Más detalles

Fundamentos de Estadística descriptiva

Fundamentos de Estadística descriptiva Fundamentos de Estadística descriptiva COCEPTOS GEERALES Llamaremos población estadística al conjunto de referencia sobre el cual van a recaer las observaciones. Se llama individuo a cada uno de los elementos

Más detalles

Indicaciones para el lector... xv Prólogo... xvii

Indicaciones para el lector... xv Prólogo... xvii ÍNDICE Indicaciones para el lector... xv Prólogo... xvii 1. INTRODUCCIÓN Qué es la estadística?... 3 Por qué estudiar estadística?... 5 Empleo de modelos en estadística... 6 Perspectiva hacia el futuro...

Más detalles

TRATAMIENTO ESTADÍSTICO

TRATAMIENTO ESTADÍSTICO TRATAMIETO ESTADÍSTICO DESCRIPCIÓ DE LOS DATOS - Tipos de datos - Distribución de frecuencias - Representación de frecuencias DESCRIPCIÓ DE LOS DATOS - Medidas de posición - Medidas de dispersión ÚMEROS

Más detalles

Contrastes de hipótesis paramétricos

Contrastes de hipótesis paramétricos Estadística II Universidad de Salamanca Curso 2011/2012 Outline Introducción 1 Introducción 2 Contraste de Neyman-Pearson Sea X f X (x, θ). Desonocemos θ y queremos saber que valor toma este parámetro,

Más detalles

Conceptos básicos estadísticos

Conceptos básicos estadísticos Conceptos básicos estadísticos Población Población, en estadística, también llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan las observaciones. El concepto

Más detalles

DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso

DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso 2009-10 1. Generalidades Instrumentación: En general la instrumentación comprende todas las técnicas, equipos y metodología relacionados con

Más detalles

ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA Diplomado en Salud Pública Autor: Clara Laguna En el capítulo anterior vimos que la Estadística es la Ciencia de la: Sistematización, recogida, MUESTREO ordenación y posterior presentación

Más detalles

Repaso de conceptos de álgebra lineal

Repaso de conceptos de álgebra lineal MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso

Más detalles

Curso de Estadística Básica

Curso de Estadística Básica Curso de SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSIÓN MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez Objetivo Conocer y calcular las medidas de tendencia central y medidas de dispersión

Más detalles

UNIVERSIDAD NACIONAL DE FORMOSA FACULTAD DE HUMANIDADES

UNIVERSIDAD NACIONAL DE FORMOSA FACULTAD DE HUMANIDADES 1. CARRERA: Profesorado en Química 2. ASIGNATURA: Estadística y Probabilidad 3. AÑO LECTIVO: 2016 UNIVERSIDAD NACIONAL DE FORMOSA FACULTAD DE HUMANIDADES 4. CARACTERES DE LA ASIGNATURA: Obligatoria 5.

Más detalles

UNIDAD 6. Estadística

UNIDAD 6. Estadística Matemática UNIDAD 6. Estadística 2 Medio GUÍA N 1 MEDIDAS DE DISPERSIÓN PARA DATOS NO AGRUPADOS ACTIVIDAD Consideremos los siguientes conjuntos de valores referidos a las edades de los jugadores de dos

Más detalles

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso. PRIMER CURSO DE E.S.O Criterios de calificación: 80% exámenes, 10% actividades, 10% actitud y trabajo 1 Números naturales. 2 Potencias de exponente natural. Raíces cuadradas exactas. 3 Divisibilidad. Concepto

Más detalles

PRIMER ENCUENTRO. Licenciatura en Enseñanza de la Matemática Mg. Lucía C. Sacco

PRIMER ENCUENTRO. Licenciatura en Enseñanza de la Matemática Mg. Lucía C. Sacco PRIMER ENCUENTRO Unidad Nº1 Unidad Nº1: Estadística descriptiva Tipos de estadística: descriptiva e inferencial. Tipos de variables. Niveles de medición: datos de nivel nominal, de nivel ordinal, de nivel

Más detalles

Estadística Descriptiva de una variable con STATGRAPHICS

Estadística Descriptiva de una variable con STATGRAPHICS Estadística Descriptiva de una variable con STATGRAPHICS Ficheros empleados: AlumnosIndustriales.sf3, 1. Introducción El objetivo de este documento es la utilización de las técnicas de estadística descriptiva

Más detalles

MÓDULO 1: GESTIÓN DE CARTERAS

MÓDULO 1: GESTIÓN DE CARTERAS MÓDULO 1: GESTIÓN DE CARTERAS TEST DE EVALUACIÓN 1 Una vez realizado el test de evaluación, cumplimenta la plantilla y envíala, por favor, antes del plazo fijado. En todas las preguntas sólo hay una respuesta

Más detalles

Facultad de Ciencias Sociales - Universidad de la República

Facultad de Ciencias Sociales - Universidad de la República Facultad de Ciencias Sociales - Universidad de la República Estadística y sus aplicaciones en Ciencias Sociales Edición 2016 Ciclo Avanzado 3er. Semestre (Licenciatura en Ciencia Política/ Licenciatura

Más detalles

Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados.

Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados. Bases de Estadística Licenciatura en Ciencias Ambientales Curso 2oo3/2oo4 Introducción al SPSS/PC Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados.

Más detalles

Tipo de punta (factor) (bloques)

Tipo de punta (factor) (bloques) Ejemplo Diseño Bloques al Azar Ejercicio -6 (Pág. 99 Montgomery) Probeta Tipo de punta (factor) (bloques) 9. 9. 9.6 0.0 9. 9. 9.8 9.9 9. 9. 9.5 9.7 9.7 9.6 0.0 0. ) Representación gráfica de los datos

Más detalles

Relación 2: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS

Relación 2: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS INTRODUCCIÓN A LA ESTADÍSTICA Relación 2: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS 1.- Obtener las medias aritmética, geométrica, armónica para la siguiente distribución: SOL: 2,74; 2,544; 2,318

Más detalles

PROBLEMAS ESTADÍSTICA I

PROBLEMAS ESTADÍSTICA I PROBLEMAS ESTADÍSTICA I INGENIERÍA TÉCNICA EN INFORMÁTICA CURSO 2002/2003 Estadstica Descriptiva Unidimensional 1. Un edificio tiene 45 apartamentos con el siguiente número de inquilinos: 2 1 3 5 2 2 2

Más detalles

Algebra lineal y conjuntos convexos

Algebra lineal y conjuntos convexos Apéndice A Algebra lineal y conjuntos convexos El método simplex que se describirá en el Tema 2 es de naturaleza algebraica y consiste en calcular soluciones de sistemas de ecuaciones lineales y determinar

Más detalles

Prácticas de Ecología Curso 3 Práctica 1: Muestreo

Prácticas de Ecología Curso 3 Práctica 1: Muestreo PRÁCTICA 1: MUESTREO Introducción La investigación ecológica se basa en la medición de parámetros de los organismos y del medio en el que viven. Este proceso de toma de datos se denomina muestreo. En la

Más detalles

ESTADÍSTICA. Tema 4 Regresión lineal simple

ESTADÍSTICA. Tema 4 Regresión lineal simple ESTADÍSTICA Grado en CC. de la Alimentación Tema 4 Regresión lineal simple Estadística (Alimentación). Profesora: Amparo Baíllo Tema 4: Regresión lineal simple 1 Estructura de este tema Planteamiento del

Más detalles