Dpto. Producción Animal Universidad de Córdoba
|
|
- Alba Jiménez Mora
- hace 7 años
- Vistas:
Transcripción
1 PRINCIPIOS DEL ANÁLISIS DE DATOS Prof Dr José Perea Prof. Dr. José Perea Dpto. Producción Animal Universidad de Córdoba
2 PRINCIPIOS DEL ANÁLISIS DE DATOS 1. Tipos y medición de variables 2. Estadística descriptiva 3. Tablas de correlación y contingencia 4. Construcción y manejo de una base de datos 5. Caso práctico
3 variables - Variable. Característica ti de cada caso (explotación, animal, ganadero, etc.) de una base de datos. - Variable viene de variar, porque varía encada caso. - Cada caso tiene un valor para cada variable. - Por ejemplo, a las explotaciones se las puede describir respecto a características como: superficie, capital, trabajadores, antigüedad, especies explotadas, etc. - Medir es el proceso de asociación de números o símbolos a determinadas características de los objetos (explotaciones, animales, etc.) según reglas preestablecidas.
4 variables - Escala. Conjunto de valores que puede tomar una variable. - Superficie: 0 a miles de ha - Capital: 0 a miles de euros - Trabajadores: 0 a cientos - Antigüedad: 0 a décadas - Especies explotadas: b, o, c, p, e - Pero también: - Superficie: pequeña, mediana, grande - Antigüedad: antigua, reciente, moderna
5 variables - Definir i y medir bien las variables es fundamental para el éxito de la investigación. - Errores en la definición i ió oen la medición ió hacen que todos los análisis e interpretaciones posteriores sean erróneas. - Hay variables fáciles de definir: superficie, especie explotada - Otras habría que matizarlas: trabajadores, estado civil del ganadero Otras hay que definirlas muy bien: dependencia de las - Otras hay que definirlas muy bien: dependencia de las subvenciones, adecuación de la estructura productiva
6 variables - Las escalas de las variables determinan qué análisis i se pueden desarrollar. - Por ejemplo: Establecer una relación de dependencia entre el resultado neto de la explotación y su dimensión. - Si medimos RN en y Superficie en ha podemos hacer una regresión lineal. - Si medimos RN en (pérdidas o ganancias) podemos hacer una regresión logística multinominal. - Hay 4 escalas clásicas, aunque actualmente quedan debates pendientes de resolver: nominal, ordinal, de intervalo y de razón.
7 variables Escala nominal. Los valores son etiquetas. t - Se pueden utilizar nombres, letras, etc. Por ejemplo, las especies explotadas: o, c, b, p,e. - También números: 0=1, c=2, b=3, p=4 y e=5, aunque no se pueden establecer jerarquías: 0=1=2=3=4=5 - Los valores son categorías, son diferentes por una cualidad, no por una cantidad - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden calcular estadísticos como: recuento de frecuencias, moda y tablas de contingencia (no hay media ni varianza)
8 variables Escala ordinal. Los valores son etiquetas t ordenadas. d - Se utilizan números que codifican a las categorías. - Por ejemplo, la preferencia del ganadero por 4 modelos de tractores: A=1; B=2; C=3; D=4 - Se pueden establecer jerarquías: 1<2<3<4 - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - CUIDADO: los valores siguen siendo categorías, son diferentes por una cualidad, no por una cantidad, es decir: - El tractor D le gusta más que C y que A; pero no le gusta 4 veces más D que A (aunque 4 1 = 3 ) - Se pueden calcular, además de lo anterior, la mediana y los percentiles
9 variables Escala de intervalo. - Los valores son números cuyas diferencias tienen sentido. - La escala es arbitraria. - Por ejemplo, la temperatura en ºC - Se pueden establecer jerarquías y diferencias, pero no razones. - Se pueden calcular todos los estadísticos menos los basados en ratios, como el coeficiente de variación.
10 variables Escala de razón. - Los valores son números cuyas diferencias y razones tienen sentido. - La escala no es arbitraria, es absoluta. - Por ejemplo, la temperatura en ºK o el número de vacas - No hay restricciones en el cálculo de estadísticos
11 variables - Variables no métricas (cualitativas): ti nominalesyordinales l - Variables métricas (cuantitativas): de intervalo y de razón - Intervalo: número de valores que puede tomar la variable entre dos valores - Finito: variables discretas, p.e. Número de propietarios - Infinito: variables continuas, p.e. Superficie
12 Estadística descriptiva Introducción. - Inicialmente los datos de una variable no nos dicen nada - Es necesario resumir la información que contiene - Hay 3 aspectos clave: posición, dispersión y forma - Cada técnica de estadística descriptiva resume alguno de estos aspectos de interés de la variable Por ejemplo: Para conocer la actitud de los ganaderos bovinos ecológicos sobre el posible cesede las ayudas en 2013 se plantea una encuesta de n ganaderos: opinión sobre el cese de las ayudas Variable: escala ordinal 1 a 9 (1 total desacuerdo, 9 total acuerdo)
13 Estadística descriptiva Expresar las frecuencias en porcentajes y porcentajes acumulados X f fr % %a 1 6 0, , ,33 11, , , , , , , , ,67 82, ,0933 9, , , Total
14 Estadística descriptiva Distribución de frecuencias. - Indican la forma de dispersión de los datos de una variable. - Se puede expresar en tablas de frecuencias o en histogramas. - Si la escala es muy amplia se pueden agrupar en clases, p.e. - Ejemplo anterior: adversos al cambio (1 a 3) indiferentes (4 a 6) favorables al cambio (7 a 9) - Dimensión: pequeñas (menos de 10) mediana (10 a 20) grandes (20 a 30) muy grandes (más de 30)
15 Estadística descriptiva - Se suelen elegir como n - Las clases suelen ser de 4 a 20 - Deben tener amplitud uniforme - Ojo, suponen pérdida de información - Se representan: [L i,l j ]aunqueseutilizalamarcadeclasex i (valor central del intervalo: Ii Xi ni fi Ni Fi [L o, L 1 ] x 1 n 1 f 1 =n 1 /N N 1 =n 1 F 1 =N 1 /N [L 1,L 2 ] x 2 n 2 f 2 =n 2 /N N 2 =n 1 +n 2 F 2 =N 2 /N [L 2,L k ] x k n k f k =n k /N N k =N F k =1 Σn i =N Σf i =1 marca de clase
16 Estadística descriptiva - Histogramas: 40 Histogram for Subvenciones frequ uency Subvenciones
17 Estadística descriptiva - Histogramas: 150 Histogram for Subvenciones frequ uency Subvenciones
18 Estadística descriptiva Medidas de posición. - Resumen un valor central. - Diferentes valores centrales. - Media aritmética: suma de todos los valores dividido por el número total de datos. - Media geométrica: raíz enésima del producto de todos los valores de la distribución. - Se usa para promediar variables de variaciones acumulativas (porcentajes, tasas, índices, etc.) - No con valores=0 ni negativos
19 Estadística descriptiva - Mediana: valor central de la distribución. Si la distribución es par, la media aritmética de los dos valores centrales. - Moda: valor de la distribución que más se repite. - Cuartiles: 4 intervalos que dividen la distribución en el 25%. - Deciles: intervalos que dividen la distribución en el 10%. - Percentiles: intervalos que dividen la distribución en el 1%. Por ejemplo: Para conocer el resultado neto de la actividad bovina ecológica de leche se plantea una encuesta de 200 ganaderos: resultado neto Variable: escala de razón ( ) - miles de euros a + miles de euros
20 Estadística descriptiva Scatterplot for RN ,6-0,2 0,2 0,6 1 (X ) RN
21 Estadística descriptiva Frequency Tabulation for RN Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency at or below ,0 0 0, , , , ,7 6 0, , , , ,0 9 0, , , , ,3 7 0, , ,0-3333, ,7 17 0, , , , , , , , , ,7 28 0, , , , ,3 42 0, , , , ,0 21 0, , , , ,0 0 0, ,0000 above ,0 0 0, ,
22 Estadística descriptiva Medidas de dispersión. - Indican la representatividad de una medida de posición. - Para lo que cuantifican la distancia de los diferentes valores de la distribución respecto a dicha medida. - Esa distancia es la variabilidad. - Por ejemplo, una media será más representativa del comportamiento de una variable cuanto más cerca de ella se distribuyan los valores. - Generalmente acompañan una o dos medidas de dispersión a las medidas de posición para referenciar la representatividad. - Pueden ser absolutas o relativas según dependan o no de las unidades de medida.
23 Estadística descriptiva Medidas de dispersión absolutas no referentes a promedios. - Recorrido: diferencia entre el valor máximo y el mínimo. - Recorrido intercuartílico: Idem pero entre el 3 y 1 cuartil. Medidas de dispersión relativas no referentes a promedios. - Coeficiente de apertura: cociente entre el valor máximo y el mínimo. - Recorrido relativo: cociente entre el recorrido y la media. - Recorrido semiintercuartílico: cociente entre el recorrido - Recorrido semiintercuartílico: cociente entre el recorrido intercuartílico y la suma del primer y tercer cuartil.
24 Estadística descriptiva Medidas de dispersión referentes a promedios. Miden el error que se comete al utilizar el promedio en cuestión. Medidas de dispersión absolutas referentes a promedios. - Desviación media: media aritmética de las desviaciones de cada valor con la media de la distribución en valor absoluto. - Desviación respecto a la mediana: idem pero con la mediana. - Varianza: igual que la desviación media pero con las desviaciones al cuadrado. - Desviación típica: la raíz cuadrada de la varianza. - Error estándar: cociente entre la desviación típica y n.
25 Medidas de dispersión relativas referentes a promedios. Estadística descriptiva - Coeficiente de variación: cociente entre la desviación típica y la media aritmética. - Muy útil para comparar medias de variables con diferentes unidades - Se suele expresar en porcentaje
26 Estadística descriptiva Summary Statistics for RN Count = 200 Average = 21678,6 Median = 13709,5 Mode = Geometric mean = Variance = 1,96557E9 Standard deviation = 44334,7 Standard error = 3134,94 Minimum = ,0 Maximum = 98863,0 Range = ,0 Lower quartile = 838,5 Upper quartile = 57540,0 Interquartile range = 56701,5 Coeff. of variation = 204,509%
27 Estadística descriptiva Box-and-Whisker Plot -1-0,6 06-0, ,2 06 0,6 1 (X ) RN
28 Estadística descriptiva Medidas de forma. - Se basan en la representación gráfica de la variable sin llegar a representarla. - Corrigen el error de la medida de posición. - Medidas de asimetría. - Si existe el mismo número de valores a ambos lados de la media. - Si estos valores son equidistantes dos a dos y su frecuencia es la misma. - Coeficiente de Fisher: =0, simétrica; <0 asimétrica -; >0 asimétrica + - Fisher estandarizado. - Pearson. - Bowley.
29 Estadística descriptiva - Medidas de curtosis. - Estudian la distribución de frecuencias en la zona central. - Es decir, si la distribución es más o menos apuntada. - Es necesario definir previamente una distribución tipo. - Generalmente la normal. - Coeficiente de curtosis. =0, mesocúrtica, <0, platicúrtica, >0, leptocúrtica - de curtosis estandarizado.
30 Estadística descriptiva Summary Statistics for RN Co nt 200 Count = 200 Skewness = -0, Stnd. skewness = -2,75528 Kurtosis = 0, Stnd. kurtosis = 0,17347
31 Estadística descriptiva ( 10000) n(x 12 distan nce ab bove median Symmetry Plot for RN (X 10000) distance below median
32 correlación y contingencia Tablas de correlación y contingencia. - Distribuciones bidimensionales. - Se consideran simultáneamente dos características (variables) de la misma muestra. - Para variables cualitativas: tablas de contingencia. - Para variables cuantitativas: tablas de correlación. - Ejemplo: peso y alzada a la cruz; superficie y tamaño del rebaño
33 correlación y contingencia Tablas de correlación. - Sea una muestra estudiada simultáneamente según dos variables: XeY. - Genéricamente: x i ;y j ;n ij, donde x i ;y j son dos valores cualesquiera y n ij es la frecuencia absoluta conjunta del valor i-ésimo de X con el j- ésimo de Y. - Se representa como tabla de doble entrada: y1 y2... yj... ni. fi. x1 n11 n12... n1j... n1. f1. x2 n21 n22... n2j... n2. f xi ni1 ni2... nij... ni. fi n.j n.1 n.2... n.j... N f.j f.1 f.2... f.j... 1
34 correlación y contingencia Tipos de distribuciones. - Distribución conjunta. - Distribuciones marginales. - Distribuciones condicionadas. su per fi cie v ,28 a ,19 c ,23 a , ,18 0,26 0,24 0,32 1
35 correlación y contingencia Distribución conjunta. - Frecuencia absoluta conjunta. Número de veces que (x i ;y j ) aparece ordenado: n ij - Frecuencia relativa conjunta. Cociente entre la frecuencia absoluta conjunta y el total de observaciones (f ij ) - Se cumple: - La suma de todas las frecuencias absolutas conjuntas = n - La suma de todas las frecuencias relativas conjuntas = 1
36 correlación y contingencia su per fi cie v ,28 a ,19 c ,23 a , ,18 0,26 0,24 0,32 1
37 correlación y contingencia Distribuciones marginales. - Sólo se tiene en cuenta una de las variables. - Frecuencia absoluta marginal. Número de veces que (x i ; ) aparece sin tener en cuenta el valor de y: n i. - Frecuencia relativa marginal. Cociente entre la frecuencia absoluta marginal y el total de observaciones (f i.) - Se cumple: - La suma de todas las frecuencias absolutas marginales = n - La suma de todas las frecuencias relativas marginales = 1
38 correlación y contingencia Distribuciones condicionadas. - Sólo se tiene en cuenta una fila o una columna, como si fuera una nueva muestra. y1 y2... yj... ni. fi. x1 n11 n12... n1j... n1. f1. x2 n21 n22... n2j... n2. f xi ni1 ni2... nij... ni. fi n.j n.1 n.2... n.j... N f.j f.1 f.2... f.j... 1
39 correlación y contingencia Covarianza. - Mide la forma en que varía conjuntamente dos variables X e Y - En el estudio conjunto de dos variables, interesa es saber si existe algún tipo de relación entre ellas (S xy ). - Lo importante no es la magnitud, sino su signo: - Si S<0 Y decrece si X crece - Si S>0 Y crece con X - Si S=0 Y es independiente linealmente de X
40 correlación y contingencia Covarianza. - S xy = *127 = Lo importante no es la magnitud, sino su signo: - Si S<0 Y decrece si X crece - Si S>0 Y crece con X - Si S=0 Y es independiente linealmente de X
41 correlación y contingencia Dependencia. - Independencia - Dependencia funcional - Dependencia estadística Existe dependencia cuando los valores de una distribución condicionan a los de la otra (X,Y)
42 correlación y contingencia Independencia. - Dos variables son independientes entre si cuando una de ellas no influye en la distribución de la otra condicionada por el valor que adopte la primera. - La condición necesaria y suficiente para que X e Y sean independientes es: - Si X es independiente de Y, las frecuencias relativas condicionadas X/Y j son idénticas a las respectivas frecuencias relativas marginales de X. - Si X es independiente de Y, Y es independiente de X. - Si X e Y son 2 variables independientes, su covarianza es cero; pero p, ; p la covarianza de 2 variables puede tomar valor cero, y no ser independientes.
43 correlación y contingencia Dependencia funcional. - Existe una relación matemática exacta entre ambas variables. - La variable X depende de Y si a cada modalidad y j de Y corresponde una única modalidad posible de X. - Por tanto, cualquiera que sea j, la frecuencia absoluta n ij vale cero j salvo para un valor de i correspondiente a una columna j. - La dependencia de X respecto de Y no implica que Y dependa de X. - Para que la dependencia sea recíproca, los caracteres X e Y deben presentar el mismo número de modalidades y en cada fila como en cada columna de la tabla debe haber uno y solo un término diferente de cero.
44 correlación y contingencia Dependencia funcional. su per fi cie v ,04 a ,06 c ,07 a , ,19 0,04 0,06 0,07 0,03 0,19
45 correlación y contingencia Dependencia funcional. su per fi cie v ,04 a ,1 c ,07 a ,2 0,04 0,06 0,07 0,06 0,22
46 correlación y contingencia Dependencia estadística. - Existe relación matemática no exacta entre ambas variables. - La regresión estudia la dependencia. - La correlación estudia el grado de dependencia. - Regresión: - Una de las variables influye sobre la otra y la regresión tiene por objetivo descubrir el modo en que se relacionan. - En la mayoría de los casos la relación entre las variables es mutua, y es difícil saber qué variable influye sobre la otra. - Ejemplos: - Peso y alzada a la cruz - Superficie y número de vacas
47 correlación y contingencia - X = variable independiente (superficie) - Y = variables dependiente (número de vacas) X Superficie Y Vacas El problema de encontrar una relación entre dos variables es muy complejo, ya que existen infinidad de funciones de formas distintas. - El caso más sencillo de relación entre dos variables es la relación LINEAL: Y = a + bx Y (vacas s) X (superficie)
48 correlación y contingencia - Para cada dato de X (xi, superficie) hay emparejado un dato de Y (yi, vacas). - También está el valor de Y (y*i) predicho por las diferentes ecuaciones. - El error de cada ecuación: e = (yi y*i) - Se escoge la recta que minimice la suma de los cuadrados de todos los errores, que es la misma que minimiza la varianza de los errores. Y (vacas) y = 6,0648x + 4, X (superficie)
49 correlación y contingencia - Correlación lineal: - Mide la fuerza de la relación lineal entre dos variables X e Y. - R o coeficiente de correlación lineal de Pearson. - Si: - R=1, correlación perfecta positiva entre X e Y - R=-1, correlación perfecta negativa - R=0, no existe correlación lineal (puede existir otro tipo de relación) - 0<R<1, correlación positiva y dependencia directa - -1<R<0, correlación negativa y dependencia inversa
50 correlación y contingencia - Relación entre la regresión lineal y el coeficiente de correlación: - Si X e Y están relacionadas linealmente, parte de la variabilidad de la variable Y, vendrá explicada por variaciones de X (variabilidad explicada por el modelo). - El resto responderá a variaciones de fenómenos relacionados con la variable Y o con el azar (variabilidad no explicada por el modelo). - R 2 es el porcentaje de la variabilidad de la variable explicada que se debe a la variabilidad de la variable explicativa (coeficiente de determinación lineal). - El signo del coeficiente de correlación lineal será el mismo que el de la covarianza.
51 correlación y contingencia Y (vacas) y = 6,0648x + 4,537 R 2 = 0, X (superficie)
52 correlación y contingencia Distribuciones de más de dos dimensiones. - Matriz de covarianzas - Matriz de correlaciones - Matriz de correlaciones parciales
53 correlación y contingencia Matriz de covarianzas. - Resume las covarianzas para todos los posibles pares de variables. S 11 S 12 S S 1n S 21 S 22 S S 2n C = S n1 S n2 S n3... S nn
54 correlación y contingencia Matriz de correlaciones. - Resume las correlaciones para todos los posibles pares de variables. r 11 r 12 r r 1n r 21 r 22 r r 2n R = r n1 r n2 r n3... r nn
55 correlación y contingencia Matriz de correlaciones parciales - Resume las correlaciones para todos los posibles pares de variables, teniendo en cuenta la posible influencia del resto de variables. r 11 r 12 r r 1n r 21 r 22 r r 2n P = r n1 r n2 r n3... r nn
56 correlación y contingencia Con Statgrafics: Correlations NHT NVAC RN NHT 0,4957 0,3642 ( 12) ( 12) 0,1013 0,2444 NVAC 0,4957-0,4641 ( 12) ( 12) 0,1013 0,1285 RN 0,3642-0,4641 ( 12) ( 12) 0,2444 0,
57 correlación y contingencia Tablas de contingencia. - 2 variables cualitativas o al menos una cualitativa. Tabla de doble entrada con una variable en las filas y otra en las columnas. - En las celdas resultantes del cruce de las filas y las columnas se incluye el número de elementos de la distribución que presentan ambas modalidades. - Distribuciones absolutas, marginales y condicionadas y1 y2... yj... ni. fi. x1 n11 n12... n1j... n1. f1. x2 n21 n22... n2j... n2. f xi ni1 ni2... nij... ni. fi n.j n.1 n.2... n.j... N f.j f.1 f.2... f.j... 1
58 correlación y contingencia Asociación de variables cualitativas. - 2 variables son independientes si el producto de sus frecuencias relativas es igual a la frecuencia relativa conjunta. - Sinosecumple, ambas variables son dependientes: El valor n es la frecuencia absoluta conjunta teórica que existiría si - El valor n ij es la frecuencia absoluta conjunta teórica que existiría si los 2 atributos fuesen independientes y n ij es la frecuencia absoluta conjunta observada.
59 correlación y contingencia Asociación de variables cualitativas. - Coeficiente de contingencia: varía de cero a altas magnitudes - Coeficiente de contingencia de Pearson: varía entre 0 y 1
60 correlación y contingencia Asociación de variables cualitativas. - Coeficiente lambda. - Coeficiente V de cramer. - Coeficiente i T de Th Tshuprow. - Chi cuadrado.
61 supuestos básicos Condiciones i deaplicabilidad. d - Normalidad - Homocedasticidad
62 supuestos básicos Normalidad. d - Cuando se pretende comprobar una hipótesis se pueden cometer 2 errores: - Error tipo 1 (α): probabilidad de equivocarnos al rechazar la hipótesis (normalmente se elige 0,05) 05) - Error tipo 2 (β): probabilidad de equivocarnos al aceptar la hipótesis (1- β: potencia del contraste) - El investigador quiere pruebas potentes y valores α pequeños. Si las variables no son normales multivariantes el error tipo 1 se incrementa.
63 Normalidad. supuestos básicos - Estudiar la asimetría y curtosis de la variable (si la variable está tipificada, la asimetría es cero y la curtosis 3) - Exploración gráfica con gráficos Q-Q - Contrastes de normalidad 3 0
64 supuestos básicos Contrastes t de normalidad: d - Todos tienen como hipótesis nula la normalidad de la distribución ib ió - Cada uno tiene su utilidad - Shapiro Wilk funciona bien con muestras pequeñas - El más habitual es Kolmogorov-Smirnov - En muestras pequeñas es mejor ser conservador con el nivel de significación
65 supuestos básicos Con Statgraphics: t Computed Chi-Square goodness-of-fit statistic = 116,48 P-Value = 1,92957E Shapiro-Wilks W statistic = 0, P-Value = 5,58428E E Z score for skewness = 1,91137 P-Value = 0, Z score for kurtosis = 0, P-Value = 0,744192
66 supuestos básicos Exploración gráfica Q-Q: Q (sólo para más de 20 casos) Quantile-Quantile Plot NH HT Normal distribution
67 Homoscedasticidad: supuestos básicos - En datos agrupados, la homoscedasticidad significa que la varianza de la variable continua es estadísticamente la misma en todos los grupos que la variable no métrica delimita los grupos. - El contraste es si la varianza es la misma - Por ejemplo: - Variable continua: superficie i (ha) - Variable no métrica: especie (0=ovino, 1=caprino) - Dentro de los grupos 0 y 1, la varianza de la superficie debe ser estadísticamente la misma
68 supuestos básicos - Contraste t de Levene (hipótesis i nula: la varianza de la variable X es igual en todos los niveles que forma la variable Z)
69 valores perdidos y outliers Valores perdidos y anómalos: fiabilidad de los datos de partida
70 valores perdidos y outliers Valores perdidos: - La existencia de valores perdidos es inevitable si se trabaja con encuestas. - El ganadero no quiere declarar si tiene préstamo - Se anota una cantidad en una casilla equivocada - La cuantía de las ayudas aún no se conoce para el ejercicio en concreto, etc. - La consecuencia depende de su patrón de distribución, de la cantidad de valores y de la causa de pérdida. - Lo más importante es su distribución: si es aleatoria no causará muchos daños, si tiene un patrón será muy dañino.
71 valores perdidos y outliers Por ejemplo: Opinión de los ganaderos sobre las políticas sectoriales: V1 = las ayudas perjudican el libre comercio V2 = no deben aplicarse aranceles europeos V3 = a la UE le interesa poco el medio ambiente V4 = deben disminuir las ayudas V5 = ganadero ecológico (1) o convencional (2)
72 Caso V1 V2 V3 V4 V4* V5 V valores perdidos y outliers
73 valores perdidos y outliers V4 = deben disminuiri i las ayudas N Min Max Med D.E. V ,92 1,53 V4* ,43 1,37
74 valores perdidos y outliers Diagnóstico de aleatoriedad de los valores perdidos: - Procedimiento basado en la lógica de la investigación: - Si el patrón es sistemático (no aleatorio), el comportamiento de la variable con valores perdidos debe ser diferente respecto a otras variables sin valores perdidos. - El investigador deberá comprobar qué variables se comportan de manera distinta a posteriori. - Si no existen variables distintas a posteriori, hayque asumir la aleatoriedad de los valores perdidos.
75 valores perdidos y outliers - Se realiza una prueba t para muestras independientes: di - A partir de la variable a analizar se crea otra ficticia, i codificada d con 0=hay dato; 1=dato faltante - Se desarrolla la prueba t con otra variable sin datos faltantes (variable dependiente) según la variable ficticia (factor) - Si las medias son significativamente diferentes, la distribución sigue un patrón sistemático
76 valores perdidos y outliers En el ejemplo: Prueba t con V2 Caso V1 V2 V3 V4 V4* V5 V V4(COD) V4*(COD)
77 valores perdidos y outliers En el ejemplo: Prueba t con V2 V4(COD) V4*(COD) 1 0 t 1 0 t V2(media) 3,96 3,83 0,23 4,30 2,71-3,95* Luego, la distribución de los valores perdidos de V4 es aleatoria, mientras que V4* sigue un patrón sistemático
78 valores perdidos y outliers Diagnóstico de aleatoriedad d de los valores perdidos: - Prueba de las correlaciones dicotomizadas : - Procedimiento basado en la coincidencia significativa entre los casos concretos en que las variables toman un valor perdido. - Las variables con casos perdidos se transforman en variables ficticias codificadas: 0=valor perdido, 1=hay dato - Se calcula la matriz de correlaciones - Si hay correlación significativa entre las variables ficticias estamos ante un posible patrón significativo
79 valores perdidos y outliers En el ejemplo: V4(COD) V4*(COD) V2(COD) V4(COD) 1 0,118 (0,53) -0,19 (0,29) V4*(COD) 0,18 (0,53) 1 0,71 (0,00)* V2(COD) -0,19 (0,29) 0,71 (0,00)* 1 Luego, la distribución de los valores perdidos de V4 es Luego, la distribución de los valores perdidos de V4 es aleatoria, mientras que V4* sigue un patrón sistemático
80 valores perdidos y outliers Tratamiento t de los valores perdidos: - Si los valores siguen un patrón: - Grave problema - No hay medios estadísticos conocidos para reducir el número de valores perdidos - No es posible generalizar los resultados - Si los valores son aleatorios: - Problema menor con dos opciones: - Eliminar todos los casos con un valor perdido - Imputar un valor estimado
81 valores perdidos y outliers - Eliminari todos los casos con un valor perdido: - Procedimiento por defecto en los programas estadísticos ti - Se corre el riesgo de perder mucha información - Especial cuidado en los análisis basados en análisis de varianzas-covarianzas, correlaciones - Se puede eliminar selectivamente en cada análisis sólo los casos con datos faltantes en una de las variables implicadas - Aunque esto genera problemas por el continuo cambio de tamaño muestral
82 - Imputar valores en los datos perdidos: - Lo más utilizado es imputar la media: - Procedimiento conservador valores perdidos y outliers - La media no cambia pero la varianza se reduce
83 - Imputar valores en los datos perdidos: - Como método alternativo, la regresión: valores perdidos y outliers - Como variable dependiente se usa la variable con datos perdidos y como variables independientes se usan el resto de las variables con todos los datos - Deben ser todas variables métricas - Método más razonable que la media, aunque: - Las estimaciones serán más coherentes con las variables independientes que los valores reales - La varianza también se reduce - Sólo si las estimaciones pertenecen al rango de la variable (por ejemplo, V4 no puede ser 7)
84 valores perdidos y outliers Valores atípicos (outliers): - Aquellos casos que una, dos o más variables toman valores extremos que difieren del comportamiento del resto de la muestra y hacen sospechar de que han sido generados por mecanismos distintos. - Consecuencias: - Distorsionan los resultados - Suelen afectar a la normalidad
85 Valores atípicos (outliers): - Causas: valores perdidos y outliers - Errores en los datos (recogida e introducción) - Errores intencionados por parte del encuestado - Errores de muestreo (introducir i en la muestra un individuo que no pertenece a la población) - Outliers verdaderos: casos que pertenecen a la población objeto de estudio y que realmente difieren del resto por la variabilidad inherente
86 Detección de valores atípicos - Univariante - Bivariante - Multivariante valores perdidos y outliers
87 Detección univariante de valores atípicos valores perdidos y outliers - Considerar atípicos aquellos casos cuyos valores estandarizados (media = 0 y desviación típica = 1) superen el siguiente i umbral (k): - N < 80 2,5 - N > 80 3o4 - Si la variable sigue una distribución normal 3 (x ) =(x i x)/s x x < x + ks x - Test de Grubbs
88 valores perdidos y outliers ,5 1,5 2 2,5 0 0, , ,
89 Qué hacer con los valores atípicos? valores perdidos y outliers - Si es un error evidente es conveniente corregirlo o eliminarlo - Error en la introducción de los datos: buscar el original y corregirlo - Error en el registro: - Volver a encuestar el caso en cuestión - Si no se puede (p.e. la encuesta es anónima) cambiarlo por el valor medio
90 Qué hacer con los valores atípicos? valores perdidos y outliers - Si es un outlier verdadero o no se puede descartar que no lo sea: - Algunos autores consideran correcto su eliminación para que los análisis reflejen la tendencia mayoritaria de la población - Otros consideran que la eliminación no se debe hacer: - Suavizar su influencia con transformaciones (aunque dificulta la interpretación de los resultados) - Utilizar contrastes no paramétricos (son más robustos)
91 BIBLIOGRAFÍA Técnicas estadísticas con SPSS César Pérez. Editorial Prentice Hall. ISBN: A áli i lti i t li d 2005 E i l Ui l Análisis multivariante aplicado Ezequiel Uriel y Joaquín Aldás. Editorial Thomson. ISBN:
Módulo de Estadística
Módulo de Estadística Tema 2: Estadística descriptiva Tema 2: Estadísticos 1 Medidas La finalidad de las medidas de posición o tendencia central (centralización) es encontrar unos valores que sinteticen
478 Índice alfabético
Índice alfabético Símbolos A, suceso contrario de A, 187 A B, diferencia de los sucesos A y B, 188 A/B, suceso A condicionado por el suceso B, 194 A B, intersección de los sucesos A y B, 188 A B, unión
Fase 2. Estudio de mercado: ESTADÍSTICA
1. CONCEPTO DE ESTADÍSTICA. ESTADÍSTICA DESCRIPTIVA 2. 3. TABLA DE FRECUENCIAS 4. REPRESENTACIONES GRÁFICAS 5. TIPOS DE MEDIDAS: A. MEDIDAS DE POSICIÓN B. MEDIDAS DE DISPERSIÓN C. MEDIDAS DE FORMA 1 1.
ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua
ESTADÍSTICA Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal Cuantitativa discreta continua DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta: fi Frecuencia relativa:
Estadística Inferencial. Estadística Descriptiva
INTRODUCCIÓN Estadística: Ciencia que trata sobre la teoría y aplicación de métodos para coleccionar, representar, resumir y analizar datos, así como realizar inferencias a partir de ellos. Recogida y
ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.
ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos
U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo
U.D.1: Análisis estadístico de una variable Consideraciones iniciales: - Población: Es el conjunto de todos los elementos que cumplen una determinada característica. Ej.: Alumnos del colegio. - Individuo:
Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández
Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández El método incluye diferentes elementos Justificación Planteamiento del problema
Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0
Ignacio Martín Tamayo 11 Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0 ÍNDICE ------------------------------------------------------------- 1. Introducción 2. Frecuencias 3. Descriptivos 4. Explorar
INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón
Metodología de Investigación Tesifón Parrón Contraste de hipótesis Inferencia Estadística Medidas de asociación Error de Tipo I y Error de Tipo II α β CONTRASTE DE HIPÓTESIS Tipos de Test Chi Cuadrado
Estadística descriptiva y métodos diagnósticos
2.2.1. Estadística descriptiva y métodos diagnósticos Dra. Ana Dorado Díaz Consejería de Sanidad Diplomado en Salud Pública Diplomado en Salud Pública - 2 Objetivos específicos 1. El alumno aprenderá a
TÉCNICAS MULTIVARIANTES. 1. Introducción 2. Clasificación de las técnicas 3. Etapas de análisis 4. Supuestos básicos 5. Valores perdidos y anómalos
TÉCNICAS MULTIVARIANTES 1. Introducción 2. Clasificación de las técnicas 3. Etapas de análisis 4. Supuestos básicos 5. Valores perdidos y anómalos introducció Definición. - Conjunto de métodos estadísticos
Temas de Estadística Práctica
Temas de Estadística Práctica Antonio Roldán Martínez Proyecto http://www.hojamat.es/ Tema 2: Medidas de tipo paramétrico Resumen teórico Medidas de tipo paramétrico Medidas de tendencia central Medidas
ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA Medidas de tendencia central y de dispersión Giorgina Piani Zuleika Ferre 1. Tendencia Central Son un conjunto de medidas estadísticas que determinan un único valor que define el
UNIVERSIDAD AUTONOMA DE SANTO DOMINGO
UNIVERSIDAD AUTONOMA DE SANTO DOMINGO FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES DEPARTAMENTO DE ESTADISITICA CATEDRA Estadística Especializada ASIGNATURA Estadística Descriptiva Para Psicólogos (EST-225)
ÍNDICE INTRODUCCIÓN... 21
INTRODUCCIÓN... 21 CAPÍTULO 1. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS... 23 1. ORGANIZACIÓN DE LOS DATOS... 23 1.1. La distribución de frecuencias... 24 1.2. Agrupación en intervalos...
DISTRIBUCIONES BIDIMENSIONALES
La estadística unidimensional estudia los elementos de un conjunto de datos considerando sólo una variable o característica. Si ahora incorporamos, otra variable, y se observa simultáneamente el comportamiento
Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va
Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va Jesús Fernández Fernández Carmen María Sordo García DEPARTAMENTO DE MATEMÁTICA APLICADA Y CIENCIAS DE LA COMPUTACIÓN UNIVERSIDAD DE CANTABRIA
ANÁLISIS DE DATOS UNIDIMENSIONALES
ANÁLISIS DE DATOS UNIDIMENSIONALES TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS MEDIDAS DE POSICIÓN MEDIDAS DE TENDENCIA CENTRAL MEDIA ARITMÉTICA OTRAS MEDIAS: GEOMÉTRICA.ARMÓNICA.MEDIA GENERAL MEDIANA
2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...
Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................
3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS
1. INTRODUCCIÓN Este tema se centra en el estudio conjunto de dos variables. Dos variables cualitativas - Tabla de datos - Tabla de contingencia - Diagrama de barras - Tabla de diferencias entre frecuencias
Unidad Nº 3. Medidas de Dispersión
Unidad Nº 3 Medidas de Dispersión 1.-Definición.- Las medidas de tendencia central nos enseñaban a localizar el centro de la información en una serie de observaciones o distribución, pero no a realizar
Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24
Comenzado el lunes, 25 de marzo de 2013, 17:24 Estado Finalizado Finalizado en sábado, 30 de marzo de 2013, 17:10 Tiempo empleado 4 días 23 horas Puntos 50,00/50,00 Calificación 10,00 de un máximo de 10,00
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro
INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016
ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una
Selección de fuentes de datos y calidad de datos
Selección de fuentes de datos y calidad de datos ESCUELA COMPLUTENSE DE VERANO 2014 MINERIA DE DATOS CON SAS E INTELIGENCIA DE NEGOCIO Juan F. Dorado José María Santiago . Valores atípicos. Valores faltantes.
Tema 2. Descripción Conjunta de Varias Variables
Tema 2. Descripción Conjunta de Varias Variables Cuestiones de Verdadero/Falso 1. La covarianza mide la relación lineal entre dos variables, pero depende de las unidades de medida utilizadas. 2. El análisis
Capítulo 6. Análisis bivariante de variables
Contenidos: Capítulo 6 Análisis bivariante de variables Distribución bidimensional de frecuencias ( tabla de correlación o contingencia ) Distribuciones marginales Coeficientes de Asociación Análisis de
Estadística. Análisis de datos.
Estadística Definición de Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un
ESTADÍSTICA SEMANA 3
ESTADÍSTICA SEMANA 3 ÍNDICE MEDIDAS DESCRIPTIVAS... 3 APRENDIZAJES ESPERADOS... 3 DEFINICIÓN MEDIDA DESCRIPTIVA... 3 MEDIDAS DE POSICIÓN... 3 MEDIDAS DE TENDENCIA CENTRAL... 4 MEDIA ARITMÉTICA O PROMEDIO...
1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA
MODELO DE REGRESIÓN LOGÍSTICA Introducción A grandes rasgos, el objetivo de la regresión logística se puede describir de la siguiente forma: Supongamos que los individuos de una población pueden clasificarse
NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011
NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011 CÓMO CARACTERIZAR UNA SERIE DE DATOS? POSICIÓN- dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos CENTRALIZACIÓN-
Análisis de datos cualitativos
Capítulo Análisis de datos cualitativos DEFINICIÓN DE VARIABLES CUALITATIVAS Son aquellas variables cuyos valores son un conjunto de cualidades no numéricas a las que se llama categorías o modalidades.
EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:
Ejercicio 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas: a) Marca de los coches. b) Peso de los coches. c) Número de coches vendidos
Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.
Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION. Distribuciones uni- y pluridimensionales. Hasta ahora se han estudiado los índices y representaciones de una sola variable por individuo. Son las distribuciones
Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor
Esquema (1) Análisis de la arianza y de la Covarianza ANOA y ANCOA 1. (Muestras independientes). () 3. Análisis de la arianza de Factores 4. Análisis de la Covarianza 5. Análisis con más de Factores J.F.
Medidas de centralización
1 1. Medidas de centralización Medidas de centralización Hemos visto cómo el estudio del conjunto de los datos mediante la estadística permite realizar representaciones gráficas, que informan sobre ese
UNIVERSIDAD AUTONOMA DE SANTO DOMINGO
UNIVERSIDAD AUTONOMA DE SANTO DOMINGO FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES DEPARTAMENTO DE ESTADISITICA CATEDRA Estadística Especializada ASIGNATURA Estadística Industrial (EST-121) NUMERO DE CREDITOS
Bioestadística: Estadística Descriptiva
Bioestadística: M. González Departamento de Matemáticas. Universidad de Extremadura Bioestadística 1 2 Bioestadística 1 2 Coneptos Básicos ESTADÍSTICA Ciencia que estudia el conjunto de métodos y procedimientos
Tema 1.- Correlación Lineal
Tema 1.- Correlación Lineal 3.1.1. Definición El término correlación literalmente significa relación mutua; de este modo, el análisis de correlación mide e indica el grado en el que los valores de una
ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL
ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL DEPARTAMENTO DE GEOGRAFÍA FACULTAD DE HUMANIDADES UNNE Prof. Silvia Stela Ferreyra Revista Geográfica Digital. IGUNNE. Facultad de Humanidades.
Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17
Román Salmerón Gómez Universidad de Granada RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17 exacta: aproximada: exacta: aproximada: RSG Incumplimiento de las
TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD
TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD Contrastes de hipótesis paramétricos para una y varias muestras: contrastes sobre la media, varianza y una proporción. Contrastes sobre la diferencia
2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual
Prueba Escrita de matemática / Nivel: Sétimo año 1. Estadística - Unidad estadística - Características - Datos u observaciones - Población - Muestra - Variabilidad de los datos - Variables cuantitativas
MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA
1 UNIVERSIDAD NACIONAL EXPERIMENTAL DE LOS LLANOS OCCIDENTALES EZEQUIEL ZAMORA VICE-RECTORADO DE PLANIFICACIÓN Y DESARROLLO SOCIAL PROGRAMA CIENCIAS SOCIALES Y JURIDICAS SUBPROGRAMA ADMINISTRACIÓN SUBPROYECTO:
NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012
NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012 Matilde Ungerovich- mungerovich@fisica.edu.uy DEFINICIÓN PREVIA: Distribución: función que nos dice cuál es la probabilidad de que cada suceso
Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m
Ing. Eduardo Cruz Romero eduar14_cr@hotmail.com w w w. tics-tlapa. c o m La estadística es tan vieja como la historia registrada. En la antigüedad los egipcios hacían censos de las personas y de los bienes
El Análisis de Correspondencias tiene dos objetivos básicos:
Tema 8 Análisis de correspondencias El Análisis de Correspondencias es una técnica de reducción de dimensión y elaboración de mapas percentuales. Los mapas percentuales se basan en la asociación entre
Teorema Central del Límite (1)
Teorema Central del Límite (1) Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadístico. La distribución de los valores que puede tomar un estadístico
Medidas de dispersión
Medidas de dispersión Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución. Las medidas de dispersión son: Rango o recorrido El rango es la diferencia
A qué nos referimos con medidas de dispersión?
Estadística 1 Sesión No. 4 Nombre: Medidas de dispersión. Contextualización A qué nos referimos con medidas de dispersión? En esta sesión aprenderás a calcular las medidas estadísticas de dispersión, tal
Dispone de 1 hora para resolver las siguientes cuestiones planteadas.
ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL FACULTAD DE ECONOMÍA Y NEGOCIOS EXAMEN TEÓRICO DE ESTADÍSTICA COMPUTARIZADA NOMBRE: PARALELO: Dispone de 1 hora para resolver las siguientes cuestiones planteadas.
Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos
Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,
A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords
A. PRUEBAS DE BONDAD DE AJUSTE: Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords B.TABLAS DE CONTINGENCIA Marta Alperin Prosora Adjunta de Estadística alperin@fcnym.unlp.edu.ar http://www.fcnym.unlp.edu.ar/catedras/estadistica
MEDIDAS DE POSICIÓN. FUENTE: Gómez, Elementos de Estadística Descriptiva Levin & Rubin. Estadística para Administradores
UNIVERSIDAD DE COSTA RICA ESCUELA DE ESTADÍSTICA Prof. Olman Ramírez Moreira MEDIDAS DE POSICIÓN FUENTE: Gómez, Elementos de Estadística Descriptiva Levin & Rubin. Estadística para Administradores 1 OBJETIVO
CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo...
CONTENIDO Prólogo a la 3. a edición en español ampliada.................................. Prólogo.................................................................. vii xvii 1. Métodos descriptivos................................................
ESTADÍSTICA I Código: 8219
ESTADÍSTICA I Código: 8219 Departamento : Metodología Especialidad : Ciclo Básico Prelación : Sin Prelación Tipo de Asignatura : Obligatoria Teórica y Práctica Número de Créditos : 3 Número de horas semanales
ESTADÍSTICA CON EXCEL
ESTADÍSTICA CON EXCEL 1. INTRODUCCIÓN La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en
MATEMÁTICA DE CUARTO 207
CAPÍTULO 1 CONJUNTOS NUMÉRICOS 1 Introducción... pág. 9 2 Números naturales... pág. 10 3 Números enteros... pág. 10 4 Números racionales... pág. 11 5 Números reales... pág. 11 6 Números complejos... pág.
Transformaciones de variables
Transformaciones de variables Introducción La tipificación de variables resulta muy útil para eliminar su dependencia respecto a las unidades de medida empleadas. En realidad, una tipificación equivale
ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO
ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO RELACIÓN DE PROBLEMAS PROPUESTOS DE UNA VARIABLE Curso académico 2004-2005 DPTO. ECONOMÍA APLICADA I 1. Obtener las frecuencias acumuladas, las frecuencias relativas
PROGRAMA ACADEMICO Ingeniería Industrial
1. IDENTIFICACIÓN DIVISION ACADEMICA Ingenierías DEPARTAMENTO Ingeniería Industrial PROGRAMA ACADEMICO Ingeniería Industrial NOMBRE DEL CURSO Análisis de datos en Ingeniería COMPONENTE CURRICULAR Profesional
15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:
15. Regresión lineal Este tema, prácticamente íntegro, está calacado de los excelentes apuntes y transparencias de Bioestadística del profesor F.J. Barón López de la Universidad de Málaga. Te recomiendo
2.- Tablas de frecuencias
º BACHILLERATO MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II TEMA 3.- ESTADÍSTICA DESCRIPTIVA PROFESOR: RAFAEL NÚÑEZ -----------------------------------------------------------------------------------------------------------------------------------------------------------------
M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.
Medidas de tendencia central y variabilidada para datos agrupados Media (media aritmética) ( X ) Con anterioridad hablamos sobre la manera de determinar la media de la muestra. Si hay muchos valores u
Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016
Pruebas de Hipótesis-ANOVA Curso de Seminario de Tesis Profesor Q Jose Avila Parco Año 2016 Análisis de la Varianza de un factor (ANOVA) El análisis de la varianza (ANOVA) es una técnica estadística paramétrica
TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)
VARIABLES Variable: característica de cada sujeto (cada caso) de una base de datos. Se denomina variable precisamente porque varía de sujeto a sujeto. Cada sujeto tiene un valor para cada variable. El
Regresión con variables independientes cualitativas
Regresión con variables independientes cualitativas.- Introducción...2 2.- Regresión con variable cualitativa dicotómica...2 3.- Regresión con variable cualitativa de varias categorías...6 2.- Introducción.
Curva de Lorenz e Indice de Gini Curva de Lorenz
Curva de Lorenz e Indice de Gini Curva de Lorenz La curva de Lorenz es útil para demostrar la diferencia entre dos distribuciones: por ejemplo quantiles de población contra quantiles de ingresos. También
CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS
CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS 1 POR QUÉ SE LLAMAN CONTRASTES NO PARAMÉTRICOS? A diferencia de lo que ocurría en la inferencia paramétrica, ahora, el desconocimiento de la población que vamos
Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.
ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Ejemplos y ejercicios de Estadística Descriptiva yanálisis de Datos Diplomatura en Estadística Curso 007/08 Descripción estadística de una variable. Ejemplos
UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)
UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro) 1. ESTADÍSTICA: CLASES Y CONCEPTOS BÁSICOS En sus orígenes históricos, la Estadística estuvo ligada a cuestiones de Estado (recuentos, censos,
REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)
1 REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS) 1. EN LA REGIÓN DE DRAKUL DE LA REPÚBLICA DE NECROLANDIA, LAS AUTORIDADES ECONÓMICAS HAN REALIZADO UNA REVISIÓN
1º CURSO BIOESTADÍSTICA
E.U.E. MADRID CRUZ ROJA ESPAÑOLA UNIVERSIDAD AUTÓNOMA DE MADRID CURSO ACADÉMICO 2012/2013 1º CURSO BIOESTADÍSTICA Coordinación: Eva García-Carpintero Blas Profesores: María de la Torre Barba Fernando Vallejo
Tercera práctica de REGRESIÓN.
Tercera práctica de REGRESIÓN. DATOS: fichero practica regresión 3.sf3 1. Objetivo: El objetivo de esta práctica es aplicar el modelo de regresión con más de una variable explicativa. Es decir regresión
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Facultad de Medicina Veterinaria y Zootecnia Licenciatura en Medicina Veterinaria y Zootecnia Clave 1212 Modalidad del curso: Carácter Métodos estadísticos en medicina
Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística
Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística Fuente de los comics: La Estadística en Comic. LarryGonicky Woollcatt Smith. Ed. ZendreraZariquiey, 1999 ESTADÍSTICA ESTADÍSTICA
Fundamentos de Estadística descriptiva
Fundamentos de Estadística descriptiva COCEPTOS GEERALES Llamaremos población estadística al conjunto de referencia sobre el cual van a recaer las observaciones. Se llama individuo a cada uno de los elementos
Indicaciones para el lector... xv Prólogo... xvii
ÍNDICE Indicaciones para el lector... xv Prólogo... xvii 1. INTRODUCCIÓN Qué es la estadística?... 3 Por qué estudiar estadística?... 5 Empleo de modelos en estadística... 6 Perspectiva hacia el futuro...
TRATAMIENTO ESTADÍSTICO
TRATAMIETO ESTADÍSTICO DESCRIPCIÓ DE LOS DATOS - Tipos de datos - Distribución de frecuencias - Representación de frecuencias DESCRIPCIÓ DE LOS DATOS - Medidas de posición - Medidas de dispersión ÚMEROS
Contrastes de hipótesis paramétricos
Estadística II Universidad de Salamanca Curso 2011/2012 Outline Introducción 1 Introducción 2 Contraste de Neyman-Pearson Sea X f X (x, θ). Desonocemos θ y queremos saber que valor toma este parámetro,
Conceptos básicos estadísticos
Conceptos básicos estadísticos Población Población, en estadística, también llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan las observaciones. El concepto
DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso
DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso 2009-10 1. Generalidades Instrumentación: En general la instrumentación comprende todas las técnicas, equipos y metodología relacionados con
ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA Diplomado en Salud Pública Autor: Clara Laguna En el capítulo anterior vimos que la Estadística es la Ciencia de la: Sistematización, recogida, MUESTREO ordenación y posterior presentación
Repaso de conceptos de álgebra lineal
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso
Curso de Estadística Básica
Curso de SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSIÓN MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez Objetivo Conocer y calcular las medidas de tendencia central y medidas de dispersión
UNIVERSIDAD NACIONAL DE FORMOSA FACULTAD DE HUMANIDADES
1. CARRERA: Profesorado en Química 2. ASIGNATURA: Estadística y Probabilidad 3. AÑO LECTIVO: 2016 UNIVERSIDAD NACIONAL DE FORMOSA FACULTAD DE HUMANIDADES 4. CARACTERES DE LA ASIGNATURA: Obligatoria 5.
UNIDAD 6. Estadística
Matemática UNIDAD 6. Estadística 2 Medio GUÍA N 1 MEDIDAS DE DISPERSIÓN PARA DATOS NO AGRUPADOS ACTIVIDAD Consideremos los siguientes conjuntos de valores referidos a las edades de los jugadores de dos
18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.
PRIMER CURSO DE E.S.O Criterios de calificación: 80% exámenes, 10% actividades, 10% actitud y trabajo 1 Números naturales. 2 Potencias de exponente natural. Raíces cuadradas exactas. 3 Divisibilidad. Concepto
PRIMER ENCUENTRO. Licenciatura en Enseñanza de la Matemática Mg. Lucía C. Sacco
PRIMER ENCUENTRO Unidad Nº1 Unidad Nº1: Estadística descriptiva Tipos de estadística: descriptiva e inferencial. Tipos de variables. Niveles de medición: datos de nivel nominal, de nivel ordinal, de nivel
Estadística Descriptiva de una variable con STATGRAPHICS
Estadística Descriptiva de una variable con STATGRAPHICS Ficheros empleados: AlumnosIndustriales.sf3, 1. Introducción El objetivo de este documento es la utilización de las técnicas de estadística descriptiva
MÓDULO 1: GESTIÓN DE CARTERAS
MÓDULO 1: GESTIÓN DE CARTERAS TEST DE EVALUACIÓN 1 Una vez realizado el test de evaluación, cumplimenta la plantilla y envíala, por favor, antes del plazo fijado. En todas las preguntas sólo hay una respuesta
Facultad de Ciencias Sociales - Universidad de la República
Facultad de Ciencias Sociales - Universidad de la República Estadística y sus aplicaciones en Ciencias Sociales Edición 2016 Ciclo Avanzado 3er. Semestre (Licenciatura en Ciencia Política/ Licenciatura
Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados.
Bases de Estadística Licenciatura en Ciencias Ambientales Curso 2oo3/2oo4 Introducción al SPSS/PC Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados.
Tipo de punta (factor) (bloques)
Ejemplo Diseño Bloques al Azar Ejercicio -6 (Pág. 99 Montgomery) Probeta Tipo de punta (factor) (bloques) 9. 9. 9.6 0.0 9. 9. 9.8 9.9 9. 9. 9.5 9.7 9.7 9.6 0.0 0. ) Representación gráfica de los datos
Relación 2: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS
INTRODUCCIÓN A LA ESTADÍSTICA Relación 2: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS 1.- Obtener las medias aritmética, geométrica, armónica para la siguiente distribución: SOL: 2,74; 2,544; 2,318
PROBLEMAS ESTADÍSTICA I
PROBLEMAS ESTADÍSTICA I INGENIERÍA TÉCNICA EN INFORMÁTICA CURSO 2002/2003 Estadstica Descriptiva Unidimensional 1. Un edificio tiene 45 apartamentos con el siguiente número de inquilinos: 2 1 3 5 2 2 2
Algebra lineal y conjuntos convexos
Apéndice A Algebra lineal y conjuntos convexos El método simplex que se describirá en el Tema 2 es de naturaleza algebraica y consiste en calcular soluciones de sistemas de ecuaciones lineales y determinar
Prácticas de Ecología Curso 3 Práctica 1: Muestreo
PRÁCTICA 1: MUESTREO Introducción La investigación ecológica se basa en la medición de parámetros de los organismos y del medio en el que viven. Este proceso de toma de datos se denomina muestreo. En la
ESTADÍSTICA. Tema 4 Regresión lineal simple
ESTADÍSTICA Grado en CC. de la Alimentación Tema 4 Regresión lineal simple Estadística (Alimentación). Profesora: Amparo Baíllo Tema 4: Regresión lineal simple 1 Estructura de este tema Planteamiento del