ANÁLISIS EXPLORATORIO DE DATOS



Documentos relacionados
Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

Tema 1: Estadística Descriptiva Unidimensional

INTRODUCCIÓN. Técnicas estadísticas

EXPERIMENTACIÓN COMERCIAL(I)

Medidas de Tendencia Central y de Variabilidad

Tema 8 - Estadística - Matemáticas CCSSI 1º Bachillerato 1

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

Capitalización y descuento simple

Pruebas Estadísticas de Números Pseudoaleatorios

Relaciones entre variables

Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y serán objeto de nuestro estudio.

1. Notación y tabulación

TEMA 4 Variables aleatorias discretas Esperanza y varianza

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

12-16 de Noviembre de Francisco Javier Burgos Fernández

Cálculo y EstadísTICa. Primer Semestre.

TEMA 1.- CONCEPTOS BÁSICOS

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

Tema 1: Análisis de datos unidimensionales

ESTADÍSTICA DESCRIPTIVA Métodos Estadísticos Aplicados a las Auditorías Sociolaborales

Estadística Unidimensional: SOLUCIONES

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

SOLUCIONES A LOS EJERCICIOS DE LA UNIDAD

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

1.1 Ejercicios Resueltos Tema 1

Trabajo y Energía Cinética

4ºB ESO Capítulo 12: Estadística LibrosMareaVerde.tk

Medidas de centralización

DEFINICIÓN DE INDICADORES

Probabilidad Grupo 23 Semestre Segundo examen parcial

UNIVERSIDAD DE SONORA

MODELOS DE ELECCIÓN BINARIA

Smoothed Particle Hydrodynamics Animación Avanzada

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

ESTADISTÍCA. 1. Población, muestra e individuo. 2. Variables estadísticas. 3. El proceso que se sigue en estadística

Correlación y regresión lineal simple

TÉCNICAS AUXILIARES DE LABORATORIO

Tema 4: Variables aleatorias

REGRESION Y CORRELACION

CAPÍTULO 4 MARCO TEÓRICO

LECTURA 07: MEDIDAS DE TENDENCIA CENTRAL (PARTE II) LA MEDIANA Y LA MODA TEMA 17: LA MEDIANA Y LA MODA

ACTIVIDADES INICIALES

Medidas de Variabilidad

Análisis de error y tratamiento de datos obtenidos en el laboratorio

SEMANA 5 MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

Análisis de Regresión y Correlación

Índice de Precios de las Materias Primas

Glosario básico. de términos estadísticos

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población.

COLEGIO INGLÉS MEDIDAS DE DISPERSIÓN

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

ANÁLISIS DESCRIPTIVO CON SPSS

CAPÍTULO 3 METODOLOGÍA. En el siguiente capítulo se presenta al inicio, definiciones de algunos conceptos actuariales

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

3. VARIABLES ALEATORIAS.

Introducción a la Física. Medidas y Errores

Diseño y Análisis de Experimentos en el SPSS 1

Unidad I Definición de reacción de combustión Clasificación de combustibles

Tema 1 Descripción de datos: Estadística descriptiva unidimensional Estadística descriptiva

MÉTODOS PARA PROBAR NUMEROS

Economía de la Empresa: Financiación

MEDIDAS DESCRIPTIVAS

TEMA 10. OPERACIONES PASIVAS Y OPERACIONES ACTIVAS.

METODOLOGÍA MUESTRAL ENCUESTA A LAS PEQUEÑAS Y MEDIANAS EMPRESAS

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

Variables Aleatorias. Variables Aleatorias. Variables Aleatorias. Objetivos del tema: Al final del tema el alumno será capaz de:

Tema 6. Estadística descriptiva bivariable con variables numéricas

Organización y resumen de datos cuantitativos

Problemas donde intervienen dos o más variables numéricas

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Transcripción:

ANÁLISIS EXPLORATORIO DE DATOS 1. INTRODUCCIÓN HISTÓRICA 2 1.1 La Estadístca como cenca 2 1.2 Algunos problemas que resuelve la Estadístca 2 2. INTRODUCCIÓN A LA ESTADÍSTICA 3 2.1. Concepto y Objetvo de la Estadístca 3 2.1.1. Campo de Actuacón 3 2.1.2. Forma de Actuacón 3 2.2. Las Cencas Estadístcas 4 2.2.1. Estudo Estadístco 4 3. Generaldades sobre la Estadístca Descrptva 5 3.1. Introduccón 5 3.2. Termnología Estadístca 5 3.3. Dstrbucones de Frecuencas 7 3.3.1. Tablas Estadístcas 8 3.4. Gráfcos Estadístcos 10 3.4.1. Gráfcos para varables cualtatvas o atrbutos 10 3.4.2. Gráfcos para Varables Cuanttatvas 12 4. MEDIDAS DE CENTRALIZACIÓN, DISPERSIÓN, POSICIÓN Y FORMA. _14 4.1. Meddas de centralzacón 14 4.2. Meddas de dspersón 16 4.2.1. Meddas de dspersón absolutas no referentes a promedos 16 4.2.2. Meddas de dspersón relatvas no referentes a promedos 17 4.2.3. Meddas de dspersón absolutas referentes a promedos 17 4.2.4. Meddas de dspersón relatvas 19 4.3. Parámetros de poscón. 19 4.4. Meddas de Forma 22 Coefcentes de asmetría 22 Págna 1 de 41

1. INTRODUCCIÓN HISTÓRICA 1.1 La Estadístca como cenca La Estadístca actual es el resultado de la unón de dos dscplnas que evoluconaron de manera ndependente hasta conflur en el sglo XIX, que son: Cálculo de probabldades (nace en el s. XVII) Estadístca (o cenca del Estado, del latín Status) que estuda la descrpcón de los datos. En el dcconaro de la lengua aparece la palabra Estadístca bajo el sgnfcado de censo o recuento de la poblacón, de la produccón, del tráfco o de cualquer otra entdad colectva. Pero la Estadístca como cenca es mucho más ampla que las estadístcas que aparecen publcadas en los Medos de Comuncacón. Es la cenca encargada de recoger, analzar e nterpretar los datos numércos relatvos a un conjunto de elementos, y como cenca aplcada se ocupa del estudo de los métodos y procedmentos para efectuar esa recogda, clasfcacón y resumen de los datos. 1.2 Algunos problemas que resuelve la Estadístca Descrpcón de datos Es el prmer problema que aborda. Se trata de encontrar procedmentos para resumr la nformacón obtenda de los datos. Análss de Muestras En numerosas ocasones no es posble estudar todos los elementos de una poblacón (ya sea por razones técncas o económcas), por lo que se toma una muestra. Contrastacón de Hpótess Un objetvo frecuente en la nvestgacón empírca es contrastar una hpótess. Por ejemplo: Es una nueva medcna efcaz para un catarro?. La contrastacón de hpótess requere una metodología para comparar las predccones resultantes de la hpótess con los datos observados y el dseño de expermentos para garantzar que las conclusones que se extragan de la expermentacón no estén nvaldadas por factores no controlados. Predccón Muchas varables, sobre todo económcas, tenen certa nerca en su evolucón y aunque son valores desconocdos, el estudo de su hstora es nformatvo para prever su evolucón futura. Págna 2 de 41

2. INTRODUCCIÓN A LA ESTADÍSTICA 2.1. Concepto y Objetvo de la Estadístca La Estadístca engloba por un lado las cencas abstractas (utlzan el método deductvo, y medante una sere de axomas y proposcones obtenen resultados) y tambén las cencas empírcas (que son aquellas que obtenen resultados observando y expermentando todo aquellos que queren estudar). La Estadístca es la cenca que estuda como debe emplearse la nformacón que se tene o se puede obtener y como dar una guía de accón en stuacones práctcas que entrañan ncertdumbre. Su objetvo prncpal es obtener nformacón, analzarla, examnarla y predecr. 2.1.1. Campo de Actuacón Hay dos tpos de fenómenos o expermentos que se pueden observar y estudar, pero la Estadístca no se ocupa del estudo de ambos, sólo de uno de ellos, que son los fenómenos aleatoros o de azar. Los dos tpos de fenómenos son: Fenómenos causales o determnístcos.- Son los que están sometdos a leyes, repetdos en las msmas condcones nos dan los msmos resultados. (Así, el trar un objeto desde un certa altura muchas veces, con la msma masa, tarda sempre el msmo tempo). Fenómenos aleatoros o de azar. No están sometdos a leyes. Se caracterzan por la mposbldad de conocer los resultados cuando se repten en guales condcones. Sólo podemos predecr lo que sucederá después de repetr el fenómeno o expermento varas veces). (Ejemplo, lanzar una moneda o un dado al are, sacar una carta de una baraja ). 2.1.2. Forma de Actuacón 1. Causal: Analza en cada caso los efectos, buscando las causas que producen dchos efectos. 2. Estadístco: Estuda los fenómenos aleatoros, analzando conjunto de ndvduos. Págna 3 de 41

Las Cencas Estadístcas Podemos clasfcar la Estadístca en dos grandes bloques, que a su vez tenen más subdvsones. 1. Estadístca Descrptva: Se utlza cuando los resultados del análss estadístco no pretende r más allá del conjunto de datos nvestgados. Descrbe numércamente, analza y representa un conjunto de datos ordenados medante la utlzacón de métodos numércos, tablas y gráfcas, smplfcando y resumendo la nformacón. 2. Estadístca Inferencal: Se utlza para predecr datos futuros a partr de los valores observados, pudendo hacer una ley aproxmada de lo que ocurra en el futuro. Se apoya en el cálculo de probabldades y a partr de unos datos, efectúa estmacones, decsones, predccones y otras generalzacones sobre un conjunto mayor de datos. En resumen, una clase de Estadístca se refere a lo que ocurre y otra a lo que ocurrrá. Entre ambas hay un vacío que lo llena el concepto de probabldad, el cual permte pasar de la estadístca descrptva a la nferencal, ncorporando la medda de probabldad. Estudo Estadístco Antes de hacer un estudo estadístco, tenemos que plantearnos ben que problema vamos a estudar, y cuáles van a ser los objetvos de nuestra nvestgacón, fjando los pasos a segur, las clasfcacones que se van a realzar, las varables que debemos observar y cómo medrlas, los gráfcos que vamos a representar Para la elaboracón de los datos, hay que realzar una buena recogda de la nformacón muestral, pues una mala recogda, puede anular el estudo. Tenemos dos procedmentos: a) Muestreo. Consste en elegr al azar una muestra medante dferentes tpos de muestreo que estudaremos más adelante y observar pasvamente esa muestra anotando los valores. b) Dseño de expermentos. Consste en fjar los valores de certas varables y observar las respuestas de otras, es decr, se plantean los objetvos que se pretenden delmtando la nformacón que se va a estudar. Págna 4 de 41

Una vez que hemos recogdo los datos, tenemos que: 1. Hacer una recoplacón y reduccón de dchos datos a unas pocas meddas representatvas 2. Confecconar tablas acompañadas de gráfcos para una mejor vsón de los datos 3. Interpretar los resultados y obtener conclusones para predecr y tomar decsones estadístcas. 3. Generaldades sobre la Estadístca Descrptva 3.1. Introduccón La Estadístca Descrptva, pretende dar una descrpcón numérca, ordenada y smplfcada, a veces con la ayuda de representacones gráfcas, de la nformacón obtenda en la recogda de datos de un fenómeno aleatoro. Ya vmos qué era un fenómeno aleatoro (aquel que no está sujeto a leyes. Se caracterza por la mposbldad de conocer los resultados cuando se repten en guales condcones. Solo podemos predecr lo que sucederá después de repetr el fenómeno o expermentos varas veces. Todos los fenómenos aleatoros pueden ser descrtos estadístcamente, por ejemplo decmos que al lanzar una moneda tenemos las msmas posbldades de sacar cara,c, que de sacar cruz, X). 3.2. Termnología Estadístca Ya djmos que el análss estadístco, está formado por dos elementos fundamentales como ya hemos analzado: - Descrpcón del conjunto de nformacón - Obtencón de conclusones de toda la poblacón cuando sólo conocemos parte de ella, y predccón de consecuencas futuras. Térmnos más usuales: Poblacón (colectvo o unverso). Conjunto de undades, elementos o ndvduos sobre los que se realza el estudo, y que cumplen una determnada característca o propedad. A cada elemento de la poblacón se le llama ndvduos o undades estadístcas. El tamaño de la poblacón es el número de ndvduos que tene dcha poblacón, y lo denotamos por N. Hay dos tpos de poblacones: Fnta e Infnta. Págna 5 de 41

La poblacón que se vaya a estudar debe defnrse con mucha precsón, por ejemplo, s queremos hacer un estudo de los hábtos de estudo de los estudantes de una Unversdad, debemos de saber a qué tpo de estudantes nos refermos, s sólo de los que assten a clase o tambén de los que no assten Muestra: es cualquer subconjunto de la poblacón. La muestra es una representacón de la poblacón, por ello es mportante su eleccón. El proceso medante el cual se extrae una muestra se llama muestreo. Uno de los tpos de muestreo más utlzado es el muestreo aleatoro smple (m.a.s.) en el que cada ndvduo de la poblacón tene la msma probabldad de ser ncludo en la muestra. Exsten varos motvos por las que se elge una muestra, una de ellas es el coste que supone hacer un estudo de una poblacón entera Pero cudado! No sempre es necesaro tomar una muestra, ya que s queremos estudar el fracaso escolar de un curso determnado, deberemos tomar todos los alumnos de dcho curso, y no una muestra de ellos. Caracteres estadístcos: es una propedad que permte clasfcar a los ndvduos de una poblacón. Se dstnguen dos tpos: a) Cualtatvos. Son aquellos cuya varacón se recoge por la presentacón de dstntas cualdades, es decr, los que no se pueden medr. Ejemplo: estado cvl, color de ojos, sexo, profesón de una persona, carrera que pensa elegr un alumno. Las modaldades son las dferentes stuacones de un carácter, por ejemplo, las modaldades del carácter profesón podrían ser: economsta, pscólogo, nformátco, perodsta b) Cuanttatvos. Son aquellos que se pueden medr o contar y están formadas por cantdades numércas. Ejemplo: talla y peso de un ndvduo, número de accones en Bolsa, número de alumnos matrculados en una unversdad Varables estadístcas. Cuando hablemos de varable, haremos referenca a un símbolo (X, Y, A, B.. ) que puede tomar cualquer modaldad (o valor) de un conjunto determnado, que llamaremos domno de la varable o rango. En funcón del tpo de domno, clasfcamos las varables en: a) Varables cualtatvas: cuando las modaldades posbles son de tpo nomnal. Por ejemplo una varable de color, A { rojo, azul, verde } b) Varables cuanttatvas ordnales: son las que, aunque sus modaldades son de tpo nomnal, es posble establecer un orden entre ellas. Por ejemplo, s estudamos la llegada a la meta de un corredor en una competcón de 20 partcpantes, su clasfcacón C es tal que C {1º, 2º, 3º,, 20º}. Otro ejemplo de varable cuanttatva ordnal es el nvel de dolor, D, que sufre un pacente ante un tratamento médco: D { nexstente, poco ntenso, moderado, fuerte }. Págna 6 de 41

c) Varables cuanttatvas: son las que tenen por modaldades cantdades numércas con las que podemos hacer operacones artmétcas. Dentro de este tpo de varables podemos dstngur dos grupos: * Dscretas: cuando no admten sempre una modaldad ntermeda entre dos cualesquera de sus modaldades. Un ejemplo es el número de caras, obtendo en el lanzamento repetdo de una moneda. Es obvo que cada valor de la varable es un número natural. * Contnuas: cuando admten una modaldad ntermeda entre dos cualesquera de sus modaldades, por ejemplo, el peso X de un nño al nacer. En este caso los valores de las varables son número reales, es decr, X R. Ocurre a veces, que una varable cuanttatva contnua por naturaleza, aparece como dscreta. Este es el caso en que hay lmtacones en los que concerne a la precsón del aparato de medda de esa varable, por ejemplo, s medmos la altura en metros de personas con una regla que ofrece dos decmales de precsón, podemos obtener C {, 1.50, 1.51, 1.52, 1.53, }. En realdad lo que ocurre es que con cada una de esas medcones expresamos que el verdadero valor de la msma se encuentra en un ntervalo de rado 0.005. 3.3. Dstrbucones de Frecuencas La forma de la dstrbucón de los datos (de una varable) se denomna dstrbucón de frecuencas. El estudo de las dstrbucones de frecuencas tene por objeto la construccón de tablas de frecuencas que podrán utlzarse para una mejor presentacón e nterpretacón de la nformacón contenda en los datos observados en la muestra. En este apartado, nos refermos a las dstrbucones undmensonales de frecuencas, que son aquellas utlzadas para descrbr una varable ndvdual sn tener en cuenta la nformacón de otras varables que puderan haberse ncludo en el estudo. Para poder obtener la forma general de una dstrbucón de frecuencas undmensonal, es necesaro ntroducr algunos conceptos prevos. Consderemos una poblacón estadístca de N ndvduos, descrta según una varable o carácter X, cuyas modaldades han sdo agrupadas en un número n de clases, denotándolo como x 1, x 2,..., x n. Para cada una de estas clases x, =1,..., n, vamos a defnr: Frecuenca absoluta de la clase x : Es el número f de observacones que exsten en dcha clase. Dcho de otra forma, es el número de veces que se repte dcho valor. Se denota medante f. Frecuenca absoluta acumulada de la clase x : Es el número de elementos de la poblacón cuya modaldad es nferor o equvalente a las de la clase x. Se denota por F. Págna 7 de 41

Además se cumple que: F = f1 + f 2 + K+ f = j= 1 f j Frecuenca relatva de la clase x : Es el cocente entre las frecuencas absolutas de dcha clase y el número total de observacones o datos que denotamos por N, n f es decr: h =, donde N = f1 + f 2 + K + f n = f = Fn N S estamos nteresados en trabajar con porcentajes, sólo tenemos que multplcar la frecuenca relatva por 100 y así representamos el porcentaje (%) de la poblacón que comprende a esa clase. Frecuenca relatva acumulada de la clase x : es el número de elementos de la poblacón que están en alguna de las clases nferor o gual a la case x. Se denota por H. Resulta: F H = N = 1 3.3.1. Tablas Estadístcas Cuando se realza un estudo y se recoge un conjunto de datos, como normalmente ese conjunto de datos es muy grande, es necesaro dsponer de alguna herramenta medante la cual podamos vsualzar esos datos. Para ello, una vez ordenados, hacemos un recuento de dchos datos y realzamos tablas estadístcas. En estas tablas, deberán fgurar los valores de la varable de estudo, y sus frecuencas correspondentes. Vamos a ver el tpo de tablas que podemos utlzar según la varable estadístca sea dscreta o contnua. Modaldad (x ) Frecuenca absoluta (f ) Frecuenca absoluta acumulada (F ) Frecuenca relatva (h ) Frecuenca relatva acumulada (H ) La prncpal dfcultad para la obtencón de una dstrbucón de frecuencas, resde en la construccón de las modaldades, ya que ésta varará de acuerdo con el tpo de varable que se pretende descrbr: s la varable es cualtatva, se tomarán como modaldades las dstntas respuestas observadas de la muestra; s la varable es dscreta (que tome pocos valores dstntos), las modaldades concdrán con los dstntos valores meddos en la muestra; s la varable es contnua (o ben dscreta, pero toma muchos valores dstntos), se tomarán como modaldades los ntervalos de clase. Págna 8 de 41

Intervalos de clase.- Son los ntervalos donde se encuentran los datos agrupados cuando se estudan varables estadístcas contnuas, se denotan por [L -1, L ). El número de clases o ntervalos y la longtud que debemos consderar, depende de cada problema y de la utlzacón que se quera dar a las tablas estadístcas. Lo normal es que todos los ntervalos sean de la msma ampltud (L - L -1 ), aunque pueden exstr múltples razones donde se aconsejen tomar ntervalos de ampltud varable, como puede ser el caso en el que exstan uno o dos ntervalos donde se concentren la mayoría de los datos. Una vez construdos los ntervalos de clase, se elge un representante en cada uno de ellos. Este representante es el valor medo de cada ntervalo de clase, y se llama marca de clase. Luego la marca de clase para cada ntervalo se calcula del sguente modo: x = L L 1 2 La construccón de los ntervalos de clase, ntroduce algunas cuestones subjetvas, como son: 1) Cuántos ntervalos construr? Aunque no exste una regla general para usar, es evdente que el número de ntervalos debe ser mayor al aumentar el tamaño muestral, por lo que se recomenda construr tantos ntervalos como el número entero (entre 5 y 20) más próxmo a n. 2) Qué valor se elge como extremo nferor del prmer ntervalo L 0? Se toma como L 0 un valor un poco menor que el mínmo de la muestra (o el mínmo). Las tablas para datos contnuos, quedan de la sguente manera: L -1 - L x Marca de clase Frecuenca absoluta (f ) Frecuenca absoluta acumulada (F ) Frecuenca relatva (h ) Frecuenca relatva acumulada (h ) Aunque podamos ver la forma general de una dstrbucón en una tabla de frecuencas, la mejor forma es medante un hstograma de frecuencas (que es una representacón vsual de los datos en la que pueden observarse tres propedades esencales de una dstrbucón: forma, tendenca central o acumulacón y dspersón o varabldad). Págna 9 de 41

3.4. Gráfcos Estadístcos Una de las herramentas más populares y utlzada dentro de la estadístca descrptva es, sn lugar a dudas, el análss gráfco de los datos. Como hemos vsto, las tablas estadístcas, resumen los datos de que dsponemos sobre una poblacón y dan toda la nformacón necesara, pero como se suele decr, Una magen vale más que ml palabras, luego es convenente expresar la nformacón de que dsponemos medante un gráfco o dagrama, según proceda, con el fn de hacerla más clara y captar de un solo vstazo las característcas de los datos. Gracas a los ordenadores y los programas que se han desarrollado en el campo de la nformátca se pueden realzar fáclmente todo tpo de representacones gráfcas y de gran caldad. Veamos qué tpo de gráfcos podemos realzar dependendo de la varable estadístca que utlcemos en cada caso. 3.4.1. Gráfcos para varables cualtatvas o atrbutos (*) Dagrama de barras o bastones. Este tpo de gráfcos se representan de forma cartesana en un eje de coordenadas medante unas barras que recorren el eje de ordenadas (Y) desde su orgen hasta el valor del punto representado, colocando en el eje de abcsas (X) las dferentes modaldades de la varable y en el eje de ordenadas (Y) la frecuenca relatva o absoluta, según proceda. Este tpo de gráfcos tambén se puede hacer en el espaco, ncorporando una nueva varable (Z) y realzando un dbujo trdmensonal. (*) Dagramas de sectores. Se utlzan para hacer comparacones de las dstntas modaldades de un carácter medante sectores crculares. Para construrlos se dvde un círculo en tantas porcones como modaldades exstan de manera que el ángulo central de cada sector ha de ser proporconal a la frecuenca absoluta o relatva correspondente. El arco de cada porcón se calcula realzando una smple regla de tres: N 360º 360º. f α f Entonces α = son los grados que tene que tener cada N modaldad según su frecuenca. Este tpo de dagramas recbe tambén el nombre de tartas o questos, por la forma que tene su representacón. Págna 10 de 41

(*) Pctogramas. Quzás es el tpo de gráfco más bonto a la vsta, pues en él aparecen dbujos que hacen alusón al fenómeno estudado, medante su tamaño, forma Para realzarlos se representan a dferentes escalas un msmo dbujo tenendo en cuenta que el perímetro del dbujo tene que ser proporconal a la frecuenca, pero esto puede ncurrr en un efecto vsual engañoso ya que a frecuenca doble corresponde un dbujo de área cuádruple, con lo cual tene un nconvenente debdo a la falta de precsón. A pesar de este nconvenente este tpo de dbujos son muy utlzados por los medos de comuncacón a la hora de hacer que el públco no especalzado comprenda temas complejos sn necesdad de dar una explcacón complcada. Págna 11 de 41

3.4.2. Gráfcos para Varables Cuanttatvas Para este tpo de varables, tenemos dferentes gráfcos según el tpo de frecuenca que usemos y además tenemos que tener en cuenta s la varable es dscreta o contnua. Según el tpo de frecuenca usada se dvden en: a) Dagramas dferencales. Representan el número o porcentaje de elementos de una modaldad. Se representan a partr de las frecuencas absolutas o relatvas. b) Dagramas ntegrales. Representan el número de elementos de una modaldad nferor o gual a la dada. Se representan a partr de las frecuencas acumuladas. Este tpo de dagramas no tene nngún sentdo para varables cualtatvas. 3.4.2.1. GRÁFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS (*) Dagrama de barras. Su representacón es déntca a la explcada para varables cualtatvas, las barras deben de ser estrechas para mostrar que los valores que toma la varable son dscretos. Se usan cuando se pretende hacer un dagrama dferencal utlzando varables dscretas. En el caso de realzar un dagrama ntegral, es decr, usando frecuencas acumuladas, las barras aparecen formando una escalera. 3.4.2.2. GRÁFICOS PARA BARIABLES CUANTITATIVAS CONTINUAS (*) Hstograma. Para construrlo se representa sobre el eje de abcsas los extremos de las clases defndas por los ntervalos de clase L -1 L. Se usan cuando se pretende hacer un dagrama dferencal utlzando varables contnuas. Sobre el eje de abcsas, se construyen rectángulos, tomando como base la ampltud del ntervalo y como altura la frecuenca de cada ntervalo, sempre que la ampltud de todos los ntervalos sea la msma, puesto que el área se obtene multplcando la base por la altura. Por lo tanto, en este caso, cada altura da dea de la densdad o concentracón de datos en esa zona: -Más altura aparecen más valores de la varable. -Menos altura los datos que aparecen son más escasos. Págna 12 de 41

S los ntervalos son de dferentes ampltudes, las alturas de los rectángulos deben ser calculadas tenendo en cuenta que el área de cada rectángulo tene que ser proporconal a la frecuenca de cada ntervalo. El número de ndvduos de la muestra vene dado por el área del polígono que forma el hstograma. Este tpo de gráfcos representa frecuencas medante áreas. Y s se expresan frecuencas relatvas, el área total encerrada en el hstograma es uno. A dferenca del dagrama de barras, los rectángulos vertcales, se representan contguos para reflejar la dea de que la varable es contnua. La forma del hstograma refleja propedades mportantes de la varable estadístca a la que se refere. A la hora de hacer un hstograma es muy mportante hacer una buena eleccón de la cantdad de clases a utlzar. Para este fn se utlzan dstntas reglas, una de ellas consste en tomar el número de clases gual al entero más próxmo a la raíz cuadrada del número de observacones que se estudan, N. (*) Polígono de frecuencas. Se construye fáclmente una vez representado el hstograma, y consste en unr los puntos del hstograma que corresponden a las marcas de clase de cada ntervalo medante una recta. El dagrama ntegral para varables contnuas se denomna tambén polígono de frecuencas acumulado u ojva. En estos polígonos obtendos se aprecan con clardad propedades mportantes, como s la curva es no crecente, de donde a donde se desplaza La dferenca esencal entre los hstogramas y los polígonos de frecuencas es que estos últmos proporconan una representacón más suavzada de la dstrbucón de frecuencas. 3.4.2.3. RESUMEN: DIAGRAMAS SEGÚN EL TIPO DE VARIABLES Tpo de varable Dagrama o gráfco Cualtatva Barras, sectores, pctogramas Cuanttatva (dscreta) Dferencal (barras) Integral (escalera) Cuanttatva (contnua) Dferencal (hstograma, polígono de frecuencas) Integral (dagramas acumulatvos) Págna 13 de 41

4. MEDIDAS DE CENTRALIZACIÓN, DISPERSIÓN, POSICIÓN Y FORMA. Pasamos a estudar las dstntas formas de resumr las dstrbucones de frecuencas estudadas medante meddas de poscón (o de centralzacón), tenendo presente el error cometdo en el e resumen medante las correspondentes meddas de dspersón. A su vez, analzaremos la forma de la dstrbucón medante las meddas de forma. El hstograma de frecuencas ya nos daba una representacón vsual de las tres propedades anterores. Se trata ahora de cuantfcar estos conceptos. 4.1. Meddas de centralzacón Se trata de encontrar meddas que sntetcen las dstrbucones de frecuencas. En vez de manejar todos los datos sobre las varables, podemos caracterzar su dstrbucón de frecuencas medante algunos valores numércos, elgendo como resumen de los datos un valor central alrededor del cual se encuentran dstrbudos los valores de la varable. Meda artmétca: se defne como la suma de los datos dvdda por el número de ellos. Es decr: m m 1 X = f x = h x N = 1 = 1 donde las f son las frecuencas absolutas y h las relatvas. Cuando la varable es contnua, en vez de la observacón, cogemos la marca de clase. Meda artmétca ponderada: Es un caso partcular de la meda artmétca, que aparece cuando se otorga a cada valor de la varable x una ponderacón o peso w. Así, tenemos: X m = 1 = n Moda: Es el valor de la varable estadístca que presenta mayor frecuenca. No tene por qué ser únca, y puede no poderse calcular. Según el número de modas, la dstrbucón recbe el nombre de unmodal, bmodal, trmodal Para varables contnuas: M = 1 h w x w 1 0 = a + c, sendo c=b-a, [a,b) el ntervalo h1 + h2 modal. (El ntervalo modal es el de mayor frecuenca, c= longtud del ntervalo modal). Además, h 1, h 2 son las alturas del hstograma: Págna 14 de 41

120 Consumo (l/100km) 100 h 1 80 h 2 60 40 Frecuenca 20 0 5,0 Desv. típ. = 3,95 Meda = 11,2 N = 398,00 10,0 15,0 20,0 25,0 7,5 12,5 17,5 22,5 Consumo (l/100km) Ejemplo. L -1 -L [82-87) 3 [87-92) 7 [92-97) 8 [97-102) 8 [102-107) 7 [107-111) 7 f En caso de no necestar n la marca de clase n la frecuenca relatva, no las calculo. Como dos ntervalos tenen la msma frecuenca, el ntervalo modal es la suma de los dos, es decr, M o =[92-102), luego c=102-92=10. h 1 = 8 7 h 2 = 8 7 1 Por tanto, M 0 = 92 + 10 = 97 [92 102) 1+ 1 Págna 15 de 41

Medana (M d ): es el valor de la varable que deja el 50% de los datos a un lado y a otro. Tenemos que dferencar entre: Varables dscretas: - S el número de datos es mpar M d es el valor central. - S el número de datos es par M d es la semsuma de los valores centrales. Varables contnuas (Veremos su valor cuando estudemos los parámetros de dspersón). 4.2. Meddas de dspersón Permten calcular la representatvdad de una medda de poscón, para lo cual es precso cuantfcar la dstanca entre los dferentes valores de la dstrbucón respecto a dcha medda. (A esta dstanca es a lo que se denomna varabldad o dspersón de la dstrbucón). La fnaldad de estas meddas es estudar hasta qué punto para una determnada dstrbucón de frecuencas, las meddas de tendenca central o de poscón son representatvas como síntess de toda la nformacón de la dstrbucón. Medr la representatvdad de una medda de poscón equvale a cuantfcar la separacón de los valores de la dstrbucón respecto a dcha medda. A la mayor o menor separacón de los valores de una dstrbucón respecto del valor de poscón se le llama dspersón o varabldad. Se dstnguen entre: Meddas de dspersón relatvas (no dependen de las undades de medda) Meddas de dspersón absolutas (Tambén se pueden dstngur las meddas en las formas anterores, según sean meddas referentes a promedos o no lo sean). 4.2.1. Meddas de dspersón absolutas no referentes a promedos Rango o Recorrdo: es la dferenca entre el mayor y menor valor de una dstrbucón. (Para varables dscretas será max{x }- mn{x }, y para varables contnuas será L p L o ). Recorrdo ntercuartílco: dferenca entre el tercer y el prmer cuartel (ya lo veremos) Págna 16 de 41

4.2.2. Meddas de dspersón relatvas no referentes a promedos Coefcente de apertura: cocente entre el mayor y menor valor de una dstrbucón) Recorrdo relatvo: cocente entre el recorrdo y la meda. Recorrdo semcuartíclo: cocente entre el recorrdo ntercuartílco y la suma recorrdo nt ercuartílco del prmer y tercer cuartel =. er er 1 cuartl + 3 cuartl 4.2.3. Meddas de dspersón absolutas referentes a promedos Estas mden el error que cometemos usando el promedo en cuestón como resumen de datos. Desvacones medas:.desvacón meda respecto de la meda artmétca: D. M. = x x N f.desvacón meda respecto de la medana: D. M. = x M N d f (el problema de estas es que es mas complcado trabajar con valores absolutos). Varanza, cuasvaranza, desvacón típca y error estándar De todas las meddas de dspersón absoluta respecto de la meda artmétca, la varanza y su raíz cuadrada son las más mportantes..varanza: 2 σ n = = 1 ( x X ) N 2 f Págna 17 de 41

Propedades de la varanza: -Nunca puede ser negatva. -Un cambo de orgen en la varable no afecta a la varanza -Al multplcar los valores por una constante k, la varanza queda multplcada por esa constante al cuadrado..desvacón típca. Así como las desvacones medas venen expresadas en las msmas undades de medda que la dstrbucón, la varanza no vendrá dada en las undades correspondentes sno elevadas al cuadrado, así la desvacón típca: σ = + n = 1 ( x X ) N 2 f.cuasvaranza. Es un estadístco muy usado por sus propedades muestrales, se defne por: S 2 = n = 1 ( x X ) N 1 2 f.cuasdesvacón típca S = + n = 1 ( x X ) N 1 2 f.error estándar e = S N Págna 18 de 41

4.2.4. Meddas de dspersón relatvas Se utlza para comparar meddas de centralzacón o promedos..coefcente de varacón de Pearson: compara medas artmétcas de varas dstrbucones que pueden venr, en general, en undades dferentes: σ C. V. = X (Al efectuar el cocente, elmnamos las undades, luego C.V. es admensonal). A menor C.V. mejor es la meda. Generalmente aparece en %, para ello multplcamos C.V. por 100. 4.3. Parámetros de poscón. A todos ellos se les denomna cuantles, y estos se dvden en: CUARTILES QUINTILES DECILES CENTILES ó PERCENTILES (Dstnguremos el cálculo de ellos para varables dscretas,.e., datos sn agrupar, y para varables contnuas,.e., datos agrupados). DATOS SIN AGRUPAR Cuartles: son aquellos que dvden a la poblacón en 4 partes guales, por tanto son tres. Se denotan con Q 1, Q 2, Q 3. Q = N 4 Observa que Q 2 =medana. Quntles: son los valores que dvden a la poblacón en 5 partes guales. (Por tanto hay 4). Se representan por K, =1,2,3,4. Se calculan: K = N 5 Págna 19 de 41

Decles: Son los valores que dvden a la poblacón en 10 partes guales. (Por tanto hay 9). Se preseentan por D, =1,, 9. Se calculan: D = N 10 Observa que D 2 =K 1, y D 5 =M d Centles o percentles: Son los valores que dvden a la poblacón en 100 partes guales. (Exsten 99: c 1,..., c 99 = p 1,..., p 99). Se calculan c = N 100 Nota: Una vez que hemos calcula el lugar que ocupa el cuantl, mramos el dato que corresponde al lugar F, al gual que hacíamos cuando calculamos la medana. DATOS AGRUPADOS Cuantl = L 1 + N p F f 1 c con p=4 cuartl, p=5 quntl, p=10 decl, p=100 percentl o centl. (Prmero se calcula.(n/p), y se mra a ver en qué ntervalo cae el número que salga, y es con este ntervalo en el que nos tenemos que fjar para usar F -1, f, c es la longtud de ese ntervalo). Págna 20 de 41

EJEMPLO 1.- Calcula el decl 3. x f F 1 1 1 2 2 3 3 1 4 4 3 7 5 3 10 10 D 3 = 3. (10/10) = 3, por tanto D 3 = 2 (recuerda que el decl es el VALOR DE LA VARIABLE QUE DEJA ) EJEMPLO 2.- Calcular los todos los cuarteles y los percentles 40 y 90, donde: L -1 -L f F 38-44 7 7 44-50 8 15 50-56 15 30 56-62 25 55 62-68 18 73 68-74 9 82 74-80 6 88 Q 1 =1.(N/4)=1.(88/4)=22 no llega a 30, luego Q 1 [50,56), ahora ya, usamos la fórmula: Q 1 =50 + (1.22-15)/15. 6 = 52,8, es decr, antes de 52,8 están el 25% de los casos. Q 2 =2.(N/4)=2.(88/4) = 44 luego Q 2 [56,62), ahora ya, usamos la fórmula: Q 2 =56 + (44-30)/25. (62-56) = 59,36, es decr, antes de 59,36 están el 50% de los casos. Q 3 =3.(N/4)=3.(88/4)=66 luego Q 3 [62,68), ahora ya, usamos la fórmula: Q 3 =62 + (66-55)/18. 6 = 65,67 Págna 21 de 41

c 40 =40.(N/100)=40.(88/100)=35,2 c 40 [56,62), ahora ya, usamos la fórmula: c 40 =56 + (35,2-30)/25. 6 = 57,25 c 90 =90.(N/100)=90.(88/100)=79,2 c 90 [68,74), ahora ya, usamos la fórmula: c 90 =68 + (79,2-73)/9. 6 = 72,14 4.4. Meddas de Forma Las meddas de forma de una dstrbucón se basan en su representacón gráfca sn llegar a la msma. Estas meddas las clasfcamos en dos grupos: Meddas de asmetría: cuya fnaldad es elaborar un ndcador que permta establecer el grado de smetría (o asmetría) que presenta una dstrbucón sn hacer su gráfca. Meddas de curtoss: estudan la dstrbucón de frecuencas en la zona central de la dstrbucón. Coefcentes de asmetría Elaboran un ndcador que permte establecer el grado de smetría (o asmetría) que presenta una dstrbucón sn realzar su presentacón gráfca. Coefcente de asmetría de Pearson: Se defne como: A p = X M σ o Este valor se lee de la sguente manera: S A p > 0 asmetría a la derecha o postva S A p = 0 smétrca S A p < 0 asmétrca a la zquerda o negatva Págna 22 de 41

Coefcente de asmetría de Fsher A F m = σ 3 3 = 1 N ( x ( x x) x) N 2 3 f f 3 Msma nterpretacón que el coefcente de Pearson: S A F > 0 asmetría a la derecha o postva S A F = 0 smétrca S A F < 0 asmétrca a la zquerda o negatva Coefcente de Apuntamento o de Curtoss Aplcable a dstrbucones campanformes unmodales smétrcas o con una lgera smetría. Pueden adoptar las sguentes confguracones y nombres: Platcúrtca Mesocúrtca Leptocúrtca (achatada) (normal) Bajo apuntamento s y solo s gran aplastamento. La fórmula del coefcente de apuntamento o curtoss es: g = σ m 4 2 4 3 S g 2 > 0 dstrbucón leptocúrtca. S g 2 = 0 dstrbucón mesocúrtca. S g 2 < 0 dstrbucón platcúrtca. Págna 23 de 41

Relacón entre meda y desvacón típca.- En el ntervalo meda ± σ caen el 68% de las observacones. En el ntervalo meda ± 2σ caen el 95% de las observacones. En el ntervalo meda ± 3σ caen el 99% de las observacones Relacón entre meda, moda y medana Cuando la MEDIA = MODA = MEDIANA, decmos que la dstrbucón es smétrca. Págna 24 de 41

Introduccón al paquete estadístco SPSS Tpos de fcheros: El paquete estadístco SPSS permte manpular fcheros de una manera fácl y cómoda. Un fchero de datos (nombrefchero.sav) se estructura en varables (columnas) en las que se guardan las dstntas observacones que se han tomado para cada una de ellas. Cada fla corresponde a un caso (sujeto o undad estadístca). Estos fcheros además de los datos tenen la nformacón necesara para su procesamento. Otro tpo son los fcheros de resultados (nombrefchero.spo), con posbldad de exportar las tablas a otras aplcacones ben como objeto o ben como tabla. Además se pueden modfcar qutando o añadendo cosas. Varables: Los fcheros de datos tenen dos modos. En el modo vsta de datos es posble ntroducr o modfcar los datos para cada una de las varables. En el modo vsta de varables se puede dar formato a cada varable. Así, se puede dar nombre a la varable (nunca más de 8 caracteres ASCII y sempre serán consderadas como mnúsculas), poner etquetas de dentfcacón (tanto para la varable, como para las categorías de la msma), defnr los datos perddos o ausentes (mssng) o determnar la anchura de texto en varables cadena, la alneacón y la anchura de vsualzacón de una columna. Por últmo se puede defnr el tpo (y escala de medda) de una varable: - Numérca: Varable numérca usual delmtada la parte decmal con un punto o una coma, según esté confgurado. Ejemplo: 12345.34 ó 12345,34 34 (doce ml trescentos cuarenta y cnco con trenta y cuatro). - Coma: Varable numérca delmtada la parte decmal con un punto y en la parte entera una coma cada tres dígtos ndcando los mles. Ejemplo: 12,345.34 (doce ml trescentos cuarenta y cnco con trenta y cuatro). - Punto: Varable numérca delmtada la parte decmal con una coma y en la parte entera un punto cada tres dígtos ndcando los mles. Ejemplo: 12.345,34 (doce ml trescentos cuarenta y cnco con trenta y cuatro). - Notacón centífca: Varable numérca en la que los números venen expresados con notacón exponencal con base 10. Ejemplo: 1,234534 E+04 (doce ml trescentos cuarenta y cnco con trenta y cuatro). - Fecha: Fechas en dstntos formatos. - Dólar: Moneda amercana. Aparece con un $ a la zquerda de la cantdad. - Moneda personalzada: Moneda de cada país defnda prevamente en las opcones. - Cadena: Varable cualtatva. En algunas ventanas de dálogo cuando sea precso dar el nombre de una categoría, esta habrá de r entre comllas smples. Ejemplo: nvel= BAJO. No es lo msmo utlzar mayúsculas o mnúsculas, así BAJO y bajo se consderan categorías dstntas. Págna 25 de 41

Menús: Es mportante saber que en cada tpo de fchero aparece un menú dstnto. En general el menú Archvo ofrece la posbldad de abrr y guardar fcheros de dversos tpos. La opcón Mostrar nformacón de datos proporcona nformacón sobre un fchero de datos selecconado. El menú Edcón ofrece la posbldad de Cortar, Copar, Pegar y Borrar datos. Además en un fchero de datos permte Buscar determnados datos. En Opcones se puede confgurar el formato genérco de nuestros fcheros. El menú Ver proporcona dversas posbldades de vsualzacón. En los fcheros de datos el menú Datos ofrece opcones para la defncón de las varables y manpulacón de los datos. ) Es posble generar fechas en el formato deseado. Esta opcón se puede utlzar tambén para generar lstas de números. ) ) v) Las opcones de Insertar permten nsertar columnas o flas en un fchero de datos determnado. Ir a caso y Ordenar casos permten respectvamente r a una fla determnada y ordenar los datos de acuerdo a una o más varables respectvamente. La opcón Transponer trasforma flas en columnas y columnas en flas. v) Es posble Reestructurar el fchero medante un asesor. Esta opcón es de nterés cuando los datos provenen de otras aplcacones que no tenen la estructura exgda por el SPSS para su tratamento. v) v) v) x) Fundr archvos srve para unr en un fchero varables o flas de dos fcheros dados. Puesto que el SPSS solamente permte tener un fchero actvo esta operacón crea un nuevo archvo que añade flas (columnas) de otro fchero, con la posbldad de prescndr de algunas de las flas (columnas) del fchero actvo. Con Agregar se hacen grupos de una o más varables (Varable(s) de segmentacón) con referenca a una o más varables (Agregar varable(s)) asgnando a cada grupo la meda o la medda de poscón o dspersón que se determne. Las varables obtendas se guardan en un nuevo fchero. Puede ser útl cuando se tenen réplcas de un expermento y se quere trabajar con las medas de cada uno. Tambén es posble generar o mostrar Dseños ortogonales con los factores deseados y sus categorías. Segmentar archvo permte hacer grupos de casos de acuerdo a un crtero dado por una varable. Los análss que se hagan posterormente se realzarán para cada grupo y los resultados se mostrarán en una tabla comparatva o en varas tablas según se haya elegdo la opcón correspondente. Págna 26 de 41

x) Con Selecconar casos se pueden elmnar, defntva o temporalmente, algunas flas de acuerdo a algún crtero. Se creará una columna de fltros con unos para los casos selecconados y ceros para el resto. Todos los análss que se hagan a partr de entonces utlzarán solamente los casos selecconados. x) Por últmo es posble Ponderar casos por una varable de pesos con el objeto de que los análss estadístcos que se realcen mantengan dcha ponderacón. Así un dato que se pondera por 4 tendrá doble valor (peso, ponderacón) en los análss correspondentes que otro que solamente sea ponderado por 2. Con Transformar podemos realzar manpulacones de las varables. Para ello utlzaremos las opcones: ) Calcular, nos ofrece una ventana semejante a una calculadora que permte realzar operacones entre las columnas. Además exste una lsta de funcones, cada una de las cuales vene explcada en la ayuda del programa. La alternatva S posblta la nclusón de condconales en el momento de hacer las operacones deseadas. Cuando la condcón se mpone sobre los valores de una varable cualtatva, estos deben ponerse entre comllas smples. Ejemplo: raza = 'blanco'. ) ) v) Semlla de aleatorzacón permte asgnar una semlla para la generacón de números aleatoros. S se fja la semlla, la secuenca que se obtene es la msma, por ejemplo para dos usuaros dstntos. Contar aparcones crea una nueva varable que asgna a cada caso el número de veces que se repte un valor o valores determnados en una fla para las varables selecconadas. Recodfcar crea una varable (en varables dferentes) o susttuye a la ya exstente (en las msmas varables ) con valores que se asgnan de acuerdo a un crtero. Con If podemos selecconar solamente los casos que nteresa cambar. Con valores antguos y nuevos se determnan los cambos específcos a realzar. v) Categorzar varables crea una nueva varable en la que los datos numércos se converten en un número prefjado de categorías. Los datos se categorzan según grupos percentles; de modo que cada grupo contene aproxmadamente el msmo número de casos. v) v) La opcón Asgnar rangos a casos crea una varable que asgna rangos a cada uno de los casos. Es posble selecconar el tpo de rangos que se desea y tambén el modo de tratar los empates. Además se pueden hacer grupos de acuerdo a un crtero proporconado por una varable. En este caso se asgnan rangos a cada grupo de manera ndependente. Recodfcacón automátca converte los valores numércos y de cadena en valores enteros consecutvos asgnando un 1 al valor más bajo, 2 al sguente, y así sucesvamente. Tambén es posble hacerlo comenzando por el valor más alto. La nueva varable conserva las etquetas de valor de la varable antgua. En el fchero de resultados se muestra una tabla con los valores antguos, los nuevos y las etquetas de valor. Los valores de cadena se recodfcan por orden alfabétco, con las mayúsculas antes que las mnúsculas y los valores perddos en prmer lugar. En caso de empate Págna 27 de 41

v) x) se asgna el msmo número a todos los valores empatados y se contnúa en el sguente. Crear sere temporal genera varables basadas en funcones (de dferencas, medas móvles, medanas móvles, retardo o adelanto) de las varables de seres temporales numércas selecconadas. Los nombres de las nuevas varables por defecto se componen de los ses prmeros caracteres de la varable exstente utlzada para crearlas, segudos de un guón bajo y de un número secuencal. Remplazar valores perddos asgna valores a los casos omtdos de acuerdo a un crtero determnado: o Meda de la sere: asgna la meda de los casos exstentes. o Meda de los puntos adyacentes: meda de los puntos más cercanos, pudéndose elegr el número de datos váldos por encma y por debajo que se desean nclur. o Medana de los puntos adyacentes: medana de los puntos más cercanos, pudéndose elegr el número de datos váldos por encma y por debajo que se desean nclur. o Interpolacón lneal: Hace nterpolacón lneal entre el últmo valor váldo antes del valor perddo y el prmer valor váldo después del valor perddo. o Tendenca lneal en el punto: Se hace regresón de la sere exstente sobre una varable índce escalada de 1 al número de datos (flas) en la muestra y los valores perddos se susttuyen con sus valores pronostcados. Es mportante puntualzar que los cuatro últmos métodos dependen de la ordenacón de los datos. Por ejemplo el procedmento puede ser adecuado cuando se han obtendo secuencalmente en el tempo. abrr Funcones de la barra de herramentas del SPSS guardar hstora de ventanas de dálogo utlzadas ventana de resultados mprmr ventana de sntaxs ventana de gráfcos ventanas ocultas ventana de datos r a un caso nformacón varables buscar texto ayuda sntaxs Raúl Martín deseño Martín ventana resultados/sntaxs detene salda de resultados Págna 28 de 41 etquetas buscar dato en una cambo de págna columna nsertar columna arranca la r prncpo/fnal sntaxs selecconada nsertar fla ayuda para un texto selecconado seleccón conjuntos de varables

PRÁCTICA I: MANEJO DE FICHEROS Y VARIABLES Puede segur las ndcacones que aparecen al fnal de cada apartado! Págna 29 de 41

2. Construya un fchero de datos con el nombre resgo.sav que contenga las varables sguentes correspondentes a un país fctco: AÑO DEUDA RENTA AÑO DEUDA RENTA 1981 131.53 1993 449.31 100.81 1982 189.92 43.22 1994 308.52 48.35 1983 149.84 35.84 1995 292.85 98.00 1984 120.09 22.84 1996 525.09 119.82 1985 52.99 1997 1389.19 1986 99.89 29.03 1998 5382.18 1093.02 1987 81.08 29.81 1999 1418.42 345.99 1988 189.49 48.82 2000 5815.87 1187.80 1989 1100.03 229.31 2001 2834.15 800.50 1990 254.11 55.32 2002 3942.50 918.98 1991 829.90 155.04 2003 2480.33 577.94 1992 283.94 82.53 2004 12977.10 1710.52 2. Manpulacón del fchero: a) Haga una copa de segurdad del fchero anteror con la opcón Archvo -> Guardar como con el nombre copa_resgo.sav. Borre la varable año en la nueva copa y guarde de nuevo el fchero. A partr de ahora trabajaremos con esta nueva versón. b) Cree una nueva varable cualtatva con el nombre nvel con tres valores: BAJO s deuda es menor de 200, MEDIO s está entre 200 y 700 y ALTO en el resto. Indcacones: Transformar -> Recodfcar -> En dstntas varables -> Var. de entrada: deuda; Var. de resultado: nvel (pulse Cambar) -> Valores antguos y valores nuevos: (Seleccone la opcón de varable cadena) Valor antguo: del menor hasta 200 - valor nuevo: BAJO; valor antguo: Rango: 200 hasta 700 - valor nuevo: MEDIO; valor antguo: Rango: 700 hasta el mayor - valor nuevo: ALTO. Los rangos ncluyen sus puntos fnales y los valores defndos como perddos por el usuaro que estén dentro del rango. c) Codfque la varable nvel con los valores 1, 2 y 3 respectvamente para BAJO, MEDIO y ALTO en una nueva varable llamada nvel2. Qute los decmales, s los tene, de esta varable codfcada. Indcacones: Transformar -> Recodfcar -> En dstntas varables -> Var. de entrada: nvel; Var. de resultado: nvel2 -> Valores antguos y valores nuevos: valor antguo: BAJO - valor nuevo: 1; valor antguo: MEDIOvalor nuevo: 2; valor antguo: ALTO - valor nuevo: 3. Págna 30 de 41

PRÁCTICA II: ANÁLISIS DESCRIPTIVO DE DATOS Usar el fchero habtos.sav Págna 31 de 41

Representacón y gráfcas de datos Dagrama de tallos y hojas (steam and leaf plot) Son procedmentos semgráfcos, es decr, aparece un gráfco y una tabla. Representan la nformacón para caracteres cuanttatvos (no vale s son cualtatvos). Elementos del dagrama: Tallo: consttudo por los prmeros elementos o dígtos, y aparece puesto en vertcal. Hojas: son los sguentes elementos de cada uno de los datos de nuestra varable. (Aparece en vertcal). S lo gramos 90º es parecdo a un hstograma pero con más nformacón. El nconvenente de estos dagramas es que cuando tengamos un número elevado de datos, son dfícles de construrlos a mano, y además, cuanto más grande sea el número de datos, la efcaca es menor. (S hay más de 100 datos, el dagrama de tallos y hojas no es efcente). Utldad. La utldad de estos sem-gráfcos es que podemos representar dos dstrbucones a la vez, ponendo un tallo común y hojas a la derecha y a la zquerda y así compararlas. Se utlza para explcar el patrón de comportamento. Número de ramas (o flas) Depende del analsta. Se aconseja que s: - n > 100 L = 10 log 10 N - n < 100 L=2 sqrt(2) Págna 32 de 41

En este tpo de dagramas, vamos a obtener y/u observar: 1) Rango 2) Localzacón de los valores centrales 3) Concentracones o agrupacones 4) Identfacón de valores (ej_ lo que no son frecuentes o al contraro) 5) Lagunas (o gaps ): cuando no se han regstrado valores (habrá huecos en los tallos) 6) Dspersón y smetría 7) Anomalías (datos extremos, outlers) Además dentfcarán qué dato es. Pasos para dbujar un dagrama de tallos y hojas 1º) Escoger el ntervalo de undades (tronco) que cubra la totaldad de los datos, para ello reordenamos dchos datos. ( Los tallos nunca pueden ser números decmales, sempre enteros!). (Es convenente hacer más de uno, empleando dstntas undades) 2º) Suprmr la últma fla de cada datos (ej. S tenemos 112, qutamos el 2). (Esto no tene por qué ser así, cada analsta hace lo que cree). Después ordenamos de forma crecente, de menor a mayor, y elmnamos las repetcones. Con eso tenemos los tallos. 3º) Trazamos una línea vertcal que me separe los tallos y las hojas. (Anotar la undad representada en el tronco). Cada datos se anota en la fla correspondente al tallo. (Sólo escrbo la últma cfra). Frecuenca absoluta = número de hojas de cada tallo. 4º) Ordenar las hojas y añadr una columna de recuento, que se añade a la zquerda del dagrama (esta ndca la frecuenca acumulada de cada tallo) Dependendo del autor, esta columna es: - de tpo ascendente (s la clase no supera a la clase medana) - de tpo descendente (en caso contraro) La medana se pone entre paréntess. (Medana) Presenta el mayor recuento de las hojas. Págna 33 de 41

Varantes del dagrama de tallos y hojas - Agrupacones por ntervalos (reducendo casos) Reducr a la mtad la ampltud subdvdendo cada tallo en dos: Notacón 1ª, 1b ó 1 *, 1 o a, * 0 4 b, o 5 9 Otra subdvsón (para ejemplos grandes) es dvdr el tallo en 5 partes: * 0-1 t 2 3 f 4 5 s 6 7 o 8 9 Págna 34 de 41

Ejemplo.- Muestra del espesor de suelos de hormgón dad en cm: 11,357 ; 12,542 ; 11,384 ; 12,431; 14,212 ; 15,213 ; 13, 300 ; 11,300 ; 12,710 ; 13,455 ; 16,743 ; 12,162 ; 12,721 ; 13, 420; 14,698 1) Reordenamos los datos (pues el tallo debe ser de 2 a 3 dígtos, cuantos menos mejor) Reordeno para quedarme con 3 cfras: 114 125 114 124 142 152 133 113 113 127 135 167 122 127 134 147 (El tallo es grande) 2) Elmno la últma cfra de los datos 11 12 11 12 14 15 13 11 12 13 16 12 12 13 14 Tachamos cfras que se repten y obtengo el tallo TALLO : 11 12 13 14 15 16 (reordenados) 3) Coloco el tallo 11 4 4 3 12 5 4 7 2 7 13 3 5 4 14 2 7 15 2 16 7 Undad: 10 000 dígtos de m muestra orgnal ej: 11,357 O tambén 11/1 ndcando que va desde 11100 11199 Págna 35 de 41

4) Recuento F tr Hojas 3 3 11 3 4 4 (ordenadas) 5 M e (5) 12 2 4 5 7 7 3 7 13 3 4 5 2 4 14 2 7 1 2 15 2 1 1 16 7 Ejercco. Construye el dagrama de tallos y hojas para los datos 112 112 115 212 213 213 215 342 358 361 362 383 433 436 438 513 568 Ejercco. Idem para las sguentes calfcacones de alumnos y alumnas: Alumnos: 68 65 65 74 73 72 70 79 79 79 80 81 82 84 85 88 89 90 91 91 92 96 Alumnas: 65 73 78 78 82 83 87 88 89 90 91 91 93 94 95 95 96 97 98 Págna 36 de 41

DIAGRAMA DE CAJAS Y BIGOTES (BOX and- WHISHER PLOT) Es una forma de representar gráfcamente un conjunto de estadístcos descrptvos. Esto nos permtrá detectar datos extraños (outlers) y asmetrías ya que el gráfco se dvde en cuatro áreas de gual frecuenca. Las característcas del gráfco son: 1. Tamaño no muy grande. (S tengo muchos datos, este dagrama no es sgnfcatvo. Se utlza cuando hacemos un hstograma y no vemos muy clara su nterpretacón). 2. Gráfco basado en las meddas de poscón. 3. Intervenen 5 cantdades: Medana (Q 2 ), cuartles (Q 1 y Q 3 ), mínmo (x mn ) y máxmo (x max ). 4. Ofrece un resumen de la nformacón más relevante de la dstrbucón (SIN QUE LOS DATOS APAREZCAN) 5. Da los valores de extremos y los outlers. 6. Srve para comparar dstrbucones de dos varables. Valores ndcatvos prncpales: Localzacones Agrupacones sgnfcatvas de valores Zonas en las que predomna la dspersón Relacón entre agrupacones y dspersón Referenca vsual de la smetría central y de los extremos Referenca vsual de la curtoss (relaconando la longtud de la caja y patllas o bgotes) Longtud de colas Rango Outlers, anomalías o valores alejados del grupo central de los datos Págna 37 de 41

E valores + 3.0 (Extreme) O valores + 1.5 (outlers) x max Q 3 (Percentl 75) -----------*--------- Medana Q 1 (Percentl 25) x mn O valores 1.5 (outlers) E valores + 3.0 (extremos) En la caja está el Q 1 y el Q 3, por tanto, en el rectángulo se encuentra el 50% de los datos. La longtud de la caja es el rango ntercuartílco IQR = Q 3 Q 1 (es decr, ndca la dspersón de los datos CENTRALES). (S tengo 2 dstrbucones, el que tenga IQR mayor, es el que tene los datos más dspersos). Medana: mde la tendenca central, es decr, me ndca donde está el centro de los datos. Págna 38 de 41

Smetría Asmetría 1) S la medana está justamente en el centro, entonces la dstrbucón es smétrca. 2) S la medana no está en el centro, entonces la dstrbucón es sesgada (asmétrca). 2.1. S la medana está entonces la dstrbucón es asmétrca negatva. (zquerda) 2.2. S la medana es Entonces la dstrbucón es asmétrca postva. (derecha) Ejercco.- Supongamos que tenemos dos dstrbucones de varables, cuyos dagramas BOX-PLOT son los sguentes: Q 3 ----*--- Q 3 Q 1 Q 1 o o Varable 1 Varable 2 1) Tenen dstnta varabldad Los datos son más dspersos en Var 1 que en la Var 2 pues IQR 1 > IQR 2 2) La varabldad de VAR1 se da entorno al centro, mentras que en VAR2 se produce alrededor de un extremo. Págna 39 de 41

3) En VAR2, los valores nferores son consderados casos outlers (peso negatvo para calcular la meda) 4) VAR1 es asmétrca postva. En VAR 2 Q 1 = M e, es mucho más asmétrca que VAR1, pues no tene patlla. Págna 40 de 41

PRÁCTICA III PROCEDIMIENTOS GRÁFICOS EN EL AED 1) Representar un gráfco de caja y bgotes que resuma los datos dados por la varable potenca de los automóvles (cv) del fchero de datos sobre coches (COCHES). Representar sobre este gráfco la meda, la medana y los valores atípcos. Interpretar los resultados y analzar gráfcamente la smetría. Indcacones: Gráfcos -> Dagramas de Caja -> Smple y Resúmenes para dstntas varables -> Defnr 2) Representar un gráfco de caja y bgotes que resuma los datos dados para la varable potenca de los automóvles (cv) del fchero de datos sobre coches (COCHES), clasfcados en tres gráfcos smples de caja y bgotes. Esta clasfcacón vendrá dada por los valores 1,2 y 3 de la varable orgten (regón de orgen de los coches), cuyas etquetas respectvas son: EE.UU., Europa y Japón. Indcacones: Gráfcos -> Dagramas de Caja -> Smple y Resúmenes para grupos de casos -> Defnr 3) La encuesta de poblacón actva elaborada por el INE referente al 4º trmestre de 1970 presenta para el número de actvos por ramas los sguentes datos: RAMA DE ACTIVIDAD MILES DE ACTIVOS Agrcultura, caza y pesca 3706,3 Fabrles 3437,8 Construccón 1096,3 Comerco 1388,3 Transporte 648,7 Otros servcos 2454,8 Realzar un gráfco de sectores con las etquetas de las ramas de actvdad sobre los sectores, otro con porcentajes del número de actvos por ramas y etquetas, y otro con porcentajes del número de actvos por ramas, etquetas y valores. Indcacones: Gráfcos -> Sectores Págna 41 de 41