Algunas nociones básicas sobre Estadística

Escuela de Formación Básica - Física 1 Laboratorio - 10 Semestre 2010 Comisiones 15 Y 16 (Docentes: Carmen Tachino - Graciela Salum) ntroducción Algunas nociones básicas sobre Estadística Como se ha explicado en clases, los datos experimentales obtenidos por un observador durante una experiencia en un laboratorio tienen siempre asociada una incerteza. Dicha incertezas tienen su origen en una multiplicidad de factores, siendo algunos de éstos los errores sistemáticos, casuales y de apreciación. Asumiendo que las incertezas asociadas a los errores sistemáticos han sido disminuidas y que se ha escogido un instrumento de medición acorde a la situación (con lo cual no se generan incertezas groseras debido a la apreciación del mismo), quedan aún los errores casuales. Debido al carácter azaroso de este tipo de errores los resultados pueden estar afectados en un sentido u otro (de más o de menos). La única forma de compensar esta situación es realizando una gran cantidad de mediciones y aplicando sobre ellos leyes de carácter estadístico. Supongamos que hemos medido el largo de una mesa con una cinta métrica de apreciación 1 milímetro unas 100 veces. Uno podría presentar las cien mediciones del largo de la mesa y decir "estos son mis resultados", pero de poco serviría mostrar dichos datos de esa forma pues resultaría muy dificultoso analizarlos. Por ello, es necesario establecer un resultado representativo del conjunto de datos del que disponemos. El primer paso en el estudio de la información consiste en analizar los datos de acuerdo a la cantidad de mediciones que se han realizado, pues el tratamiento difiere de acuerdo a que sean más de 10 datos o menos de 10 datos 1 a) Cantidad de datos o inferior a 10 En este caso, la magnitud representativa del conjunto de mediciones será el valor promedio, que se define como: - ;=1 donde es la cantidad de mediciones realizadas y los X; son los valores de cada una de las mediciones. Ahora bien, dado que estamos trabajando con datos experimentales y cada uno de ellos tiene asociada una incerteza, es natural asociar una incerteza al valor promedio calculado. Aquí se presentarán dos formas distintas de calcular la incerteza del valor promedio, : Sean x max y X min los resultados experimentales más grande y más pequeño, respectivamente. Se puede calcular la incerteza del promedio restando ambos valores: El límite de 10 datos es una convención adoptada internamente por algunos docentes de cátedra. Este valor puede variar según el docente y de acuerdo a la bibliografia consultada.

= X.max _ X min Otra forma consiste en calcular dos diferencias, x max - X Y X - x m in, y escoger el mayor de ellos: = max{x max - X ;X - Sea cual sea el criterio seleccionado, siempre hay que tener en cuenta que el intervalo ± debe abarcar todos los datos experimentales con los que se está trabajando (es decir, ningún Xi debe quedar por fuera de dicho intervalo). b) Cantidad de datos superior a 10 En este caso necesitamos primero conocer algunos conceptos básicos de la teoría estadística. Conceptos básicos La presentación y descripción del conjunto de datos experimentales sobre el cual debemos trabajar puede realizarse de dos maneras: (a) con estadística numérica, (b) con métodos gráficos. Asumiremos de aquí en adelante que el conjunto de datos que estamos estudiando presenta una distribución normal o gaussiana. 1) Métodos Gráficos Uno de los métodos gráficos más útiles para analizar un conjunto extenso de datos experimentales es el histograma. Para graficar un histograma es necesario primero analizar la distribución de frecuencias de la muestra de datos con la que estamos trabajando. La distribución de frecuencias es un listado que asocia cada valor de una variable con su frecuencia (cantidad de veces que se repite un mismo valor). Un histograma no es ni más ni menos que la representación gráfica (realizada con un diagrama de barras) de la distribución de frecuencias. En dicha gráfica, el eje vertical indica las frecuencias (variable dependiente) y el eje horizontal identifica la variable X (variable independiente). A continuación se presentan distintos ejemplos de histogramas según su forma geométrica. H El histograma 1 corresponde a la forma de campana habitual que representa la variabilidad debida a causas aleatorias. Se le puede ajustar una curva de frecuencias simétricas o en forma de campana, que se caracteriza porque las observaciones equidistantes del máximo central tienen la misma frecuencia. En este caso, la curva se denomina normal o Gaussiana. 2

1 1 El histograma 2, con dos máximos diferenciados, responde a una distribución denominada bimodal y se presenta cuando están mezclados datos de distinto origen centrados en valores distintos. 1 isiogrnma El histograma 3 se denomina, por su forma, sesgado a la derecha, y responde a la variabilidad que presenta ciertas variables que no siguen una ley normal, como los tiempos de vida. 11 4 Al histograma 4 parece faltarle una parte y por ello se le llama censurado o sesgado (en este caso, a la izquierda). o representa una variabilidad natural y por tanto hay que sospechar que se han eliminado algunos valores. l listoarurna Histograma En los histogramas 5 y 6 aparecen datos que no siguen el patrón de comportamiento general (anomalías, errores, etc...). 2) Tratamiento umérico Comenzaremos analizando los conceptos principales para el tratamiento numérico de los datos. Supongamos que tenemos un grupo de observaciones Xi (i=l,..., ) donde cada uno de estos datos tiene asociada una incerteza Las medidas de tendencia central son valores numéricos que localizan, de alguna manera, el centro del conjunto de datos. Son valores que se pueden tomar como representativos de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos. Por orden de importancia, son: 3

Media aritmética Se define la media aritmética X como:. La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos. Se le llama también promedio o, simplemente, media. Este valor no coincide con los valores de la tabla de datos. - Es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el número de datos es impar la mediana será el valor central, si es par tomaremos como mediana la media aritmética de los dos valores centrales. Es el valor que más veces se repite. o tiene porqué ser única. Ahora bien, los promedios determinan el centro de distribución, pero nada indican acerca de cómo están situados los datos experimentales respecto de dicho "centro". Para conocer cómo se posicionan nuestros resultados con respecto al "valor central" (calculado con la media, la moda o la mediana) de la distribución, es necesario conocer ahora las medidas de dispersión. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. En este caso nos limitaremos a estudiar las medidas de dispersión con respecto a la media aritmética de la muestra de datos. Desviación media estándar Se define como: (J= =1 _X )2 Como puede observarse, la desviación media estándar (también se la conoce como error cuadrático medio o dispersión) tiene las mismas unidades que los datos de la muestra. La desviación estándar es una medida del grado de dispersión de los datos con respecto al valor promedio, y puede ser interpretada como una medida de la incertidumbre o incerteza. Por lo tanto, la desviación estándar de un grupo repetido de medidas nos da la precisión de éstas. ncerteza del valor medio Se define como: E=.J-l 4

Esta magnitud define un intervalo de longitud 2E alrededor del valor X, dentro del cual debería encontrarse el valor teórico de la cantidad a medir (X ), es decir: Como puede observarse de las expresiones para la desviación estándar y para la incerteza del valor medio, cuanto mayor sea la cantidad de mediciones realizadas, más pequeña será la magnitud de y de E. Es decir, mientras más grande sea la cantidad de datos tomados, más preciso será nuestro resultado final", 2 Se asume aquí que, a pesar de estar trabajando con datos viciados por la presencia de errores casuales, los mismos no se desvían en gran medida del valor promedio. En otras palabras, no existen datos que se encuentren muy "fuera de rango" o que difieran mucho del valor promedio calculado. Cuando en una serie de mediciones, se encuentran este tipo de valores, la opción más común consiste en descartar ese dato y, de ser posible, volver a medirlo. 5

Ejemplo ilustrativo Un alumno midió el diámetro de una esfera de acero 40 veces, siempre en las mismas condiciones. Dichas mediciones fueron realizadas con un palmer de apreciación 0,01 mm. Medición (mm) Medición (mm) Medición (mm) Medición (mm) 1 17,07 11 17,05 21 17,05 31 17,05 2 17,05 12 17,05 22 17,04 32 17,06 3 17,03 13 17,06 23 17,05 33 17,04 4 17,05 14 17,07 24 17,06 34 17,05 5 17,05 15 17,05 25 17,05 35 17,05 6 17,05 16 17,04 26 17,05 36 17,06 7 17,06 17 17,06 27 17,05 37 17,04 8 17,04 18 17,04 28 17,06 38 17,05 9 17,04 19 17,05 29 17,05 39 17,05 10 17,06 20 17,04 30 17,04 40 17,06 Debido a que la cantidad de datos disponibles es mayor a 20, se utilizará un tratamiento estadístico. En primer lugar se realiza la tabla con la distribución de frecuencias. Valor Exp. Frec. 17,03 1 17,04 9 17,05 19 17,06 9 17,07 2 Esta tabla "dice" que el valor 17,03 se midió una sola vez, que el valor 17,04 se midió 9 veces, etc. Una vez que se cuenta con estos datos, se puede graficar el histograma. 20 18 16 14 12 o 10 8 6 4 2 o 17.03 17.04 17.05 17.06 17.07 d,(mm) Como puede observarse, este histograma presenta una distribución normal (O gaussiana), pues es simétrico con respecto a su valor central. Aquí puede verse que el valor d =17,OS mm es el que más se repite. Pero cómo puedo encontrar una expresión numérica que más explícitamente el conjunto de valores experimentales? 6

Para ello calculamos la media aritmética, la desviación estándar y la incerteza del valor medio, d' it 505 Me la an me ica: = 17,0 mm 40 40 Desviación media estándar: o = )2 =0,0086458 mm.. E ncerteza del valor medo: = = 0,0013844 mm De esta forma, se puede decir que el valor buscado del diámetro de la esfera de acero se encuentra en un intervalo de datos dado por: d=d±e d = (17,0 5 1 +0,002) mm (el resultado se ha expresado de acuerdo a las reglas de redondeo vistas en clases). 7