Análisis de la potencia estadística del estimador Q en Ingeniería del Software



Documentos relacionados
EXPERIMENTACIÓN COMERCIAL(I)

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

12-16 de Noviembre de Francisco Javier Burgos Fernández

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Pruebas Estadísticas de Números Pseudoaleatorios

DEFINICIÓN DE INDICADORES

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Capitalización y descuento simple

PROCESO DE AGREGACIÓN CON MÚLTIPLES NIVELES DE EVIDENCIA PARA ESTUDIOS EXPERIMENTALES EN INFORMÁTICA

Unidad I Definición de reacción de combustión Clasificación de combustibles

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

UNIVERSIDAD CARLOS III DE MADRID Ingeniería Informática Examen de Investigación Operativa 21 de enero de 2009

REGRESION Y CORRELACION

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

TEMA 4 Variables aleatorias discretas Esperanza y varianza

PROPORCIONAR RESERVA ROTANTE PARA EFECTUAR LA REGULACIÓN PRIMARIA DE FRECUENCIA ( RPF)

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

Análisis de Regresión y Correlación

ANÁLISIS DE ACCESIBILIDAD E INTERACCIÓN ESPECIAL:

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

CAPÍTULO 4 MARCO TEÓRICO

Guía de ejercicios #1

Créditos Y Sistemas de Amortización: Diferencias, Similitudes e Implicancias

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Economía de la Empresa: Financiación

Diseño y Análisis de Experimentos en el SPSS 1

PROBLEMAS DE ELECTRÓNICA ANALÓGICA (Diodos)

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

Trabajo y Energía Cinética

2.5 Especialidades en la facturación eléctrica

Maestría en Economía Facultad de Ciencias Económicas Universidad Nacional de La Plata TESIS DE MAESTRIA. ALUMNO Laura Carella. DIRECTOR Alberto Porto

Correlación y regresión lineal simple

COMPARADOR CON AMPLIFICADOR OPERACIONAL

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II

Unidad Central del Valle del Cauca Facultad de Ciencias Administrativas, Económicas y Contables Programa de Contaduría Pública

Clase 25. Macroeconomía, Sexta Parte

Cifrado de imágenes usando autómatas celulares con memoria

ACTIVIDADES INICIALES

Relaciones entre variables

TEMA 14. ESCALAMIENTO CONJUNTO. INTRODUCCIÓN A LA TEORÍA DE LA RESPUESTA A LOS ITEMS (TRI)

Matemática Financiera Sistemas de Amortización de Deudas

Reconciliación de datos experimentales. MI5022 Análisis y simulación de procesos mineralúgicos

Consideraciones empíricas del consumo de los hogares: el caso del gasto en electricidad y alimentos

UNIVERSIDAD AUTÓNOMA CHAPINGO DIVISIÓN DE CIENCIAS FORESTALES

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

H 0 : La distribución poblacional es uniforme H 1 : La distribución poblacional no es uniforme

GANTT, PERT y CPM INDICE

A. Una pregunta muy particular que se puede hacer a una distribución de datos es de qué magnitud es es la heterogeneidad que se observa.

Problema: Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?

Módulo 3. OPTIMIZACION MULTIOBJETIVO DIFUSA (Fuzzy Multiobjective Optimization)

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

) para toda permutación (p p 1 p

TEMA 10. OPERACIONES PASIVAS Y OPERACIONES ACTIVAS.

MODELOS DE ELECCIÓN BINARIA

Aplicación de modelos multiniveles: meta análisis y meta regresión. Aplicación de modelos multinivel

Índice de Madurez Tecnológica en el Sector Hotelero

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

CUADRIENIO

Aspectos fundamentales en el análisis de asociación

CARTAS DE CONTROL. Han sido difundidas exitosamente en varios países dentro de una amplia variedad de situaciones para el control del proceso.

DEPARTAMENTO DE INGENIERIA MECÁNICA INGENIERÍA INDUSTRIAL

Índice de Precios de las Materias Primas

Algoritmo para la ubicación de un nodo por su representación binaria

EXPERIMENTOS ANIDADOS O JERARQUICOS NESTED

Material realizado por J. David Moreno y María Gutiérrez. Asignatura: Economía Financiera

PROPUESTAS PARA LA DETERMINACIÓN DE LOS PARÁMETROS DEL GRÁFICO DE CONTROL MEWMA

ESTUDIOS LONGITUDINALES DE MEDIDAS REPETIDAS. MODELOS DE DISEÑO Y DE ANÁLISIS

Estimación del consumo diario de gas a partir de lecturas periódicas de medidores

Tema 3: Adaptadores de Señal

Control de la exactitud posicional por medio de tolerancias

ESTRATEGIAS DIDÁCTICAS PARA ABORDAR LA EDUCACIÓN

Análisis de Sistemas Multiniveles de Inventario con demanda determinística

CÁLCULO VECTORIAL 1.- MAGNITUDES ESCALARES Y VECTORIALES. 2.- VECTORES. pág. 1

Estudios Económicos de Desarrollo Internacional.AEEADE. Vol. 2, núm 2 (2002)

INSTRUCTIVO No. SP 04 / 2002 INSTRUCTIVO PARA LA DETERMINACIÓN Y CÁLCULO DEL SALARIO BÁSICO REGULADOR

Incertidumbre de la Medición: Teoría y Práctica

Física I. TRABAJO y ENERGÍA MECÁNICA. Apuntes complementarios al libro de texto. Autor : Dr. Jorge O. Ratto

CAPÍTULO 3 METODOLOGÍA. En el siguiente capítulo se presenta al inicio, definiciones de algunos conceptos actuariales

LA FINANCIACION DE PROVEEDORES Y LA GESTION DE STOCKS. UNA VISION CONJUNTA.

Capacidad de Procesos según ISO 9000 Ing o. Angel Francisco Arvelo

Equilibrio termodinámico entre fases fluidas

Algunos métodos de clasificación de puestos de trabajo en la empresa

1.- Elegibilidad de estudiantes. 2.- Selección de estudiantes - 2 -

Desigualdad de oportunidades y el rol del sistema educativo en los logros de los jóvenes uruguayos

4 Contraste de hipótesis en el modelo de regresión múltiple

Explicación de las tecnologías - PowerShot SX500 IS y PowerShot SX160 IS

Modelado de Contratos en Modalidad de Take Or Pay

UNIVERSIDAD DE SONORA

CONTROVERSIAS A LAS BASES TÉCNICO ECONOMICAS PRELIMINARES PROCESO TARIFARIO CONCESIONARIA COMPAÑÍA DE TELÉFONOS DE COYHAIQUE S.A.

CAPÍTULO IV. MEDICIÓN. De acuerdo con Székely (2005), existe dentro del período información

Unidad II: Análisis de la combustión completa e incompleta Aire

MÉTODOS PARA PROBAR NUMEROS

MATERIAL Y MÉTODOS. Se utilizó el listado de códigos que Caminal estableció para España, a los cuales se

Modelos unifactoriales de efectos aleatorizados

Modelos lineales Regresión simple y múl3ple

PRUEBAS DE ACCESO A LAS UNIVERSIDADES DE ANDALUCÍA PARA MAYORES DE 25 AÑOS MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES

APENDICE A. El Robot autónomo móvil RAM-1.

M. Monteverde ; M. Cipponeri ; C. Angelaccio y S. Batakis

Transcripción:

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 Análss de la potenca estadístca del estmador Q en Ingenería del Software Oscar Deste 1, Enrque Fernández 1,2, Patrca Pesado 2, Ramón García-Martínez 3 1 Grupo de Ingenería de Software Expermental. Facultad de Informátca. Unversdad Poltecnca de Madrd. España. 2 Programa de Doctorado en Cencas Informátcas. Facultad de Informátca. Unversdad Naconal de La Plata. Argentna. 3 Grupo de Investgacón em Sstemas de Informacón. Depto. Desarrollo Productvo y Tecnológco. Unversdad Naconal de Lanus. Argentna. odeste@f.upm.es, enrquefernandez@educ.ar, ppesado@unlp.edu.ar, rgarca@unla.edu.ar Abstract. En el presente trabajo se desarrolla una smulacón demonte Carlo para estmar la potenca estadístca de método Q, utlzado para determnar la exstenca de heterogenedad en los meta-análss, en base a parámetros propos de la Ingenería de Software. Resumo. Estado del Arte: Muchos autores hablan de la mportanca de determnar con precsón la exstenca de la heterogenedad en los metaanálss, pero tambén adverten de la baja potenca de los métodos estadístcos para detectarla. Objetvo: Corroborar s los problemas de baja potenca del método afecta a los meta-análss hechos en Ingenería de Software. Método: Evaluar la potenca estadístca de los métodos para detectar heterogenedad, medante un proceso de smulacón de casos. Resultados: Se ha llegado a demostrar que los métodos para detectar heterogenedad carecen de potenca cuando son aplcados en el contexto expermental típco de ngenería de software, confrmando lo dcho por otros autores en otros ámbtos de la cenca. Conclusones: Este trabajo debería ser amplado a meta-análss donde los estudos posean dstntos pesos, báscamente varando la cantdad de sujetos que cada uno posea. 1. Introduccón El meta-análss (MA) se está convrtendo en una mportante herramenta para mejorar la caldad de los conocmentos empírcos en Ingenería del Software (IS) [Basl et al 1996]. Para que el resultado de un MA sea váldo, es fundamental evaluar que los estudos que hceron parte del msmo sean compatbles entre sí. Es decr, se debe verfcar que las dferencas entre los resultados se deban a un error aleatoro propo de la expermentacón y no a un error producdo por algún factor externo no controlado que esté ngresando rudo en el resultado fnal, ya que s esto ocurre los nvestgadores podrían tomar decsones equvocadas pensado que un determnado método o técnca es mejor que otro cuando en realdad no lo es. Esto se conoce como homogenedad y se evalúa medante el análss de heterogenedad [Hedges and Olkn 1985]. ISBN pendng 27

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 Exsten varos métodos analítcos y gráfcos para evaluar el grado de heterogenedad de un conjunto de estudos expermentales. Dchas pruebas, en general, se basan en la hpótess de que la varabldad entre-estudos es nula. Sendo el método Q propuesto por [DerSmonan and Lard 1986] la prueba más conocdas para valorarla la heterogenedad estadístca. El cual en general es recomendado por cuestones de valdez y sencllez computaconal [Cochrane 2008]. A pesar de sus ventajas, esta prueba presenta baja potenca estadístca (capacdad para determnar que un conjunto de estudos es heterogéneo), fundamentalmente cuando se la aplca a un número de estudos expermentales pequeño (en general menor a 10) [Borensten et al 2007] o, como lo ndca otros nvestgadores más recentemente, cuando los expermentos poseen pocos sujetos [Hardy and Thompson 1998]. Se han dentfcado algunos trabajos expermentales que ntentan determnar cuál es el nvel de potenca estadístca real del método Q en otras ramas de la cenca, como es por ejemplo el trabajo de [Km 2000] o [Hardy and Thompson 1998], pero no se han dentfcados trabajos de estas característcas para el contexto expermental que hoy día presenta la IS. Por ello se ha desarrollado el presente trabajo de smulacón. En el capítulo 2, se descrbe cómo funconan los métodos para detectar heterogenedad; en el capítulo 3, se descrben los trabajos de smulacón prevamente desarrollados; en el capítulo 4, se descrbe la metodología de nvestgacón a aplcar; en el capítulo 5, se presentan los resultados de la smulacón realzada; en el capítulo 6 se detallan las conclusones. 2. Antecedentes 2.1 Heterogenedad estadístca Exsten báscamente tres tpo de heterogenedad: la heterogenedad estadístca (dferencas en los efectos reportados), heterogenedad metodológca (dferencas en el dseño de los estudos) y heterogenedad de sujetos (dferencas entre los estudos referdas a característcas clave de los partcpantes, nvel de experenca profesonal, formacón académca, motvacón, etc.). Los tests estadístcos de heterogenedad se utlzan para valorar s la varabldad en los resultados de los estudos (la magntud de los efectos) es mayor que aquella que se esperaría hubera ocurrdo por azar [Hggns and Thompson 2002]. La heterogenedad estadístca puede verse claramente medante un dagrama de árboles, gráfco con que habtualmente se presentan los resultados del MA. En estos gráfcos se representan los tamaños de efectos de los estudos ndvduales y el tamaño de efecto global juntamente con su respectvo ntervalo de confanza (IC). En la fgura 1, se representa un ejemplo donde: las líneas horzontales representan el ntervalo de confanza; los cuadrados ndcados en el centro de la líneas horzontales ndcan el tamaño de efectos estmado de cada estudo, el tamaño del cuadrado ndca la nfluenca del estudos en el resultado global (cuanto mayor sea la cantdad de sujetos expermentales y menor la varanza del expermento mayor será el peso del estudo en el resultado global); el rombo ndca el tamaño de efecto global [Song 2001]. ISBN pendng 28

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 Fgura 1: Ejemplo Dagrama de árboles Cuando los estudos de un MA son homogéneos, los ntervalos de confanza de los msmos se solapan entre sí. Por el contraro, s el resultado de algún estudo no se solapa con nnguno de los ntervalos de confanza de los otros expermentos, se drá que este estudo no es homogéneo (o es heterogéneo). S analzamos el ejemplo de la fgura 1, podemos decr que no exsten ndcos de heterogenedad, ya que los ntervalos de confanza de los estudos se solapan. S ben estos gráfcos son muy fácles de construr e nterpretar, los resultados que aportan son del tpo nterpretatvo y por ello son cuestonados por algunos autores. Como ya se menconó, las pruebas analítcas dseñadas para comprobar la exstenca de heterogenedad se basan en la hpótess de que la varabldad entre-estudos es nula. Sendo la prueba más conocdas el método Q propuesto por [DerSmonan and Lard 1986] el cual se basa en el test desarrollado por Cochrane [Hggns and Thompson 2002] (ver funcón 1). Q T k 1 we 2 k 1 k we 1 w 2 k 1 w E E 2 k = numero de estudos w = es el peso del estudo (se corresponde con la nversa de la varanza del msmo) E = tamaño de efecto del estudo E= tamaño de efecto global (1) La funcón 1 es báscamente muy senclla, podemos decr que cuanto mayor sea la dferenca entre el tamaño de efecto de un expermento respecto del tamaño de efecto global mayor será el valor de Q y por tanto la posbldad de que este sea consdera heterogéneo, pero cuanto mayor sea la varanza menor será el peso del expermento y por ende menor la posbldad de que el msmo sea consderado heterogéneo. Es decr, exste una compensacón entre la dferenca de los efectos y la varanza de cada expermento. Por esto se consdera que cuando el proceso de agregacón contene menos de 10 expermentos la potenca del método decae consderablemente ya que el error en el cálculo de la varanza es alto [Borensten et al 2007]. Una vez estmado Q T, s dcho valor es nferor a k-1 grados de lbertad se consdera que no exste heterogenedad entre los expermentos, pero s el resultado es superor a K-1 debe estmarse la probabldad acumulada (P) del msmo en base a una dstrbucón Ch 2. Habtualmente el P estmado debe ser nferor a para consderar que las dferencas son sgnfcatvas y por ende exste heterogenedad entre los expermentos (α ISBN pendng 29

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 = ). Ahora ben, como es conocda la falta de potenca del método, algunos autores [Schmdt and Hunter 2003] recomendan utlzar como valor de corte P <, en lugar de dado que la falta de potenca general compensaría el ncremento del nvel de error (α = ). Exste otro método para análss de heterogenedad complementaro a Q denomnado I 2 [Hggns at al 2003], el cual es un dervado del prmero, que báscamente mejora la capacdad de entendmento del resultado. En lugar de ndcar s es sgnfcatvo o no el nvel de heterogenedad ndca el grado de heterogenedad detectado. Este últmo método no será analzado en el presente trabajo, debdo a su base de cálculo es el valor de Q y arrastra los nveles de error de esté método. 2.2 Debldades de los Métodos para Detectar Heterogenedad S ben la cantdad de expermentos que ncluye un proceso de agregacón es el motvo más dfunddo respecto de la baja potenca del método Q, podemos decr que este es un problema que dentro del ámbto de la IS podría r soluconándose con el paso del tempo, a medda que los nvestgadores publquen más trabajos expermentales este problema se va a r soluconando [Deste, O et al 2010]. Sn embargo el mayor problema que enfrentan los métodos para determnar heterogenedad en IS es la ncapacdad para determnar dscrepancas entre los expermentos construdos con pocos sujetos expermentales [Hardy and Thompson 1998], esto se debe a que los expermentos pequeños, en general, están asocados a una alta varanza, por su mayor nvel de ncertdumbre, lo cual ncremente el tamaño del IC. Este hecho hace que para los métodos gráfcos los resultados se vean solapados y en lo que respecta al método Q funcona como un atenuador de las dferenca de efecto (tener en cuenta que cada expermento es ponderado por la nversa de su varanza) dfcultando la posbldad de detectar dferenca sgnfcatva (para α = o α = ). Para ver esto con más clardad vamos a recurrr a un ejemplo: supongamos un hpotétco caso en el cual se cuenta con 4 expermentos que son agregados medante el método Weght Mean Dference (WMD) [Hedges and Olkn 1985] y entre los cuales exste heterogenedad, dos de ellos dan como resultado un efecto medo (d = 0,5) y los otros dos dan como resultado un efecto muy alto (d = 1). S estos expermentos son construdos con cen sujetos expermentales por brazo se obtene el resultado que se ndca en la fgura 2. Donde el solapamento de los ICs de los expermentos es nulo y el p asocado al Q (12,626) es 0,00552, por tanto exste clara evdenca de heterogenedad entre los resultados. Ahora ben, s expermentos huberan sdo realzados con ventcnco (en lugar de cen) sujetos los resultados serían los que se ndcan en la fgura 3, donde los ICs son mucho mayores que los del caso anteror. El solapamento de los resultados es más que evdente y el p asocado al Q (3,087) es 0,378372, por tanto no exsten evdenca de heterogenedad. ISBN pendng 30

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 Fgura 2: Forest plot resultan de agregar los expermentos: E1, E3: meda 1 = 100, meda 2 = 90, desvío std 1 = 10, desvío std 2 = 9; E2, E4: meda 1 = 100, meda 2 = 95, desvío std 1 = 10, desvío std 2 = 9; ncluyendo 100 sujetos expermentales por brazo por cada expermento. Fgura 3: Forest plot resultan de agregar los expermentos: E1, E3: meda 1 = 100, meda 2 = 90, desvío std 1 = 10, desvío std 2 = 9; E2, E4: meda 1 = 100, meda 2 = 95, desvío std 1 = 10, desvío std 2 = 9; ncluyendo 25 sujetos expermentales por brazo por cada expermento. Como se ve en el ejemplo los ICs amplos funconan como una máscara que encubre las dferencas entre los resultados. 3. Trabajos Vnculados A contnuacón se presentan el resumen de dos trabajos de smulacón que analzan la potenca del método Q: [Km 2000]: en este trabajo el autor realza una smulacón medante el método de Monte Carlo en la cual analzan medante 2.000 smulacones la potenca de Q en base a los sguentes parámetros: cantdad de expermentos a nclur en los MA: 5, 10 y 30; cantdad de sujetos por expermentos: 10, 30 y 300; dferenca entre efectos: 20%, 40% y 60% (por ejemplo para un tamaño de efecto del tratamento prncpal de ISBN pendng 31

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 1, el efecto del tratamento de control se fja en 1,2 o 0,8 para el prmer caso; 1,4 o 0,6 para el segundo caso y 1,6 o 0,4 para el tercer caso). Como resultado de este proceso los autores concluyen que el método Q tene alta potenca (cercana al 100%) cuando los estudos tenen 300 sujetos, ndependentemente de la cantdad de expermentos que se agreguen o la dferenca de efecto, pero tambén consderan naceptable la potenca mostrada cuando los expermentos contenen 10 o 30 sujetos. [Hardy and Thompson 1998]: en este trabajo los autores realzan una smulacón medante el método de Monte Carlo en la cual analzan medante 1.000 smulacones la potenca de Q, no aplcando el método drectamente, como se hzo en al trabajo anteror, sno desde la funcón de potenca estadístca de Q. Los parámetros que varían en este trabajo son: cantdad de expermentos a nclur en los MA: 5, 10 y 20 y la varanza entre estudos: 5, 10 y 20. Como resultado de esta smulacón los autores concluyen que el método Q posee baja potenca. 4. Metodología de Investgacón Nuestro trabajo apunta a establecer en qué condcones es seguro aplcar el método Q para determnar la exstenca de heterogenedad en las actuales condcones expermentales de la IS. Para ello se analzará de forma conjunta como nfluyen la en la potenca del método Q la cantdad de expermentos, la cantdad de sujetos que los msmos poseen y la dferenca en el tamaño de efecto, medante una smulacón de Monte Carlo 1 [Metropols and Ulam 1949][Rogers 2006]. Tomando como base los parámetros defndos en [Deste et al 2011]: La cantdad de sujetos por expermentos osclará entre 4 y 20 sujetos por expermento. La cantdad de expermentos a agregar en cada meta-análss osclará entre 2 y 10. Los tamaño de efecto poblaconal ( ) a analzar son: bajo (0,2), medo (0,5), alto (0,8) y muy alto (1,2). En cuanto al proceso de smulacón: La meda poblaconal del tratamento secundaro ( cálculo y el desvío estándar en el 10% de la msma. c ) es fjada en 100 a efectos de La meda poblaconal del tratamento prncpal se estmará de la sguente forma E 100 *. La estratega de combnacón de resultados será la sguente: los expermentos serán agrupados de a 2, 4, 6, 8 y 10, dchos grupos contarán con dos subgrupos de gual cantdad de expermentos (por ejemplo el grupo de 6 expermentos será subdvddo en dos subgrupos de 3 expermentos) asocados a un tamaño de efecto partcular, que podrá ser: 0,2; 0,5; 0,8 o 1,2. De esta forma se podrá determnar, por ejemplo, s para una agregacón que contene 6 expermentos donde 3 de ellos provengan de una 1 The Monte Carlo method [Metropols and Ulam 1949] s a mathematcal statstcal tool used to generate random samples wth a known dstrbuton. The probablty dstrbuton descrbes the range of values of the random varable, as well as the probablty of the random varable beng wthn a subset of that range. ISBN pendng 32

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 poblacón de efecto 0,2 y los otros 3 de una poblacón de efecto 0,5, es factble determnar que este grupo es heterogéneo. Los resultados serán contablzaran en tres grupos: el prmero ncluye los casos en que se detecta heterogenedad y la fabldad de Q es del 95% (α = ), el segundo ncluye los casos en los cuales se detecta heterogenedad y la fabldad es del 90% (α = ) y el tercero ncluye los casos en que no se detecte heterogenedad. Para cada combnacón de valores de las varables (tamaño de efecto, Cantdad de expermentos y cantdad de sujetos expermentales por expermento) se construrán 10.000 smulacones, tras lo cual se calcularan los valores de las varables respuesta. La potenca estadístca del método Q será determnada como la cantdad de veces que el método arrojo un valor de p nferor a o sobre la cantdad de smulacones generadas. 5. Resultados En las tablas I y II, se presenta un resume de los resultados obtendos en el proceso de smulacón (para mayores detalles remtrse al Anexo, tabla III). La tabla I ndca la potenca del método cuando la fabldad es del 95% (valor recomendado en para la mayoría de los test estadístcos), y la tabla II ndca la potenca del método cuando la fabldad es del 90% (valor sugerdo por [Schmdt and Hunter 2003] como una alternatva para mejorar la potenca del método Q). En la columna dferenca de efecto, se ndca la dferenca de tamaño de efecto de los estudos ncludos en la smulacón; en la columna expermentos, se ndca la cantdad de expermentos que contene el proceso de agregacón; en la columna sujetos, se ndca la cantdad de sujetos que tene cada uno de los expermentos; y en la columna potenca, se ndca cual fue la potenca lograda por el método en ese contexto. Para este últmo campo se tomaron como valores de referenca potenca mayores o guales al 80%, valor de potenca recomendado por [Cohen 1977] (resaltado con color grs oscuro en las tablas); potencas mayores o guales al 60% e nferores al 80%, valor señalado por [Schmdt and Hunter 2003] como una potenca razonable cuando se trabaja con pequeñas muestras (resaltado con color grs claro en las tablas); potencas nferores al 60%, valores no recomendables, ya que en estas condcones se hace bastante dfícl poder determnar que exste heterogenedad a pesar de que esta exsta. En las tablas I y II se observa que la potenca deal (80%) cuando el método es aplcado con una fabldad del 95% solo se alcanza en los casos en que la dferenca de tamaño de efecto llega a 1 (1,2 0,2), y se agregan 10 expermentos con 20 sujetos expermentales cada uno. Mentras que con la msma cantdad de expermentos se puede alcanzar una potenca del 60% cuando los expermentos contenen 14 sujetos expermentales, para el resto de los casos la potenca es escaza y muchas veces nula (para mayores detalle ver Anexo). Por otra parte, s se relaja la fabldad del método al 90%, la potenca aumenta pero no de manera mportante, ya que para que la msma supere al 60% la dferenca entre los tamaños de efecto sgue sendo de 1. Igualmente, esta reduccón en la fabldad permte alcanzar potencas del 60% con 8 expermentos hecho con 10 o más sujetos expermentales, lo cual plantea una mejora en el desempeño. ISBN pendng 33

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 Tabla 1: Resumen de la potenca del método q con una fabldad del 95% 6. Conclusón Dferenca de efecto Expermentos Sujetos Potenca < 1 --- --- < 60% =1 10 >= 10 y < 14 >=60% y < 80% =1 10 >=20 >80% Tabla 2: Resumen de la potenca del método q con una fabldad del 90% Dferenca de efecto Expermentos Sujetos Potenca < 1 -- -- < 60% =1 8 < 10 < 60% =1 8 >=10 y <20 >=60% y < 80% =1 10 < 8 < 60% =1 10 >=8 y <10 >=60% y < 80% =1 10 >=14 >80% A través del proceso de smulacón se ha poddo verfcar que s ben la heterogenedad estadístca es un aspecto mportante en un proceso de agregacón, la msma en general no es detectable en los procesos de agregacón que hoy día se realzan en IS o, dcho en otras palabras, la dferenca de efectos entre los expermentos debe ser tan ampla que la heterogenedad podría observarse a smple vsta sn necesdad de contar con un método analítco. Como contrapartda a esta debldad, podemos decr que s el método Q ndca que un grupo de estudos es heterogéneo, este resultado es altamente fable. Se pudo corroborado que la potenca del método Q está lgada tanto a la cantdad de expermentos como al tamaño de los msmos. La demostracón de la baja potenca del método Q cuando se lo aplca con los valores típcos de IS refuerza, en parte, lo dcho en [Ktchanham 2004] respecto de que el análss de heterogenedad debería realzarse medante dagramas de árbol y no analítcamente. Igualmente, como se mostró en los ejemplos de las fgura 2 a 3, la ncdenca de la cantdad de sujetos de un expermento respecto del IC es alta y el smple análss vsual no alcanzaría para poder determnar de manera fable s los resultados son homogéneos o no. 7. Agradecmentos La presente nvestgacón ha sdo parcalmente fnancada por TIN2008-00555 y HD2008-00046 del Mnstero de Cenca e Investgacón de España. 8. Referencas Basl, V., Green, S., Latenberger, O., Lanuble, F., Shull, F., Sörumgård, S., Zelkowtz, M. (1996) The emprcal nvestgaton of perspectve-based readng, Internatonal Journal on Emprcal Software Engneerng, Vol. 1, No. 2; pp. 133 164. ISBN pendng 34

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 Borensten, M., Hedges, L., Rothsten, H., (2007) Meta-Analyss Fxed Effect vs. random effect, www.meta-analyss.com. Cohen, J., (1977) Statstcal power analyss for the behavoral scences, Hllsdale, NJ: Lawrence Erlbaum Assocates, 2nd Ed. Cochrane (2008), Curso Avanzado de Revsones Sstemátcas, ww.cochrane.es/?q=es/node/198 DerSmonan, R. and Lard, N. (1986) Meta-analyss n clncal trals, Controlled Clncal Trals, Volume 7, Issue 3, Pages 177-188 Deste, O.; Fernández, E.; García, R.; Jursto, N. (2010) Hdden Evdence Behnd Useless Replcatons, 1st RESER. Deste, O., Fernández, E., García, R., Jursto, N. (2011) Comparatve analyss of metaanalyss methods: when to use whch? 6th EASE Durham (UK) Hardy, R. and Thompson, S., (1998) Detectng and Descrbng Heterogenety n Meta- Analyss, Statstcs n Medcne, vol 17, pages 841-856 Hedges, L. and Olkn, I. (1985) Statstcal methods for meta-analyss, Academc Press, Hggns, J. and Thompson, S. (2002) Quantfyng heterogenety n a meta-analyss, Statstcs n Medcne, 21: 1539-1558. Hggns, J., Thompson, S., Deeks, J., Altman, D., (2003) Measurng nconsstency n Meta-Analyss, BMG. Jursto N.; Moreno A.; Vegas S., (2004) Towards buldng a sold emprcal body of knowledge n testng technques ; ACM SIGSOFT Software Engneerng Notes, vol. 29, no. 5, pp. 1-4. Kampenes, V., Dyba, T., Hannay J., Sjøberg, D., (2007) A systematc revew of effect sze n software engneerng experments, Informaton and Software Technology, vol. 49, pp. 1073 1086. Km, J., (2000) An Emprcal Study of the Effect of Poolng Efecto Szes on Hedges s Homogenety Test, Annual meetng of the Amercan Educatonal Reseerch Assocaton. New Orleans. Ktchenham, B., (2004), Procedures for performng systematc revews, Keele Unversty; TR/SE-0401, Keele Unversty Techncal Report. Metropols, N. and Ulam, S. (1949), The Monte Carlo Method, Journal of the Amercan Statstcal Assocaton, 44(247): 335-341. Schmdt, F. and Hunter, J. (2003) Handbook of Psychology, Research Methods n Psychology, Chapter 21, Meta-Analss, Schnka, J., Velcer, W., Wener, I. Edtors, Volume 2 Rogers, D., (2006), Ffty years of Monte Carlo smulatons for medcal physcs, Physcs n Medcne and Bology, 51: R287-R301 ISBN pendng 35

Proceedngs of 8th Expermental Software Engneerng Latn Amercan Workshop ESELAW 2011 Song, F., Sheldon, T., Sutton, A., Abrams, K., Jones, D., (2001) Methods for Explorng Heterogenety n Meta-Analyss, Evaluaton and The Health professons, vol. 24 nro. 2, Pages 126-151. Anexo A contnuacón, en la tablas III se presenta el resultado del proceso de smulacón, donde la prmer columna ndca la cantdad de sujetos (n) que posee cada expermento; la segunda columna ndca la cantdad total de expermentos (k) que posee el proceso de agregacón; desde la tercera octava columna se ndcan los tamaños de efecto que se están comparando. Estas últmas columnas se dvden en tres sub-columnas, las cuales ndcan el porcentaje de veces que el proceso de smulacón obtuvo: p (mplca que el método Q logró detectar la heterogenedad con una fabldad mayor o gual al 95%), p entre y (mplca que se podría detectar heterogenedad con una fabldad entre el 90 al 95%) y p > (mplca que el método Q no detectó heterogenedad), Tabla III: Potenca asocada a Q 0,2 vs 0,5 0,2 vs, 0,8 0,2 vs, 1,2 0,5 vs 0,8 0,5vs,1,2 0,8vs, 1,2 N K 4 2 1 2 97 1 2 97 1 10 89 1 1 98 2 3 94 3 2 95 8 0 0 100 0 1 99 1 3 96 0 0 100 0 2 98 0 1 99 10 0 0 100 0 0 100 3 3 94 0 0 100 0 2 98 0 0 100 14 0 0 100 0 1 99 0 0 100 0 0 100 1 0 99 0 0 100 20 0 0 100 0 0 100 3 2 95 0 0 100 0 0 100 0 0 100 4 4 4 6 90 11 12 77 19 4 77 4 5 91 17 9 74 6 8 86 8 2 1 97 7 5 88 12 11 77 3 1 96 7 7 85 1 3 96 10 1 4 94 5 4 91 12 12 76 2 2 96 5 2 93 5 2 92 14 2 2 96 7 8 85 18 7 75 2 3 95 9 7 84 8 1 91 20 2 3 95 5 4 91 20 11 69 2 3 95 11 5 84 5 1 94 4 6 0 0 100 9 8 83 24 18 58 0 3 97 11 15 74 0 3 97 8 2 2 96 4 6 89 16 14 69 2 3 95 12 5 83 2 10 88 10 0 2 98 4 3 93 19 10 71 0 2 98 8 9 83 0 3 97 14 2 0 98 7 3 90 19 19 62 2 1 97 10 3 87 1 4 96 20 3 2 95 11 5 84 30 14 56 2 1 97 12 4 84 4 1 95 4 8 6 7 87 14 12 74 18 20 62 6 11 83 12 13 75 5 1 94 8 2 5 93 7 8 85 39 15 46 4 5 91 11 11 78 6 3 91 10 3 3 94 6 11 84 46 18 36 4 3 93 14 9 77 4 3 94 14 1 5 94 10 7 83 37 21 42 2 4 94 8 8 84 1 6 93 20 0 3 97 14 5 81 51 17 32 5 2 93 12 9 79 1 5 94 4 6 7 88 24 18 58 34 18 49 0 0 100 16 8 76 13 13 74 8 4 4 93 10 12 78 50 13 38 7 6 87 16 19 64 7 6 86 10 10 4 2 94 7 7 86 65 10 24 7 1 92 12 16 72 6 4 91 14 6 4 90 10 8 82 71 19 10 6 3 91 19 14 67 10 2 88 20 6 6 88 12 0 88 100 0 0 6 6 88 12 9 79 12 0 88 ISBN pendng 36