Keywords: Data mining, result evaluation, goodness of fit measures.

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Keywords: Data mining, result evaluation, goodness of fit measures."

Transcripción

1 Medidas de evaluación del resultado en minería de datos: Una propuesta integradora Por José Alberto Castañeda, Teodoro Luque y Miguel Ángel Rodríguez Universidad de Granada. Facultad de CC. Económicas y Empresariales. Dpto. Comercialización e Investigación de Mercados. Cada vez más se están utilizando herramientas de minería de datos en los negocios, en general, y en la investigación de marketing, en particular. De entre sus principales ventajas se encuentra la elevada capacidad predictiva manifestada por los resultados alcanzados, mientras que entre sus puntos débiles está la escasez de medidas para evaluar el resultado alcanzado. Este trabajo trata de recoger y organizar en 4 facetas (bondad de ajuste, relevancia, novedad y aplicabilidad del resultado) las medidas que, de manera dispersa, aparecen en la literatura. El esquema que aquí se propone de 4 grupos de indicadores permitirá al profesional una toma de decisiones más eficiente. Además, también es útil para identificar áreas donde se requieren mayores esfuerzos en el desarrollo de medidas de evaluación del resultado en minería de datos. Palabras clave: minería de datos, evaluación del resultado, medidas de bondad de ajuste. Data mining tools are being used more and more in businesses and in marketing research. One of its advantages is the high predictive capacity showed by results attained, while one of its weak points is the scantiness of the result evaluation measures. This paper tries to pick up and to organize data mining result evaluation measures in 4 facets (goodness of fit, relevance, novelty and applicability of the result). The four groups framework proposed of measures will allow a more efficient decision making to the professional. Furthermore, this work also identifies areas where is needed more effort to develop measures in data mining s results evaluation. Keywords: Data mining, result evaluation, goodness of fit measures. 1. LA MINERÍA DE DATOS: DESARROLLO Desde hace un tiempo se han desarrollado e incorporado a la gestión, en general, y a la investigación de mercados, en particular, un conjunto de herramientas de análisis que componen la minería de datos. Al dar un concepto de minería de datos nos encontramos con tres corrientes diferentes en la literatura. De acuerdo con PEACOCK (1998a) la definición se puede abordar desde una triple perspectiva, en función de la amplitud de la misma. Así, tomando la perspectiva más restrictiva la minería de datos es el descubrimiento automático de patrones o modelos interesantes y no obvios escondidos en una base de datos, los cuales tienen un gran potencial para contribuir en los aspectos principales del negocio. La idea que subyace es la de extraer información relevante y aplicable que apoye, agilice y facilite la toma de decisiones. La minería de datos, desde un punto de vista estrecho, comprende, como sistema de extracción de relaciones, los métodos basados en la computadora, requiriendo poca involucración y ayuda por parte del analista en la obtención de información relevante. Se incluirían aquí los algoritmos de redes neuronales artificiales, árboles de decisión, inducción de reglas, lógica difusa, análisis de links y los algoritmos genéticos. El interés del mundo profesional por la minería de datos se manifiesta por el variado y amplio conjunto de empresas que han lanzado al mercado productos de minería de datos (véase GROTH, 2000, 245), entre las cuales se encuentran algunas de las empresas más importantes en herramientas de análisis: SPSS (Clementine), SAS (Enterprise Miner) e IBM (Inteligent Miner). Desde un punto de vista académico, MALHOTRA y PETERSON (2001) identifican a los algoritmos de minería de datos como uno de los campos emergentes y de futuro en la investigación de marketing, a lo que podemos unir la aparición de manuales sobre minería de datos (BERSON y SMITH, 1997; CABERNA et al. 1997; DELMATER y 62

2 HANCOCK, 2001; GROTH, 1998 y 2000; HAN y KAMBER, 2001; entre otros), algunos de los cuales con especial enfoque en el marketing (BERRY y LINOFF, 1997). En el ámbito nacional, y dentro de la disciplina, también se encuentra alguna destacable incursión en la minería de datos (LUQUE, 2003). Teniendo en cuenta las sugerencias de DESPHANDÈ (1999) respecto a aprovechar las aportaciones de otras disciplinas, consideramos conveniente la utilización tanto por profesionales como por académicos de la minería de datos en el marco de la investigación de marketing. Sin embargo, una de las mayores barreras en su desarrollo ha sido y sigue siendo la evaluación del resultado. Obviamente, también en minería de datos hay que llevar a cabo una fase de evaluación del resultado, al igual que se ha venido realizando con los análisis estadísticos clásicos. En éstos se evalúa la bondad del resultado de forma amplia y precisa, puesto que se han generado multitud de indicadores. La evaluación del resultado obtenido en minería de datos presenta ciertas dificultades. Si seguimos a BERRY y LINOFF (1997), BERSON y SMITH (1997), HAN y KAMBER (2001), MENA (1999) u otros autores que traten el tema de las medidas de bondad del resultado, se constatará la variedad y complejidad del asunto. Además, en minería de datos se requiere de medidas adicionales a las de ajuste que indiquen el grado de utilidad y novedad de los resultados conseguidos. Como ejemplo de ello, la Universidad de Stanford aplicó un algoritmo de generación de reglas a una parte del censo de los Estados Unidos, la cual contenía registros. El número de reglas generadas por el algoritmo fue de La conclusión es simple, tenían datos y después del análisis seguían teniendo datos, es decir, las reglas obtenidas eran imposibles de analizar en su conjunto. Además, las que aparecían como más interesantes mostraban información obvia y, por lo tanto, no suponían un incremento de conocimiento. Por ende, se hace necesario una serie de índices que permitan conocer en qué sentido son interesantes las reglas obtenidas. En la literatura, a excepción de BERRY y LINOFF (1997, 94) y BERSON y SMITH (1997, 510), no se presta mucha atención a los indicadores de la efectividad del resultado obtenido mediante la mine-ría de datos. La aproximación del primero de los trabajos comentados parte de unos objetivos previos que deben guiar la evaluación final. A partir de ahí, dicha evaluación se realiza sobre el modelo, el resultado y el impacto que tendrá en la organización la información obtenida. Pese a considerarla como una buena aproximación al tema estudiado, utiliza pocos indicadores para medir constructos complejos, como el impacto de un resultado, y no aporta ningún coeficiente que permita filtrar información en función del nivel de novedad que supone ésta. La otra aproximación es la que BERSON y SMITH (1997, 510) realizan. Basándose fundamentalmente en la precisión del modelo, los autores presentan el mismo conjunto de indicadores que BERRY y LINOFF (1997, 94), pero referidos todos a la variable antes citada. Sin embargo, como se comentó anteriormente el resultado de la minería de datos es interesante por algo más que por su precisión. De todo lo comentado se deduce la necesidad de establecer un esquema de indicadores que permita una completa evaluación del resultado en minería de datos. Ello influirá decisivamente en la mayor utilización de las técnicas de minería de datos en el mundo académico y profesional, gracias a la posibilidad de evaluar la información que de ellas surja. Este trabajo pretende recoger las distintas medidas, objetivas o no, de evaluación del resultado en minería de datos, organizándolas en una estructura operativa en torno a 4 factores exigibles a la información en los negocios: bondad, relevancia, novedad y aplicabilidad. Veamos detenidamente cada uno de estos grupos de medidas. 2. INDICADORES DE LA BONDAD DEL RESULTADO Al igual que en la regresión, estos índices tratan de aportar una idea acerca del error que se comete al emplear un modelo para realizar una tarea. Es, como indican PADMANABHAN y TUZHILIN (1999), una medida de la fortaleza estadística del resultado. Son indicadores objetivos construidos, casi específicamente, para cada tipo de resultado (CABENA et al. 1997, 56). Cuando el resultado se presenta en forma de clasificación o estimación se utilizará el indicador de PRECISIÓN (BERSON y SMITH, 1997, 510; EDELSTEIN, 1998 y 2000), medido a través del porcentaje de predicciones que son correctas. Cuando se trata de clasificación se empleará el porcentaje de casos bien clasificados y para la estimación el porcentaje de registros con una estimación que el decisor considere correcta. Si el modelo se construye sobre la base de una serie de datos existentes, sobre un conjunto de entrenamiento o muestra, la precisión puede ser medida de forma inmediata sobre la misma. La otra cara de la moneda del indicador presentado es el RATIO DE ERROR (BERRY y LINOFF, 1997, 99; BERSON y SMITH, 1997, 510; EDELSTEIN, 1997 y 1998), que mide el porcentaje de casos en los que el resultado no coincide con la realidad. Por tanto, se puede definir como el complementario de la precisión. Otras medidas derivadas de las dos anteriores que han aparecido en la literatura son las siguientes: La varianza o la desviación típica son medidas empleadas cuan- 64

3 do se estiman valores continuos. Se basan en obtener un promedio de los errores cometidos (BERRY y LINOFF, 1997, 100; BERSON y SMITH, 1997, 511). La matriz de confusión (CABENA et al. 1997, 56; EDELSTEIN, 1998). Ayuda a conocer la bondad del modelo para predecir y también para descubrir en qué casos se producen errores. Así, en la tabla 1 se muestra un ejemplo de la matriz de confusión, en la que por filas aparecen la clasificación predicha y en las columnas la clasificación real. De esta forma los casos que se encuentran en la diagonal principal representan aquellos en los que se ha acertado y el resto son errores del resultado obtenido. Por lo tanto, se han clasificado correctamente el 60% de los casos. Se trata ésta de una herramienta más informativa que la presentación de un simple dato. 1. TABLA 1. EJEMPLO DE MATRIZ DE CONFUSIÓN Observado Clase A Clase B Clase C Predicción Clase A Clase B Clase C Cuando medimos la bondad del ajuste en algoritmos que han necesitado de un entrenamiento previo para generar el modelo, puede ocurrir que basándonos en el indicador de precisión o en el ratio de error se aporte una idea equivocada. Ello ocurre por el sobre-aprendizaje (BERRY y LINOFF, 1997; BERSON y SMITH, 1997, 342; CABENA et al. 1997, 56; EDELSTEIN, 1997; LUQUE, 2003; PEACOCK, 1998b), es decir, cuando el modelo se ajusta muy bien a la muestra empleada para su construcción, mientras que para cualquier otra serie de datos el ajuste es bastante malo. En tal caso, el modelo construido ha de ser validado para un conjunto de datos independientes a la muestra empleada y que se denomina conjunto de prueba, midiendo la precisión o ratio de error sobre dicha serie de datos. Pasando a los indicadores que se emplean en los algoritmos que producen resultados en forma de reglas, la precisión se va a medir a través del COEFICIENTE DE CONFIANZA (BERRY y LINOFF, 1997, 106; BERSON y SMITH, 1997, 481; HAN y KAMBER, 2001, 27; LAN et al. 1999; SPILIOPOULOU et al. 1999; SPILIOPOULOU y FAULSTICH, 1998), que se define como la probabilidad condicionada de un hecho (conclusión) con respecto a otro (condición). De forma analítica P (Y X). Una forma más simple de expresarlo es definirlo como el porcentaje de veces que, habiéndose producido la condición expresada por la regla (X), se deriva en la conclusión Y. Utilizaremos el ejemplo siguiente de una base de datos de sesiones en un sitio web para ilustrar las explicaciones (tabla 2). TABLA 2. BASE DE DATOS DE EJEMPLO Nº Día Zona visitada 1 Laboral Noticias 2 Festivo Chat 3 Festivo Compras 4 Laboral Chat 5 Laboral Noticias 6 Festivo Compras 7 Laboral Juegos Como se puede observar, la regla «SI festivo ENTONCES zona compras» se puede aplicar en la base de datos en tres ocasiones, puesto que son tres veces las que el campo día toma el valor «festivo», el cual es la condición en la regla. De esas tres veces solamente 2 llevan al navegante a la zona de compra, por lo tanto, el coeficiente de confianza se calcula como: P(Compra Festivo) = P(Festivo U Compra) / P(Festivo) = 2/3 = 0.67 BERSON y SMITH (1997, 481) denominan a este indicador como «Precisión», aunque la terminología más generalmente aceptada es la presentada en este trabajo, coeficiente de confianza. Por último, la DISTANCIA (Berry y Linoff, 1997, 106) es empleada en algunas técnicas de minería de datos (análisis cluster, razonamiento basado en memoria, etc.), cuando se disponen de variables continuas y numéricas, calculada mediante la raíz cuadrada de la suma al cuadrado de las distancias en cada eje. 3. INDICADORES DE RELEVANCIA DEL RESULTADO Si los anteriores coeficientes medían la bondad de ajuste del modelo a los datos, éstos se centran en mostrar la importancia del resultado. Para ello mide la aportación a la situación actual y la frecuencia de utilidad del resultado. Se comentarán a continuación dos indicadores, referidos ambos a la presentación de resultados en forma de reglas. Un dato que puede ser interesante en las reglas es el número de veces que se pueden aplicar, es decir, la frecuencia con la que se presenta la condición. Utilizar un porcentaje en lugar de un valor absoluto parece más conveniente, ya que se libera al indicador de la dependencia del tamaño de la muestra. El primero de los indicadores es el COEFICIENTE DE COBERTURA (BERSON y SMITH, 1997, 481; LAN et al. 1999; SPILIOPOULOU et al. 1999; SPILIOPOULOU y FAULSTICH, 1998), que mide el porcentaje de registros en los cuales se puede aplicar la regla. La probabilidad de que el campo empleado como condición en una determinada regla tenga un valor concreto (X), es otra de las posibles aproximaciones al coeficiente. Este indicador da una idea sobre el conjunto de ocasiones en las que se puede aplicar la regla obtenida. 65

4 Se corresponde con el denominador empleado para el cálculo del coeficiente de confianza. En la base de datos de ejemplo se observa que en total está compuesta de 7 registros, de los cuales el campo «DIA» presenta en 3 ocasiones el valor «festivo», que es precisamente la condición impuesta por la regla «SI festivo ENTONCES zona compras». Así, el coeficiente de cobertura se sitúa para dicha regla en el 0.43 (3/7). Otro de los indicadores es el COEFI- CIENTE DE APOYO (BERRY y LINOFF, 1997, 106; BERSON y SMITH, 1997, 481; HAN y KAMBER, 2001, 27), que muestra el porcentaje de ocasiones en que globalmente aparece la relación descrita por la regla. Es decir, se trata de la probabilidad de que los antecedentes y consecuencias de una regla ocurran conjuntamente en un caso. Al igual que el anterior también es posible expresarlo en términos absolutos, sin embargo, sería más conveniente la propuesta del porcentaje. Es un indicador de la frecuencia con la que globalmente se presenta como cierta la regla obtenida. Volviendo al ejemplo que se venía empleando se comprueba como la regla «SI festivo ENTONCES zona compras» solamente se cumple para los casos tercero y sexto, con lo cual el coeficiente de apoyo es del 0.29 (2/7). Existe una relación entre el coeficiente de confianza, de cobertura y de apoyo. Los tres forman distintos elementos de una misma relación, que presentamos a continuación: Coeficiente de Confianza = Coeficiente de Apoyo / Coeficiente de Cobertura Algunos autores confunden el coeficiente de apoyo y el de cobertura, en concreto, la confusión se centra en llamar coeficiente de apoyo al de cobertura (ej. LAN et al. 1999; SPILIOPOULOU et al. 1999). Para el caso de los resultados en forma de reglas hay otro indicador apropiado para medir el grado de importancia de la regla a través de la aportación que supone respecto a la pura probabilidad. Se denomina COEFICIENTE DE SIGNIFICACIÓN (BERSON y SMITH, 1997, 481), aunque algunos autores llaman a este indicador «mejora» (LUQUE, 2003, 63). Tomamos como ejemplo la siguiente regla: SI festivo Y navegante comprador ENTONCES visita a la zona de compras. Conf. = 0.7; Cober. = 0.2; Apoyo = Como se indica el apoyo de dicha regla es del 14% (0.7*0.2). Pero puede ocurrir que en general en Internet, e independientemente de la empresa, en fin de semana entre el 70% de los navegantes, que haya un 40% de navegantes compradores y que las visitas a zonas de compras se sitúen en torno al 50% respecto al total. Con ello tenemos que, por mera probabilidad, en el 14% de las ocasiones un navegante comprador visitará la zona de compras en fin de semana (0.7*0.4*0.5). Ello se cumple siempre que estemos hablando de hechos independientes, entre los que no se puede establecer ningún tipo de relación como la que presume la regla. Una forma de calcular el coeficiente de significación sería a través de la diferencia entre el coeficiente de apoyo y la probabilidad de ocurrencia conjunta de hechos independientes. Por último, y para cualquier tipo de resultado, se puede emplear un indicador de la importancia del mismo, el LIFT (BERRY y LINOFF, 1997, 106; BERSON y SMITH, 1997, 481; EDELSTEIN, 1998 y 2000). El indicador Lift, según BERRY y LINOFF (1997, 106), permite la comparación entre diferentes resultados producidos por distintos algoritmos, término no posible con el resto de medidas. Sin embargo, está especialmente indicado para la evaluación de tareas de clasificación. La forma de presentación es a través de un indicador o en forma de gráfico, el cual resulta más visual. La idea es simple, el decisor parte de una situación inicial en la que no cuenta con información adicional y, por lo tanto, el realizar una actividad generará un resultado determinado por la probabilidad. Es decir, en el caso del sitio web tomado como ejemplo, si se pretende promover un nuevo producto hay dos alternativas. La primera, y a la que nos referimos, es situar un banner en la página de entrada a la web y esperar la oportuna respuesta por parte del navegante. Así, solamente contestarán aquellos usuarios que estén interesados en el producto. Sin embargo, podemos adoptar una segunda alternativa, que consiste en la construcción de un modelo que clasifique los navegantes en función de su propensión a responder, o no, a la oferta que planteamos. Aplicando dicho modelo, se genera la oferta solamente para aquellos navegantes identificados como posibles compradores y al resto se le presenta una oferta diferente. Para que el modelo sea bueno ha de producir un índice de respuesta mayor. Este índice de respuesta no es más que el porcentaje de navegantes que han pinchado en el banner de entre los que han tenido ocasión de verlo. La diferencia de eficacia entre ambos métodos es medida a través del Lift. El Lift se calcula a través del cociente entre el porcentaje de concentración de elementos o hechos en una determinada clase, frente a la concentración que presenta la población en su conjunto. Lift = Porcentaje de objetivo en la clase/porcentaje de objetivo en la población. Por ejemplo, si habitualmente el número de respuestas ante un banner 66

5 instalado en una web se sitúa en el 5% (sobre un total de impactos), y con un modelo, que ayuda a identificar aquellos navegantes con mayor propensión de respuesta, se consigue el 20%, entonces el indicador Lift toma un valor de 20/5=4. No es un porcentaje, sino simplemente un indicador de cuántas veces es mejor el modelo, en la captación del hecho objetivo, que la aleatoriedad. La gran ventaja de este indicador es la posibilidad de comparar respuestas proporcionadas por diferentes algoritmos, como por ejemplo una red neuronal, un mecanismo de generación de reglas y un árbol de decisión. El problema es que depende de la muestra empleada, ya que para muestras pequeñas se puede generar un alto Lift, sin embargo, ello no supone que se esté eligiendo el óptimo. Es decir, en una población de 100 personas, de las cuales consumen un producto 80, es posible que un modelo seleccione un segmento con 1 solo individuo el cual, además, es consumidor. Dentro de ese segmento hay un 100% de compradores y el Lift alcanzaría un valor de 100/80= Otro modelo puede elegir a 81 personas, de las cuales consumen 80. Para dicho modelo el indicador Lift tomará el valor de 98.76/80= Aparentemente el primer modelo es mejor, sin embargo, el segundo es lógicamente el más apropiado. En forma de gráfico el Lift ayudará a conocer cómo evoluciona el indicador a través de los diferentes deciles de la población. La aplicación de un modelo va generando mejores resultados, para luego converger con la situación de ausencia de modelo. Así, el gráfico Lift es el que aparece en trazo más grueso y que presenta una primera fase de fuerte descenso, para pasar a una fase de decrecimiento moderado, hasta alcanzar el valor 1. Se trata de un indicador que contiene límite mínimo, situado en el 1, pero no máximo (figura 1). FIGURA 1. LIFT EVOLUCIÓN DEL INDICADOR LIFT A LO LARGO DE LOS DISTINTOS DECILES DE LA % objetivo POBLACIÓN Fuente: Berry y Linoff, 1997, 109 Ê`iÊ«œL >Vˆ 4. INDICADORES DE NOVEDAD DEL RESULTADO Al principio del epígrafe indicamos que uno de los problemas que tiene la generación de reglas es la obtención de información excesivamente abundante y obvia. El indicador que aquí presentamos trata de solventar ambos problemas. El COEFICIENTE DE NOVEDAD (BERSON y SMITH, 1997, 481) está exclusivamente creado para indicar si una regla es interesante o no en función del número de reglas ya generadas para un área de conocimiento concreta. Se trata de evitar las redundancias en su obtención. Así, resulta más interesante una regla con los anteriores indicadores bajos, pero desconocida, frente a una con fuertes coeficientes de bondad e importancia, pero cuya existencia ya era conocida por procesos de análisis anteriores. Autores como ANAND, PATRICK, HUGHES y BELL (1998), BÜCHNER, ANAND, MULVENNA y HUGHES (1999), HAN, LAKSHMANAN y NG (1999) o PADMANABHAN y TUZHILIN (1999), abogan por la inclusión del conocimiento previo del negocio e intuición que detentan los decisores para: restringir el espacio " Ê""Ê /Ê - Ê""Ê de búsqueda, obtener un conocimiento más preciso y eliminar aquél que resulte no interesante. Se hace necesario, por tanto, codificar el conocimiento de los expertos en el negocio en forma de reglas para hacer más eficiente la búsqueda de información. La forma de medición es generalmente subjetiva (BERSON y SMITH 1997, por ejemplo, no especificaron ninguna forma de expresarla) y es el decisor quien ha de establecer el método. Una forma de medición más objetiva sería hacer que tome valores dicotómicos 0 ó 1. De esta forma tomará el primero de ellos cuando sea exactamente igual a otra regla ya generada anteriormente y almacenada, mientras que tomará el valor 1 para cualquier otro caso. También en PADMANABHAN y TUZHILIN (1999) se discute un algoritmo que pretende obtener todas aquellas reglas relevantes, definidas como contradictorias a las creencias introducidas por el decisor. Otra aproximación sería comprobar las reglas surgidas con relación a aquellas disponibles de otros procesos de análisis. Dicha comparación se realizaría entre reglas con idénticas conclusiones (las cuales suelen ser una sola por regla), para comprobar el grado de diferencia en cuanto a 68

6 las condiciones empleadas. La construcción del indicador se realizaría sobre la base de la regla con la que comparta el mayor número de condiciones (la más parecida). De forma analítica: Coeficiente Novedad = Nº condiciones que coinciden / Nº total de condiciones de la regla evaluada Por ejemplo, si tenemos la regla siguiente «SI festivo ENTONCES zona compras» y en el actual proceso de análisis surge la regla «SI festivo Y mediodía ENTONCES compras», el coeficiente de novedad será igual a (1/2)= 0.5. Como se puede observar se trata de un índice que fluctuará entre 0 y 1, siendo el primero de los valores ausencia absoluta de parecido y el valor 1 coincidencia total. Esto no es más que un ejemplo para ilustrar la forma de hacer objetivo el indicador, y somos conscientes de que se trata de un indicador con fuertes problemas, como la necesidad adicional de computación que requiere, para comparar reglas, o no considerar el aspecto semántico de las reglas, ya que dos reglas coincidentes al 90% pueden ser radicalmente distintas gracias a las variables que quedan fuera de esa igualdad. me importancia. Por ello, resulta necesario contar con los resultados y modelos generados lo más rápidamente posible, para aplicarlos en el negocio. Las facetas que permiten una aplicación rápida del resultado son, la simplicidad y el beneficio esperado. Es decir, en la medida en que un output resulte más fácil de interpretar, de comprender y de transformar en conocimiento aplicado al negocio, tendrá un mayor valor para el decisor. El COEFICIENTE DE SIM- PLICIDAD (BERSON y SMITH, 1997, 481) ayudará a medir dicho constructo. Nuevamente se trata de una medida subjetiva, establecida por parte del decisor. Una forma sencilla de hacerlo más objetivo es midiendo la forma en que se produce la respuesta y para ello establecer un listado de categorías ordenadas (tabla 3). Una variante objetiva de simplicidad comentada por BERRY y LINOFF (1997, 98), a la que denominan longitud de descripción mínima, es contar el número de bits necesarios para codificar cada regla y el conjunto de excepciones a la misma. Así, aquella regla que ocupa un menor número de bits será la más valorada. GRÁFICO TABLA 3. LISTA DE RESULTADOS PONDERADA Presentación Valor Reglas 4 Gráfica 3 Tablas 2 Otras 1 El último conjunto de índices que se van a comentar, y no menos importantes, es la TIR o tasa de retorno, el VAN o valor actual neto y el BENE- FICIO (BERRY y LINOFF, 1997, 109; BERSON y SMITH, 1997, 511; EDELSTEIN, 1998 y 2000). En definitiva, se trata de medir una única cosa, el valor que aporta la información aplicada al negocio. Se comparan, por tanto, los costes e ingresos que supone la aplicación del modelo o resultados obtenidos, con la situación en que se toman decisiones sin contar con la información suministrada por la minería de datos (gráfico 1). Por lo que respecta a los costes, suelen ser fáciles de calcular, serían los correspondientes a la aplicación del modelo y al desarrollo de la campaña o acción que éste aconseje. El beneficio obtenido por dicha toma de decisiones es algo más complejo. Puesto que, cuál es el beneficio de 1. GRÁFICO DE COMPARACIÓN TIR, CON Y SIN EMPLEAR UN MODELO DE DECISIÓN. En ocasiones interesa que el output de un proceso de minería de datos coincida con las creencias anteriores, es el caso en que se plantea la prueba de hipótesis. Por tanto, en esta situación, aquellas reglas que sean coincidentes con las creencias previas serán las más interesantes. T I R Modelo Azar 0 5. INDICADORES DE APLICABILIDAD DEL RESULTADO Por último, en los negocios de hoy en día, la necesidad de rapidez en la respuesta al mercado tiene una enor % población 69

7 fidelizar a un cliente en nuestra página web?. 6. REFLEXIONES FINALES E IMPLICACIONES DE NEGOCIO La evaluación del resultado determina la aplicación satisfactoria de las herramientas de minería de datos, reduciéndose la utilidad de estas técnicas en la medida en que no se evalúe adecuadamente la información que generan. La propuesta que se realiza en este trabajo viene a reunir indicadores y establecer un esquema de referencia en la evaluación de los resultados en minería de datos. Se deduce de lo comentado, en primer lugar, que es necesario evaluar 4 facetas del resultado: bondad de ajuste, relevancia, novedad y aplicabilidad. El cálculo de estas medidas permitirá cumplir con las promesas que realiza la minería de datos a través de su definición. La particular característica en minería de datos de descubrimiento automático de información exige una evaluación más amplia de la información obtenida, más allá de la bondad del resultado. Desde nuestro punto de vista resulta más conveniente un empleo conjunto de todos los coeficientes presentados, para conocer el posible interés e impacto de un proceso de minería de datos. El decisor tiene la oportunidad de filtrar las reglas y resultados obtenidos en el proceso de análisis por cada uno de los coeficientes calculados en la fase de evaluación. En segundo lugar, la escasez de indicadores de evaluación sugiere la necesidad de dedicar en el futuro esfuerzos adicionales para el desarrollo de medidas de evaluación del resultado en minería de datos que permitan la comparación entre aquellos generados por distintas herramientas. En particular, desde una perspectiva pragmática resulta necesario desarrollar indicadores objetivos y operativos referidos a la novedad y aplicabilidad del resultado. Por último, no conviene olvidar que es la prueba del modelo generado en el negocio el paso final en la validación, y el que realmente establecerá la valía del proceso de minería de datos. REFERENCIAS BIBLIOGRÁFICAS ANAND, S.S.; PATRICK, A.R.; HUGHES, J.G.; BELL, D.A. (1998), «A data mining methodology for cross-sales», Knowledge- Based Systems, nº 10, pp BERRY, M.J.A.; LINOFF, G. (1997), Data mining techniques: for marketing, sales and customer support. Ed. John Wiley & Sons, Inc. Nueva York. BERSON, A.; SMITH, S.J. (1997), Data warehousing, data mining, & OLAP. Ed. McGraw-Hill. Nueva York. BÜCHNER, A.G.; ANAND, S.S.; MULVENNA, M.D.; HUGHES, J.G. (1999), «Discovery Internet marketing intelligence through web log mining», Proc. Unicom99 Data Mining & Datawarehousing: Realising the full Value of Business Data, pp CABENA, P.; HADJINIAN, P; STADLER, R.; VERHEES, J.; ZANASI, A. (1997), Discovering data mining: from concept to implementation. Ed. Prentice Hall. Upper Saddle River, NJ. DELMATER, R.; HANCOCK, M. (2001), Data mining explained. Ed. Digital Press. Woburn, MA. DESHPANDÈ, R. (1999), «What are the contributions of marketing to organizational performance and societal welfare?», Journal of Marketing, vol. 63, special issue, pp EDELSTEIN, H. (1997), «Mining for gold», Information Week, abril. EDELSTEIN, H. (1998), «Data mining - let s get practical», DB2 Magazine, verano. EDELSTEIN, H. (2000), «Building profitable customer relationship with data mining», disponible en GROTH, R. (1998), Data mining. Ed. Prentice Hall PTR. Upper Saddle River, NJ. GROTH, R. (2000), Data mining: building competitive advantage. Ed. Prentice Hall PTR. Upper Saddle River, NJ. HAN, J.; KAMBER, M. (2001), Data mining: concepts and techniques. Ed. Morgan Kaufmann Publishers. San Francisco. HAN, J.; LAKSHMANAN, L.; NG, R.T. (1999), «Constraint-based, multidimensional data mining», Computer, vol. 32, agosto, nº 8, pp LAN, B.; BRESSAN, S.; CHIN OOI, B.; TAY, Y. (1999), «Making web servers pushier», Proc. Workshop on Web Usage Analysis and User Profiling (WEBKDD 99), agosto. L UQUE MARTÍNEZ, T. (2003), Nuevas herramientas de investigación de mercados. Especial referencia a redes neuronales artificiales aplicadas al marketing. Ed. Civitas. Madrid. MALHOTRA, N.K.; PETERSON, M. (2001), «Marketing research in the new millennium: emerging issues and trends», Marketing Intelligence & Planning, vol. 19, nº 4, pp MENA, J. (1999), Data mining your website. Ed. Digital Press. Boston. PADMANABHAN, B.; TUZHILIN, A. (1999), «Unexpectedness as a measure of interestingness in knowledge discovery», Decision Support Systems, nº 27, pp PEACOCK, P.R. (1998a), «Data mining in marketing: part 1», Marketing Management, vol. 16, invierno, nº 4, pp PEACOCK, P.R. (1998b), «Data mining in marketing: part 2», Marketing Management, primavera, pp SPILIOPOULOU, M.; FAULSTICH, L. (1998), «WUM: a Web utilization miner», Workshop on the Web and Data Bases (WebDB98), págs SPILIOPOULOU, M.; FAULSTICH, L.; WINKLER, K. (1999), «A data miner analyzing the navigational behaviour of Web», Proc. of the Workshop on Machine Learning in User Modelling of the ACAI 99 Int. Conf., Creta, Grecia, julio. 70

KEYWORDS: data mining, results evaluation, analysis tasks, AI algorithms.

KEYWORDS: data mining, results evaluation, analysis tasks, AI algorithms. COMERCIALIZACIÓN LA MINERÍA DE DATOS COMO HERRAMIENTA DE MARKETING: DELIMITACIÓN Y MEDIDAS DE EVALUACIÓN DEL RESULTADO José Alberto Castañeda García (jalberto@ugr.es) Miguel Ángel Rodríguez Molina (rmolina@ugr.es)

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

Inteligencia de Negocios Business Intelligence. Georgina Noemi Villalobos Ventura

Inteligencia de Negocios Business Intelligence. Georgina Noemi Villalobos Ventura Inteligencia de Negocios Business Intelligence Georgina Noemi Villalobos Ventura CONTENIDO Introducción Modelo de Negocio Componentes de Business Intelligence Proyectos de Business Intelligence Selección

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA PF-3808 Minería de Datos II Semestre del 2009 Profesor: Dr. Francisco J. Mata (correo: fmatach@racsa.co.cr;

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

ENSIA 605 Inteligencia de Negocios y Minería de Datos

ENSIA 605 Inteligencia de Negocios y Minería de Datos ENSIA 605 Inteligencia de Negocios y Minería de Datos Profesor: Jaime Miranda P. E mail profesor: jmirandap@fen.uchile.cl OBJETIVOS DEL CURSO OBJETIVO GENERAL Estudiar, analizar, diseñar y aplicar tecnologías

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Identificación fácil de los clientes adecuados

Identificación fácil de los clientes adecuados PASW Direct Marketing 18 Especificaciones Identificación fácil de los clientes adecuados Sabemos que le gustaría que sus programas de marketing sean lo más rentables posible y sabemos que conocer la información

Más detalles

ARTÍCULOS Y REFLEXIONES

ARTÍCULOS Y REFLEXIONES ARTÍCULOS Y REFLEXIONES Soporte a la toma de decisión a través de Business Intelligence. Ing. Sandra Aída Pérez Estrada Alumna de la Maestría en Administración de Tecnologías de Información, Universidad

Más detalles

Área Académica: Sistemas Computacionales. Profesor: Felipe de Jesús Núñez Cárdenas

Área Académica: Sistemas Computacionales. Profesor: Felipe de Jesús Núñez Cárdenas Área Académica: Sistemas Computacionales Tema: Sistemas ROLAP y MOLAP Profesor: Felipe de Jesús Núñez Cárdenas Periodo: Agosto Noviembre 2011 Keywords: ROLAP, MOLAP,HOLAP Tema: Sistemas ROLAP y MOLAP Abstract

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Lección n 5. Modelos de distribución n potencial de especies

Lección n 5. Modelos de distribución n potencial de especies Lección n 5. Modelos de distribución n potencial de especies 1. Elaboración de modelos de distribución de especies. a. Planteamiento. El modelado del nicho ambiental se basa en el principio de que la distribución

Más detalles

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3 Capítulo 3 1. Introducción El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes o predictoras (X1, X2,... XK) a partir de la cual explicar

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

Métodos y Diseños utilizados en Psicología

Métodos y Diseños utilizados en Psicología Métodos y Diseños utilizados en Psicología El presente documento pretende realizar una introducción al método científico utilizado en Psicología para recoger información acerca de situaciones o aspectos

Más detalles

TÓPICOS AVANZADOS DE BASES DE DATOS

TÓPICOS AVANZADOS DE BASES DE DATOS TÓPICOS AVANZADOS DE BASES DE DATOS 1. DATOS DE LA ASIGNATURA. Nombre de la asignatura: TÓPICOS AVANZADOS DE BASES DE DATOS Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: Modulo

Más detalles

Darío Álvarez Néstor Lemo www.autonomo.edu.uy

Darío Álvarez Néstor Lemo www.autonomo.edu.uy Data Mining para Optimización de Distribución de Combustibles Darío Álvarez Néstor Lemo Agenda Qué es DODC? Definición de Data Mining El ciclo virtuoso de Data Mining Metodología de Data Mining Tareas

Más detalles

UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST

UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST 7.1. ANÁLISIS DE LOS ÍTEMS Al comenzar la asignatura ya planteábamos que uno de los principales problemas a los que nos enfrentábamos a la hora

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Máster en Economía y Organización de empresas

Máster en Economía y Organización de empresas Máster en Economía y Organización de empresas Módulo III: Competencias para la preparación de trabajo fin de Máster Dr. Eulogio Cordón Pozo ÍNDICE DE CONTENIDOS! 1. Errores en la medición. El modelo de

Más detalles

Tutorial - Parte 2: Scoring

Tutorial - Parte 2: Scoring Introducción Tutorial - Parte 2: Scoring En este segundo tutorial aprenderá lo que significa un modelo de Scoring, verá cómo crear uno utilizando Powerhouse Analytics y finalmente a interpretar sus resultados.

Más detalles

Encuesta Permanente de Hogares

Encuesta Permanente de Hogares Minería de Datos Aplicada a la Encuesta Permanente de Hogares Disertante: Luis Alfonso Cutro Adscripto a la asignatura Diseño y Administración de Datos. Prof. Coordinador: Mgter. David Luís la Red Martínez

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Toma de decisiones en situación de certeza, riesgo e incertidumbre

Toma de decisiones en situación de certeza, riesgo e incertidumbre Toma de decisiones en situación de certeza, riesgo e incertidumbre Apellidos, nombre Departamento Centro Rueda Armengot, Carlos (crueda@doe.upv.es) Peris Ortiz, Marta (mperis@doe.upv.es) Organización de

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile. Los futuros desafíos de la Inteligencia de Negocios Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.cl El Vértigo de la Inteligencia de Negocios CRM: Customer

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Pero que es el Data Mining? Como esta tecnología puede resolver los problemas diarios de las organizaciones? Cuál es el ciclo de vida de un DM?

Pero que es el Data Mining? Como esta tecnología puede resolver los problemas diarios de las organizaciones? Cuál es el ciclo de vida de un DM? Introducción En vista de los comentarios y sugerencias que nos hicieron, via mail y por chat, sobre la posibilidad de la creación de nuevo conocimiento, he creido conveniente introducir el tema Data Mining

Más detalles

Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados.

Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados. Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados. Pedro Concejero Cerezo Tesis Doctoral dirigida por Rosario Martínez Arias

Más detalles

Área Académica: Sistemas Computacionales. Tema: Introducción a almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

Área Académica: Sistemas Computacionales. Tema: Introducción a almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas Área Académica: Sistemas Computacionales Tema: Introducción a almacén de datos Profesor: Mtro Felipe de Jesús Núñez Cárdenas Periodo: Agosto Noviembre 2011 Keywords Almacén de Datos, Datawarehouse, Arquitectura

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

www.fundibeq.org Además, se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión.

www.fundibeq.org Además, se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión. DIAGRAMA DE FLECHAS 1.- INTRODUCCIÓN Este documento sirve de guía para el proceso de planificación de proyectos. Describe desde la visualización de la secuencia de acciones a desarrollar en dichos proyectos

Más detalles

Guía Docente. IVESTIGACIÓN DE MERCADOS II 3º curso GRADO OFICIAL EN MARKETING (GRMK) Curso 2014 /2015. Juan Antonio Márquez García Pablo López Tenorio

Guía Docente. IVESTIGACIÓN DE MERCADOS II 3º curso GRADO OFICIAL EN MARKETING (GRMK) Curso 2014 /2015. Juan Antonio Márquez García Pablo López Tenorio Guía Docente IVESTIGACIÓN DE MERCADOS II 3º curso GRADO OFICIAL EN MARKETING (GRMK) Curso 2014 /2015 Campus: Pozuelo (Madrid) Profesor/es: Juan Antonio Márquez García Pablo López Tenorio Periodo de impartición:

Más detalles

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento

Más detalles

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA Qué es inteligencia de negocios? (BI) Business Intelligence es la habilidad para transformar los datos en información, y la información en

Más detalles

CONTROL Y MEJORA DE UN PROCESO. GRÁFICOS DE CONTROL. CONTROL ESTADÍSTICO DE PROCESOS. SPC

CONTROL Y MEJORA DE UN PROCESO. GRÁFICOS DE CONTROL. CONTROL ESTADÍSTICO DE PROCESOS. SPC CONTROL Y MEJORA DE UN PROCESO. GRÁFICOS DE CONTROL. CONTROL ESTADÍSTICO DE PROCESOS. SPC 1. INTRODUCCIÓN. Mientras el Dr. Walter Shewhart de los Laboratorios Bell estudiaba datos de procesos en la década

Más detalles

Minería de Datos Aplicada a la Gestión de la Información Urbanística

Minería de Datos Aplicada a la Gestión de la Información Urbanística 6th International Conference on Industrial Engineering and Industrial Management. XVI Congreso de Ingeniería de Organización. Vigo, July 18-20, 2012 Minería de Datos Aplicada a la Gestión de la Información

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software

Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software Mª. José Ramírez Quintana José Hernández Orallo Programa: Programación Declarativa e Ingeniería de la Programación Objetivos

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Introducción a la Minería de Datos (Data Mining)

Introducción a la Minería de Datos (Data Mining) a la Minería de Datos (Data Mining) IT-Nova Facultad de Ingeniería Informática y Telecomunicaciones Iván Amón Uribe, MSc Minería de Datos Diapositivas basadas parcialmente en material de Inteligencia Analítica

Más detalles

Medidas de concordancia: el índice de Kappa

Medidas de concordancia: el índice de Kappa Investigación: Medidas de concordancia: el índice de Kappa 1/5 Medidas de concordancia: el índice de Kappa Autores: López de Ullibarri Galparsoro I, Pita Fernández, S. Unidad de Epidemiología Clínica y

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas Área Académica: Sistemas Computacionales Tema: Arquitectura de un sistema de almacén de datos Profesor: Mtro Felipe de Jesús Núñez Cárdenas Periodo: Agosto Noviembre 2011 Keywords Almacen de Datos, Datawarehouse,

Más detalles

GUÍA DOCENTE TITULACIONES DE GRADO

GUÍA DOCENTE TITULACIONES DE GRADO GUÍA DOCENTE TITULACIONES DE GRADO TITULACIÓN: GRADO EN INGENIERIA INFORMATICA DE SISTEMAS DE INFORMACIÓN CURSO 2015/2016 ASIGNATURA: MINERÏA DE DATOS Nombre del Módulo o Materia al que pertenece la asignatura.

Más detalles

Guía docente de la asignatura

Guía docente de la asignatura Guía docente de la asignatura Asignatura Materia Minería de Datos Complementos de Computación Módulo Titulación Grado en Ingeniería Informática Plan 463 45220 Periodo de impartición 1 er Cuatrimestre Tipo/Carácter

Más detalles

La Inteligencia Analítica: Una Herramienta para el Mejoramiento en la Administración Pública

La Inteligencia Analítica: Una Herramienta para el Mejoramiento en la Administración Pública La Inteligencia Analítica: Una Herramienta para el Mejoramiento en la Administración Pública Dr. Viterbo H. Berberena G. Coordinador de la Maestría en Inteligencia Analítica Consultor Sénior en Inteligencia

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Secretaría de Docencia Dirección de Estudios Profesionales

Secretaría de Docencia Dirección de Estudios Profesionales I. IDENTIFICACIÓN DEL CURSO PROGRAMA DE ESTUDIO POR COMPETENCIAS Minería de Datos ORGANISMO ACADÉMICO: FACULTAD DE INGENIERÍA Programa Educativo: Ingeniería en Computación Área de docencia: Tratamiento

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

2.3. Instrumentos de recogida de datos: El cuestionario

2.3. Instrumentos de recogida de datos: El cuestionario 56 para asegurarse la posibilidad de una objetividad pura, en cambio, como es nuestro caso, en las investigaciones educativas el que investiga es a la vez profesor y también lo es el que evalúa y el que

Más detalles

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Osvaldo M. Spositto spositto@unlam.edu.ar Martín E. Etcheverry metcheverry@unlam.edu.ar

Más detalles

Minería de datos para la determinación del grado de exclusión social

Minería de datos para la determinación del grado de exclusión social Minería de datos para la determinación del grado de exclusión social Data mining to determine the degree of social exclusion * Jorge Enrique Rodríguez Rodríguez Fecha de recepción: 23 de agosto de 2008

Más detalles

Tema 9 Estadística Matemáticas B 4º E.S.O. 1 TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS EN VARIABLES DISCRETAS

Tema 9 Estadística Matemáticas B 4º E.S.O. 1 TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS EN VARIABLES DISCRETAS Tema 9 Estadística Matemáticas B º E.S.O. TEMA 9 ESTADÍSTICA TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS EN VARIABLES DISCRETAS EJERCICIO : En un grupo de personas hemos preguntado por el número

Más detalles

Introducción al DataMining

Introducción al DataMining Introducción al DataMining Lluís Garrido garrido@ecm.ub.es Universitat de Barcelona Índice Qué es el DataMining? Qué puede hacer el DataMining? Cómo hacer el DataMining? Técnicas Metodología del DataMining

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

1. Entender los principios de Business Intelligence y sus implicancias para la innovación en los negocios.

1. Entender los principios de Business Intelligence y sus implicancias para la innovación en los negocios. ENFIN748 Business Intelligence y Data Mining Financiero Profesor: PhD. David Díaz E-mail Profesor: ddiaz@unegocios.cl E-mail Tareas: BI-DM@unegocios.cl PRESENTACIÓN DEL CURSO El objetivo de éste curso

Más detalles

Academia de la carrera de Licenciatura Informática del Instituto Tecnológico Aguascalientes

Academia de la carrera de Licenciatura Informática del Instituto Tecnológico Aguascalientes 1. DATOS DE LA ASIGNATURA Nombre de la Asignatura: Sistemas de Soporte a la Decisión Carrera: Licenciatura en Informática Clave de la asignatura: IFS-0406 Horas teoría - horas práctica - créditos: 4-2-10

Más detalles

How organizations are influenced by Business Analytics? Octubre 2014

How organizations are influenced by Business Analytics? Octubre 2014 How organizations are influenced by Business Analytics? Octubre 2014 El boom de los datos Fuente: Gestión. Artículo: Big Data: La nueva moneda en el mundo de los negocios. Martes, 07 de octubre del 2014

Más detalles

- se puede formular de la siguiente forma:

- se puede formular de la siguiente forma: Multicolinealidad 1 Planteamiento Una de las hipótesis del modelo de regresión lineal múltiple establece que no existe relación lineal exacta entre los regresores, o, en otras palabras, establece que no

Más detalles

Las técnicas muestrales, los métodos prospectivos y el diseño de estadísticas en desarrollo local

Las técnicas muestrales, los métodos prospectivos y el diseño de estadísticas en desarrollo local 21 Las técnicas muestrales, los métodos prospectivos y el diseño de estadísticas en desarrollo local Victoria Jiménez González Introducción La Estadística es considerada actualmente una herramienta indispensable

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI INTRODUCCIÓN Se habla en multitud de ocasiones de Business Intelligence, pero qué es realmente? Estoy implementando en mi organización procesos de Business

Más detalles

El almacén de indicadores de proceso de negocio en ejecución

El almacén de indicadores de proceso de negocio en ejecución X Congreso de Ingeniería de Organización Valencia, 7 y 8 de septiembre de 2006 El almacén de indicadores de proceso de negocio en ejecución Andrés Boza García 1, Angel Ortiz Bas 1, Llanos Cuenca Gonzalez

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Business Intelligence (Inteligencia de Negocios) Bases de Datos Masivas (11088) Universidad Nacional de Luján

Business Intelligence (Inteligencia de Negocios) Bases de Datos Masivas (11088) Universidad Nacional de Luján Business Intelligence (Inteligencia de Negocios) Bases de Datos Masivas (11088) Universidad Nacional de Luján Qué es Business Intelligence (BI)? Se entiende por Business Intelligence al conjunto de metodologías,

Más detalles

EL CONOCIMIENTO Y EL DATA MINING. Por Jorge Miller

EL CONOCIMIENTO Y EL DATA MINING. Por Jorge Miller EL CONOCIMIENTO Y EL DATA MINING Por Jorge Miller OBJETIVO Destacamos la importancia de las herramientas que sirven para dar soporte al proceso de toma de decisiones, entre las cuales se incluyen el Data

Más detalles

Lecturas previas Cuando llegue a su primera sesión de laboratorio debe haber estudiado el contenido de la lectura que aparece a continuación.

Lecturas previas Cuando llegue a su primera sesión de laboratorio debe haber estudiado el contenido de la lectura que aparece a continuación. Laboratorio 1 Medición e incertidumbre La descripción de los fenómenos naturales comienza con la observación; el siguiente paso consiste en asignar a cada cantidad observada un número, es decir en medir

Más detalles

Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos

Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos Cenidet Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos Ing. Gabriel Hernández ndez MéndezM M.C.Juan Gabriel González Serna Ing. Juan

Más detalles

De qué tratará el curso. Otras consideraciones. Objetivos. Introducción. Motivación Explosión en la disponibilidad de información:

De qué tratará el curso. Otras consideraciones. Objetivos. Introducción. Motivación Explosión en la disponibilidad de información: Datamining y Aprendizaje Automatizado Prof. Carlos Iván Chesñevar Email: cic@cs.uns.edu.ar Http:\\cs.uns.edu.ar\~cic Departamento de Cs. e Ing. de la Computación Universidad Nacional del Sur Bahía Blanca,

Más detalles

Codificación, entrada y verificación de datos

Codificación, entrada y verificación de datos Codificación, entrada y verificación de datos Víctor E. Bonilla Rodríguez, Ph.D. Investigación y Evaluación Educativa (INEVA) Departamento de Estudios Graduados, Facultad de Educación Ciclo de Investigación

Más detalles

www.fundibeq.org En estos casos, la herramienta Gráficos de Control por Variables" no es aplicable.

www.fundibeq.org En estos casos, la herramienta Gráficos de Control por Variables no es aplicable. GRAFICOS DE CONTROL POR ATRIBUTOS 1.- INTRODUCCIÓN Este documento describe la secuencia de construcción y las pautas de utilización de una de las herramientas para el control de procesos, los Gráficos

Más detalles

Definición del modelo del negocio y del dominio utilizando Razonamiento Basado en Casos.

Definición del modelo del negocio y del dominio utilizando Razonamiento Basado en Casos. Definición del modelo del negocio y del dominio utilizando Razonamiento Basado en Casos. Autora: MSc. Martha D. Delgado Dapena. Centro de Estudios de Ingeniería de Sistemas. e-mail: marta@ceis.ispjae.edu.cu

Más detalles

Minería de Datos. Universidad Politécnica de Victoria

Minería de Datos. Universidad Politécnica de Victoria Minería de Datos Universidad Politécnica de Victoria 1 Motivación Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos El aumento del volumen y variedad de información que se encuentra informatizada

Más detalles

Inteligencia de Negocio

Inteligencia de Negocio UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 1:

Más detalles

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 26 de Marzo, 9 y 23 de Abril y 7 de mayo de 2010 grupo de PLN en FaMAF http://www.cs.famaf.unc.edu.ar/~pln/

Más detalles

TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE DEPENDENCIA ENTRE VARIABLES CATEGÓRICAS 1

TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE DEPENDENCIA ENTRE VARIABLES CATEGÓRICAS 1 TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE DEPENDENCIA ENTRE VARIABLES CATEGÓRICAS 1 rafael.dearce@uam.es El objeto de las tablas de contingencia es extraer información de cruce entre dos

Más detalles

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

Nociones Básicas sobre Medición. Ubicación: 1-4

Nociones Básicas sobre Medición. Ubicación: 1-4 Autor: Título: QUINTANA, Eva Nociones Básicas sobre Medición Ubicación: 1-4 Extensión: 4 páginas Año Publicación: 2008 Editor: Escuela Virtual Nociones Básicas Sobre Medición EN QUÉ CONSISTE LA MEDICIÓN?

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Minería de datos (Presentación del curso)

Minería de datos (Presentación del curso) Minería de datos (Presentación del curso) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-O. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 10 Forma de evaluar

Más detalles

Indicadores matemáticos para el análisis técnico de precios

Indicadores matemáticos para el análisis técnico de precios ANÁLISIS TÉCNICO DE PRECIOS Nota técnica Joaquín Arias Segura Ph.D i Especialista Regional en Políticas y Negociaciones Comerciales para la Región Andina Instituto Interamericano de Cooperación para la

Más detalles

Repositorio Institucional de la Universidad Autónoma de Madrid. https://repositorio.uam.es

Repositorio Institucional de la Universidad Autónoma de Madrid. https://repositorio.uam.es Repositorio Institucional de la Universidad Autónoma de Madrid https://repositorio.uam.es Esta es la versión de autor del artículo publicado en: This is an author produced version of a paper published

Más detalles

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES Actualmente se vive una época donde se tiene una enorme cantidad de datos que se generan diariamente (del orden de Terabytes, Petabytes 1 (Han, Kamber, & Pei, 2012))

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles