TÉCNICAS DE ANÁLISIS DE DATOS

Tamaño: px
Comenzar la demostración a partir de la página:

Download "TÉCNICAS DE ANÁLISIS DE DATOS"

Transcripción

1 TÉCNICAS DE ANÁLISIS DE DATOS APLICACIONES PRÁCTICAS UTILIZANDO MICROSOFT EXCEL Y WEKA Jesús García Herrero 202 José Manuel Molna López

2 PRÓLOGO Estos apuntes pretenden dar una vsón general de las técncas de análss de datos y de las aplcacones que las mplementan, permtendo entender los conceptos y algortmos sobre los que se basan las técncas así como el resultado de su aplcacón sobre dversas fuentes de fcheros. Estos apuntes son una recoleccón de nformacón de muy varadas fuentes, págnas de ntenet, artículos etc.. todas ellas aparecen ctadas. De entre todas ellas cabe resaltar el trabajo fn de carrera de Davd Sánchez ttulado Data Mnng medante Sstemas Clasfcadores Genétcos. Análss comparatvo con las técncas cláscas mplementadas en WEKA, en la ttulacón de Ingenería Informátca (Julo 2003) donde se realza un gran esfuerzo por explcar el funconamento nterno de la herramenta WEKA y de dónde se ha extraído la nformacón acerca de las clases y el códgo que mplementa los algortmos para estos apuntes. Así tambén resulta necesaro resaltar la tess doctoral de Félx Chamorro, ya que el capítulo 2 (el estado del arte) se pormenorzan todas las técncas de análss de datos y que ha sdo utlzado para la elaboracón de estos apuntes. Esperamos que estos apuntes sean de utldad para los alumnos que se acerquen al análss de datos y en partcular para aquellos que tengan nterés en aplcar los conocmentos teórcos en el campo de la práctca. José Manuel Molna López Jesús García Herrero

3 Índce Índce CAPÍTULO. INTRODUCCIÓN.. KDD Y MINERÍA DE DATOS..2. EL PROCESO DE KDD MINERÍA DE DATOS TECNOLOGÍAS DE APOYO ÁREAS DE APLICACIÓN TENDENCIAS DE LA MINERÍA DE DATOS 3.2. MINERÍA DE DATOS Y ALMACENAMIENTO DE DATOS ARQUITECTURA, MODELADO, DISEÑO, Y ASPECTOS DE LA ADMINISTRACIÓN DATA MINING Y FUNCIONES DE BASES DE DATOS DATA WAREHOUSE DATA WAREHOUSE Y DATA MINING 2.3. HERRAMIENTAS COMERCIALES DE ANÁLISIS DE DATOS ARQUITECTURA SOFTWARE PARA DATA MINING ARQUITECTURA FUNCIONAL ARQUITECTURA DEL SISTEMA EL DATA MINING EN LA ARQUITECTURA DEL SISTEMA 38 CAPÍTULO 2. ANÁLISIS ESTADÍSTICO MEDIANTE EXCEL ANÁLISIS DE UNA VARIABLE. ESTADÍSTICA DESCRIPTIVA E INFERENCIA 43 Técncas de Análss de Datos

4 Índce 2.2. TÉCNICAS DE EVALUACIÓN DE HIPÓTESIS ANÁLISIS DE RELACIONES ENTRE ATRIBUTOS RELACIÓN ENTRE VARIABLES NOMINALES-NOMINALES RELACIONES NUMÉRICAS-NOMINALES Comparacón de dos medas Análss de la varanza RELACIONES NUMÉRICAS-NUMÉRICAS: Regresón lneal EVALUACIÓN DEL MODELO DE REGRESIÓN Meddas de Caldad Test de Hpótess sobre modelo de regresón EJEMPLOS DE APLICACIÓN DE TÉCNICAS DE EVALUACIÓN DE HIPÓTESIS EJEMPLOS DE VALIDACIÓN DE HIPÓTESIS TÉCNICAS CLÁSICAS DE CLASIFICACIÓN Y PREDICCIÓN CLASIFICACIÓN BAYESIANA: REGRESIÓN LINEAL 90 CAPÍTULO 3. TÉCNICAS DE MINERÍA DE DATOS BASADAS EN APRENDIZAJE AUTOMÁTICO TÉCNICAS DE MINERÍA DE DATOS CLUSTERING. ( SEGMENTACIÓN ) CLUSTERING NUMÉRICO (K-MEDIAS) CLUSTERING CONCEPTUAL (COBWEB) CLUSTERING PROBABILÍSTICO (EM) REGLAS DE ASOCIACIÓN LA PREDICCIÓN REGRESIÓN NO LINEAL ÁRBOLES DE PREDICCIÓN ESTIMADOR DE NÚCLEOS LA CLASIFICACIÓN TABLA DE DECISIÓN ÁRBOLES DE DECISIÓN REGLAS DE CLASIFICACIÓN 35 Técncas de Análss de Datos

5 Índce CLASIFICACIÓN BAYESIANA APRENDIZAJE BASADO EN EJEMPLARES REDES DE NEURONAS LÓGICA BORROSA ( FUZZY LOGIC ) TÉCNICAS GENÉTICAS: ALGORITMOS GENÉTICOS ( GENETIC ALGORITHMS ) 57 CAPÍTULO 4. TÉCNICAS DE ANÁLISIS DE DATOS EN WEKA 59 INTRODUCCIÓN 59 PREPARACIÓN DE LOS DATOS 60 MUESTRA DE DATOS 60 OBJETIVOS DEL ANÁLISIS 6 EJECUCIÓN DE WEKA 62 PREPROCESADO DE LOS DATOS 64 CARACTERÍSTICAS DE LOS ATRIBUTOS 65 TRABAJO CON FILTROS. PREPARACIÓN DE FICHEROS DE MUESTRA 67 Fltros de atrbutos 68 Fltros de nstancas 72 VISUALIZACIÓN 73 REPRESENTACIÓN 2D DE LOS DATOS 73 FILTRADO GRÁFICO DE LOS DATOS 77 ASOCIACIÓN 78 AGRUPAMIENTO 83 AGRUPAMIENTO NUMÉRICO 84 AGRUPAMIENTO SIMBÓLICO 89 CLASIFICACIÓN 9 MODOS DE EVALUACIÓN DEL CLASIFICADOR 92 SELECCIÓN Y CONFIGURACIÓN DE CLASIFICADORES 95 PREDICCIÓN NUMÉRICA 203 APRENDIZAJE DEL MODELO Y APLICACIÓN A NUEVOS DATOS. 209 SELECCIÓN DE ATRIBUTOS 2 Técncas de Análss de Datos

6 Índce CAPÍTULO 5. IMPLEMENTACIÓN DE LAS TÉCNICAS DE ANÁLISIS DE DATOS EN WEKA UTILIZACIÓN DE LAS CLASES DE WEKA EN PROGRAMAS INDEPENDIENTES TABLA DE DECISIÓN EN WEKA ID3 EN WEKA C4.5 EN WEKA (J48) ÁRBOL DE DECISIÓN DE UN SOLO NIVEL EN WEKA R EN WEKA PRISM EN WEKA PART EN WEKA NAIVE BAYESIANO EN WEKA VFI EN WEKA KNN EN WEKA (IBK) K* EN WEKA REDES DE NEURONAS EN WEKA REGRESIÓN LINEAL EN WEKA REGRESIÓN LINEAL PONDERADA LOCALMENTE EN WEKA M5 EN WEKA KERNEL DENSITY EN WEKA K-MEANS EN WEKA COBWEB EN WEKA EM EN WEKA ASOCIACIÓN A PRIORI EN WEKA 236 CAPÍTULO 6. EJEMPLOS SOBRE CASOS DE ESTUDIO 239 Técncas de Análss de Datos v

7 Índce BIBLIOGRAFÍA 240 Técncas de Análss de Datos v

8 Capítulo Introduccón Capítulo. Introduccón En este texto se estuda uno de los campos que más se están estudando en estos días: La extraccón de conocmento a partr de fuentes masvas de datos. Para ello se emplean las denomnadas técncas de mnería de datos, que son algortmos capaces de obtener relacones entre dstntos atrbutos o conceptos para ayudar, por ejemplo, a la toma de decsones. Además de las técncas estadístcas se estudan las técncas de Mnería de Datos [Data Mnng] basadas en técncas de aprendzaje automátco que se mplementan en una herramenta de mnería de datos de lbre dstrbucón: WEKA. Esta herramenta permte, a partr de fcheros de texto en un formato determnado, utlzar dstntos tpos de técncas para extraer nformacón. A contnuacón se defnen los conceptos fundamentales empleados en el texto: KDD y, sobretodo, mnería de datos, así como sus prncpales característcas. Posterormente se comenta la estructura del proyecto... KDD y Mnería de Datos Hoy en día, la cantdad de datos que ha sdo almacenada en las bases de datos excede nuestra habldad para reducr y analzar los datos sn el uso de técncas de análss automatzadas. Muchas bases de datos comercales transacconales y centífcas crecen a una proporcón fenomenal. KDD [Knowledge Dscovery n Databases] [PSF9] es el proceso completo de extraccón de nformacón, que se encarga además de la preparacón de los datos y de la nterpretacón de los resultados obtendos. KDD se ha defndo como el proceso no trval de dentfcacón en los datos de patrones váldos, nuevos, potencalmente útles, y fnalmente comprensbles [FAYY96]. Se trata de nterpretar grandes cantdades de datos y encontrar relacones o patrones. Para consegurlo harán falta técncas de aprendzaje automátco [Machne Learnng] [MBK98], estadístca [MIT97, DEGR86], bases de datos [CODD70], técncas de representacón del conocmento, razonamento basado en casos [CBR, Case Based Reasonng], razonamento aproxmado, adquscón de conocmento, redes de neuronas y vsualzacón de datos. Tareas comunes en KDD son la nduccón de reglas, los problemas de clasfcacón y clusterng, el reconocmento de patrones, el modelado predctvo, la deteccón de dependencas, etc. KDD es un campo crecente: hay muchas metodologías del descubrmento del conocmento en uso y bajo desarrollo. Algunas de estas técncas son genércas, mentras otros son de domno específco. Técncas de Análss de Datos Págna de 266

9 Capítulo Introduccón Los datos recogen un conjunto de hechos (una base de datos) y los patrones son expresones que descrben un subconjunto de los datos (un modelo aplcable a ese subconjunto). KDD nvolucra un proceso teratvo e nteractvo de búsqueda de modelos, patrones o parámetros. Los patrones descubertos han de ser váldos, novedosos para el sstema (para el usuaro sempre que sea posble) y potencalmente útles. Se han de defnr meddas cuanttatvas para los patrones obtendos (precsón, utldad, benefco obtendo...). Se debe establecer alguna medda de nterés [nterestngness] que consdere la valdez, utldad y smplcdad de los patrones obtendos medante alguna de las técncas de Mnería de Datos. El objetvo fnal de todo esto es ncorporar el conocmento obtendo en algún sstema real, tomar decsones a partr de los resultados alcanzados o, smplemente, regstrar la nformacón conseguda y sumnstrársela a quen esté nteresado. Ha llegado un momento en el que dsponemos de tanta nformacón que nos vemos ncapaces de sacarle provecho. Los datos tal cual se almacenan [raw data] no suelen proporconar benefcos drectos. Su valor real resde en la nformacón que podamos extraer de ellos: nformacón que nos ayude a tomar decsones o a mejorar nuestra comprensón de los fenómenos que nos rodean. Se requere de grandes cantdades de datos que proporconen nformacón sufcente para dervar un conocmento adconal. Dado que se requeren grandes cantdades de datos, es esencal el proceso de la efcenca. La exacttud es requerda para asegurar que el descubrmento del conocmento es váldo. Los resultados deberán ser presentados de una manera entendble para el ser humano. Una de las premsas mayores de KDD es que el conocmento es descuberto usando técncas de aprendzaje ntelgente que van examnando los datos a través de procesos automatzados. Para que una técnca sea consderada útl para el descubrmento del conocmento, éste debe ser nteresante; es decr, debe tener un valor potencal para el usuaro. KDD proporcona la capacdad para descubrr nformacón nueva y sgnfcatva usando los datos exstentes. KDD se defne como: "The nontrval process of dentfyng vald, novel, potentally useful, and ultmately understandable patterns n data" en Fayyad, Patetsky-Shapro & Smyth: "From data mnng to knowledge dscovery: An overvew" Advances n Knowledge Dscovery and Data Mnng (AAAI / MIT Press, 996) y se puede resumr en la Fgura. Técncas de Análss de Datos Págna 2 de 266

10 Capítulo Introduccón Fgura.: Esquema del proceso de KDD KDD rápdamente excede la capacdad humana para analzar grandes cantdades de datos. La cantdad de datos que requeren procesamento y análss en grandes bases de datos exceden las capacdades humanas y la dfcultad de transformar los datos con precsón es un conocmento que va más allá de los límtes de las bases de datos tradconales. Por consguente, la utlzacón plena de los datos almacenados depende del uso de técncas del descubrmento del conocmento. La utldad de aplcacones futuras en KDD es de largo alcance. KDD puede usarse como un medo de recuperacón de nformacón, de la msma manera que los agentes ntelgentes realzan la recuperacón de nformacón en el Web. Nuevos modelos o tendencas en los datos podrán descubrrse usando estas técncas. KDD tambén puede usarse como una base para las nterfaces ntelgentes del mañana, agregando un componente del descubrmento del conocmento a un sstema de bases de datos o ntegrando KDD con las hojas de cálculo y vsualzacones...2. El proceso de KDD El proceso de KDD se nca con la dentfcacón de los datos. Para ello hay que magnar qué datos se necestan, dónde se pueden encontrar y cómo consegurlos. Una vez que se dspone de datos, se deben selecconar aquellos que sean útles para los objetvos propuestos. Se preparan, ponéndolos en un formato adecuado. Una vez se tenen los datos adecuados se procede a la mnería de datos, proceso en el que se selecconarán las herramentas y técncas adecuadas para lograr los objetvos pretenddos. Y tras este proceso llega el análss de resultados, con lo que se obtene el conocmento pretenddo. En la fgura.2 se muestra la metodología que debe segurse para obtener conocmento a partr de los datos que se encuentran en la base de datos. Técncas de Análss de Datos Págna 3 de 266

11 Capítulo Introduccón Fgura.2: Metodología para el descubrmento de conocmento en bases de datos. KDD es un proceso nteractvo e teratvo, que nvolucra numerosos pasos e ncluye muchas decsones que deben ser tomadas por el usuaro, y se estructura en las sguentes etapas [FAYY96]: Comprensón del domno de la aplcacón, del conocmento relevante y de los objetvos del usuaro fnal. Creacón del conjunto de datos: consste en la seleccón del conjunto de datos, o del subconjunto de varables o muestra de datos, sobre los cuales se va a realzar el descubrmento. Lmpeza y preprocesamento de los datos: Se compone de las operacones, tales como: recoleccón de la nformacón necesara sobre la cual se va a realzar el proceso, decdr las estrategas sobre la forma en que se van a manejar los campos de los datos no dsponbles, estmacón del tempo de la nformacón y sus posbles cambos. Reduccón de los datos y proyeccón: Encontrar las característcas más sgnfcatvas para representar los datos, dependendo del objetvo del proceso. En este paso se pueden utlzar métodos de transformacón para reducr el número efectvo de varables a ser consderadas o para encontrar otras representacones de los datos. Elegr la tarea de Mnería de Datos: Decdr s el objetvo del proceso de KDD es: Regresón, Clasfcacón, Agrupamento, etc. Eleccón del algortmo(s) de Mnería de Datos: Seleccón del método(s) a ser utlzado para buscar los patrones en los datos. Incluye además la decsón sobre que modelos y parámetros pueden ser los más apropados. Mnería de Datos: Consste en la búsqueda de los patrones de nterés en una determnada forma de representacón o sobre un conjunto de Técncas de Análss de Datos Págna 4 de 266

12 Esfuerzo (%) Capítulo Introduccón representacones, utlzando para ello métodos de clasfcacón, reglas o árboles, regresón, agrupacón, etc. Interpretacón de los patrones encontrados. Dependendo de los resultados, a veces se hace necesaro regresar a uno de los pasos anterores. Consoldacón del conocmento descuberto: consste en la ncorporacón de este conocmento al funconamento del sstema, o smplemente documentacón e nformacón a las partes nteresadas. El proceso de KDD puede nvolucrar varas teracones y puede contener cclos entre dos de cualquera de los pasos. La mayoría de los trabajos que se han realzado sobre KDD se centran en la etapa de mnería. Sn embargo, los otros pasos se consderan mportantes para el éxto del KDD. Por eso aunque la Mnería de Datos es una parte del proceso completo de KDD [FAYY96], en buena parte de la lteratura los térmnos Mnería de Datos y KDD se dentfcan como s fueran lo msmo. En la fgura.3 se muestra el esfuerzo que requere cada fase del proceso de KDD. 70% 60% 50% 40% 30% 20% 0% 0% Entendmento del Domno Preparacón de los Datos Data Mnng Interpretacón y Consoldacón del Conocmento Fase Fgura.3: Esfuerzo requerdo por cada fase del proceso de KDD. Como se observa en la fgura.3, gran parte del esfuerzo del proceso de KDD recae sobre la fase de preparacón de los datos, fase crucal para tener éxto como ya se comentó anterormente...3. Mnería de Datos Mnería de Datos es un térmno genérco que engloba resultados de nvestgacón, técncas y herramentas usadas para extraer nformacón útl de grandes bases de datos. S ben Mnería de Datos es una parte del proceso completo de KDD, en buena parte de la lteratura los térmnos Mnería de Datos y KDD se dentfcan como s fueran lo msmo. Concretamente, el térmno Técncas de Análss de Datos Págna 5 de 266

13 Capítulo Introduccón Mnería de Datos es usado comúnmente por los estadístcos, analstas de datos, y por la comundad de admnstradores de sstemas nformátcos como todo el proceso del descubrmento, mentras que el térmno KDD es utlzado más por los especalstas en Intelgenca Artfcal. El análss de la nformacón recoplada (por ejemplo, en un expermento centífco) es habtual que sea un proceso completamente manual (basado por lo general en técncas estadístcas). Sn embargo, cuando la cantdad de datos de los que dsponemos aumenta la resolucón manual del problema se hace ntratable. Aquí es donde entra en juego el conjunto de técncas de análss automátco al que nos refermos al hablar de Mnería de Datos o KDD. Hasta ahora, los mayores éxtos en Mnería de Datos se pueden atrbur drecta o ndrectamente a avances en bases de datos (un campo en el que los ordenadores superan a los humanos). No obstante, muchos problemas de representacón del conocmento y de reduccón de la complejdad de la búsqueda necesara (usando conocmento a pror) están aún por resolver. Ahí resde el nterés que ha despertado el tema entre nvestgadores de todo el mundo. A contnuacón se presentan varas defncones de Mnería de Datos (MD): MD es la extraccón no trval de nformacón mplícta, desconocda prevamente, y potencalmente útl desde los datos [PSF9]. MD es el proceso de extraccón y refnamento de conocmento útl desde grandes bases de datos [SLK96]. MD es el proceso de extraccón de nformacón prevamente desconocda, válda y procesable desde grandes bases de datos para luego ser utlzada en la toma de decsones [CHSVZ]. "MD es la exploracón y análss, a través de medos automátcos y semautomátcos, de grandes cantdades de datos con el fn de descubrr patrones y reglas sgnfcatvos" [BERR97]. "MD es el proceso de planteamento de dstntas consultas y extraccón de nformacón útl, patrones y tendencas prevamente desconocdas desde grandes cantdades de datos posblemente almacenados en bases de datos [THUR99]. MD es el proceso de descubrr modelos en los datos [WF00]...4. Tecnologías de Apoyo Para el estudo de la Mnería de Datos se ha tomado la perspectva orentada a datos, por dos razones. Prmero porque la mayoría de los trabajos en Mnería de Datos están enfocados haca el data warehouse que proporcona el apoyo a la Mnería de Datos organzando y estructurando los datos. Además, otras tecnologías de apoyo a la mnería datos han sdo utlzadas desde hace tempo Técncas de Análss de Datos Págna 6 de 266

14 Capítulo Introduccón y la ntegracón de estas tecnologías con la admnstracón de datos ha contrbudo mucho a mejorar la Mnería de Datos. Las más mportantes entre estas tecnologías son los métodos estadístcos [DEGR86] y el aprendzaje automátco [MIT97]. Los métodos estadístcos han producdo varos paquetes estadístcos [THUR99] para computar sumas, promedos, y dstrbucones, que han do ntegrándose con las bases de datos a explorar. El aprendzaje automátco consste en la obtencón de reglas de aprendzaje y modelos de los datos, para lo cual a menudo se necesta la ayuda de la estadístca. Por esta razón, los métodos estadístcos y el aprendzaje automátco son los dos componentes más mportantes de la Mnería de Datos. Además exsten otras tecnologías, entre las que se ncluyen vsualzacón, procesamento paralelo, y apoyo a la toma de decsones. Las técncas de vsualzacón ayudan a presentar los datos para facltar la Mnería de Datos. Las técncas procesamento paralelo ayudan a mejorar el rendmento de la Mnería de Datos. Los sstemas de apoyo a la toma de decsones ayudan a dscrmnar los resultados y proporconan los resultados esencales para llevar a cabo las funcones de dreccón. Razonamento estadístco Las técncas y métodos estadístcos del razonamento han sdo utlzados durante varas décadas, sendo los úncos medos de analzar los datos en el pasado. Numerosos paquetes [THUR99] están ahora dsponbles para computar promedos, sumas, y dferentes dstrbucones para dferentes aplcacones. Por ejemplo, la ofcna del censo usa análss y métodos estadístcos para analzar la poblacón en un país. Más recentemente, las técncas estadístcas del razonamento están jugando un papel mportante en la Mnería de Datos. Algunos paquetes estadístcos que han sdo utlzados durante mucho tempo, se han ntegrado con las dferentes bases de datos, y se están comercalzándose en la actualdad como productos para la Mnería de Datos. La estadístca juega un mportante papel en el análss de los datos, e ncluso tambén en el aprendzaje automátco. Debdo a esto, no se puede estudar la Mnería de Datos sn un buen conocmento de la estadístca. Vsualzacón Las tecnologías de la vsualzacón muestran gráfcamente los datos en las bases de datos. Se ha nvestgado mucho sobre la vsualzacón y el campo ha adelantado un gran trecho sobre todo con la ncorporacón de la nformátca multmeda. Por ejemplo, los datos en las bases de datos serán flas y flas de valores numércos, y las herramentas de vsualzacón toman estos datos y trazan con ellos algún tpo de gráfco. Los modelos de vsualzacón pueden ser bdmensonales, trdmensonales o ncluso multdmensonales. Se han desarrollado varas herramentas de vsualzacón para ntegrarse con las bases de datos, y algunos trabajos sobre este tema están recogdos en [VIS95]. Así, las herramentas de vsualzacón ayudan de forma nteractva a la Mnería de Datos, aunque hay pocos trabajos sobre la ntegracón de las herramentas Técncas de Análss de Datos Págna 7 de 266

15 Capítulo Introduccón de Mnería de Datos y de vsualzacón. Algunas deas prelmnares se presentaron en el IEEE Databases and Vsualzaton Workshop de 995 (véase, por ejemplo, [VIS95]). Sn embargo, se han realzado más progresos que se pueden encontrar en [VIS97], aunque queda todavía mucho trabajo por hacer en este tema. Procesamento paralelo El procesamento paralelo es una técnca que ha sdo utlzado durante mucho tempo. El área se ha desarrollado sgnfcatvamente, desde sstemas con un únco procesador hasta sstemas multprocesador. Los sstemas de multprocesamento pueden estar formados por sstemas dstrbudos o por sstemas centralzados de multprocesadores con memora compartda, o con multprocesadores sn memora compartda. Hay muchos trabajos sobre la utlzacón de las arqutecturas paralelas para el procesamento de las bases de datos (véase, por ejemplo, [IEEE89]). A pesar de haberse realzado consderable trabajo sobre el tema, estos sstemas no fueron comercalzados hasta el desarrollo del data warehouse, ya que muchos de los data warehouses emplean el procesamento paralelo para acelerar el proceso de las consultas. En un sstema de bases de datos paralelas, se ejecutan varas operacones y funcones en paralelo. A pesar de que la nvestgacón en sstemas de bases de datos en paralelo empezó en los años setenta, estos sstemas se han empezado a utlzar para las aplcacones comercales recentemente, debdo en parte a la explosón del data warehouse y de las tecnologías de Mnería de Datos dónde el rendmento de los algortmos de consulta es crítco. Para escalar las técncas de Mnería de Datos se necesta hardware y software apropado, por lo que los fabrcantes de bases de datos están empleando ordenadores con procesamento paralelo para llevar a cabo la Mnería de Datos. Apoyo a la toma de decsones Los sstemas de apoyo a la toma de decsones son las herramentas que usan los drectvos para tomar decsones efcaces, y se basan en la teoría de la decsón. Se puede consderar a las herramentas de Mnería de Datos como tpos especales de herramentas de apoyo a la toma de decsones. Las herramentas de apoyo a la toma de decsones pertenecen a una ampla categoría (véase, por ejemplo, [DECI]). En general, las herramentas de apoyo a la toma de decsones podrían utlzarse tambén como herramentas para elmnar los resultados nnecesaros e rrelevantes obtendos de la Mnería de Datos. Tambén pueden ser consderadas de este tpo, herramentas tales como las hojas de cálculo, sstemas expertos, sstemas de hpertexto, sstemas de gestón de nformacón de web, y cualquer otro sstema que ayude a analstas y gestores a manejar efcazmente grandes cantdades de datos e nformacón. Recentemente ha aparecdo un área nueva llamada gestón del conocmento. La gestón del conocmento trata de manejar efcazmente los datos, la nformacón, y el conocmento de una organzacón [MORE98a]. Técncas de Análss de Datos Págna 8 de 266

16 Capítulo Introduccón Se puede pensar que el apoyo a la toma de decsones es una tecnología que se solapa con la Mnería de Datos, almacenamento de datos, gestón del conocmento, aprendzaje automátco, estadístca, y otras tecnologías que ayudan gestonar el conocmento de una organzacón y los datos. Aprendzaje automátco El aprendzaje automátco, en muchos casos, consste fundamentalmente en el aprendzaje de reglas a partr de los datos [MIT97], y por eso muchas de las técncas de aprendzaje automátco son utlzadas en la actualdad en la Mnería de Datos. El aprendzaje automátco aparece contnuamente en la realzacón de aprendzaje computaconal desde la experenca. Como Mtchell descrbe en su excelente texto sobre aprendzaje automátco [MIT97], el aprendzaje automátco consste en aprender de las experencas del pasado con respecto a alguna medda de rendmento. Por ejemplo, en las aplcacones de los juegos de computadora, el aprendzaje automátco podría ser aprender a jugar un juego de ajedrez, desde las experencas del pasado que podrían ser juegos que el ordenador juega contra sí msmo, con respecto a alguna medda de rendmento, como ganar un certo número de partdas. Se han desarrollado dstntas técncas en el aprendzaje automátco, ncluyendo el aprendzaje conceptual donde se aprende los conceptos desde dferentes ejemplos de entrenamento, las redes de neuronas, los algortmos genétcos, los árboles de decsón, y la programacón de la lógca nductva. Se han realzado dferentes estudos teórcos sobre el aprendzaje automátco, que ntentan determnar la complejdad y capacdad de las dferentes técncas de aprendzaje automátco [MIT97]. Los nvestgadores del aprendzaje automátco han agrupado las técncas en tres categorías [THUR99]. La prmera es el aprendzaje actvo que se ocupa de la nteraccón y realzacón de las consultas durante el aprendzaje, la segunda es el aprendzaje desde el conocmento anteror, y la tercera es el aprendzaje ncremental. Hay alguna superposcón entre los tres métodos. Durante un semnaro sobre aprendzaje automátco [DARP98] fueron estudados los problemas y desafíos en aprendzaje automátco y sus relacones con la Mnería de Datos. Hay todavía mucha nvestgacón que realzar en este área, sobre todo en la ntegracón del aprendzaje automátco con las dferentes técncas de gestón de datos. Tal nvestgacón mejorará sgnfcatvamente el área de Mnería de Datos. Algunos de los algortmos más conocdos de aprendzaje automátco se encuentran en [QUIN93, MBK98]...5. Áreas de Aplcacón En este punto se presentan las prncpales áreas y sectores empresarales en las que se puede aplcar la mnería de datos. Marketng Técncas de Análss de Datos Págna 9 de 266

17 Capítulo Introduccón Actualmente con la generacón de los puntos de ventas nformatzados y conectados a un ordenador central, y el constante uso de las tarjetas de crédtos se genera gran cantdad de nformacón que hay que analzar. Con ello se puede emplear la mnería de datos para: Identfcar patrones de compra de los clentes: Determnar cómo compran, a partr de sus prncpales característcas, conocer el grado de nterés sobre tpos de productos, s compran determnados productos en determnados momentos,... Segmentacón de clentes: Consste en la agrupacón de los clentes con característcas smlares, por ejemplo demográfcas. Es una mportante herramenta en la estratega de marketng que permte realzar ofertas acordes a dferentes tpos de comportamento de los consumdores. Predecr respuestas a campañas de malng: Estas campañas son caras y pueden llegar a ser molestas para los clentes a los que no le nteresan el tpo de producto promoconado por lo que es mportante lmtarlas a los ndvduos con una alta probabldad de nteresarse por el producto. Está por ello muy relaconada con la segmentacón de clentes. Análss de cestas de la compra [market-basket analyss]: Consste en descubrr relacones entre productos, esto es, determnar qué productos suelen comprarse junto con otros, con el fn de dstrburlos adecuadamente. Compañías de Seguros En el sector de las compañías de seguros y la salud prvada, se pueden emplear las técncas de mnería de datos, por ejemplo para: Análss de procedmentos médcos solctados conjuntamente. Predecr qué clentes compran nuevas pólzas. Identfcar patrones de comportamento para clentes con resgo. Identfcar comportamento fraudulento. Banca En el sector bancaro la nformacón que puede almacenarse es, además de las cuentas de los clentes, la relatva a la utlzacón de las tarjetas de crédto, que puede permtr conocer hábtos y patrones de comportamento de los usuaros. Esta nformacón puede aplcarse para: Detectar patrones de uso fraudulento de tarjetas de crédto. Identfcar clentes leales: Es mportante para las compañías de cualquer sector mantener los clentes. Y es que hay estudos que demuestran que Técncas de Análss de Datos Págna 0 de 266

18 Capítulo Introduccón es cuatro veces más caro obtener nuevos clentes que mantener los exstentes. Predecr clentes con probabldad de cambar su aflacón. Determnar gasto en tarjeta de crédto por grupos. Encontrar correlacones entre ndcadores fnanceros. Identfcar reglas de mercado de valores a partr de hstórcos. Telecomuncacones En el sector de las telecomuncacones se puede almacenar nformacón nteresante sobre las llamadas realzadas, tal como el destno, la duracón, la fecha,... en que se realza la llamada, por ejemplo para: Deteccón de fraude telefónco: Medante por ejemplo el agrupamento o clusterng se pueden detectar patrones en los datos que permtan detectar fraudes. Medcna Tambén en el campo médco se almacena gran cantdad de nformacón, sobre los pacentes, tal como enfermedades pasadas, tratamentos mpuestos, pruebas realzadas, evolucón,... Se pueden emplear técncas de mnería de datos con esta nformacón, por ejemplo, para: Identfcacón de terapas médcas satsfactoras para dferentes enfermedades. Asocacón de síntomas y clasfcacón dferencal de patologías. Estudo de factores (genétcos, precedentes, hábtos, almentcos,...) de resgo para la salud en dstntas patologías. Segmentacón de pacentes para una atencón más ntelgente según su grupo. Estudos epdemológcos, análss de rendmentos de campañas de nformacón, prevencón, susttucón de fármacos,... Identfcacón de terapas médcas y tratamentos erróneos para determnadas enfermedades. Industra farmacéutca Técncas de Análss de Datos Págna de 266

19 Capítulo Introduccón En el sector químco y farmacéutco se almacenan gran cantdad de nformacón: Bases de datos de domno públco contenendo nformacón sobre estructuras y propedades de componentes químcos. Resultados de unversdades y laboratoros publcadas en revstas técncas. Datos generados en la realzacón de los expermentos. Datos propos de la empresa. Los datos son almacenados en dferentes categorías y a cada categoría se le aplca un dferente trato. Se podrían realzar, entre otras, las sguentes operacones con la nformacón obtenda: Clusterng de moléculas: Consste en el agrupamento de moléculas que presentan un certo nvel de smltud, con lo que se pueden descubrr mportantes propedades químcas. Búsqueda de todas las moléculas que contenen un patrón específco: Se podría ntroducr una subestructura (un patrón), devolvendo el sstema todas las moléculas que son smlares a dcha estructura. Búsqueda de todas las moléculas que vncula un camno específco haca una molécula objetvo: Realzar una búsqueda exhaustva puede ser mpractcable, por lo que se pueden usar restrccones en el espaco de búsqueda. Predccón de resultado de expermentos de una nueva molécula a partr de los datos almacenados: A través de determnadas técncas de ntelgenca artfcal es posble predecr los resultados a nuevos expermentos a partr de los datos, con el consguente ahorro de tempo y dnero. Bología Con la fnalzacón en los próxmos años del Proyecto Genoma Humano y el almacenamento de toda la nformacón que está generando en bases de datos accesbles por Internet, el sguente reto consste en descubrr cómo funconan nuestros genes y su nfluenca en la salud. Exsten nuevas tecnologías (chps de ADN, proteómca, genómca funconal, varabldad genétca ndvdual) que están posbltando el desarrollo de una nueva bología que permte extraer conocmento bomédcos a partr de bases de datos expermentales en el entorno de un ordenador báscamente medante técncas de mnería de datos y vsualzacón. Estos trabajos forman parte de los desarrollos de la Bonformátca. Técncas de Análss de Datos Págna 2 de 266

20 Capítulo Introduccón..6. Tendencas de la Mnería de Datos El nterés que desperta la Mnería de Datos para el análss de la nformacón especalmente en el área comercal hace que se busquen nuevas aplcacones basadas en esta tecnología. Algunas de las prncpales nuevas aplcacones basadas en la Mnería de Datos se presentan a contnuacón. Mnería de Textos La Mnería de Textos [Text Mnng] surge ante el problema cada vez más apremante de extraer nformacón automátcamente a partr de masas de textos. Se trata así de extraer nformacón de datos no estructurados: texto plano. Exsten varas aproxmacones a la representacón de la nformacón no estructurada [HH96]: Bag of Words : Cada palabra consttuye una poscón de un vector y el valor corresponde con el número de veces que ha aparecdo. N-gramas o frases: Permte tener en cuenta el orden de las palabras. Trata mejor frases negatvas... excepto...,... pero no..., que tomarían en otro caso las palabras que le sguen como relevantes. Representacón relaconal (prmer orden): Permte detectar patrones más complejos (s la palabra X está a la zquerda de la palabra Y en la msma frase...). Categorías de conceptos. Cas todos se enfrentan con el vocabulary problem [FUR87]: Tenen problemas con la snonma, la polsema, los lemas, etc. Un ejemplo de aplcacón basada en Mnería de Textos es la generacón automátca de índces en documentos. Otras más complcadas consstrían en escanear completamente un texto y mostrar un mapa en el que las partes más relaconadas, o los documentos más relaconados se coloquen cerca unos de otros. En este caso se trataría de analzar las palabras en el contexto en que se encuentren. En cualquer caso, aunque aún no se ha avanzado mucho en el área de Mnería de Textos, ya hay productos comercales que emplean esta tecnología con dferentes propóstos. Mnería de datos Web La Mnería de datos Web [Web Mnng] es una tecnología usada para descubrr conocmento nteresante en todos los aspectos relaconados a la Web. Es uno de los mayores retos. El enorme volumen de datos en la Web generado por la explosón de usuaros y el desarrollo de lbrerías dgtales hace que la extraccón de la nformacón útl sea un gran problema. Cuando el usuaro Técncas de Análss de Datos Págna 3 de 266

21 Capítulo Introduccón navega por la web se encuentra frecuentemente saturado por los datos. La ntegracón de herramentas de mnería de datos puede ayudar a la extraccón de la nformacón útl. La Mnería de datos Web se puede clasfcar en tres grupos dstntos no dsjuntos, dependendo del tpo de nformacón que se quera extraer, o de los objetvos [KB00]: Mnería del Contendo de la Web [Web Content Mnng]: Extraer nformacón del contendo de los documentos en la web. Se puede clasfcar a su vez en: o Text Mnng: S los documentos son textuales (planos). o Hypertext Mnng: S los documentos contenen enlaces a sí msmos o a otros documentos o Markup Mnng: S los documentos son semestructurados (con marcas). o Multmeda Mnng: Para mágenes, audo, vídeo,... Mnería de la Estructura de la Web [Web Structure Mnng]: Se ntenta descubrr un modelo a partr de la tpología de enlaces de la red. Este modelo puede ser útl para clasfcar o agrupar documentos. Mnería del Uso de la Web [Web Usage Mnng]: Se ntenta extraer nformacón (hábtos, preferencas, etc. de los usuaros o contendos y relevanca de documentos) a partr de las sesones y comportamento de los usuaros navegantes.2. Mnería de Datos y Almacenamento de Datos Como se ha enfatzado repetdamente, los datos son crítcos para hacer data mnng. Por consguente, se necestan sstemas de bases de datos para manejar los datos a los que aplcar data mnng efcazmente. Estos sstemas podrían ser sstemas de data warehouse o sstemas de bases de datos..2.. Arqutectura, Modelado, Dseño, y Aspectos de la Admnstracón Las técncas de data mnng exsten desde hace algún tempo. Por qué entonces data mnng se ha hecho tan popular ahora? La prncpal razón es que ahora con los sstemas de bases de datos se pueden representar, almacenar y recuperar los datos, y reforzar característcas como la ntegrdad y segurdad. Técncas de Análss de Datos Págna 4 de 266

22 Capítulo Introduccón Ahora que se tenen los datos guardados en las bases de datos y quzás normalzados y estructurados, Cómo se puede hacer data mnng? Un enfoque es reforzar un SGBD con una herramenta de data mnng. Se puede comprar un SGBD comercal y una herramenta de data mnng comercal que tenga construdas las nterfaces para el SGBD y se puede aplcar la herramenta a los datos admnstrados por el SGBD. A pesar de que este enfoque tene ventajas y promueve las arqutecturas abertas, hay algunos nconvenentes. Podría haber algunos problemas de rendmento cuando se usa un SGBD de propósto general para data mnng. El otro enfoque es una ntegracón fuerte del SGBD con las herramentas de data mnng. El núcleo de la base de datos tene las herramentas de data mnng ncorporadas dentro de él. Se puede decr que este tpo de SGBD es un Mnng SGBD (SGBD de data mnng). Según esto las dferentes funcones del SGBD como el procesamento de consultas y la gestón del almacenamento son nfluencadas por las técncas de data mnng. Por ejemplo, los algortmos de optmzacón pueden ser modfcados por las técncas de data mnng. Se ha nvestgado mucho sobre la ntegracón de data mnng y el núcleo del SGBD (véase [TSUR98]). Mnng SGBD tambén sgnfcaría la elmnacón de funcones nnecesaras de un SGBD y el protagonsmo de las característcas clave. Por ejemplo, el procesamento de transaccones es una funcón soportada por la mayoría de los SGBD comercales. Sn embargo, data mnng normalmente no se drge a los datos transacconales sno a los datos de apoyo a la toma de decsones. Estos datos no pueden ser datos que se actualcen a menudo por transaccones. Así que, podrían elmnarse funcones como la gestón de transaccones en un Mnng SGBD, y se podría dar más mportanca a las característcas adconales que proporconen ntegrdad y caldad a los datos. En el general, en el caso de un Mnng SGBD, la agregacón de una herramenta de data mnng nflurá sobre las dferentes funcones del SGBD como: el procesamento de consultas, la gestón del almacenamento, la gestón de transaccones, la gestón de metadata (dcconaro de datos), la gestón de la segurdad y de la ntegrdad. El tpo de modelado de los datos usado puede tener algún mpacto en data mnng. Muchos de los datos que serán utlzados se guardan en bases de datos relaconales. Sn embargo, actualmente cada vez más se guardan los datos en bases de datos no relaconales tales como bases de datos orentadas a objetos, bases de datos objeto-relaconales y bases de datos multmeda. Hay poca nformacón sobre data mng en bases de datos orentadas a objetos, aunque s hay algunos trabajos sobre data mnng en las bases de datos multmeda. En las bases de datos orentadas a objetos prmero se extraen las relacones entre los objetos y se guardan en una base de datos relaconal, y después las herramentas de data mnng se aplcan a la base de datos relaconal. El dseño de la base de datos juega un papel fundamental en la aplcacón de data mnng. Por ejemplo, en el caso de data warehousng, se han propuesto dferentes enfoques en el modelo y subsguente dseño del almacén. Éstos Técncas de Análss de Datos Págna 5 de 266

23 Capítulo Introduccón ncluyen modelos multdmensonales de datos y modelos del procesamento analítco en línea. Se han propuesto varos esquemas como el esquema en estrella para el almacenamento de los datos. Como se ha menconado, la organzacón efcaz de los datos es crítca para data mnng. Por consguente tambén, tales modelos y esquemas son mportantes para data mnng La admnstracón de las bases de datos tambén resulta nfluda por la realzacón de data mnng. S se ntegra data mnng un SGBD, aparecen las sguentes cuestones Con qué frecuenca será aplcado data mnng a la base de datos? Puede ser usado data mnng para analzar la audtora de datos? Como nflurá en data mnng la actualzacón frecuente de los datos? Éstas nteresantes preguntas tendrán respuestas cuando se obtenga más nformacón sobre la ntegracón de data mnng con las funcones del SGBD Data mnng y Funcones de Bases de datos En el caso de ntegracón fuerte entre el SGBD y data mnng hay un fuerte mpacto sobre las dferentes funcones del sstema de bases de datos. Por ejemplo, en el procesamento de consultas. Se han realzado trabajos para examnar lenguajes de consultas como SQL y determnar s se necestan extensones para soportar data mnng (véase por ejemplo [ACM96a]). S hay estructuras adconales y consultas que son complejas, entonces el optmzador de consultas tene que ser adaptado para manejar esos casos. Estrechamente relaconado con la optmzacón de consultas esta la efcenca de las estructuras de almacenamento, índces, y métodos de acceso. Pueden ser necesaros mecansmos especales para apoyar data mnng en el procesamento de consultas. En el caso de gestón de transaccones, la realzacón de data mnng puede tener poco mpacto, puesto que data mnng se hace normalmente en los datos de apoyo a la toma de decsones y no en los datos transacconales. Sn embargo hay casos dónde se analzan los datos transacconales para anomalías como en los casos de tarjetas de crédto y de tarjetas de teléfono. A veces las compañías de tarjetas de crédto o de teléfono han notfcado sobre usos anómalos de tarjetas de crédto o de teléfono. Esto normalmente se hace analzando los datos transacconales. Tambén se podría aplcar data mnng a estos datos. En el caso de metadata, se podría aplcar data mnng a metadata para extraer la nformacón útl en casos dónde los datos no sean analzables. Ésta puede ser la stuacón para datos no estructurados cuyo metadata deba ser estructurado. Por otro lado, los metadata podrían ser un recurso muy útl para una herramenta de data mnng. Metadata podría dar nformacón adconal para ayudar con el proceso de data mnng. La segurdad, ntegrdad, caldad del datos, y toleranca a fallos son nfludas por data mnng. En el caso de segurdad, data mnng podría suponer una amenaza mportante para la segurdad y prvacdad. Técncas de Análss de Datos Págna 6 de 266

24 Capítulo Introduccón Por otro lado data mnng pueden usarse para descubrr las ntrusones así como para analzar la audtora de datos. En el caso de audtora, la cantdad de datos sobre los que se aplca data mnng es grande. Se pueden aplcar las herramentas de data mnng a los datos para descubrr los modelos anormales. Por ejemplo, s un empleado hace un excesvo número de vajes a un país determnado y este hecho es conocdo, proponendo algunas preguntas. La sguente pregunta a realzar es s el empleado tene asocacones con certas personas de ese país. S la respuesta es postva, entonces la conducta del empleado se marca. Como ya se ha menconado data mnng tene muchas aplcacones en el descubrmento de la ntrusón y analzando amenazas a las bases de datos. Se puede usar data mnng para descubrr modelos de ntrusones y amenazas. Ésta es un área emergente y se llama Informacón de Confanza. No sólo es mportante tener datos de caldad, tambén es mportante recuperarse de fallos malcosos o de otro tpo, y proteger los datos de amenazas o ntrusones. Aunque la nvestgacón en esta área smplemente está empezando, se esperan grandes progresos. En el caso de caldad e ntegrdad de los datos, se podrían aplcar las técncas de data mnng para descubrr datos malos y mejorar la caldad de los datos. Data mnng tambén pueden usarse para analzar la segurdad de los datos para varos sstemas como sstemas de control de crculacón aérea, sstemas nuclear, y sstemas de armamento DATA WAREHOUSE Un data warehouse es un tpo especal de base de datos. Al parecer, el térmno se orgnó a fnales de los ochenta [DEVL88], [INMO88], aunque el concepto es más antguo. La referenca [INMO93] defne un data warehouse como "un almacén de datos orentado a un tema, ntegrado, no volátl y varante en el tempo, que soporta decsones de admnstracón" (donde el térmno no volátl sgnfca que una vez que los datos han sdo nsertados, no pueden ser cambados, aunque sí pueden ser borrados). Los data warehouses surgeron por dos razones: prmero, la necesdad de proporconar una fuente únca de datos lmpa y consstente para propóstos de apoyo para la toma de decsones; segundo, la necesdad de hacerlo sn afectar a los sstemas operaconales. Por defncón, las cargas de trabajo del data warehouse están destnadas para el apoyo a la toma de decsones y por lo tanto, tenen consultas ntensvas (con actvdades ocasonales de nsercón por lotes); asmsmo, los propos data warehouses tenden a ser bastante grandes (a menudo mayores que 500GB y con una tasa de crecmento de hasta el 50 por cento anual). Por consecuenca, es dfícl -aunque no mposble- perfecconar el rendmento. Tambén puede ser un problema la escalabldad. Contrbuyen a ese problema (a) los errores de dseño de la base de datos, (b) el uso nefcente de los operadores relaconales, (e) la debldad en la mplementacón del modelo relaconal del DBMS, (d) la falta de escalabldad del propo DBMS y (e) los errores de dseño arqutectónco que lmtan la capacdad e mposbltan la escalabldad de la plataforma. Técncas de Análss de Datos Págna 7 de 266

25 Capítulo Introduccón DATA MARTS Los usuaros a menudo realzaban amplas operacones de nformes y análss de datos sobre un subconjunto relatvamente pequeño de todo el data warehouse. Asmsmo, era muy probable que los usuaros repteran las msmas operacones sobre el msmo subconjunto de datos cada vez que era actualzado. Además, algunas de esas actvdades -por ejemplo, análss de pronóstcos, smulacón, modelado de datos de negocos del tpo "qué pasaría s..."- nvolucraban la creacón de nuevos esquemas y datos con actualzacones posterores a esos nuevos datos. La ejecucón repetda de tales operacones sobre el msmo subconjunto de todo el almacén no era muy efcente; por lo tanto, parecó buena dea construr algún tpo de "almacén" lmtado de propósto general que estuvera hecho a la medda de ese propósto. Además, en algunos casos sería posble extraer y preparar los datos requerdos drectamente a partr de las fuentes locales, lo que proporconaba un acceso más rápdo a los datos que s tuveran que ser sncronzados con los demás datos cargados en todo el data warehouse. Dchas consderacones condujeron al concepto de data marts. De hecho, hay alguna controversa sobre la defncón precsa del térmno data mart. Se puede defnr como "un almacén de datos especalzado, orentado a un tema, ntegrado, volátl y varante en el tempo para apoyar un subconjunto específco de decsones de admnstracón". La prncpal dferenca entre un data mart y un data warehouse es que el data mart es especalzado y volátl. Especalzado quere decr que contene datos para dar apoyo (solamente) a un área específca de análss de negocos; por volátl se entende que los usuaros pueden actualzar los datos e ncluso, posblemente, crear nuevos datos (es decr, nuevas tablas) para algún propósto. Hay tres enfoques prncpales para la creacón de un data mart: Los datos pueden ser smplemente extraídos del data warehouse; se sgue un enfoque de "dvde y vencerás" sobre la carga de trabajo general de apoyo para la toma de decsones, a fn de lograr un mejor rendmento y escalabldad. Por lo general, los datos extraídos son cargados en una base de datos que tene un esquema físco que se parece mucho al subconjunto aplcable del data warehouse; sn embargo, puede ser smplfcado de alguna manera gracas a la naturaleza especalzada del data mart. A pesar del hecho de que el data warehouse pretende proporconar un "punto de control únco", un data mart puede ser creado en forma ndependente (es decr, no por medo de la extraccón a partr del data warehouse). Dcho enfoque puede ser adecuado s el data warehouse es naccesble por alguna causa: razones fnanceras, operaconales o ncluso polítcas (o puede ser que n squera exsta todavía el data warehouse). Técncas de Análss de Datos Págna 8 de 266

26 Capítulo Introduccón Algunas nstalacones han segudo un enfoque de "prmero el data mart", donde los data marts son creados conforme van sendo necesaros y el data warehouse general es creado, fnalmente, como una consoldacón de los dversos data marts. Los últmos dos enfoques sufren posbles problemas de desacople semántco. Los data marts ndependentes son partcularmente susceptbles a tales problemas, debdo a que no hay forma obva de verfcar los desacoples semántcos cuando las bases de datos son dseñadas en forma ndependente. Por lo general, la consoldacón de data marts en data warehouses falla, a menos que (a) se construya prmero un esquema lógco únco para el data warehouse y (b) los esquemas para los data marts ndvduales se derven después a partr del esquema del data warehouse. Un aspecto mportante en el dseño de data marts: es la granulardad de la base de datos. Donde granulardad se refere al nvel más bajo de agregacón de datos que se mantendrá en la base de datos. Ahora ben, la mayoría de las aplcacones de apoyo para la toma de decsones requerrán tarde o temprano acceso a datos detallados y por lo tanto, la decsón será fácl para el data warehouse. Para un data mart puede ser más dfícl. La extraccón de grandes cantdades de datos detallados del data warehouse, y su almacenamento en el data mart, puede ser muy nefcente s ese nvel de detalle no se necesta con mucha frecuenca. Por otro lado, en algunas ocasones es dfícl establecer defntvamente cuál es el nvel más bajo de agregacón que en realdad se necesta. En dchos casos, los datos detallados pueden ser acceddos drectamente desde el data warehouse cuando se necesten, mantenendo en el data mart los datos que de alguna manera ya fueron agregados. APLICACIONES DE LOS DATA WAREHOUSE La explotacón del Data Warehouse puede realzarse medante dversas técncas: Query & Reportng On-lne analytcal processng (OLAP) Executve Informaton System (EIS) Decson Support Systems (DSS) Vsualzacón de la nformacón Data Mnng ó Mnería de Datos, etc. Se llaman sstemas OLAP (On Lne Analytcal Processng) a aquellos sstemas que deben: Soportar requermentos complejos de análss Analzar datos desde dferentes perspectvas Técncas de Análss de Datos Págna 9 de 266

27 Capítulo Introduccón Soportar análss complejos contra un volumen ngente de datos La funconaldad de los sstemas OLAP se caracterza por ser un análss multdmensonal de datos medante navegacón del usuaro por los msmos de modo asstdo. Exsten dos arqutecturas dferentes para los sstemas OLAP: OLAP multdmensonal (MD-OLAP) y OLAP relaconales (ROLAP). La arqutectura MD-OLAP usa bases de datos multdmensonales, la arqutectura ROLAP mplanta OLAP sobre bases de datos relaconales La arqutectura MD-OLAP requere unos cálculos ntensvos de complacón. Lee de datos precomplados, y tene capacdades lmtadas de crear agregacones dnámcamente o de hallar ratos que no se hayan precalculado y almacenado prevamente. La arqutectura ROLAP, accede a los datos almacenados en un Data Warehouse para proporconar los análss OLAP. La premsa de los sstemas ROLAP es que las capacdades OLAP se soportan mejor contra las bases de datos relaconales. Los usuaros fnales ejecutan sus análss multdmensonales a través del motor ROLAP, que transforma dnámcamente sus consultas a consultas SQL. Se ejecutan estas consultas SQL en las bases de datos relaconales, y sus resultados se relaconan medante tablas cruzadas y conjuntos multdmensonales para devolver los resultados a los usuaros. ROLAP es una arqutectura flexble y general, que crece para dar soporte a amplos requermentos OLAP. El MOLAP es una solucón partcular, adecuada para solucones departamentales con unos volúmenes de nformacón y número de dmensones más modestos. Una cuestón típca de un sstema OLAP o DSS podría ser: Compraron más monovolúmenes en 998 los habtantes del norte de España, o los del sur? Sn embargo, un sstema data mnng en este escenaro podría ser nterrogado así: Quero un modelo que dentfque las característcas predctvas más mportantes de las personas que compran monovolumenes... QUERY & REPORTING Las consultas o nformes lbres trabajan tanto sobre el detalle como sobre las agregacones de la nformacón. Realzar este tpo de explotacón en un almacén de datos supone una optmzacón del tradconal entorno de nformes (reportng), dado que el Data Warehouse mantene una estructura y una tecnología mucho más apropada para este tpo de solctudes. Los sstemas de "Query & Reportng", no basados en almacenes de datos se caracterzan por la complejdad de las consultas, los altísmos tempos de Técncas de Análss de Datos Págna 20 de 266

28 Capítulo Introduccón respuesta y la nterferenca con otros procesos nformátcos que compartan su entorno DATA WAREHOUSE Y DATA MINING Data warehouse almacena los datos de las bases de datos heterogéneas para que los usuaros consulten sólo un únco aspecto. Las respuestas que un usuaro consgue a una consulta dependen de los volúmenes del data warehouse. El data warehouse en general no ntenta extraer la nformacón de los datos almacenados. Data warehouse estructura y organza los datos para suportar funcones de admnstracón, data mnng ntenta extraer la nformacón útl, así como predecr las tendencas de los datos. La Fgura 3 0 lustra la relacón entre el data warehouse y data mnng. Observe que no es necesaro construr un data warehouse para hacer data mnng, ya que tambén puede aplcarse data mnng a las bases de datos. Sn embargo, un data warehouse estructura los datos de tal manera que faclta data mnng, por lo que en muchos casos es muy deseable tener un almacén del datos para llevar a cabo data mnng.. Dónde acaba data warehouse y donde empeza data mnng? Hay una dferenca clara entre data warehouse y data mnng? La respuesta es subjetva. Hay certas preguntas que los data warehouse pueden contestar. Además, los data warehouse dsponen de capacdades para el apoyo a la toma de decsones. Algunos data warehouse llevan a cabo predccones y tendencas. En este caso los data warehouse llevan a cabo algunas de las funcones de data mnng. En el general, en el caso de un data warehouse la respuesta está en la base de datos. El data warehouse tene que dsponer de optmzacón de consultas y técncas de acceso para obtener respuestas. Por ejemplo, consdere preguntas como "Cuántos automóvles rojos compraron los médcos en 990 en Nueva York "? La respuesta está en la base de datos. Sn embargo, para una pregunta como " Cuántos automóvles rojos comprarán los médcos en 2005 en Nueva York "? la respuesta no puede estar en la base de datos. Basándose en los patrones de compra de los médcos en Nueva York y sus proyeccones del sueldo, se podría predecr la respuesta a esta pregunta. Esencalmente, un warehouse organza los datos efcazmente para realzar data mnng sobre ellos. La pregunta es entonces Es mprescndble tener un warehouse para hacer data mnng? La respuesta es que es muy nteresante tener un warehouse, pero esto no sgnfca que sea mprescndble. Podría usarse un buen SGBD para gestonar una base de datos efcazmente. Tambén, a menudo con un warehouse no se tenen datos transacconales. Por lo tanto, los datos no pueden ser actuales, y los resultados obtendos desde data mnng tampoco lo serán. S se necesta la nformacón actualzada, entonces se podría hacer data mnng sobre una base de datos admnstrada por un SGBD que tambén tenga característcas de procesamento de transaccones. Hacer data mnng sobre datos que se actualzan a menudo es un desafío. Típcamente data mnng se ha usado sobre los datos de apoyo a la toma de decsones. Por consguente hay varos problemas que necestan ser nvestgados extensamente, antes de que se pueda llevar a cabo lo que se conoce como data mnng en tempo real. De momento al menos, es crítco Técncas de Análss de Datos Págna 2 de 266

29 Capítulo Introduccón dsponer de un buen data warehouse para llevar a cabo un buen data mnng para funcones de apoyo a la toma de decsones. Observe que tambén se podría tener una herramenta ntegrada para llevar a cabo las funcones de data warehouse y data mnng. Una herramenta de este tpo será conocda como data warehouse mner..3. Herramentas Comercales de Análss de Datos KnowledgeSeeker de Angoss Software Internatonal, Toronto, Canada Puntos Clave: Herramenta nteractva de clasfcacón. Basada en los algortmos de árboles de decsón CHAID y XAID. Se ejecuta sobre plataformas Wndows y UNIX Ventajas: Representacón flexble de árboles de decsón. Provee característcas para permtr la dentfcacón de la relevanca de los resultados en los negocos. El API permte usar los resultados del análss en aplcacones personalzadas. Aspectos a tener en cuenta: Solo soporta árboles de decsón Poco soporte para la transformacón de datos. El soporte para predccón se lmta a la exportacón de las reglas generadas. Cuando usarla: S se necesta una herramenta que permta adelantar una vsón nstantánea general de sus datos. S necesta una herramenta nteractva para explorar sus datos. No está ndcada s se necesta una herramenta que soporte predccón desde dentro de sus datos. Técncas de Análss de Datos Págna 22 de 266

30 Capítulo Introduccón DataCruncher de DataMnd, San Mateo, CA, USA Puntos Clave: Herramenta de Data Mnng para clasfcacón y clusterng Basada en Tecnología de agentes de redes (ANT Agent Network Technology) La aplcacón servdor se ejecuta sobre UNIX y Wndows NT; la aplcacón clente en todas las plataformas Wndows. Ventajas: Fácl de usar, ya que los modelos necestan pocas adaptacones. Agent Network Technology puede ser utlzada para clasfcacón, predccón y clusterng no supervsado. Resultados versátles, que permten una mnucosa valoracón de los modelos y de sus resultados Aspectos a tener en cuenta: Se necesta famlarzarse con la tecnología para comprender los resultados. Está basada en una técnca propetara Tene soporte lmtado para la transformacón de datos. Cuando usarla: S se necesta una herramenta clente-servdor con una nterface fácl de usar. S se necesta valorar para cada caso la bondad de la predccón de los modelos. S quere nvertr algún esfuerzo en hacer un completo uso del análss de resultados. Intellgent Mner de IBM, Armonk, NY, USA Puntos Clave: Soporta múltples operacones de data mnng en un entrono clenteservdor Técncas de Análss de Datos Págna 23 de 266

31 Capítulo Introduccón Utlza redes de neuronas, árboles de nduccón y varas técncas estadístcas. Trabaja sobre clentes Wndows, OS/2 y X-Wndows, y servdores AIX (ncluyendosp2), OS/400 y OS/390. Ventajas: Buen soporte para análss de asocacones y clusterng (ncluyendo vsualzacón de clusterng), además de clasfcacón y predccón. Optmzada para data mnng en grandes bases de datos(del orden de ggabytes) ya que se aprovecha de la plataforma de procesamento paralelo PS2 de IBM. Tene un entorno de trabajo ntegrado con característcas muy nteresantes tanto para usuaros expertos como no especalstas. Aspectos a tener en cuenta: Algunos problemas que tenía han sdo resueltos con la nueva nterface que ha sdo desarrollada completamente en Java. Solo trabaja sobre plataformas IBM, y el acceso a los datos se lmta a las bases de datos DB2 y a fcheros planos. Incalmente la mayoría de los proyectos requerrán entradas mportantes desde los servcos de soporte y consultoría de IBM Cuando usarla: Debería r a una tenda de IBM para observar la funconaldad del data mnng ntegrado en su entorno de soporte a las decsones Para grandes proyectos de data mnng, en partcular cuando los datos están contendos en DB2. S se desan utlzar varas operacones de data mnng, tales como clasfcacón, clusterng y análss de asocacones. Para realzar análss de cesta de la compra con varos ggabytes de datos. S nteresa utlzar los servcos de consultoría de IBM. Clamentne de Integral Solutons, Basngstoks, UK Puntos Clave: Técncas de Análss de Datos Págna 24 de 266

32 Capítulo Introduccón Herramenta con un entrono de trabajo que soporta todo el proceso de data mnng Ofrece árboles de decsón, redes de neuronas, generacón de reglas de asocacón y característcas de vsualzacón. Se ejecuta sobre VMS, UNIX o Wndows NT. Ventajas: Interface gráfca ntutva para programacón vsual. Las técncas de data mnng pueden complementarse combnándose entre s. Vsón nteractva de las relacones entre las varables a través de grafos de red. Aspectos a tener en cuenta: No soporta Wndows natvo. Es necesaro famlarzarse con la herramenta para consegur una óptma utlzacón de sus funconaldades. No está optmzada para arqutecturas en paralelo. Cuando usarla: S se necesta una herramenta que cubra por completo el rango de los procesos de data mnng. S se desean combnar herramentas y modelos para construr los procesos de data mnng que exjan tales requstos. S se desea desarrollar el modelo en C. S se necestan grandes capacdades analítcas y de gestón de datos sn requerr un extenso análss de datos n experenca en tecnologías nformátcas. Alce de Isoft SA, Gf sur Yvette, Franca. Puntos Clave: Herramenta de escrtoro para data mnng nteractvo. Se basa en tecnología de árboles de decsón. Se ejecuta sobre plataformas Wndows. Técncas de Análss de Datos Págna 25 de 266

33 Capítulo Introduccón Ventajas: La representacón altamente nteractva permte guar el análss. La opcón de generar gráfcos provee una vsón general de los datos en todas las etapas del proceso de Data Mnng. Se trata de una herramenta económca valda para usuaros que comenzan a realzar data mnng. Aspectos a tener en cuenta: No tene opcones para desarrollar modelos. Pequeño soporte para transformacón de datos. No genera conjuntos de reglas optmzadas desde los árboles de decsón. Cuando usarla: S se desea usar data mnng para buscar patrones y relacones en los datos. S se quere tener la posbldad de drgr el análss nteractvamente. S no se es un experto en data mnng y se desea realzar el análss. S se quere entender los patrones que se encuentran en la base de datos y no se desea construr modelos predctvos. Decsón Seres, de NeoVsta Software Cupertno CA, USA. Puntos Clave: Herramentas para múltples operacones de data mnng para el desarrollo de modelos basados en servdores. Proporcones algortmos de redes de neuronas, árboles y reglas de nduccón, clusterng y análss de asocacones. Trabaja sobre sstemas UNIX mono o mult-procesadores de HP y Sun. Accede sólo a fcheros planos, aunque posblemente las últmas versones ya trabajaran contra bases de datos relaconales. Ventajas: Soporta un gran rango de operacones y algortmos de data mnng, la mayoría de los cuales han sdo altamente optmzados para obtener altos rendmentos. Técncas de Análss de Datos Págna 26 de 266

34 Capítulo Introduccón Está optmzado para plataformas que trabajan en paralelo con grandes conjuntos de datos. Ofrece una consderable flexbldad para construr modelos de alto rendmento para aplcacones de usuaro fnal embebdas. Aspectos a tener en cuenta: Las herramentas de desarrollo gráfco son bastante báscas. Poco soporte para la exploracón de datos. La mayoría de los clentes necestaran un consderable soporte de consultas para generar aplcacones y ejecutarlas. Es necesaro tener conocmentos de análss de datos y de utlzacón de UNIX para desarrollar las aplcacones. Cuando usarla: S se desean construr aplcacones con alto rendmento de modelos de data mnng embebdos que utlzan entornos con multprocesadores. S se quere tener un absoluto control sobre todos los elementos de los procesos de construccón de modelos. S se necestan combnar operacones y tecncas de data mnng alternatvas en aplcacones complejas. S se quere trabajar con una solucón que puede comuncar una aplcacón data mnng para enlazar con sus necesdades. Plot Dscovery Server de Plot Software, Cambrdge MA, USA. Puntos Clave: Herramenta para clasfcacón y predccón. Basada en la tecnología de árboles de decsón CART. Trabaja sobre UNIX y Wndows NT Ventajas: Buena representacón del análss de resultados Es fácl de usar y de entender. Muy ntegrada con sstemas gestores de bases de datos relaconales. Aspectos a tener en cuenta: Técncas de Análss de Datos Págna 27 de 266

35 Capítulo Introduccón Solamente ndcada para clentes de los programas para soporte a la toma de decsones de Plot. Solamente cubre un especfco sector del espectro del data mnng. Sólo trabaja con datos almacenados en bases de datos relaconales. Cuando usarla: S se desea optmzar las campañas de marketng. S se necesta nterpretar fáclmente los resultados sn realzar un gran refnamento de los modelos. Solo s se están utlzando los programas para soporte a la toma de decsones de Plot. No está ndcada s se queren resolver los problemas utlzando dferentes técncas. SAS Soluton for Data Mnng de SAS Insttute, Cary, NC, USA Puntos Clave: Un gran número de herramentas de seleccón, exploracón y análss de datos para entornos clente-servdor. Las opcones de data mnng ncluyen: aplcacones de redes de neuronas, de árboles de decsón y herramentas de estadístca. Aplcacones portables para un gran número de entornos PC, UNIX y manframes. Ventajas: SAS ofrece data warehouse y análss de datos. Conjuntos extensbles de herramentas de manpulacón y vsualzacón de datos. SAS tene una gran experenca en herramentas estadístcas y de análss de datos. Aspectos a tener en cuenta: La oferta para hacer data mnng es una mezcolanza de todas las técncas SAS exstentes. Integracón con la programacón en 4GL. Técncas de Análss de Datos Págna 28 de 266

36 Capítulo Introduccón No soporta el análss de asocacones. Cuando usarla: S ya se utlza SAS para almacenar, admnstrar y analzar los datos. S se va a utlzar SAS para la construccón del data warehouse. S es necesara una alta funconaldad en la manpulacón de datos. S se es experto en estadístca y se queren utlzar las funcones estadístcas de SAS. MneSet, de Slcon Graphcs, Mountan Vew, CA, USA Puntos Clave: Paquete de herramentas para Data mnng y vsualzacón. Proporcona algortmos para la generacón de reglas para clasfcacón y asocacones. Trabaja sobre plataformas SGI bajo IRIS. Ventajas: Ofrece herramentas de vsualzacón para los datos y los modelos generados. Suporta muchas operacones de data mnng. El gestor de herramentas actúa como un punto central de control y permte el acceso y transformacón de los datos. Aspectos a consderar: Requere un servdor SGI. La gran cantdad de opcones y parámetros puede provocar confusón en usuaros noveles. Las herramentas de vsualzacón necestan mucha preparacón y personalzacón de los datos para producr buenos resultados. Cuando usarla: S se queren detectar patrones por vsualzacón. S se queren construr aplcacones que representen los resultados de data mnng a través de vsualzacón. Técncas de Análss de Datos Págna 29 de 266

37 Capítulo Introduccón S se dspone de equpos de Slcon Graphcs Esta ndcada para VARs que queran desarrollar solucones personalzadas de data mnng usando MneSet. SPSS, de SPSS, Chcago IL, USA Puntos Clave: Herramentas de escrtoro para clasfcacón y predccón, clusterng, y un gran rango de operacones estadístcas. Proporcona una herramenta de redes de neuronas además de productos de análss estadístco. SPSS para Wndows y Neural Connecton son productos que trabajan en modo monopuesto en plataformas Wndows. Ventajas: Las funcones de análss estadístco complejo son accesbles a través de una nterface de usuaro muy ben dseñada. Neural Connecton ofrece un amplo rango de opcones y funcones a través un entorno de desarrollo muy fácl de usar. El lenguaje de scrpts permte una gran personalzacón del entorno y el desarrollo de aplcacones estadístcas asladas. Aspectos a consderar: Para analstas de datos y estadístcos, más que para usuaros fnales. SPSS CHAID carece de la funconaldad de otros productos de escrtoro de árboles de decsón. Neural Connecton es un producto aslado: la base de la ntegracón con SPSS es a través de transferenca de datos, que se lmta a la mportacón de regstros. Cuando usarla: S se necesta un análss complejo combnando estadístca con árboles de decsón y redes de neuronas. S se dsponen de grandes conocmentos estadístcos y se quere utlzar data mnng basado en IA. S se necesta verfcacón estadístca de los resultados encontrados. Técncas de Análss de Datos Págna 30 de 266

38 Capítulo Introduccón S es precso construr aplcacones de análss departamental para escrtoro. S tene un presupuesto ajustado. Syllogc Data Mnng Tool, de Syllogc, Houten, The Netherlands Puntos Clave: Herramenta con entorno de trabajo mult-estratégco con nterface vsual. Soporta análss de árboles de decsón, clasfcacón k-vecno más próxmo, y análss de clusterng y asocacones por k-means. Trabaja sobre Wndows NT y en estacones UNIX con uno o varos procesadores Ventajas: La nterface vsual permte a los usuaros construr proyectos de data mnng enlazando objetos. La versón está optmzada para entornos masvamente paralelos y valdos para grandes bases de datos. La empresa tambén ofrece un gran número de servcos de consultaría en las áreas de datawarehousng y data mnng. Aspectos a consderar: La nterface y la presentacón de resultados necesta algunos refnamentos para ser utlzada por usuaros fnales. DMT/MP no soportan el msmo rango de operacones que DMT Cuando usarla: S se necesta servco de consultoría a la vez que se desarrolla el proyecto de data mnng con un entorno de datawarehousng. S se necesta utlzar gran número de operacones de data mnng. S se quere utlzar una herramenta smlar en el escrtoro y en el entorno MP. Darwn de Thnkng Machnes, Bedford MA, USA Técncas de Análss de Datos Págna 3 de 266

39 Capítulo Introduccón Puntos Clave: Herramentas de desarrollo de data mnng de tpo clente-servdor para la construccón de modelos de clasfcacón y predccón. La construccón de modelos utlza algortmos de redes de neuronas, árboles de nduccón y k-vecno más próxmo. Trabaja sobre plataformas Sun de Solars, AIX de IBM y SP2, con clentes Motf. Tambén exsten versones clente que trabajan sobre Wndows. Ventajas: Ofrecen buena cobertura al proceso completo de descubrmento del conocmento. Pone el énfass en el desarrollo de modelos predctvos de alto rendmento. Proporcona escalabldad para soportar paralelzacón. Aspectos a consderar: Mejor para analstas de datos y desarrolladores de aplcacones que para los usuaros de negoco. Es precso famlarzarse con las dferentes opcones de Darwn para cada tpo de modelo s se quere obtener el mejor resultado de la herramenta. No soporta análss no supervsado de clusterng o de asocacones. Cuando usarla: En la construccón de aplcacones de data mnng para gestón de relacones entre clentes. S se necesta una herramenta que ponga mucho énfass en modelado por clasfcacón y predctvos. S se dspone de una gran compleja base de datos que precse la potenca de una plataforma con multprocesadores. S se necesta observar la creacón de los modelos de data mnng, Darwn proporcona múltples algortmos y varas opcones de refnamento. S se quere usar las herramentas de data mnng para auxlar la gestón de redes Thnkng Machna tene objetvos muy explíctos en este sector y ya colabora con Cabletron. Técncas de Análss de Datos Págna 32 de 266

40 Capítulo Introduccón.4. Arqutectura Software para Data Mnng Anterormente se han dscutdo dferentes tecnologías para data mnng. Se necesta el apoyo arqutectónco para ntegrar estas tecnologías. La Fgura.4 muestra una prámde que presenta la estructura de cómo las dferentes tecnologías encajan entre s. Como se muestra en esta fgura, en el nvel más bajo se encuentra las comuncacones y sstemas. A contnuacón aparece el soporte del mddleware. Esto va segudo por la gestón de la bases de datos y el data warehouse. Después aparecen las dferentes tecnologías de data mnng. Fnalmente, se tenen los sstemas de apoyo a la toma de decsones que usan los resultados de data mnng y ayudan a que los usuaros tomen las decsones efcazmente. Estos usuaros pueden ser admnstradores, analstas, programadores, y cualquer otro usuaro del sstema de nformacón. Cuando se construyen sstemas, las dferentes tecnologías nvolucradas pueden no encajar exactamente en la prámde tal como se ha mostrado. Por ejemplo, se podría saltar la fase de data warehouse y se podría r drectamente a la herramenta de data mnng. Uno de los problemas mportantes, en este punto, son las nterfaces entre los dferentes sstemas. En la actualdad no se tene ben defnda cualquera de las nterfaces normales excepto en el caso de algunos de los lenguajes estándar de defncón de nterfaz que surgen de los dferentes grupos como el Object Management Group. Sn embargo, cuando estas tecnologías vayan madurando, se rán desarrollando los estándares para las nterfaces. Fgura.4: Prámde para Data mnng Ya se ha estudado cómo las dferentes tecnologías trabajan juntas. Por ejemplo, una posbldad es la mostrada en la Fgura.5 donde se ntegran múltples bases de datos a través de algún mddleware y como consecuenca forman un data warehouse que se explora a contnuacón. Los componentes de data mnng tambén se ntegran en este escenaro para aplcar data mnng a Técncas de Análss de Datos Págna 33 de 266

41 Capítulo Introduccón las bases de datos drectamente. Algunos de estos problemas se dscutrán en la seccón de la arqutectura del sstema. Fgura.5: Arqutectura de data mnng La fgura.6 lustra una vsta trdmensonal de las tecnologías de data mnng. En el centro se encuentra la tecnología para la ntegracón. Ésta es la tecnología del mddleware tal como la gestón dstrbuda orentada al objeto y tambén la tecnología web para la ntegracón y acceso a través de web. Fgura.6: Vsón en tres dmensones Técncas de Análss de Datos Págna 34 de 266

42 Capítulo Introduccón En una prmera dmensón tenemos todas las tecnologías báscas de datos como multmeda, bases de datos relaconales y orentadas a objetos, y bases de datos dstrbudas, heterogéneas y de herenca. En la segunda dmensón tenemos las tecnologías para realzar data mnng. Aquí se ha ncludo el warehousng así como el aprendzaje automátco, tal como la programacón de la lógca nductva, y el razonamento estadístco. La tercera dmensón comprende tecnologías como el procesamento paralelo, la vsualzacón, gestón de metadatos (dcconaro de datos), y el acceso seguro que son mportantes para llevar a cabo data mnng Arqutectura Funconal A contnuacón se descrben los componentes funconales de data mnng. Anterormente se dscuteron los componentes funconales de un sstema de gestón de bases de datos. En adcón, se mostro una arqutectura en la que la herramenta de data mnng era uno de los módulos del SGBD. Un SGBD con estas característcas será un SGBD Mnng. Un SGBD Mnng se puede organzar de varas maneras. Un enfoque alternatvo se lustra en Fgura 4. En este enfoque se consdera data mnng como una extensón del procesador de consultas. Es decr, podrían extenderse los módulos del procesador de consultas como el optmzador de consultas para ocuparse de data mnng. Esto es una vsta de alto nvel como se lustra en la Fgura.7. Observe que en este dagrama se ha omtdo al gestor de las transaccones, ya que data mnng se usa prncpalmente en el procesamento analítco en línea (OLTP). Fgura.7: Data mnng como parte del procesador de consultas La pregunta es: Cuáles son los componentes de la herramenta de data mnng? Como se lustra en la Fgura.8, una herramenta de data mnng podría tener los sguentes componentes: un componente de aprendzaje de experenca que usa varos conjuntos de entrenamento y aprende varas estrategas, un componente analzador de datos que analza los datos en base a lo que tene que aprender, y un componente productor de resultados que realza la clasfcacón, el clusterng, y otras tareas como las asocacones. Hay Técncas de Análss de Datos Págna 35 de 266

43 Capítulo Introduccón nteraccón entre los tres componentes. Por ejemplo, el componente que produce los resultados entrega los resultados obtendos al componente de entrenamento para ver s este componente tene que ser adaptado. El componente de entrenamento da la nformacón al componente analzador de datos. El componente de analzador de datos da la nformacón al componente productor de los resultados. Fgura.8: Las Funcones de data mnng Observe que no se han ncludo componentes tales como el preprocesador de datos y el podador (refnador) de los resultados en los módulos de data mnng. Estos componentes tambén son necesaros para completar el proceso entero. El preprocesador de datos formatea los datos. De alguna forma el data warehouse puede hacer esta funcón. El componente de poda o recorte de resultados puede extraer sólo la nformacón útl. Esto podría llevarse a cabo por un sstema de apoyo a la toma de decsones. Todos estos pasos se ntegrarán en el proceso de data mnng Arqutectura del Sstema Algunas de las arqutecturas que se han dscutdo anterormente así como la observada en la Fgura.5 pueden consderarse como una arqutectura del sstema para data mnng. Una arqutectura del sstema consste en componentes como los mddleware y otros componentes del sstema como el sstema de bases de datos y el sstema de data warehouse para data mnng. Los mddleware que se lustran en Fgura.5 podrían basarse en dferentes tecnologías. Un sstema mddleware muy popular es el que se basa en una arqutectura clente-servdor. En efecto, muchos de los sstemas de bases de datos se basan en la arqutectura clente-servdor. Mddleware tambén ncluye de facto estándares como el Open DataBase Connectvty Connectvty (ODBC) de Mcrosoft o sstemas dstrbudos basados en objetos. En [THUR97] se proporcona una dscusón detallada de tecnologías clenteservdor. En partcular se dscute el paradgma de clente-servdor así como una aprecacón global de ODBC y los sstemas de gestón dstrbuda de objetos como el Object Manegement Group s (OMG) Common Object Request Broquer Técncas de Análss de Datos Págna 36 de 266

44 Capítulo Introduccón Archtecture (CORBA). Aquí se dscute data mnng con respecto al paradgma del clente-servdor. La mayoría de los vendedores de sstemas de bases de datos han mgrado a una arqutectura llamada arqutectura de clente-servdor. Con este enfoque, múltples clentes acceden a los dferentes servdores de las bases de datos a través de alguna red. Una vsón de alto nvel de la comuncacón clenteservdor de se lustra en la Fgura.9. El objetvo últmo es comuncar múltples clentes vendedores con múltples servdores vendedores de una manera transparente. Fgura.9: La Arqutectura clente-servdor de Basada en la Interoperabldad En orden a facltar la comuncacón entre múltples clentes y servdores, se han propuesto varos estándares. Un ejemplo es la Organzacón Internaconal de Estándares (ISO), el estándar Remote Database Access (RDA). Esta norma provee una nterfaz genérca para la comuncacón entre un clente y un servdor. Mcrosoft ODBC tambén ha aumentado su populardad para la comuncacón de los clentes con los servdores. El CORBA de OMG mantene las especfcacones para las comuncacones clente-servdor basadas en la tecnología orentada a objetos. Aquí, una posbldad es encapsular las bases de datos servdoras como objetos y dstrbur las petcones apropadas de los clentes y acceder los servdores a través de un Object Request Broker (ORB). Otros estándares ncluyen el DRDA de IBM (Dstrbuted Relatonal Database Access - el Acceso de la base de datos relaconal Dstrbuda) y el SQL Access Group (ahora parte del Open Group); Call Level Interface la Interfaz de Nvel de Llamada (CLI). Se han publcado varos lbros sobre computacón clenteservdor y admnstracón de datos. Dos buenas referencas son [ORFA94] y [ORFA96]. Tambén se estudan en detalle algunos de estos problemas en [THUR97]. Un sstema de mddleware que está aumentando su populardad para conectar sstemas heterogéneos es el CORBA de OMG. Como se declara en [OMG95], hay tres componentes prncpales en CORBA. Uno es el modelo orentado a objetos, el segundo es Object Request Broker el Corredor de Demanda de Objeto (ORB) a través del cual los clentes y servdores se comuncan entre sí, y el tercero es Interface Defnton Language el Lenguaje de Defncón de Interfaces (IDL) qué específca las nterfaces para la comuncacón clenteservdor. La Fgura.0 lustra la comuncacón clente-servdor a través de Técncas de Análss de Datos Págna 37 de 266

45 Capítulo Introduccón ORB. Aquí, los clentes y servdores están encapsulados como objetos. Los dos objetos comuncan entonces entre sí. La comuncacón se hace medante ORB. Además, las nterfaces deben ajustarse a IDL. Fgura.0: La nteroperabldad a través del ORB.4.4. El Data Mnng en la Arqutectura del Sstema Consdere la arqutectura de la Fgura 8. En este ejemplo, la herramenta de data mnng podría usarse como un servdor, los sstemas de admnstracón de bases de datos podrían ser otro servdor, mentras el data warehouse sería un tercer servdor. El clente emte las petcones al sstema de base de datos, al warehouse, y al componente de data mnng como se lustra en la fgura.. Fgura.: Data mnng basado en Clente-Servdor Tambén se podría usar un ORB para data mnng. En este caso la herramenta de data mnng se encapsula como un objeto. El sstema de bases de datos y warehouse tambén son objetos. Esto se lustra en la Fgura.2. El desafío aquí es defnr IDLs para varos objetos. Obsérvese que la tecnología clente-servdor no desarrolla algortmos para la admnstracón de datos, para warehousng, o para la realzacón de data Técncas de Análss de Datos Págna 38 de 266

46 Capítulo Introduccón mnng. Esto sgnfca que todavía se necestan los algortmos para realzar data mnng, warehousng, y admnstracón de la base de datos. La tecnología clente-servdor y, en partcular, la tecnología de admnstracón dstrbuda de objetos como CORBA, es la que faclta la ínteroperacón entre los dferentes componentes. Por ejemplo, el sstema data mnng, el sstema de base de datos, y warehose comuncan entre sí y con los clentes a través del ORB. Fgura.2: Data mnng medante ORB La arqutectura a tres nveles se ha hecho muy popular (vea la dscusón en [THUR97). En esta arqutectura, el clente es un clente lgero y realza un procesamento mínmo, el servdor hace las funcones de admnstracón de la base de datos, y el nvel ntermedo lleva a cabo varas funcones de proceso de negoco. En el caso de data mnng, se podría utlzar tambén una arqutectura de tres nveles donde la herramenta de data mnng se pone en el nvel ntermedo. La herramenta de data mnng podría desarrollarse como una coleccón de componentes. Estos componentes podrían estar basados en la tecnología orentada al objeto. Desarrollando los módulos de data mnng como una coleccón de componentes, se podrían desarrollar herramentas genércas y entonces se podría personalzarlas para las aplcacones especalzadas. Otra ventaja de desarrollar un sstema de data mnng como una coleccón de componentes es que se podrían comprar los componentes a vendedores dferentes y después ensamblarlos para formar un sstema. Además, los componentes podrían ser reutlzados. Por ahora asumremos que los módulos son el ntegrador de los datos fuente, la herramenta de data mnng, el podador (dscrmnador) de los resultados, y el generador de nformes. Entonces cada uno de estos módulos puede encapsularse como un objeto y se podría usar ORB s para ntegrar estos objetos dferentes. Como resultado, se puede usar un enfoque plug-and-play en el desarrollo de herramentas de data mnng. Tambén se podría descomponer la herramenta de data mnng en múltples módulos y encapsular estos módulos como objetos. Por ejemplo, consdere los módulos de la herramenta de data mnng lustrados en la Fgura 5. Estos Técncas de Análss de Datos Págna 39 de 266

47 Capítulo Introduccón módulos son parte del módulo de la herramenta de data mnng y pueden ser encapsulados como objetos e ntegrados a través de un ORB. Técncas de Análss de Datos Págna 40 de 266

48 Capítulo 2 Análss Estadístco Medante Excel Capítulo 2. Análss Estadístco medante Excel Introduccón. Métodos cláscos de análss de datos Descrpcón de datos. Estadístcos de una varable Generalzacón. Dstrbucones de probabldad e ntervalos de confanza Contrastes de hpótess. Tpos Relacones entre atrbutos Nomnales- Numércos: Tests de comparacón de medas (muestras dependentes e ndependentes) y análss de varanza. Nomnales-Nomnales: Tablas de Contngenca. Tests de ndependenca y comparacón de proporcones. Numércos - Numércos: Análss de Regresón Aplcacón de técncas estadístcas a la clasfcacón. Técncas cláscas de clasfcacón y predccón Clasfcacón medante regresón numérca Clasfcador bayesano Evaluacón de Hpótess Objetvo: se pretende valdar o rechazar deas preconcebdas a partr del análss de los datos dsponbles, generalzando las conclusones Pasos:. Generacón de hpótess 2. Determnar qué datos son necesaros. Recolectar y preparar 3. Evaluacón de hpótess para aceptar o rechazar Técncas de Análss de Datos Págna 4 de 266

49 Capítulo 2 Análss Estadístco Medante Excel Matrz de datos Varables (Atrbutos) v v 2 v M 2 Undades (Ejemplos) Tempo n t Tpos de varables nomnales o categórcas (ncluyendo ordnales) numércas Técncas de Análss de Datos Págna 42 de 266

50 Capítulo 2 Análss Estadístco Medante Excel 2.. Análss de una varable. Estadístca Descrptva e Inferenca Estadístcos: resumen (descrben) toda la nformacón contenda en una muestra de datos : Varables contnuas meddas centrales (meda, moda, medana) meddas de dspersón (rango, varanza, desvacón estándar, percentles) meddas de forma (hstograma) Varables nomnales frecuencas relatvas (probabldades), moda meda y varanza de probabldad estmada Muestra: y ; = n; toma valores en un rango contnuo/dscreto Estadístcos de varable contnua Meda (esperanza) muestral: promedo de todos los valores meda( y) y n n y Moda: valor que aparece más veces Medana: valor que deja el msmo número de casos a ambos lados medana( y) y Nº casos y y Nº casosy y j k equvale a ordenar el vector de datos y tomar el valor central menos sensble frente a valores extremos poco probables Técncas de Análss de Datos Págna 43 de 266

51 valor Capítulo 2 Análss Estadístco Medante Excel Recorrdo (rango): max(y )-mn(y ) Varanza: promedo de desvacones con respecto a valor medo Var( y) n n ( y y) 2 n n y 2 ny 2 Desvacón estándar (típca): raíz cuadrada de la varanza desv( y) Var( y) y meda, sgma muestra Datos valor medo valor medo+sgma valor medo - sgma Hstograma Estmacón de la dstrbucón de densdad de probabldad: frecuenca relatva de valores de y por undad de ntervalo la suma total de frecuencas absolutas es el número de datos la suma de frecuencas relatvas es Técncas de Análss de Datos Págna 44 de 266

52 frecuenca absoluta Capítulo 2 Análss Estadístco Medante Excel hstograma normal Nº de casos en ntervalo ,4 -,8 -,2-0,6 0 0,6,2,8 2,4 3 y ntervalos Hstograma acumulado Suma de frecuencas relatvas de casos nferores al valor en abscsas (acumulacón de hstograma normalzado): Estmacón de Prob(Y<=y ) en el extremo superor debe ser acumulado Valores acumulados 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, ,4 -,8 -,2-0,6 0 0,6,2,8 2,4 3 ntervalos Ejemplo: hstograma de varable unforme Técncas de Análss de Datos Págna 45 de 266

53 Capítulo 2 Análss Estadístco Medante Excel hstograma , 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 hstograma acumulado,2 0,8 0,6 0,4 0, ,5 acumulado Cuantles del hstograma Cuantl: valores que dvden el recorrdo de datos en k partes de la msma frecuenca (percentles: 00 partes, cuartles: 4 partes, etc.) Ejemplo: cuartles Técncas de Análss de Datos Págna 46 de 266

54 alumnos Capítulo 2 Análss Estadístco Medante Excel frecuenca Calfcacón 2,8 0,6 5 3, 3,9 4,9 0 6,55... porcentaje cuartles 0,25,4 0,5 2,725 0,75 4 7, calfcacón Recorrdo nter-cuartílco: [.4, 4]: contene 50% datos Cuartl Cuartl 3 Cuartl 4 Cuartl 2 Percentles e hstograma acumulado Percentl p: valor que deja debajo al p% de los ndvduos, y al (00-p)% por encma: se entra en eje vertcal del hstograma acumulado - percentl 50: medana (por defncón) - percentles 25, 75: cuartles. Abarcan al 50% de los ndvduos (recorrdo nter-cuartílco) - con dstrbucón normal tpfcada - percentles 25, 75: [-0.674, 0.674] - percentles 2.5, 97.5: [-.96,.96] acumulado 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, ,4 -,8 -,2-0,6 0 0,6,2,8 2,4 3 Técncas de Análss de Datos Págna 47 de 266

55 porcentaje porcentaje Capítulo 2 Análss Estadístco Medante Excel Estadístcos de varable nomnal y nomnal: toma valores de un conjunto dscreto (categorías): {v,, v k } Dstrbucón de frecuencas de cada valor p p p 2 k n 00(n 00(n 00(n k j n j / n)% / n)% k / n)% Moda: valor que aparece más veces max (n j ) j Ejemplo varable nomnal y numérca Edad Sexo 23 M 25 M 8 H 37 M 45 H 62 H 43 M 40 H 60 M 54 H 28 H 8 H 54 M 29 H 42 M 26 M 32 M 4 M 37 M 36 H 53 H 2 M 24 H 2 H 45 M 64 H 22 M 6 M 37 M 66 M H M sexo edad frecuenca acumulada Meda y varanza de frecuencas estmadas Técncas de Análss de Datos Págna 48 de 266

56 Capítulo 2 Análss Estadístco Medante Excel Cálculo de cada frecuenca para una categoría dada: m casos de n p=m/n puede verse como asgnar: v= cada ejemplo en la categoría v=0 en el resto p n n v Varanza de p: Var( p) n p n ( v p( p) p) 2 p( p) caso máxma varanza: p=0.5 Generalzacón de la muestra a la poblacón Los estadístcos resumen (descrben) toda la nformacón contenda en una muestra (estadístca descrptva) Para generalzar las conclusones, es deseable formular razonamentos sobre la poblacón que genera la muestra Paso de los estadístcos (y) a los estmadores (Y) Uso de dstrbucones teórcas de probabldad para caracterzar los estmadores Cuantfcacón de la probabldad de los resultados (nunca se garantza con certeza absoluta) Puede hacerse análss contraro: deduccón de propedades de la muestra a partr de la poblacón (nterés teórco) Dstrbucones de probabldad Modelo que representa la tendenca de un hstograma con muchos datos y cajas pequeñas Técncas de Análss de Datos Págna 49 de 266

57 0 z Capítulo 2 Análss Estadístco Medante Excel Funcón dstrbucón de probabldad de X: FX(x) F X ( x) P( X x); x Funcón densdad de probabldad de X: fx(x) f F X X dfx ( x) ( x) ; x dx ( x) x f X ( x) dx; P( a X b) b a f X ( x) dx Dstrbucón Normal Curva de gran nterés por explcar datos en muchas stuacones Aplcada por prmera vez como dstrbucón por A. Quetelet (830) f ( z) exp z dstrbucón smétrca: concde meda y medana en 0 se dspone del valor de la dstrbucón de probabldad: área bajo la curva de f Z (z) para cualquer valor: Tpfcar o estandarzar varables: Se mde el desplazamento respecto a la meda en undades de desvacón típca: z y y z F Z (z) -3 0, ,5 0, , ,5 0, , ,5 0, ,5 0,5 0, f(z) 0, ,5 0, , ,5 0, , F(z 0 ) z 0 Técncas de Análss de Datos Págna 50 de 266

58 z Capítulo 2 Análss Estadístco Medante Excel Dstrbucón Normal e Intervalos de Confanza f(z) F(z 0 ) f(z) F(z 0 ) Una cola (unlateral) Smétrco dos colas (blateral) Ej.: se conocen parámetros de poblacón con dstrbucón normal: meda: m= 5; desvacón típca:s= 20 casos nferores a 70? z=(70-5)/20, F(z)=0,02 casos superores a 50? z=(50-5)/20, -F(z)=0,04 en ntervalo 90-30? F((30-5)/20)-F((90-5)/20)=0,667 qué ntervalos smétrco tenen el 80%, 95% de los casos (ntervalos de confanza)? z=f-(a/2); y=mzs 80%: z0.=,28; 5 z0.*20=[89.3, 40.6] 95%: z0.025=,96; 5 z0.025*20=[75.8, 54.2] Inferenca Objetvo: dado un estadístcos de una muestra sacada al azar, razonar acerca del verdadero parámetro de la poblacón Se basa en la estmacón de parámetros y contraste de hpótess con cálculo de probabldades muestra aleatora y representatva (estratfcacón) elementos ndependentes Paso de la poblacón a una muestra aleatora Dada una poblacón con meda y varanza: Se toma una muestra aleatora (n casos) de la poblacón: y, =,,n Cómo se dstrbuyen los estadístcos de la muestra? A su vez son VAs Técncas de Análss de Datos Págna 5 de 266

59 Capítulo 2 Análss Estadístco Medante Excel Dstrbucón de la meda muestral y n n E( y) n y n Var( y) 2 n E( y ) Y n Var( y ) Var( Y ); n y Y n Qué dstrbucón sgue? Teorema del Límte Central: Una muestra sufcentemente grande de una poblacón con dstrbucón arbtrara tendrá estadístco meda con dstrbucón normal Consecuenca: ntervalo de confanza de la meda a partr de dst. Normal y Y z Y n Mayor Normaldad : tamaño de las muestras, dstrbucón pob. parecda a normal Ejemplo límte central Poblacón: 000 ndvduos, 400 mujeres, 600 hombres P 0.4; P( P) 0.49 Muestras de 0 ndvduos 0 p y; E( p) P 0.4; p 0 P( P) 0.55 Intervalo de confanza al 95% (con dstrbucón normal): Influye: ntervalo de confanza (z): garantía de no equvocarnos Técncas de Análss de Datos Págna 52 de 266

60 Capítulo 2 Análss Estadístco Medante Excel tamaño de muestra (n) varabldad de poblacón (p) p 0 E(p) P 0.4; p 0 y 0 ; P( P) 0.55 P.96 [0.,0.7] p , 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 S las muestras fueran de 50 ndvduos: p y ; p P( P) P.96 [0.26,0.54] p Ejemplo de aplcacón para decsón Ej : Para determnar el ntervalo de confanza del estmador al 95% se aplca el argumento del muestreo dado la vuelta : Y y z P / 2 y p.96 p Técncas de Análss de Datos Págna 53 de 266

61 Capítulo 2 Análss Estadístco Medante Excel Ejemplo: Un supermercado se plantea extender su horaro a sábado por la tarde. Necesta un mínmo del 0% de sus clentes para cubrr costes. Con una muestra de 500 personas se obtene que hay un 8% de clentes nteresados Qué hacer? P p.96p * ( 0.08) /500 [6.63%, 9.37%] Con una confanza del 95% podemos decr que los clentes dspuestos a comprar el sábado por la tarde no contene al deseado 0%. Contrastes de hpótess Contrastar es medr la probabldad de que el estadístco obtendo en una muestra sea fruto del azar Formulacón del modelo e hpótess: se conoce la dstrbucón del estadístco bajo condcones hpótess Hpótess nula (H0): es lo que dudamos y queremos contrastar: Ej: El porcentaje total es 0%?, la meda de los ngresos es superor a 5? Bajo H0, el estadístco sgue el modelo, y la dferenca observada es úncamente fruto del azar Hpótess alternatvas: alternatvas que permten rechazar la hpótess nula: prob. dstnta de 0%, meda menor a 5, etc. Rechazar hpótess H0: hay evdenca para negar H0 No rechazable: no hay evdenca estadístca para hacerlo (no mplca demostrar su veracdad) Contrastes con normal y varanza conocda Contraste de dos colas (blateral): deja la mtad a cada lado, a/2 Ej: Hpótess nula H0: P=0% p 0.*( 0.) /500; p [ ] Técncas de Análss de Datos Págna 54 de 266

62 Capítulo 2 Análss Estadístco Medante Excel Hpótess alternatva: P 0% p z =.96 z 0.05 =.65 Regón crítca: -,96<z<.96 Contraste de una cola (unlateral): deja a un solo lado a Ej: Hpótess nula H0: p P p Hpótess alternatva: P<0% p Regón crítca: z>.65 Contraste con varanza estmada La varable (y-y)/s no es exactamente la normal tpfcada (s es estmada): Dstrbucón t-student: parámetro grados de lbertad:n- Técncas de Análss de Datos Págna 55 de 266

63 Capítulo 2 Análss Estadístco Medante Excel se ensanchan los ntervalos de confanza (sólo s pocos datos) Student (N=9) Student (N=50) Student (N=00) Normal Prob[X>z] z z 0,0% 4,30 3,26 3,7 3,09 0,50% 3,25 2,68 2,63 2,58 % 2,82 2,40 2,36 2,33 2,50% 2,26 2,0,98,96 5%,83,68,66,64 0%,38,30,29,28 20% 0,88 0,85 0,85 0, conocda estadístco y N(0,) / n Int. confanza conocda estadístco y / n t n Int. confanza (0,) y z / / 2 n y t n / / 2, n Ejemplo de Intervalos con t-student Los valores del ph de una pscna en 0 determnacones son: 6,8; 6,78; 6,77; 6,8; 6,78; 6,8; 6,82, 6,8; 6,8 y 6,79. Utlzando normal y t-student, hallar: Intervalo de confanza 95% para meda poblaconal Intervalo de confanza 65% para meda poblaconal Contrastar hpótess nula de que la meda poblaconal es 6,8 con nveles de sgnfcacón a =0,05 y a=0,35 normal: meda 95%: [6,765, 6,825], meda 65%: [6,78, 6,809] t-student: meda 95%: [6,76, 6,829], meda 65%: [6,780, 6,80] Técncas de Análss de Datos Págna 56 de 266

64 Varable Capítulo 2 Análss Estadístco Medante Excel 2.2. Técncas de Evaluacón de hpótess Análss de relacones entre atrbutos El objetvo del análss entre los atrbutos que defnen los datos es ver el tpo de nterrelacón o dependenca que exste entre los valores de dchos atrbutos. Este análss se lleva a cabo hacendo uso de los datos dsponbles para tener evdenca estadístca que permta valdar o refutar hpótess que pretendan explcar las relacones. La herramenta o técnca que permte llevar a cabo este tpo de análss es el denomnado tests de hpótess, que se defne de manera dstnta en funcón del tpo de atrbutos con los que estemos trabajando. De esta manera en funcón del tpo de atrbuto tenemos: Nomnales-nomnales: En este caso los dos atrbutos toman valores de un conjunto de posbles valores (por ejemplo: Norte, Sur, Este y Oeste). La relacón entre las varables se obtene medante las tablas de contngenca. Nomnales-numércos: En este caso uno de los atrbutos toma valores de un conjunto de posbles valores y otro toma valores numércos. La relacón entre los atrbutos se obtene medante la comparacón de medas y el análss de varanza. Numércos-numércos: En caso los dos atrbutos toman valores numércos. La relacón entre los dos atrbutos se obtene medante el análss de regresón y covaranza. Más adelante se contemplarán más casos de contrastes de hpótess Relacón entre varables nomnales-nomnales El objetvo es analzar la nterrelacón (dependenca) entre los valores de varables nomnales. En este caso la herramenta de análss para dos varables es la denomnada tabla de contngenca. En esta tabla se calcula la dstrbucón de los casos (las frecuencas de aparcón) para las dstntas combnacones de valores de las dos varables, como se oberva en la fgura sguente. Varable 2 totales valor valor 2... valor p2 valor n n 2... n p2 t valor 2 n 2 n n 2p2 t valor p n p n p2... n pp2 tp totales 2 t' t'2... t'p2 t Fgura : Tabla de contngenca. Técncas de Análss de Datos Págna 57 de 266

65 Capítulo 2 Análss Estadístco Medante Excel A partr de la tabla de contngenca podemos calcular las probabldades margnales de los valores de la varable como P=t/t, que representa la probabldad de que la varable tome el valor. Del msmo modo podemos calcular las probabldades para la varable 2 como Pj=t j/t. A partr de las probabldades margnales podemos calcular los casos esperados, bajo la hpótess a cuestonar de ndependenca entre varables. Para calcular el valor esperado se multplca el número total de casos por la probabldad de que la varable tome el valor y la varable 2 tome el valor j, es decr Ej=t(t/t)(t j/t)= tt j/t. Obsérvese que úncamente bajo la hpótess de ndependenca podemos calcular la probabldad conjunta como un producto de probabldades. La técnca de análss estadístco que se aplca para la relacón entre dos varables nomnales es el contraste Ch-2. Las característcas de este test son: Es aplcable en análss b-varable (normalmente clase vs atrbuto) Determna s es rechazable la hpótess de que dos varables son ndependentes Bajo hpótess H0 se determnan los casos en el supuesto de varables ndependentes. Los valores esperados se determnan con probabldades margnales de las categorías: Ej=tP Pj (valores esperados) El estadístco Ch-cuadrado mde la dferenca entre los valores esperados y los valores observados, por lo que su expresón es: p 2 2 ( E O ) / E () p2 j La expresón anteror, 2, bajo las condcones de H0 sgue una dstrbucón conocda denomnada dstrbucón Ch-cuadrado, caracterzada por el parámetro grados de lbertad que es el (nº de flas-)(nº de columnas ). Cuando no se cumple la hpótess H0 las varables son dependentes. Por lo tanto se formula un test de hpótess para determnar el valor de Ch-cuadrado para esa hpótess. La dstrbucón Ch-Cuadradado está tabulada: probabldad ch2 supera estadístco valor estad grados de lbertad ,025 0,04 0,008 0,005 0,003 0,002 0,00 2 0,082 0,050 0,030 0,08 0,0 0,007 0, ,72 0,2 0,072 0,046 0,029 0,09 0,02 4 0,287 0,99 0,36 0,092 0,06 0,040 0, ,46 0,306 0,22 0,56 0,09 0,075 0,05 6 0,544 0,423 0,32 0,238 0,74 0,25 0,088 j 7 0,660 0,540 0,429 0,333 0,253 0,89 0,39 j j Técncas de Análss de Datos Págna 58 de 266

66 Capítulo 2 Análss Estadístco Medante Excel Y el test lo que calcula es la probabldad de que la dferenca entre el valor observado y el valor esperado supere un certo umbral. 2 Fgura 2: Representacón Gráfca del test Ch-Cuadrado Relacones numércas-nomnales Las técncas para establecer posbles relacones entre dos varables una de ellas numérca y la otra nomnal (o entre dos nomnales s trabajamos con proporcones) se utlza la técnca de la comparacón de medas y proporcones. Esta técnca mde la relacón entre varables numércas y nomnales, o nomnales y nomnales (proporcones), determnando s es rechazable la hpótess de que las dferencas de medas o proporcones condconadas a las etquetas de la varable nomnal son debdas al azar. Es decr que se calcula el mpacto de la varable nomnal sobre la contnua. Exsten dos tpos de análss según s tenemos dos medas o proporcones o un número mayor de dos. S tenemos dos medas o proporcones se calcula la sgnfcatvdad de la dferenca. S tenemos más de dos valores dstntos se realza un análss de varanza Comparacón de dos medas En este caso tenemos dos subpoblacones, una para cada grupo, cada una con su meda y varanza. Las hpótess que podemos establecer son: H0: la dferenca de medas en la poblacón es nula D=0 Hpótess alternatva A: las medas son dstntas: D!=0 Hpótess alternatva B: la meda de es mayor que 2: D>0 Hpótess alternatva C: la meda de es mayor que 2: D<0 Como vemos, no hay una únca posbldad de hpótess alternatva sno varas, con dferentes ntervalos de rechazo en funcón de la nformacón que tengamos a pror. Además, para la comparacón de las varables numércas de dos clases, las stuacones posbles que podemos encontrarnos dentro de la muestra total son: Muestras ndependentes: conjuntos dstntos Técncas de Análss de Datos Págna 59 de 266

67 Capítulo 2 Análss Estadístco Medante Excel Muestras dependentes: es decr las muestras pertenecen al msmo conjunto, con dos varables a comparar en cada ejemplo Cuando el número de muestras es muy elevado para cada grupo, las muestras sguen una dstrbucón normal por lo que las hpótess anterormente expuestas se evalúan medante los valores de una gaussana estándar. De esta manera se calcularía la meda de la dferenca y su varanza y se aplcaría al cálculo de probabldades de una gaussana estándar. En el caso de la hpótess A se utlzarían las dos colas de la gaussana y en el caso de la hpótess B utlzaríamos una únca cola, como se observa en la sguente fgura. /2=0.025 /2= z z = z Fgura 3: Representacón Gráfca de compracón de dos medas medanteuna gaussana. Cuando las muestras son pequeñas no es válda la hpótess de normaldad de los estadístcos de medas y el test se realza consderando una dstrbucón t-student: y t / 2,GL (2) El proceso para el cálculo cuando las muestras son ndependentes (test no pareado) es: En cada muestra (tamaños n, n2) obtenemos las medas y varanzas: Se calcula la dferenca: y, y2, y, y2 (3) d (4) y y 2 Varanza de la dferenca: Técncas de Análss de Datos Págna 60 de 266

68 Capítulo 2 Análss Estadístco Medante Excel 2 d 2 y 2 y2 (5) n n Los grados de lbertad de la t-student se evalúan según la varanza: Dstnta varanza (heteroscedastcdad): gl=mn(n, n2) Msma varanza (homoscedastcdad): gl=n+n2-2 El proceso de cálculo cuando las muestras dependentes (test pareado), se fundamenta en que se dspone de la dferenca en cada uno de los ejemplos y no en que tenemos dos varables (ejemplo: cambo en el tempo de una varable para todos los ejemplos d, d2,..., dn): d=d-d2. En este caso todo es equvalente al caso anteror pero lo cálculos son: 2 d n n d ; 2 n n 2 ( d d) ; d n (6) Análss de la varanza Esta técnca tambén mde la relacón entre varables numércas y nomnales, pero en este caso se descompone la varabldad del resultado en varos componentes: Efectos de factores representados por otras varables Efectos de error expermental La técnca del análss de la varanza smple (ANOVA) consdera un solo factor con varos nveles nomnales. Para cada nvel se tene una sere de observacones y el modelo: Yj=u+uj, representa rudo con la msma varanza por nvel, donde varía entre y el número de nveles (varable nomnal) y j varía entre y el número de datos por nvel. Además de esta técnca exste la técnca MANOVA que es un modelo multfactoral de la varanza. En este modelo se defnen I nveles, cada uno de ellos representado por un conjunto de muestras, como se puede observar en la sguente fgura, y donde cada nvel está represntado por una meda y una varanza. Técncas de Análss de Datos Págna 6 de 266

69 Capítulo 2 Análss Estadístco Medante Excel Factor A Factor B 2... r X X 2... X r X 2 X X r X n X 2n2... X rnr X 2 X X 2r X 22 X X 2r X 2n2 X 22n22... X 2rn2r X t X t2... X tr X t2 X t22... X tr2 t X tnt X t2nt2... X trntr Fgura 4: Nveles de la técnca MANOVA. Varacón E Varacón NE y Y Y2 Y3 Fgura 5: Represntacón Gráfca de los Nveles de la técnca MANOVA. El análss MANOVA evalúa las sguentes varables: Número total de elementos: n I n (7) Meda por nvel: Y n I Y j (8) Técncas de Análss de Datos Págna 62 de 266

70 Capítulo 2 Análss Estadístco Medante Excel Meda total: Y n I n j Y j (9) Relacón entre cuadrados : I n j ( Y j Y ) 2 I n j ( Y j Y ) 2 I n ( Y Y ) (0) Y realza una estmacón de varanzas de la sguente manera Varanza nter-grupo (between) (I- grados de lbertad): S b I I n ( Y Y ) 2 () Varanza ntra-grupo (wthn) (n-i grados de lbertad): Varanza total (n- grados de lbertad): S S I n 2 w ( Yj Y ) (2) n I j I n 2 ( Yj Y ) (3) n j La hpótess que planteamos o la pregunta que queremos responder es: Es sgnfcatvamente mayor que la undad la relacón entre la varanza ntergrupo e ntragrupo, f=sb/sw?. Por lo tanto debemos realzar un contraste de hpótess de cocente de varanzas maestrales, que sgue una dstrbucón F de Fsher-Snedecor: F(x, I-,n-I), como se ve en la fgura sguente. F Fgura 6: Rango: [0,20] y = Representacón de la F-Fsher-Snedecor. A0 =0.6 A =0.02 Este test permte rechazar o no la hpótess de que el cocente entre varanzas estmadas se deba al azar. Por lo tanto Técncas de Análss de Datos Págna 63 de 266

71 Capítulo 2 Análss Estadístco Medante Excel Técncas de Análss de Datos Págna 64 de Relacones numércas-numércas: Regresón lneal La regresón lneal permte dentfcar relacones entre varables numércas y construr modelos de regresón: varable salda y múltples entradas numércas. Se consderan relacones de una varable de salda (dependente) con múltples varables de entrada (ndependentes). Este problema se puede representar de la sguente manera: Dada la muestra de datos: )}, ),...,(, ( ),, {( 2 2 n X n y y X y X donde vectores con I dmensones : X, se busca estmar una funcón que mejor explque los datos: ) g( ŷ : (.) X X R R g I (4) El procedmento de resolucón para estmar dcha funcón es el procedmento de mínmos cuadrados que estma el vector de coefcentes que mnmza el error: t I t I t I p p p x x X a a a A X A x a a X g y ] [ ; ] [ ) ( )* ( ) ( ˆ 0 0 (5) El objetvo es que dadas N muestras, el procedmento debe determnar coefcentes que mnmcen el error de predccón global 2 ] ) ( [ n j X j y j g (6) Este es un problema clásco de mnmzacón de funcón cuadrátca cuya solucón es únca. La formulacón genérca matrcal del problema se puede expresar como: A H A x x x x x x X g X g y y g y y y N I N I I N N N * ) ( ) ( ˆ ˆ ˆ ; 2 2 (7) Por lo que la solucón de mínmos cuadrados es: t t A H H H y

72 Capítulo 2 Análss Estadístco Medante Excel Evaluacón del modelo de regresón La evaluacón del modelo realza el análss de valdez del modelo asumdo, es decr se van a calcular una sere de meddas de parecdo entre la varable de salda estmada medante la funcón y los valores de la varable de salda real, de esta manera analzaremos la nfluenca de las varables de entrada en el cálculo de la varable de salda (s exste o no una relacón lneal entre las varables de entrada que permta determnar la varable de salda). Estas meddas son: el Factor de Correlacón (que muestra s exste la relacón lneal), el error de predccón (dferenca entre la predcha y la real) y el error en coefcentes Meddas de Caldad El factor de correlacón se evalúa como: Corr( yˆ, S yˆ yˆ N n j y) 2 n yˆ yˆ ; S y y N j j yˆ, j S yˆ S y j y n y N ( yˆ j N j j yˆ)( y y j j j y) 2 ; Cov( yˆ, y) Var( yˆ) Var( y) (8) En general, se puede hacer factores de correlacón entre cualquer par de varables numércas: ndca el grado de relacón lneal exstente. Para ello se calcula la matrz de covaranzas (o la de correlacones que es la msma pero normalzada) de la sguente manera: Cˆ x x x2 x x2 x x x var cov, cov, cov, var (9) cov x, xi var xi n t ˆ 2 2 X X n donde ˆ n X n n 2 n El error de predccón se evalúa como: 2 yˆ j y j j Error bajo la hpótess de que los datos y tengan la msma varanza sy, sean ndependentes, y que el modelo lneal sea adecuado el error puede calcularse 2 como: Error n ). ( y El error en coefcentes se evalúa a partr de la expresón que permte t t t t encontrar los coefcentes A [ H H] H y; [ H H] H. La relacón entre los errores en predccón y en coefcentes estmados se evalúa: j A j y Técncas de Análss de Datos Págna 65 de 266

73 Capítulo 2 Análss Estadístco Medante Excel C A 2 A 0 2 A 2 A I 2 y[ H t H ] (20) Por lo que el error en los coefcentes depende de el error en y, sy2 y el recorrdo de datos X, es decr la matrz H Test de Hpótess sobre modelo de regresón Estos valores permten analzar la caldad del modelo medante los test de hpótess: hpótess de sgnfcatvdad de parámetros (gaussana o t-student) y la hpótess de ausenca de relacón (F de Fsher-Snedecor). Para evaluar la sgnfcatvdad de parámetros, partmos de varanzas de parámetros {s2a, s2af} y los propos valores estmados, y nos preguntamos s son sgnfcatvos los parámetros: A AF,...,?. Este test puede resolverse A medante una gaussana estándar s tenemos gran cantdad de datos, o ben, s hay pocos datos: en vez de estadístca normal, una t-student con n-f- grados de lbertad. Tambén podemos extender el modelo y analzarlo: ej: dependenca cuadrátca, ver s son sgnfcatvos nuevos térmnos Para analzar la valdez del modelo debemos realzar un análss de la varanza que permte rechazar o no la hpótess de que no exste relacón entre varables (relacón debda al azar, correlacón nula). Para ello a partr del valor: N 2 N 2 N 2 ˆ ˆ j y y j y y j y j j A F y (2) SE/ I calculamos el estadístco : F que sgue una dstrbucón: F de SR/( n I ) Snedecor: F(n, n2), donde los grados de lbertad son: I, n-i- j Técncas de Análss de Datos Págna 66 de 266

74 Capítulo 2 Análss Estadístco Medante Excel 2.3. Ejemplos de aplcacón de técncas de evaluacón de hpótess Con un objetvo meramente lustratvo, en esta seccón se sugeren algunas aplcacones de las técncas de contraste de hpótess y mnería de datos presentadas en otras seccones. Son ejemplos que se relaconarían con el objetvo fnal de este proyecto de analzar y descrbr relacones de nterés y modelos subyacentes en datos del domno del tráfco aéreo. Hay que tener en cuenta, que son ejemplos sugerdos que quedarían sujetos a su valdacón medante la generacón de los datos apropados, sujeto a una metodología apropada de preparacón, nterpretacón y valdacón Ejemplos de Valdacón de Hpótess Para lustrar la técnca de contraste de hpótess para ndependenca entre varables de tpo nomnal, supongamos que partmos de los datos de la tabla sguente: En esta tabla se representan dos varables nomnales: retardo y tpo de avón. La varable retardo puede tomar 4 valores: nulo, medo, alto y muy alto. La varable tpo de avón puede tomar 3 valores: Lgero, Medano y Pesado. En la tabla aparecen el número de avones de cada tpo en funcón del retardo que sufren. Es decr, aparece la dstrbucón observada para el número de avones de cada tpo que sufre una determnada categoría de retardo. S en la tabla anteror consderamos úncamente los valores totales de las varables tpo de avón y retardo, podemos calcular la probabldad de cada categoría dvdendo del total margnal por el número total de casos. Además, en el caso hpotétco de que fueran las dos varables ndependentes, la probabldad conjunta de cada caslla sería el producto de estas probabldades, y multplcada por el número total de casos tendríamos el valor esperado en cada caslla. Ej=t(t/t)(t j/t) Así, por ejemplo, para la combnacón avón lgero y retardo nulo, tendríamos: N tpolgero, retardonulo 5.74 Reptendo el msmo proceso para el resto de casllas, tenemos: Técncas de Análss de Datos Págna 67 de 266

75 Capítulo 2 Análss Estadístco Medante Excel Por lo tanto a partr de dchos datos podemos plantearnos la hpótess nula H0: las varables retardo y categoría son ndependentes. Calculando el estadístco que acumula las desvacones cuadrátcas dvddas por los valores esperados tenemos: p 2 2 ( E O ) / E (22) p2 j j j j y evaluamos la probabldad del estadístco medante la funcón Ch-cuadrado. Tomando 3x2 grados de lbertad, tenemos que el valor de corte al 95% para rechazar sería de 2.59 (ver sguente Fgura). 2 Fgura 7: Test Ch-Cuadrado. Sn embargo, con los valores observados, tenemos que la desvacón es 44,9, que para una dstrbucón Ch-cuadrado de 6 grados de lbertad tene una probabldad de aparecer de 4,87e-8, lo que nos permte rechazar con mucha evdenca la hpótess de ndependenca y conclur una clara dependenca entre las varables. El ejemplo sguente aplca la msma técnca para determnar la nterdependenca entre la ntencón de voto y el sexo en una poblacón dada: Técncas de Análss de Datos Págna 68 de 266

76 Capítulo 2 Análss Estadístco Medante Excel Relacones numércas-numércas: regresón lneal Permte dentfcar relacones entre varables numércas y construr modelos de regresón: varable salda y múltples entradas numércas Se consderan relacones de una varable de salda (dependente) con múltples varables de entrada (ndependentes) Ejemplo: regresón lneal de varable Año Renta Consumo consumo E ,75 75,87 683, ,09 986,35 942, , ,9 2299, , , 28, ,6 3550,7 3502, ,7 40,7 453, ,02 502,6 5026, , ,2 6335, ,5 7990,3 7785, ,9 9053,5 9090, ,5 0695,4 0479, , ,8 2032, ,5 2906, , ,6 5720, 5442, ,5 7309,7 7038,7636 Técncas de Análss de Datos Págna 69 de 266

77 consumos Capítulo 2 Análss Estadístco Medante Excel Estmacón Lneal a a0 0, , ConsumoE a0 a* Renta dependenca consumo renta Consumo consumo E Ejemplo: regresón lneal de 2 varables x x2 y Valor Superfce Antgüedad Valor predcho Euros Euros Euros Euros Euros Euros Euros Euros Euros Euros Euros 5.25 Euros Euros Euros Euros Euros Euros Euros Euros 3.58 Euros Euros Euros Técncas de Análss de Datos Págna 70 de 266

78 valor (euros) Capítulo 2 Análss Estadístco Medante Excel Estmacón Lneal a2 a a0-220, , ,727 Valor a0 a*superfce a2* Antgüedad valores predchos antgüedad (a) superfce (m2) Técncas de Análss de Datos Págna 7 de 266

79 Capítulo 2 Análss Estadístco Medante Excel Evaluacón del modelo de regresón Análss de valdez del modelo asumdo: Meddas de parecdo entre varable de salda estmada y real, nfluenca de varables de entrada Factor de Correlacón Error de predccón Error en coefcentes Análss de caldad del modelo Hpótess de sgnfcatvdad de parámetros: t-student Hpótess de ausenca de relacón: F de Fsher-Snedecor Factor de correlacón Factor de correlacón entre datos y predccones: Corr( yˆ, S yˆ yˆ N n j y) 2 n yˆ yˆ ; S y y N j j yˆ, j S yˆ S y j y n y N ( yˆ j N j j yˆ)( y y j j j y) 2 ; Cov( yˆ, y) Var( yˆ) Var( y) En general, se puede hacer factores de correlacón entre cualquer par de varables numércas: ndca el grado de relacón lneal exstente Matrz de Covaranza Muestra de vectores aleatoros: Matrz de covaranzas: Técncas de Análss de Datos Págna 72 de 266

80 Capítulo 2 Análss Estadístco Medante Excel Técncas de Análss de Datos Págna 73 de 266 n X n ˆ ) var( ), cov( ) var( ), cov( ), cov( ), cov( ) var( ˆ) ˆ)( ( ˆ I I n t X x x x x x x x x x x x X X n C La matrz de correlacones es smlar, normalzada Error de Predccón 2 2 ˆ n j j n j y j y j Error bajo la hpótess de que los datos y tengan la msma varanza sy, sean ndependentes, y que el modelo lneal sea adecuado: 2 ) ( y n Error Error en coefcentes?

81 Capítulo 2 Análss Estadístco Medante Excel t A [ H H] H t y; A t [ H H] t H y relacón errores en predccón y en coefcentes estmados: C A 2 A 0 2 A 2 A I 2 y[ H t H ] El error en los coefcentes depende de error en y, sy2 recorrdo de datos X: matrz H x y 5,33 8,5 5,65 7,84 7,27 9,33 8,05 0,07 8,66,60 8,80,48 8,89,89 8,98,2 9,35 2,0 9,82 2,0 Rango: [5,0] y = A0 =0.6 A =0.07 x y,32 3,67,68 4,66 4,69 7,57 4,99 7,48 6,98 9,66 8,80,5 0,0 2,02 5,0 7,47 7,0 9,82 9,67 2,94 20,00 5,00 0,00 5,00 25,00 20,00 5,00 0,00 5,00 0,00 0,00 5,00 0,00 5,00 20,00 0,00 0,00 5,00 0,00 5,00 20,00 25,00 Sgnfcatvdad de parámetros Dadas las varanzas de parámetros {s2a, s2af} y los propos valores estmados, son sgnfcatvos los parámetros? Técncas de Análss de Datos Págna 74 de 266

82 x Capítulo 2 Análss Estadístco Medante Excel A A,..., A F A F? N(0,) /2 S hay pocos datos: en vez de estadístca normal, t-student con n-f- grados de lbertad Posbldad de extender el modelo y analzarlo: ej: dependenca cuadrátca, ver s son sgnfcatvos nuevos térmnos Valdez del modelo: análss de varanza Permte rechazar o no la hpótess de que no exste relacón entre varables (relacón debda al azar, correlacón nula) N 2 N 2 N 2 y ˆ ˆ j y y j y y j y j j j Estadístco F SE/ I SR/( n I ) dstrbucón: F de Snedecor: F(n, n2) grados de lbertad: I, n-i- Técncas de Análss de Datos Págna 75 de 266

83 Capítulo 2 Análss Estadístco Medante Excel 2.4. Técncas cláscas de clasfcacón y predccón { X n { X Modelado de datos con atrbutos numércos para su aplcacón a Clasfcacón. Generalzacón Datos representados como vectores de atrbutos numércos: patrones Clases: {C,..., CM} Muestras:E= (),..., X () n, X (2),..., X (2) n 2 M n j j Tamaño:,..., X ( M )..., X ( M ) n Para cada clase, C, hay n patrones, cada uno con I atrbutos: para cada clase C: ( ),..., X ( ) n } M } ( ) x j ( ) X j ; j,..., n ( ) x Ij I g(.) : R C { C,..., C X Ĉ g( X ) M } Técncas de Análss de Datos Págna 76 de 266

84 Capítulo 2 Análss Estadístco Medante Excel Funcón dscrmnante de cada clase: g ( ) X g ( ) X Max(.) Ĉ 2 X g M (X ) Propedad deseable para el dseño de g(.): sobre el conjunto de entrenamento, cada patrón de la clase C tene un valor máxmo con el dscrmnante g(.): g ( X ) max { g ( X )}, j,..., n ( ) j k,..., M k ( ) j Fronteras de decsón Técncas de Análss de Datos Págna 77 de 266

85 X2 X2 Capítulo 2 Análss Estadístco Medante Excel g j ( X ) : lneales g g g X g j ( X ) : cuadratcas g g g g X 2 Técncas de Análss de Datos Págna 78 de 266

86 Capítulo 2 Análss Estadístco Medante Excel Técncas de Análss de Datos Págna 79 de 266 Clasfcacón con Regresón Lneal: Para cada clase se defne la funcón de pertenenca g: C X C X X g 0; ; ) ( Se construye una funcón lneal que aproxme g: t t t I n t t n t y H H H A X X X X y I ) ( () ) ( ) ( ] [ ; H 0 0 Hay que aprender M funcones g Otra opcón: para cada par de clases, funcón frontera gj: j j C X C X X g ; ; ) ( Funcones lneales para todos los pares:

87 Capítulo 2 Análss Estadístco Medante Excel Técncas de Análss de Datos Págna 80 de 266 t j j t j j t j n t j t n t j j y H H H A X X X X y j ) ( ) ( ) ( ) ( ] [ ; H Hay que aprender M(M-)/2 pares gj fronteras posbles Clasfcacón bayesana aplcacón de modelos estadístcos Clasfcacón con modelo de estructura probablístca conocda Clases: {C,..., CM}. Se conoce a pror: Probabldades de clase: P(C) Dstrbucones de probabldad condconadas (parámetros constantes) ) ( ),,..., ( ),..., ( ),..., ( I I I I I I X C P C x X x X P C x X x X P C x x F densdad I I X I X x x C x x F C x x f... ),..., ( ),..., ( Ej.: dstrbucón normal multvarada

88 Capítulo 2 Análss Estadístco Medante Excel Técncas de Análss de Datos Págna 8 de 266 Parámetros: vector de medas y matrz covaranzas / 2 2 ; ) ( ) ( 2 exp 2 ) ( F n F F x x x x x x x x x x n t n S x S x S x f Ejemplo ; 5 30 S

89 Capítulo 2 Análss Estadístco Medante Excel Teorema de Bayes aplcado a clasfcacón P( C X ) f ( X C ) p( C ) f ( X ) Probabldad a posteror: es la probabldad de que el patrón tenga clase C: P( C X ) Probabldad a pror: P(C) es la probabldad total de cada clase f Verosmltud: ( X C ) : es la dstrbucón de C aplcada a f Densdad total: ( X ) f ( X C ) P( C )... f ( X C ) P( C M M ) Crtero de clasfcacón MAP: Clase( X ) máxmo P ( C X ) máxmof ( X C ) p( C ) funcón dscrmnante de C: proporconal a su prob a posteror: g ( X ) f ( X C ) p( C ) Técncas de Análss de Datos Págna 82 de 266

90 Capítulo 2 Análss Estadístco Medante Excel la clase es la de aquella que maxmza el dscrmnante Clasfcacón bayesana y dstrb. normal g Dstrbucones condconales gaussanas. Para cada clase C hay una funcón dscrmnante de parámetros mj, sj, j=...i P( C F 2 2 ( x) log( P( C ) f ( x C )) log ( x ) / n/ 2 j j j F ) g Parámetros de dstrbucón condconada a cada clase Regones de decsón: j Funcones cuadrátcas (hpérbolas) dadas por dferencas: ( x) g ( x) g ( x) j S son guales, y dagonales: regones lneales (caso partcular) Resumen clasfcador bayesano numérco Algortmo: Estmar parámetros de cada clase C (entrenamento) Técncas de Análss de Datos Págna 83 de 266

91 Capítulo 2 Análss Estadístco Medante Excel Técncas de Análss de Datos Págna 84 de 266 n C X X C, },..., :{ ) ( ) ( n j x j n ) ( ˆ n j x n C 2 ) ( Estmar probabldad de cada clase M n n N n C P ; ) ˆ( Obtener regones de decsón: gj(.) Clasfcacón Bayesana con Atrbutos Nomnales Atrbutos nomnales con valores dscretos A={V,...,Vn}: atrbuto con n valores posbles Pasamos de densdades a probabldades: probabldad a pror: p(a=vj Ck)? Estmacón contando el número de casos: k j k C declase dee º V con A C declase dee º ) ( jemplos n jemplos n C V A p k j Smplfcacón: ndependenca de atrbutos ( Nave Bayes ): la probabldad conjunta de varos atrbutos se pone como producto ) ( *...* ( )* ( ) ( ),...,, ( k I I k k k I I C V A p C V A p C V A p C X p V A V A V A X Clasfcacón: ) ( ) ( )* ( )*...* ( )* ( ) ( ) ( )* ( ) ( 2 2 k k F F k k k k k X p C p C V A p C V A p C V A p X p C p C X p X C p

92 Capítulo 2 Análss Estadístco Medante Excel Ejemplo con atrbutos nomnales SALARIO CLIENTE EDAD HIJOS CRÉDITO Poco Sí Joven Uno NO Mucho S Joven Uno SI Mucho S Joven Uno SI Poco S Joven Uno NO Mucho S Joven Dos SI Poco S Joven Dos NO Mucho S Adulto Dos SI Mucho S Adulto Dos SI Poco No Adulto Dos NO Mucho S Adulto Dos SI Medo No Adulto Tres NO Mucho S Adulto Dos SI Medo S Adulto Dos SI Medo No Adulto Tres NO Medo No Adulto Dos SI Mucho No Mayor Tres NO Poco No Mayor Tres SI Poco No Mayor Tres SI Mucho No Mayor Tres NO Mucho No Mayor Tres SI p(si) = 2/20 p(no) = 8/20 Crédto No Sí Salaro Poco 4/8 2/2 Mucho 2/8 8/2 Medo 2/8 2/2 Crédto No Sí Clente Sí 3/8 8/2 No 5/8 4/2 Crédto No Sí Edad Joven 3/8 3/2 Adulto 3/8 6/2 Mayor 2/8 3/2 Crédto No Sí Hjos Uno 2/8 2/2 Dos 2/8 7/2 Tres 4/8 3/2 Ej.: (salaro=poco, clente=s, edad=adulto, hjos=tres) p( SI X ) p( s poco SI)* p( c s SI)* p( e adulto SI)* p( h tres SI)* p( SI) / p( X 2 /2*8 /2*6 /2*3/2*2 / 20 / p( X) / p( X) ) p( NO X ) p( s poco NO)* p( c s NO)* p( e adulto NO)* p( h tres NO)* p( NO) / p( X 4 / 8*3/ 8*3/ 8*4 / 8*8/ 20 / p( X) 0.04/ p( X) ) Atrbutos sn valores S el ejemplo a clasfcar no tene un atrbuto, smplemente se omte. Ej.: (salaro=poco, clente=s, edad=?, hjos=3) Técncas de Análss de Datos Págna 85 de 266

93 Capítulo 2 Análss Estadístco Medante Excel p( SI X p( s poco SI)* p( c s SI)* p( h tres SI)* p( SI) / p( X 2 /2*8 /2*3/2*2 / 20 / p( NO X ) ) p( s poco NO)* p( c s NO)* p( h tres NO)* p( NO) / p( X 4 / 8*3/ 8*4 / 8*8/ 20 / p( X) / p( X) p( X) / p( X) ) ) S hay faltas en la muestra de entrenamento, no cuentan en la estmacón de probabldades de ese atrbuto Faltas en atrbuto EDAD SALARIO CLIENTE EDAD HIJOS CRÉDITO Poco Sí Joven Uno NO Mucho S Joven Uno SI Mucho S Joven Uno SI Poco S? Uno NO Mucho S? Dos SI Poco S? Dos NO Mucho S? Dos SI Mucho S Adulto Dos SI Poco No Adulto Dos NO Mucho S Adulto Dos SI Medo No Adulto Tres NO Mucho S Adulto Dos SI Medo S Adulto Dos SI Medo No Adulto Tres NO Medo No Adulto Dos SI Mucho No Mayor Tres NO Poco No Mayor Tres SI Poco No Mayor Tres SI Mucho No Mayor Tres NO Mucho No Mayor Tres SI p(si) = 2/20 p(no) = 8/20 Crédto No Sí Salaro Poco 4/8 2/2 Mucho 2/8 8/2 Medo 2/8 2/2 Crédto No Sí Clente Sí 3/8 8/2 No 5/8 4/2 Crédto No Sí Edad Joven /6 2/0 Adulto 3/6 5/0 Mayor 2/6 3/0 Crédto No Sí Hjos Uno 2/8 2/2 Dos 2/8 7/2 Tres 4/8 3/2 Atrbutos no representados. Ley m Problema: con muestra poco representatva, puede ocurrr que en alguna clase, un valor de atrbuto no aparezca: p(a=vj Ck)=0 Técncas de Análss de Datos Págna 86 de 266

94 Capítulo 2 Análss Estadístco Medante Excel Cualquer ejemplo X con A=Vj generará P(Ck X)=0, ndependentemente de los otros atrbutos! Se suele modfcar la estmacón de las probabldades a pror con un factor que elmna los ceros. Ej.: P(Edad Crédto=NO)= Joven :, Adulto :, Mayor : Ley m: 3 / 3 3 / 3 2 / 3 Joven :, Adulto :, Mayor : A veces smplemente se ncalzan las cuentas a en vez de 0: Joven :, Adulto :, Mayor : Atrbutos mxtos Independenca de atrbutos ( Nave Bayes ) p(x p(a C k V ) C k ) * p(a 2 V 2 C k ) *...* p(a F V F C k ) Atrbutos dscretos: probabldades a pror con cada clase Ck p( A V j C k ) nº deejemplos declase C nº deejemplos declase k con A C k V j Atrbutos contnuos: densdades de clase Ck: normales de parámetros mk, sk Técncas de Análss de Datos Págna 87 de 266

95 Capítulo 2 Análss Estadístco Medante Excel p(a 2 V k j C k exp 2 ) f (V j A (V j k 2 k C ) 2 k ) Ejemplo con atrbutos mxtos SALARIO CLIENTE EDAD HIJOS CRÉDITO 525 Sí Joven NO 2000 S Joven SI 2500 S Joven SI 470 S Joven NO 3000 S Joven 2 SI 50 S Joven 2 NO 2800 S Adulto 2 SI 2700 S Adulto 2 SI 550 No Adulto 2 NO 2600 S Adulto 2 SI 00 No Adulto 3 NO 2300 S Adulto 2 SI 200 S Adulto 2 SI 900 No Adulto 3 NO 800 No Adulto 2 SI 800 No Mayor 3 NO 300 No Mayor 3 SI 00 No Mayor 3 SI 000 No Mayor 3 NO 4000 No Mayor 3 SI p(si) = 2/20 p(no) = 8/20 Crédto No Sí Salaro Meda Desv Estándar Crédto No Sí Clente Sí 3/8 8/2 No 5/8 4/2 Crédto No Sí Edad Joven 3/8 3/2 Adulto 3/8 6/2 Mayor 2/8 3/2 Crédto No Sí Hjos Meda Desv Estándar Ej.: (salaro=700, clente=s, edad=adulto, hjos=3) Técncas de Análss de Datos Págna 88 de 266

96 Capítulo 2 Análss Estadístco Medante Excel p( SI X ) f ( s 700 SI)* p( c s SI)* p( e adulto SI)* f S ( ) exp e 6 / p( X) 2 *8 /2*6 /2* H ( h 3 SI)* p( SI) / p( X exp (3 2.08) ) *2 / 20*/ P( X ) p( NO X ) f ( s 700 NO)* p( c s NO)* p( e adulto NO)* f S ( ) exp e 5/ p( X) 2 *3/ 8*3/ 8* H exp ( h 3 NO)* p( NO) / p( X (3 2.25) ) *8/ 20*/ P( X ) Clasfcacón con costes MAP proporcona clasfcacón con mínma prob. de Error Coste de decsón : prob. Error total= Con frecuenca los costes son asmétrcos, y unos errores son más graves que otros. Matrz de costes Clase real Clasfcado como 0 c c 2 3 c c c3 c23 0 Costes de cada decsón. Crtero de mínmo coste medo: dada una decsón, promedo los costes de cada equvocacón y su coste: coste( D coste( D 2 coste( D 3 X ) c X ) c X ) c p( C 2 p( C p( C X ) c X ) c X ) c p( C p( C p( C X ) X ) X ) Técncas de Análss de Datos Págna 89 de 266

97 Capítulo 2 Análss Estadístco Medante Excel Ejemplo de clasfcacón con costes Clasfcacón de setas con dos atrbutos, (X, Y) y tres categorías: Venenosa, Mal sabor, comestble: {V, MS, C} Clase real V MS C Clasfcado como V MS C V : t ; C 50 7 C : t ; C MS : t ; C C MS C MS Mínmo error V Mínmo coste V Regresón Lneal La regresón lneal [DOB90] es la forma más smple de regresón, ya que en ella se modelan los datos usando una línea recta. Se caracterza, por tanto, por la utlzacón de dos varables, una aleatora, y (llamada varable respuesta), que es funcón lneal de otra varable aleatora, x (llamada varable predctora), formándose la ecuacón 2.3. Técncas de Análss de Datos Págna 90 de 266

98 Capítulo 2 Análss Estadístco Medante Excel y a bx Ec. 2.3 En esta ecuacón la varacón de y se asume que es constante, y a y b son los coefcentes de regresón que especfcan la nterseccón con el eje de ordenadas, y la pendente de la recta, respectvamente. Estos coefcentes se calculan utlzando el método de los mínmos cuadrados [PTVF96] que mnmzan el error entre los datos reales y la estmacón de la línea. Dados s ejemplos de datos en forma de puntos (x, y ), (x 2, x 2 ),..., (x s, y s ), entonces los coefcentes de la regresón pueden estmarse según el método de los mínmos cuadrados con las ecuacones 2.4 y 2.5. S xy b Ec. 2.4 S 2 x a y - bx Ec. 2.5 En la ecuacón 2.4, S xy es la covaranza de x e y, y S x 2 la varanza de x. Tambén es necesaro saber cuán buena es la recta de regresón construda. Para ello, se emplea el coefcente de regresón (ecuacón 2.6), que es una medda del ajuste de la muestra. S 2 2 xy R 2 2 S x S y Ec. 2.6 El valor de R 2 debe estar entre 0 y. S se acerca a 0 la recta de regresón no tene un buen ajuste, mentras que s se acerca a el ajuste es perfecto. Los coefcentes a y b a menudo proporconan buenas aproxmacones a otras ecuacones de regresón complcadas. En el ejemplo sguente, para una muestra de 35 marcas de cerveza, se estuda la relacón entre el grado de alcohol de las cervezas y su contendo calórco. y se representa un pequeño conjunto de datos. Fgura 2.: Regresón lneal smple. Técncas de Análss de Datos Págna 9 de 266

99 Capítulo 2 Análss Estadístco Medante Excel El eje vertcal muestra el número de calorías (por cada terco de ltro) y el horzontal el contendo de alcohol (expresado en porcentaje). La nube de puntos es la representacón de los datos de la muestra, y la recta es el resultado de la regresón lneal aplcando el ajuste de los mínmos cuadrados. En los sguentes apartados se mostrarán dos tpos de regresones que amplían la regresón lneal smple. Regresón Lneal Múltple La regresón Lneal Múltple [PTVF96] es una extensón de regresón lneal que nvolucra más de una varable predctora, y permte que la varable respuesta y sea planteada como una funcón lneal de un vector multdmensonal. El modelo de regresón múltple para n varables predctoras sería como el que se muestra en la ecuacón 2.7. y b... Ec b x b2 x2 bn xn Para encontrar los coefcentes b se plantea el modelo en térmnos de matrces, como se muestra en la ecuacón 2.8. z z Z z 2 m z z n n z mn y ; y Y y 2 m ; b b2 B bn Ec. 2.8 En la matrz Z, las flas representan los m ejemplos dsponbles para calcular la regresón, y las columnas los n atrbutos que formarán parte de la regresón. De esta forma, z j será el valor que toma en el ejemplo el atrbuto j. El vector Y está formado por los valores de la varable dependente para cada uno de los ejemplos, y el vector B es el que se desea calcular, ya que se corresponde con los parámetros desconocdos necesaros para construr la regresón lneal múltple. Representando con X T la matrz traspuesta de X y con X - la nversa de la matrz X, se calculará el vector B medante la ecuacón 2.9. B T T Z Z Z Y Ec. 2.9 Para determnar s la recta de regresón lneal múltple está ben ajustada, se emplea el msmo concepto que en el caso de la regresón lneal smple: el coefcente de regresón. En este caso, se utlzará la ecuacón T Y - ZB Y - ZB 2 R 2 Ec y y m Al gual que en el caso de la regresón smple, el valor de R 2 debe estar entre 0 y, sendo el ndcador de ajuste perfecto. T Una vez explcado el modo básco por el que se puede obtener una recta de regresón múltple para un conjunto de ejemplos de entrenamento, a contnuacón se muestra, en la fgura 2., un ejemplo concreto en el que se muestra el proceso. Técncas de Análss de Datos Págna 92 de 266

100 Capítulo 2 Análss Estadístco Medante Excel Fgura 2.2: Ejemplo de obtencón de una Regresón Lneal Múltple. Tal y como se muestra en la fgura 2., en un prmer momento se obtenen, a partr de los ejemplos de entrenamento, las matrces Z e Y, sendo el objetvo la matrz B. En el segundo paso se calcula los valores de dcha matrz, que serán los coefcentes en la regresón. Por últmo, en un tercer paso se comprueba s la recta generada tene un buen ajuste o no. En este caso, como se muestra en la msma fgura, el ajuste es magnífco, dado que el valor de R 2 es muy cercano a. Por últmo, en este ejemplo no se ha consderado el térmno ndependente, pero para que se obtuvese bastaría con añadr una nueva columna a la matrz Z con todos los valores a. Seleccón de Varables Además del proceso anteror para la generacón de la regresón lneal, se suele realzar un procedmento estadístco que seleccone las mejores varables predctoras, ya que no todas tenen la msma mportanca, y reducr su número hará que computaconalmente mejore el tempo de respuesta del modelo. Los procesos que se sguen para la seleccón de varables predctoras son báscamente dos: elmnacón haca atrás [backward elmnaton], consstente en obtener la regresón lneal para todos los parámetros e r elmnando uno a uno los menos mportantes; y seleccón haca delante [fordward selecton], que consste en generar una regresón lneal smple (con el mejor parámetro, esto es, el más correlaconado con la varable a predecr) e r añadendo parámetros al modelo. Hay un gran número de estadístcos que permten selecconar los parámetros, y a modo de ejemplo se comentará el basado en el crtero Técncas de Análss de Datos Págna 93 de 266

101 Capítulo 2 Análss Estadístco Medante Excel de nformacón Akake [AKA73], que se basa en la teoría de la nformacón y cuya formulacón se muestra en la ecuacón 2.2. L AIC 2 log 2p Ec. 2.2 En esta ecuacón L es la verosmltud [lkelhood] y p el número de varables predctoras. Aplcado a la regresón, el resultado sería el que se muestra en las ecuacones 2.22 y MSE 2p AIC m log Ec MSE m y yˆ m 2 Ec En la ecuacón 2.22, m es el número de ejemplos dsponbles, y MSE es el error cuadrátco medo [mean squared error] del modelo, tal y como se defne en la ecuacón En esta ecuacón y es el valor de la clase para el ejemplo e ŷ el valor que la regresón lneal da al ejemplo. En la práctca algunas herramentas no utlzan exactamente la ecuacón 2.22, sno una aproxmacón de dcha ecuacón. Regresón Lneal Ponderada Localmente Otro método de predccón numérca es la regresón lneal ponderada localmente [Locally weghted lnear regresón]. Con este método se generan modelos locales durante el proceso de predccón dando más peso a aquellos ejemplares de entrenamento más cercanos al que hay que predecr. Dcho de otro modo, la construccón del clasfcador consste en el almacenamento de los ejemplos de entrenamento, mentras que el proceso de valdacón o de clasfcacón de un ejemplo de test consste en la generacón de una regresón lneal específca, esto es, una regresón lneal en la que se da más peso a aquellos ejemplos de entrenamento cercanos al ejemplo a clasfcar. De esta forma, este tpo de regresón está íntmamente relaconado con los algortmos basados en ejemplares. Para utlzar este tpo de regresón es necesaro decdr un esquema de ponderacón para los ejemplos de entrenamento, esto es, decdr cuánto peso se le va a dar a cada ejemplo de entrenamento para la clasfcacón de un ejemplo de test. Una medda usual es ponderar el ejemplo de entrenamento con la nversa de la dstanca euclídea entre dcho ejemplo y el de test, tal y como se muestra en ecuacón ω Ec d j En esta ecuacón ω es el peso que se le otorgará al ejemplo de entrenamento para clasfcar al ejemplo j, y d j será la dstanca euclídea de con respecto a j. Más crítco que la eleccón del método para ponderar es el parámetro de suavzado que se utlzará para escalar la funcón de dstanca, esto es, la dstanca será multplcada por la nversa de este parámetro. S este parámetro es muy pequeño sólo los ejemplos muy cercanos recbrán un gran peso, mentras que s es demasado grande los ejemplos muy lejanos podrían tener peso. Un modo de asgnar un valor a este parámetro es dándole el valor de la dstanca del k-ésmo vecno más cercano al Técncas de Análss de Datos Págna 94 de 266

102 Capítulo 2 Análss Estadístco Medante Excel ejemplo a clasfcar. El valor de k dependerá del rudo de los datos. Cuanto más rudo, más grande deberá ser k. Una ventaja de este método de estmacón es que es capaz de aproxmar funcones no lneales. Además, se puede actualzar el clasfcador (modelo ncremental), dado que úncamente sería necesaro añadrlo al conjunto de entrenamento. Sn embargo, como el resto de algortmos basado en ejemplares, es lento. Técncas de Análss de Datos Págna 95 de 266

103 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Capítulo 3. Técncas de Mnería de Datos basadas en Aprendzaje Automátco 3.. Técncas de Mnería de Datos Como ya se ha comentado, las técncas de Mnería de Datos (una etapa dentro del proceso completo de KDD [FAYY96]) ntentan obtener patrones o modelos a partr de los datos recoplados. Decdr s los modelos obtendos son útles o no suele requerr una valoracón subjetva por parte del usuaro. Las técncas de Mnería de Datos se clasfcan en dos grandes categorías: supervsadas o predctvas y no supervsadas o descrptvas [WI98]. Numérco Clusterng Conceptual Probablstco No supervsadas Asocacón A Pror Técncas Regresón Predccón Árboles de Predccón Estmador de Núcleos Técncas de Análss de Datos Págna 96 de 266

104 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Supervsadas Tabla de Decsón Árboles de Decsón Induccón de Reglas Bayesana Clasfcacón Basado en Ejemplares Redes de Neuronas Lógca Borrosa Técncas Genétcas Fgura 3.: Técncas de la Mnería de Datos Una técnca consttuye el enfoque conceptual para extraer la nformacón de los datos, y, en general es mplementada por varos algortmos. Cada algortmo representa, en la práctca, la manera de desarrollar una determnada técnca paso a paso, de forma que es precso un entendmento de alto nvel de los algortmos para saber cual es la técnca más apropada para cada problema. Asmsmo es precso entender los parámetros y las característcas de los algortmos para preparar los datos a analzar. Las predccones se utlzan para prever el comportamento futuro de algún tpo de entdad mentras que una descrpcón puede ayudar a su comprensón. De hecho, los modelos predctvos pueden ser descrptvos (hasta donde sean comprensbles por personas) y los modelos descrptvos pueden emplearse para realzar predccones. De esta forma, hay algortmos o técncas que pueden servr para dstntos propóstos, por lo que la fgura anteror úncamente representa para qué propósto son más utlzadas las técncas. Por ejemplo, las redes de neuronas pueden servr para predccón, clasfcacón e ncluso para aprendzaje no supervsado. El aprendzaje nductvo no supervsado estuda el aprendzaje sn la ayuda del maestro; es decr, se aborda el aprendzaje sn supervsón, que trata de ordenar los ejemplos en una jerarquía según las regulardades en la dstrbucón de los pares atrbuto-valor sn la guía del atrbuto especal clase. Éste es el proceder de los sstemas que realzan clusterng conceptual y de los que se dce tambén que adqueren nuevos conceptos. Otra posbldad contemplada para estos sstemas es la de sntetzar conocmento cualtatvo o cuanttatvo, objetvo de los sstemas que llevan a cabo tareas de descubrmento. Técncas de Análss de Datos Págna 97 de 266

105 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco En el aprendzaje nductvo supervsado exste un atrbuto especal, normalmente denomnado clase, presente en todos los ejemplos que especfca s el ejemplo pertenece o no a un certo concepto, que será el objetvo del aprendzaje. El atrbuto clase normalmente toma los valores + y -, que sgnfcan la pertenenca o no del ejemplo al concepto que se trata de aprender; es decr, que el ejemplo ejemplfca postvamente al concepto -pertenece al concepto- o ben lo ejemplfca negatvamente -que no pertenece al concepto. Medante una generalzacón del papel del atrbuto clase, cualquer atrbuto puede desempeñar ese papel, convrténdose la clasfcacón de los ejemplos según los valores del atrbuto en cuestón, en el objeto del aprendzaje. Expresado en una forma breve, el objetvo del aprendzaje supervsado es: a partr de un conjunto de ejemplos, denomnados de entrenamento, de un certo domno D de ellos, construr crteros para determnar el valor del atrbuto clase en un ejemplo cualquera del domno. Esos crteros están basados en los valores de uno o varos de los otros pares (atrbuto; valor) que ntervenen en la defncón de los ejemplos. Es sencllo transmtr esa dea al caso en el que el atrbuto que juega el papel de la clase sea uno cualquera o con más de dos valores. Dentro de este tpo de aprendzaje se pueden dstngur dos grandes grupos de técncas: la predccón y la clasfcacón [WK9]. A contnuacón se presentan las prncpales técncas (supervsadas y no supervsadas) de mnería de datos 3.2. Clusterng. ( Segmentacón ) Tambén llamada agrupamento, permte la dentfcacón de tpologías o grupos donde los elementos guardan gran smltud entre sí y muchas dferencas con los de otros grupos. Así se puede segmentar el colectvo de clentes, el conjunto de valores e índces fnanceros, el espectro de observacones astronómcas, el conjunto de zonas forestales, el conjunto de empleados y de sucursales u ofcnas, etc. La segmentacón está tenendo mucho nterés desde hace ya tempo dadas las mportantes ventajas que aporta al permtr el tratamento de grandes colectvos de forma pseudopartcularzada, en el más dóneo punto de equlbro entre el tratamento ndvdualzado y aquel totalmente masfcado. Las herramentas de segmentacón se basan en técncas de carácter estadístco, de empleo de algortmos matemátcos, de generacón de reglas y de redes neuronales para el tratamento de regstros. Para otro tpo de elementos a agrupar o segmentar, como texto y documentos, se usan técncas de reconocmento de conceptos. Esta técnca suele servr de punto de partda para después hacer un análss de clasfcacón sobre los clusters. La prncpal característca de esta técnca es la utlzacón de una medda de smlardad que, en general, está basada en los atrbutos que descrben a los objetos, y se defne usualmente por proxmdad en un espaco multdmensonal. Para datos numércos, suele ser precso preparar los datos antes de realzar data mnng sobre ellos, de manera que en prmer lugar se someten a un proceso de estandarzacón. Una de las técncas empleadas para consegur la normalzacón de los datos es utlzar la medda z (z-score) que elmna las undades de los datos. Esta medda, z, es la que se muestra en la ecuacón 2., donde μ f es la meda de la varable f y σ f la desvacón típca de la msma. Técncas de Análss de Datos Págna 98 de 266

106 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco z f xf μ f Ec. 2. σ f Entre las meddas de smlardad destaca la dstanca euclídea, ecuacón 2.2. d(x x ) j n l x l x jl 2, Ec. 2.2 Hay varos algortmos de clusterng. A contnuacón se exponen los más conocdos Clusterng Numérco (k-medas) Uno de los algortmos más utlzados para hacer clusterng es el k-medas (kmeans) [MAC67], que se caracterza por su sencllez. En prmer lugar se debe especfcar por adelantado cuantos clusters se van a crear, éste es el parámetro k, para lo cual se selecconan k elementos aleatoramente, que representaran el centro o meda de cada cluster. A contnuacón cada una de las nstancas, ejemplos, es asgnada al centro del cluster más cercano de acuerdo con la dstanca Eucldea que le separa de él. Para cada uno de los clusters así construdos se calcula el centrode de todas sus nstancas. Estos centrodes son tomados como los nuevos centros de sus respectvos clusters. Fnalmente se repte el proceso completo con los nuevos centros de los clusters. La teracón contnúa hasta que se repte la asgnacón de los msmos ejemplos a los msmos clusters, ya que los puntos centrales de los clusters se han establzado y permanecerán nvarables después de cada teracón. El algortmo de k-medas es el sguente:. Elegr k ejemplos que actúan como semllas (k número de clusters). 2. Para cada ejemplo, añadr ejemplo a la clase más smlar. 3. Calcular el centrode de cada clase, que pasan a ser las nuevas semllas 4. S no se llega a un crtero de convergenca (por ejemplo, dos teracones no camban las clasfcacones de los ejemplos), volver a 2. Fgura 3.2: Pseudocódgo del algortmo de k-medas. Técncas de Análss de Datos Págna 99 de 266

107 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Para obtener los centrodes, se calcula la meda [mean] o la moda [mode] según se trate de atrbutos numércos o smbólcos. A contnuacón, en la fgura 2.3, se muestra un ejemplo de clusterng con el algortmo k-medas. En este caso se parte de un total de nueve ejemplos o nstancas, se confgura el algortmo para que obtenga 3 clusters, y se ncalzan aleatoramente los centrodes de los clusters a un ejemplo determnado. Una vez ncalzados los datos, se comenza el bucle del algortmo. En cada una de las gráfcas nferores se muestra un paso por el algortmo. Cada uno de los ejemplos se representa con un tono de color dferente que ndca la pertenenca del ejemplo a un cluster determnado, mentras que los centrodes sguen mostrándose como círculos de mayor tamaño y sn relleno. Por ultmo el proceso de clusterng fnalza en el paso 3, ya que en la sguente pasada del algortmo (realmente haría cuatro pasadas, s se confgurara así) nngún ejemplo cambaría de cluster. Fgura 3.3: Ejemplo de clusterng con k-medas Clusterng Conceptual (COBWEB) El algortmo de k-medas se encuentra con un problema cuando los atrbutos no son numércos, ya que en ese caso la dstanca entre ejemplares no está tan clara. Para resolver este problema Mchalsk [MS83] presenta la nocón de clusterng conceptual, que utlza para justfcar la necesdad de un clusterng cualtatvo frente al clusterng cuanttatvo, basado en la vecndad entre los elementos de la poblacón. En este tpo de clusterng una partcón de los datos es buena s cada clase tene una Técncas de Análss de Datos Págna 00 de 266

108 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco buena nterpretacón conceptual (modelo cogntvo de jerarquías). Una de las prncpales motvacones de la categorzacón de un conjunto de ejemplos, que báscamente supone la formacón de conceptos, es la predccón de característcas de las categorías que heredarán sus subcategorías. Esta conjetura es la base de COBWEB [FIS87]. A semejanza de los humanos, COBWEB forma los conceptos por agrupacón de ejemplos con atrbutos smlares. Representa los clusters como una dstrbucón de probabldad sobre el espaco de los valores de los atrbutos, generando un árbol de clasfcacón jerárquca en el que los nodos ntermedos defnen subconceptos. El objetvo de COBWEB es hallar un conjunto de clases o clusters (subconjuntos de ejemplos) que maxmce la utldad de la categoría (partcón del conjunto de ejemplos cuyos membros son clases). La descrpcón probablístca se basa en dos conceptos: Predcbldad: Probabldad condconal de que un suceso tenga un certo atrbuto dada la clase, P(A =V j C k ). El mayor de estos valores corresponde al valor del atrbuto más predecble y es el de los membros de la clase (alta smlardad entre los elementos de la clase). Prevsbldad: Probabldad condconal de que un ejemplo sea una nstanca de una certa clase, dado el valor de un atrbuto partcular, P(C k A =V j ). Un valor alto ndca que pocos ejemplos de las otras clases comparten este valor del atrbuto, y el valor del atrbuto de mayor probabldad es el de los membros de la clase (baja smlardad nterclase). Estas dos meddas, combnadas medante el teorema de Bayes, proporconan una funcón que evalúa la utldad de una categoría (CU), que se muestra en la ecuacón C PA V C PA V n 2 P k j k j k j j CU Ec. 2.3 n En esta ecuacón n es el número de clases y las sumas se extenden a todos los atrbutos A y sus valores V j en cada una de las n clases C k. La dvsón por n srve para ncentvar tener clusters con más de un elemento. La utldad de la categoría mde el valor esperado de valores de atrbutos que pueden ser advnados a partr de la partcón sobre los valores que se pueden advnar sn esa partcón. S la partcón no ayuda en esto, entonces no es una buena partcón. El árbol resultante de este algortmo cabe denomnarse organzacón probablístca o jerárquca de conceptos. En la fgura 2.4 se muestra un ejemplo de árbol que se podría generar medante COBWEB. En la construccón del árbol, ncrementalmente se ncorpora cada ejemplo al msmo, donde cada nodo es un concepto probablístco que representa una clase de objetos. COBWEB descende por el árbol buscando el mejor lugar o nodo para cada ejemplo. Esto se basa en medr en cuál se tene la mayor gananca de utldad de categoría. Técncas de Análss de Datos Págna 0 de 266

109 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.4: Ejemplo de árbol generado por COBWEB. Sn embargo, no se puede garantzar que se genere este árbol, dado que el algortmo es sensble al orden en que se ntroduzcan los ejemplos. En cuanto a las etquetas de los nodos, éstas fueron puestas a posteror, coherentes con los valores de los atrbutos que determnan el nodo. Cuando COBWEB ncorpora un nuevo ejemplo en el nodo de clasfcacón, descende a lo largo del camno apropado, actualzando las cuentas de cada nodo, y llevando a cabo por medo de los dferentes operadores, una de las sguentes accones: Incorporacón: Añadr un nuevo ejemplo a un nodo ya exstente. Creacón de una nueva dsyuncón: Crear una nueva clase. Unón: Combnar dos clases en una sola. Dvsón: Dvdr una clase exstente en varas clases. La búsqueda, que se realza en el espaco de conceptos, es por medo de un heurístco basado en el método de escalada gracas a los operadores de unón y dvsón. En la fgura 2.5 se muestra el resultado de aplcar cada una de estas operacones. Técncas de Análss de Datos Págna 02 de 266

110 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.5: Operacones de COBWEB.. Nuevo Ejemplo: Lee un ejemplo e. S no hay más ejemplos, termnar. 2. Actualza raíz. Actualza el cálculo de la raíz. 3. S la raíz es hoja, entonces: Expandr en dos nodos hjos y acomodar en cada uno de ellos un ejemplo; volver a. 4. Avanzar hasta el sguente nvel: Aplcar la funcón de evaluacón a varas opcones para determnar, medante la fórmula de utldad de una categoría, el mejor (máxma CU) lugar donde ncorporar el ejemplo en el nvel sguente de la jerarquía. En las opcones que se evaluarán se consderará úncamente el nodo actual y sus hjos y se elegrá la mejor opcón de las sguentes: a. Añadr e a un nodo que exste (al mejor hjo) y, s esta opcón resulta ganadora, comenzar de nuevo el proceso de avance haca el sguente nvel en ese nodo hjo. b. Crear un nuevo nodo contenendo úncamente a e y, s esta opcón resulta ganadora, volver a. c. Juntar los dos mejores nodos hjos con e ncorporado al nuevo nodo combnado y, s esta opcón resulta ganadora, comenzar el nuevo proceso de avanzar haca el sguente nvel en ese nuevo nodo. d. Dvdr el mejor nodo, reemplazando este nodo con sus hjos y, s esta opcón resulta ganadora, aplcar la funcón de evaluacón para ncorporar e en los nodos orgnados por la dvsón. Fgura 3.6: Algortmo de COBWEB. Técncas de Análss de Datos Págna 03 de 266

111 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco El algortmo se puede extender a valores numércos usando dstrbucones gaussanas, ecuacón 2.4. De esta forma, el sumatoro de probabldades es ahora como se muestra en la ecuacón 2.5. f x xμ2 2σ 2 e Ec πσ 2 A V f x 2 P j dx Ec. 2.5 j 2 πσ Por lo que la ecuacón de la utldad de la categoría quedaría como se muestra en la ecuacón 2.6. n CU P C k - Ec. 2.6 k k 2 π σ k σ Clusterng Probablístco (EM) Los algortmos de clusterng estudados hasta el momento presentan certos defectos entre los que destacan la dependenca que tene el resultado del orden de los ejemplos y la tendenca de estos algortmos al sobreajuste [overfttng]. Una aproxmacón estadístca al problema del clusterng resuelve estos problemas. Desde este punto de vsta, lo que se busca es el grupo de clusters más probables dados los datos. Ahora los ejemplos tenen certas probabldades de pertenecer a un cluster. La base de este tpo de clusterng se encuentra en un modelo estadístco llamado mezcla de dstrbucones [fnte mxtures]. Cada dstrbucón representa la probabldad de que un objeto tenga un conjunto partcular de pares atrbuto-valor, s se supera que es membro de ese cluster. Se tenen k dstrbucones de probabldad que representan los k clusters. La mezcla más senclla se tene cuando los atrbutos son numércos con dstrbucones gaussanas. Cada dstrbucón (normal) se caracterza por dos parámetros: la meda (μ) y la varanza (σ 2 ). Además, cada dstrbucón tendrá certa probabldad de aparcón p, que vendrá determnada por la proporcón de ejemplos que pertenecen a dcho cluster respecto del número total de ejemplos. En ese caso, s hay k clusters, habrá que calcular un total de 3k- parámetros: las k medas, k varanzas y k- probabldades de la dstrbucón dado que la suma de probabldades debe ser, con lo que conocdas k- se puede determnar la k-ésma. S se conocera el cluster al que pertenece, en un prncpo, cada uno de los ejemplos de entrenamento sería muy sencllo obtener los 3k- parámetros necesaros para defnr totalmente las dstrbucones de dchos clusters, ya que smplemente se aplcarían las ecuacones de la meda y de la varanza para cada uno de los clusters. Además, para calcular la probabldad de cada una de las dstrbucones úncamente se dvdría el número de ejemplos de entrenamento que pertenecen al cluster en cuestón entre el número total de ejemplos de entrenamento. Una vez obtendos estos parámetros, s se deseara calcular la probabldad de pertenenca de un determnado ejemplo de test a cada cluster, smplemente se aplcaría el teorema de Bayes, ecuacón 2.54 a cada problema concreto, con lo que quedaría la ecuacón 2.7. Técncas de Análss de Datos Págna 04 de 266

112 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco P(A x) P(x A)P(A) P(x) f(x; μ, σ A A ) P(x) p A Ec. 2.7 En esta ecuacón A es un cluster del sstema, x el ejemplo de test, p A la probabldad del cluster A y f(x;μ A,σ A ) la funcón de la dstrbucón normal del cluster A, que se expresa con la ecuacón 2.4. Sn embargo, el problema es que no se sabe de qué dstrbucón vene cada dato y se desconocen los parámetros de las dstrbucones. Por ello se adopta el procedmento empleado por el algortmo de clusterng k-medas, y se tera. El algortmo EM (Expectaton Maxmzaton) empeza advnando los parámetros de las dstrbucones (dcho de otro modo, se empeza advnando las probabldades de que un objeto pertenezca a una clase) y, a contnuacón, los utlza para calcular las probabldades de que cada objeto pertenezca a un cluster y usa esas probabldades para re-estmar los parámetros de las probabldades, hasta converger. Este algortmo recbe su nombre de los dos pasos en los que se basa cada teracón: el cálculo de las probabldades de los grupos o los valores esperados de los grupos, medante la ecuacón 2.7, denomnado expectaton; y el cálculo de los valores de los parámetros de las dstrbucones, denomnado maxmzaton, en el que se maxmza la verosmltud de las dstrbucones dados los datos. Para estmar los parámetros de las dstrbucones se tene que consderar que se conocen úncamente las probabldades de pertenenca a cada cluster, y no los clusters en sí. Estas probabldades actúan como pesos, con lo que el cálculo de la meda y la varanza se realza con las ecuacones 2.8 y 2.9 respectvamente. 2 A N w x μ A Ec. 2.8 w N N N w w x μ σ Ec. 2.9 Donde N es el número total de ejemplos del conjunto de entrenamento y w es la probabldad de que el ejemplo pertenezca al cluster A. La cuestón es determnar cuándo se fnalza el procedmento, es decr en que momento se dejan de realzar teracones. En el algortmo k-medas se fnalzaba cuando nngún ejemplo de entrenamento cambaba de cluster en una teracón, alcanzándose así un punto fjo [fxed pont]. En el algortmo EM es un poco más complcado, dado que el algortmo tende a converger pero nunca se llega a nngún punto fjo. Sn embargo, se puede ver cuánto se acerca calculando la verosmltud [lkelhood] general de los datos con esos parámetros, multplcando las probabldades de los ejemplos, tal y como se muestra en la ecuacón 2.0. N clusters p j Px j Ec. 2.0 j En esta ecuacón j representa cada uno de los clusters del sstema, y p j la probabldad de dcho cluster. La verosmltud es una medda de lo bueno que es el clusterng, y se ncrementa con cada teracón del algortmo EM. Se segurá terando hasta que dcha medda se ncremente un valor desprecable. Técncas de Análss de Datos Págna 05 de 266

113 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Aunque EM garantza la convergenca, ésta puede ser a un máxmo local, por lo que se recomenda repetr el proceso varas veces, con dferentes parámetros ncales para las dstrbucones. Tras estas repetcones, se pueden comparar las meddas de verosmltud obtendas y escoger la mayor de todas ellas. En la fgura 2.7 se muestra un ejemplo de clusterng probablístco con el algortmo EM. Fgura 3.7: Ejemplo de clusterng con EM. En este expermento se ntroducen un total de doscentos ejemplos que consttuyen dos dstrbucones desconocdas para el algortmo. Lo únco que conoce el algortmo es que hay dos clusters, dado que este dato se ntroduce como parámetro de entrada. En la teracón 0 se ncalzan los parámetros de los clusters a 0 (meda, desvacón típca y probabldad). En las sguentes teracones estos parámetros van tomando forma hasta fnalzar en la teracón, teracón en la que fnalza el proceso, por el ncremento de la medda de verosmltud, tan sólo del orden de 0-4. Extensones al algortmo EM Técncas de Análss de Datos Págna 06 de 266

114 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco El modelo puede extenderse desde un atrbuto numérco como se ha vsto hasta el momento, hasta múltples atrbutos, asumendo ndependenca entre atrbutos. Las probabldades de cada atrbuto se multplcan entre sí para obtener una probabldad conjunta para la nstanca, tal y como se hace en el algortmo nave Bayesano. Tambén puede haber atrbutos correlaconados, en cuyo caso se puede modelar con una dstrbucón normal bvarable, en donde se utlza una matrz de covaranza. En este caso el número de parámetros crece según el cuadrado del número de atrbutos que se consderen correlaconados entre sí, ya que se debe construr una matrz de covaranza. Esta escalabldad en el número de parámetros tene seras consecuencas de sobreajuste. En el caso de un atrbuto nomnal con v posbles valores, se caracterza medante v valores numércos que representan la probabldad de cada valor. Se necestarán otros kv valores numércos, que serán las probabldades condconadas de cada posble valor del atrbuto con respecto a cada cluster. En cuanto a los valores desconocdos, se puede optar por varas solucones: gnorarlo en el productoro de probabldades; añadr un nuevo valor a los posbles, sólo en el caso de atrbutos nomnales; o tomar la meda o la moda del atrbuto, según se trate de atrbutos numércos o nomnales. Por últmo, aunque se puede especfcar el número de clusters, tambén es posble dejar que sea el algortmo el que determne automátcamente cuál es el número de clusters medante valdacón cruzada Reglas de Asocacón Este tpo de técncas se emplea para establecer las posbles relacones o correlacones entre dstntas accones o sucesos aparentemente ndependentes; pudendo reconocer como la ocurrenca de un suceso o accón puede nducr o generar la aparcón de otros [AIS93b]. Son utlzadas cuando el objetvo es realzar análss exploratoros, buscando relacones dentro del conjunto de datos. Las asocacones dentfcadas pueden usarse para predecr comportamentos, y permten descubrr correlacones y co-ocurrencas de eventos [AS94, AS94a, AS94b]. Debdo a sus característcas, estas técncas tenen una gran aplcacón práctca en muchos campos como, por ejemplo, el comercal ya que son especalmente nteresantes a la hora de comprender los hábtos de compra de los clentes y consttuyen un plar básco en la concepcón de las ofertas y ventas cruzada, así como del "merchandsng" [RMS98]. En otros entornos como el santaro, estas herramentas se emplean para dentfcar factores de resgo en la aparcón o complcacón de enfermedades. Para su utlzacón es necesaro dsponer de nformacón de cada uno de los sucesos llevados a cabo por un msmo ndvduo o clente en un determnado período temporal. Por lo general esta forma de extraccón de conocmento se fundamenta en técncas estadístcas [CHY96], como los análss de correlacón y de varacón [BMS97]. Uno de los algortmos mas utlzado es el algortmo A pror, que se presenta a contnuacón. Algortmo A Pror La generacón de reglas de asocacón se logra basándose en un procedmento de coverng. Las reglas de asocacón son parecdas, en su forma, a las reglas de clasfcacón, s ben en su lado derecho puede aparecer cualquer par o Técncas de Análss de Datos Págna 07 de 266

115 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco pares atrbuto-valor. De manera que para encontrar ese tpo de reglas es precso consderar cada posble combnacón de pares atrbuto-valor del lado derecho. Para evaluar las reglas se emplean la medda del soporte [support], ecuacón 2., que ndca el número de casos, ejemplos, que cubre la regla y la confanza [confdence], ecuacón 2.2, que ndca el número de casos que predce la regla correctamente, y que vene expresado como el cocente entre el número de casos en que se cumple la regla y el número de casos en que se aplca, ya que se cumplen las premsas. confanza soporte A B PA B Ec. 2. A B PB A A P A B Ec. 2.2 P Las reglas que nteresan son úncamente aquellas que tenen su valor de soporte muy alto, por lo que se buscan, ndependentemente de en qué lado aparezcan, pares atrbuto-valor que cubran una gran cantdad de ejemplos. A cada par atrbuto-valor se le denomna tem, mentras que a un conjunto de tems se les denomna tem-sets. Por supuesto, para la formacón de tem-sets no se pueden unr tems referdos al msmo atrbuto pero con dstnto valor, dado que eso nunca se podría producr en un ejemplo. Se buscan tem-sets con un máxmo soporte, para lo que se comenza con tem-sets con un únco tem. Se elmnan los tem-sets cuyo valor de soporte sea nferor al mínmo establecdo, y se combnan el resto formando tem-sets con dos tems. A su vez se elmnan aquellos nuevos tem-sets que no cumplan con la condcón del soporte, y al resto se le añadrá un nuevo tem, formando tem-sets con tres tems. El proceso contnuará hasta que ya no se puedan formar tem-sets con un tem más. Además, para generar los tem-sets de un determnado nvel, sólo es necesaro emplear los tem-sets del nvel nferor (con n- concdencas, sendo n el número de tems del nvel). Una vez se han obtendo todos los tem-sets, se pasará a la generacón de reglas. Se tomará cada tem-set y se formarán reglas que cumplan con la condcón de confanza. Debe tenerse en cuenta que un tem-set puede dar lugar a más de una regla de asocacón, al gual que un tem-set tambén puede no dar lugar a nnguna regla. Un ejemplo típco de reglas de asocacón es el análss de la cesta de la compra [market-basket analyss]. Báscamente consste en encontrar asocacones entre los productos que habtualmente compran los clentes, para utlzarlas en el desarrollo de las estrategas mercadotécncas. En la fgura 2.8 se muestra un ejemplo sencllo de obtencón de reglas de asocacón aplcado a este campo. Técncas de Análss de Datos Págna 08 de 266

116 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.8: Ejemplo de obtencón de reglas de asocacón A Pror. En esta magen se muestra cómo se forman los tem-sets a partr de los temsets del nvel nferor, y cómo posterormente se obtenen las reglas de asocacón a partr de los tem-sets selecconados. Las reglas en negrta son las que se obtendrían, dado que cumplen con la confanza mínma requerda. El proceso de obtencón de las reglas de asocacón que se comentó anterormente se basa en el algortmo que se muestran en la fgura 2.9 (A pror, Agrawal et al. 94).. Genera todos los tems-sets con un elemento. Usa éstos para generar los de dos elementos y así sucesvamente. Se toman todos los posbles pares que cumplen con las meddas mínmas del soporte. Esto permte r elmnando posbles combnacones ya que no todas se tenen que consderar. 2. Genera las reglas revsando que cumplan con el crtero mínmo de confanza. Técncas de Análss de Datos Págna 09 de 266

117 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.9: Algortmo de obtencón de reglas de asocacón A Pror. Una observacón nteresante es que s una conjuncón de consecuentes de una regla cumple con los nveles mínmos de soporte y confanza, sus subconjuntos (consecuentes) tambén los cumplen. Por el contraro, s algún tem no los cumple, no tene caso consderar sus superconjuntos. Esto da una forma de r construyendo reglas, con un solo consecuente, y a partr de ellas construr de dos consecuentes y así sucesvamente La predccón Es el proceso que ntenta determnar los valores de una o varas varables, a partr de un conjunto de datos. La predccón de valores contnuos puede planfcarse por las técncas estadístcas de regresón [JAM85, DEV95, AGR96]. Por ejemplo, para predecr el sueldo de un graduado de la unversdad con 0 años de experenca de trabajo, o las ventas potencales de un nuevo producto dado su preco. Se pueden resolver muchos problemas por medo de la regresón lneal, y puede consegurse todavía más aplcando las transformacones a las varables para que un problema no lneal pueda convertrse a uno lneal. A contnuacón se presenta una ntroduccón ntutva de las deas de regresón lneal, múltple, y no lneal, así como la generalzacón a los modelos lneales. Más adelante, dentro de la clasfcacón, se estudarán varas técncas de data mnng que pueden servr para predccón numérca. De entre todas ellas las más mportantes se presentaran en la clasfcacón bayesana, la basada en ejemplares y las redes de neuronas. A contnuacón se mostrarán un conjunto de técncas que específcamente srven para la predccón Regresón no lneal. En muchas ocasones los datos no muestran una dependenca lneal [FRI9]. Esto es lo que sucede s, por ejemplo, la varable respuesta depende de las varables ndependentes según una funcón polnómca, dando lugar a una regresón polnómca que puede planearse agregando las condcones polnómcas al modelo lneal básco. De está forma y aplcando certas transformacones a las varables, se puede convertr el modelo no lneal en uno lneal que puede resolverse entonces por el método de mínmos cuadrados. Por ejemplo consdérese una relacón polnómca cúbca dada por: y = a + b x + b 2 x 2 + b 3 x 3. Ec Para convertr esta ecuacón a la forma lneal, se defnen las nuevas varables: x = x x 2 = x 2 x 3 =x 3 Ec Con lo que la ecuacón anteror puede convertrse entonces a la forma lneal aplcando los cambos de varables, y resultando la ecuacón 2.27, que es resoluble por el método de mínmos cuadrados Técncas de Análss de Datos Págna 0 de 266

118 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco y = a + b x + b 2 x 2 + b 3 x 3 Ec No obstante, algunos modelos son especalmente no lneales como, por ejemplo, la suma de térmnos exponencales y no pueden convertrse a un modelo lneal. Para estos casos, puede ser posble obtener las estmacones del mínmo cuadrado a través de cálculos extensos en formulas más complejas. Los modelos lneales generalzados representan el fundamento teórco en que la regresón lneal puede aplcarse para modelar las categorías de las varables dependentes. En los modelos lneales generalzados, la varacón de la varable y es una funcón del valor medo de y, dstnto a la regresón lneal dónde la varacón de y es constante. Los tpos comunes de modelos lneales generalzados ncluyen regresón logístca y regresón del Posson. La regresón logístca modela la probabldad de algún evento que ocurre como una funcón lneal de un conjunto de varables ndependentes. Frecuentemente los datos exhben una dstrbucón de Posson y se modelan normalmente usando la regresón del Posson. Los modelos lneales logarítmcos [PEA88] aproxman las dstrbucones de probabldad multdmensonales dscretas, y pueden usarse para estmar el valor de probabldad asocado con los datos de las células cúbcas. Por ejemplo, suponendo que se tenen los datos para los atrbutos cudad, artículo, año, y ventas. En el método logarítmco lneal, todos los atrbutos deben ser categorías; por lo que los atrbutos estmados contnuos (como las ventas) deben ser prevamente dscretzados Árboles de Predccón Los árboles de predccón numérca son smlares a los árboles de decsón, que se estudarán más adelante, excepto en que la clase a predecr es contnua. En este caso, cada nodo hoja almacena un valor de clase consstente en la meda de las nstancas que se clasfcan con esa hoja, en cuyo caso estamos hablando de un árbol de regresón, o ben un modelo lneal que predce el valor de la clase, y se habla de árbol de modelos. En el caso del algortmo M5 [WF00], se trata de obtener un árbol de modelos, s ben se puede utlzar para obtener un árbol de regresón, por ser éste un caso específco de árbol de modelos. Mentras que en el caso de los árboles de decsón se emplea la entropía de clases para defnr el atrbuto con el que dvdr, en el caso de la predccón numérca se emplea la varanza del error en cada hoja. Una vez construdo el árbol que clasfca las nstancas se realza la poda del msmo, tras lo cual, se obtene para cada nodo hoja una constante en el caso de los árboles de regresón o un plano de regresón en el caso de árboles de modelos. En éste últmo caso, los atrbutos que formarán parte de la regresón serán aquellos que partcpaban en el subárbol que ha sdo podado. Técncas de Análss de Datos Págna de 266

119 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Al construr un árbol de modelos y defnr, para cada hoja, un modelo lneal con los atrbutos del subárbol podado suele ser benefcoso, sobre todo cuando se tene un pequeño conjunto de entrenamento, realzar un proceso de suavzado [smoothng] que compense las dscontnudades que ocurren entre modelos lneales adyacentes. Este proceso consste en: cuando se predce el valor de una nstanca de test con el modelo lneal del nodo hoja correspondente, este valor obtendo se fltra haca atrás hasta el nodo hoja, suavzando dcho valor al combnarlo con el modelo lneal de cada nodo nteror por el que pasa. Un modelo que se suele utlzar es el que se muestra en la ecuacón np kq p' Ec n k En esta ecuacón, p es la predccón que llega al nodo (desde abajo), p es la predccón fltrada haca el nvel superor, q el valor obtendo por el modelo lneal de este nodo, n es el número de ejemplos que alcanzan el nodo nferor y k el factor de suavzado. Para construr el árbol se emplea como heurístca el mnmzar la varacón nterna de los valores de la clase dentro de cada subconjunto. Se trata de selecconar aquel atrbuto que maxmce la reduccón de la desvacón estándar de error (SDR, [standard devaton reducton]) con la fórmula que se muestra en la ecuacón E SDR SD(E) SD(E ) Ec E En esta ecuacón E es el conjunto de ejemplos en el nodo a dvdr, E j es cada uno de los conjuntos de ejemplos que resultan en la dvsón en el nodo según el atrbuto consderado, E es el número de ejemplos del conjunto E y SD(E) la desvacón típca de los valores de la clase en E. El proceso de dvsón puede fnalzar porque la desvacón típca es una pequeña fraccón (por ejemplo, el 5%) de la desvacón típca del conjunto orgnal de nstancas o porque hay pocas nstancas (por ejemplo, 2). En la fgura 2.2 se muestra un ejemplo de generacón del árbol de predccón con el algortmo M5. Para ello se muestra en prmer lugar los ejemplos de entrenamento, en los que se trata de predecr los puntos que un jugador de baloncesto anotaría en un partdo. Técncas de Análss de Datos Págna 2 de 266

120 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.0: Ejemplo de generacón del árbol de predccón con M5. En cada nodo del árbol se muestra la desvacón típca de los ejemplos de entrenamento que ncden en el nodo (SD(E)) y la desvacón estándar del error para el atrbuto y el punto de corte que lo maxmza, por lo que es el selecconado. Para obtener el atrbuto y el punto de corte se debe calcular la desvacón estándar del error para cada posble punto de corte. En este caso, la fnalzacón de la construccón del árbol ocurre porque no se puede segur subdvdendo, ya que en cada hoja hay dos ejemplos (número mínmo permtdo). Por últmo, tras generar el árbol, en cada hoja se añade la meda de los valores de la clase de los ejemplos que se clasfcan a través de dcha hoja. Una vez se ha construdo el árbol se va defnendo, para cada nodo nteror (no para las hojas para emplear el proceso de suavzado) un modelo lneal, concretamente una regresón lneal múltple, tal y como se mostró anterormente. Úncamente se emplean para realzar esta regresón aquellos atrbutos que se utlzan en el subárbol del nodo en cuestón. A contnuacón se pasa al proceso de poda, en el que se estma, para cada nodo, el error esperado en el conjunto de test. Para ello, lo prmero que se hace es calcular la desvacón de las predccones del nodo con los valores reales de la clase para los ejemplos de entrenamento que se clasfcan por el msmo nodo. Sn embargo, dado que el árbol se ha construdo con estos ejemplos, el error puede nfravalorarse, con lo que se compensa con el factor (n v) (n v), donde n es el número de ejemplos de entrenamento que se clasfcan por el nodo actual y v es el número de parámetros del modelo lneal. De esta forma, la estmacón del error en un conjunto I de ejemplos se realzaría con la ecuacón n v n v e(i) MAE n - v n - v I y - yˆ n Ec En la ecuacón 2.30, MAE es el error medo absoluto [mean absolute error] del modelo, donde y es el valor de la clase para el ejemplo y ŷ la predccón del modelo para el msmo ejemplo. Para podar el árbol, se comenza por las hojas del msmo y se va comparando el error estmado para el nodo con el error estmado para los hjos del msmo, para lo cuál se emplea la ecuacón 2.3. Técncas de Análss de Datos Págna 3 de 266

121 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco e() e(d)d e(subárbol) Ec. 2.3 n En la ecuacón 2.3, e() y e(d) son los errores estmados para los nodos hjo zquerdo y derecho, x el número de ejemplos que se clasfca por el nodo x y n el número de ejemplos que se clasfca por el nodo padre. Comparando el error estmado para el nodo con el error estmado para el subárbol, se decde podar s no es menor el error para el subárbol. El proceso explcado hasta el momento srve para el caso de que los atrbutos sean numércos pero, s los atrbutos son nomnales será precso modfcar el proceso: en prmer lugar, se calcula el promedo de la clase en los ejemplos de entrenamento para cada posble valor del atrbuto nomnal, y se ordenan dchos valores de acuerdo a este promedo. Entonces, un atrbuto nomnal con k posbles valores se transforma en k- atrbutos bnaros. El -ésmo atrbuto bnaro tendrá, para un ejemplo dado, un 0 s el valor del atrbuto nomnal es uno de los prmeros valores del orden establecdo y un en caso contraro. Con este proceso se logra tratar los atrbutos nomnales como numércos. Tambén es necesaro determnar cómo se actuará frente a los atrbutos para los que faltan valores. En este caso, se modfca lgeramente la ecuacón 2.29 para llegar hasta la ecuacón c E SDR SD(E) SD(E ) Ec E E En esta ecuacón c es el número de ejemplos con el atrbuto conocdo. Una vez explcadas las característcas de los árboles de predccón numérca, se pasa a mostrar el algortmo M5, cuyo pseudocódgo se recoge en la fgura 2.3. M5 (ejemplos) { SD = sd(ejemplos) Para cada atrbuto nomnal con k-valores convertr en k- atrbutos bnaros raíz = nuevo nodo raíz.ejemplos = ejemplos Dvdr(raíz) Podar(raíz) Dbujar(raíz) } Dvdr(nodo) { S tamaño(nodo.ejemplos)<4 O sd(nodo.ejemplos)<=0.05*sd Entonces nodo.tpo = HOJA S no nodo.tpo = INTERIOR Para cada atrbuto Para cada posble punto de dvsón del atrbuto calcular el SDR del atrbuto nodo.atrbuto = atrbuto con mayor SDR Dvdr(nodo.zquerda) Dvdr(nodo.derecha) } Podar(nodo) { Técncas de Análss de Datos Págna 4 de 266

122 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco } S nodo = INTERIOR Podar(nodo.hjozquerdo) Podar(nodo.hjoderecho) nodo.modelo = RegresonLnear(nodo) S ErrorSubarbol(nodo) > Error(nodo) Entonces nodo.tpo = HOJA ErrorSubarbol(nodo) { l = nodo.zquerda r = nodo.derecha S nodo = INTERIOR Entonces ErrorSubarbol = (tamaño(l.ejemplos)*errorsubarbol(l) + tamaño(r.ejemplos)*errorsubarbol(r))tamaño(nodo.ejemplos) S no ErrorSubarbol = error(nodo) } Fgura 3.: Pseudocódgo del algortmo M5. La funcón RegresonLnear generará la regresón correspondente al nodo en el que nos encontramos. La funcón error evaluará el error del nodo medante la ecuacón Estmador de Núcleos Los estmadores de densdad de núcleo [kernel densty] son estmadores no paramétrcos. De entre los que destaca el conocdo hstograma, por ser uno de los más antguos y más utlzado, que tene certas defcencas relaconadas con la contnudad que llevaron a desarrollar otras técncas. El estmador de núcleos fue propuesto por Rosenblatt en 956 y Parzen en 962 [DFL96]. La dea en la que se basan los estmadores de densdad de núcleo es la sguente. S X es una varable aleatora con funcón de dstrbucón F y densdad f, entonces en cada punto de contnudad x de f se confrma la ecuacón f(x) lmh 0 Fx h Fx h Ec h Dada una muestra X,...,X n provenente de la dstrbucón F, para cada h fjo, F(x+h)-F(x-h) se puede estmar por la proporcón de observacones que están dentro del ntervalo (x-h, x+h). Por lo tanto, tomando h pequeño, un estmador natural de la densdad es el que se muestra en la ecuacón 2.34, donde #A es el número de elementos del conjunto A. f ˆ n, h(x) # X : X x - h,x h 2hn Ec Otra manera de expresar este estmador es consderando la funcón de peso w defnda como se muestra en la ecuacón 2.35, de manera que el estmador de la densdad f en el punto x se puede expresar como se expresa en la ecuacón Técncas de Análss de Datos Págna 5 de 266

123 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Ec (x) n x - X w h h n fˆ n,h Ec Pero este estmador no es una funcón contnua, ya que tene saltos en los puntos X ±h y su dervada es 0 en todos los otros puntos. Por ello se ha sugerdo reemplazar a la funcón w por funcones más suaves K, llamadas núcleos, lo que da orgen a los estmadores de núcleos. El estmador de núcleos de una funcón de densdad f calculado a partr de una muestra aleatora X,...,X n de dcha densdad se defne según la ecuacón (x) nh x - X K h n fˆ n,h Ec En la ecuacón 2.37, la funcón K se elge generalmente entre las funcones de densdad conocdas, por ejemplo gaussana, que se muestra en la ecuacón 2.38, donde σ es la desvacón típca de la dstrbucón y μ la meda. f(x) 2 xμ 2 2σ e Ec πσ El otro parámetro de la ecuacón 2.37 es h, llamado ventana, parámetro de suavzado o ancho de banda, el cual determna las propedades estadístcas del estmador: el sesgo crece y la varanza decrece con h [HALI94]. Es decr que s h es grande, los estmadores están sobresuavzados y son sesgados, y s h es pequeño, los estmadores resultantes están subsuavzados, lo que equvale a decr que su varanza es grande. Fgura 3.2: Importanca del parámetro tamaño de ventana en el estmador de núcleos. A pesar de que la eleccón del núcleo K determna la forma de la densdad estmada, la lteratura sugere que esta eleccón no es crítca, al menos entre las alternatvas usuales [DEA97]. Más mportante es la eleccón del tamaño de ventana. En la fgura 2.4 se muestra cómo un valor pequeño para este factor hace que la Técncas de Análss de Datos Págna 6 de 266

124 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco funcón de dstrbucón generada esté subsuavzada. Mentras, al emplear un h demasado grande provoca el sobresuavzado de la funcón de dstrbucón. Por últmo, empleando el h óptmo se obtene la funcón de dstrbucón adecuada. Para determnar un ancho de banda con el cual comenzar, una alternatva es calcular el ancho de banda óptmo s se supone que la densdad tene una forma específca. La ventana óptma en el sentdo de mnmzar el error medo cuadrátco ntegrado, defndo como la esperanza de la ntegral del error cuadrátco sobre toda la densdad, fue calculada por Bowman [BOW85], y Slverman [SIL86] y depende de la verdadera densdad f y del núcleo K. Al suponer que ambos, la densdad y el núcleo son normales, la ventana óptma resulta ser la que se muestra en la ecuacón h* -/5.06 n Ec En la ecuacón 2.39 σ es la desvacón típca de la densdad. La utlzacón de esta h será adecuada s la poblacón se asemeja en su dstrbucón a la de la normal; sn embargo s trabajamos con poblacones multmodales se producrá una sobresuavzacón de la estmacón. Por ello el msmo autor sugere utlzar meddas robustas de dspersón en lugar de σ, con lo cual el ancho de banda óptmo se obtene como se muestra en la ecuacón /5 σ,0.75 IQR n h*.06 mn Ec En la ecuacón 2.40 IQR es el rango ntercuartílco, esto es, la dferenca entre los percentles 75 y 25 [DEA97]. Una vez defndos todos los parámetros a tener en cuenta para emplear un estmador de núcleos, hay que defnr cómo se obtene, a partr del msmo, el valor de la varable a predecr, y, en funcón del valor de la varable dependente, x. Esto se realza medante el estmador de Nadaraya-Watson, que se muestra en la ecuacón 2.4. m(x) ˆ E Y X x n n x - X K Y h x - X r K h r Ec. 2.4 En la ecuacón 2.4 x es el valor del atrbuto dependente a partr del cual se debe obtener el valor de la varable ndependente y; Y es el valor del atrbuto ndependente para el ejemplo de entrenamento. Una vez completada la explcacón de cómo aplcar los estmadores de núcleos para predecr el valor de una clase numérca, se muestra, en la fgura 2.5, un ejemplo de su utlzacón basado en los ejemplos de la tabla 2. (apartado 2.5), tomando la varable temperatura como predctora y la varable humedad como dependente o a predecr. Técncas de Análss de Datos Págna 7 de 266

125 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.3: Ejemplo de predccón con un estmador de núcleos. En prmer lugar se defnen los parámetros que se van a emplear para el estmador de núcleos: la funcón núcleo y el parámetro de suavzado. Posterormente se puede realzar la predccón, que en este caso consste en predecr el valor del atrbuto humedad sabendo que la temperatura es gual a 77. Después de completar el proceso se determna que el valor de la humedad es gual a Aplcacón a problemas multvarantes Hasta el momento se han explcado las bases sobre las que se sustentan los estmadores de núcleos, pero en los problemas reales no es una únca varable la que debe tratarse, sno que han de tenerse en cuenta un número ndetermnado de varables. Por ello, es necesaro amplar el modelo explcado para permtr la ntroduccón de d varables. Así, supongamos n ejemplos X, sendo X un vector d- dmensonal. El estmador de núcleos de la funcón de densdad f calculado a partr de la muestra aleatora X,...,X n de dcha densdad se defne como se muestra en la ecuacón n n, H (x) K H x - X n H fˆ Ec Tal y como puede verse, la ecuacón 2.42 es una mera amplacón de la ecuacón 2.37: en este caso H no es ya un únco valor numérco, sno una matrz smétrca y defnda postva de orden d d, denomnada matrz de anchos de ventana. Por su parte K es generalmente una funcón de densdad multvarante. Por ejemplo, la funcón gaussana normalzada en este caso pasaría a ser la que se muestra en la ecuacón Técncas de Análss de Datos Págna 8 de 266

126 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco f(x) 2π d 2 e T x x 2 Ec De nuevo, es más mportante defnr una correcta matrz H que la funcón núcleo elegda. Tambén el estmador de Nadaraya-Watson, que se muestra en la ecuacón 2.44, es una amplacón del vsto en la ecuacón 2.4. m(x) ˆ E Y X x n n r K H K H x - X x - X Y Ec Tal y como se ve en la ecuacón 2.44, el cambo radca en que se tene una matrz de anchos de ventana en lugar de un únco valor de ancho de ventana. Aplcacón a problemas de clasfcacón S ben los estmadores de núcleo son dseñados para la predccón numérca, tambén pueden utlzarse para la clasfcacón. En este caso, se dspone de un conjunto de c clases a las que puede pertenecer un ejemplo determnado. Y estos ejemplos se componen de d varables o atrbutos. Se puede estmar la densdad de la clase j medante la ecuacón 2.45, en la que n j es el número de ejemplos de j entrenamento que pertenecen a la clase j, Y será en caso de que el ejemplo pertenezca a la clase j y 0 en otro caso, K vuelve a ser la funcón núcleo y h el ancho de ventana. En este caso se ha realzado la smplfcacón del modelo multvarante, empleando en lugar de una matrz de anchos de ventana un únco valor escalar porque es el modelo que se utlza en la mplementacón que realza WEKA de los estmadores de núcleo. n x - X fˆ j -d j(x) Y h K Ec n h j La probabldad a pror de que un ejemplo pertenezca a la clase j es gual a Pj n j n. Se puede estmar la probabldad a posteror, defnda medante q j (x), de que el ejemplo pertenezca a j, tal y como se muestra en la ecuacón P fˆ j j(x) q j(x) f(x) P fˆ j j(x) P fˆ (x) c k k k n n r j d x X Y h K h qˆ d x X r h K h j (x) Ec De esta forma, el estmador en este caso es déntco al estmador de Nadayara-Watson representado en las ecuacones 2.4 y Por últmo, se muestra un ejemplo de la aplcacón de un estmador de núcleos a un problema de clasfcacón: se trata del problema planteado en la tabla 2. (apartado 2.5), y más concretamente se trata de predecr el valor de la clase jugar a partr úncamente del atrbuto numérco temperatura. Este ejemplo se muestra en la fgura 2.6. Técncas de Análss de Datos Págna 9 de 266

127 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.4: Ejemplo de clasfcacón medante un estmador de núcleos. Al gual que para el problema de predccón, en prmer lugar se defnen los parámetros del estmador de núcleos para, posterormente, estmar la clase a la que pertenece el ejemplo de test. En este caso se trata de predecr s se puede jugar o no al tens tenendo en cuenta que la temperatura es gual a 77. Y la conclusón a la que se llega utlzando el estmador de núcleos es que sí se puede jugar La clasfcacón La clasfcacón es el proceso de dvdr un conjunto de datos en grupos mutuamente excluyentes [WK9, LAN96, MIT97], de tal forma que cada membro de un grupo esté lo mas cerca posble de otros y grupos dferentes estén lo más lejos posble de otros, donde la dstanca se mde con respecto a las varables especfcadas, que se queren predecr. Tabla2.. Ejemplo de problema de clasfcacón. Ejemplo Vsta Temperatura Humedad Vento Jugar Soleado Alta (85) Alta (85) No No 2 Soleado Alta (80) Alta (90) Sí No 3 Nublado Alta (83) Alta (86) No Sí 4 Lluvoso Meda (70) Alta (96) No Sí Técncas de Análss de Datos Págna 20 de 266

128 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco 5 Lluvoso Baja (68) Normal (80) No Sí 6 Lluvoso Baja (65) Normal (70) Sí No 7 Nublado Baja (64) Normal (65) Sí Sí 8 Soleado Meda (72) Alta (95) No No 9 Soleado Baja (69) Normal (70) No Sí 0 Lluvoso Meda (75) Normal (80) No Sí Soleado Meda (75) Normal (70) Sí Sí 2 Nublado Meda (72) Alta (90) Sí Sí 3 Nublado Alta (8) Normal (75) No Sí 4 Lluvoso Meda (7) Alta (9) Sí No El ejemplo empleado tene dos atrbutos, temperatura y humedad, que pueden emplearse como smbólcos o numércos. Entre paréntess se presentan sus valores numércos. En los sguentes apartados se presentan y explcan las prncpales técncas de clasfcacón. Además, se mostrarán ejemplos que permten observar el funconamento del algortmo, para lo que se utlzará la tabla 2., que presenta un sencllo problema de clasfcacón consstente en, a partr de los atrbutos que modelan el tempo (vsta, temperatura, humedad y vento), determnar s se puede o no jugar al tens Tabla de Decsón La tabla de decsón consttuye la forma más smple y rudmentara de representar la salda de un algortmo de aprendzaje, que es justamente representarlo como la entrada. Estos algortmos conssten en selecconar subconjuntos de atrbutos y calcular su precsón [accuracy] para predecr o clasfcar los ejemplos. Una vez selecconado el mejor de los subconjuntos, la tabla de decsón estará formada por los atrbutos selecconados (más la clase), en la que se nsertarán todos los ejemplos de entrenamento úncamente con el subconjunto de atrbutos elegdo. S hay dos ejemplos con exactamente los msmos pares atrbuto-valor para todos los atrbutos del subconjunto, la clase que se elja será la meda de los ejemplos (en el caso de una clase numérca) o la que mayor probabldad de aparcón tenga (en el caso de una clase smbólca). Técncas de Análss de Datos Págna 2 de 266

129 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco La precsón de un subconjunto S de atrbutos para todos los ejemplos de entrenamentos se calculará medante la ecuacón 2.47 para el caso de que la clase sea smbólca o medante la ecuacón 2.48 en el caso de que la clase sea numérca: ejemplos ben clasfcados precsón( S) Ec ejemplos totales precsón( S) RMSE I (y - yˆ ) n 2 Ec Donde, en la ecuacón 2.48, RMSE es la raíz cuadrada del error cuadrátco medo [root mean squared error], n es el número de ejemplos totales, y el valor de la clase para el ejemplo y ŷ el valor predcho por el modelo para el ejemplo. Como ejemplo de tabla de decsón, smplemente se puede utlzar la propa tabla 2., dado que s se comenzase a combnar atrbutos y a probar la precsón de dcha combnacón, se obtendría como resultado que los cuatro atrbutos deben emplearse, con lo que la tabla de salda sería la msma. Esto no tene por qué ser así, ya que en otros problemas no serán necesaros todos los atrbutos para generar la tabla de decsón, como ocurre en el ejemplo de la tabla 2.2 donde se dspone de un conjunto de entrenamento en el que aparecen los atrbutos sexo, y tpo (tpo de profesor) y la clase a determnar es s el tpo de contrato es o no fjo. Tabla2.2. Determnacón del tpo de contrato. Atrbutos Clase Ejemplo Nº Sexo Tpo Fjo Hombre Asocado No 2 Mujer Catedrátco S 3 Hombre Ttular S 4 Mujer Asocado No 5 Hombre Catedrátco S 6 Mujer Asocado No 7 Hombre Ayudante No 8 Mujer Ttular S Técncas de Análss de Datos Págna 22 de 266

130 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco 9 Hombre Asocado No 0 Mujer Ayudante No Hombre Asocado No S se toma como prmer subconjunto el formado por el atrbuto sexo, y se elmnan las repetcones resulta la tabla 2.3 Tabla2.3. Subconjunto. Ejemplo Nº Sexo Fjo Hombre No 2 Mujer S 3 Hombre S 4 Mujer No Con lo que se pone de manfesto que la probabldad de clasfcar ben es del 50%. S por el contraro se elmna el atrbuto Sexo, quedará la tabla 2.4. Tabla2.4. Subconjunto 2. Ejemplo Nº Tpo Fjo Asocado No 2 Catedrátco S 3 Ttular S 7 Ayudante No Que tene una precsón de acertos del 00%, por lo que se deduce que ésta últma tabla es la que se debe tomar como tabla de decsón. El resultado es lógco ya que el atrbuto sexo es rrelevante a la hora de determnar s el contrato es o no fjo Árboles de Decsón El aprendzaje de árboles de decsón está englobado como una metodología del aprendzaje supervsado. La representacón que se utlza para las descrpcones del concepto adqurdo es el árbol de decsón, que consste en una representacón del conocmento relatvamente smple y que es una de las causas por la que los procedmentos utlzados en su aprendzaje son más sencllos que los de sstemas que Técncas de Análss de Datos Págna 23 de 266

131 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco utlzan lenguajes de representacón más potentes, como redes semántcas, representacones en lógca de prmer orden etc. No obstante, la potenca expresva de los árboles de decsón es tambén menor que la de esos otros sstemas. El aprendzaje de árboles de decsón suele ser más robusto frente al rudo y conceptualmente sencllo, aunque los sstemas que han resultado del perfecconamento y de la evolucón de los más antguos se complcan con los procesos que ncorporan para ganar fabldad. La mayoría de los sstemas de aprendzaje de árboles suelen ser no ncrementales, pero exste alguna excepcón [UTG88]. El prmer sstema que construía árboles de decsón fue CLS de Hunt, desarrollado en 959 y depurado a lo largo de los años sesenta. CLS es un sstema desarrollado por pscólogos como un modelo del proceso cogntvo de formacón de conceptos sencllos. Su contrbucón fundamental fue la propa metodología pero no resultaba computaconalmente efcente debdo al método que empleaba en la extensón de los nodos. Se guaba por una estratega smlar al mnmax con una funcón que ntegraba dferentes costes. En 979 Qunlan desarrolla el sstema ID3 [QUIN79], que él denomnaría smplemente herramenta porque la consderaba expermental. Conceptualmente es fel a la metodología de CLS pero le aventaja en el método de expansón de los nodos, basado en una funcón que utlza la medda de la nformacón de Shannon. La versón defntva, presentada por su autor Qunlan como un sstema de aprendzaje, es el sstema C4.5 que expone con certo detalle en la obra C4.5: Programs for Machne Learnng [QUIN93]. La evolucón -comercal- de ese sstema es otro denomnado C5 del msmo autor, del que se puede obtener una versón de demostracón restrngda en cuanto a capacdades; por ejemplo, el número máxmo de ejemplos de entrenamento. Representacón de un árbol de decsón Un árbol de decsón [MUR98] puede nterpretarse esencalmente como una sere de reglas compactadas para su representacón en forma de árbol. Dado un conjunto de ejemplos, estructurados como vectores de pares ordenados atrbuto-valor, de acuerdo con el formato general en el aprendzaje nductvo a partr de ejemplos, el concepto que estos sstemas adqueren durante el proceso de aprendzaje consste en un árbol. Cada eje está etquetado con un par atrbuto-valor y las hojas con una clase, de forma que la trayectora que determnan desde la raíz los pares de un ejemplo de entrenamento alcanzan una hoja etquetada -normalmente- con la clase del ejemplo. La clasfcacón de un ejemplo nuevo del que se desconoce su clase se hace con la msma técnca, solamente que en ese caso al atrbuto clase, cuyo valor se desconoce, se le asgna de acuerdo con la etqueta de la hoja a la que se accede con ese ejemplo. Problemas apropados para este tpo de aprendzaje Técncas de Análss de Datos Págna 24 de 266

132 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Las característcas de los problemas apropados para resolver medante este aprendzaje dependen del sstema de aprendzaje específco utlzado, pero hay una sere de ellas generales y comunes a la mayoría y que se descrben a contnuacón: - Que la representacón de los ejemplos sea medante vectores de pares atrbuto-valor, especalmente cuando los valores son dsjuntos y en un número pequeño. Los sstemas actuales están preparados para tratar atrbutos con valores contnuos, valores desconocdos e ncluso valores con una dstrbucón de probabldad. - Que el atrbuto que hace el papel de la clase sea de tpo dscreto y con un número pequeño de valores, sn embargo exsten sstemas que adqueren como concepto aprenddo funcones con valores contnuos. - Que las descrpcones del concepto adqurdo deban ser expresadas en forma normal dsyuntva. - Que posblemente exstan errores de clasfcacón en el conjunto de ejemplos de entrenamento, así como valores desconocdos en algunos de los atrbutos en algunos ejemplos Estos sstemas, por lo general, son robustos frente a los errores del tpo menconado. A contnuacón se presentan tres algortmos de árboles de decsón, los dos prmeros dseñados por Qunlan [QUIN86, QUIN93], los sstemas ID3 y C4.5; y el tercero un árbol de decsón muy sencllo, con un únco nvel de decsón. El sstema ID3 El sstema ID3 [QUIN86] es un algortmo smple y, sn embargo, potente, cuya msón es la elaboracón de un árbol de decsón. El procedmento para generar un árbol de decsón consste, como se comentó anterormente en selecconar un atrbuto como raíz del árbol y crear una rama con cada uno de los posbles valores de dcho atrbuto. Con cada rama resultante (nuevo nodo del árbol), se realza el msmo proceso, esto es, se seleccona otro atrbuto y se genera una nueva rama para cada posble valor del atrbuto. Este procedmento contnúa hasta que los ejemplos se clasfquen a través de uno de los camnos del árbol. El nodo fnal de cada camno será un nodo hoja, al que se le asgnará la clase correspondente. Así, el objetvo de los árboles de decsón es obtener reglas o relacones que permtan clasfcar a partr de los atrbutos. En cada nodo del árbol de decsón se debe selecconar un atrbuto para segur dvdendo, y el crtero que se toma para elegrlo es: se seleccona el atrbuto que mejor separe (ordene) los ejemplos de acuerdo a las clases. Para ello se emplea la entropía, que es una medda de cómo está ordenado el unverso. La teoría de la nformacón (basada en la entropía) calcula el número de bts (nformacón, preguntas sobre atrbutos) que hace falta sumnstrar para conocer la clase a la que pertenece un ejemplo. Cuanto menor sea el valor de la entropía, menor será la ncertdumbre y más útl será el atrbuto para la clasfcacón. La defncón de entropía que da Shannon en su Teoría de la Informacón (948) es: Dado un conjunto de eventos A={A, A 2,..., A n }, con probabldades {p, p 2,..., p n }, la nformacón en el conocmento de un suceso A Técncas de Análss de Datos Págna 25 de 266

133 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco (bts) se defne en la ecuacón 2.49, mentras que la nformacón meda de A (bts) se muestra en la ecuacón I(A ) log 2 log 2 p p Ec n n I(A ) plog 2(p ) I(A) p Ec S aplcamos la entropía a los problemas de clasfcacón se puede medr lo que se dscrmna (se gana por usar) un atrbuto A empleando para ello la ecuacón 2.5, en la que se defne la gananca de nformacón. G(A ) I I(A ) Ec. 2.5 Sendo I la nformacón antes de utlzar el atrbuto e I(A ) la nformacón después de utlzarlo. Se defnen ambas en las ecuacones 2.52 y I nc c nc nc log 2 n n Ec nv(a ) n nc j n jk njk I (A ) Ij ; I j log 2 Ec j n k nj nj En estas ecuacones nc será el número de clases y n c el número de ejemplares de la clase c, sendo n el número total de ejemplos. Será nv(a ) el número de valores del atrbuto A, n j el número de ejemplos con el valor j en A y n jk el número de ejemplos con valor j en A y que pertenecen a la clase k. Una vez explcada la heurístca empleada para selecconar el mejor atrbuto en un nodo del árbol de decsón, se muestra el algortmo ID3:. Selecconar el atrbuto A que maxmce la gananca G(A ). 2. Crear un nodo para ese atrbuto con tantos sucesores como valores tenga. 3. Introducr los ejemplos en los sucesores según el valor que tenga el atrbuto A. 4. Por cada sucesor: a. S sólo hay ejemplos de una clase, C k, entonces etquetarlo con C k. b. S no, llamar a ID3 con una tabla formada por los ejemplos de ese nodo, elmnando la columna del atrbuto A. Técncas de Análss de Datos Págna 26 de 266

134 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.5: Pseudocódgo del algortmo ID3. Por últmo, en la fgura 2.8 se representa el proceso de generacón del árbol de decsón para el problema planteado en la tabla 2.. Fgura 3.6: Ejemplo de clasfcacón con ID3. En la fgura 2.8 se muestra el árbol de decsón que se generaría con el algortmo ID3. Además, para el prmer nodo del árbol se muestra cómo se llega a decdr que el mejor atrbuto para dcho nodo es vsta. Se generan nodos para cada valor del atrbuto y, en el caso de vsta = Nublado se llega a un nodo hoja ya que todos los ejemplos de entrenamento que llegan a dcho nodo son de clase Sí. Sn embargo, para los otros dos casos se repte el proceso de eleccón con el resto de atrbutos y con los ejemplos de entrenamento que se clasfcan a través de ese nodo. El sstema C4.5 El ID3 es capaz de tratar con atrbutos cuyos valores sean dscretos o contnuos. En el prmer caso, el árbol de decsón generado tendrá tantas ramas como valores posbles tome el atrbuto. S los valores del atrbuto son contnuos, el ID3 no clasfca correctamente los ejemplos dados. Por ello, Qunlan [QUIN93] propuso el C4.5, como extensón del ID3, que permte:. Empleo del concepto razón de gananca (GR, [Gan Rato]) 2. Construr árboles de decsón cuando algunos de los ejemplos presentan valores desconocdos para algunos de los atrbutos. 3. Trabajar con atrbutos que presenten valores contnuos. 4. La poda de los árboles de decsón [QUIN87, QR89]. Técncas de Análss de Datos Págna 27 de 266

135 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco 5. Obtencón de Reglas de Clasfcacón. Razón de Gananca El test basado en el crtero de maxmzar la gananca tene como sesgo la eleccón de atrbutos con muchos valores. Esto es debdo a que cuanto más fna sea la partcpacón producda por los valores del atrbuto, normalmente, la ncertdumbre o entropía en cada nuevo nodo será menor, y por lo tanto tambén será menor la meda de la entropía a ese nvel. C4.5 modfca el crtero de seleccón del atrbuto empleando en lugar de la gananca la razón de gananca, cuya defncón se muestra en la ecuacón G(A ) GR (A ) I(Dvsón A ) nv(a ) j G(A ) nj nj log 2 n n Ec Al térmno I(Dvsón A ) se le denomna nformacón de ruptura. En esta medda cuando n j tende a n, el denomnador se hace 0. Esto es un problema aunque según Qunlan, la razón de gananca elmna el sesgo. Valores Desconocdos El sstema C4.5 admte ejemplos con atrbutos desconocdos tanto en el proceso de aprendzaje como en el de valdacón. Para calcular, durante el proceso de aprendzaje, la razón de gananca de un atrbuto con valores desconocdos, se redefnen sus dos térmnos, la gananca, ecuacón 2.55, y la nformacón de ruptura, ecuacón nc G(A ) (I - I(A )) n Ec I(Dvsón A ) nv(a ) j nj nj n d log 2 n n n nd log 2 n Ec En estas ecuacones, n c es el número de ejemplos con el atrbuto conocdo, y n d el número de ejemplos con valor desconocdo en el msmo atrbuto. Además, para el cálculo de las entropía I(A ) se tendrán en cuenta úncamente los ejemplos en los que el atrbuto A tenga un valor defndo. No se toma el valor desconocdo como sgnfcatvo, sno que se supone una dstrbucón probablístca del atrbuto de acuerdo con los valores de los ejemplos en la muestra de entrenamento. Cuando se entrena, los casos con valores desconocdos se dstrbuyen con pesos de acuerdo a la frecuenca de aparcón de cada posble valor del atrbuto en el resto de ejemplos de entrenamento. El peso ω j con que un ejemplo se dstrburía desde un nodo etquetado con el atrbuto A haca el hjo con valor j en Técncas de Análss de Datos Págna 28 de 266

136 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco dcho atrbuto se calcula medante la ecuacón 2.57, en la que ω es el peso del ejemplo al llegar al nodo, esto es, antes de dstrburse, y p(a=j) la suma de pesos de todos los ejemplos del nodo con valor j en el atrbuto A entre la suma total de pesos de todos los ejemplos del nodo (ω). ω j ω p(a j) ω ω A j ω Ec En cuanto a la clasfcacón de un ejemplo de test, s se alcanza un nodo con un atrbuto que el ejemplo no tene (desconocdo), se dstrbuye el ejemplo (dvde) en tantos casos como valores tenga el atrbuto, y se da un peso a cada resultado con el msmo crtero que en el caso del entrenamento: la frecuenca de aparcón de cada posble valor del atrbuto en los ejemplos de entrenamento. El resultado de esta técnca es una clasfcacón con probabldades, correspondentes a la dstrbucón de ejemplos en cada nodo hoja. Atrbutos Contnuos El tratamento que realza C4.5 de los atrbutos contnuos está basado en la gananca de nformacón, al gual que ocurre con los atrbutos dscretos. S un atrbuto contnuo A presenta los valores ordenados v, v 2,..., v n, se comprueba cuál de los valores z =(v + v + )/2 ; j < n, supone una ruptura del ntervalo [v, v n ] en dos subntervalos [v, z j ] y (z j, v n ] con mayor gananca de nformacón. El atrbuto contnuo, ahora con dos úncos valores posbles, entrará en competenca con el resto de los atrbutos dsponbles para expandr el nodo. Técncas de Análss de Datos Págna 29 de 266

137 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.7: Ejemplo de tratamento de atrbutos contnuos con C4.5. Para mejorar la efcenca del algortmo no se consderan todos los posbles puntos de corte, sno que se tenen en cuenta las sguentes reglas:. Cada subntervalo debe tener un número mínmo de ejemplos (por ejemplo, 2). 2. No se dvde el ntervalo s el sguente ejemplo pertenece a la msma clase que el actual. 3. No se dvde el ntervalo s el sguente ejemplo tene el msmo valor que el actual. 4. Se unen subntervalos adyacentes s tenen la msma clase mayortara. Como se ve en el ejemplo de la fgura 2.9, aplcando las reglas anterores sólo es precso probar dos puntos de corte (66,5 y 77,5), mentras que s no se empleara nnguna de las mejoras que se comentaron anterormente se deberían haber probado un total de trece puntos. Como se ve en la fgura 2.9, fnalmente se tomaría como punto de ruptura el 77,5, dado que obtene una mejor gananca. Una vez selecconado el punto de corte, este atrbuto numérco competría con el resto de atrbutos. S ben aquí se ha empleado la gananca, realmente se emplearía la razón de gananca, pero no afecta a la eleccón del punto de corte. Cabe menconar que ese atrbuto no deja de estar dsponble en nveles nferores como en el caso de los dscretos, aunque con sus valores restrngdos al ntervalo que domna el camno. Poda del árbol de decsón El árbol de decsón ha sdo construdo a partr de un conjunto de ejemplos, por tanto, reflejará correctamente todo el grupo de casos. Sn embargo, como esos ejemplos pueden ser muy dferentes entre sí, el árbol resultante puede llegar a ser bastante complejo, con trayectoras largas y muy desguales. Para facltar la comprensón del árbol puede realzarse una poda del msmo. C4.5 efectúa la poda después de haber desarrollado el árbol completo (post-poda), a dferenca de otros sstemas que realzan la construccón del árbol y la poda a la vez (pre-poda); es decr, estman la necesdad de segur desarrollando un nodo aunque no posea el carácter de hoja. En C4.5 el proceso de podado comenza en los nodos hoja y recursvamente contnúa hasta llegar al nodo raíz. Se consderan dos operacones de poda en C4.5: reemplazo de sub-árbol por hoja (subtree replacement) y elevacón de sub-árbol (subtree rasng). En la fgura 2.20 se muestra en lo que consste cada tpo de poda. Técncas de Análss de Datos Págna 30 de 266

138 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.8: Tpos de operacones de poda en C4.5. En esta fgura tenemos el árbol orgnal antes del podado (a), y las dos posbles accones de podado a realzar sobre el nodo nterno C. En (b) se realza subtree replacement, en cuyo caso el nodo C es reemplazado por uno de sus subárboles. Por últmo, en (c) se realza subtree rasng: El nodo B es susttudo por el subárbol con raíz C. En este últmo caso hay que tener en cuenta que habrá que reclasfcar de nuevo los ejemplos a partr del nodo C. Además, subtree rasng es muy costoso computaconalmente hablando, por lo que se suele restrngr su uso al camno más largo a partr del nodo (hasta la hoja) que estamos podando. Como se comentó anterormente, el proceso de podado comenza en las hojas y contnúa haca la raíz pero, la cuestón es cómo decdr reemplazar un nodo nterno por una hoja (replacement) o reemplazar un nodo nterno por uno de sus nodos hjo (rasng). Lo que se hace es comparar el error estmado de clasfcacón en el nodo en el que nos encontramos y compararlo con el error en cada uno de sus hjos y en su padre para realzar alguna de las operacones o nnguna. En la fgura 2.2 se muestra el pseudocódgo del proceso de podado que se emplea en C4.5. Podar (raíz) { S raíz No es HOJA Entonces Para cada hjo H de raíz Hacer Podar (H) Obtener Brazo más largo (B) de raíz // rasng ErrorBrazo = EstmarErrorArbol (B, raíz.ejemplos) ErrorHoja = EstmarError (raíz, raíz.ejemplos) // replacement ErrorÁrbol = EstmarErrorArbol (raíz, raíz.ejemplos) S ErrorHoja <= ErrorÁrbol Entonces // replacement raíz es Hoja Fn Poda } S ErrorBrazo <= ErrorÁrbol Entonces // rasng raíz = B Podar (raíz) EstmarErrorArbol (raíz, ejemplos) { S raíz es HOJA Entonces Técncas de Análss de Datos Págna 3 de 266

139 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco } EstmarError (raíz, ejemplos) S no Dstrbur los ejemplos (ej[]) en los brazos Para cada brazo (B) error = error + EstmarErrorArbol (B, ej[b]) Fgura 3.9: Pseudocódgo del algortmo de podado en C4.5. De esta forma, el subtree rasng se emplea úncamente para el subárbol más largo. Además, para estmar su error se emplean los ejemplos de entrenamento, pero los del nodo orgen, ya que s se eleva deberá clasfcarlos él. En cuanto a la funcón EstmarError, es la funcón que estma el error de clasfcacón de una hoja del árbol. Así, para tomar la decsón debemos estmar el error de clasfcacón en un nodo determnado para un conjunto de test ndependente. Habrá que estmarlo tanto para los nodos hoja como para los nternos (suma de errores de clasfcacón de sus hjos). No se puede tomar como dato el error de clasfcacón en el conjunto de entrenamento dado que, lógcamente, el error se subestmaría. Una técnca para estmar el error de clasfcacón es la denomnada reducederror prunng, que consste en dvdr el conjunto de entrenamento en n subconjuntos n- de los cuáles servrán realmente para el entrenamento del sstema y para la estmacón del error. Sn embargo, el problema es que la construccón del clasfcador se lleva a cabo con menos ejemplos. Esta no es la técnca empleada en C4.5. La técnca empleada en C4.5 consste en estmar el error de clasfcacón basándose en los propos ejemplos de entrenamento. Para ello, en el nodo donde queramos estmar el error de clasfcacón, se toma la clase mayortara de sus ejemplos como clase representante. Esto mplca que habrá E errores de clasfcacón de un total de N ejemplos que se clasfcan a través de dcho nodo. El error observado será f=e/n, sendo q la probabldad de error de clasfcacón del nodo y p=-q la probabldad de éxto. Se supone que la funcón f sgue una dstrbucón bnomal de parámetro q. Y lo que se desea obtener es el error e, que será la probabldad del extremo superor con un ntervalo [f-z, f+z] de confanza c. Dado que se trata de una dstrbucón bnomal, se obtendrá e medante las ecuacones 2.58 y P f - q q(- q)/n z c Ec f 2 z f z 2N N z N e 2 2 f N 2 z 4N 2 Ec Como factor c (factor de confanza) se suele emplear en C4.5 el 25%, dado que es el que mejores resultados suele dar y que corresponde a un z=0.69. Técncas de Análss de Datos Págna 32 de 266

140 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Obtencón de Reglas de Clasfcacón Cualquer árbol de decsón se puede convertr en reglas de clasfcacón, entendendo como tal una estructura del tpo S <Condcón> Entonces <Clase>. El algortmo de generacón de reglas consste báscamente en, por cada rama del árbol de decsón, las preguntas y sus valores estarán en la parte zquerda de las reglas y la etqueta del nodo hoja correspondente en la parte derecha (clasfcacón). Sn embargo, este procedmento generaría un sstema de reglas con mayor complejdad de la necesara. Por ello, el sstema C4.5 [QUIN93] realza un podado de las reglas obtendas. En la fgura 2.22 se muestra el algortmo completo de obtencón de reglas. ObtenerReglas (árbol) { Convertr el árbol de decsón (árbol) a un conjunto de reglas, R error = error de clasfcacón con R Para cada regla R de R Hacer Para cada precondcón pj de R Hacer nuevoerror = error al elmnar pj de R S nuevoerror <= error Entonces Elmnar pj de R error = nuevoerror S R no tene precondcones Entonces Elmnar R } Fgura 3.20: Pseudocódgo del algortmo de obtencón de reglas de C4.5. En cuanto a la estmacón del error, se realza del msmo modo que para realzar el podado del árbol de decsón. Técncas de Análss de Datos Págna 33 de 266

141 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Decson Stump (Árbol de un solo nvel) Todavía exste un algortmo más sencllo que genera un árbol de decsón de un únco nvel. Se trata de un algortmo, [decson stump], que utlza un únco atrbuto para construr el árbol de decsón. La eleccón del únco atrbuto que formará parte del árbol se realzará basándose en la gananca de nformacón, y a pesar de su smplcdad, en algunos problemas puede llegar a consegur resultados nteresantes. No tene opcones de confguracón, pero la mplementacón es muy completa, dado que admte tanto atrbutos numércos como smbólcos y clases de ambos tpos tambén. El árbol de decsón tendrá tres ramas: una de ellas será para el caso de que el atrbuto sea desconocdo, y las otras dos serán para el caso de que el valor del atrbuto del ejemplo de test sea gual a un valor concreto del atrbuto o dstnto a dcho valor, en caso de los atrbutos smbólcos, o que el valor del ejemplo de test sea mayor o menor a un determnado valor en el caso de atrbutos numércos. En el caso de los atrbutos smbólcos se consdera cada valor posble del msmo y se calcula la gananca de nformacón con el atrbuto gual al valor, dstnto al valor y valores desconocdos del atrbuto. En el caso de atrbutos smbólcos se busca el mejor punto de ruptura, tal y como se vo en el sstema C4.5. Deben tenerse en cuenta cuatro posbles casos al calcular la gananca de nformacón: que sea un atrbuto smbólco y la clase sea smbólca o que la clase sea numérca, o que sea un atrbuto numérco y la clase sea smbólca o que la clase sea numérca. A contnuacón se comenta cada caso por separado. Atrbuto Smbólco y Clase Smbólca Se toma cada vez un valor v x del atrbuto smbólco A como base y se consderan úncamente tres posbles ramas en la construccón del árbol: que el atrbuto A sea gual a v x, que el atrbuto A sea dstnto a v x o que el valor del atrbuto A sea desconocdo. Con ello, se calcula la entropía del atrbuto tomando como base el valor escogdo tal y como se muestra en la ecuacón 2.60, en la que el valor de j en el sumatoro va desde a 3 porque los valores del atrbuto se restrngen a tres: gual a v x, dstnto de v x o valor desconocdo. En cuanto a los parámetros, n j es el número de ejemplos con valor j en el atrbuto, n el número total de ejemplos y n jk el número de ejemplos con valor j en el atrbuto y que pertenece a la clase k. I(A v x ) 3 njlog nj Ij nc j ; I j njklog njk n k Ec Atrbuto Numérco y Clase Smbólca Se ordenan los ejemplos según el atrbuto A y se consdera cada valor v x del atrbuto como posble punto de corte. Se consderan entonces como posbles valores del atrbuto el rango menor o gual a v x, mayor a v x y valor desconocdo. Se calcula la entropía del rango tomando como base esos tres posbles valores restrngdos del atrbuto. Atrbuto Smbólco y Clase Numérca Técncas de Análss de Datos Págna 34 de 266

142 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Se vuelve a tomar como base cada vez cada valor del atrbuto, tal y como se hacía en el caso Atrbuto Smbólco y Clase Smbólca, pero en este caso se calcula la varanza de la clase para los valores del atrbuto medante la ecuacón 2.6, donde S j es la suma de los valores de la clase de los ejemplos con valor j en el atrbuto, SS j es la suma de los valores de la clase al cuadrado y W j es la suma de los pesos de los ejemplos (número de ejemplos s no se ncluyen pesos) con valor j en el atrbuto. Varanza(A vx Atrbuto Numérco y Clase Numérca ) 3 j SS j S - W j j Ec. 2.6 Se consdera cada valor del atrbuto como punto de corte tal y como se hacía en el caso Atrbuto Numérco y Clase Smbólca. Posterormente, se calcula la varanza tal y como se muestra en la ecuacón 2.6. En cualquera de los cuatro casos que se han comentado, lo que se busca es el valor mínmo de la ecuacón calculada, ya sea la entropía o la varanza. De esta forma se obtene el atrbuto que será raíz del árbol de decsón y sus tres ramas. Lo únco que se hará por últmo es construr dcho árbol: cada rama fnalza en un nodo hoja con el valor de la clase, que será la meda o la moda de los ejemplos que se clasfcan por ese camno, según se trate de una clase numérca o smbólca Reglas de Clasfcacón Las técncas de Induccón de Reglas [QUIN87, QUIN93] surgeron hace más de dos décadas y permten la generacón y contraste de árboles de decsón, o reglas y patrones a partr de los datos de entrada. La nformacón de entrada será un conjunto de casos donde se ha asocado una clasfcacón o evaluacón a un conjunto de varables o atrbutos. Con esa nformacón estas técncas obtenen el árbol de decsón o conjunto de reglas que soportan la evaluacón o clasfcacón [CN89, HMM86]. En los casos en que la nformacón de entrada posee algún tpo de rudo" o defecto (nsufcentes atrbutos o datos, atrbutos rrelevantes o errores u omsones en los datos) estas técncas pueden habltar métodos estadístcos de tpo probablístco para generar árboles de decsón recortados o podados. Tambén en estos casos pueden dentfcar los atrbutos rrelevantes, la falta de atrbutos dscrmnantes o detectar "gaps" o huecos de conocmento. Esta técnca suele llevar asocada una alta nteraccón con el analsta de forma que éste pueda ntervenr en cada paso de la construccón de las reglas, ben para aceptarlas, ben para modfcarlas [MM95]. La nduccón de reglas se puede lograr fundamentalmente medante dos camnos: Generando un árbol de decsón y extrayendo de él las reglas [QUIN93], como puede hacer el sstema C4.5 o ben medante una estratega de coverng, consstente en tener en cuenta cada vez una clase y buscar las reglas necesaras para cubrr [cover] todos los ejemplos de esa clase; cuando se obtene una regla se elmnan todos los ejemplos que cubre y se contnúa buscando más reglas hasta que no haya más ejemplos de la clase. A contnuacón se muestran una técnca de nduccón de reglas basada en árboles de decsón, otra basada en coverng y una más que mezcla las dos estrategas. Técncas de Análss de Datos Págna 35 de 266

143 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Algortmo R El más smple algortmo de reglas de clasfcacón para un conjunto de ejemplos es el R [HOL93]. Este algortmo genera un árbol de decsón de un nvel expresado medante reglas. Consste en selecconar un atrbuto (nodo raíz) del cual nace una rama por cada valor, que va a parar a un nodo hoja con la clase más probable de los ejemplos de entrenamento que se clasfcan a través suyo. Este algortmo se muestra en la fgura R (ejemplos) { Para cada atrbuto (A) Para cada valor del atrbuto (A) Contar el número de aparcones de cada clase con A Obtener la clase más frecuente (Cj) Crear una regla del tpo A -> Cj Calcular el error de las reglas del atrbuto A Escoger las reglas con menor error } Fgura 3.2: Pseudocódgo del algortmo R. La clase debe ser smbólca, mentras los atrbutos pueden ser smbólcos o numércos. Tambén admte valores desconocdos, que se toman como otro valor más del atrbuto. En cuanto al error de las reglas de un atrbuto, consste en la proporcón entre los ejemplos que cumplen la regla y los ejemplos que cumplen la premsa de la regla. En el caso de los atrbutos numércos, se generan una sere de puntos de ruptura [breakpont], que dscretzarán dcho atrbuto formando conjuntos. Para ello, se ordenan los ejemplos por el atrbuto numérco y se recorren. Se van contando las aparcones de cada clase hasta un número m que ndca el mínmo número de ejemplos que pueden pertenecer a un conjunto, para evtar conjuntos demasado pequeños. Por últmo, se unen a este conjunto ejemplos con la clase más frecuente y ejemplos con el msmo valor en el atrbuto. La sencllez de este algortmo es un poco nsultante. Su autor llega a decr [HOL93; pag 64] : Program R s ordnary n most respects. Tanto es así que R no tene nngún elemento de sofstfcacón y genera para cada atrbuto un árbol de profunddad, donde una rama está etquetada por mssng s es que aparecen valores desconocdos (mssng values) en ese atrbuto en el conjunto de entrenamento; el resto de las ramas tenen como etqueta un ntervalo construdo de una manera muy smple, como se ha explcado antes, o un valor nomnal, según el tpo de atrbuto del que se trate. Lo sorprendente de este sstema es su rendmento. En [HOL93] se descrben rendmentos que en meda están por debajo de los de C4.5 en 5,7 puntos porcentuales de acertos de clasfcacón. Para la realzacón de las pruebas, Holte, elge un conjunto de 6 problemas del almacén de la U.C.I. [Blake, Keog, Merz, 98] que desde entonces han gozado de certo reconocmento como conjunto de pruebas; en alguno de estos problemas ntroduce algunas modfcacones que tambén se han hecho estándar. El mecansmo de estmacón consste en separar el subconjunto de entrenamento orgnal en subconjuntos de entrenamento y test en Técncas de Análss de Datos Págna 36 de 266

144 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco proporcón 2/3 y /3 respectvamente y repetr el expermento 25 veces. Aunque la dferenca de 5,7 es algo elevada, en realdad en 4 de los 6 problemas la dferenca es solo de 3, puntos. En la tabla 2.5 se presenta un ejemplo de R, basado en los ejemplos de la tabla 2.. Tabla2.5. Resultados del algortmo R. atrbuto reglas errores error total vsta Soleado no Nublado s 2/5 0/4 4/4 Lluvoso s 2/5 temperatura Alta no Meda s 2/4 2/6 5/4 Baja s /4 humedad Alta no 3/7 4/4 Normal s /7 vento Falso s Certo no 2/8 3/6 5/4 Para clasfcar según la clase jugar, R consdera cuatro conjuntos de reglas, uno por cada atrbuto, que son las mostradas en la tabla anteror, en las que además aparecen los errores que se cometen. De esta forma se concluye que como los errores mínmos corresponden a las reglas generadas por los atrbutos vsta y humedad, cualquera de ellas es valda, de manera que arbtraramente se puede elegr cualquera de estos dos conjuntos de reglas como generador de R. Algortmo PRISM PRISM [CEN87] es un algortmo básco de aprendzaje de reglas que asume que no hay rudo en los datos. Sea t el número de ejemplos cubertos por la regla y p el número de ejemplos postvos cubertos por la regla. Lo que hace PRISM es añadr condcones a reglas que maxmcen la relacón p/t (relacón entre los ejemplos postvos cubertos y ejemplos cubertos en total). En la fgura 2.24 se muestra el algortmo de PRISM. PRISM (ejemplos) { Para cada clase (C) E = ejemplos Mentras E tenga ejemplos de C Crea una regla R con parte zquerda vacía y clase C Hasta R perfecta Hacer Para cada atrbuto A no ncludo en R y cada valor v de A Consdera añadr la condcón A=v a la parte zquerda de R Seleccona el par A=v que maxmce p/t (en caso de empates, escoge la que tenga p mayor) Añadr A=v a R Elmna de E los ejemplos cubertos por R Fgura 3.22: Pseudocódgo del algortmo PRISM. Este algortmo va elmnando los ejemplos que va cubrendo cada regla, por lo que las reglas tenen que nterpretarse en orden. Se habla entonces de lstas de reglas [decson lst]. En la fgura 2.25 se muestra un ejemplo de cómo actúa el algortmo. Concretamente se trata de la aplcacón del msmo sobre el ejemplo de la tabla 2.. Técncas de Análss de Datos Págna 37 de 266

145 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.23: Ejemplo de PRISM. En la fgura 2.25 se muestra cómo el algortmo toma en prmer lugar la clase Sí. Partendo de todos los ejemplos de entrenamento (un total de catorce) calcula el cocente p/t para cada par atrbuto-valor y escoge el mayor. En este caso, dado que la condcón escogda hace la regla perfecta (p/t = ), se elmnan los cuatro ejemplos que cubre dcha regla y se busca una nueva regla. En la segunda regla se obtene en un prmer momento una condcón que no hace perfecta la regla, por lo que se contnúa buscando con otra condcón. Fnalmente, se muestra la lsta de decsón completa que genera el algortmo. Algortmo PART Uno de los sstemas más mportantes de aprendzaje de reglas es el proporconado por C4.5 [QUI93], explcado anterormente. Este sstema, al gual que otros sstemas de nduccón de reglas, realza dos fases: prmero, genera un conjunto de reglas de clasfcacón y después refna estas reglas para mejorarlas, realzando así una proceso de optmzacón global de dchas reglas. Este proceso de optmzacón global es sempre muy complejo y costoso computaconalmente hablando. Por otro lado, el algortmo PART [FRWI98] es un sstema que obtene reglas sn dcha optmzacón global. Recbe el nombre PART por su modo de actuacón: obtanng rules from PARTal decson trees, y fue desarrollado por el grupo neozelandés que construyó el entorno WEKA [WF98]. Técncas de Análss de Datos Págna 38 de 266

146 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco El sstema se basa en las dos estrategas báscas para la nduccón de reglas: el coverng y la generacón de reglas a partr de árboles de decsón. Adopta la estratega del coverng (con lo que se obtene una lsta de decsón) dado que genera una regla, elmna los ejemplares que dcha regla cubre y contnúa generando reglas hasta que no queden ejemplos por clasfcar. Sn embargo, el proceso de generacón de cada regla no es el usual. En este caso, para crear una regla, se genera un árbol de decsón podado, se obtene la hoja que clasfque el mayor número de ejemplos, que se transforma en la regla, y posterormente se elmna el árbol. Unendo estas dos estrategas se consgue mayor flexbldad y velocdad. Además, no se genera un árbol completo, sno un árbol parcal [partal decsón tree]. Un árbol parcal es un árbol de decsón que contene brazos con subárboles no defndos. Para generar este árbol se ntegran los procesos de construccón y podado hasta que se encuentra un subárbol estable que no puede smplfcarse más, en cuyo caso se para el proceso y se genera la regla a partr de dcho subárbol. Este proceso se muestra en la fgura Expandr (ejemplos) { elegr el mejor atrbuto para dvdr en subconjuntos Mentras (subconjuntos No expanddos) Y (todos los subconjuntos expanddos son HOJA) Expandr (subconjunto) S (todos los subconjuntos expanddos son HOJA) Y (errorsubárbol >= errornodo) deshacer la expansón del nodo y nodo es HOJA Fgura 3.24: Pseudocódgo de expansón de PART. El proceso de eleccón del mejor atrbuto se hace como en el sstema C4.5, esto es, basándose en la razón de gananca. La expansón de los subconjuntos generados se realza en orden, comenzando por el que tene menor entropía y fnalzando por el que tene mayor. La razón de realzarlo así es porque s un subconjunto tene menor entropía hay más probabldades de que se genere un subárbol menor y consecuentemente se cree una regla más general. El proceso contnúa recursvamente expandendo los subconjuntos hasta que se obtenen hojas, momento en el que se realzará una vuelta atrás [backtrackng]. Cuando se realza dcha vuelta atrás y los hjos del nodo en cuestón son hojas, comenza el podado tal y como se realza en C4.5 (comparando el error esperado del subárbol con el del nodo), pero úncamente se realza la funcón de reemplazamento del nodo por hoja [subtree replacement]. S se realza el podado se realza otra vuelta atrás haca el nodo padre, que sgue explorando el resto de sus hjos, pero s no se puede realzar el podado el padre no contnuará con la exploracón del resto de nodos hjos (ver segunda condcón del bucle mentras en la fgura 2.26). En este momento fnalzará el proceso de expansón y generacón del árbol de decsón. Técncas de Análss de Datos Págna 39 de 266

147 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.25: Ejemplo de generacón de árbol parcal con PART. En la fgura 2.27 se presenta un ejemplo de generacón de un árbol parcal donde, junto a cada brazo de un nodo, se muestra el orden de exploracón (orden ascendente según el valor de la entropía). Los nodos con relleno grs claro son los que aún no se han explorado y los nodos con relleno grs oscuro los nodos hoja. Las flechas ascendentes representan el proceso de backtrackng. Por últmo, en el paso 5, cuando el nodo 4 es explorado y los nodos 9 y 0 pasan a ser hoja, el nodo padre ntenta realzar el proceso de podado, pero no se realza el reemplazo (representado con el 4 en negrta), con lo que el proceso, al volver al nodo, fnalza sn explorar el nodo 2. Una vez generado el árbol parcal se extrae una regla del msmo. Cada hoja se corresponde con una posble regla, y lo que se busca es la mejor hoja. S ben se pueden consderar otras heurístcas, en el algortmo PART se consdera mejor hoja aquella que cubre un mayor número de ejemplos. Se podría haber optado, por ejemplo, por consderar mejor aquella que tene un menor error esperado, pero tener una regla muy precsa no sgnfca lograr un conjunto de reglas muy precso. Por últmo, PART permte que haya atrbutos con valores desconocdos tanto en el proceso de aprendzaje como en el de valdacón y atrbutos numércos, tratándolos exactamente como el sstema C Clasfcacón Bayesana Los clasfcadores Bayesanos [DH73] son clasfcadores estadístcos, que pueden predecr tanto las probabldades del número de membros de clase, como la probabldad de que una muestra dada pertenezca a una clase partcular. La clasfcacón Bayesana se basa en el teorema de Bayes, y los clasfcadores Bayesanos han demostrado una alta exacttud y velocdad cuando se han aplcado a grandes bases de datos Dferentes estudos comparando los algortmos de clasfcacón han determnado que un clasfcador Bayesano sencllo conocdo como el clasfcador nave Bayesano [JOH97] es comparable en rendmento a un árbol de decsón y a clasfcadores de redes de neuronas. A contnuacón se explca los fundamentos de los clasfcadores bayesanos y, más concretamente, del clasfcador nave Bayesano. Tras esta explcacón se comentará otro clasfcador que, s ben no es un clasfcador bayesano, esta relaconado con él, dado que se trata tambén de un clasfcador basado en la estadístca. Técncas de Análss de Datos Págna 40 de 266

148 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Clasfcador Nave Bayesano Lo que normalmente se quere saber en aprendzaje es cuál es la mejor hpótess (más probable) dados los datos. S denotamos P(D) como la probabldad a pror de los datos (.e., cuales datos son más probables que otros), P(D h) la probabldad de los datos dada una hpótess, lo que queremos estmar es: P(h D), la probabldad posteror de h dados los datos. Esto se puede estmar con el teorema de Bayes, ecuacón hph D P D Ph D Ec P Para estmar la hpótess más probable (MAP, [maxmum a posteror hpótess]) se busca el mayor P(h D) como se muestra en la ecuacón h MAP argmax argmax argmax hh hh P P H Ph D D hph PD D hph h Ec Ya que P(D) es una constante ndependente de h. S se asume que todas las hpótess son gualmente probables, entonces resulta la hpótess de máxma verosmltud (ML, [maxmum lkelhood]) de la ecuacón h ML argmax P D h Ec hh El clasfcador nave [ngenuo] Bayesano se utlza cuando se quere clasfcar un ejemplo descrto por un conjunto de atrbutos (a 's) en un conjunto fnto de clases (V). Clasfcar un nuevo ejemplo de acuerdo con el valor más probable dados los valores de sus atrbutos. S se aplca 2.64 al problema de la clasfcacón se obtendrá la ecuacón v MAP argmax argmax argmax v V j v V j v V Pv j a,...,an j,...,a v Pv P a n j Pa,...,a P a,...,a v Pv n j n j j Ec Además, el clasfcador nave Bayesano asume que los valores de los atrbutos son condconalmente ndependentes dado el valor de la clase, por lo que se hace certa la ecuacón 2.66 y con ella la P a,...,a v Pa n j v j Ec Técncas de Análss de Datos Págna 4 de 266

149 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco v j a,...,an Pv j Pa v j P Ec Los clasfcadores nave Bayesanos asumen que el efecto de un valor del atrbuto en una clase dada es ndependente de los valores de los otros atrbutos. Esta suposcón se llama ndependenca condconal de clase. Ésta smplfca los cálculos nvolucrados y, en este sentdo, es consderado "ngenuo [nave]. Esta asuncón es una smplfcacón de la realdad. A pesar del nombre del clasfcador y de la smplfcacón realzada, el nave Bayesano funcona muy ben, sobre todo cuando se fltra el conjunto de atrbutos selecconado para elmnar redundanca, con lo que se elmna tambén dependenca entre datos. En la fgura 2.28 se muestra un ejemplo de aprendzaje con el clasfcador nave Bayesano, así como una muestra de cómo se clasfcaría un ejemplo de test. Como ejemplo se empleará el de la tabla 2.. Fgura 3.26: Ejemplo de aprendzaje y clasfcacón con nave Bayesano. En este ejemplo se observa que en la fase de aprendzaje se obtenen todas las probabldades condconadas P(a v j ) y las probabldades P(v j ). En la clasfcacón se realza el productoro y se escoge como clase del ejemplo de entrenamento la que obtenga un mayor valor. Algo que puede ocurrr durante el entrenamento con este clasfcador es que para cada valor de cada atrbuto no se encuentren ejemplos para todas las clases. Supóngase que para el atrbuto a y el valor j de dcho atrbuto no hay nngún ejemplo de entrenamento con clase k. En este caso, P(a j k)=0. Esto hace que s se ntenta clasfcar cualquer ejemplo con el par atrbuto-valor a j, la probabldad asocada para la clase k será sempre 0, ya que hay que realzar el productoro de las probabldades condconadas para todos los atrbutos de la nstanca. Para resolver este problema se parte de que las probabldades se contablzan a partr de las frecuencas de aparcón de cada evento o, en nuestro caso, las frecuencas de aparcón de cada terna atrbuto-valor-clase. El estmador de Laplace, consste en Técncas de Análss de Datos Págna 42 de 266

150 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco comenzar a contablzar la frecuenca de aparcón de cada terna a partr del y no del 0, con lo que nnguna probabldad condconada será gual a 0. Una ventaja de este clasfcador es la cuestón de los valores perddos o desconocdos: en el clasfcador nave Bayesano s se ntenta clasfcar un ejemplo con un atrbuto sn valor smplemente el atrbuto en cuestón no entra en el productoro que srve para calcular las probabldades. Respecto a los atrbutos numércos, se suele suponer que sguen una dstrbucón Normal o Gaussana. Para estos atrbutos se calcula la meda μ y la desvacón típca σ obtenendo los dos parámetros de la dstrbucón N(μ, σ), que sgue la expresón de la ecuacón 2.68, donde el parámetro x será el valor del atrbuto numérco en el ejemplo que se quere clasfcar. f x 2 xμ 2 2σ e Ec πσ Votacón por ntervalos de característcas Este algortmo es una técnca basada en la proyeccón de característcas. Se le denomna votacón por ntervalos de característcas (VFI, [Votng Feature Interval]) porque se construyen ntervalos para cada característca [feature] o atrbuto en la fase de aprendzaje y el ntervalo correspondente en cada característca vota para cada clase en la fase de clasfcacón. Al gual que en el clasfcador nave Bayesano, cada característca es tratada de forma ndvdual e ndependente del resto. Se dseña un sstema de votacón para combnar las clasfcacones ndvduales de cada atrbuto por separado. Mentras que en el clasfcador nave Bayesano cada característca partcpa en la clasfcacón asgnando una probabldad para cada clase y la probabldad fnal para cada clase consste en el producto de cada probabldad dada por cada característca, en el algortmo VFI cada característca dstrbuye sus votos para cada clase y el voto fnal de cada clase es la suma de los votos obtendos por cada característca. Una ventaja de estos clasfcadores, al gual que ocurría con el clasfcador nave Bayesano, es el tratamento de los valores desconocdos tanto en el proceso de aprendzaje como en el de clasfcacón: smplemente se gnoran, dado que se consdera cada atrbuto como ndependente del resto. En la fase de aprendzaje del algortmo VFI se construyen ntervalos para cada atrbuto contablzando, para cada clase, el número de ejemplos de entrenamento que aparecen en dcho ntervalo. En la fase de clasfcacón, cada atrbuto del ejemplo de test añade votos para cada clase dependendo del ntervalo en el que se encuentre y el conteo de la fase de aprendzaje para dcho ntervalo en cada clase. En la fgura 2.29 se muestra este algortmo. Aprendzaje (ejemplos) { Para cada atrbuto (A) Hacer Técncas de Análss de Datos Págna 43 de 266

151 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco S A es NUMÉRICO Entonces Obtener mínmo y máxmo de A para cada clase en ejemplos Ordenar los valores obtendos (I ntervalos) S no /* es SIMBÓLICO */ Obtener los valores que recbe A para cada clase en ejemplos Los valores obtendos son puntos (I ntervalos) Para cada ntervalo I Hacer Para cada clase C Hacer contadores [A, I, C] = 0 Para cada ejemplo E Hacer S A es conocdo Entonces S A es SIMBÓLICO Entonces contadores [A, E.A, E.C] += S no /* es NUMÉRICO */ Obtener ntervalo I de E.A S E.A = extremo nferor de ntervalo I Entonces contadores [A, I, E.C] += 0.5 contadores [A, I-, E.C] += 0.5 S no contadores [A, I, E.C] += } Normalzar contadores[] /* Σ c contadores[a, I, C] = */ clasfcar (ejemplo E) { Para cada atrbuto (A) Hacer S E.A es conocdo Entonces S A es SIMBÓLICO Para cada clase C Hacer voto[a, C] = contadores[a, E.A, C] S no /* es NUMÉRICO */ Obtener ntervalo I de E.A S E.A = límte nferor de I Entonces Para cada clase C Hacer voto[a, C] = 0.5*contadores[A,I,C] + 0.5*contadores[A,I-,C] S no Para cada clase C Hacer voto[a, C] = contadores [A, I, C] voto[c] = voto[c] + voto[a, C] Normalzar voto[]/* Σ c voto[c] = */ Fgura 3.27: Pseudocódgo del algortmo VFI. En la fgura 2.30 se presenta un ejemplo de entrenamento y clasfcacón con el algortmo VFI, en el que se muestra una tabla con los ejemplos de entrenamento y cómo el proceso de aprendzaje consste en el establecmento de ntervalos para cada atrbuto con el conteo de ejemplos que se encuentran en cada ntervalo. Se muestra entre paréntess el número de ejemplos que se encuentran en la clase e ntervalo concreto, mentras que fuera de los paréntess se encuentra el valor normalzado. Para el atrbuto smbólco smplemente se toma como ntervalo (punto) cada valor de dcho atrbuto y se cuenta el número de ejemplos que tenen un valor determnado en el atrbuto para la clase del ejemplo en cuestón. En el caso del atrbuto numérco, se obtene el máxmo y el mínmo valor del atrbuto para cada clase que en este caso son 4 y 7 para la clase A, y y 5 para la clase B. Se ordenan los valores formándose un Técncas de Análss de Datos Págna 44 de 266

152 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco total de cnco ntervalos y se cuenta el número de ejemplos que se encuentran en un ntervalo determnado para su clase, tenendo en cuenta que s se encuentra en el punto compartdo por dos ntervalos se contablza la mtad para cada uno de ellos. Tambén se muestra un ejemplo de clasfcacón: en prmer lugar, se obtenen los votos que cada atrbuto por separado concede a cada clase, que será el valor normalzado del ntervalo (o punto s se trata de atrbutos smbólcos) en el que se encuentre el valor del atrbuto, y posterormente se suman los votos (que se muestra entre paréntess) y se normalza. La clase con mayor porcentaje de votos (en el ejemplo la clase A) gana. Fgura 3.28: Ejemplo de aprendzaje y clasfcacón con VFI Aprendzaje Basado en Ejemplares El aprendzaje basado en ejemplares o nstancas [BRIS96] tene como prncpo de funconamento, en sus múltples varantes, el almacenamento de ejemplos: en unos casos todos los ejemplos de entrenamento, en otros solo los más representatvos, en otros los ncorrectamente clasfcados cuando se clasfcan por prmera vez, etc. La clasfcacón posteror se realza por medo de una funcón que mde la proxmdad o parecdo. Dado un ejemplo para clasfcar se le clasfca de acuerdo al ejemplo o ejemplos más próxmos. El bas (sesgo) que rge este método es la proxmdad; es decr, la generalzacón se guía por la proxmdad de un ejemplo a otros. Algunos autores consderan este bas más apropado para el aprendzaje de conceptos naturales que el correspondente al proceso nductvo (Baress et al. en [KODR90]), por otra parte tambén se ha estudado la relacón entre este método y los que generan reglas (Clark, 990). Se han enumerado ventajas e nconvenentes del aprendzaje basado en ejemplares [BRIS96], pero se suele consderar no adecuado para el tratamento de Técncas de Análss de Datos Págna 45 de 266

153 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco atrbutos no numércos y valores desconocdos. Las msmas meddas de proxmdad sobre atrbutos smbólcos suelen proporconar resultados muy dspares en problemas dferentes. A contnuacón se muestran dos técncas de aprendzaje basado en ejemplares: el método de los k-vecnos más próxmos y el k estrella. Algortmo de los k-vecnos más próxmos El método de los k-vecnos más próxmos [MITC97] (KNN, [k-nearest Neghbor]) está consderado como un buen representante de este tpo de aprendzaje, y es de gran sencllez conceptual. Se suele denomnar método porque es el esqueleto de un algortmo que admte el ntercambo de la funcón de proxmdad dando lugar a múltples varantes. La funcón de proxmdad puede decdr la clasfcacón de un nuevo ejemplo atendendo a la clasfcacón del ejemplo o de la mayoría de los k ejemplos más cercanos. Admte tambén funcones de proxmdad que consderen el peso o coste de los atrbutos que ntervenen, lo que permte, entre otras cosas, elmnar los atrbutos rrelevantes. Una funcón de proxmdad clásca entre dos nstancas x y x j, s suponemos que un ejemplo vene representado por una n-tupla de la forma (a (x), a 2 (x),..., a n (x)) en la que a r (x) es el valor de la nstanca para el atrbuto a r, es la dstanca euclídea, que se muestra en la ecuacón n xl x jl d(x,x ) Ec j l En la fgura 2.3 se muestra un ejemplo del algortmo KNN para un sstema de dos atrbutos, representándose por ello en un plano. En este ejemplo se ve cómo el proceso de aprendzaje consste en el almacenamento de todos los ejemplos de entrenamento. Se han representado los ejemplos de acuerdo a los valores de sus dos atrbutos y la clase a la que pertenecen (las clases son + y -). La clasfcacón consste en la búsqueda de los k ejemplos (en este caso 3) más cercanos al ejemplo a clasfcar. Concretamente, el ejemplo a se clasfcaría como -, y el ejemplo b como +. 2 Fgura 3.29: Ejemplo de Aprendzaje y Clasfcacón con KNN. Dado que el algortmo k-nn permte que los atrbutos de los ejemplares sean smbólcos y numércos, así como que haya atrbutos sn valor [mssng values] el Técncas de Análss de Datos Págna 46 de 266

154 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco algortmo para el cálculo de la dstanca entre ejemplares se complca lgeramente. En la fgura 2.32 se muestra el algortmo que calcula la dstanca entre dos ejemplares cualesquera. Dstanca (E, E2) { dst = 0 n = 0 Para cada atrbuto A Hacer { df = Dferenca(E.A, E2.A) dst = dst + df * df n = n + } dst = dst / n Devolver dst } Dferenca (A, A2) { S A.nomnal Entonces { S SnValor(A) O SnValor(A2) O A <> A2 Entonces Devolver S no Devolver 0 } S no { S SnValor(A) O SnValor(A2) Entonces { S SnValor(A) Y SnValor(A2) Entonces Devolver S SnValor(A) Entonces df = A2 S no Entonces df = A S df < 0.5 Entonces Devolver df S no Devolver df } S no Devolver abs(a A2) } } Fgura 3.30: Pseudocódgo del algortmo empleado para defnr la dstanca entre dos ejemplos. Además de los dstntos tpos de atrbutos hay que tener en cuenta tambén, en el caso de los atrbutos numércos, los rangos en los que se mueven sus valores. Para evtar que atrbutos con valores muy altos tengan mucho mayor peso que atrbutos con valores bajos, se normalzarán dchos valores con la ecuacón xl mnl Max mn l l Ec En esta ecuacón x f será el valor del atrbuto f, sendo mn f el mínmo valor del atrbuto f y Max f el máxmo. Por otro lado, el algortmo permte dar mayor preferenca a aquellos ejemplares más cercanos al que deseamos clasfcar. En ese caso, en lugar de emplear drectamente la dstanca entre ejemplares, se utlzará la ecuacón 2.7. Técncas de Análss de Datos Págna 47 de 266

155 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco d(x,x j ) Ec. 2.7 Algortmo k-estrella El algortmo K* [CLTR95] es una técnca de data mnng basada en ejemplares en la que la medda de la dstanca entre ejemplares se basa en la teoría de la nformacón. Una forma ntutva de verlo es que la dstanca entre dos ejemplares se defne como la complejdad de transformar un ejemplar en el otro. El cálculo de la complejdad se basa en prmer lugar en defnr un conjunto de transformacones T={t, t 2,..., t n, σ} para pasar de un ejemplo (valor de atrbuto) a a uno b. La transformacón σ es la de parada y es la transformacón dentdad (σ(a)=a). El conjunto P es el conjunto de todas las posbles secuencas de transformacones descrtos en T* que termnan en σ, y t (a) es una de estas secuencas concretas sobre el ejemplo a. Esta secuenca de transformacones tendrá una probabldad determnada p( t), defnéndose la funcón de probabldad P*(b a) como la probabldad de pasar del ejemplo a al ejemplo b a través de cualquer secuenca de transformacones, tal y como se muestra en la ecuacón P *(b a) p(t ) Ec tp:t(a) b Esta funcón de probabldad cumplrá las propedades que se muestran en P* (b a) ; 0 P*(b a) b Ec La funcón de dstanca K* se defne entonces tomando logartmos, tal y como se muestra en la ecuacón K * (b a) log 2P* (b a) Ec Realmente K* no es una funcón de dstanca dado que, por ejemplo K*(a a) generalmente no será exactamente 0, además de que el operador no es smétrco, esto es, K*(a b) no es gual que K*(b a). Sn embargo, esto no nterfere en el algortmo K*. Además, la funcón K* cumple las propedades que se muestran en la ecuacón K*(b a) 0 ; K*(c b) K*(b a) K*(c a) Ec Una vez explcado cómo se obtene la funcón K* y cuales son sus propedades, se presenta a contnuacón la expresón concreta de la funcón P*, de la que se obtene K*, para los tpos de atrbutos admtdos por el algortmo: numércos y smbólcos. Probabldad de transformacón para los atrbutos permtdos Técncas de Análss de Datos Págna 48 de 266

156 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco En cuanto a los atrbutos numércos, las transformacones consderadas serán restar del valor a un número n o sumar al valor a un número n, sendo n un número mínmo. La probabldad de pasar de un ejemplo con valor a a uno con valor b vendrá determnada úncamente por el valor absoluto de la dferenca entre a y b, que se denomnará x. Se escrbrá la funcón de probabldad como una funcón de densdad, tal y como se muestra en la ecuacón 2.76, donde x 0 será una medda de longtud de la escala, por ejemplo, la meda esperada para x sobre la dstrbucón P*. Es necesaro elegr un x 0 razonable. Posterormente se mostrará un método para elegr este factor. Para los smbólcos, se consderarán las probabldades de aparcón de cada uno de los valores de dcho atrbuto. x x * (x) e dx Ec x P 0 0 S el atrbuto tene un total de n posbles valores, y la probabldad de aparcón del valor del atrbuto es p (obtendo a partr de las aparcones en los ejemplos de entrenamento), se defne la probabldad de transformacón de un ejemplo con valor a uno con valor j como se muestra en la ecuacón P* (j ) s - p j s - sp s s j j Ec En esta ecuacón s es la probabldad del símbolo de parada (σ). De esta forma, se defne la probabldad de cambar de valor como la probabldad de que no se pare la transformacón multplcado por la probabldad del valor de destno, mentras la probabldad de contnuar con el msmo valor es la probabldad del símbolo de parada más la probabldad de que se contnúe transformando multplcado por la probabldad del valor de destno. Tambén es mportante, al gual que con el factor x 0, defnr correctamente la probabldad s. Y como ya se comentó con x 0, posterormente se comentará un método para obtenerlo. Tambén deben tenerse en cuenta la posbldad de los atrbutos con valores desconocdos. Cuando los valores desconocdos aparecen en los ejemplos de entrenamento se propone como solucón el consderar que el atrbuto desconocdo se determna a través del resto de ejemplares de entrenamento. Esto se muestra en la ecuacón 2.78, donde n es el número de ejemplos de entrenamento. n P* (b a) P * (? a) Ec n b Combnacón de atrbutos Ya se han defndo las funcones de probabldad para los tpos de atrbutos permtdos. Pero los ejemplos reales tenen más de un atrbuto, por lo que es necesaro combnar los resultados obtendos para cada atrbuto. Y para combnarlos, y defnr así la dstanca entre dos ejemplos, se entende la probabldad de transformacón de un ejemplar en otro como la probabldad de transformar el prmer atrbuto del prmer ejemplo en el del segundo, segudo de la transformacón del segundo atrbuto del prmer ejemplo en el del segundo, etc. De esta forma, la probabldad de transformar Técncas de Análss de Datos Págna 49 de 266

157 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco un ejemplo en otro vene determnado por la multplcacón de las probabldades de transformacón de cada atrbuto de forma ndvdual, tal y como se muestra en la ecuacón En esta ecuacón m será el número de atrbuto de los ejemplos. Y con esta defncón la dstanca entre dos ejemplos se defne como la suma de dstancas entre cada atrbuto de los ejemplos. m 2 E ) P* (v2 v ) P * (E Ec Seleccón de los parámetros aleatoros Para cada atrbuto debe determnarse el valor para los parámetros s o x 0 según se trate de un atrbuto smbólco o numérco respectvamente. Y el valor de este atrbuto es muy mportante. Por ejemplo, s a s se le asgna un valor muy bajo las probabldades de transformacón serán muy altas, mentras que s s se acerca a 0 las probabldades de transformacón serán muy bajas. Y lo msmo ocurrría con el parámetro x 0. En ambos casos se puede observar cómo varía la funcón de probabldad P* según se varía el número de ejemplos ncludos partendo desde (vecno más cercano) hasta n (todos los ejemplares con el msmo peso). Se puede calcular para cualquer funcón de probabldad el número efectvo de ejemplos como se muestra en la ecuacón 2.80, en la que n es el número de ejemplos de entrenamento y n 0 es el número de ejemplos con la dstanca mínma al ejemplo a (para el atrbuto consderado). El algortmo K* escogerá para x 0 (o s) un número entre n 0 y n. P* b a b n0 n 2 n b P* b a 2 n Ec Por convenenca se expresa el valor escogdo como un parámetro de mezclado [blendng] b, que varía entre b=0% (n 0 ) y b=00% (n). La confguracón de este parámetro se puede ver como una esfera de nfluenca que determna cuantos vecnos de a deben consderarse mportantes. Para obtener el valor correcto para el parámetro x 0 (o s) se realza un proceso teratvo en el que se obtenen las esferas de nfluenca máxma (x 0 o s gual a 0) y mínma (x 0 o s gual a ), y se aproxman los valores para que dcha esfera se acerque a la necesara para cumplr con el parámetro de mezclado. En la fgura 2.33 se presenta un ejemplo práctco de cómo obtener los valores para los parámetros x 0 o s. Se va a utlzar para ello el problema que se presentó en la tabla 2., y más concretamente el atrbuto Vsta con el valor gual a Lluvoso, de dcho problema. Técncas de Análss de Datos Págna 50 de 266

158 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.3: Ejemplo de obtencón del parámetros de un atrbuto smbólco con el algortmo K*. En la fgura 2.33 se muestra cómo el objetvo es consegur un valor para s tal que se obtenga una esfera de nfluenca de 6,8 ejemplos. Los parámetros de confguracón necesaros para el funconamento del sstema son: el parámetro de mezclado b, en este caso gual a 20%; una constante denomnada EPSILON, en este caso gual a 0,0, que determna entre otras cosas cuándo se consdera alcanzada la esfera de nfluenca deseada. En cuanto a la nomenclatura empleada, n será el número total de ejemplos de entrenamento, nv el número de valores que puede adqurr el atrbuto, y se han empleado abrevaturas para denomnar los valores del atrbuto: lluv por lluvoso, nub por nublado y sol por soleado. Tal y como puede observarse en la fgura 2.33, las ecuacones empleadas para el cálculo de la esfera y de P* no son exactamente las defndas en las ecuacones defndas anterormente. Sn embargo, en el ejemplo se han empleado las mplementadas en la herramenta WEKA por los creadores del algortmo. En cuanto al Técncas de Análss de Datos Págna 5 de 266

159 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco ejemplo en sí, se muestra cómo son necesaras 8 teracones para llegar a consegur el objetvo planteado, sendo el resultado de dcho proceso, el valor de s, gual a 0,7534. Clasfcacón de un ejemplo Se calcula la probabldad de que un ejemplo a pertenezca a la clase c sumando la probabldad de a a cada ejemplo que es membro de c, tal y como se muestra en 2.8. c a P* b a P * Ec. 2.8 bc Se calcula la probabldad de pertenenca a cada clase y se escoge la que mayor resultado haya obtendo como predccón para el ejemplo. Fgura 3.32: Ejemplo de clasfcacón con K*. Una vez defndo el modo en que se clasfca un determnado ejemplo de test medante el algortmo K*, en la fgura 2.34 se muestra un ejemplo concreto en el que Técncas de Análss de Datos Págna 52 de 266

160 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco se emplea dcho algortmo. En el ejemplo se clasfca un ejemplo de test tomando como ejemplos de entrenamento los que se mostraron en la tabla 2., tomando los atrbutos Temperatura y Humedad como numércos. El proceso que se sgue para determnar a qué clase pertenece un ejemplo de test determnado es el sguente: en prmer lugar, habría que calcular los parámetros x 0 y s que aún no se conocen para los pares atrbuto-valor del ejemplo de test. Posterormente se aplcan las ecuacones, que de nuevo no son exactamente las defndas anterormente: se han empleado las que los autores del algortmo mplementan en la herramenta WEKA. Una vez obtendas las probabldades, se normalzan y se escoge la mayor de las obtendas. En este caso hay más de un 99% de probabldad a favor de la clase no. Esto se debe a que el ejemplo 4 (el últmo) es cas déntco al ejemplo de test por clasfcar. En este ejemplo no se detallan todas las operacones realzadas, sno un ejemplo de cada tpo: un ejemplo de la obtencón de P* para un atrbuto smbólco, otro de la obtencón de P* para un atrbuto numérco y otro para la obtencón de la probabldad de transformacón del ejemplo de test en un ejemplo de entrenamento Redes de Neuronas Las redes de neuronas consttuyen una técnca nsprada en los trabajos de nvestgacón, ncados en 930, que pretendían modelar computaconalmente el aprendzaje humano llevado a cabo a través de las neuronas en el cerebro [RM86, CR95]. Posterormente se comprobó que tales modelos no eran del todo adecuados para descrbr el aprendzaje humano. Las redes de neuronas consttuyen una nueva forma de analzar la nformacón con una dferenca fundamental con respecto a las técncas tradconales: son capaces de detectar y aprender complejos patrones y característcas dentro de los datos [SN88, FU94]. Se comportan de forma parecda a nuestro cerebro aprendendo de la experenca y del pasado, y aplcando tal conocmento a la resolucón de problemas nuevos. Este aprendzaje se obtene como resultado del adestramento ("tranng") y éste permte la sencllez y la potenca de adaptacón y evolucón ante una realdad cambante y muy dnámca. Una vez adestradas las redes de neuronas pueden hacer prevsones, clasfcacones y segmentacón. Presentan además, una efcenca y fabldad smlar a los métodos estadístcos y sstemas expertos, s no mejor, en la mayoría de los casos. En aquellos casos de muy alta complejdad las redes neuronales se muestran como especalmente útles dada la dfcultad de modelado que supone para otras técncas. Sn embargo las redes de neuronas tenen el nconvenente de la dfcultad de acceder y comprender los modelos que generan y presentan dfcultades para extraer reglas de tales modelos. Otra característca es que son capaces de trabajar con datos ncompletos e, ncluso, contradctoros lo que, dependendo del problema, puede resultar una ventaja o un nconvenente. Las redes de neuronas poseen las dos formas de aprendzaje: supervsado y no supervsado; ya comentadas [WI98], dervadas del tpo de paradgma que usan: el no supervsado (usa paradgmas como los ART Adaptve Resonance Theory"), y el supervsado que suele usar el paradgma del Backpropagaton" [RHW86]. Las redes de neuronas están sendo utlzadas en dstntos y varados sectores como la ndustra, el goberno, el ejércto, las comuncacones, la nvestgacón aerospacal, la banca y las fnanzas, los seguros, la medcna, la dstrbucón, la robótca, el marketng, etc. En la actualdad se está estudando la posbldad de utlzar técncas avanzadas y novedosas como los Algortmos Genétcos para crear nuevos paradgmas que mejoren el adestramento y la propa seleccón y dseño de la Técncas de Análss de Datos Págna 53 de 266

161 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco arqutectura de la red (número de capas y neuronas), dseño que ahora debe realzarse en base a la experenca del analsta y para cada problema concreto. Estructura de las Redes de Neuronas Las redes neuronales se construyen estructurando en una sere de nveles o capas (al menos tres: entrada, procesamento u oculta y salda) compuestas por nodos o "neuronas", que tenen la estructura que se muestra en la fgura Fgura 3.33: Estructura de una neurona. Tanto el umbral como los pesos son constantes que se ncalzarán aleatoramente y durante el proceso de aprendzaje serán modfcados. La salda de la neurona se defne tal y como se muestra en las ecuacones 2.82 y N NET X w U Ec S f(net) Ec Como funcón f se suele emplear una funcón sgmodal, ben defnda entre 0 y (ecuacón 2.84) o entre y (ecuacón 2.85). f(x) e -x Ec f(x) e e e e x x x x Ec Cada neurona está conectada a todas las neuronas de las capas anteror y posteror a través de los pesos o "dendrtas", tal y como se muestra en la fgura Técncas de Análss de Datos Págna 54 de 266

162 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Fgura 3.34: Estructura de la red de neuronas. Cuando un nodo recbe las entradas o "estímulos" de otras los procesa para producr una salda que transmte a la sguente capa de neuronas. La señal de salda tendrá una ntensdad fruto de la combnacón de la ntensdad de las señales de entrada y de los pesos que las transmten. Los pesos o dendrtas tenen un valor dstnto para cada par de neuronas que conectan pudendo así fortalecer o debltar la conexón o comuncacón entre neuronas partculares. Los pesos son modfcados durante el proceso de adestramento. El dseño de la red de neuronas consstrá, entre otras cosas, en la defncón del número de neuronas de las tres capas de la red. Las neuronas de la capa de entrada y las de la capa de salda venen dadas por el problema a resolver, dependendo de la codfcacón de la nformacón. En cuanto al número de neuronas ocultas (y/o número de capas ocultas) se determnará por prueba y error. Por últmo, debe tenerse en cuenta que la estructura de las neuronas de la capa de entrada se smplfca, dado que su salda es gual a su entrada: no hay umbral n funcón de salda. Proceso de adestramento (retropropagacón) Exsten dstntos métodos o paradgmas medante los cuales estos pesos pueden ser varados durante el adestramento de los cuales el más utlzado es el de retropropagacón [Backpropagaton] [RHW86]. Este paradgma varía los pesos de acuerdo a las dferencas encontradas entre la salda obtenda y la que debería obtenerse. De esta forma, s las dferencas son grandes se modfca el modelo de forma mportante y según van sendo menores, se va convergendo a un modelo fnal estable. El error en una red de neuronas para un patrón [x= (x, x 2,, x n ), t(x)], sendo x el patrón de entrada, t(x) la salda deseada e y(x) la proporconada por la red, se defne como se muestra en la ecuacón 2.86 para m neuronas de salda y como se muestra en la ecuacón 2.87 para neurona de salda. e(x) t(x) y(x) 2 2 m (t (x) y (x)) 2 Ec Técncas de Análss de Datos Págna 55 de 266

163 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco e(x) (t(x) 2 2 y(x)) Ec El método de descenso de gradente consste en modfcar los parámetros de la red sguendo la dreccón negatva del gradente del error. Lo que se realzaría medante w nuevo w anteror e α w w anteror e α w Ec En la ecuacón 2.88, w es el peso a modfcar en la red de neuronas (pasando de w anteror a w nuevo ) y α es la razón de aprendzaje, que se encarga de controlar cuánto se desplazan los pesos en la dreccón negatva del gradente. Influye en la velocdad de convergenca del algortmo, puesto que determna la magntud del desplazamento. El algortmo de retropropagacón es el resultado de aplcar el método de descenso del gradente a las redes de neuronas. El algortmo completo de retropropagacón se muestra en la fgura Paso : Incalzacón aleatora de los pesos y umbrales. Paso 2: Dado un patrón del conjunto de entrenamento (x, t(x)), se presenta el vector x a la red y se calcula la salda de la red para dcho patrón, y(x). Paso 3: Se evalúa el error e(x) cometdo por la red. Paso 4: Paso 5: Se modfcan todos los parámetros de la red utlzando la ec Se repten los pasos 2, 3 y 4 para todos los patrones de entrenamento, completando así un cclo de aprendzaje. Paso 6: Se realzan n cclos de aprendzaje (pasos 2, 3, 4 y 5) hasta que se verfque el crtero de parada establecdo. Fgura 3.35: Pseudocódgo del algortmo de retropropagacón. En cuanto al crtero de parada, se debe calcular la suma de los errores en los patrones de entrenamento. S el error es constante de un cclo a otro, los parámetros dejan de sufrr modfcacones y se obtene así el error mínmo. Por otro lado, tambén se debe tener en cuenta el error en los patrones de valdacón, que se presentarán a la red tras n cclos de aprendzaje. S el error en los patrones de valdacón evolucona favorablemente se contnúa con el proceso de aprendzaje. S el error no descende, se detene el aprendzaje. Técncas de Análss de Datos Págna 56 de 266

164 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco Lógca borrosa ( Fuzzy logc ) La lógca borrosa surge de la necesdad de modelar la realdad de una forma más exacta evtando precsamente el determnsmo o la exacttud [ZAD65, CPS98]. En palabras menos pretencosas lo que la lógca borrosa permte es el tratamento probablístco de la categorzacón de un colectvo [ZAD65]. Así, para establecer una sere de grupos, segmentos o clases en los cuales se puedan clasfcar a las personas por la edad, lo nmedato sería proponer unas edades límte para establecer tal clasfcacón de forma dsjunta. Así los nños serían aquellos cuya edad fuera menor a los 2 años, los adolescentes aquellos entre 2 y 7 años, los jóvenes aquellos entre 8 y 35, las personas maduras entre 36 y 45 años y así sucesvamente. Se habrían creado unos grupos dsjuntos cuyo tratamento, a efectos de clasfcacón y procesamento, es muy sencllo: basta comparar la edad de cada persona con los límtes establecdos. Sn embargo enseguda se observa que esto supone una smplfcacón enorme dado que una persona de 6 años meses y vente días pertenecería al grupo de los adolescentes y, seguramente, es más parecdo a una persona de 8 (membro de otro grupo) que a uno de 2 (membro de su grupo). Lógcamente no se puede establecer un grupo para cada año, dado que sí se reconocen grupos, y no muchos, con comportamentos y acttudes smlares en funcón de la edad. Lo que mplíctamente se esta descubrendo es que las clases exsten pero que la frontera entre ellas no es clara n dsjunta sno dfusa y que una persona puede tener aspectos de su mentaldad asocados a un grupo y otros asocados a otro grupo, es decr que mplíctamente se está dstrbuyendo la pertenenca entre varos grupos. Cuando esto se lleva a una formalzacón matemátca surge el concepto de dstrbucón de posbldad, de forma que lo que entendería como funcón de pertenenca a un grupo de edad serían unas curvas de posbldad. Por tanto, la lógca borrosa es aquella técnca que permte y trata la exstenca de barreras dfusas o suaves entre los dstntos grupos en los que se categorza un colectvo o entre los dstntos elementos, factores o proporcones que concurren en una stuacón o solucón [BS97]. Para dentfcar las áreas de utlzacón de la lógca dfusa basta con determnar cuantos problemas hacen uso de la categorzacón dsjunta en el tratamento de los datos para observar la cantdad de posbles aplcacones que esta técnca puede tener [ZAD65].. Sn embargo, el tratamento ortodoxo y pursta no sempre está justfcado dada la complejdad que nduce en el procesamento (pasamos de valores a funcones de posbldad) y un modelado sencllo puede ser más que sufcente. Aún así, exsten problemátcas donde este modelado sí resulta justfcado, como en el control de procesos y la robótca, entre otros. Tal es así que un país como Japón, líder en la ndustra y la automatzacón, dspone del "Laboratory for Internatonal Fuzzy Engneerng Research" (LIFE) y empresas como Yamach Securtes y Canon hacen un extenso uso de esta técnca Técncas Genétcas: Algortmos Genétcos ( Genetc Algorthms ) Los Algortmos Genétcos son otra técnca que tene su nspracón, en la Bología como las Redes de Neuronas [GOLD89, MIC92, MITC96]. Estos algortmos Técncas de Análss de Datos Págna 57 de 266

165 Capítulo 3 Técncas de Mnería de Datos basadas en Aprendzaje Automátco representan el modelado matemátco de como los cromosomas en un marco evoluconsta alcanzan la estructura y composcón más óptma en aras de la supervvenca. Entendendo la evolucón como un proceso de búsqueda y optmzacón de la adaptacón de las especes que se plasma en mutacones y cambos de los genes o cromosomas, los Algortmos Genétcos hacen uso de las técncas bológcas de reproduccón (mutacón y cruce) para ser utlzadas en todo tpo de problemas de búsqueda y optmzacón. Se da la mutacón cuando alguno o algunos de los genes camban ben de forma aleatora o de forma controlada vía funcones y se obtene el cruce cuando se construye una nueva solucón a partr de dos contrbucones procedentes de otras solucones "padre". En cualquer caso, tales transformacones se realzan sobre aquellos especmenes o solucones más aptas o mejor adaptadas. Dado que los mecansmos bológcos de evolucón han dado lugar a solucones, los seres vvos, realmente dóneas cabe esperar que la aplcacón de tales mecansmos a la búsqueda y optmzacón de otro tpo de problemas tenga el msmo resultado. De esta forma los Algortmos Genétcos transforman los problemas de búsqueda y optmzacón de solucones un proceso de evolucón de unas solucones de partda. Las solucones se converten en cromosomas, transformacón que se realza pasando los datos a formato bnaro, y a los mejores se les van aplcando las reglas de evolucón (funcones probablístcas de transcón) hasta encontrar la solucón óptma. En muchos casos, estos mecansmos brndan posbldades de convergenca más rápdos que otras técncas. El uso de estos algortmos no está tan extenddo como otras técncas, pero van sendo cada vez más utlzados drectamente en la solucón de problemas, así como en la mejora de certos procesos presentes en otras herramentas. Así, por ejemplo, se usan para mejorar los procesos de adestramento y seleccón de arqutectura de las redes de neuronas, para la generacón e nduccón de árboles de decsón y para la síntess de programas a partr de ejemplos ("Genetc Programmng"). Técncas de Análss de Datos Págna 58 de 266

166 Capítulo 4 Técncas de Análss de Datos en Weka Capítulo 4. Técncas de Análss de Datos en Weka Introduccón En este capítulo se presenta de forma concsa y práctca la herramenta de mnería de datos WEKA. WEKA, acrónmo de Wakato Envronment for Knowledge Analyss, es un entorno para expermentacón de análss de datos que permte aplcar, analzar y evaluar las técncas más relevantes de análss de datos, prncpalmente las provenentes del aprendzaje automátco, sobre cualquer conjunto de datos del usuaro. Para ello úncamente se requere que los datos a analzar se almacenen con un certo formato, conocdo como ARFF (Attrbute-Relaton Fle Format). WEKA se dstrbuye como software de lbre dstrbucón desarrollado en Java. Está consttudo por una sere de paquetes de códgo aberto con dferentes técncas de preprocesado, clasfcacón, agrupamento, asocacón, y vsualzacón, así como facldades para su aplcacón y análss de prestacones cuando son aplcadas a los datos de entrada selecconados. Estos paquetes pueden ser ntegrados en cualquer proyecto de análss de datos, e ncluso pueden extenderse con contrbucones de los usuaros que desarrollen nuevos algortmos. Con objeto de facltar su uso por un mayor número de usuaros, WEKA además ncluye una nterfaz gráfca de usuaro para acceder y confgurar las dferentes herramentas ntegradas. Este capítulo tene un enfoque práctco y funconal, pretendendo servr de guía de utlzacón de esta herramenta desde su nterfaz gráfca, como materal complementaro a la escasa documentacón dsponble. Para ello se obvarán los detalles técncos y específcos de los dferentes algortmos, que se presentan en un capítulo aparte, y se centrará en su aplcacón, confguracón y análss dentro de la herramenta. Por tanto, se remte al lector al capítulo con los detalles de los algortmos para conocer sus característcas, parámetros de confguracón, etc. Aquí se han selecconado algunas de las técncas dsponbles para aplcarlas a ejemplos concretos, sguendo el acceso desde la herramenta al resto de técncas mplementadas, una mecánca totalmente análoga a la presentada a modo lustratvo. Para reforzar el carácter práctco de este capítulo, además se adoptará un formato de tpo tutoral, con un conjunto de datos dsponbles sobre el que se rán aplcando las dferentes facldades de WEKA. Se sugere que el lector Técncas de Análss de Datos Págna 59 de 266

167 Capítulo 4 Técncas de Análss de Datos en Weka aplque los pasos ndcados y realce los análss sugerdos para cada técnca con objeto de famlarzarse y mejorar su comprensón. Los ejemplos selecconados son contenen datos provenentes del campo de la enseñanza, correspondentes a alumnos que realzaron las pruebas de selectvdad en los años procedentes de dferentes centros de enseñanza secundara de la comundad de Madrd. Por tanto, esta guía lustra la aplcacón y análss de técncas de extraccón de conocmento sobre datos del campo de la enseñanza, aunque sería drecta su traslacón a cualquer otra dscplna. Preparacón de los datos Los datos de entrada a la herramenta, sobre los que operarán las técncas mplementadas, deben estar codfcados en un formato específco, denomnado Attrbute-Relaton Fle Format (extensón "arff"). La herramenta permte cargar los datos en tres soportes: fchero de texto, acceso a una base de datos y acceso a través de nternet sobre una dreccón URL de un servdor web. En nuestro caso trabajaremos con fcheros de texto. Los datos deben estar dspuestos en el fchero de la forma sguente: cada nstanca en una fla, y con los atrbutos separados por comas. El formato de un fchero arff sgue la estructura sguente: % r r2 2 s {v_s, v2_s, s2 {v_s, v2_s, DATOS por tanto, los atrbutos pueden ser prncpalmente de dos tpos: numércos de tpo real o entero (ndcado con las palabra real o nteger tras el nombre del atrbuto), y smbólcos, en cuyo caso se especfcan los valores posbles que puede tomar entre llaves. Muestra de datos El fchero de datos objeto de análss en esta guía contene muestras correspondentes a 8802 alumnos presentados a las pruebas de selectvdad y los resultados obtendos en las pruebas. Los datos que descrben cada alumno contenen la sguente nformacón: año, convocatora, localdad del centro, opcón cursada (de 5 posbles), calfcacones parcales obtendas en lengua, Técncas de Análss de Datos Págna 60 de 266

168 Capítulo 4 Técncas de Análss de Datos en Weka hstora, doma y las tres asgnaturas opconales, así como la desgnacón de las asgnaturas de doma y las 3 opconales cursadas, calfcacón en el bachllerato, calfcacón fnal y s el alumno se presentó o no a la prueba. Por tanto, puede comprobarse que la cabecera del fchero de datos, "selectvdad.arff", sgue el formato menconado Año_académco convocatora {J, localdad {ALPEDRETE, ARANJUEZ,... opconª nota_lengua nota_hstora nota_idoma des_idoma {INGLES, FRANCES, des_asg {BIOLOGIA, DIB.ARTISTICO_II,... calf_asg des_asg2 {BIOLOGIA, calf_asg2 des_asg3 {BIOLOGIA, calf_asg3 cal_prueba nota_bach cal_fnal Presentado {SI, Objetvos del análss Antes de comenzar con la aplcacón de las técncas de WEKA a los datos de este domno, es muy convenente hacer una consderacón acerca de los objetvos persegudos en el análss. Como se menconó en la ntroduccón, un paso prevo a la búsqueda de relacones y modelos subyacentes en los datos ha de ser la comprensón del domno de aplcacón y establecer una dea clara acerca de los objetvos del usuaro fnal. De esta manera, el proceso de análss de datos (proceso KDD), permtrá drgr la búsqueda y hacer refnamentos, con una nterpretacón adecuada de los resultados generados. Los objetvos, utldad, aplcacones, etc., del análss efectuado no "emergen" de los datos, sno que deben ser consderados con detenmento como prmer paso del estudo. En nuestro caso, uno de los objetvos persegudos podría ser el ntentar relaconar los resultados obtendos en las pruebas con característcas o perfles de los alumnos, s ben la descrpcón dsponble no es muy rca y habrá que atenerse a lo que está dsponble. Algunas de las preguntas que podemos plantearnos a responder como objetvos del análss podrían ser las sguentes: Técncas de Análss de Datos Págna 6 de 266

169 Capítulo 4 Técncas de Análss de Datos en Weka Qué característcas comunes tenen los alumnos que superan la prueba? y los alumnos mejor preparados que la superan sn perjudcar su expedente? exsten grupos de alumnos, no conocdos de antemano, con característcas smlares? hay dferencas sgnfcatvas en los resultados obtendos según las opcones, localdades, años, etc.?, la opcón selecconada y el resultado está nfluda depende del entorno? se puede predecr la calfcacón del alumno con alguna varable conocda? qué relacones entre varables son las más sgnfcatvas? Como veremos, muchas veces el resultado alcanzado puede ser encontrar relacones trvales o conocdas prevamente, o puede ocurrr que el hecho de no encontrar relacones sgnfcatvas, lo puede ser muy relevante. Por ejemplo, saber después de un análss exhaustvo que la opcón o localdad no condcona sgnfcatvamente la calfcacón, o que la prueba es homogénea a lo largo de los años, puede ser una conclusón valosa, y en este caso "tranqulzadora". Por otra parte, este análss tene un enfoque ntroductoro e lustratvo para acercarse a las técncas dsponbles y su manpulacón desde la herramenta, dejando aberto para el nvestgador llevar el estudo de este domno a resultados y conclusones más elaboradas. Ejecucón de WEKA WEKA se dstrbuye como un fchero ejecutable comprmdo de java (fchero "jar"), que se nvoca drectamente sobre la máquna vrtual JVM. En las prmeras versones de WEKA se requería la máquna vrtural Java.2 para nvocar a la nterfaz gráfca, desarrollada con el paquete gráfco de Java Swng. En el caso de la últmo versón, WEKA 3-4, que es la que se ha utlzado para confecconar estas notas, se requere Java.3 o superor. La herramenta se nvoca desde el ntérprete de Java, en el caso de utlzar un entorno wndows, bastaría una ventana de comandos para nvocar al ntéprete Java: Técncas de Análss de Datos Págna 62 de 266

170 Capítulo 4 Técncas de Análss de Datos en Weka Una vez nvocada, aparece la ventana de entrada a la nterfaz gráfca (GUI- Chooser), que nos ofrece cuatro opcones posbles de trabajo: Smple CLI: la nterfaz "Command-Lne Interfaz" es smplemente una ventana de comandos java para ejecutar las clases de WEKA. La prmera dstrbucón de WEKA no dsponía de nterfaz gráfca y las clases de sus paquetes se podían ejecutar desde la línea de comandos pasando los argumentos adecuados. Explorer: es la opcón que permte llevar a cabo la ejecucón de los algortmos de análss mplementados sobre los fcheros de entrada, una ejecucón ndependente por cada prueba. Esta es la opcón sobre la que se centra la totaldad de esta guía. Expermenter: esta opcón permte defnr expermentos más complejos, con objeto de ejecutar uno o varos algortmos sobre uno o varos conjuntos de datos de entrada, y comparar estadístcamente los resultados KnowledgeFlow: esta opcón es una novedad de WEKA 3-4 que permte llevar a cabo las msmas accones del "Explorer", con una confguracón totalmente gráfca, nsprada en herramentas de tpo "data-flow" para selecconar componentes y conectarlos en un proyecto de mnería de datos, desde que se cargan los datos, se aplcan algortmos de tratmento y análss, hasta el tpo de evaluacón deseada. Técncas de Análss de Datos Págna 63 de 266

171 Capítulo 4 Técncas de Análss de Datos en Weka En esta guía nos centraremos úncamente en la segunda opcón, Explorer. Una vez selecconada, se crea una ventana con 6 pestañas en la parte superor que se corresponden con dferentes tpos de operacones, en etapas ndependentes, que se pueden realzar sobre los datos: Preprocess: seleccon de la fuente de datos y preparacón (fltrado). Clasfy: Facldades para aplcar esquemas de clasfcacón, entrenar modelos y evaluar su precsón Cluster: Algortmos de agrupamento Assocate: Algortmos de búsqueda de reglas de asocacón Select Attrbutes: Búsqueda supervsada de subconjuntos de atrbutos representatvos Vsualze: Herramenta nteractva de presentacón gráfca en 2D. Además de estas pestañas de seleccón, en la parte nferor de la ventana aparecen dos elementos comunes. Uno es el botón de Log, que al actvarlo presenta una ventana textual donde se ndca la secuenca de todas las operacones que se han llevado a cabo dentro del Explorer, sus tempos de nco y fn, así como los mensajes de error más frecuentes. Junto al botón de log aparece un cono de actvdad (el pájaro WEKA, que se mueve cuando se está realzando alguna tarea) y un ndcador de status, que ndca qué tarea se está realzando en este momento dentro del Explorer. Preprocesado de los datos Esta es la parte prmera por la que se debe pasar antes de realzar nnguna otra operacón, ya que se precsan datos para poder llevar a cabo cualquer análss. La dsposcón de la parte de preprocesado del Explorer, Preprocess, es la que se ndca en la fgura sguente. Técncas de Análss de Datos Págna 64 de 266

172 Capítulo 4 Técncas de Análss de Datos en Weka Cargar datos, guardar datos fltrados Seleccón y aplcacón de fltros Propedades del atrbuto selecconado Atrbutos en la relacón actual Como se ndcó anterormente, hay tres posbldades para obtener los datos: un fchero de texto, una dreccón URL o una base de datos, dadas por las opcones: Open fle, Open URL y Open DB. En nuestro caso utlzaremos sempre los datos almacenados en un fchero, que es lo más rápdo y cómodo de utlzar. La preparacón del fchero de datos en formato ARFF ya se descrbó en la seccón.2. En el ejemplo que nos ocupa, abra el fchero selectvdad.arff con la opcón Open Fle. Característcas de los atrbutos Una vez cargados los datos, aparece un cuadro resumen, Current relaton, con el nombre de la relacón que se ndca en el fchero (en la del fchero arff), el número de nstancas y el número de atrbutos. Más abajo, aparecen lstados todos los atrbutos dsponbles, con los nombres especfcados en el fchero, de modo que se pueden selecconar para ver sus detalles y propedades. Técncas de Análss de Datos Págna 65 de 266

173 Capítulo 4 Técncas de Análss de Datos en Weka En la parte derecha aparecen las propedades del atrbuto selecconado. S es un atrbuto smbólco, se presenta la dstrbucón de valores de ese atrbuto (número de nstancas que tenen cada uno de los valores). S es numérco aparece los valores máxmo, mínmo, valor medo y desvacón estándar. Otras característcas que se destacan del atrbuto selecconado son el tpo (Type), número de valores dstntos (Dstnct), número y porcentaje de nstancas con valor desconocdo para el atrbuto (Mssng, codfcado en el fchero arff con? ), y valores de atrbuto que solamente se dan en una nstanca (Unque). Además, en la parte nferor se presenta gráfcamente el hstograma con los valores que toma el atrbuto. S es smbólco, la dstrbucón de frecuenca de los valores, s es numérco, un hstograma con ntervalos unformes. En el hstograma se puede presentar además con colores dstntos la dstrbucón de un segundo atrbuto para cada valor del atrbuto vsualzado. Por últmo, hay un botón que permte vsualzar los hstogramas de todos los atrbutos smultáneamente. A modo de ejemplo, a contnuacón mostramos el hstograma por localdades, ndcando con colores la dstrbucones por opcones elegdas. Técncas de Análss de Datos Págna 66 de 266

174 Capítulo 4 Técncas de Análss de Datos en Weka Se ha selecconado la columna de la localdad de Leganés, la que tene más nstancas, y donde puede verse que la proporcón de las opcones centífcas ( y 2) es superor a otras localdades, como Getafe, la segunda localdad en número de alumnos presentados. Vsualce a contnuacón los hstogramas de las calfcacones de bachllerato y calfcacón fnal de la prueba, ndcando como segundo atrbuto la convocatora en la que se presentan los alumnos. Trabajo con Fltros. Preparacón de fcheros de muestra WEKA tene ntegrados fltros que permten realzar manpulacones sobre los datos en dos nveles: atrbutos e nstancas. Las operacones de fltrado pueden aplcarse en cascada, de manera que cada fltro toma como entrada el conjunto de datos resultante de haber aplcado un fltro anteror. Una vez que se ha aplcado un fltro, la relacón camba ya para el resto de operacones llevadas a cabo en el Expermenter, exstendo sempre la opcón de deshacer la últma operacón de fltrado aplcada con el botón Undo. Además, pueden guardarse los resultados de aplcar fltros en nuevos fcheros, que tambén serán de tpo ARFF, para manpulacones posterores. Para aplcar un fltro a los datos, se seleccona con el botón Choose de Flter, desplegándose el árbol con todos los que están ntegrados. Técncas de Análss de Datos Págna 67 de 266

175 Capítulo 4 Técncas de Análss de Datos en Weka Puede verse que los fltros de esta opcón son de tpo no supervsado (unsupervsed): son operacones ndependentes del algortmo análss posteror, a dferenca de los fltros supervsados que se verán en la seccón.9 de seleccón de atrbutos, que operan en conjuncón con algortmos de clasfcacón para analzar su efecto. Están agrupados según modfquen los atrbutos resultantes o selecconen un subconjunto de nstancas (los fltros de atrbutos pueden verse como fltros "vertcales" sobre la tabla de datos, y los fltros de nstancas como fltros "horzontales"). Como puede verse, hay más de 30 posbldades, de las que destacaremos úncamente algunas de las más frecuentes. Fltros de atrbutos Vamos a ndcar, de entre todas las posbldades mplementadas, la utlzacón de fltros para elmnar atrbutos, para dscretzar atrbutos numércos, y para añadr nuevos atrbutos con expresones, por la frecuenca con la que se realzan estas operacones. Fltros de seleccón Vamos a utlzar el fltro de atrbutos Remove, que permte elmnar una sere de atrbutos del conjunto de entrada. En prmer lugar procedemos a selecconarlo desde el árbol desplegado con el botón Choose de los fltros. A contnuacón lo confguraremos para determnar qué atrbutos queremos fltrar. La confguracón de un fltro sgue el esquema general de confguracón de cualquer algortmo ntegrado en WEKA. Una vez selecconado el fltro específco con el botón Choose, aparece su nombre dentro del área de fltro (el lugar donde antes aparecía la palabra None). Se puede confgurar sus parámetros hacendo clc sobre esta área, momento en el que aparece la ventana de confguracón correspondente a ese fltro partcular. S no se realza esta operacón se utlzarían los valores por defecto del fltro selecconado. Como prmer fltro de seleccón, vamos a elmnar de los atrbutos de entrada todas las calfcacones parcales de la prueba y la calfcacón fnal, quedando como úncas calfcacones la nota de bachllerato y la calfcacón de la prueba. Por tanto tenemos que selecconar los índces 5,6,7,0,2,4 y 7, ndcándolo en el cuadro de confguracón del fltro Remove: Técncas de Análss de Datos Págna 68 de 266

176 Capítulo 4 Técncas de Análss de Datos en Weka Como puede verse, en el conjunto de atrbutos a elmnar se pueden poner seres de valores contguos delmtados por guón (5-7) o valores sueltos entre comas (0,2,4,7). Además, puede usarse frst y last para ndcar el prmer y últmo atrbuto, respectvamente. La opcón nvertselecton es útl cuando realmente queremos selecconar un pequeño subconjunto de todos los atrbutos y elmnar el resto. Open y Save nos permten guardar confguracones de nterés en archvos. El boton More, que aparece opconalmente en algunos elementos de WEKA, muestra nformacón de utldad acerca de la confguracón de los msmos. Estas convencones para desgnar y selecconar atrbutos, ayuda, y para guardar y cargar confguracones específcas es común a otros elementos de WEKA. Una vez confgurado, al acconar el botón Apply del área de fltros se modfca el conjunto de datos (se fltra) y se genera una relacón transformada. Esto se hace ndcar en la descrpcón Current Relaton, que pasa a ser la resultante de aplcar la operacón correspondente (esta nformacón se puede ver con más ntdez en la ventana de log, que además nos ndcará la cascada de fltros aplcados a la relacón operatva). La relacón transformada tras aplcar el fltro podría almacenarse en un nuevo fchero ARFF con el botón Save, dentro de la ventana Preprocess. Fltros de dscretzacón Estos fltros son muy útles cuando se trabaja con atrbutos numércos, puesto que muchas herramentas de análss requeren datos smbólcos, y por tanto se necesta aplcar esta transformacón antes. Tambén son necesaros cuando queremos hacer una clasfcacón sobre un atrbuto numérco, por ejemplo clasfcar los alumnos aprobados y suspensos. Este fltrado transforma los atrbutos numércos selecconados en atrbutos smbólcos, con una sere de etquetas resultantes de dvdr la ampltud total del atrbuto en ntervalos, con dferentes opcones para selecconar los límtes. Por defecto, se dvde la ampltud del ntervalo en tantas "cajas" como se ndque en bns (por defecto 0), todas ellas de la msma ampltud. Técncas de Análss de Datos Págna 69 de 266

177 Capítulo 4 Técncas de Análss de Datos en Weka Por ejemplo, para dscretzar las calfcacones numércas en 4 categorías, todas de la msma ampltud, se confguraría así: observe el resultado después de aplcar el fltro y los límtes elegdos para cada atrbuto. En este caso se ha aplcado a todos los atrbutos numércos con la msma confguracón (los atrbutos selecconados son frst-last, no consderando los atrbutos que antes del fltrado no eran numércos). Observe que la relacón de trabajo ahora ( current relaton ) ahora es el resultado de aplcar en secuenca el fltro anteror y el actual. A veces es más útl no fjar todas las cajas de la msma anchura sno forzar a una dstrbucón unforme de nstancas por categoría, con la opcón useequalfrequency. La opcón fndnumbns permte opmzar el número de cajas (de la msma ampltud), con un crtero de clasfcacón de mínmo error en funcón de las etquetas. Haga una nueva dscretzacón de la relacón (elmnando el efecto del fltro anteror y dejando la relacón orgnal con el botón Undo) que dvda las calfcacones en 4 ntervalos de la msma frecuenca, lo que permte determnar los cuatro cuartles (ntervalos al 25%) de la calfcacón en la prueba: los ntervalos delmtados por los valores {4, 4.8, 5.76} Técncas de Análss de Datos Págna 70 de 266

178 Capítulo 4 Técncas de Análss de Datos en Weka podemos ver que el 75% alcanza la nota de compensacón (4). El 50% está entre 4 y 5.755, y el 25% restante a partr de Fltros de añadr expresones Muchas veces es nteresante nclur nuevos atrbutos resultantes de aplcar expresones a los exstentes, lo que puede traer nformacón de nterés o formular cuestones nteresantes sobre los datos. Por ejemplo, vamos a añadr como atrbuto de nterés la "mejora" sobre la nota de bachllerato, lo que puede servr para calfcar el "éxto" en la prueba. Selecconamos el fltro de atrbutos AddExpresson, confgurado para obtener la dferenca entre los atrbutos calfcacón en la prueba, y nota de bachllerato, en las poscones5 y 6: después de aplcarlo aparece este atrbuto en la relacón, sería el número 9, con el hstograma ndcado en la fgura: Técncas de Análss de Datos Págna 7 de 266

179 Capítulo 4 Técncas de Análss de Datos en Weka Fltros de nstancas De entre todas las posbldades mplementadas para fltros de seleccón de nstancas (seleccón de rangos, muestreos, etc.), nos centraremos en la utlzacón de fltros para selecconar nstancas cuyos atrbutos cumplen determnadas condcones. Seleccón de nstancas con condcones sobre atrbutos Vamos a utlzar el fltro RemoveWthValues, que elmna las nstancas de acuerdo a condcones defndas sobre uno de los atrbutos. Las opcones que aparecen en la ventana de confguracón son las ndcadas a contnuacón. el atrbuto utlzado para fltrar se ndca en "attrbuteindex". S es un atrbuto nomnal, se ndcan los valores a fltrar en el últmo parámetro, "nomnalindces". S es numérco, se fltran las nstancas con un valor nferor al punto de corte, "spltpont". Se puede nvertr el crtero de fltrado medante el campo "nvertselecton". Este fltro permte verfcar una condcón smple sobre un atrbuto. Sn embargo, es posble hacer un fltrado más complejo sobre varas condcones aplcadas a uno o varos atrbutos sn más que aplcar en cascada varos fltros Técncas de Análss de Datos Págna 72 de 266

180 Capítulo 4 Técncas de Análss de Datos en Weka A modo de ejemplo, utlce tres fltros de este tpo para selecconar los alumnos de Getafe y Leganés con una calfcacón de la prueba entre 6.0 y 8.0. Compruebe el efecto de fltrado vsualzando los hstogramas de los atrbutos correspondentes (localdad y calfcacón en la prueba), tal y como se ndca en la fgura sguente: Vsualzacón Una de las prmeras etapas del análss de datos puede ser el mero análss vsual de éstos, en ocasones de gran utldad para desvelar relacones de nterés utlzando nuestra capacdad para comprender mágenes. La herramenta de vsualzacón de WEKA permte presentar gráfcas 2D que relaconen pares de atrbutos, con la opcón de utlzar además los colores para añadr nformacón de un tercer atrbuto. Además, tene ncorporada una facldad nteractva para selecconar nstancas con el ratón. Representacón 2D de los datos Las nstancas se pueden vsualzar en gráfcas 2D que relaconen pares de atrbutos. Al selecconar la opcón Vsualze del Explorer aparecen todas los pares posbles de atrbutos en las coordenadas horzontal y vertcal. La dea es que se seleccona la gráfca deseada para verla en detalle en una ventana nueva. En nuestro caso, aparecerán todas las combnacones posbles de atrbutos. Como prmer ejemplo vamos a vsualzar el rango de calfcacones fnales de los alumnos a lo largo de los años, ponendo la convocatora (juno o septembre) como color de la gráfca. Técncas de Análss de Datos Págna 73 de 266

181 Capítulo 4 Técncas de Análss de Datos en Weka Vamos a vsualzar ahora dos varables cuya relacón es de gran nterés, la calfcacón de la prueba en funcón de la nota de bachllerato, y tomando como color la convocatora (juno o septembre). en esta gráfca podemos aprecar la relacón entre ambas magntudes, que s ben no es drecta al menos defne una certa tendenca crecente, y como la convocatora está bastante relaconada con ambas calfcacones. Cuando lo que se relaconan son varables smbólcas, se presentan sus posbles valores a lo largo del eje. Sn embargo, en estos casos todas las nstancas que comparten cada valor de un atrbuto smbólco pueden ocultarse Técncas de Análss de Datos Págna 74 de 266

182 Capítulo 4 Técncas de Análss de Datos en Weka (serían un únco punto en el plano), razón por la que se utlza la facldad de Jtter. Esta opcón permte ntroducr un desplazamento aleatoro (rudo) en las nstancas, con objeto de poder vsualzar todas aquellas que comparten un par de valores de atrbutos smbólcos, de manera que puede vsualzarse la proporcón de nstancas que aparece en cada regón. A modo de ejemplo se muestra a contnuacón la relacón entre las tres asgnaturas optatvas, y con la opcón cursada como color Técncas de Análss de Datos Págna 75 de 266

183 Capítulo 4 Técncas de Análss de Datos en Weka puede verse una marcada relacón entre las asgnaturas opconales, de manera que este gráfco lustra qué tpo de asgnaturas engloba cada una de las cnco posbles opcones cursadas. Se sugere preparar el sguente gráfco, que relacona la calfcacón obtenda en la prueba con la localdad de orgen y la nota de bachllerato, estando las calfcacones dscretzadas en ntervalos de ampltud 2 Técncas de Análss de Datos Págna 76 de 266

184 Capítulo 4 Técncas de Análss de Datos en Weka Aquí el color trae más nformacón, pues ndca en cada ntervalo de calfcacones de la prueba, la calfcacón en bachllerato, lo que permte lustrar la "satsfaccón" con la calfcacón en la prueba o resultados no esperados, además dstrbudo por localdades. Fltrado gráfco de los datos WEKA permte tambén realzar fltros de seleccón de nstancas sobre los propos gráfcos, con una nteraccón a través del ratón para aslar los grupos de nstancas cuyos atrbutos cumplen determnadas condcones. Esta facldad permte realzar fltrados de nstancas de modo nteractvo y más ntutvo que los fltros ndcados en la seccón Las opcones que exsten son: Seleccón de nstancas con un valor determnado (hacer clc sobre la poscón en el gráfco) Seleccón con un rectángulo de un subconjunto de combnacones (comenzando por el vértce superor zquerdo) (Rectangle) Seleccón con un polígono cerrado de un subconjunto (Polygon) Seleccón con una línea aberta de frontera (Polylne) Por ejemplo, a contnuacón se ndca la seleccón de alumnos que obtuveron una calfcacón por debajo de sus expectatvas (calfcacón en la prueba nferor a su nota en el bachllerato), con la opcón Polygon. Una vez realzada la seleccón, la opcón Submt permte elmnar el resto de nstancas, y Save almacenarlas en un fchero. Reset devuelve la relacón a su estado orgnal. Utlce estas facldades gráfcas para hacer subconjuntos de los datos con los alumnos aprobados de las opcones y 2 frente a los de las opcones 3, 4 y 5. Técncas de Análss de Datos Págna 77 de 266

185 Capítulo 4 Técncas de Análss de Datos en Weka Salve las relacones fltradas para a contnuacón cargarlas y mostrar los hstogramas, que aparecerán como se ndca en la fgura sguente. Asocacón Los algortmos de asocacón permten la búsqueda automátca de reglas que relaconan conjuntos de atrbutos entre sí. Son algortmos no supervsados, en el sentdo de que no exsten relacones conocdas a pror con las que contrastar la valdez de los resultados, sno que se evalúa s esas reglas son estadístcamente sgnfcatvas. La ventana de Asocacón (Assocate en el Explorer), tene los sguente elementos: Técncas de Análss de Datos Págna 78 de 266

186 Capítulo 4 Técncas de Análss de Datos en Weka Seleccón y confguracón del algortmo de asocacón Vsualzacón de resultados y almacenament o Resultados (en texto) El prncpal algortmo de asocacón mplementado en WEKA es el algortmo "Apror". Este algortmo úncamente puede buscar reglas entre atrbutos smbólcos, razón por la que se requere haber dscretzado todos los atrbutos numércos. Por smplcdad, vamos a aplcar un fltro de dscretzacón de todos los atrbutos numércos en cuatro ntervalos de la msma frecuenca para explorar las relacones más sgnfcatvas. El algortmo lo ejecutamos con sus parámetros por defecto. Técncas de Análss de Datos Págna 79 de 266

187 Capítulo 4 Técncas de Análss de Datos en Weka las reglas que aparecen aportan poca nformacón. Aparecen en prmer lugar las relacones trvales entre asgnaturas y opcones, así como las que relaconan suspensos en la prueba y en la calfcacón fnal. En cuanto a las que relaconan alumnos presentados con doma selecconado son debdas a la fuerte descompensacón en el doma selecconado. La abrumadora mayoría de los presentados a la prueba de doma selecconaron el nglés, como ndca la fgura sguente: Con objeto de buscar relacones no conocdas, se fltrarán ahora todos los atrbutos relaconados con descrptores de asgnaturas y calfcacones parcales, quedando úncamente los atrbutos: Año_académco convocatora localdad opconª cal_prueba nota_bach En este caso, las reglas más sgnfcatvas son:. nota_bach='(8-nf)' 229 ==> convocatora=j 205 conf:(0.99) 2. cal_prueba='( ]' nota_bach='(6-8]' 252 ==> convocatora=j 2402 conf:(0.95) 3. cal_prueba='( ]' 426 ==> convocatora=j 3997 conf:(0.95) Técncas de Análss de Datos Págna 80 de 266

188 Capítulo 4 Técncas de Análss de Datos en Weka estas reglas aportan nformacón no tan trval: el 99% de alumnos con nota superor a 8 se presentan a la convocatora de Juno, así el 95% de los alumnos con calfcacón en la prueba entre y 7. es sgnfcatvo ver que no aparece nnguna relacón mportante entre las calfcacones, localdad y año de la convocatora. Tambén es destacado ver la ausenca de efecto de la opcón cursada. S preparamos los datos para dejar sólo cnco atrbutos, Año_académco convocatora localdad opconª cal_fnal, con el últmo dscretzado en dos grupos guales (hasta 5.85 y 5.85 hasta 0), tenemos que de nuevo las reglas más sgnfcatvas relaconan convocatora con calfcacón, pero ahora entran en juego opcones y localdades, s ben bajando la precsón de las reglas:. opconª= cal_fnal='(5.685-nf)' 280 ==> convocatora=j 265 conf:(0.93) 2. localdad=leganes cal_fnal='(5.685-nf)' 254 ==> convocatora=j 235 conf:(0.92) 3. Año_académco='( ]' cal_fnal='(5.685-nf)' 375 ==> convocatora=j 2890 conf:(0.9) 4. cal_fnal='(5.685-nf)' 9397 ==> convocatora=j 8549 conf:(0.9) 5. opconª=4 cal_fnal='(5.685-nf)' 2594 ==> convocatora=j 2358 conf:(0.9) 6. Año_académco='( nf)' cal_fnal='(5.685-nf)' 3726 ==> Técncas de Análss de Datos Págna 8 de 266

189 Capítulo 4 Técncas de Análss de Datos en Weka convocatora=j 3376 conf:(0.9) 7. localdad=getafe cal_fnal='(5.685-nf)' 256 ==> convocatora=j 95 conf:(0.9) Al fltrar la convocatora, que nos orgna relacones bastante evdentes, tendremos las reglas más sgnfcatvas entre localdad, año, calfcacón y opcón. Como podemos ver, al lanzar el algortmo con los parámetros por defecto no aparece nnguna regla. Esto es debdo a que se forzó como umbral mínmo aceptable para una regla el 90%. Vamos a bajar ahora este parámetro hasta el 50%: Best rules found:. opconª= ==> cal_fnal='(-nf-5.685]' 3390 conf:(0.57) 2. opconª= 53 ==> cal_fnal='(5.685-nf)' 280 conf:(0.55) 3. Año_académco='( nf)' 7049 ==> cal_fnal='(5.685-nf)' 3726 conf:(0.53) 4. opconª= ==> cal_fnal='(5.685-nf)' 2575 conf:(0.53) 5. localdad=getafe 4464 ==> cal_fnal='(-nf-5.685]' 2308 conf:(0.52) 6. localdad=leganes 4926 ==> cal_fnal='(5.685-nf)' 254 conf:(0.5) 7. Año_académco='( ]' 6376 ==> cal_fnal='(-nf-5.685]' 320 conf:(0.5) Por tanto, forzando los térmnos, tenemos que los estudantes de las 2 prmeras opcones tenen mayor probabldad de aprobar la prueba, así como los estudantes de la localdad de Leganés. Los estudantes de Getafe tenen una probabldad superor de obtener una calfcacón nferor. Hay que destacar que estas reglas rozan el umbral del 50%, pero han sdo selecconadas como las más sgnfcatvas de todas las posbles. Tambén hay que consderar que s aparecen estas dos localdades en prmer lugar es smplemente por su mayor volumen de datos, lo que otorga una sgnfcatvdad superor en las relacones encontradas. S se consulta la bblografía, el prmer crtero de seleccón de reglas del algortmo "A pror" es la precsón o confanza, dada por el porcentaje de veces que nstancas que cumplen el antecedente cumplen el consecuente, pero el segundo es el soporte, dado por el número de nstancas Técncas de Análss de Datos Págna 82 de 266

190 Capítulo 4 Técncas de Análss de Datos en Weka sobre las que es aplcable la regla. En todo caso, son reglas de muy baja precsón y que habría que consderar smplemente como certas tendencas. Agrupamento La opcón Cluster del Expermenter nos permte aplcar algortmos de agrupamento de nstancas a nuestros datos. Estos algortmos buscan grupos de nstancas con característcas "smlares", según un crtero de comparacón entre valores de atrbutos de las nstancas defndos en los algortmos. El mecansmo de seleccón, confguracón y ejecucón es smlar a otros elementos: prmero se seleccona el algortmo con Choose, se ajustan sus parámetros selecconando sobre el área donde aparece, y se después se ejecuta. El área de agrupamento del Explorer presenta los sguentes elementos de confguracón: Seleccón y confguracón del algortmo Evaluacón del resultado de cluster Clusters en texto Vsualzacón de resultados Una vez que se ha realzado la seleccón y confguracón del algortmo, se puede pulsar el botón Start, que hará que se aplque sobre la relacón de trabajo. Los resultados se presentarán en la ventana de texto de la parte derecha. Además, la ventana zquerda permte lstar todos los algortmos y resultados que se hayan ejecutado en la sesón actual. Al selecconarlos en esta lsta de vsualzacón se presentan en la ventana de texto a la derecha, y además se permte abrr ventanas gráfcas de vsualzacón con un menú contextual que aparece al pulsar el botón derecho sobre el resultado selecconado. Por últmo, en esta opcón de Agrupamento aparecen las sguentes opcones adconales en la pantalla. Técncas de Análss de Datos Págna 83 de 266

191 Capítulo 4 Técncas de Análss de Datos en Weka Ignorar atrbutos La opcón Ignorng Attrbutes permte sacar fuera atrbutos que no nteresa consderar para el agrupamento, de manera que el análss de parecdo entre nstancas no consdera los atrbutos selecconados. Al acconar esta opcón aparecen todos los atrbutos dsponbles. Se pueden selecconar con el botón zquerdo sobre un atrbuto específco, o selecconar grupos usando SHIFT para un grupo de atrbutos contguos y CONTROL para grupos de atrbutos sueltos. Evaluacón La opcón Cluster Mode permte elegr como evaluar los resultados del agrupamento. Lo más smple es utlzar el propo conjunto de entrenamento, Use trannng set, que ndca que porcentaje de nstancas se van a cada grupo. El resto de opcones realzan un entrenamento con un conjunto, sobre el que construyen los clusters y a contnuacón aplcan estos clusters para clasfcar un conjunto ndependente que puede proporconarse aparte (Suppled test), o ser un porcentaje del conjunto de entrada (Percentage splt). Exste tambén la opcón de comparar los clusters con un atrbuto de clasfcacón (Classes to clusters evaluaton) que no se consdera en la construccón de los clusters. Nosotros nos centraremos úncamente en la prmera opcón, dejando el resto de opcones de evaluacón para más adelante, cuando lleguemos a los algortmos de clasfcacón. Fnalmente, el cuadro opconal de almacenamento de nstancas, Store clusters for vsualzaton, es muy útl para después analzar los resultados gráfcamente. Agrupamento numérco En prmer lugar utlzaremos el algortmo de agrupamento K-medas, por ser uno de los más veloces y efcentes, s ben uno de los más lmtados. Este algortmo precsa úncamente del número de categorías smlares en las que queremos dvdr el conjunto de datos. Suele ser de nterés repetr la ejecucón del algortmo K-medas con dferentes semllas de ncalzacón, dada la notable dependenca del arranque cuando no está clara la solucón que mejor dvde el conjunto de nstancas. En nuestro ejemplo, vamos a comprobar s el atrbuto opcón dvde naturalmente a los alumnos en grupos smlares, para lo que selecconamos el algortmo SmpleKMeans con parámetro numclusters con valor 5. Los resultados aparecen en la ventana de texto derecha: Técncas de Análss de Datos Págna 84 de 266

192 Capítulo 4 Técncas de Análss de Datos en Weka Nos aparecen los 5 grupos de ejemplos más smlares, y sus centrodes (promedos para atrbutos numércos, y valores más repetdos en cada grupo para atrbutos smbólcos). En este caso es de nterés analzar gráfcamente como se dstrbuyen dferentes valores de los atrbutos en los grupos generados. Para ello basta pulsar con botón derecho del ratón sobre el cuadro de resultados, y selecconar la opcón vsualzeclusterassgnments S selecconamos combnacones del atrbuto opcón con localdad, nota o convocatora podemos ver la dstrbucón de grupos: Técncas de Análss de Datos Págna 85 de 266

193 Capítulo 4 Técncas de Análss de Datos en Weka A la vsta de estos gráfcos podemos conclur que el parecdo entre casos vene dado fundamentalmente por las opcones selecconadas. Los clusters 0, y 4 se corresponden con las opcones 3, 4 y, mentras que los clusters 2 y 3 representan la opcón 3 en las convocatoras de juno y septembre. Aprovechando esta posbldad de buscar grupos de semejanzas, podríamos hacer un análss más partcularzado a las dos localdades mayores, Leganés y Getafe, buscando qué opcones y calfcacones aparecen con más frecuenca. Vamos a preparar los datos con fltros de modo que tengamos úncamente tres atrbutos: localdad, opcón, y calfcacón fnal. Además, dscretzamos las calfcacones en dos grupos de la msma frecuenca (estudantes con mayor y menor éxto), y úncamente nos quedamos con los alumnos de Leganés y Getafe. Utlzaremos para ello los fltros adecuados. A contnuacón aplcamos el algortmo K-medas con 4 grupos. Técncas de Análss de Datos Págna 86 de 266

194 Capítulo 4 Técncas de Análss de Datos en Weka vemos que los grupos nos muestran la presenca de buenos alumnos en Getafe en la opcón 4, y buenos alumnos en Leganés en la opcón, sempre consderando estas conclusones como tendencas en promedo. Gráfcamente vemos la dstrbucón de clusters por combnacones de atrbutos: S consderamos que en Leganés hay escuelas de ngenería, y en Getafe facultades de Humandades, podríamos conclur que podría ser achacable al mpacto de la unversdad en la zona. El algortmo EM provene de la estadístca y es bastante más elaborado que el K-medas, con el coste de que requere muchas más operacones, y es apropado cuando sabemos que los datos tenen una varabldad estadístca de modelo conocdo. Dada esta mayor complejdad, y el notable volumen del Técncas de Análss de Datos Págna 87 de 266

195 Capítulo 4 Técncas de Análss de Datos en Weka fchero de datos, prmero aplcaremos un fltro de nstancas al 3% para dejar un número de 500 nstancas aproxmadamente. Para esto últmo remos al preprocesado y aplcamos un fltro de nstancas, el fltro Resample, con factor de reduccón al 3%: Una ventaja adconal del algortmo de clusterng EM es que permte además buscar el número de grupos más apropado, para lo cual basta ndcar a el número de clusters a formar, que es la opcón que vene por defecto. Esto se nterpreta como dejar el parámetro del número de clusters como un valor a optmzar por el propo algortmo. Tras su aplcacón, este algortmo determna que hay cnco clusters sgnfcatvos en la muestra de 500 alumnos, y a contnuacón ndca los centrodes de cada grupo: Al gual que antes, es nteresante analzar el resultado del agrupamento sobre dferentes combnacones de atrbutos, hacendo uso de la facldad vsualzeclusterassgnments Técncas de Análss de Datos Págna 88 de 266

196 Capítulo 4 Técncas de Análss de Datos en Weka Por tanto podría conclurse que para este segundo algortmo de agrupamento por crteros estadístcos y no de dstancas entre vectores de atrbutos, predomna el agrupamento de los alumnos báscamente por tramos de calfcacones, ndependentemente de la opcón, mentras que en el anteror pesaba más el perfl de asgnaturas cursado que las calfcacones. Esta dspardad srve para lustrar la problemátca de la decsón del crtero de parecdo entre nstancas para realzar el agrupamento. Agrupamento smbólco Fnalmente, como alternatva a los algortmos de agrupamento anterores, el agrupamento smbólco tene la ventaja de efectuar un análss cualtatvo que construye categorías jerárqucas para organzar los datos. Estas categorías se forman con un crtero probablístco de "utldad", llegando a las que permten homogenedad de los valores de los atrbutos dentro de cada una y al msmo tempo una separacón entre categorías dadas por los atrbutos, propagándose estas característcas en un árbol de conceptos. S aplcamos el algortmo cobweb con los parámetros por defecto sobre la muestra reducda de nstancas (dada la complejdad del algortmo), el árbol generado llega hasta 800 nodos. Vamos a modfcar el parámetro cut-off, que permte poner condcones más restrctvas a la creacón de nuevas categorías en un nvel y subcategorías. Con los parámetros sguentes se llega a un árbol muy manejable: Técncas de Análss de Datos Págna 89 de 266

197 Capítulo 4 Técncas de Análss de Datos en Weka la opcón saveinstancedata es de gran utldad para después analzar la dstrbucón de valores de atrbutos entre las nstancas de cada parte del árbol de agrupamento. Una vez ejecutado Cobweb, genera un resultado como el sguente: hay 3 grupos en un prmer nvel, y el segundo se subdvde en otros dos. De nuevo actvando el botón derecho sobre la ventana de resultados, ahora podemos vsualzar el árbol gráfcamente: las opcones de vsualzacón aparecen al pulsar el botón derecho en el fondo de la fgura. Se pueden vsualzar las nstancas que van a cada nodo sn más que pulsar el botón derecho sobre él. S nos fjamos en como quedan dstrbudas las nstancas por clusters, con la opcón vsualzeclusterassgnments, llegamos a la fgura: Técncas de Análss de Datos Págna 90 de 266

198 Capítulo 4 Técncas de Análss de Datos en Weka por tanto, vemos que de nuevo vuelve a pesar la opcón como crtero de agrupamento. Los nodos hoja, 3, 4 y 5 se corresponden con las opcones cursadas 2, 3, y 4 respectvamente. En un prmer nvel hay tres grupos, uno para la opcón 2, otro para la opcón 4 y otro que une las opcones y 3. Este últmo se subdvde en dos grupos que se corresponden con ambas opcones. Clasfcacón Fnalmente, en esta seccón abordamos el problema de la clasfcacón, que es el más frecuente en la práctca. En ocasones, el problema de clasfcacón se formula como un refnamento en el análss, una vez que se han aplcado algortmos no supervsados de agrupamento y asocacón para descrbr relacones de nterés en los datos. Se pretende construr un modelo que permta predecr la categoría de las nstancas en funcón de una sere de atrbutos de entrada. En el caso de WEKA, la clase es smplemente uno de los atrbutos smbólcos dsponbles, que se converte en la varable objetvo a predecr. Por defecto, es el últmo atrbuto (últma columna) a no ser que se ndque otro explíctamente. La confguracón de la clasfcacón se efectúa con la ventana sguente: Técncas de Análss de Datos Págna 9 de 266

199 Capítulo 4 Técncas de Análss de Datos en Weka Seleccón y confguracón del algortmo de clasfcacón Modo de evaluacón del clasfcador Atrbuto selecconado como clase Modelo y evaluacón (en texto) Vsualzacón de resultados la parte superor, como es habtual srve para selecconar el algortmo de clasfcacón y confgurarlo. El resto de elementos a defnr en esta ventana se descrben a contnuacón. Modos de evaluacón del clasfcador El resultado de aplcar el algortmo de clasfcacón se efectúa comparando la clase predcha con la clase real de las nstancas. Esta evaluacón puede realzarse de dferentes modos, según la seleccón en el cuadro Test optons: Use tranng set: esta opcón evalúa el clasfcador sobre el msmo conjunto sobre el que se construye el modelo predctvo para determnar el error, que en este caso se denomna "error de resusttucón". Por tanto, esta opcón puede proporconar una estmacón demasado optmsta del comportamento del clasfcador, al evaluarlo sobre el msmo conjunto sobre el que se hzo el modelo. Suppled test set: evaluacón sobre conjunto ndependente. Esta opcón permte cargar un conjunto nuevo de datos. Sobre cada dato se realzará una predccón de clase para contar los errores. Cross-valdaton: evaluacón con valdacón cruzada. Esta opcón es la más elaborada y costosa. Se realzan tantas evaluacones como se ndca en el parámetro Folds. Se dvden las nstancas en tantas carpetas como ndca este parámetro y en cada evaluacón se toman las nstancas de cada carpeta como datos de test, y el resto como datos de entrenamento para Técncas de Análss de Datos Págna 92 de 266

200 Capítulo 4 Técncas de Análss de Datos en Weka construr el modelo. Los errores calculados son el promedo de todas las ejecucones. Percentage splt : esta opcón dvde los datos en dos grupos, de acuerdo con el porcentaje ndcado (%). El valor ndcado es el porcentaje de nstancas para construr el modelo, que a contnuacón es evaluado sobre las que se han dejado aparte. Cuando el número de nstancas es sufcentemente elevado, esta opcón es sufcente para estmar con precsón las prestacones del clasfcador en el domno. Además de estas opcones para selecconar el modo de evaluacón, el botón More Optons abre un cuadro con otras opcones adconales: Output model: permte vsualzar (en modo texto y, con algunos algortmos, en modo gráfco) el modelo construdo por el clasfcador (árbol, reglas, etc.) Output per-class stats: obtene estadístcas de los errores de clasfcacón por cada uno de los valores que toma el atrbuto de clase Output entropy evaluaton measures: generaría tambén meddas de evaluacón de entropía Store predctons for vsualzaton: permte analzar los errores de clasfcacón en una ventana de vsualzacón Cost-senstve evaluaton: con esta opcón se puede especfcar una funcón con costes relatvos de los dferentes errores, que se rellena con el botón Set en nuestro ejemplo utlzaremos los valores por defecto de estas últmas opcones. Evaluacón del clasfcador en ventana de texto Una vez se ejecuta el clasfcador selecconado sobre los datos de la relacón, en la ventana de texto de la derecha aparece nformacón de ejecucón, el modelo generado con todos los datos de entrenamento y los resultados de la Técncas de Análss de Datos Págna 93 de 266

201 Capítulo 4 Técncas de Análss de Datos en Weka evaluacón. Por ejemplo, al predecr el atrbuto "presentado", con un árbol de decsón de tpo J48, aparece el modelo textual sguente: J48 pruned tree cal_prueba <= 0: NO (53.0) cal_prueba > 0: SI (8649.0/2.0) Number of Leaves : 2 Sze of the tree : 3 Se obtene a partr de los datos esta relacón trval, salvo dos úncos casos de error: los presentados son los que tenen una calfcacón superor a 0. Con referenca al nforme de evaluacón del clasfcador, podemos destacar tres elementos: Resumen (Summary): es el porcentaje global de errores cometdos en la evaluacón Precsón detallada por clase: para cada uno de los valores que puede tomar el atrbuto de clase: el porcentaje de nstancas con ese valor que son correctamente predchas (TP: true postves), y el porcentaje de nstancas con otros valores que son ncorrectamente predchas a ese valor aunque tenían otro (FP: false postves). Las otras columnas, precson, recall, F- measure, se relaconan con estas dos anterores. Matrz de confusón: aquí aparece la nformacón detallada de cuantas nstancas de cada clase son predchas a cada uno de los valores posbles. Por tanto, es una matrz con N 2 poscones, con N el número de valores que puede tomar la clase. En cada fla, =...N, aparecen las nstancas que realmente son de la clase, mentras que las columnas j, j=...n, son las que se han predcho al valor j de la clase. En el ejemplo anteror, la matrz de confusón que aparece es la sguente: === Confuson Matrx === a b <-- classfed as a = SI 2 53 b = NO por tanto, los valores en la dagonal son los acertos, y el resto de valores son los errores. De los 8647 alumnos presentados, todos son correctamente clasfcados, mentras que de los 55 no presentados, hay 53 correctamente clasfcados y 2 con error. Lsta de resultados Al gual que con otras opcones de análss, la ventana zquerda de la lsta de resultados contene el resumen de todas las aplcacones de clasfcadores sobre conjuntos de datos en la sesón del Explorer. Puede accederse a esta Técncas de Análss de Datos Págna 94 de 266

202 Capítulo 4 Técncas de Análss de Datos en Weka lsta para presentar los resultados, y al actvar el botón derecho aparecen dferentes opcones de vsualzacón, entre las que podemos destacar las sguentes: Salvar y cargar modelos: Load model, Save model. Estos modelos pueden recuperarse de fchero para posterormente aplcarlos a nuevos conjuntos de datos Vsualzar árbol y errores de predccón: Vsualze tree, Vsualze classfer errors,... el árbol (permte almacenar Una vez se ejecuta el clasfcador selecconado sobre los datos de la relacón, Seleccón y confguracón de clasfcadores Vamos a lustrar la aplcacón de algortmos de clasfcacón a dferentes problemas de predccón de atrbutos defndos sobre los datos de entrada en este ejemplo. El problema de clasfcacón sempre se realza sobre un atrbuto smbólco, en el caso de utlzar un atrbuto numérco se precsa por tanto dscretzarlo antes en ntervalos que representarán los valores de clase. En prmer lugar efectuaremos análss de predccón de la calfcacón en la prueba de selectvdad a partr de los sguentes atrbutos: año, convocatora, localdad, opcón, presentado y nota de bachllerato. Se van a realzar dos tpos de predccones: aprobados, e ntervalos de clasfcacón. Por tanto tenemos que aplcar en prmer lugar una combnacón de fltros que elmne los atrbutos no deseados relatvos a calfcacones parcales y asgnaturas opconales, y un fltro que dscretce la calfcacón en la prueba en dos partes: obsérvese que se prefere realzar las predccones sobre la calfcacón en la prueba, puesto que la calfcacón fnal depende explíctamente de la nota del bachllerato. Técncas de Análss de Datos Págna 95 de 266

203 Capítulo 4 Técncas de Análss de Datos en Weka Clasfcador OneR Este es uno de los clasfcadores más sencllos y rápdos, aunque en ocasones sus resultados son sorprendentemente buenos en comparacón con algortmos mucho más complejos. Smplemente seleccona el atrbuto que mejor explca la clase de salda. S hay atrbutos numércos, busca los umbrales para hacer reglas con mejor tasa de acertos. Lo aplcaremos al problema de predccón de aprobados en la prueba a partr de los atrbutos de entrada, para llegar al resultado sguente: por tanto, el algortmo llega a la conclusón que la mejor predccón posble con un solo atrbuto es la nota del bachllerato, fjando el umbral que determna el éxto en la prueba en La tasa de acertos sobre el propo conjunto de entrenamento es del 72.5%. Compárese este resultado con el obtendo medante ejecucón sobre nstancas ndependentes. Clasfcador como árbol de decsón: J48 El algortmo J48 de WEKA es una mplementacón del algortmo C4.5, uno de los algortmos de mnería de datos que más se ha utlzado en multtud de aplcacones. No vamos a entrar en los detalles de todos los parámetros de confguracón, dejándolo para el lector nteresado en los detalles de este algortmo, y úncamente resaltaremos uno de los más mportantes, el factor de confanza para la poda, confdence level, puesto que nfluye notoramente en el tamaño y capacdad de predccón del árbol construdo. Una explcacón smplfcada de este parámetro de construccón del árbol es la sguente: para cada operacón de poda, defne la probabldad de error que se permte a la hpótess de que el empeoramento debdo a esta operacón es sgnfcatvo. Cuanto más baja se haga esa probabldad, se exgrá que la dferenca en los errores de predccón antes y después de podar sea más Técncas de Análss de Datos Págna 96 de 266

204 Capítulo 4 Técncas de Análss de Datos en Weka sgnfcatva para no podar. El valor por defecto de este factor es del 25%, y conforme va bajando se permten más operacones de poda y por tanto llegar a árboles cada vez más pequeños. Otra forma de varar el tamaño del árbol es a través de un parámetro que especfca el mínmo número de nstancas por nodo, s ben es menos elegante puesto que depende del número absoluto de nstancas en el conjunto de partda. Construremos el árbol de decsón con los parámetros por defecto del algortmo J48: se llega a un clasfcador con más de 250 nodos, con una probabldad de acerto lgeramente superor al del clasfcador OneR. Modfque ahora la confguracón del algortmo para llegar a un árbol más manejable, como el que se presenta a contnuacón Obsérvese que este modelo es un refnamento del generado con OneR, que supone una mejorar moderada en las prestacones. De nuevo los atrbutos más mportantes son la calfcacón de bachllerato, la convocatora, y después el año, antes que la localdad o las opcones. Analce las dferencas con evaluacón ndependente y valdacón cruzada, y compárelas con las del árbol más complejo con menos poda. Podría ser de nterés analzar el efecto de las opcones y asgnaturas selecconadas sobre el éxto en la prueba, para lo cual qutaremos el atrbuto más mportante, nota de bachllerato. Llegamos a un árbol como el sguente, en el que lo más mportante es la prmera asgnatura optatva, en dferentes combnacones con el año y segunda asgnatura optatva: Técncas de Análss de Datos Págna 97 de 266

205 Capítulo 4 Técncas de Análss de Datos en Weka Este resultado generado por el clasfcador puede comprobarse s se analzan los hstogramas de cada varable y vsualzando el porcentaje de aprobados con el color, que esta varable es la que mejor separa las clases, no obstante, la precsón apenas supera el 55%. Otros problemas de clasfcacón pueden formularse sobre cualquer atrbuto de nterés, a contnuacón mostramos algunos ejemplos a título lustratvo. Clasfacón multnvel de las calfcacones el problema anteror puede ntentar refnarse y dvdr el atrbuto de nterés, la calfcacón fnal, en más nveles, en este caso 5. Los resultados se muestran a contnuacón oner J48 Técncas de Análss de Datos Págna 98 de 266

206 Capítulo 4 Técncas de Análss de Datos en Weka La precsón alcanzada es tan sólo del 60%, ndcando que hay bastante ncertdumbre una vez generada la predccón con los modelos anterores. Predccón de la opcón S dejamos todos los atrbutos en la muestra y aplcamos el clasfcador a la opcón cursado, se desvela una relacón trval entre opcón y asgnaturas en las opcones que predce con práctcamente el 00% de los casos. A contnuacón elmnamos estos desgnadores con un fltro de atrbutos. S aplcamos el algortmo J48 sobre los datos fltrados, llegamos a un árbol de más de 400 nodos, y con muchísmo sobre-ajuste (observe la dferenca de error de predccón sobre el conjunto de entrenamento y sobre un conjunto ndependente). Forzando la poda del árbol, llegamos al modelo sguente: los atrbutos más sgnfcatvos para separar las opcones son precsamente las calfcacones en las asgnaturas optatvas, pero apenas predce correctamente un 40% de los casos. Por tanto, vemos que no hay una relacón drecta entre opcones y calfcacones en la prueba, al menos relacones que se puedan modelar con los algortmos de clasfcacón dsponbles. S nos fjamos en detalle en las calfcacones en funcón de las opcones, podríamos determnar que apenas aparecen dferencas aparecen en los últmos percentles, a la vsta de las gráfcas sguentes: Técncas de Análss de Datos Págna 99 de 266

207 Capítulo 4 Técncas de Análss de Datos en Weka nota hstora nota doma nota lengua nota fnal nota asg nota asg 2 Técncas de Análss de Datos Págna 200 de 266

208 Capítulo 4 Técncas de Análss de Datos en Weka nota asg3 Vemos que las dferencas no son sgnfcatvas, salvo quzá en los últmos percentles. Predccón de localdad y opcón La clasfcacón se puede realzar sobre cualquer atrbuto dsponble. Con el número de atrbutos reducdo a tres, localdad, opcón y calfcacón (aprobados y suspensos), vamos a buscar modelos de clasfcacón, para cada uno de los atrbutos: predccón de localdad predccón de opcón Es decr, la opcón y 2 aparecen mayortaramente en Leganés, y las opcones 3 y 4 más en los alumnos que aprobaron la prueba en Leganés. No obstante, obsérvese que los errores son tan abrumadores (menos del 30% de acertos) que cuestonan fuertemente la valdez de estos modelos. Técncas de Análss de Datos Págna 20 de 266

209 Capítulo 4 Técncas de Análss de Datos en Weka Mejora en la prueba Un problema de clasfcacón nteresante puede ser determnar qué alumnos tenen más "éxto" en la prueba, en el sentdo de mejorar su calfcacón de bachllerato con la calfcacón en la prueba. Para ello utlzaremos el atrbuto "mejora", ntroducdo en la seccón.4.2.3, y lo dscretzamos en dos valores de la msma frecuenca (obtenemos una medana de -.75, de manera que dvdmos los alumnos en dos grupos: los que obtenen una dferenca menor a este valor y superor a este valor, para dferencar los alumnos según el resultado se atenga más o menos a sus expectatvas. Evdentemente, para evtar construr modelos trvales, tenemos que elmnar los atrbutos relaconados con las calfcacones en la prueba, para no llegar a la relacón que acabamos de construr entre la varable calculada y las orgnales. Vamos a preparar el problema de clasfcacón con los sguentes atrbutros: Attrbutes: 7 Año_académco convocatora localdad opconª nota_bach Presentado mejora Llegamos al sguente árbol de clasfcacón. Es decr, los atrbutos que más determnan el "éxto" en la prueba son: año académco, opcón y localdad. Para estos resultados tenemos una precsón, con evaluacón sobre un conjunto ndependente, en torno al 60%, por lo que sí podríamos tomarlo en consderacón. Técncas de Análss de Datos Págna 202 de 266

210 Capítulo 4 Técncas de Análss de Datos en Weka Predccón numérca La predccón numérca se defne en WEKA como un caso partcular de clasfcacón, en el que la clase es un valor numérco. No obstante, los algortmos ntegrados para clasfcar sólo admten clases smbólcas y los algortmos de predccón numércas, que aparecen mayortaramente en el apartado classfers->functons, aunque tambén en classfers->trees. Vamos a lustrar algortmos de predccón numérca en WEKA con dos tpos de problemas. Por un lado, "descubrr" relacones determnstas que aparecen entre varables conocdas, como calfcacón en la prueba con respecto a las parcales y la calfcacón fnal con respecto a la prueba y bachllerato, y buscar otros modelos de mayor posble nterés. Relacón entre calfcacón fnal y parcales Selecconamos los atrbutos con las 6 calfcacones parcales y la calfcacón en la prueba: Vamos a aplcar el modelo de predccón más popular: regresón smple, que construye un modelo lneal del atrbuto clase a partr de los atrbutos de entrada: functons->lnearregreson Como resultado, aparece la relacón con los pesos relatvos de las pruebas parcales sobre la calfcacón de la prueba: Técncas de Análss de Datos Págna 203 de 266

211 Capítulo 4 Técncas de Análss de Datos en Weka Hay que observar que en los problemas de predccón la evaluacón camba, aparecendo ahora el coefcente de correlacón y los errores medo y medo cuadrátco, en térmnos absolutos y relatvos. En este caso el coefcente de correlacón es de 0.998, lo que ndca que la relacón es de una precsón muy notable. S aplcamos ahora esta funcón a la relacón entre calfcacón fnal con calfcacón en la prueba y nota de bachllerato (fltro que seleccona úncamente los atrbutos 5-7), podemos determnar la relacón entre estas varables: qué peso se lleva la calfcacón de bachllerato y de la prueba en la nota fnal. Vamos a hacerlo prmero con los alumnos de una poblacón pequeña, de Guadarrama (poscón 2 del atrbuto localdad). Aplcamos los fltros correspondentes para tener úncamente estos alumnos, y los atrbutos de calfcacones de la prueba, bachllerato y fnal: llegamos a 40 nstancas: Técncas de Análss de Datos Págna 204 de 266

212 Capítulo 4 Técncas de Análss de Datos en Weka s aplcáramos regresón lneal como en el ejemplo anteror, obtenemos el sguente resultado: el resultado deja bastante que desear porque la relacón no es lneal. Para solventarlo podemos aplcar el algortmo M5P, selecconado en WEKA como trees->m5->m5p, que lleva a cabo una regresón por tramos, con cada tramo determnado a partr de un árbol de regresón. Llegamos al sguente resultado: Técncas de Análss de Datos Págna 205 de 266

213 Capítulo 4 Técncas de Análss de Datos en Weka que es práctcamente la relacón exacta utlzada en la actualdad: 60% nota de bachllerato y 40% de la prueba, sempre que se supere en ésta un valor mínmo de 4 puntos. S aplcamos este algortmo a otros centros no sempre obtenemos este resultado, por una razón: hasta 998 se ponderaba al 50%, y a partr de 999 se comenzó con la ponderacón anteror. Verfíquese aplcando este algortmo sobre datos fltrados que contengan alumnos de antes de 998 y de 999 en adelante. En este caso, el algortmo M5P no tene capacdad para construr el modelo correcto, debdo a la lgera dferenca en los resultados al cambar la forma de ponderacón. Los árboles obtendos en ambos casos se ncluyen a contnuacón: hasta 998 de 999 en adelante Técncas de Análss de Datos Págna 206 de 266

214 Capítulo 4 Técncas de Análss de Datos en Weka Predccón de la calfcacón Vamos a aplcar ahora este modelo para ntentar construr un modelo aplcacón más nteresante, o, al menos, analzar tendencas de nterés. Se trata de ntentar predecr la calfcacón fnal a partr de los atrbutos de entrada, los msmos que utlzamos para el problema de clasfcar los alumnos que aprueban la prueba. S aplcamos el algortmo sobre el conjunto completo llegamos al sguente modelo: obsérvese cómo trata el algortmo los atrbutos nomnales para nclurlos en la regresón: ordena los valores según el valor de la magntud a predecr (en el caso de localdad, desde Collado hasta Los Peñascales y en el de opcón, ordenadas como 4º, 5º, 3º, 2º, º), y va tomando varables bnaras resultado de dvdr en dferentes puntos, determnando su peso en la funcón. En esta funcón lo que más pesa es la convocatora, después la nota de bachllerato, y después entran en juego la localdad, asgnaturas optatvas, y opcón, con un modelo muy complejo. S smplfcamos el conjunto de atrbutos de entrada, y nos quedamos úncamente con el año, opcón, nota de bachllerato, y convocatora, llegamos a: Técncas de Análss de Datos Págna 207 de 266

215 Capítulo 4 Técncas de Análss de Datos en Weka este modelo es mucho más manejable. Compare los errores de predccón con ambos casos: modelo extenso modelo smplfcado Correlacón entre nota de bachllerato y calfcacón en prueba Fnalmente, es nteresante a veces hacer un modelo úncamente entre dos varables para ver el grado de correlacón entre ambas. Contnuando con nuestro nterés por las relacones entre calfcacón en prueba y calfcacón en bachllerato, vamos a ver las dferencas por opcón. Para ello fltraremos por un lado los alumnos de opcón y los de opcón 4. A contnuacón dejamos Técncas de Análss de Datos Págna 208 de 266

216 Capítulo 4 Técncas de Análss de Datos en Weka úncamente los atrbutos calfcacón en prueba y nota de bachllerato, para analzar la correlacón de los modelos para cada caso. alumnos opcón º alumnos opcón 4º podemos conclur que para estas dos opcones el grado de relacón entre las varables sí es sgnfcatvamente dferente, los alumnos que cursan la opcón º tenen una relacón más "lneal" entre ambas calfcacones que los procedentes de la opcón 4º Aprendzaje del modelo y aplcacón a nuevos datos. Para fnalzar esta seccón de clasfcacón, lustramos aquí las posbldades de construr y evaluar un clasfcador de forma cruzada con dos fcheros de datos. Selecconaremos el conjunto atrbutos sguente: Año_académco, convocatora, localdad, opconª, des_idoma, des_asg, des_asg2, des_asg3, cal_prueba, nota_bach, Presentado. El atrbuto con la calfcacón, cal_prueba, lo dscretzamos en dos ntervalos. Vamos a generar, con el fltro de nstancas dos conjuntos de datos correspondentes a los alumnos de Getafe y Torrelodones. Para ello prmero selecconamos las nstancas con el atrbuto localdad con valor 0, lo salvamos ( datosgetafe ) y a contnuacón las nstancas con dcho atrbuto con valor 2 ( datostorrelodones ). Técncas de Análss de Datos Págna 209 de 266

217 Capítulo 4 Técncas de Análss de Datos en Weka Ahora vamos a generar los modelos de clasfcacón de alumnos con buen y mal resultado en la prueba con el fchero de alumnos de la localdad de Torrelodones, para evaluarlo con los alumnos de Getafe. Para ello en prmer lugar cargamos el fchero con los alumnos de Torrelodones que acabamos de generar, datostorrelodones, y lo evaluamos sobre el conjunto con alumnos de Getafe. Para ello, selecconaremos la opcón de evaluacón con un fchero de datos ndependente, Suppled test set, y fjamos con el botón Set, que el fchero de test es datosgetafe. Obsérvese el modelo generado y los resultados: S ahora hacemos la operacón nversa, entrenar con los datos de Getafe y evaluar con los de Torrelodones, llegamos a: Técncas de Análss de Datos Págna 20 de 266

218 Capítulo 4 Técncas de Análss de Datos en Weka Hay lgeras dferencas en los modelos generados para ambos conjuntos de datos (para los alumnos de Torrelodones, lo más mportante es tener una calfcacón de bachllerato superor a 6.8, mentras que a los de Getafe les basta con un 6.5), y los resultados de evaluacón con los datos cruzados muestran una varacón muy pequeña. El modelo construdo a partr de los datos de Torrelodones predce lgeramente peor los resultados de Getafe que a la nversa. Seleccón de atrbutos Esta últma seccón permte automatzar la búsqueda de subconjuntos de atrbutos más apropados para "explcar" un atrbuto objetvo, en un sentdo de clasfcacón supervsada: permte explorar qué subconjuntos de atrbutos son los que mejor pueden clasfcar la clase de la nstanca. Esta seleccón "supervsada" aparece en contraposcón a los fltros de preprocesado comentados en la seccón.4.2, que se realzan de forma ndependente al proceso posteror, razón por la que se etquetaron como "no supervsados". La seleccón supervsada de atrbutos tene dos componentes: Método de Evaluacón (Attrbute Evaluator): es la funcón que determna la caldad del conjunto de atrbutos para dscrmnar la clase. Método de Búsqueda (Search Method): es la forma de realzar la búsqueda de conjuntos. Como la evaluacón exhaustva de todos los subconjuntos es un problema combnatoro nabordable en cuanto crece el número de atrbutos, aparecen estrategas que permten realzar la búsqueda de forma efcente De los métodos de evaluacón, podemos dstngur dos tpos: los métodos que drectamente utlzan un clasfcador específco para medr la caldad del subconjunto de atrbutos a través de la tasa de error del clasfcador, y los que no. Los prmeros, denomnados métodos "wrapper", porque "envuelven" al clasfcador para explorar la mejor seleccón de atrbutos que optmza sus prestacones, son muy costosos porque necestan un proceso completo de entrenamento y evaluacón en cada paso de búsqueda. Entre los segundos podemos destacar el método "CfsSubsetEval", que calcula la correlacón de la Técncas de Análss de Datos Págna 2 de 266

219 Capítulo 4 Técncas de Análss de Datos en Weka clase con cada atrbuto, y elmnan atrbutos que tenen una correlacón muy alta como atrbutos redundantes. En cuanto el método de búsqueda, vamos a menconar por su rapdez el "ForwardSelecton", que es un método de búsqueda subóptma en escalada, donde elje prmero el mejor atrbuto, después añade el sguente atrbuto que más aporta y contnua así hasta llegar a la stuacón en la que añadr un nuevo atrbuto empeora la stuacón. Otro método a destacar sería el "BestSearch", que permte buscar nteraccones entre atrbutos más complejas que el análss ncremental anteror. Este método va analzando lo que mejora y empeora un grupo de atrbutos al añadr elementos, con la posbldad de hacer retrocesos para explorar con más detalle. El método "ExhaustveSearch" smplemente enumera todas las posbldades y las evalúa para selecconar la mejor Por otro lado, en la confguracón del problema debemos selecconar qué atrbuto objetvo se utlza para la seleccón supervsada, en la ventana de seleccón, y determnar s la evaluacón se realzará con todas las nstancas dsponbles, o medante valdacón cruzada. Los elementos por tanto a confgurar en esta seccón se resumen en la fgura sguente: Algortmo evaluador Algortmo de búsqueda Evaluacón de la seleccón supervsada atrbuto de clase Resultados ( en texto) Vsualzacón de resultados Sguendo con nuestro ejemplo, vamos a aplcar búsqueda de atrbutos para "explcar" algunos atrbutos objetvo. Para obtener resultados sn necesdad de mucho tempo, vamos a selecconar los algortmos más efcentes de evaluacón y búsqueda, CsfSubsetEval y ForwardSelecton Técncas de Análss de Datos Págna 22 de 266

TÉCNICAS DE ANÁLISIS DE DATOS

TÉCNICAS DE ANÁLISIS DE DATOS TÉCNICAS DE ANÁLISIS DE DATOS APLICACIONES PRÁCTICAS UTILIZANDO MICROSOFT EXCEL Y WEKA José Manuel Molna López Jesús García Herrero 2006 PRÓLOGO Estos apuntes pretenden dar una vsón general de las técncas

Más detalles

EXPERIMENTACIÓN COMERCIAL(I)

EXPERIMENTACIÓN COMERCIAL(I) EXPERIMENTACIÓN COMERCIAL(I) En un expermento comercal el nvestgador modfca algún factor (denomnado varable explcatva o ndependente) para observar el efecto de esta modfcacón sobre otro factor (denomnado

Más detalles

Capitalización y descuento simple

Capitalización y descuento simple Undad 2 Captalzacón y descuento smple 2.1. Captalzacón smple o nterés smple 2.1.1. Magntudes dervadas 2.2. Intereses antcpados 2.3. Cálculo de los ntereses smples. Métodos abrevados 2.3.1. Método de los

Más detalles

INSYS Advanced Dashboard for Enterprise

INSYS Advanced Dashboard for Enterprise Enterprse Enterprse INSYS Advanced Dashboard for Enterprse Enterprse, es un tablero de control para llevar a cabo la Gestón de la Segurdad de la Informacón, Gestón de Gobernabldad, Resgo, Cumplmento (GRC)

Más detalles

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo Evaluacón Económca de Proyectos de Inversón 1 ANTECEDENTES GENERALES. La evaluacón se podría defnr, smplemente, como el proceso en el cual se determna el mérto, valor o sgnfcanca de un proyecto. Este proceso

Más detalles

Un modelo sencllo, dsponble y seguro Kontratazo publko elektronkoa públca electrónca Lctacones de Prueba: la mejor forma de conocer y domnar el Sstema de Lctacón Electrónca www.euskad.net/contratacon OGASUN

Más detalles

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis Tema. Estadístcos unvarados: tendenca central, varabldad, asmetría y curtoss 1. MEDIDA DE TEDECIA CETRAL La meda artmétca La medana La moda Comparacón entre las meddas de tendenca central. MEDIDA DE VARIACIÓ

Más detalles

Tu área reservada Organización Simplicidad Eficiencia

Tu área reservada Organización Simplicidad Eficiencia Rev. 07/2012 Tu área reservada Organzacón Smplcdad Efcenca www.vstos.t La Tu tua área area reservada rservata 1 MyVstos MyVstos es la plataforma nformátca, reservada a los clentes Vstos, que permte comprobar

Más detalles

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos. ESTADÍSTICA I. Recuerda: Poblacón: Es el conjunto de todos los elementos que cumplen una determnada propedad, que llamamos carácter estadístco. Los elementos de la poblacón se llaman ndvduos. Muestra:

Más detalles

UNIVERSIDAD CARLOS III DE MADRID Ingeniería Informática Examen de Investigación Operativa 21 de enero de 2009

UNIVERSIDAD CARLOS III DE MADRID Ingeniería Informática Examen de Investigación Operativa 21 de enero de 2009 UNIVERSIDAD CARLOS III DE MADRID Ingenería Informátca Examen de Investgacón Operatva 2 de enero de 2009 PROBLEMA. (3 puntos) En Murca, junto al río Segura, exsten tres plantas ndustrales: P, P2 y P3. Todas

Más detalles

INCORPORACIÓN DE TÉCNICAS MULTIVARIANTES EN UN SISTEMA GESTOR DE BASES DE DATOS TESIS DE MAESTRÍA. Autoría de: CARLOS MARIO SOTO JARAMILLO

INCORPORACIÓN DE TÉCNICAS MULTIVARIANTES EN UN SISTEMA GESTOR DE BASES DE DATOS TESIS DE MAESTRÍA. Autoría de: CARLOS MARIO SOTO JARAMILLO INCORPORACIÓN DE TÉCNICAS MULTIVARIANTES EN UN SISTEMA GESTOR DE BASES DE DATOS TESIS DE MAESTRÍA Autoría de: CARLOS MARIO SOTO JARAMILLO Drectora: Ph. D. CLAUDIA JIMÉNEZ RAMÍREZ MAESTRÍA EN INGENIERÍA

Más detalles

Índice de Precios de las Materias Primas

Índice de Precios de las Materias Primas May-15 Resumen Ejecutvo El objetvo del (IPMP) es sntetzar la dnámca de los precos de las exportacones de Argentna, consderando la relatva establdad en el corto plazo de los precos de las ventas externas

Más detalles

TEMA 10. OPERACIONES PASIVAS Y OPERACIONES ACTIVAS.

TEMA 10. OPERACIONES PASIVAS Y OPERACIONES ACTIVAS. GESTIÓN FINANCIERA. TEMA 10. OPERACIONES PASIVAS Y OPERACIONES ACTIVAS. 1.- Funconamento de las cuentas bancaras. FUNCIONAMIENTO DE LAS CUENTAS BANCARIAS. Las cuentas bancaras se dvden en tres partes:

Más detalles

Marcos Gutiérrez-Dávila marcosgd@ugr.es

Marcos Gutiérrez-Dávila marcosgd@ugr.es Marcos Gutérrez-Dávla marcosgd@ugr.es Introduccón: Relacón de la bomecánca con el deporte de competcón El gesto deportvo consttuye un patrón de movmento estable que se caracterza por el alto grado de efcenca

Más detalles

Relaciones entre variables

Relaciones entre variables Relacones entre varables Las técncas de regresón permten hacer predccones sobre los valores de certa varable Y (dependente), a partr de los de otra (ndependente), entre las que se ntuye que exste una relacón.

Más detalles

Créditos Y Sistemas de Amortización: Diferencias, Similitudes e Implicancias

Créditos Y Sistemas de Amortización: Diferencias, Similitudes e Implicancias Crédtos Y Sstemas de Amortzacón: Dferencas, Smltudes e Implcancas Introduccón Cuando los ngresos de un agente económco superan su gasto de consumo, surge el concepto de ahorro, esto es, la parte del ngreso

Más detalles

MODELO DE PROCESOS TECNOLOGÍAS DE LA INFORMACIÓN - GESTIÓN DEL SERVICIO

MODELO DE PROCESOS TECNOLOGÍAS DE LA INFORMACIÓN - GESTIÓN DEL SERVICIO MODELO DE PROCESOS TECNOLOGÍAS DE LA INFORMACIÓN - GESTIÓN DEL SERVICIO INTRODUCCION Gestón de Servcos de TI: Entrega de servcos de TI, que cumplan con los requstos del negoco, de una caldad aceptable

Más detalles

PROPORCIONAR RESERVA ROTANTE PARA EFECTUAR LA REGULACIÓN PRIMARIA DE FRECUENCIA ( RPF)

PROPORCIONAR RESERVA ROTANTE PARA EFECTUAR LA REGULACIÓN PRIMARIA DE FRECUENCIA ( RPF) ANEXO I EVALUACIÓN DE LA ENERGIA REGULANTE COMENSABLE (RRmj) OR ROORCIONAR RESERVA ROTANTE ARA EFECTUAR LA REGULACIÓN RIMARIA DE FRECUENCIA ( RF) REMISAS DE LA METODOLOGÍA Las pruebas dnámcas para la Regulacón

Más detalles

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia Investgacón y Técncas de Mercado Prevsón de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): s de Tendenca Profesor: Ramón Mahía Curso 00-003 I.- Introduccón Hasta el momento,

Más detalles

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA Alca Maroto, Rcard Boqué, Jord Ru, F. Xaver Rus Departamento de Químca Analítca y Químca Orgánca Unverstat Rovra Vrgl. Pl. Imperal Tàrraco,

Más detalles

DEFINICIÓN DE INDICADORES

DEFINICIÓN DE INDICADORES DEFINICIÓN DE INDICADORES ÍNDICE 1. Notacón básca... 3 2. Indcadores de ntegracón: comerco total de benes... 4 2.1. Grado de apertura... 4 2.2. Grado de conexón... 4 2.3. Grado de conexón total... 5 2.4.

Más detalles

CAPÍTULO 3 METODOLOGÍA. En el siguiente capítulo se presenta al inicio, definiciones de algunos conceptos actuariales

CAPÍTULO 3 METODOLOGÍA. En el siguiente capítulo se presenta al inicio, definiciones de algunos conceptos actuariales CAPÍTULO 3 METODOLOGÍA En el sguente capítulo se presenta al nco, defncones de algunos conceptos actuarales que se utlzan para la elaboracón de las bases técncas del Producto de Salud al gual que la metodología

Más detalles

12-16 de Noviembre de 2012. Francisco Javier Burgos Fernández

12-16 de Noviembre de 2012. Francisco Javier Burgos Fernández MEMORIA DE LA ESTANCIA CON EL GRUPO DE VISIÓN Y COLOR DEL INSTITUTO UNIVERSITARIO DE FÍSICA APLICADA A LAS CIENCIAS TECNOLÓGICAS. UNIVERSIDAD DE ALICANTE. 1-16 de Novembre de 01 Francsco Javer Burgos Fernández

Más detalles

Smoothed Particle Hydrodynamics Animación Avanzada

Smoothed Particle Hydrodynamics Animación Avanzada Smoothed Partcle Hydrodynamcs Anmacón Avanzada Iván Alduán Íñguez 03 de Abrl de 2014 Índce Métodos sn malla Smoothed partcle hydrodynamcs Aplcacón del método en fludos Búsqueda de vecnos Métodos sn malla

Más detalles

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma Estadístca Tema 1: Estadístca Descrptva Undmensonal Undad 2: Meddas de Poscón, Dspersón y de Forma Área de Estadístca e Investgacón Operatva Lceso J. Rodríguez-Aragón Septembre 2010 Contendos...............................................................

Más detalles

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó Comparacón entre dstntos Crteros de decsón (, TIR y PRI) Por: Pablo Lledó Master of Scence en Evaluacón de Proyectos (Unversty of York) Project Management Professonal (PMP certfed by the PMI) Profesor

Más detalles

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS Edgar Acuña Fernández Departamento de Matemátcas Unversdad de Puerto Rco Recnto Unverstaro de Mayagüez Edgar Acuña Analss de Regreson Regresón con varables

Más detalles

Postgrado. Ingeniería. Experto en Big data

Postgrado. Ingeniería. Experto en Big data Postgrado Ingenería Experto en Bg data Data analytcs Bases de datos NoSQL Hadoop Map/Reduce Dseño de modelo de datos Integracón con Data Warehouse Busness ntellgence Knowledge dscovery Proceso masvo de

Más detalles

Economía de la Empresa: Financiación

Economía de la Empresa: Financiación Economía de la Empresa: Fnancacón Francsco Pérez Hernández Departamento de Fnancacón e Investgacón de la Unversdad Autónoma de Madrd Objetvo del curso: Dentro del contexto de Economía de la Empresa, se

Más detalles

TEMA 4 Variables aleatorias discretas Esperanza y varianza

TEMA 4 Variables aleatorias discretas Esperanza y varianza Métodos Estadístcos para la Ingenería Curso007/08 Felpe Ramírez Ingenería Técnca Químca Industral TEMA 4 Varables aleatoras dscretas Esperanza y varanza La Probabldad es la verdadera guía de la vda. Ccerón

Más detalles

ESTRATEGIAS DIDÁCTICAS PARA ABORDAR LA EDUCACIÓN

ESTRATEGIAS DIDÁCTICAS PARA ABORDAR LA EDUCACIÓN ESTRATEGIAS DIDÁCTICAS PARA ABORDAR LA EDUCACIÓN AMBIENTAL EN EL NIVEL MEDIO SUPERIOR ARACELI ACEVEDO-CRUZ / MA. EUGENIA HERES-PULIDO Facultad de Estudos Superores Iztacala, Unversdad Naconal Autónoma

Más detalles

ALN - SVD. Definición SVD. Definición SVD (Cont.) 29/05/2013. CeCal In. Co. Facultad de Ingeniería Universidad de la República.

ALN - SVD. Definición SVD. Definición SVD (Cont.) 29/05/2013. CeCal In. Co. Facultad de Ingeniería Universidad de la República. 9/05/03 ALN - VD CeCal In. Co. Facultad de Ingenería Unversdad de la Repúblca Índce Defncón Propedades de VD Ejemplo de VD Métodos para calcular VD Aplcacones de VD Repaso de matrces: Una matrz es Untara

Más detalles

UNIVERSIDAD TECNOLÓGICA DE PANAMÁ H. R. Alvarez A., Ph. D.

UNIVERSIDAD TECNOLÓGICA DE PANAMÁ H. R. Alvarez A., Ph. D. Qué es capacdad? La cantdad de producto, sea este tangble o ntangble, que puede producrse bajo condcones dadas de operacón Las meddas relatvas al producto son normalmente utlzadas por organzacones enfocadas

Más detalles

RA 1. Aplica las directrices del plan de marketing digital de la empresa, participando en su ejecución y sostenimiento.

RA 1. Aplica las directrices del plan de marketing digital de la empresa, participando en su ejecución y sostenimiento. Módulo Profesonal: Comerco electrónco Códgo: 1235 Resultados de aprendzaje y crteros de evaluacón: RA 1. Aplca las drectrces del plan de marketng dgtal de la empresa, partcpando en su ejecucón y sostenmento.

Más detalles

Matemática Financiera Sistemas de Amortización de Deudas

Matemática Financiera Sistemas de Amortización de Deudas Matemátca Fnancera Sstemas de Amortzacón de Deudas 7 Qué aprendemos Sstema Francés: Descomposcón de la cuota. Amortzacones acumuladas. Cálculo del saldo. Evolucón. Representacón gráfca. Expresones recursvas

Más detalles

Explicación de las tecnologías - PowerShot SX500 IS y PowerShot SX160 IS

Explicación de las tecnologías - PowerShot SX500 IS y PowerShot SX160 IS Explcacón de las tecnologías - PowerShot SX500 IS y PowerShot SX160 IS EMBARGO: 21 de agosto de 2012, 15:00 (CEST) Objetvo angular de 24 mm, con zoom óptco 30x (PowerShot SX500 IS) Desarrollado usando

Más detalles

CAPÍTULO 4 MARCO TEÓRICO

CAPÍTULO 4 MARCO TEÓRICO CAPÍTULO 4 MARCO TEÓRICO Cabe menconar que durante el proceso de medcón, la precsón y la exacttud de cualquer magntud físca está lmtada. Esta lmtacón se debe a que las medcones físcas sempre contenen errores.

Más detalles

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado Análss de la varanza con dos factores. Introduccón Hasta ahora se ha vsto el modelo de análss de la varanza con un factor que es una varable cualtatva cuyas categorías srven para clasfcar las meddas de

Más detalles

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1 Escuela de Ingenería Comercal Ayudantía # 01, Conceptos Generales, Modelo de Regresón Profesor: Carlos R. Ptta 1 1 cptta@spm.uach.cl Escuela de Ingenería Comercal Ayudantía 01 Parte 01: Comentes Señale

Más detalles

Qué es la EN81-28? Atrapado en el ascensor?

Qué es la EN81-28? Atrapado en el ascensor? Qué es la EN81-28? Atrapado en el ascensor? www.safelne.se La podemos ayudar! Hsselektronk desarrolla y produce electrónca para ascensores. Nuestra gama de productos consste prncpalmente en teléfonos de

Más detalles

Un Sistema de Recuperación de Información Estructurada

Un Sistema de Recuperación de Información Estructurada Un Sstema de Recuperacón de Informacón Estructurada Jesús Vegas Pablo de la Fuente Dpto. de Informátca, Unversdad de Valladold Campus Mguel Delbes, 47011 Valladold, España {jvegas,pfuente}@nfor.uva.es

Más detalles

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS P L V S V LT R A BANCO DE ESPAÑA OPERACIONES Gestón de la Informacón ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS El proceso de ntegracón fnancera dervado de la Unón Monetara exge la

Más detalles

METODOLOGÍA MUESTRAL ENCUESTA A LAS PEQUEÑAS Y MEDIANAS EMPRESAS

METODOLOGÍA MUESTRAL ENCUESTA A LAS PEQUEÑAS Y MEDIANAS EMPRESAS SUBDIRECCIÓN TÉCNICA DEPARTAMENTO DE INVESTIGACIÓN Y DESARROLLO ÁREA DE ANÁLISIS ESTADÍSTICAS ECONÓMICAS METODOLOGÍA MUESTRAL ENCUESTA A LAS PEQUEÑAS Y MEDIANAS EMPRESAS Santago, Enero de 2008. Departamento

Más detalles

CRM - Marketing 1to1

CRM - Marketing 1to1 CRM - Marketng 1to1 Una clara estratega de Para vsualzar la presentacón en pantalla completa, haga clck en: Examnar/Pantalla Completa negoco Por Qué Los Clentes Nos Dejan? 2 1% se mueren 3% camban de dreccón

Más detalles

1.- Elegibilidad de estudiantes. 2.- Selección de estudiantes - 2 -

1.- Elegibilidad de estudiantes. 2.- Selección de estudiantes - 2 - Unversdad Euskal Herrko del País Vasco Unbertstatea NORMATIVA PARA SOCRATES/ERASMUS Y DEMÁS PROGRAMAS DE MOVILIDAD AL EXTRANJERO DE ALUMNOS (Aprobada en Junta de Facultad del día 12 de marzo de 2002) La

Más detalles

Profesor: Rafael Caballero Roldán

Profesor: Rafael Caballero Roldán Contendo: 5 Restrccones de ntegrdad 5 Restrccones de los domnos 5 Integrdad referencal 5 Conceptos báscos 5 Integrdad referencal en el modelo E-R 53 Modfcacón de la base de datos 53 Dependencas funconales

Más detalles

EXISTE ALGÚN SISTEMA DE FIDELIZACIÓN MÁS SENCILLO?

EXISTE ALGÚN SISTEMA DE FIDELIZACIÓN MÁS SENCILLO? www. t r ama. es Bar c el ona936911051-madr d916666800-val enc a963847453 Gr anada958411728-sev l l a954906725-reus977771245-val l adol d983354755 Sstema NEXIS No. Tj.: 000012 Total Puntos: 5,00 --- ACUMULACION

Más detalles

OPENCOURSEWARE REDES DE NEURONAS ARTIFICIALES Inés M. Galván José M. Valls

OPENCOURSEWARE REDES DE NEURONAS ARTIFICIALES Inés M. Galván José M. Valls OPENCOURSEWARE REDES DE NEURONAS ARTIFICIALES Inés M. Galván José M. Valls Redes de Neuronas: Preparacón de datos para el aprendzaje y meddas de evaluacón 1. Preparacón de datos Característcas de los datos

Más detalles

DEPARTAMENTO DE LENGUAJES Y SISTEMAS E INGENIERÍA SOFTWARE TESIS DOCTORAL

DEPARTAMENTO DE LENGUAJES Y SISTEMAS E INGENIERÍA SOFTWARE TESIS DOCTORAL DEPARTAMENTO DE LENGUAJES Y SISTEMAS E INGENIERÍA SOFTWARE Facultad de Informátca Unversdad Poltécnca de Madrd TESIS DOCTORAL MODELO MATEMÁTICO PARAMETRICO DE ESTIMACIÓN PARA PROYECTOS DE DATA MINING (DMCOMO)

Más detalles

Pronósticos. Humberto R. Álvarez A., Ph. D.

Pronósticos. Humberto R. Álvarez A., Ph. D. Pronóstcos Humberto R. Álvarez A., Ph. D. Predccón, Pronóstco y Prospectva Predccón: estmacón de un acontecmento futuro que se basa en consderacones subjetvas, en la habldad, experenca y buen juco de las

Más detalles

TERMODINÁMICA AVANZADA

TERMODINÁMICA AVANZADA TERMODINÁMICA AVANZADA Undad III: Termodnámca del Equlbro Ecuacones para el coefcente de actvdad Funcones de eceso para mezclas multcomponentes 9/7/0 Rafael Gamero Funcones de eceso en mezclas bnaras Epansón

Más detalles

59/102. Módulo profesional: Procesos de venta. Código: 1232. Resultados de aprendizaje y criterios de evaluación.

59/102. Módulo profesional: Procesos de venta. Código: 1232. Resultados de aprendizaje y criterios de evaluación. Módulo profesonal: Procesos de venta. Códgo: 1232 Resultados de aprendzaje y crteros de evaluacón. RA 1. Identfca el proceso de decsón de compra del consumdor y/o usuaro, analzando los factores que ncden

Más detalles

Mercadotecnia digital

Mercadotecnia digital Dplomado en Mercadotecna dgtal 0 horas / módulos Con la valdacón técnca de: Dplomado en Mercadotecna dgtal Intelgenca de mercado y competenca Módulo Electvo* Comuncacones ntegradas de mercadotecna Analítcos

Más detalles

Unidad 3 PLANIFICACIÓN DE TIEMPOS, PROGRAMACIÓN DE RECURSOS Y ESTIMACIÓN DE COSTOS DE LA EJECUCIÓN Y MANTENIMIENTO DE LOS STI

Unidad 3 PLANIFICACIÓN DE TIEMPOS, PROGRAMACIÓN DE RECURSOS Y ESTIMACIÓN DE COSTOS DE LA EJECUCIÓN Y MANTENIMIENTO DE LOS STI Undad 3 PLANIFICACIÓN DE TIEMPOS, PROGRAMACIÓN DE RECURSOS Y ESTIMACIÓN DE COSTOS DE LA EJECUCIÓN Y MANTENIMIENTO DE LOS STI 3.1. DINÁMICA DE LA GESTIÓN DE PROYECTOS. 3.1.1. GESTIÓN DE PROYECTOS. La gestón

Más detalles

Unidad I. 1. 1. Definición de reacción de combustión. 1. 2. Clasificación de combustibles

Unidad I. 1. 1. Definición de reacción de combustión. 1. 2. Clasificación de combustibles 2 Undad I.. Defncón de reaccón de combustón La reaccón de combustón se basa en la reaccón químca exotérmca de una sustanca (o una mezcla de ellas) denomnada combustble, con el oxígeno. Como consecuenca

Más detalles

Introducción al riesgo de crédito

Introducción al riesgo de crédito Introduccón al resgo de crédto Estrella Perott Investgador Senor Bolsa de Comerco de Rosaro eperott@bcr.com.ar. Introduccón El resgo credtco es el resgo de una pérdda económca como consecuenca de la falta

Más detalles

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

Media es la suma de todas las observaciones dividida por el tamaño de la muestra. Estadístcos Los estadístcos son valores calculados con los datos de una varable cuanttatva y que mden alguna de las característcas de la dstrbucón muestral. Las prncpales característcas son: tendenca central,

Más detalles

Tasas de Caducidad. - Guía de Apoyo para la Construcción y Aplicación - Por: Act. Pedro Aguilar Beltrán. paguilar@cnsf.gob.mx

Tasas de Caducidad. - Guía de Apoyo para la Construcción y Aplicación - Por: Act. Pedro Aguilar Beltrán. paguilar@cnsf.gob.mx Tasas de Caducdad - Guía de Apoyo para la Construccón y Aplcacón - Por: Act. Pedro Agular Beltrán pagular@cnsf.gob.m 1. Introduccón La construccón y aplcacón de tasas de caducdad en el cálculo de utldades

Más detalles

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22 DOCENTE: LIC.GUSTO DOLFO JUEZ GUI DE TJO PCTICO Nº 22 CES: POFESODO Y LICENCITU EN IOLOGI PGIN Nº 132 GUIS DE CTIIDDES Y TJO PCTICO Nº 22 OJETIOS: Lograr que el lumno: Interprete la nformacón de un vector.

Más detalles

Mercadotecnia digital 150 horas / 5 módulos

Mercadotecnia digital 150 horas / 5 módulos Dplomado en Mercadotecna dgtal 0 horas / módulos Dplomado en Mercadotecna dgtal Intelgenca de mercado y competenca Servco al clente Comuncacones ntegradas de mercadotecna Analítcos dgtales Campañas dgtales

Más detalles

Reconocimiento de Locutor basado en Procesamiento de Voz. ProDiVoz Reconocimiento de Locutor 1

Reconocimiento de Locutor basado en Procesamiento de Voz. ProDiVoz Reconocimiento de Locutor 1 Reconocmento de Locutor basado en Procesamento de Voz ProDVoz Reconocmento de Locutor Introduccón Reconocmento de locutor: Proceso de extraccón automátca de nformacón relatva a la dentdad de la persona

Más detalles

REGRESION Y CORRELACION

REGRESION Y CORRELACION nav Estadístca (complementos) 1 REGRESION Y CORRELACION Fórmulas báscas en la regresón lneal smple Como ejemplo de análss de regresón, descrbremos el caso de Pzzería Armand, cadena de restaurantes de comda

Más detalles

Material realizado por J. David Moreno y María Gutiérrez. Asignatura: Economía Financiera

Material realizado por J. David Moreno y María Gutiérrez. Asignatura: Economía Financiera Tema - MATEMÁTICAS FINANCIERAS Materal realzado por J. Davd Moreno y María Gutérrez Unversdad Carlos III de Madrd Asgnatura: Economía Fnancera Apuntes realzados por J. Davd Moreno y María Gutérrez Advertenca

Más detalles

Pruebas Estadísticas de Números Pseudoaleatorios

Pruebas Estadísticas de Números Pseudoaleatorios Pruebas Estadístcas de Números Pseudoaleatoros Prueba de meda Consste en verfcar que los números generados tengan una meda estadístcamente gual a, de esta manera, se analza la sguente hpótess: H 0 : =

Más detalles

RA 1. Elabora el plan de marketing digital internacional diseñando las políticas específicas que han de desarrollarse.

RA 1. Elabora el plan de marketing digital internacional diseñando las políticas específicas que han de desarrollarse. Módulo Profesonal: Comerco dgtal nternaconal. Equvalenca en crédtos ECTS: 4 Códgo: 0827 Resultados de aprendzaje y crteros de evaluacón. RA 1. Elabora el plan de marketng dgtal nternaconal dseñando las

Más detalles

RA 1. Desarrolla actividades de atención/información al cliente, procurando transmitir la imagen más adecuada de la empresa u organización.

RA 1. Desarrolla actividades de atención/información al cliente, procurando transmitir la imagen más adecuada de la empresa u organización. Módulo Profesonal: Servcos de atencón comercal. Códgo: 1234 Resultados de aprendzaje y crteros de evaluacón. RA 1. Desarrolla actvdades de atencón/nformacón al clente, procurando transmtr la magen más

Más detalles

PROPUESTAS PARA LA DETERMINACIÓN DE LOS PARÁMETROS DEL GRÁFICO DE CONTROL MEWMA

PROPUESTAS PARA LA DETERMINACIÓN DE LOS PARÁMETROS DEL GRÁFICO DE CONTROL MEWMA Est. María. I. Flury Est. Crstna A. Barbero Est. Marta Rugger Insttuto de Investgacones Teórcas y Aplcadas. Escuela de Estadístca. PROPUESTAS PARA LA DETERMINACIÓN DE LOS PARÁMETROS DEL GRÁFICO DE CONTROL

Más detalles

GERENCIA DE OPERACIONES Y PRODUCCIÓN DISEÑO DE NUEVOS PRODUCTOS Y SERVICIOS ESTRATEGIAS DE OPERACIONES

GERENCIA DE OPERACIONES Y PRODUCCIÓN DISEÑO DE NUEVOS PRODUCTOS Y SERVICIOS ESTRATEGIAS DE OPERACIONES GERENCIA DE OPERACIONES Y PRODUCCIÓN DISEÑO DE NUEVOS PRODUCTOS Y SERVICIOS ESTRATEGIAS DE OPERACIONES PRONÓSTICOS PREDICCIÓN, PRONÓSTICO Y PROSPECTIVA Predccón: estmacón de un acontecmento futuro que

Más detalles

DIGITAL MARKETING TRAINING WWW.WEBCONGRESS.COM/SEMINAR

DIGITAL MARKETING TRAINING WWW.WEBCONGRESS.COM/SEMINAR dgtal strategy CURSS EN ESTRATEGIA DIGITAL DIGITAL MARKETING TRAINING PRESENTACIÓN DIGITAL STRATEGY Te presentamos nuestro nuevo formato nnovador para los Semnaros de WebCongress. Queremos ayudarte en

Más detalles

Clase 25. Macroeconomía, Sexta Parte

Clase 25. Macroeconomía, Sexta Parte Introduccón a la Facultad de Cs. Físcas y Matemátcas - Unversdad de Chle Clase 25. Macroeconomía, Sexta Parte 12 de Juno, 2008 Garca Se recomenda complementar la clase con una lectura cudadosa de los capítulos

Más detalles

Algoritmo para la ubicación de un nodo por su representación binaria

Algoritmo para la ubicación de un nodo por su representación binaria Título: Ubcacón de un Nodo por su Representacón Bnara Autor: Lus R. Morera González En este artículo ntroducremos un algortmo de carácter netamente geométrco para ubcar en un árbol natural la representacón

Más detalles

Título: Dos métodos de diagnóstico de circuitos digitales de alta y muy alta escala de integración.

Título: Dos métodos de diagnóstico de circuitos digitales de alta y muy alta escala de integración. Título: Dos métodos de dagnóstco de crcutos dgtales de alta y muy alta escala de ntegracón. Autor: Dr. Ing. René J. Díaz Martnez. Profesor Ttular. Dpto. de Automátca y Computacón. Fac. de Ingenería Eléctrca.

Más detalles

INSTRUCTIVO No. SP 04 / 2002 INSTRUCTIVO PARA LA DETERMINACIÓN Y CÁLCULO DEL SALARIO BÁSICO REGULADOR

INSTRUCTIVO No. SP 04 / 2002 INSTRUCTIVO PARA LA DETERMINACIÓN Y CÁLCULO DEL SALARIO BÁSICO REGULADOR El Superntendente de Pensones, en el ejercco de las facultades legales contempladas en el artículo 13, lteral b) de la Ley Orgánca de la Superntendenca de Pensones, EMITE el : INSTRUCTIVO No. SP 04 / 2002

Más detalles

Correlación y regresión lineal simple

Correlación y regresión lineal simple . Regresón lneal smple Correlacón y regresón lneal smple. Introduccón La correlacón entre dos varables ( e Y) se refere a la relacón exstente entre ellas de tal manera que a determnados valores de se asocan

Más detalles

Postgrado. Ingeniería

Postgrado. Ingeniería Postgrado Ingenería Experto en Bg data Data analytcs Bases de datos NoSQL Hadoop Map/Reduce Dseño de modelo de datos Integracón con Data Warehouse Busness ntellgence Knowledge dscovery Proceso masvo de

Más detalles

Breve Estudio sobre la Aplicación de los Algoritmos Genéticos a la Recuperación de Información

Breve Estudio sobre la Aplicación de los Algoritmos Genéticos a la Recuperación de Información Breve Estudo sobre la Aplcacón de los Algortmos Genétcos a la Recuperacón de Informacón O. Cordón, F. oya 2,.C. Zarco 3 Dpto. Cencas de la Computacón e I.A. Unv. de Granada. Ocordon@decsa.ugr.es 2 Dpto.

Más detalles

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico TeCS Sistema de ayuda a la gestión del desarrollo de producto cerámico En el origen de todo proyecto de éxito se halla la capacidad de encauzar y estructurar la creatividad TeCS ofrece un entorno de fácil

Más detalles

Reconocimiento de Imágenes Empleando Redes de Regresión General y la Técnica TVS

Reconocimiento de Imágenes Empleando Redes de Regresión General y la Técnica TVS Reconocmento de Imágenes Empleando Redes de Regresón General y la Técnca TVS Rcardo García-Herrera & Waltero Wolfgang Mayol-Cuevas Laboratoro de INvestgacón para el Desarrollo Académco Depto. Ingenería

Más detalles

Unidad Central del Valle del Cauca Facultad de Ciencias Administrativas, Económicas y Contables Programa de Contaduría Pública

Unidad Central del Valle del Cauca Facultad de Ciencias Administrativas, Económicas y Contables Programa de Contaduría Pública Undad Central del Valle del Cauca Facultad de Cencas Admnstratvas, Económcas y Contables Programa de Contaduría Públca Curso de Matemátcas Fnanceras Profesor: Javer Hernando Ossa Ossa Ejerccos resueltos

Más detalles

Adquisición y Tratamiento de Datos (Febrero 2005). 1ª parte: Cuestiones.

Adquisición y Tratamiento de Datos (Febrero 2005). 1ª parte: Cuestiones. Adquscón y Tratamento de Datos (Febrero 2005). Las cuestones: 1ª parte: Cuestones. Se deben responder en la hoja adjunta. Debe marcarse una únca respuesta. Por favor, leer los enuncados y las solucones

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA MOLAP REALIZADO POR: JOSE E. TABOADA RENNA BASE DE DATOS Conjunto de datos estructurados, fiables y homogéneos organizados independientemente en máquina, m accesibles en tiempo real, compatible por usuarios

Más detalles

Extracción de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311

Extracción de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311 Extraccón de Atrbutos Dr. Jesús Arel Carrasco Ochoa arel@naoep.mx Ofcna 8311 Contendo Introduccón PCA LDA Escalamento multdmensonal Programacón genétca Autoencoders Extraccón de atrbutos Objetvo Preprocesamento

Más detalles

Lo que necesito saber de mi Tarjeta de Crédito

Lo que necesito saber de mi Tarjeta de Crédito Lo que necesto saber de m Tarjeta de Crédto Informatvo tarjetas de crédto bancaras Cómo obtener una 3 Qué es una La tarjeta de crédto es un medo de pago que permte a los clentes utlzar una línea de crédto

Más detalles

ANÁLISIS DE LA MOROSIDAD TRIBUTARIA DE LAS EMPRESAS APLICANDO TÉCNICAS BORROSAS Y ESTADÍSTICAS. EL CASO DE MAR DEL PLATA.

ANÁLISIS DE LA MOROSIDAD TRIBUTARIA DE LAS EMPRESAS APLICANDO TÉCNICAS BORROSAS Y ESTADÍSTICAS. EL CASO DE MAR DEL PLATA. ANÁLISIS DE LA MOROSIDAD TRIBUTARIA DE LAS EMPRESAS APLICANDO TÉCNICAS BORROSAS Y ESTADÍSTICAS. EL CASO DE MAR DEL PLATA. SEGUNDA PARTE. (TRABAJO PRESENTADO EN EL CONGRESO DE LA SOCIEDAD ARGENTINA DE ESTADISTICA)

Más detalles

Capítulo 3: La Evolución de la Teoría de Mercadotecnia

Capítulo 3: La Evolución de la Teoría de Mercadotecnia Capítulo 3: La Evolucón de la Teoría de Mercadotecna 3.1 Introduccón Los modelos tradconales de mercadotecna fueron desarrollados a partr de teorías que surgeron durante el sglo XIX, en el cual se llevó

Más detalles

Visión moderna del modelo de transporte clásico

Visión moderna del modelo de transporte clásico Vsón moderna del modelo de transporte clásco Zonfcacón y Red Estratégca Datos del Año Base Datos de Planfcacón Para el Año de Dseño Base de Datos año base futuro Generacón de Vajes Demanda Dstrbucón y

Más detalles

Aplicación de técnicas de minería de datos para la fidelización y retención de clientes

Aplicación de técnicas de minería de datos para la fidelización y retención de clientes IBM Software Group Aplcacón de técncas de mnería de datos para la fdelzacón y retencón de clentes Víctor López Fandño Busness Intellgence Solutons Specalst IBM Software Group IBM Software Expo 2005 2005

Más detalles

DIPLOMADO EN LOGÍSTICA Y CADENA DE SUMINISTRO

DIPLOMADO EN LOGÍSTICA Y CADENA DE SUMINISTRO IPLOMAO EN LOGÍSTICA Y CAENA E SUMINISTRO MÓULO I: Rs Poolng CRISTINA GIGOLA epto Ingenería Industral ITAM ggola@tam.mx Coordnacón en la SC ecsones que maxmcen la utldad de la SC. Caso 1: El mercado determna

Más detalles

Presentación. Carmen Alcaide Guindo Presidenta del INE

Presentación. Carmen Alcaide Guindo Presidenta del INE Presentacón El Índce de Precos de Consumo (PC), base 20, es el punto de partda de una nueva forma de concebr este ndcador, cuya característca prncpal es su rápda adaptacón a los cambos de la economía y,

Más detalles

Índice de Madurez Tecnológica en el Sector Hotelero

Índice de Madurez Tecnológica en el Sector Hotelero Índce de Madurez Tecnológca en el Sector Hotelero Jaume Jaume Mayol, Antono Tudurí Vla Escuela de Hotelería de las Illes Balears Balears Resumen: El ncremento del uso de las Tecnologías de la Informacón

Más detalles

VII Jornadas para el Desarrollo De Grandes Aplicaciones de Red

VII Jornadas para el Desarrollo De Grandes Aplicaciones de Red Modelo de Consultoría TI especalzado VII Jornadas para el Desarrollo De Grandes Aplcacones de Red Incorporar servcos de consultoría TI en el sector de la Manufacturacón Carlos Ramón López Paz clopez@dtc.ua.es

Más detalles

APENDICE A. El Robot autónomo móvil RAM-1.

APENDICE A. El Robot autónomo móvil RAM-1. Planfcacón de Trayectoras para Robots Móvles APENDICE A. El Robot autónomo móvl RAM-1. A.1. Introduccón. El robot autónomo móvl RAM-1 fue dseñado y desarrollado en el Departamento de Ingenería de Sstemas

Más detalles

Trabajo y Energía Cinética

Trabajo y Energía Cinética Trabajo y Energía Cnétca Objetvo General Estudar el teorema de la varacón de la energía. Objetvos Partculares 1. Determnar el trabajo realzado por una fuerza constante sobre un objeto en movmento rectlíneo..

Más detalles

Procesamiento Digital de Imágenes. Pablo Roncagliolo B. Nº 17

Procesamiento Digital de Imágenes. Pablo Roncagliolo B. Nº 17 Procesamento Dgtal de mágenes Pablo Roncaglolo B. Nº 7 Orden de las clases... CAPTURA, DGTALZACON Y ADQUSCON DE MAGENES TRATAMENTO ESPACAL DE MAGENES TRATAMENTO EN FRECUENCA DE MAGENES RESTAURACON DE MAGENES

Más detalles

H 0 : La distribución poblacional es uniforme H 1 : La distribución poblacional no es uniforme

H 0 : La distribución poblacional es uniforme H 1 : La distribución poblacional no es uniforme Una hpótess estadístca es una afrmacón con respecto a una característca que se desconoce de una poblacón de nterés. En la seccón anteror tratamos los casos dscretos, es decr, en forma exclusva el valor

Más detalles

ANÁLISIS DE ACCESIBILIDAD E INTERACCIÓN ESPECIAL:

ANÁLISIS DE ACCESIBILIDAD E INTERACCIÓN ESPECIAL: Geografía y Sstemas de Informacón Geográfca (GEOSIG). Revsta dgtal del Grupo de Estudos sobre Geografía y Análss Espacal con Sstemas de Informacón Geográfca (GESIG). Programa de Estudos Geográfcos (PROEG).

Más detalles

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II PRACTICA 11: Crcutos no lneales elementales con el amplfcador operaconal OBJETIVO: El alumno se famlarzará con

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

CONTROVERSIAS A LAS BASES TÉCNICO ECONOMICAS PRELIMINARES PROCESO TARIFARIO CONCESIONARIA COMPAÑÍA DE TELÉFONOS DE COYHAIQUE S.A.

CONTROVERSIAS A LAS BASES TÉCNICO ECONOMICAS PRELIMINARES PROCESO TARIFARIO CONCESIONARIA COMPAÑÍA DE TELÉFONOS DE COYHAIQUE S.A. CONTROVERSIAS A LAS BASES TÉCNICO ECONOMICAS PRELIMINARES PROCESO TARIFARIO CONCESIONARIA COMPAÑÍA DE TELÉFONOS DE COYHAIQUE S.A. PERÍODO 201-2020 Introduccón Las Bases Técnco Económcas Prelmnares, en

Más detalles