DANIEL. Directora: SEDE MEDELLÍN



Documentos relacionados
El Programa estadístico R

Base de datos II Facultad de Ingeniería. Escuela de computación.

ANÁLISIS DESCRIPTIVO CON SPSS

La ventana de Microsoft Excel

PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

Conciliación bancaria en CheqPAQ Cargado de estado de cuenta

Guía Notas Parciales. Intermedio

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Otras medidas descriptivas usuales

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos

Operación Microsoft Access 97

ESCUELA SUPERIOR DE INFORMATICA Prácticas de Estadística UNA SESIÓN EN SPSS

Comisión Nacional de Bancos y Seguros

Introducción a la Estadística con Excel

Apéndice 5 Manual de usuario de ColeXión. ColeXión 1.0. Manual de usuario

Instalación del programa PSPP y obtención de una distribución de frecuencias.

Sistema Inteligente de Exploración

Manual Ingreso Notas y Acta Electrónica

WINDOWS : TERMINAL SERVER

AGREGAR UN EQUIPO A UNA RED Y COMPARTIR ARCHIVOS CON WINDOWS 7

QUERCUS PRESUPUESTOS MANUAL DEL USO

Clase 2: Estadística

2_trabajar con calc I

Creación de un Gráfico con OpenOffice.org Calc Presentación de los Datos Asistente para Gráficos

Resumen ÁREA DE FACTURACIÓN::INFORMES::Pedidos Detalle Resumen ÁREA DE

5.4. Manual de usuario

TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS

Guía N 1: Fundamentos básicos(i)

CAPÍTULO 4. EL EXPLORADOR DE WINDOWS XP

Aplicaciones de Estadística Descriptiva

Introducción al SPSS/PC. 1. El editor de datos. Taller de Estadística

Ajustes del Curso en egela (Moodle 2.5)

CÓMO MANEJAR SU NUEVO SITIO WEB SOBRE DRUPAL Manual técnico y de usuario. Pontificia Universidad Javeriana Grupo PSU CDI

Creación y administración de grupos de dominio

Ministerio de Educación. Diseño de Presentaciones en la Enseñanza. Módulo 9: Imprimir

Indicaciones específicas para los análisis estadísticos.

MANUAL DE USUARIO CMS- PLONE

Acronis License Server. Guía del usuario

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

MATERIAL 2 EXCEL 2007

Manual de Usuario del

CAPITULO V. SIMULACION DEL SISTEMA 5.1 DISEÑO DEL MODELO

ESTADÍSTICA SEMANA 4

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

(PHP y APACHE), y el programa de comunicación Skype, para controlar de manera

Ministerio de Educación. Base de datos en la Enseñanza. Open Office. Módulo 5: Report Builder

Instalación del programa PSPP y obtención de una distribución de frecuencias.

Guía Práctica para el Uso del Servicio de Software Zoho CRM

PRÁCTICA No. 1 ESTADÍSTICA DESCRIPTIVA PARTE I

Creación y administración de grupos locales

Diplomado en. Servicio Nacional. De Facilitadores Judiciales

INDICE. 1. Introducción El panel Entities view El panel grafico Barra de botones Botones de Behavior...

Manual de usuario administrador. Correo Exchange Administrado

MACROS. Automatizar tareas a través del uso de las macros.

Servicio Webmail. La fibra no tiene competencia

Guía Rápida de Inicio

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Guías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online

GedicoPDA: software de preventa

2. Seleccionar Insertar función:

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

Análisis estadístico con Microsoft Excel

Apuntes de ACCESS. Apuntes de Access. Campos de Búsqueda:

Parámetros y estadísticos

Uso de Visual C++ Pre-Practica No. 3

1.1. Introducción y conceptos básicos

Tutorial: Primeros Pasos con Subversion

REDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS

La compañía Autodesk presenta la nueva versión de su aclamado

RClimTool MANUAL DEL USUARIO

Microsoft Access proporciona dos métodos para crear una Base de datos.

UNIDADES DE ALMACENAMIENTO DE DATOS

Manual de la herramienta de la metodología para el monitoreo de la implementación del Código de Buen Gobierno Corporativo de las Empresas de la

Formularios. Formularios Diapositiva 1

MANUAL DE AYUDA. SAT Móvil (Movilidad del Servicio Técnico)

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

UNIVERSIDAD DON BOSCO FACULTAD DE ESTUDIOS TECNOLÓGICOS ESCUELA DE COMPUTACIÓN

SIIGO Pyme. Informes de Saldos y Movimientos de Inventarios. Cartilla I

MANUAL DE USUARIO DEL MÓDULO TPV

GUÍA PARA LA INSTALACIÓN DE MOODLE EN UN COMPUTADOR PERSONAL QUE USA EL SISTEMA OPERATIVO MS. WINDOWS

WINDOWS. Iniciando Windows. El mouse

Microsoft Dynamics. Migración de FRx 6.7 a Management Reporter for Microsoft Dynamics ERP

Guía paso a paso para la cumplimentación del formulario de candidatura

Internet Information Server

CONVERSOR LIBROS DE REGISTRO (IVA IGIC) Agencia Tributaria DEPARTAMENTO DE INFORMÁTICA TRIBUTARIA

Delphos Portal GUÍA PARA LA CONSULTA DE LA INFORMACIÓN SOBRE PÉRDIDAS OCASIONADAS POR EVENTOS NATURALES MÓDULO DE PÉRDIDAS

Guía para la Automatización de Documentos en. Microsoft Word

Practica 1 Instalación del SGBD. Ing. María Elena Reyes Castellanos. Miguel Ángel Garduño Córdova Isaac Méndez Hernández

Guía de uso del sistema CV-Online

UNIDESYS UNIVERSAL BUSINESS SYSTEMS INSTALACIÓN NUEVO PUESTO DE TRABAJO

4. METODOLOGÍA. 4.1 Materiales Equipo

Introducción a Visual Studio.Net

Gestión de Oportunidades

PSI Gestión es un sistema multiusuario que le permite 2 tipos de configuraciones:

PROYECTO FINAL Manual de Configuración Organización: Juan Lomo

Novedades en Q-flow 3.02

INSTALACIÓN DE SQL SERVER 2008 Y SQL SERVER 2008 EXPRESS

Operación de Microsoft Excel

Transcripción:

MINERÍA DE DATOS EN EL PAQUETE RATTLE DEL LENGUAJE R. DANIEL TUTTLE OSPINA Trabajo de Grado para optar el título de Ingeniero de Sistemas e Informática Directora: Claudia Jiménez Ramírez Escuela de Sistemas UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLÍN FACULTAD DE MINAS

TABLA DE CONTENIDO 1. Introducción 2. La minería de datos 3. Instalación de Rattle 4. Cargando datos 5. Explorando los datos 6. Transformando los datos 7. Análisis de clúster 8. Análisis de asociación 9. Creando modelos 10. Evaluando modelos 11. Revisando el registro 12. Propuestas y conclusiones

1. Introducción R es un lenguaje y un entorno diseñado para análisis estadístico. Fue desarrollado por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 1993. R se distribuye bajo la licencia GNU GPL y está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux. R provee una gran variedad de técnicas gráficas y estadísticas como: modelos lineales y no lineales, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupación entre otras [1]. Rattle (del inglés, R Analytical Tool to Learn Easily) es un paquete de software libre desarrollado por Togaware que proporciona una interfaz gráfica basada en Gnome para la minería de datos desarrollada en el lenguaje de programación R. Este paquete proporciona una interfaz intuitiva que guía con facilidad a través de los pasos básicos de la minería de datos y nos ilustra el código de R que se utiliza para lograr nuestro estudio sobre los datos [2]. Hoy en día Rattle es utilizado por un gran número de empresas gubernamentales y comerciales alrededor del mundo. También es usado con fines educativos donde ha sido la principal herramienta usada en universidades como Harbin Institute of Technology, Shenzhen Graduate School, y por la Universidad Nacional de Australia [2]. Este trabajo tiene como objetivo ser una guía que apoye el proceso de aprendizaje del curso Técnicas en Aprendizaje Estadístico, la cual trata de dar a conocer una herramienta que puede ser útil para que los estudiantes pongan en práctica todos los conocimientos adquiridos en el curso. En este caso Rattle y el lenguaje R tienen la ventaja de ser un producto de software libre lo cual facilita el acceso por parte del docente y los estudiantes a esta herramienta que potencializa el conocimiento impartido en el curso.

2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes colecciones de datos con el fin de encontrar información implícita en éstos, tales como tendencias o reglas que ayuden a entender y expliquen el comportamiento de los datos analizados. La Estadística y la Inteligencia Artificial son la base de la minería de datos y las que permiten la comprensión de los datos.[9] La minería de datos es utilizada con el fin de: Descubrir patrones, relaciones o tendencias en los datos. Describir fenómenos. Obtener resúmenes. Analizar agrupaciones. Realizar predicciones y clasificaciones.[10] Un estudio de minería de datos está compuesto principalmente por 4 etapas: 1. Determinación de objetivos: se plantean los objetivos y hasta donde se quiere llegar con un estudio. 2. Preprocesamiento de los datos: Se seleccionan los datos que son influyentes en el modelo, se limpian y se transforman las variables que sean necesarias con el fin de generar un modelo. Esta es la etapa que demanda más tiempo y la más importante de un estudio ya que de la calidad de los datos depende la calidad del modelo. 3. Determinación del modelo: por medio de la Estadística y medios visuales se analizan los datos con el fin de conocerlos y tener una idea del comportamiento de estos. Luego según los objetivos planteados en la primera etapa y la tarea que debe realizarse se escoge el tipo de modelo que se ajusta a las necesidades y cumple con los requerimientos establecidos. 4. Análisis de los resultados: se verifica la coherencia de los datos y se comparan con los resultados arrojados por los análisis estadísticos. Se determina si el modelo aporta nuevo conocimiento y cumple las expectativas.[9]

3. Instalación del paquete Rattle R es un software libre el cual se puede descargar del sitio Web http://cran.r project.org/. Luego de descargarlo e instalarlo se procede a descargar e instalar el paquete Rattle el cual se estudiará en este trabajo. En la Figura 1 se observa la interfaz de R y la opción que se debe ingresar para descargar el paquete Rattle. Figura 1. Instalación Paquetes Luego de seleccionar la opción Instalar paquetes aparece una lista de sitios de descarga (mirrors), donde se encuentran disponibles los paquetes instalables en R. La idea es seleccionar la ubicación más cercana a su localización con el fin de que la descarga de los paquetes sea más eficiente. Después de seleccionar la ubicación del servidor, se listan los paquetes disponibles para descargar, en este caso se busca y se selecciona Rattle. Cuando finalice la descarga en la consola de R se digitan los siguientes comandos con el fin de iniciar Rattle: Library (rattle) // Este comando carga el paquete en memoria. Rattle() // Con esta función se ejecuta y abre lainterfaz gráfica de Rattle.

Tras la ejecución de estos comandos se obtiene el resultado mostrado en la Figura 2, que informa la necesidad de descargar otroo paquete llamado RGtk2 para mostrar la interfaz gráfica del usuario. Al final pregunta que si se desea instalar este paquete ahora y ya que el objetivo es utilizar Rattle se escribe la palabra yes. Figura 2. Instalando Paquete RGtk2. Luego de responder si a la anterior pregunta se despliega otra ventana (Figura 3) preguntando algo similar, para instalar este paquete seleccionamos la opción Install GTK+ y luego se presiona OK. Figura 3. Instalación GTK+. Tras la descarga se inicia el instalador de estee paquete, en el proceso de instalaciónn se seleccionan las opciones recomendadas por éste. Cuando finalice la instalación se debe reiniciar R ya que el paquete que se instaló anteriormente lo requería (simplemente se cierra el programa R y se vuelve a abrir). Luego de reiniciar R se ejecutan de nuevo los comandos que se digitaron anteriormente: library (rattle) y rattle(). Durante la ejecución de Rattle pueden aparecer ventanas como la que se muestra a continuación en la Figura 4, informado que se requieren otros paquetes con el fin de que Rattle funcione adecuadamente.

Figura 4. Ejemplo de paquete requerido por Rattle. 4. Cargando los datos La información se pueden encontrar en diversos formatos y R brinda la posibilidad de importar datos en muchas de sus formas. Para cargar los datos en la pestaña Datos la cual se puede observar en la Figura 5, se ofrecen las diferentes opciones para realizarr esto. Figura 5. Interfaz para cargar los datos.

Dentro de las opciones que ofrece Rattle se tiene: Hoja de cálculo: en la cual se pueden cargar archivos CSV (comma separated values). En este tipo de archivo las columnas que corresponden a cada variable se separan por medio de comas y en algunos casos por punto y coma. ARFF (Attribute Relation File Format): es esencialmente un CSV con un encabezado que describe los metadatos. Este tipo de formato fue desarrollado para trabajar con WEKA. ODBC (Open Database Connectivity): es un estándar desarrollado para acceder a la información almacenada en una base de datos. R permite conexión con las siguientes bases de datos MS/Excel, MS/Access, SQL Server, Oracle, IBM DB2, Teradata, MySQL, Postgres, and SQLite. Conjunto de datos R: esta opción permite cargar datos en Rattle que hayan sido cargados en R. Archivo de datos R: Rattle brinda la posibilidad de cargar archivos nativos de R los cuales por lo general tienen la extensión RDATA. Estos archivos pueden contener varios conjuntos de datos. Librería: en esta opción se tiene acceso a varios conjuntos de datos disponibles en R.[3] Para cargar los datos simplemente se selecciona el tipo de formato que se desea importar, luego se indica la ubicación del archivo y por último se presiona el botón Execute en la parte superior izquierda de la interfaz o simplemente se presiona la tecla F2. En el caso de la bases de datos se especifica el DSN (data source Name). A continuación, se cargarán los datos con los que se trabajará en el resto del documento. Es un archivo CSV el cual contiene la información de un censo realizado es Estados Unidos. Figura 6. Cargando archivo cenus.csv.

Figura 7. Opciones de la interfaz. Luego de seleccionar el archivo con los datos, se procede a indicar por cual carácter están separadas las columnas del archivo y cual estamos utilizando como separador decimal. Se activa la opción encabezado para indicar que la primera fila del archivo tiene los nombres de las columnas y en caso de no activar esta opción se crearán nombres al azar. En el cuadro verde de la Figura 7 se resalta la opción de partir los datos, en caso de querer dividir la muestra, se activa el checkbox partición y en la casilla de la derecha se especifican los tamaños de las particiones. La partición por defecto es 70/15/15 lo que significa que el 70% de los datos se utilizan para entrenamiento, 15% para validación y 15% para prueba. También existe la opción de dividir la muestra en solo dos: entrenamiento y validación, simplemente especificando los dos porcentajes 70/30. En la opción semilla se puede indicar el número que será utilizado para generar números aleatorios, donde diferentes semillas generan distintas particiones. Después de ajustar las preferencias se procede a presionar el botón Excecute en la parte superior. El comando que se ejecuta en R para cargar los datos es el siguiente: crs$dataset < read.csv("file:///c:/users/daniel/desktop/recortes/census.csv", sep=";", na.strings=c(".", "NA", "", "?"), strip.white=true, encoding="utf 8")

Cuando se cargan los datos, en la parte inferior de Rattle se muestra cada una de las variables que se tenían en el archivo (ver Figura 8). Además se indica el tipo de cada variable el cual puede ser categórico o numérico, el número de elementos faltantes y el número de niveles en cada una. Rattle selecciona también la variable de destino, la cual será la que se cruzará con la demás. Rattle analiza cada variable y las que tengan menos de 5 valores únicos se convierten en candidatas para ser la variable de destino. La lista de candidatas se ordena a partir de la última variable y luego se busca la primera que cumpla con la condiciones para ser candidata. Por lo general la última variable es la de destino. Figura 8. Variables del archivo cargado. Los botones Ver y Editar ubicados a la derecha de la semilla permiten visualizar y editar el archivo. Existe la posibilidad de ignorar las variables que se deseen ya que puede darse el caso en el que éstas no posean información relevante para el análisis. Esto se hace seleccionando la variable y luego presionando el botón rojo de ignorar. Si se desea indicar que una variable es de tipo ID se puede hacer simplemente activando la opción Ident de ésta. Siempre que se realicen cambios sobre las variables se debe presionar de nuevo el botón Execute. En la calculadora de peso se puede ingresar una fórmula con el fin de asignarle un peso a cada observación.

5. Explorando los datos Una vez cargados los datos y definidos los roles de las variables, se procede a explorar los datos con el fin de conocer más sobre éstos y comprender un poco su comportamiento. Para comenzar con el análisis se selecciona la pestaña Explorar (ver Figura 9). Rattle provee las siguientes opciones: Suma: Presenta un resumen de las variables donde se encuentran estadísticas como la mediana, media, moda y muchas otras. Distribuciones: Se pueden realizar gráficos como histogramas, cajas y bigotes, mosaico entre otros. Correlación: Se realiza un estudio de independencia entre las variables numéricas. Componentes principales: Ofrece información sobre la importancia de las variables para explicar la variación que se encuentra en el conjunto de datos. Interactivo: Ofrece una visualización gráfica de los datos de una manera dinámica. Figura 9. Opciones de la pestaña explorar. Luego de esta pequeña introducción se procederá a realizar el análisis exploratorio de los datos cargados en el punto anterior. Se mostrarán las opciones mencionadas anteriormente. Suma Dentro de esta opción se encuentran diferentes tipos de estadísticos e información que ayudarán a entender un poco sobre los datos. Se procederá entonces a mostrar cada una de la información arrojada por las diferentes opciones dentro del Tipo Suma. Suma A continuación se muestra el resultado obtenido tras ejecutar la opción Suma.

Figura 10. Información acerca de las variables. En la primera parte del resultado (ver Figura 10) se observa cada una de las variables donde la columna NAs indica el número de faltantes para cada variable y la columna Levels indica el número de niveles para las variables categóricas. Luego más abajo se observa una tabla con las variables categóricas y sus respectivos niveles (Figura 11).

Figura 11. Valores de las variables categóricas. Ya en la última parte del resultado arrojado aparecen ciertas estadísticas de cada variable, en el caso de las numéricas se tiene el valor máximo, el valor mínimo, la media, la mediana y los valores del primer y tercer cuartil (ver Figura 12). Para el caso de las categóricas se muestra la frecuencia para algunos de los niveles. En el caso de tener variables con valores faltantes éstos también se muestran.

Figura 12. Última parte del resultado arrojado por la opción Suma.

Describir Ahora se analizará otra opción de las 6 que ofrece el Tipo Suma, se seleccionará la opción Describir seguido de Execute. Debido a la longitud de las variables no se presentarán todas. Figura 13. Resultados de la opción Describir. Dependiendo del tipo de variable se observará diferente información sobre la variable. Para las categóricas se tendrá una tabla con la frecuencia relativa y la absoluta. Para las numéricas se muestra la media, los valores más altos y bajos y los valores de los 7 percentiles. Cuando se tienen variables numéricas con pocos niveles aparece la tabla de frecuencias y los 7 percentiles. Todo esto se puede observar en la Figura 13.

Básicos Esta opción muestra un buen número de estadísticas para las variables numéricas dentro de las cuales las más importantes son: el número de observaciones, numero de faltantes, valor mínimo, valor máximo, primer y tercer cuartil, media, mediana, la suma de los valores, error estándar de la media, varianza, desviación estándar, asimetría y curtosis (ver Figura 14). Figura 14. Resultado de la opción Básicos.

Curtosis En esta opción Rattle arroja el coeficiente de curtosis para cada una de las variables numéricas. Este coeficiente indica la forma de la distribución de los datos con respecto a la distribución normal. Si el coeficiente es menor que 0, es una distribución Platicúrtica es decir que la distribución es más plana o achatada que la normal. Si es igual a 0, es una distribución Mesocúrtica lo que indica que los datos tienen una distribución normal. Y si es mayor que 0 ó Leptocúrtica la distribución de los datos es más apuntada que la normal. Figura 15. Curtosis de las variables numéricas. Analizando las variables de la Figura 15 se observa que salario, ganancias y pérdidas leptocurticas y están demasiado alejadas de tener una distribución normal. son Sesgo El sesgo indica cual cola de la distribución es la más larga. Si el valor es positivo la cola de la derecha es más larga. En caso de ser negativo la cola de la izquierda es más larga y en caso de ser cero se dice que los datos no tienen sesgo. En la Figura 16 se muestra el resultado tras ejecutar la opción Sesgo lo que significa que hay simetría en la distribución de los datos. Figura 16. Sesgo de las variables numéricas.

Valores faltantes Figura 17. Tabla de valores faltantes. En la Figura 17 se aprecia la tabla que arroja Rattle para indicar los valores faltantes en cada una de las variables. El recuadro verde indica el número de valores faltantes en cada columna. Un cero debajo de una variable indica que ésta tiene valores faltantes y el número de valores lo da la primera columna, por ejemplo en la columna ganancias el primer cero indica que tiene 148 valores faltantes. El recuadro azul representa la suma de cada fila, los primeros valores indican cuantos ceros hay por fila, y el último valor da el total de valores faltantes en la muestra de datos. Por lo general la primera fila da el número de registros que no tienen valores faltantes, en este caso 30.014. La segunda se observa que hay 7 registros que les falta el valor en la columna trabajo, en la tercera fila hay 148 registros que no tienen valor en ganancias y en la penúltima existen 27 registros con datos faltantes en país_nac, empleado_en y trabajo.[3] Tabulación cruzada Esta opción nos permite cruzar la variable de destino que seleccionamos al cargar los datos, con las demás variables categóricas. En este caso se muestra en la Figura 18 la variable empleado_en cruzada con la variable MAYOR50K.

Figura 18. Resultados tabulación cruzada.

Distribuciones Ahora se analizará la opción Distribuciones Figura 19. Interfaz Distribuciones. En la interfaz de distribuciones (ver Figura 19) se separan las variables, las numéricas en la parte superior y las categóricas en la inferior. Para las numéricas están disponibles los siguientes diagramas: cajas y bigotes, histograma, distribución acumulada y el de Benford. Para las categóricas los diagramas de barras, puntos y mosaico. También se observa cierta información sobre las variables como el valor mínimo, la mediana, la media y el valor máximo para las numéricas, y para las categóricas el número de niveles. En la parte superior se puede escoger cuantos diagramas se desean por página y configurar algunas opciones para el diagrama de Benford.

Correlación El análisis de correlación indica que tan relacionadas son dos variables, este análisis solo es para variables numéricas. Hay tres métodos disponibles para hallar la correlación: Pearson, Spearman, Kendall. En este caso se utilizará el de Pearson y se activará la opción Organizado para que organice las variables según la fortaleza de correlación. El resultado se muestra a continuación en la Figura 20. Figura 20. Resultado análisis correlación. Si el coeficiente es igual a 1 existe una correlación positiva perfecta, es decir hay una relación directa entre las variables, cuando una de ellas aumenta la otra también lo hace en proporción constante. Si 0 < coeficiente < 1, existe una correlación positiva. Si es igual a cero, no existe relación lineal. Si 1 < coeficiente < 0, existe una correlación negativa. Si es igual a 1, existe una correlación negativa perfecta, es decir hay una relación inversa entre las variables, cuando una de ellas aumenta la otra disminuye en proporción constante. El resultado del análisis de correlación también viene acompañado de una gráfica, la cual se muestra a continuación en la Figura 21.

Figura 21. Gráfico de correlación. El grado de correlación se interpreta según la forma y el color de los elementos en la gráfica. Si el elemento es un círculo perfecto no hay correlación entre las variables. Cada variable está perfectamente correlacionada con ella misma, la perfecta correlación se representa con una línea diagonal. El color rojo indica correlación negativa, el azul positiva y entre más intenso sea el color es mayor la correlación. [3] Rattle también brinda la opción analizar la correlación entre las variables que tienen valores faltantes, para esto de activa la opción Explorar faltantes seguido de presionar el botón Execute.

Figura 22. Análisis de correlación entre las variables que posee valores faltantes. En este análisis solo participan las variables que tienen valores faltantes y como se observa en la Figura 22 también aparecen variables categóricas, de igual forma aparece el coeficiente de correlación. Se observa también información de los datos faltantes tales como la cantidad y el porcentaje de cada variable. Tambien se acompaña con un gráfico el cual se muestra a continuación en la Figura 23.

Figura 23. Gráfico de correlación entre las variables que poseen valores faltantes. En este grafico se observa que hay un alto grado de correlación entre empleado_en y trabajo, esto quiere decir que en general cuando hay un dato faltante en trabajo también lo hay en empleado_en. Por ultimo también existe la opción de realizar un análisis de correlación jerárquico, para esto se activa la opción jerárquico, esto despliega el gráfico el cual se observa a continuación.

Figura 24. Gráfico de correlación jerárquico.

6. Transformando los Datos La transformación de los datos es un proceso en el cual se preparan los datos que van a ser estudiados median la minería de datos, por lo tanto el tipo de transformación que se haga depende de la técnica que se vaya a utilizar. [4] Rattle ofrece 4 tipos de transformación los cuales se detallan a continuación: Cambiar escala: dentro de esta opción se pueden realizar diferentes cambios de escala. Recentralizar: centra los datos alrededor de cero, es decir transforma los datos de modo que la media sea 0 y la desviación estándar sea 1. Este término corresponde a normalizar. Escala [0 1]: normaliza los datos en una escala de 0 a 1. Mediana/MAD: cambia la escala de forma que la mediana sea 0 y la desviación absoluta de la mediana sea 1, es una versión más robusta que recentralizar. Registro natural: cambia la escala de los datos por medio de una transformación de logaritmo natural. Matriz: esta transformación es solo para variables numéricas, la variable seleccionada es tratada como una matriz dividiendo cada valor de la matriz por la suma de todos los elementos de la matriz. Intervalo: organiza los valores de la variable dentro de rangos. Figura 25. Interfaz para cambiar la escala de los datos.

Atribuir: proporciona diferentes métodos para reemplazar los datos faltantes. Se debe tener cuidado al momento de tratar los datos faltantes ya que se pueden cambiar las distribuciones de las variables y así generar modelos poco adecuados. La traducción correcta de esta opción es imputación. Cero/faltante: Se reemplaza los datos numéricos con 0 y los categóricos con la palabra faltante. Media: reemplaza los valores faltantes con la media. Mediana: llena los datos faltantes con la mediana. Modo: se utiliza la moda para llenar los datos faltantes. Constante: reemplaza los valores faltantes de cierta variable por un valor especificado. Figura 26. Interfaz para manejar los datos faltantes. Recode: se realizan transformaciones sobres las variables, ya sea de su tipo o de su ubicación. Cuantilos (la traducción correcta es cuantiles): divide la variable numérica en categorías con aproximadamente el mismo número de observaciones en cada una de ellas. Kmeans: se utiliza el método Kmeans para basándose en la distancia entre los elementos. dividir la variable numérica en grupos Del mismo ancho: crea grupos del mismo ancho de acuerdo al número de grupos que se le ingrese.

Variable indicador: convierte una variable categórica en una colección de variables indicadoras, en donde cada una de estas variables es un nivel de la variable categórica. Para cada observación solo una de estas nuevas variables tendrá el valor de 1 y el resto serán 0. El 1 corresponde al valor actual de la variable categórica original. Unir categorías: Combina múltiples variables categóricas en una sola. Como categórico: Convierte variables numéricas a categóricas Como numérico: Convierte una categórica en una numérica reemplazando cada nivel por el índice numérico del nivel. [3] Figura 27. Interfaz que permite cambiar de tipo las variables. Limpiar: Permite eliminar variables u observaciones. Borrar ignorados: Borra las variables a las que se les haya asignado el rol de ignorar. Borrar seleccionados: Borra las variables que se seleccionen en la lista de abajo. Borrar Faltantes: Borra las variables que contengan valores faltantes. Borrar objs con faltantes: Borra toda observación que contenga valores faltantes.

Figura 28. Interfaz para la limpieza de los datos. 7. Análisis de clúster Lo que se busca con este análisis es encontrar agrupaciones dentro de los datos con el fin de observar diferencias o similitudes que contribuyan al entendimiento de los datos. [5]. Por el momento Rattle brinda la posibilidad de realizar el análisis de clústeres mediante dos métodos los cuales solo funcionan con variables numéricas: KMeans: es un método de capa única, el cual divide las observaciones en k grupos, donde k es el número de grupos en los que se desea dividir la muestra. [5] Figura 29. Interfaz para el análisis de clúster con KMeans. En la interfaz se observa el campo Numero de clústers en el cual se indica el número de grupos en el que se dividirán las observaciones, el campo Semilla se ingresa un valor numérico a partir del cual se generarán valores aleatorios y un checkbox Repetir Clústers el cual en caso de estar activado ejecuta el algoritmo KMeans tantas veces como lo indique el numero en el campo Ejecuciones.

Luego de correr el algoritmo KMeans Rattle arroja los siguientes resultados (ver figura 30): Figura 30. Resultados del algoritmo KMeans. En esta imagen se observa la cantidad de elementos para cada clúster, la media de cada variable y los centros de cada clúster para las variables. Si se desea más información sobre el análisis el botón Estadísticas se obtiene información como: la entropía, el diámetro, la matriz de separación y mucha más información la cual puede ser de gran utilidad al momento de estudiar los datos. Por otra parte si se quiere una representación gráfica los botones Diagrama de datos y Diagrama discriminante brindan esta posibilidad. Jerárquico: los datos se dividen en subcategorías que se van dividiendo en otras Hasta que se clasifiquen todos los objetos, a diferencia del KMeans no es necesario ingresar el número de grupos de antemano. Figura 31. Interfaz para clúster jerárquico.

Para realizar el análisis jerárquico de los datos Rattle permite seleccionar el tipo de distancia que se requiere siendo la euclidiana la predeterminada y también existe la posibilidad de escoger el método de aglomeración el cual Ward es el predeterminado. El campo Número de procesadores hace referencia al número de subprocesos que se ejecutarán paralelamente. [6] Luego de oprimir Execute se tienen las tres mismas opciones: Estadisticas, Diagrama de datos, Diagrama discriminante explicadas anteriormente y además se tiene la opción Dendograma la cual hace una representación gráfica de los datos en forma de árbol y según el Número de clústers se señalan en el dendograma tantos grupos como lo indique el valor de este campo. 8. Análisis de Asociaciones Este análisis busca encontrar relaciones entre la diversas variable de la muestra de datos lo que es muy útil al momento de realizar clasificaciones y predicciones. Rattle brinda una interfaz muy sencilla para realizar el análisis de asociación, en la pestaña Asociada se encuentran las opciones disponibles para realizar dicho análisis. Esta es una interfaz muy sencilla de pocas opciones, donde aparece el checkbox Cestas el cual si se activa ejecuta un análisis de la canasta de mercado, en el cual solo existen dos columnas: una con el ID de la canasta y otra con el nombre del producto. El botón Diagrama de frecuencia presenta un gráfico con los elementos más comunes y usando el valor del soporte. En las opciones Apoyo y Confianza se ingresan el valor mínimo de aceptación para una regla de asociación, es decir solo se elegirán las reglas que tengan un apoyo y una confianza igual o mayor que los valores ingresados en estos campos. Y el botón Mostrar reglas simplemente las muestra, se debe tener en cuenta que los dos botones de esta interfaz solo funcionan después de haber oprimido el botón Execute. La interfaz para este análisis se muestra a continuación en la figura 32. Figura 32. Interfaz para encontrar reglas de asociación. A continuación se mostrarán los resultados arrojados por Rattle con un apoyo y una confianza mínima de 0.5. En la primera parte se muestra un resumen sobre las reglas, donde se observa el número de reglas que en este caso son 20 y luego se muestran diversas estadísticas sobre el soporte o apoyo, la confianza y la elevación (confianza de la regla dividida el soporte de la parte

derecha de la regla) [8]. En la segunda parte Rattle nos muestra información sobre la ejecución del algoritmo aprori, la cual no se tratará ya que no presenta información relevante. Figura 33. Resultado arrojado por el algoritmo aprioiri. Al dar click en Mostrar reglas éstas se muestran de la siguiente forma: Figura 34. Reglas de asociación encontradas. Cada regla tiene su soporte, confianza y elevación (lift).

9. Creando Modelos Esta es sin duda la parte de mayor importancia en un análisis de minería de datos ya que es donde se construye el modelo que representara el comportamiento de la muestra estudiada y es a partir de este modelo donde se pueden realizar clasificaciones, predicciones y estimaciones. Rattle ofrece la posibilidad de construir una gran variedad de modelos, a continuación se detallarán cada uno de estos y en qué consisten. Árbol: el árbol de decisión es uno de los modelos más comunes en la minería de datos y esto se debe a su facilidad de interpretación. Este modelo funciona para datos numéricos como categóricos. El algoritmo utilizado es rpart el cual es comparable con CART y el ID3/C4. Figura 35. Interfaz para crear un árbol de decisión. Al momento de generar el modelo se pueden ajustar ciertas opciones con el fin de que el modelo se adapte a lo que se desea. El primer cuadro de texto que se observa es División mínima este campo especifica el número mínimo de observaciones que deben existir en un nodo antes de que se realice la división. Cubo mínimo indica el mínimo de observaciones que debe haber en cada hoja del árbol. Profundidad máxima es el número máximo de niveles permitidos en el árbol. Complejidad es un parámetro utilizado para controlar el tamaño del árbol y para seleccionar el tamaño óptimo, si el costo de agregar otra variable al nodo de decisión supera el valor de este parámetro se detiene la construcción del árbol. Previos establece la probabilidad previa para cada clase con el fin de amplificar una clase importante asignándole una mayor probabilidad previa, en caso de tener tres clases se ingresarían las probabilidades de la siguiente forma: 0.3,0.4,0.3. Matriz de pérdida esta es usada para ponderar de diferente forma los errores de clasificación por ejemplo: 0,10,1,0 (TN,FN,FP,TP) esto indica que un FN (false negative) es 10 veces menos deseado que un FP (false positive). Por el último el checkbox Incluir faltantes en caso de activarlo se utilizarán variables suplentes en caso de que hayan valores faltantes. Luego de dar click en Execute podemos ver el árbol gráficamente y las reglas que se generaron. [3] Bosque: este es un modelo donde se crean varios árboles de decisiones, este modelo se usa cuando se tiene bases de datos muy grandes y un gran número de variables de entrada. Cada árbol es construido con un subconjunto de datos aleatorio. El algoritmo utilizado es randomforest el cual no trabaja con variables nominales de más de 32 niveles.