IBM SPSS Data Preparation

Documentos relacionados
IBM SPSS Decision Trees

Parte I: Introducción

Data Mining Técnicas y herramientas

SOLUCIÓN HOSPEDADA. Introducción a los modelos de asociación de partners de Microsoft Dynamics CRM

Instrucciones de instalación de IBM SPSS Modeler Server 16 para Windows

Identificación fácil de los clientes adecuados

IBM Cognos Enterprise: Inteligencia de negocio y gestión del rendimiento potente y escalable

SPSS Data Preparation 17.0

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Administración de Bases de Datos; Remota e In-Situ.

CONVERTIMOS SUS PROYECTOS EN REALIDAD SOMOS CONSTRUCTORES Y DESARROLLADORES DE NUESTROS SOFTWARE, CONFIENOS SUS PROYECTOS. Descripción del Producto

Soporte Técnico de Software HP

Elementos requeridos para crearlos (ejemplo: el compilador)

Soluciones de Portrait Customer Analytic

Cinco reglas imprescindibles en la predicción para maximizar el valor de los clientes

Introducción a InterSystems DeepSee

Autor: Microsoft Licencia: Cita Fuente: Ayuda de Windows

IBM Cognos Business Intelligence Scorecarding

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

ANÁLISIS DESCRIPTIVO CON SPSS

PÚBLICA, PRIVADA O HÍBRIDA: CUÁL ES LA MEJOR NUBE PARA SUS APLICACIONES?

Salud de Activos Reflejo de la Estrategia de Mantenimiento

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

IBM InfoSphere Foundation Tools permite ofrecer información de confianza

Cree tablas personalizadas rápidamente

MINING SOLUTIONS LIMITADA

IBM Cognos Insight. Explore, visualice, modele y comparta información de forma independiente y sin ayuda de TI. Características principales

Incorpora la localización en tu compañía. Mejora la rentabilidad con la solución Location Analytics de Esri

IBM SPSS Modeler Text Analytics Instrucciones de la instalación (Licencia de red)

Plantilla para Casos de Éxito

Seminario Electrónico de Soluciones Tecnológicas sobre VPNs de Extranets

Comprendiendo las estrategias de mantenimiento

Guía del usuario. Centro de facturación de UPS

PowerPoint 2010 Modificar el diseño de las diapositivas

Presentación del Data Monitor de Sedex Nuestra interesante nueva gama de herramientas de creación de informes

IBM Cognos Express Versión Notas de la versión

El nuevo Integrador de Valor

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Leica Application Suite

BBVA supervisa y mejora de forma transparente su reputación online

Gestión completa del rendimiento

Los objetivos de la mesa de ayuda son:

CAPITULO 2 - POR QUÉ NECESITAN LAS EMPRESAS UN CUADRO DE MANDO INTEGRAL?

Trebelius SISTEMA INTEGRADO DE GESTION DE CLINICAS

Gestión Dispositivos Móviles Dexon Software

TRÁFICO DE PISO 2. Rev. 1 15/04/09

Desarrollo e Implementación de Herramienta para la Gestión de Mantenimiento de Activos.

iseries Gestión de las unidades de disco

opinoweb el poder de sus datos Descubra LA NECESIDAD DE PREDECIR

Control de Cambio Operacional. Saber. Knowledge Base Service Assurance de NetIQ

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

Aplicación práctica de las tablas dinámicas para mejorar la gestión empresarial y presentación de las novedades del Excel 2013

IBM Tivoli Asset Management for IT. IBM Tivoli Service Request Manager

Unidad 1. Fundamentos en Gestión de Riesgos

Diseño dinámico de arquitecturas de información

Qué es SPIRO? Características

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Control de objetivos y alertas mediante Tablas Dinámicas

IBM Rational Configuration Management V8.0.1 proporciona soluciones empresariales para la gestión de cambios y de configuración

IBM SPSS Statistics. Analice grandes conjuntos de datos, mejore su rendimiento. Puntos destacados. IBM Software Business Analytics

Hacer Realidad BPM en su Organización ADOPTAR BPM A PARTIR DE UN PROYECTO O NECESIDAD DE AUTOMATIZACIÓN

ARIS Process Performance Manager

Acronis License Server. Guía del usuario

Análisis de costos proyectado de la plataforma SAP HANA

Instrucciones de instalación de IBM SPSS Text Analytics for Surveys (Licencia de red)

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida

Prácticas ITIL para un mejor flujo de trabajo en el helpdesk

Con esta nueva versión, si un artículo que está incluido dentro de un Paquete de Ventas tiene precio 0,00, significará gratis.

IBM SPSS Statistics - Essentials for Python: Instrucciones de instalación para Windows

SERVICIOS. Reingeniería. Instalación / Puesta en marcha. Personalización. Cursos de formación. Servicio técnico. Servicio de mantenimiento

INTRODUCCIÓN A LA CALIDAD DE DATOS APLICADO A LA VINCULACION DE LA INFORMACION CATASTRAL Y REGISTRAL

Presentación BI - ERP

activuspaper Text Mining and BI Abstract

Introducción a BusinessObjects XI Release 2 Service Pack 2 / Productivity Pack

IBM Systems and Technology Backup y recuperación confiables y eficientes para IBM i en los servidores IBM Power Systems

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz

Máxima flexibilidad en paletizado automático al mejor precio

CaseWare Working Papers Perfil del producto en español

Resultados de la encuesta a distribuidores de TI

Glosario de iconos del software

REGISTRO DE PEDIDOS DE CLIENTES MÓDULO DE TOMA DE PEDIDOS E INTEGRACIÓN CON ERP

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios

JDLink Guía de referencia rápida

Commitment Infor. Productos TI para el Área de Producción

Transición de su infraestructura de Windows Server 2003 a una solución moderna de Cisco y Microsoft

McAfee Security-as-a-Service

UNIDAD 6: TAREAS DE MANTENIMIENTO Y PROYECTOS ESPECIALES

TRANSPRO EL TRANSPORTE URBANO DEL MONTEVIDEO DEL MAÑANA

Antivirus PC (motor BitDefender) Manual de Usuario

Infraestructura Tecnológica. Sesión 12: Niveles de confiabilidad

ANEXO : PERFILES. Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES

Empresa Financiera Herramientas de SW Servicios

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Microsoft Dynamics. Migración de FRx 6.7 a Management Reporter for Microsoft Dynamics ERP

Transcripción:

IBM SPSS Statistics 19 IBM SPSS Data Preparation Mejore la preparación de los datos para obtener resultados más precisos Funciones destacadas Identificar valores de datos, variables y casos sospechosos o no válidos Ver patrones de datos perdidos Resumir distribuciones variables Preparar de manera más rápida y precisa los datos para el análisis Todos los investigadores tienen que preparar sus datos antes del análisis. Aunque IBM SPSS Statistics* incluye herramientas para la preparación de los datos, en ocasiones necesita técnicas más especializadas para prepararlos. Gracias a IBM SPSS Data Preparation*, podrá valores de datos; ver patrones de datos perdidos; resumir distribuciones de variables; y trabajar de forma más precisa con algoritmos diseñados preparación de datos para que estén listos para el análisis con mayor rapidez y obtener conclusiones más precisas. Elija un procedimiento de preparación de datos totalmente automatizado para obtener resultados más rápidamente o seleccione entre otros métodos distintos para gestionar los conjuntos de datos más complejos. IBM SPSS Data Preparation está disponible para su instalación como software de sólo cliente pero, para conseguir mayor rendimiento y capacidad de ampliación, también existe una versión para servidor. Seleccione una de estas opciones para la preparación de los datos Procedimiento Validar Datos Generalmente, la validación de datos ha sido un proceso manual. Podía realizar un análisis de frecuencia en los datos, imprimir las frecuencias, marcar con un círculo las que necesitaban corrección y comprobar los ID de los casos. Este procedimiento requiere mucho tiempo y, puesto que cada analista de la organización podría usar un método ligeramente distinto, mantener la coherencia entre proyectos podría suponer un reto. Para eliminar las comprobaciones manuales, utilice el procedimiento Validar Datos. Este procedimiento le permite aplicar reglas para realizar comprobaciones de datos basadas en el nivel de medida de cada variable (tanto si es categórica como continua). Por ejemplo, si analiza los datos de una encuesta que incluye variables en una escala Likert de cinco puntos, utilice el procedimiento Validar Datos para aplicar una regla para escalas de cinco puntos y marcar todos los valores que estén fuera del intervalo de 1 a 5. * IBM SPSS Statistics e IBM SPSS Data Preparation se llamaban anteriormente PASW Statistics y PASW Data Preparation.

Puede recibir informes de los casos no válidos, así como resúmenes de violaciones de reglas y el número de casos afectados y también comprobaciones de intervalos) y comprobaciones de inter-variables (por ejemplo, hombres embarazados ). Este conocimiento puede ayudarle a determinar la validez de los datos y a eliminar o corregir casos sospechosos según su criterio antes del análisis. La función de preparación automatizada de datos ofrece recomendaciones y permite que los usuarios las examinen. Preparación de datos en un solo paso y de forma automática La preparación manual de los datos es un proceso complejo que puede requerir entre un 40 y un 90% del tiempo que dedica un analista en un proyecto determinado. Si necesita resultados rápidamente, el procedimiento Preparación Automatizada de Datos (ADP) le ayuda a detectar y corregir errores de calidad e imputar valores perdidos en un comprender con recomendaciones y visualizaciones completas que le ayudan a determinar qué datos usar en el análisis. Procedimiento Detección de anomalías Evite valores atípicos de análisis sesgados mediante el Procedimiento Detección de Anomalías, que busca casos inusuales basándose en desviaciones con respecto a casos parecidos y proporciona las razones seguir examinándolos y determinar si deben incluirse en los análisis. 2

Intervalos óptimos Para usar algoritmos diseñados para atributos nominales (como algoritmos bayesianos Naïve y modelos logit), debe agrupar las variables de escala antes de crear el modelo. Si éstas no están agrupadas, los algoritmos, como la regresión logística multinomial, tardarían mucho tiempo en procesarse o podrían no converger, en especial si tiene un conjunto de datos grande. Además, la lectura o la interpretación de los resultados obtenidos podría ser difícil. No obstante, Agrupación Óptima le permite establecer puntos de corte para ayudarle a obtener el mejor resultado posible para algoritmos diseñados para atributos nominales. Gracias a este procedimiento, puede seleccionar entre tres tipos de agrupación para preprocesar los datos antes de crear el modelo: Sin supervisión : crea agrupaciones con recuentos iguales Supervisada : utiliza la variable de destino para establecer los puntos de corte. Este método es más preciso que el anterior; no obstante, también requiere mayor cantidad de cálculos. Enfoque híbrido : combina los enfoques anteriores. Este método resulta especialmente útil si tiene una gran cantidad de valores distintos. que cumplan los requisitos normativos internos y externos y publicar los resultados de manera que un número mayor de usuarios comerciales pueda verlos e interactuar con ellos, amplíe el software IBM SPSS Statistics con IBM SPSS Collaboration and Deployment Services*. Puede encontrar más información sobre estas valiosas funciones en www.spss.com/software/deployment/cds. Nuestra gama de software estadístico está disponible en tres ediciones: IBM SPSS Statistics Standard, IBM SPSS Statistics Professional e IBM SPSS Statistics Premium. Al agrupar funciones esenciales, estas ediciones departamento cuente con las funciones y funcionalidad que necesitan para realizar los análisis que contribuyen al éxito de su organización. * IBM SPSS Collaboration and Deployment Services se llamaba anteriormente PASW Collaboration and Deployment Services. 3

Funciones Preparación automatizada de datos Pasos recomendados para acelerar la creación de modelos y mejorar el potencial predictivo: Determinar objetivo: Equilibrar velocidad y precisión, Optimizar velocidad, Optimizar precisión o Personalizar análisis. Preparar fechas y horas para el modelado: Calcular tiempo transcurrido hasta una fecha de referencia Calcular tiempo transcurrido hasta una hora de referencia Extraer elementos de tiempo cíclicos Excluir campos de entrada de baja calidad: Excluir campos con demasiados valores perdidos Excluir campos nominales con demasiadas categorías únicas Excluir campos categóricos con demasiados valores en una sola categoría Ajustar niveles de medición: Ajustar niveles de medición de campos numéricos Preparar campos para mejorar la calidad de los datos: Tratamiento de valores atípicos Reemplazar valores perdidos Reorganizar campos nominales Cambiar la escala de los campos: Ponderación de análisis Campos de entrada continuos Campos objetivo continuos Transformar campos: Mediante campos de entrada categóricos y/o continuos Realizar la creación y selección de funciones Asignar nombres a campos: Campos transformados y construidos Duraciones calculadas Elementos de tiempo cíclicos extraídos Aplicar transformaciones a datos Validar datos Use el procedimiento Validar Datos para validar los datos del archivo de datos de trabajo: comprobaciones básicas para aplicarlas a las variables y los casos del archivo. Por ejemplo, genere informes que porcentaje de valores perdidos o casos vacíos: Porcentaje máximo de valores perdidos Porcentaje máximo de casos en una sola categoría Porcentaje máximo de casos con Desviación típica mínima Indicar ID incompletos Indicar ID duplicados Indicar casos vacíos Reglas estándar: describir los datos, ver reglas de variable única y aplicarlas a variables de análisis: Descripción de datos: Distribución: muestra un miniatura para variables categóricas o un histograma para variables de escala Se muestran los valores máximos y mínimos de los datos. Reglas de variable única: Aplique reglas a variables individuales para perdidos o no válidos, como valores fuera de un intervalo válido. Las reglas de variable usuario también son posibles. expresiones de reglas de inter-variables en las que las respuestas de los participantes son contrarias a la lógica ( hombres embarazados, por ejemplo). Resultados: informes que describen datos no válidos: Informe por casos, que enumera las violaciones de reglas de validación por caso: mínimo de violaciones necesario para que se incluya un caso en el informe. 4

máximo de casos en el informe. Informes de reglas de validación estándar: Resumir violaciones por variable de análisis Resumir violaciones por regla Mostrar estadísticos descriptivos Guardar: le permite guardar variables que registran violaciones de reglas y casos incorrectos: Variables de resumen: Indicador de caso vacío Indicador de ID duplicado Indicador de ID incompleto Violación de regla de validación (recuento total) Variables de indicador que registran todas las violaciones de reglas de validación Identificar casos inusuales El procedimiento Detección de anomalías busca casos inusuales, basándose en desviaciones con respecto a sus grupos de homólogos, y proporciona razones para tales desviaciones: el procedimiento con el subcomando categóricas, continuas y de y enumerar variables excluidas del análisis. El subcomando HANDLEMISSING de valores perdidos en este procedimiento: Aplicar tratamiento de valores perdidos. Si se selecciona esta opción, las medias principales se sustituirán por valores perdidos de variables continuas, y las categorías perdidas de variables categóricas se combinarán y tratarán como categorías válidas. Después las variables procesadas se utilizan en el análisis. Si no está seleccionada, los casos con valores perdidos se excluyen del análisis. Crear una variable de proporción perdida adicional y usarla en el análisis. Si selecciona esta opción, se creará una variable adicional denominada Variable de proporción perdida que representa la proporción de variables perdidas en cada registro y se utilizará en el análisis. Si no se selecciona esta opción, no se creará la variable de proporción perdida. los siguientes valores: Número máximo y mínimo de grupos de homólogos Ponderación de ajuste en el nivel de medición Número de razones en la lista de anomalías Porcentaje de casos considerados anómalos e incluidos en la lista de anomalías Número de casos considerados anómalos e incluidos en la lista de anomalías Punto de corte del índice de anomalías para determinar si un caso se considera una anomalía Guardar más variables en el archivo de datos de trabajo con el subcomando SAVE: Índice de anomalías ID de grupo de homólogos Tamaño del grupo de homólogos Tamaño del grupo de homólogos en porcentaje Variable asociada con una razón Medida del impacto de la variable asociada con una razón Valor de la variable asociada con una razón Valor de la norma asociado con una razón Escribir el modelo en un nombre de el subcomando OUTFILE. 5

Controlar la visualización de los resultados con el subcomando PRINT Podrá imprimir: Resumen de procesamiento de casos La lista del índice de anomalías, la lista de ID de homólogos de anomalías y la lista de razones de anomalías La tabla Normas de variables continuas (si se usa alguna variable continua en el análisis) y Normas de variables categóricas (si se usa alguna en el análisis) Resumen del índice de anomalías Tabla Resumen de razones correspondiente a cada razón: Suprimir todos los resultados visualizados excepto la tabla de notas y las advertencias Intervalos óptimos Preprocese los datos mediante diversas variables continuas mediante la distribución de los valores de cada variable en agrupaciones. Este procedimiento es útil para reducir el número de valores en las variables de entrada concretas que se van a agrupar, lo que puede suponer una mejora algoritmos. Al usar ciertos métodos de Agrupación óptima, una variable guía le ayuda a establecer los puntos de corte, aumentando al máximo por lo tanto la relación entre la variable guía y la variable agrupada. Seleccione uno de los métodos siguientes: Agrupación sin supervisión mediante el algoritmo de frecuencia igual. Este método usa el algoritmo de frecuencia igual para discretizar las variables de entrada que se van a agrupar. No es necesaria una variable guía. Agrupación supervisada mediante el algoritmo MDLP (principio de longitud de descripción mínima). Este método discretiza las variables de entrada que se van a agrupar mediante el algoritmo MDLP sin necesidad de ningún procesamiento previo. Resulta idóneo para conjuntos de datos con un número pequeño de casos. Es necesaria una variable guía. Agrupación MDLP híbrida. Conlleva el procesamiento previo mediante el algoritmo de frecuencia igual, seguido del algoritmo MDLP. Resulta idóneo para conjuntos de datos con un número grande de casos. Es necesaria una variable guía. mínimo para cada variable de entrada que se va a agrupar máximo para cada variable de entrada que se va a agrupar de un intervalo Si forzar la fusión de agrupaciones poco pobladas Si los valores perdidos se tratan mediante la eliminación por lista o por pareja Guarde lo siguiente: Variables nuevas que contienen valores agrupados Sintaxis en un archivo de sintaxis de IBM SPSS Statistics Base Controle la visualización de resultados con el subcomando PRINT. Podrá imprimir: Los conjuntos de puntos de corte de las variables de entrada que se van a agrupar Información descriptiva de todas las variables de entrada que se van a agrupar Entropía del modelo para variables agrupadas Requisitos del sistema Los requisitos dependen de la plataforma. 6

Acerca de IBM El software IBM ofrece información completa, coherente y precisa en la que los órganos de toma de decisiones confían para mejorar el rendimiento comercial. Un conjunto integral de inteligencia empresarial, análisis avanzado, rendimiento comercial y gestión de estrategias, así como de aplicaciones de análisis predictivo le ofrece una perspectiva clara, inmediata e interactiva del rendimiento actual y la capacidad para predecir resultados futuros. Como parte de este portafolio, el software de IBM SPSS Predictive Analytics ayuda a las organizaciones a predecir eventos futuros y actuar proactivamente según esa información para llegar a mejores resultados de negocio. Clientes del entorno comercial, gubernamental y académico de todo el mundo confían en la tecnología de IBM SPSS como una ventaja competitiva para atraer, retener y aumentar los riesgos. Al incorporar el software de IBM SPSS en sus operaciones diarias, las organizaciones se convierten en empresas predictivas - capaces de direccionar y automatizar decisiones para cumplir con los objetivos de negocio y conseguir una ventaja competitiva apreciable. Para más información, visite www.ibm.com/spss/es. 7

COLOMBIA Cra. 16A No. 78-11 Ofic.701 PBX: (+57-1) 6358585 FAX: (+57-1) 6358584 Línea Gratuita 018000 914636 mercadeo@spssandino.com Bogotá PERÚ Av. La Encalada No. 1010 Ofic. 503 Santiago de Surco, Lima 33 TEL: (+51-1) 4344440 peru@spssandino.com Lima ECUADOR Gral. Roca No. 32-262 e Ignacio Bossano (Tras TSE) TEL: (+593-2) 2248488/2248834 Ext. 107 FAX: (+593-2) 2248856 ecuador@spssandino.com Quito VENEZUELA Edificio Lijak Piso 1 Ofic. 1-B Avenida Libertador entre Buenos Aires y Bogotá Urbanización Los Caobos / Caracas 1050 Media cuadra antes de la funeraría Los Caobos TEL: (+58-212) 5742867 venezuela@spssandino.com Caracas Copyright IBM Corporation 2010 IBM Corporation Route 100 Somers, NY 10589 Derechos restringidos de usuarios del Gobierno de EE.UU. - El uso o duplicación de revelación está restringido por el GSA ADP Schedule Contract con IBM Corp. Creado en Estados Unidos de América Mayo de 2010 Reservados todos los derechos IBM y el logotipo de IBM, ibm.com, WebSphere, InfoSphere y Cognos son marcas comerciales de International Business Machines Corporation en EE.UU., otros países o ambos. Si estos u otros términos con marca comercial de IBM están indicados en su primera aparición en esta información con un símbolo de marca comercial ( o TM), dichos símbolos indican una marca comercial registrada en EE.UU. propiedad de IBM en el momento de la publicación de esta información. Dichas marcas comerciales también pueden estar registradas en otros países. Existe una lista actualizada de marcas comerciales de IBM bajo "Copyright and trademark information" en ibm.com/legal/ copytrade.shtml SPSS es una marca comercial de SPSS, Inc., an IBM Company, registrada en muchas jurisdicciones de todo el mundo. Otros nombres de empresas, productos y servicios pueden ser marcas comerciales o marcas de servicio de terceros. Por Favor Recicle software YTD03016ESES-01