IBM SPSS Data Preparation

IBM SPSS Statistics 19 IBM SPSS Data Preparation Mejore la preparación de los datos para obtener resultados más precisos Funciones destacadas Identificar valores de datos, variables y casos sospechosos o no válidos Ver patrones de datos perdidos Resumir distribuciones variables Preparar de manera más rápida y precisa los datos para el análisis Todos los investigadores tienen que preparar sus datos antes del análisis. Aunque IBM SPSS Statistics* incluye herramientas para la preparación de los datos, en ocasiones necesita técnicas más especializadas para prepararlos. Gracias a IBM SPSS Data Preparation*, podrá valores de datos; ver patrones de datos perdidos; resumir distribuciones de variables; y trabajar de forma más precisa con algoritmos diseñados preparación de datos para que estén listos para el análisis con mayor rapidez y obtener conclusiones más precisas. Elija un procedimiento de preparación de datos totalmente automatizado para obtener resultados más rápidamente o seleccione entre otros métodos distintos para gestionar los conjuntos de datos más complejos. IBM SPSS Data Preparation está disponible para su instalación como software de sólo cliente pero, para conseguir mayor rendimiento y capacidad de ampliación, también existe una versión para servidor. Seleccione una de estas opciones para la preparación de los datos Procedimiento Validar Datos Generalmente, la validación de datos ha sido un proceso manual. Podía realizar un análisis de frecuencia en los datos, imprimir las frecuencias, marcar con un círculo las que necesitaban corrección y comprobar los ID de los casos. Este procedimiento requiere mucho tiempo y, puesto que cada analista de la organización podría usar un método ligeramente distinto, mantener la coherencia entre proyectos podría suponer un reto. Para eliminar las comprobaciones manuales, utilice el procedimiento Validar Datos. Este procedimiento le permite aplicar reglas para realizar comprobaciones de datos basadas en el nivel de medida de cada variable (tanto si es categórica como continua). Por ejemplo, si analiza los datos de una encuesta que incluye variables en una escala Likert de cinco puntos, utilice el procedimiento Validar Datos para aplicar una regla para escalas de cinco puntos y marcar todos los valores que estén fuera del intervalo de 1 a 5. * IBM SPSS Statistics e IBM SPSS Data Preparation se llamaban anteriormente PASW Statistics y PASW Data Preparation.

Puede recibir informes de los casos no válidos, así como resúmenes de violaciones de reglas y el número de casos afectados y también comprobaciones de intervalos) y comprobaciones de inter-variables (por ejemplo, hombres embarazados ). Este conocimiento puede ayudarle a determinar la validez de los datos y a eliminar o corregir casos sospechosos según su criterio antes del análisis. La función de preparación automatizada de datos ofrece recomendaciones y permite que los usuarios las examinen. Preparación de datos en un solo paso y de forma automática La preparación manual de los datos es un proceso complejo que puede requerir entre un 40 y un 90% del tiempo que dedica un analista en un proyecto determinado. Si necesita resultados rápidamente, el procedimiento Preparación Automatizada de Datos (ADP) le ayuda a detectar y corregir errores de calidad e imputar valores perdidos en un comprender con recomendaciones y visualizaciones completas que le ayudan a determinar qué datos usar en el análisis. Procedimiento Detección de anomalías Evite valores atípicos de análisis sesgados mediante el Procedimiento Detección de Anomalías, que busca casos inusuales basándose en desviaciones con respecto a casos parecidos y proporciona las razones seguir examinándolos y determinar si deben incluirse en los análisis. 2

Intervalos óptimos Para usar algoritmos diseñados para atributos nominales (como algoritmos bayesianos Naïve y modelos logit), debe agrupar las variables de escala antes de crear el modelo. Si éstas no están agrupadas, los algoritmos, como la regresión logística multinomial, tardarían mucho tiempo en procesarse o podrían no converger, en especial si tiene un conjunto de datos grande. Además, la lectura o la interpretación de los resultados obtenidos podría ser difícil. No obstante, Agrupación Óptima le permite establecer puntos de corte para ayudarle a obtener el mejor resultado posible para algoritmos diseñados para atributos nominales. Gracias a este procedimiento, puede seleccionar entre tres tipos de agrupación para preprocesar los datos antes de crear el modelo: Sin supervisión : crea agrupaciones con recuentos iguales Supervisada : utiliza la variable de destino para establecer los puntos de corte. Este método es más preciso que el anterior; no obstante, también requiere mayor cantidad de cálculos. Enfoque híbrido : combina los enfoques anteriores. Este método resulta especialmente útil si tiene una gran cantidad de valores distintos. que cumplan los requisitos normativos internos y externos y publicar los resultados de manera que un número mayor de usuarios comerciales pueda verlos e interactuar con ellos, amplíe el software IBM SPSS Statistics con IBM SPSS Collaboration and Deployment Services*. Puede encontrar más información sobre estas valiosas funciones en www.spss.com/software/deployment/cds. Nuestra gama de software estadístico está disponible en tres ediciones: IBM SPSS Statistics Standard, IBM SPSS Statistics Professional e IBM SPSS Statistics Premium. Al agrupar funciones esenciales, estas ediciones departamento cuente con las funciones y funcionalidad que necesitan para realizar los análisis que contribuyen al éxito de su organización. * IBM SPSS Collaboration and Deployment Services se llamaba anteriormente PASW Collaboration and Deployment Services. 3

Funciones Preparación automatizada de datos Pasos recomendados para acelerar la creación de modelos y mejorar el potencial predictivo: Determinar objetivo: Equilibrar velocidad y precisión, Optimizar velocidad, Optimizar precisión o Personalizar análisis. Preparar fechas y horas para el modelado: Calcular tiempo transcurrido hasta una fecha de referencia Calcular tiempo transcurrido hasta una hora de referencia Extraer elementos de tiempo cíclicos Excluir campos de entrada de baja calidad: Excluir campos con demasiados valores perdidos Excluir campos nominales con demasiadas categorías únicas Excluir campos categóricos con demasiados valores en una sola categoría Ajustar niveles de medición: Ajustar niveles de medición de campos numéricos Preparar campos para mejorar la calidad de los datos: Tratamiento de valores atípicos Reemplazar valores perdidos Reorganizar campos nominales Cambiar la escala de los campos: Ponderación de análisis Campos de entrada continuos Campos objetivo continuos Transformar campos: Mediante campos de entrada categóricos y/o continuos Realizar la creación y selección de funciones Asignar nombres a campos: Campos transformados y construidos Duraciones calculadas Elementos de tiempo cíclicos extraídos Aplicar transformaciones a datos Validar datos Use el procedimiento Validar Datos para validar los datos del archivo de datos de trabajo: comprobaciones básicas para aplicarlas a las variables y los casos del archivo. Por ejemplo, genere informes que porcentaje de valores perdidos o casos vacíos: Porcentaje máximo de valores perdidos Porcentaje máximo de casos en una sola categoría Porcentaje máximo de casos con Desviación típica mínima Indicar ID incompletos Indicar ID duplicados Indicar casos vacíos Reglas estándar: describir los datos, ver reglas de variable única y aplicarlas a variables de análisis: Descripción de datos: Distribución: muestra un miniatura para variables categóricas o un histograma para variables de escala Se muestran los valores máximos y mínimos de los datos. Reglas de variable única: Aplique reglas a variables individuales para perdidos o no válidos, como valores fuera de un intervalo válido. Las reglas de variable usuario también son posibles. expresiones de reglas de inter-variables en las que las respuestas de los participantes son contrarias a la lógica ( hombres embarazados, por ejemplo). Resultados: informes que describen datos no válidos: Informe por casos, que enumera las violaciones de reglas de validación por caso: mínimo de violaciones necesario para que se incluya un caso en el informe. 4

máximo de casos en el informe. Informes de reglas de validación estándar: Resumir violaciones por variable de análisis Resumir violaciones por regla Mostrar estadísticos descriptivos Guardar: le permite guardar variables que registran violaciones de reglas y casos incorrectos: Variables de resumen: Indicador de caso vacío Indicador de ID duplicado Indicador de ID incompleto Violación de regla de validación (recuento total) Variables de indicador que registran todas las violaciones de reglas de validación Identificar casos inusuales El procedimiento Detección de anomalías busca casos inusuales, basándose en desviaciones con respecto a sus grupos de homólogos, y proporciona razones para tales desviaciones: el procedimiento con el subcomando categóricas, continuas y de y enumerar variables excluidas del análisis. El subcomando HANDLEMISSING de valores perdidos en este procedimiento: Aplicar tratamiento de valores perdidos. Si se selecciona esta opción, las medias principales se sustituirán por valores perdidos de variables continuas, y las categorías perdidas de variables categóricas se combinarán y tratarán como categorías válidas. Después las variables procesadas se utilizan en el análisis. Si no está seleccionada, los casos con valores perdidos se excluyen del análisis. Crear una variable de proporción perdida adicional y usarla en el análisis. Si selecciona esta opción, se creará una variable adicional denominada Variable de proporción perdida que representa la proporción de variables perdidas en cada registro y se utilizará en el análisis. Si no se selecciona esta opción, no se creará la variable de proporción perdida. los siguientes valores: Número máximo y mínimo de grupos de homólogos Ponderación de ajuste en el nivel de medición Número de razones en la lista de anomalías Porcentaje de casos considerados anómalos e incluidos en la lista de anomalías Número de casos considerados anómalos e incluidos en la lista de anomalías Punto de corte del índice de anomalías para determinar si un caso se considera una anomalía Guardar más variables en el archivo de datos de trabajo con el subcomando SAVE: Índice de anomalías ID de grupo de homólogos Tamaño del grupo de homólogos Tamaño del grupo de homólogos en porcentaje Variable asociada con una razón Medida del impacto de la variable asociada con una razón Valor de la variable asociada con una razón Valor de la norma asociado con una razón Escribir el modelo en un nombre de el subcomando OUTFILE. 5

Controlar la visualización de los resultados con el subcomando PRINT Podrá imprimir: Resumen de procesamiento de casos La lista del índice de anomalías, la lista de ID de homólogos de anomalías y la lista de razones de anomalías La tabla Normas de variables continuas (si se usa alguna variable continua en el análisis) y Normas de variables categóricas (si se usa alguna en el análisis) Resumen del índice de anomalías Tabla Resumen de razones correspondiente a cada razón: Suprimir todos los resultados visualizados excepto la tabla de notas y las advertencias Intervalos óptimos Preprocese los datos mediante diversas variables continuas mediante la distribución de los valores de cada variable en agrupaciones. Este procedimiento es útil para reducir el número de valores en las variables de entrada concretas que se van a agrupar, lo que puede suponer una mejora algoritmos. Al usar ciertos métodos de Agrupación óptima, una variable guía le ayuda a establecer los puntos de corte, aumentando al máximo por lo tanto la relación entre la variable guía y la variable agrupada. Seleccione uno de los métodos siguientes: Agrupación sin supervisión mediante el algoritmo de frecuencia igual. Este método usa el algoritmo de frecuencia igual para discretizar las variables de entrada que se van a agrupar. No es necesaria una variable guía. Agrupación supervisada mediante el algoritmo MDLP (principio de longitud de descripción mínima). Este método discretiza las variables de entrada que se van a agrupar mediante el algoritmo MDLP sin necesidad de ningún procesamiento previo. Resulta idóneo para conjuntos de datos con un número pequeño de casos. Es necesaria una variable guía. Agrupación MDLP híbrida. Conlleva el procesamiento previo mediante el algoritmo de frecuencia igual, seguido del algoritmo MDLP. Resulta idóneo para conjuntos de datos con un número grande de casos. Es necesaria una variable guía. mínimo para cada variable de entrada que se va a agrupar máximo para cada variable de entrada que se va a agrupar de un intervalo Si forzar la fusión de agrupaciones poco pobladas Si los valores perdidos se tratan mediante la eliminación por lista o por pareja Guarde lo siguiente: Variables nuevas que contienen valores agrupados Sintaxis en un archivo de sintaxis de IBM SPSS Statistics Base Controle la visualización de resultados con el subcomando PRINT. Podrá imprimir: Los conjuntos de puntos de corte de las variables de entrada que se van a agrupar Información descriptiva de todas las variables de entrada que se van a agrupar Entropía del modelo para variables agrupadas Requisitos del sistema Los requisitos dependen de la plataforma. 6

Acerca de IBM El software IBM ofrece información completa, coherente y precisa en la que los órganos de toma de decisiones confían para mejorar el rendimiento comercial. Un conjunto integral de inteligencia empresarial, análisis avanzado, rendimiento comercial y gestión de estrategias, así como de aplicaciones de análisis predictivo le ofrece una perspectiva clara, inmediata e interactiva del rendimiento actual y la capacidad para predecir resultados futuros. Como parte de este portafolio, el software de IBM SPSS Predictive Analytics ayuda a las organizaciones a predecir eventos futuros y actuar proactivamente según esa información para llegar a mejores resultados de negocio. Clientes del entorno comercial, gubernamental y académico de todo el mundo confían en la tecnología de IBM SPSS como una ventaja competitiva para atraer, retener y aumentar los riesgos. Al incorporar el software de IBM SPSS en sus operaciones diarias, las organizaciones se convierten en empresas predictivas - capaces de direccionar y automatizar decisiones para cumplir con los objetivos de negocio y conseguir una ventaja competitiva apreciable. Para más información, visite www.ibm.com/spss/es. 7

COLOMBIA Cra. 16A No. 78-11 Ofic.701 PBX: (+57-1) 6358585 FAX: (+57-1) 6358584 Línea Gratuita 018000 914636 mercadeo@spssandino.com Bogotá PERÚ Av. La Encalada No. 1010 Ofic. 503 Santiago de Surco, Lima 33 TEL: (+51-1) 4344440 peru@spssandino.com Lima ECUADOR Gral. Roca No. 32-262 e Ignacio Bossano (Tras TSE) TEL: (+593-2) 2248488/2248834 Ext. 107 FAX: (+593-2) 2248856 ecuador@spssandino.com Quito VENEZUELA Edificio Lijak Piso 1 Ofic. 1-B Avenida Libertador entre Buenos Aires y Bogotá Urbanización Los Caobos / Caracas 1050 Media cuadra antes de la funeraría Los Caobos TEL: (+58-212) 5742867 venezuela@spssandino.com Caracas Copyright IBM Corporation 2010 IBM Corporation Route 100 Somers, NY 10589 Derechos restringidos de usuarios del Gobierno de EE.UU. - El uso o duplicación de revelación está restringido por el GSA ADP Schedule Contract con IBM Corp. Creado en Estados Unidos de América Mayo de 2010 Reservados todos los derechos IBM y el logotipo de IBM, ibm.com, WebSphere, InfoSphere y Cognos son marcas comerciales de International Business Machines Corporation en EE.UU., otros países o ambos. Si estos u otros términos con marca comercial de IBM están indicados en su primera aparición en esta información con un símbolo de marca comercial ( o TM), dichos símbolos indican una marca comercial registrada en EE.UU. propiedad de IBM en el momento de la publicación de esta información. Dichas marcas comerciales también pueden estar registradas en otros países. Existe una lista actualizada de marcas comerciales de IBM bajo "Copyright and trademark information" en ibm.com/legal/ copytrade.shtml SPSS es una marca comercial de SPSS, Inc., an IBM Company, registrada en muchas jurisdicciones de todo el mundo. Otros nombres de empresas, productos y servicios pueden ser marcas comerciales o marcas de servicio de terceros. Por Favor Recicle software YTD03016ESES-01