Introducción a SPSS Árboles de Clasificación. Jorge Del Río L. Consultor Estadístico

Transcripción

1 Introducción a SPSS Árboles de Clasificación Jorge Del Río L. Consultor Estadístico

2 Introducción Es un módulo que contiene diferentes procedimientos para resolver problemas de predicción y clasificación utilizando análisis de árboles de decisión. Es capaz de combinar a través de un conjunto de variables independientes y sucesivamente particionando la data en subgrupos de mejorar la predicción o clasificación de una variable objetivo. Es una técnica valiosa cuando deseamos construir modelos con gran cantidad de variables independientes o con poca teoría previa que sirva de guía.

3 Análisis basado en árboles Los procedimientos tradicionales implican el ajuste de un modelo (regresión por ejemplo) según el comportamiento de los datos. Los árboles de decisión dividen los datos sucesivamente con base a algún criterio que implique relaciones entre las variables predictoras y la variable objetivo.

4 Análisis basado en árboles Cuando se tiene éxito, el árbol que resulta indica qué variables predictoras están relacionadas con mayor fuerza con la variable objetivo. Los nodos terminales muestran los grupos que pueden tener una mayor concentración de casos con la característica deseada.

5 Usos Generales de los Árboles de Decisión Segmentación. Identificar personas son probablemente miembros de un grupo. Estratificación. Asignación de casos a categorías. Predicción. Creación de reglas para predecir eventos futuros. Reducción de datos y filtro de variables. Seleccionar un subconjunto de variables para contruir un modelo paramétrico. Identificación de interacciones. Identificar relaciones que pertenezcan a subgrupos específicos. Fusión de categorías. Colapsar variables contínuas en categorías discretas.

6 Aplicaciones de los Árboles de Decisión Correo directo. Determinar grupos demográficos con alta tasa de respuesta. Credit Scoring. Usar historial crediticio para tomar decisiones de crédito. Recursos Humanos. Entender las reglas de pasadas de contratación para afinar el proceso. Análisis de mercado. Determinación de variables geográficas, precios, características del consumidor y otras

7 Aplicaciones de los Árboles de Decisión Control de calidad. Determinación de productos defectuosos. Estudio de políticas. Generar reglas de decisión en las políticas de contratación. Salud. Descubrir variables que contribuyan a mejores resultados de salud.

8 Ventajas y desventajas sobre modelos tradicionales Diseñados para trabajar con un número elevado de variables (CHAID vs loglineal) Como métodos no paramétricos capturan relaciones que los modelos lineales no pueden capturar (relaciones no lineales e interacciones complejas). No genera una ecuación general que exprese el modelo.

9 Por qué cuatro métodos? Diferentes métodos pueden manejar diferentes tipos medida en las variables. Uso o no de criterios estadísticos al momento de escoger y partir variables. Si se incorporan o no costos de clasificación errónea y probabilidades a priori. Esfuerzo computacional de la máquina.

10 Comparación Característica CHAID CHAID Exahustivo C&RT QUEST Tipo de Partición Múltiple Múltiple Binaria Binaria Dependiente Continua Sí Sí Sí No Predictoras Continuas Si (*) Si (*) Sí Sí Coste de Mala Clasificación (Crecimiento del Arbol) Pruebas Estadísticas (Selección del Predictor) Pruebas Estadísticas (Particionar) No No Sí Sí Sí Sí No Sí Sí Sí No No Velocidad Moderada Moderada Lento Moderada/Lento Utiliza A priori? No No Sí Sí Valores Faltantes para los Predictores Usados? Si, como una categoría Si, como una categoría No, Sustitutos usados para partición No, Sustitutos usados para partición

11 Recomendaciones El análisis de datos requiere de una participación humana atenta. Siempre mire los datos en bruto. Conozca las características en sus datos antes de emprender un proyecto grande. Limpie los datos o esté conciente de cualquier irregularidad en ellos. Valide sus resultados con nuevos datos o con una muestra de prueba. Si es posible utilice modelos estadísticos tradicionales para extender y verificar lo aprendido.

12 Tabla de Ganancia de Nodos Nodo. Número del nodo. Nodo N. Número de casos dentro de un nodo. Nodo Porcentaje. Porcentaje de personas en el nodo contra la muestra completa. Ganancia N. N de casos en el nodo que caen dentro de la categoría objetivo. Ganancia Porcentaje. Porcentaje de personas en la categoría objetivo contra el N total de la categoría objetivo. Respuesta. Tasa de respuesta en el nodo para la categoría objetivo. Índice. Radio del nodo de respuesta versus la respuesta de la muestra total.

13 CHAID y CHAID Exhaustivo

14 Qué es CHAID? Chi-square Automatic Interaction Detector (Detector Automático de Interacción Chi-cuadrado). El modelo CHAID es un método exploratorio del análisis de datos usado para estudiar las relaciones entre una variable dependiente y una serie grande de variables predictoras. CHAID selecciona un sistema de predictores y de sus interacciones que predicen óptimamente la medida de la variable dependiente.

15 Qué es CHAID? El modelo desarrolla un árbol de clasificación con los perfiles más importantes formados por las variables independientes diferenciado los criterios de una variable dependiente. CHAIS es puede proveer información relevante sobre una variable dependiente, donde modelos formales tienen dificultades (como muchas variables categóricas o un limitado tamaño de muestra).

16 Principios y Consideraciones CHAID tiende a crear árboles amplios más que los métodos binarios. Funciona con todo tipo de variables (cualitativas y cuantitativas) CHAID comienza su análisis seleccionando la variable independiente más significativa (menor p-value). Si la variable independiente tiene más de 2 categorías, CHAID las compara y une las categorías que no muestren diferencias en el resultado. Para variables nominales, cualquier categoría puede ser unida, mientras que para ordinales solo categorías contiguas. Por lo tanto, CHAID divide la data sistemáticamente en subgrupos que muestren diferencias significativas.

17 Lectura de un Diagrama CHAID Los diagramas CHAID se deben pensar como el "tronco de un árbol" con particiones progresivas en "ramas más pequeñas. El "tronco inicial del árbol" son todos los participantes en el estudio. Las variables predictoras conducen a una discriminación estadísticamente significativa. El "más significativo" define la primera partición de la muestra, o la primera ramificación del árbol.

18 Lectura de un Diagrama CHAID Entonces, cada uno de los nuevos grupos formados, son particionados por otra de las variables predictoras, etc. El resultado al final del proceso es un árbol que presenta una serie de grupos con diferencias máximas sobre la variable dependiente. En cada paso, las pruebas estadísticas se hacen para determinar si una partición es significativa y puede ser hecha.

19 Ventajas El nivel de medida para la variable dependiente y las variables predictoras pueden ser nominal, ordinal o intervalo. No todas las variables predictoras necesitan ser medidas en el mismo nivel. Los valores faltantes se pueden tratar como una "categoría flotante" para poder utilizar los datos parciales, siempre que sea posible dentro del árbol. Un sistema apropiadamente conservador de criterios estadísticos se utiliza, y los modelos que resultan acentúan los resultados más fuertes.

20 Opciones Técnicas Ajuste del.05 de Bonferroni sobre las probabilidades Un tamaño mínimo del nodo padre de 10 Un tamaño mínimo del nodo hijo de 5. La capacidad de partir o combinar continuamente las categorías de las variables predictoras. En algunos casos, estas opciones técnicas se ajustan según el tamaño de muestra o se basan en conocimiento anterior sobre las variables.

21 Notas sobre CHAID Es un método útil para resumir datos, y puede mostrar divisiones naturales importantes sobre los clientes. Los modelos presentados se deben considerar como sugestivos, pero no absolutamente definitivos, se pueden complementar con modelos estadísticos tradicionales.

22 CHAID y Regresión Logística CHAID: diseñado para detectar interacciones Reg. Logística: Detección puede ser dirigida a incluir interacciones. R. Logística acepta variables continuas mientras que CHAID necesita discretizarlas. Si tiene muchas variables continuas cuya interacción se sospecha no esta relacionada con salida. R. Logística Si tiene muchas variables categóricas cuyas interacciones se relacionan con la v. objetivo. CHAID

23 Extensión CHAID y Características Adicionales

24 Introducción Se estudiará la importancia de la validación del modelo. Dificultad del procedimiento: Es más probable que el modelo se ajuste a la data. Se recomienda evaluar el modelo aplicado a otra data. El Statistics maneja 2 tipos de validación: Partición. Validación cruzada.

25 Introducción Adicionalmente se analizarán la incorporación de beneficios y perdidas. Por defecto CHAID asume que la clasificación errónea es igualmente costosa aunque esto no siempre es así. Podemos proveer valores para el costo de una mala clasificación.

26 Validación Los modelos tienden a modelar bien la data con la que fueron realizados pero no en otras muestras. Dividir los datos en 2 muestras, una para entrenamiento y otra para prueba es la solución más sugerida por los estadísticos. El investigador define la cantidad de casos que incluirá cada muestra. No hay regla para la cantidad de datos 50% a 90% de data para entrenamiento

27 Validación Cuando no se tiene el tamaño de muestra necesario para realizar una partición de los datos, se recurre a la Validación Cruzada. Muestra pequeña: Validación Cruzada Divide la muestra en subgrupos iguales Promedio de los errores: Tabla de riesgo Los árboles son generados, excluyendo data de cada subgrupo A tener en cuenta: Procesamiento Muestras relacionadas Se recomienda utilizar la validación cruzada para muestras menores a 1000 casos. De lo contrario utilizar la partición de la muestra.

28 Incorporando Ganancias Incorpora valores de rentabilidad para la categoría de respuesta Direct mail o Marketing de Base de Datos No afectan al crecimiento del árbol Ejemplo: Aceptar o rechazar una nueva tarjeta Estimar la ganancia por tarjeta aceptada

29 Costo de Clasificación Errónea Diferente del concepto de rentabilidad, esta no proviene de errores. Pueden influir en el crecimiento del árbol y asignación de casos (CRT) Permite asignar a una categoría específica un costo de clasificación errónea. CHAID incorpora estos costos una vez que es árbol ha sido elaborado. En resumen, la incorporación de costos, afecta la de designación de nodos para evitar el error más costoso.

30 Árboles de Clasificación y Regresión (C&RT) Classification and Regression Trees

31 El Método C&RT Breiman, Friedman, Olshen y Stone (1984) C&RT hace separaciones binarias sucesivas en los datos guiándose por un criterio, no una prueba estadística como lo hace CHAID. En cada nodo, la variable predictora que mejore más el criterio, se usa para hacer la siguiente partición. Los árboles creados con este criterio se dejan crecer ampliamente y después son podados: podar minimizando el costo complejo.

32 Impureza Es el nombre del criterio para crecer el árbol con una variable objetivo nominal. Captura el grado en el que los casos dentro de un nodo están concentrados en una sola categoría. Un nodo puro es aquel en que todos los casos están en una sola categoría. El mayor grado de impureza se da cuando todas las categorías de una variable predictora contienen la misma cantidad de casos, es decir todas las categorías o clases aparecen en igual proporción, siendo este nodo nada util.

33 Impureza Medidas de Impureza Gini: Si P(t)i es la proporción de casos en el nodo t de la categoría i, la medida de dispersión es: g( t) 1 i 2 p i La impureza no solo se mide para un sólo nodo: El promedio ponderado de los valores de impureza de cada nodo, es la medida de impureza de toda la rama. C&RT parte el árbol con el predictor que más disminuye la impureza. En el diagrama del árbol se muestra la MEJORA.

34 Costo Complejo Crecer un árbol indefinidamente, casi siempre reduce la impureza. La medida de costo complejo aumenta en la medida en que el árbol es más grande. CostoCompl ex R( T) a* T R(T): medida de riesgo de clasificacion erronea del árbol o rama a: coeficiente de penalidad T : número de nodos terminales del árbol o rama. Para mejorar la medida de costos complejo, el componente de sustitución de riesgo debe disminuir más que la penalidad.

35 Costo complejo y poda La medida de costo complejo funciona bien si se deja crecer el árbol bastante, y luego se poda utilizando este criterio. El método consiste en podar ramas de manera sucesiva con base a la máxima reducción de la medida de costo complejo. De los árboles, se escoge el árbol más pequeño, cuyo riesgo (probabilidad de clasificar erróneamente) esté dentro de un rango de un error estándar del menor riesgo encontrado durante el crecimiento del árbol.

36 Cómo se hacen las particiones? Para predictoras continuos u ordinales: Se ordenan los datos dentro de los nodos por los valores de las categorías de la variable predictora. Se calcula la disminución en impureza para todos los posibles puntos de corte. Se determina la mejor partición.

37 Cómo se hacen las particiones? Para predictoras nominales Todas las posibles combinaciones de sus categorías son evaluadas, y la partición se hace cuando se encuentra la mayor reducción en impureza. Esto hace que un misma variable predictora pueda aparecer muchas veces dentro de una rama.

38 Valores perdidos y Sustitutos En CHAID los valores perdidos se tratan como una categoría diferente. En C&RT estos casos se utilizan en el análisis reemplazándolos con una estimación que depende de la clasificación según la mejor variable predictora disponible.

39 C&RT, CHAID y Regresión Logística CHAID y regresión logística son más rápidas y están basadas en pruebas estadísticas. CHAID junta categorías de las variables predictoras continuas en categorías ordinales antes del análisis.c&rt crea particiones durante el análisis.

40 Árboles de Regresión La parte RT de C&RT es la que nos permite predecir variables objetivo que sean continuas. Es una alternativa atractiva puesto que puede capturar, de manera nativa, relaciones no lineales entre variables, además de efectos de interacción. Una opción óptima es correr un RT que identifique variables relevantes y posibles interacciones y relaciones no lineales para luego correr la regresión

41 El método de regresión Puesto que la variable objetivo es continua, el criterio es minimizar la varianza dentro de cada nodo, obteniendo así los nodos más homogéneos sobre la variable objetivo. De la misma manera de CT, el crecimiento del árbol seguido de la poda es la base de RT

42 C&RT, CHAID y Regresión Logística Si existen relaciones cuasi lineales entre una predictora y la proporción de la variable objetivo, C&RT tratará de capturar esta relación con particiones binarias sucesivas, CHAID con una partición multicategórica y ninguna será tan eficiente como RL. Sin embargo CHAID y C&RT pueden capturar relaciones no lineales e interacciones complejas.

43 Impureza El criterio de impureza se mantiene pero se mide de acuerdo a la varianza al interior del nodo. Captura el grado en el que las respuestas dentro de un nodo están concentradas alrededor de un solo valor. La impureza de una rama es el promedio ponderado de las varianzas de los nodos terminales.

44 Costos y probabilidades a priori Para una variable objetivo continua, no hay categorías a las cuales asignarle beneficios o probabilidades. Si los costos se consideran relevantes, estarían asociados a la distancia entre el valor pronosticado y el verdadero, que está implícito en la varianza.

45 QUEST Analysis Quick Unbiased Efficient Statistical Tree

46 Dos razones para desarrollar QUEST Reducir el tiempo de procesamiento que tenía C&RT. Reducir la tendencia de CHAID de favorecer variables continuas o aquellas con muchas categorías (corrección de Bonferroni)

47 Complejidad computacional. Una variable ordinal con n valores en un nodo conlleva (n-1) divisiones, por lo que el numero de cálculos en cada nota aumenta de forma proporcional al numero de valores. Sesgos en la selección de variables. Pero un problema mas serio desde el punto de vista interpretativo y de generalización, de resultados es que los métodos exhaustivo tienen a seleccionar aquellas variables que cuentan con un mayor numero de categorías. El proceso se repite de forma recursiva hasta que salta alguna de las reglas de Parada, gracias a este procedimiento de cálculo, Quest: *Apenas muestra sesgos de respuesta *Muestra una mayor simplicidad de calculo *Permite incluir métodos de validación mediante poda *Permite incorporar combinaciones lineales de variables Comparando Quest con métodos exhaustivos se han comprobado que cuando se utilizan divisiones univariadas, no existe un ganador claro.

48 El método Quest Sea X Se calcula niv. Sig: Chi-cuadrado o ANOVA se selecciona al menor SI Es menor que alfa preestablecido? NO Se selecciona Para división SI Se usa Levene Su niv.sig es menor a alfa? NO Seleccionar la variable para dividir Seleccionar la var con el menor niv.sig para dividir el nodo

49 Como lo hace? SI Es X ordinal o continua? NO SI Tiene Y dos categorías? NO Transfomar X en dummys y calcular la mayor coordenada discriminante de Z Aplicar el Análisis Discriminante Cuadrático para determinar el punto de división Calcular la media de X para cada categoría de Y y aplicar un cluster de 2 medias a esas medias

50 Otras características equivalentes a C&RT Costo Complejo Poda del árbol Valores perdidos reemplazados utilizando otras variables predictoras

51 Recomendaciones A pesar de ser una herramienta para minería de datos, es importante sacar variables que sean simples medidas alternativas a la variable objetivo, y aquellas que no tengan porque tener relación con ella (cédula) Para muestras menores a 1000, reduzca el tamaño mínimo de nodo padre y filial, para muestras mayores a 10000, auméntelo (a menos que esté corriendo C&RT o QUEST)

52 Trucos Tenga en consideración si hace falta tener todas la categorías de la variable objetivo. Reducirlo a las relevantes arrojará un mejor resultado. Si necesita definir sus propias particiones dentro de una variable predictora, hágalo.

53 Eficiencia Si hay variables nominales con muchas categorías, el esfuerzo computacional es considerable: 10 categorías: 511 combinaciones; 30 categorías : 536,870,911!!! Tenga en cuenta esto para decidir en que computador va a correr su análisis.

54 Tiempos N Datos Método 10 Predictores 50 Predictores CHAID 0:00:01 0:00:02 CHAID Exhaustivo 0:00:01 0:00: C&RT 0:00:02 0:00:09 QUEST 0:00:04 0:00:16 C&RT (Variable Continua) 0:00:03 0:00:14 CHAID 0:00:04 0:00:08 CHAID Exhaustivo 0:00:06 0:00: C&RT 0:08:45 0:50:00 QUEST 0:08:04 A C&RT (Variable Continua) 6:05: CHAID 0:00:10 0:00:30 CHAID Exhaustivo 0:00:15 0:00: C&RT 0:07:50 1:13:00 QUEST 0:14:45 A C&RT (Variable Continua)