Revista Multidisciplinaria Año 2006, Volumen: 67

Transcripción

1 Anales científicos de la Universidad Nacional Agraria La Molina Revista Multidisciplinaria Año 2006, Volumen: 67

2 1 ANÁLISIS DISCRIMINANTE CON LA METODOLOGÍA CART Y COMPARACIÓN CON EL MÉTODO DE REGRESIÓN LOGÍSTICA Jesús Salinas Flores 1 Christian Salazar Hidalgo 2 RESUMEN Las técnicas discriminantes se aplican en situaciones donde se tienen un conjunto de datos de individuos en los que se han medido variables predictoras o independientes y una variable de clasificación o de criterio que define el grupo al que cada individuo pertenece; y se quiere encontrar un conjunto de reglas de decisión que permitan explicar la clasificación existente y utilizar estas reglas para poder clasificar a un nuevo individuo. En el presente trabajo se hace una comparación entre el algoritmo CART el modelo de regresión logística y se presenta una aplicación para dichas técnicas discriminantes. SUMMARY The discriminate techniques are applied in situations where there is a set of information of individuals in whom variables have measured predictors or independent variables and a variable of classification or of criterion that defines the group to which every individual belongs; and one wants to find a set of rules of decision that allow to explain the existing classification and to use these rules to be able to classify a new individual. In the present study a comparation between the algorithm CART and the logistic regression model is done and there appears an application for the mentioned discriminate techniques. 1 Ingeniero Estadístico, egresado de la UNA La Molina. Magister en Ingeniería Industrial con mención en Gestión Industrial, egresado de la UNMSM. Profesor Asociado de la Universidad Nacional Agraria La Molina. 2 Ingeniero Estadístico, egresado de la Universidad Nacional Agraria La Molina

3 2 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 I. INTRODUCCIÓN Actualmente muchas de las técnicas multivariadas están siendo aplicadas ampliamente en diversas áreas como son: la industria, investigación de mercados, administración, salud, meteorología, centros de investigación de ámbito universitario y otros. Su aplicación, surge como respuesta a la necesidad de analizar conjuntos de observaciones donde se evalúa el papel desempeñado por más de una variable; es decir, conjuntos de observaciones multivariadas. Estos conjuntos surgen como producto de encuestas, experimentos, análisis de fenómenos, etc. Uno de los métodos supervisados más usados son los árboles de clasificación. Entre los clasificadores basados en árboles se estudiará la metodología CART acrónimo de Clasificación And Regresión Trees o Árboles de Clasificación y Regresión, la cual se ubica en el conjunto de métodos de análisis discriminante, y consiste en clasificar individuos u objetos en base a una serie de preguntas sobre los valores de sus atributos. Entre las aplicaciones de CART: (clasificación y regresión), el presente trabajo de investigación se centrará exclusivamente en la primera. Como todo método de análisis discriminante, lo óptimo es obtener una función discriminante a fin que permita un porcentaje de clasificación correcta alta, más no en obtener patrones de clasificación. Es en estas circunstancias donde se puede recurrir a la construcción de los Árboles de Clasificación con la metodología CART (Clasificación and Regresión Trees), como herramienta que permita obtener patrones de clasificación. Los árboles de clasificación tuvieron su origen en las ciencias sociales. En el área de Estadística, Breiman, Friedman, Losen y Stone (3) introdujeron nuevos algoritmos para construcción de árboles y los aplicaron en problemas de regresión y clasificación. El método desarrollado es conocido como CART. En toda institución financiera es de mayor conveniencia admitir clientes con un riesgo crediticio bajo (no moroso), es por ello que el problema principal radica en obtener patrones de clasificación que permitan clasificar clientes en dos categorías (morosos y no morosos) a partir de una serie de variables tanto cuantitativas como cualitativas. El algoritmo CART fue aplicado a un conjunto de datos obtenidos de una institución financiera con el fin de evaluar su utilidad en los árboles de clasificación, desde el punto de vista de una opción multivariada para encontrar reglas de clasificación, que permitan discriminar a individuos ubicándolos en categorías de riesgo crediticio específicos. Finalmente se realizó una comparación con el método de la regresión logística, empleando la misma información. La metodología a seguir será la propuesta por Breiman, Friedman, Losen y Stone (3). Los objetivos del presente trabajo son: Desarrollar la metodología CART (Classification and Regresión Trees), en la construcción del árbol de clasificación. Comparar los resultados mediante la aplicación del la metodología CART, con los obtenidos con el modelo de regresión logística.

4 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA 3 II REVISIÓN DE LITERATURA 2.1 Árbol de clasificación Según Acuña (1), el uso de los árboles de clasificación tuvo su origen en las ciencias sociales. En el área de Estadística, Breiman y otros (3), introdujeron nuevos algoritmos para construcción de árboles y los aplicaron a problemas de regresión y clasificación. Surgiendo el método es conocido como CART por sus siglas en inglés. El termino árboles es por la gráfica. Aunque los árboles son mostrados creciendo por la parte final de la pagina. La raíz es el nodo superior, en cada nodo se hace una decisión hasta llegar a un nodo terminal u hoja. Cada nodo no terminal contiene una pregunta en la cual se basa la división del nodo. Cada nodo contiene el nombre de la clase a la cual pertenece. Las diferencias principales entre los algoritmos para construir árboles se halla en la estrategia para cortar árboles y la regla para dividir los nodos. En la práctica, es común encontrarse al momento de analizar un conjunto de variables, que algunas de éstas permitan marcar un patrón de clasificación de los individuos en mayor o menor grado al maximizar las diferencias de la variable dependiente, lo que permitirá discriminar a los individuos. Breiman (3) define a este patrón como: «una serie de preguntas sobre los valores de sus atributos, empezando por el nodo raíz y siguiendo por el camino determinado por las respuestas a las preguntas de los nodos internos», y es éste el camino que sigue el árbol de clasificación que permite hallar patrones de clasificación, las cuales además de estar construidas sobre la base de las variables más significativas, pueden ser aplicadas a un nuevo conjunto de individuos. Hair, Anderson, Tatham and Black (10), incluyen a los árboles de clasificación como una técnica de extracción de datos y muestran el método de árboles de clasificación como particiones secuenciales del conjunto de datos para maximizar las diferencias de la variable dependiente, siendo una de las metodologías más utilizadas el CART. Los árboles de clasificación ofrecen una forma concisa de desarrollar grupos que son consistentes en sus atributos pero que varían en términos de la variable dependiente. Breiman y otros (3) aplicaron la metodología CART, en diagnósticos médicos para un conocimiento anticipado del ataque al corazón, con el objetivo de poder identificar anticipadamente a los pacientes con riesgo de morir por causa de un ataque al corazón y los que tendrían posibilidades de sobrevivir. 2.2 Algoritmo CART Según Acuña (1), CART es una metodología diseñada por Breiman, Friedman, Losen y Stone en 1984, como un algoritmo para construcción de árboles y los aplicaron a problemas de regresión y clasificación. Según la compañía SPSS (17), la idea básica es dividir los datos en dos subconjuntos, de modo que los individuos comprendidos dentro de cada uno de los subconjuntos sean más homogéneos que en el subconjunto anterior. Se trata de un proceso recursivo, que se repite hasta alcanzar el criterio de homogeneidad o hasta llegar a otro criterio de detención, pudiendo utilizar varias veces la misma variable predictora en distintos niveles del árbol.

5 4 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 Según Johnson (12), se ha sugerido otro enfoque para el análisis discriminante. Puede valer la pena considerar éste método si se tiene un gran número de variables. Éste procedimiento, del cual puede disponerse en el software CART, desarrolla una serie de preguntas a las que se puede responder sí o no. Las respuestas a estas preguntas llevan al investigador a través de las ramas de un árbol, hasta que llega a un lugar en el que se puede hacer una clasificación. En cada nodo del árbol, el procedimiento encuentra la mejor pregunta para hacer en esa etapa en particular, con el fin de ayudar al investigador a tomar la mejor decisión. Al final de cada rama se toma decisión en cuanto a dónde debe clasificarse una observación particular. La compañía SPSS (18) menciona que una de las técnicas más populares en Data Mining es la segmentación basada en árboles. Ésta clase de método incluye al CHAID, árboles de regresión y clasificación (CART), y al QUEST. Estos métodos empiezan con todos los registros y los dividen en dos o más subgrupos que tienden a ser más homogéneos que la muestra original. Cada uno de estos subgrupos se divide nuevamente en subgrupos más pequeños y, así sucesivamente hasta encontrar una buena solución o cuando no haya más individuos para continuar. Hair, Anderson, Tatham and Black (10), sostienen que los árboles de decisión, tienen aspecto familiar (como el dendrograma del análisis cluster), pero se construye e interpreta de forma completamente distinta. Los árboles de decisión son particiones secuenciales del conjunto de datos para maximizar las diferencias de la variable dependiente. Los dos programas más utilizados son CHAID (Detector de Interacción Chi-cuadrado) y CART (Árboles de Clasificación y Regresión). Los árboles de decisión ofrecen una forma concisa de desarrollar grupos que son consistentes en sus atributos pero que varían en términos de la variable dependiente. 2.3 Modelo de Regresión Logística En la práctica es común encontrarse al momento de analizar un fenómeno o un conjunto de variables, que la variable dependiente es no métrica con dos grupos (categórica binaria). Hair y otros (10), mencionan que en esta situación el investigador está interesado en la predicción y explicación de las relaciones que influyen en la categoría en que un objeto está situado, y es en estas condiciones donde el modelo de regresión logística permite obtener una combinación lineal que representa una única relación multivariante con coeficientes como los de la regresión múltiple que indican la influencia relativa de las variables predictoras. La regresión logística es la técnica apropiada cuando la variable dependiente es categórica (nominal o no métrica) y las variables independientes son métricas. El caso básico corresponde cuando la variable dependiente consta de dos grupos o clasificaciones. La regresión logística, es también conocida como análisis logit. Cuando la variable dependiente tiene solo dos grupos, puede preferirse la regresión logística por varios motivos. En primer lugar la regresión logística no se enfrenta a estos supuestos tan estrictos, y es mucho más robusta cuando estos supuestos no se cumplen, haciendo muy apropiada su aplicación en muchas situaciones. En segundo lugar, incluso si se cumplieran los supuestos, muchos investigadores prefieren la regresión logística por que es similar a la regresión.

6 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA 5 La regresión logística tiene la ventaja de verse menos afectada que el análisis discriminante cuando no se cumplen los supuestos básicos, concretamente la normalidad de las variables, además puede permitir la utilización de variables no métricas por medio de su codificación con variables ficticias, tal como puede hacerse en la regresión. La regresión logística esta limitada, sin embargo, a la predicción de tan solo la medida dependiente de dos grupos. Por tanto, en casos donde la medida dependiente esta formada por dos o más grupos se adecua mejor al análisis discriminante. En la regresión logística según Cornfield (5), el conjunto de datos consiste de una muestra de tamaño, observaciones son de la clase y n de la clase 2 C, 2 para cada observación X i se introduce una variable binaria y que vale 1 si es de la clase C y 1 vale 0 si es de la clase C. La variable 1 Y tiene una probabilidad a priori de que Y es 1. Según Hair y otros (10), el primer problema es estimar los parámetros del modelo, el método de los mínimos cuadrados, clásico en la estimación de los coeficientes de los modelos de regresión no es aplicable al modelo de regresión logística, ya que dicho método se basa en la normalidad de la variable dependiente, que en este caso no se cumple. Así cuando, es imposible calcular. Se trata entonces de utilizar el método de máxima verosimilitud. Según Hair y otros (10), La regresión logística es similar a la regresión múltiple en muchos otros resultados, pero es diferente en el método de estimación de los coeficientes. En lugar de minimizar la desviación de los cuadrados (mínimos cuadrados), la regresión logística maximiza la verisimilitud de que un suceso tenga lugar. La utilización de esta técnica alternativa requiere también que se evalúe el ajuste del modelo de varia formas. La medida global de cómo se ajusta el modelo, similar al valor de la suma de errores o residuo sal cuadrado en la regresión múltiple, viene dada por el valor del a verosimilitud. Que es -2 veces el logaritmo del valor de verosimilitud y se representa por -2LL o -2 veces el logaritmo del a verosimilitud.) Un modelo con un buen ajuste tendrá un valor pequeño para - 2LL. El valor mínimo para -2LL es cero. (Un ajuste perfecto tiene una verosimilitud de 1 y -2LL es cero.) El valor del a verosimilitud puede compararse asimismo entre ecuaciones, donde la diferencia representa el cambio del ajuste predicativo desde una ecuación a otra. Según Hair y otros (10), el primer problema es estimar los parámetros del modelo, el método de los mínimos cuadrados, clásico en la estimación de los coeficientes de los modelos de regresión no es aplicable al modelo de regresión logística, ya que dicho método se basa en la normalidad de la variable dependiente, que en este caso no se cumple. Así cuando, es imposible calcular. Se trata entonces de utilizar el método de máxima verosimilitud. Según Hair y otros (10), La regresión logística es similar a la regresión múltiple en muchos otros resultados, pero es diferente en el método de estimación de los coeficientes. En lugar de minimizar la desviación de los cuadrados (mínimos cuadrados), la regresión

7 6 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 logística maximiza la verisimilitud de que un suceso tenga lugar. La utilización de esta técnica alternativa requiere también que se evalúe el ajuste del modelo de varia formas. La medida global de cómo se ajusta el modelo, similar al valor de la suma de errores o residuo sal cuadrado en la regresión múltiple, viene dada por el valor del a verosimilitud. Que es -2 veces el logaritmo del valor de verosimilitud y se representa por -2LL o -2 veces el logaritmo del a verosimilitud.) Un modelo con un buen ajuste tendrá un valor pequeño para -2LL. El valor mínimo para -2LL es cero. (Un ajuste perfecto tiene una verosimilitud de 1 y -2LL es cero.) El valor del a verosimilitud puede compararse asimismo entre ecuaciones, donde la diferencia representa el cambio del ajuste predicativo desde una ecuación a otra. Existen otras medidas tipo 2 R para representar el ajuste global del modelo; la de Cox y Snelles, esta medida esta limitada en que no puede alcanzar el máximo valor de 1, por lo que Nagelkerke propuso una modificación que tenia el rango de 0 a 1 Según Hair y otros (10), la regresión logística puede contrastar la hipótesis de que un coeficiente sea distinto de cero (el cero significa que el odds ratio no cambia y que la probabilidad no se ve afectada). La regresión logística utiliza el estadístico de Wald. Este proporciona la significación estadística para cada coeficiente estimado de tal forma que se pueden contrastar hipótesis iguales que en la regresión múltiple. 2.4 Comparación de la metodología CART y el modelo de regresión logístico Ventajas y desventajas de la metodología CART La metodología CART tiene como ventaja primordial su sencillez debido a que es un método de aprendizaje supervisado inductivo, esta metodología permite que la variable dependiente admita más de dos niveles, los parámetros como el índice de Gini y las mejoras de partición I ( s, t) = I( t) I( tl) I( tr) para lograr las particiones tiene un cálculo J 2 sencillo, empleando la ecuación i ( t ) = 1 p ( j t ), este es obtenido conociendo la información numérica de cada uno de los nodos, así mismo la obtención de los scors de las variables predictoras se basa en las mejoras proporcionadas por las particiones que participan en la confección del árbol de clasificación. Este método no se enfrenta a los supuestos estrictos de normalidad multivariante y la igualdad de matrices de varianzas covarianzas, para la validación del árbol se recurre a la tabla de porcentajes de clasificación correcta (validación cruzada), la metodología no se ve afectada por la presencia de valores extremos ni por datos perdidos; otra de las desventajas de este método es que en ocasiones las primeras divisiones que se generan en el árbol son las que proporcionan las mejores particiones y es necesario desechar el resto del árbol. j = 1

8 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA 7 Cuando se analizan las variables independientes cuantitativas discreta que se encuentran relacionadas a individuos como por ejemplo el número de hijos, la partición podría resultar ser (<=2.5 hijos) lo cual suena absurdo. Ventajas y desventajas del modelo de regresión logística Es en ocasiones el modelo de regresión logística es preferida antes que otros métodos de discriminación por su similitud con el modelo de regresión múltiple, la regresión logística al igual que el análisis CART no se enfrenta al cumplimiento estricto de los supuestos de normalidad multivariante y la igualdad de matrices de varianzas covarianzas entre los grupos. Entre las desventajas se puede destacar que la obtención de la función discriminante requiere de métodos iterativos para su obtención como los de Newton-Raphson o mínimos cuadrados reponderados iterativos, el cálculo de los escors de las variables predictoras al igual que la función discriminante es dificultoso par lo cual es necesario recurrir a software que puedan calcularlos. Este modelo restringe a la variable dependiente a dos niveles o clases y además se ve afectado por datos extremos y los valores perdidos. La comparación de los métodos se realiza mediante los porcentajes de clasificación correctos con el método de validación por resubstitución que proporcionen cada uno de los métodos siendo el mejor modelo aquel que proporcione un porcentaje de clasificación correcto más alto, además la importancia de las variables predictoras serán calificadas con los scors respectivos de cada método. III. MARCO TEÓRICO 3.1 Metodología del Algoritmo CART Matriz de Datos y conceptos básicos Se tienen un conjunto de individuos u objetos O 1,...O n, siendo x ij una característica (variable) cuantitativa o cualitativa. La población esta dividida en k grupos tal como se presenta en la Tabla Nº 1 Cada individuo O i tiene asociado un vector ( x,... ) ip x ip, siendo x ij una característica (variable) cuantitativa o cualitativa. La población O 1,...On esta dividida en k grupos 1,..., k tal como se presenta en la Tabla Nº 1

9 8 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 Tabla Nº 1 Tabla de Datos para el algoritmo CART Individuo X 1 X... 2 X... j X Grupo p O 1 x 11 x O 2 x 21 x O i x i1 i x O n x n1 n2... x... x... 1 j x... 2 j x... ij x... nj x 1 p x 2 p x ip x np Se quiere identificar secuencialmente, usando el algoritmo de árbol de clasificación CART, por orden de relevancia, las características X 1,..., X p que mejor ayuden a identificar cada objeto como miembro del grupo j al que pertenece. Los árboles de decisión corresponden a gráficos que ilustran las reglas de decisión. Parten de un nodo raíz que contiene todas las observaciones de la muestra. A medida que se desarrolla el árbol, los datos se dividen en ramas de subconjuntos da datos exhaustivos. Los árboles de decisión trabajan con dos tipos de variables: las variables criterio y las variables predictoras. Las variables criterio son aquellas cuyo resultado se desea predecir a partir de otras variables. También se denomina la variable dependiente. Las variables predictoras son las que predicen el patrón de la variable criterio. También se denominan variables independientes. CART es un acrónimo de Classification and Regression Trees (árboles de regresión y clasificación). Se trata de un algoritmo binario para desarrollar árboles creado por Breiman, Friedman, Olshen y Stone (3). CART divide los datos en dos subconjuntos, de modo que los casos comprendidos dentro de cada uno de los subconjuntos sean más homogéneos que el subconjunto anterior.

10 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA 9 Se trata de un proceso recursivo, que se repite hasta alcanzar el criterio de homogeneidad o hasta llegar a otro criterio de detención (como ocurre con todos los métodos de desarrollo de árboles). La misma variable predictora puede ser utilizada varias veces en distintos niveles del árbol. CART funciona eligiendo en cada nodo una división, de modo que cada nodo filial sea más puro que su nodo parental. Aquí, la pureza se refiere a los valores de la variable criterio. En un nodo completamente puro, todos los casos tienen el mismo valor para la variable criterio. CART mide la impureza de la división de un nodo dado definiendo una medida de impureza Medidas de impureza del árbol Para buscar las divisiones en los modelos CART se utilizan cuatro medidas de impureza distinta, las cuales dependen del tipo de variable criterio. Para las variables categóricas se puede elegir Gini, binario o (para criterios ordinales) binario ordenado. Para los criterios continuos, se utiliza el método de desviación mínimo cuadrática (LSD) en la búsqueda de la división. De todos ellos, el más usado es el índice de Gini. El índice de Gini en el nodo t, g(t), se define como: donde i y j son categorías de la variable criterio. El criterio también se puede expresar de la siguiente manera: Para ello, cuando los casos de un nodo están distribuidos uniformemente entre las categorías, el índice Gini toma su valor máximo de 1 1, donde k es el número de categorías k de la variable criterio. Cuando todos los casos del nodo pertenecen a la misma categoría, el índice Gini es igual a cero. La función del criterio Gini para la división s en el nodo t se define como donde p es la proporción de casos de t enviados al nodo filial de la izquierda, y L p es la R proporción enviada al nodo filial de la derecha. Se elige la división s que maximice el valor de. Este valor, ponderado por la proporción de todos los casos del nodo t, es el valor del que se informa en el árbol como «mejora» Pasos del análisis CART 1. Para llevar a cabo un análisis CART, comenzando por el nodo raíz t=1, buscar la división, de entre todos los candidatos posibles S, que de lugar a la mayor reducción de la impureza: Luego dividir el nodo 1 (t=1) en dos nodos, t=2 y t=3, utilizando la división.

11 10 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 2. Repetir el proceso de búsqueda de divisiones para uno de los nodos t=2 y t=3, y así sucesivamente. 3. Continuar con el proceso de desarrollo del árbol hasta alcanzar al menos una de las reglas de parada Reglas de Parada Se detiene el proceso de desarrollo del árbol cuando se cumple una de las diversas reglas de parada disponibles. Un nodo no se dividirá si se cumplen alguna de las siguientes condiciones: Todos los casos de un nodo tienen valores idénticos en todos los predictores. El nodo se vuelve puro; esto es, todos sus casos tienen el mismo valor en la variable criterio. La profundidad del árbol ha alcanzado el valor máximo preestablecido. El número de casos que constituyen el nodo es menor que el tamaño mínimo preestablecido para un nodo parental. La división del nodo tiene como resultado un nodo filial cuyo número de casos es menor que el tamaño mínimo preestablecido para un nodo filial. La reducción máxima de la impureza es menor que el valor prestablecido β Precisión del árbol La precisión indica hasta que punto el comportamiento del árbol es satisfactorio respecto a la predicción del resultado deseado o la clasificación de los individuos. De manera inversa, la imprecisión del árbol se denomina riesgo. El riesgo del árbol se calcula mediante tres métodos distintos: la resustitución de toda la muestra, la partición para crear una muestra de comprobación y la validación cruzada. 3.2 Modelo de regresión logística Especificación del modelo donde: La función de distribución logística tiene la siguiente especificación, Λ ( X, β ), Por lo tanto, la función de densidad de probabilidad es:

12 Estimación del modelo de regresión logística La función de verosimilitud para un variable binomial puntual es: Por asunción de que son independientes, para observaciones independientes la función de verosimilitud de la muestra será: Y al representar por el modelo de regresión logística se obtiene la expresión de la función de verosimilitud para la muestra como función de los parámetros a estimar ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA [ ] [ ] ),...,, ( ),...,,..., ( )... ( )... ( 1 )... ( )... ( )... ( 1 k 1 X X X n 1 h y X X X n 1 h y X X X y X X X X X X n h n 1 n 1 L e 1 e e 1 1 e 1 e y y q q L k kh 2 2h 1 1h h k kh 2 2h 1 1h h k kh 2 2h 1 1h h k kh 2 2h 1 1h k kh 2 2h 1 1h β β α β β β α β β β α β β β α β β β α β β β α = + Π Π = + + = Π = = = [ ] ) ( ))... ( )... ( ) ( ) ( )... ( ) ( ) ( ) ( 2 h h k kh 2 2h 1 1h k kh 2 2h 1 1h 2 z z h k kh 2 2h 1 1h z z h h h q 1 q X X X 1 X X X e 1 e X f X X X f e 1 e dz df z z f h h h h = Λ =Λ + = = + = = β β β α β β β α β β β β α

13 12 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 Se maximizará el logaritmo neperiano de la función L( α, β1,..., βk ) en vez de la función misma. Los parámetros estimados del modelo serán los valores de α, β 1,... y βk, que maximicen la función Ln L( α, β,..., β )). n Ln( L( α, β1,..., β k )) = log Π h= 1 = β n 0 h= 1 y h + β n x y + β n ( 1 k n ( α + X y 1hβ1+ X 2hβ X khβk ) h ( α + X1hβ1+ X 2hβ X khβk ) [ e ] log Π[ 1+ e ] x y β 1 h h 2 h h k h h h= 1 h= 1 h= 1 h= 1 n x y n log h= 1 ( α + X1hβ1+ X 2hβ X khβk ) [ 1+ e ] Ln( L( α, β1,..., β k )) = 0 β i para i = 1,..., k Los estimados α, β 1,... y β son aquellos que maximizan la función anterior y son k encontrados aplicando métodos iterativos tales como Newton-Raphson o mínimos cuadrados reponderados iterativos. Al estimar los parámetros α, β 1,... y β se obtiene una función discriminante que k también tiene forma lineal, si q h > 0.5 si 0.5 se asignará el objeto a la clase en caso contrario, éste ira a la clase. C 2 Dado un objeto o individuo, las probabilidades de clases condicionales para las clases C 1 y C son: 2 P( C 1 Pr ) = ( e 1+ e α + X 1h ( α + X β + X 1 β + X 1h 1 2h β X 2 2h β X 2 kh β ) k kh β ) k P ( C2 r P ) = 1+ e 1 ( α + X 1hβ1+ X 2hβ X khβk ) Contrastación de la significación de los coeficientes La regresión logística utiliza el estadístico de Wald. Este proporciona la significación estadística para cada coeficiente estimado.

14 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA 13 Prueba de significación individual de los parámetros: Test de Wald H H 0 a : β = 0 i : β i 0 con un nivel de significaciónα = 0.01o 0.05 El estadístico de prueba es : F ˆ β 1 = t 2 ˆ β 1 2 ) ˆ β j = V ( ˆ) β Criterio de decisión : F ˆ β 1 Vs F (1; n-k) gl F ˆ β 1 es mayor que F (1; n-k) gl se rechaza H 0 F ˆ β 1 es menor igual que F (1; n-k) gl se acepta H Interpretación del modelo de regresión logística El pronóstico de q i se obtiene de reemplazar los valores estimados de los parámetros en la probabilidad que Y = 1, esto es: i q h = Λ( α + X 1hβ1 + X 2hβ X khβ k ) q h e = 1 + e ( α + X 1hβ1 + X 2h β X khβ k ) ( α + X 1hβ1 + X 2h β X khβ k ) = 1 + e 1 ( α + X 1hβ1 + X 2h β X khβ k )

15 14 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 Una observación de la clase 1 se encontrará bien clasificada si las probabilidades correspondientes son inferiores a 0.5 y una observación de la clase 2 estará bien clasificada si las probabilidades correspondientes si son superiores a 0.5. IV APLICACIÓN Y RESULTADOS 4.1 Materiales y Métodos Los datos a utilizar proceden de la base de datos de una institución financiera. Se refiere a información recolectada de 3 variables cuantitativas, 9 cualitativas y una variable dependiente que es la categoría en la cual está clasificado un cliente, cada una de estas con 8471 observaciones. La información a analizar proviene de un producto crediticio de una institución financiera. Ésta almacena información de sus clientes (personas naturales), quienes en ocasiones acuden a ella para solicitar algún préstamo; el objetivo es predecir si un cliente del banco podría ser clasificado como moroso o no moroso y se considera recolectar información respecto a 10 atributos registrados de un cliente al momento que este se afilia a dicha institución financiera. La ausencia de variables relevantes puede justificarse debido a la confidencialidad con la que se administra la información en dicha institución financiera y haciendo más difícil obtener la información. Estas 10 variables miden las características propias del cliente antes de otorgarle préstamo alguno. Estas variables pueden ser tanto cuantitativas como cualitativas. El conjunto de datos contiene 5260 clientes no morosos y 3211 clientes morosos como se muestra en la Tabla Nº 2 Tabla Nº 2 Categorías de la variable criterio La categoría de cada cliente está agrupada en la variable de criterio denominada Morososbs. Los datos serán procesados empleando el software CART 6.0 for Windows de la compañía Salford Systems para generar los resultados de la clasificación, usando como medida de diversidad el índice de Gini y para la estimación del error de clasificación se emplea la validación por resubstitución.

16 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA 15 Las variables a utilizar son: a) Variable dependiente Morososbs: Indica la categoría en la cual está clasificado el cliente del banco, (persona natural). b) Variables Independientes b.1 Variables cuantitativas Edad: Es la edad del cliente que solicita el préstamo. Nrodepend: es el número de hijos del cliente o el número de personas que están a su cargo o que mantiene. Antiguedad: Es la antigüedad que tiene el negocio que la persona natural administra. b.2 Variables cualitativas Sexo: Género del cliente que solicita el préstamo (masculino o femenino). Fonopart: Indica si el cliente cuenta con teléfono particular (sí o no). Fonolab: Indica si el cliente cuenta o no con teléfono en el negocio (sí o no). Autovaluo: Indica si el cliente cuenta con autovalúo o no (sí o no). Esaval: Indica si el cliente fue aval para otro crédito (sí o no). Tieneaval: Indica si el cliente al momento de pedir el préstamo presentó aval o no (sí o no). Tipo de renta: Puede ser fija o variable 4.2 Árbol generado por el algoritmo CART El árbol completo generado por el algoritmo CART se muestra en la Figura Nº 1 empleando el software CART 6.0 for Windows. Éste muestra los nodos terminales en color rojo, los cuales se cuentan de izquierda a derecha. Figura Nº 1 Árbol completo generado por el algoritmo CART

17 16 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 Del árbol de clasificación presentado se pueden obtener los siguientes resultados: Es un árbol con 46 nodos terminales, mostrados de color rojo, diferenciándose de los nodos parentales en color verde. Se trata de un árbol de clasificación con una alta complejidad debido a la gran cantidad de nodos terminales. A su vez se trata del árbol óptimo, pues posee el mínimo estimador del error relativo por validación cruzada y el mínimo número de nodos terminales. Importancia de las variables La Tabla Nº 3 proporciona la importancia de todas las variables predictoras basado en la mejora que proporcionan en la división del árbol. El score da un reconocimiento a las variables cuya importancia es marcada. En el caso de categorías de clientes, las variables que tienen los más altos scores son el número de dependientes (nrodepen) y la antigüedad de la empresa (antiguedad) y en menor grado la variable edad (edad). Tabla Nº 3 Importancia de cada variable clasificadora Patrones de Clasificación Los patrones de clasificación para los clientes no morosos: El 84.32% (4435 clientes de 5260 clientes no morosos) de los clientes no morosos que tienen un número de hijos o personas que se encuentran a su cargo inferior o igual a 3 (NRODEPEND<=2.5) se encuentran bien clasificados como no morosos. El 11.86% restante (624 clientes de 5260 clientes no morosos) de los clientes no morosos que tienen un número de hijos o personas que se encuentran a su cargo igual a 3 (NRODEPEND>2.5 Ë NRODEPEND<3.5), con una antigüedad de su empresa superior a 9 años con 6 meses (ANTIGUEDAD>9.5), y una edad mayor que 35 años y 6 meses (EDAD>35.5) se encuentran bien clasificados como no morosos.

18 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA 17 Los patrones de clasificación para los clientes morosos: El 71.63% (2300 clientes de 3211 clientes morosos) de los clientes morosos que tienen un número de hijos o personas que se encuentran a su cargo superior a 3 (NRODEPEND>2.5 Ë NRODEPEND>3.5) se encuentran bien clasificados como morosos. El 16.60% restante (533 clientes de 3211 clientes morosos) de los clientes morosos que tienen un número de hijos o personas que se encuentran a su cargo superior a 3 (NRODEPEND>2.5 Ë NRODEPEND>3.5), con una antigüedad de su empresa inferior 9 años con 6 meses (ANTIGUEDAD<=9.5) se encuentran bien clasificados como morosos. El 0.62% (20 clientes de 3211 clientes morosos) de los clientes morosos que tienen un número de hijos o personas que se encuentran a su cargo superior a 3 (NRODEPEND>2.5 Ë NRODEPEND>3.5), con una antigüedad de su empresa superior a 9 años con 6 meses (ANTIGUEDAD>9.5) y una edad inferior a 35 años y 6 meses (EDAD<35.5) se encuentran bien clasificados como morosos. Evaluación del modelo CART Para poder evaluar la capacidad del modelo a la hora de predecir la categoría del cliente se puede examinar la Tabla Nº 4, cuyos resultados corresponden al árbol total de la figura 6, que compara el tipo asignado mediante el árbol con la categoría realmente registrada. Se observa que la proporción de casos clasificados de manera incorrecta es bastante baja: en total 423, están clasificados incorrectamente. Esto da como resultado un porcentaje de clasificación correcta del 95%. Tabla Nº 4 Matriz de Clasificación Predecida vs. Registrada del árbol completo de la figura 6 Clase actual TotalCasos Porcent.Correcto Clase 1N=5291 Clase 2N= (no morosos) ,274% (morosos) ,931% Método de la regresión logística El análisis se realizará por medio del software SPSS, y los resultados serán posteriormente comparados con los obtenidos mediante la metodología CART. Se emplearon los mismos 8471 individuos, como se puede ver en la Tabla Nº 5.

19 18 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 Tabla Nº 5 Total de datos a procesar El análisis discriminante descansa sobre un cumplimiento estricto de los supuestos de normalidad multivariante y la igualdad de matrices de variancia y covariancia, entre los grupos, supuestos que no siempre se verifican. La regresión logística no se enfrenta a estos supuestos tan estrictos y es más robusta cuando estos supuestos no se cumplen, haciendo muy apropiada su aplicación en muchas situaciones. El estadístico de puntuación, una medida de asociación utilizada en la regresión logística, permitirá conocer el grado de importancia de una variable en el modelo de regresión logística. La tabla de estadísticos de puntuación se puede ver en la Tabla Nº 6. Tabla Nº 6 Estadísticos de puntuación de las variables independientes Variables Medidas de bondad de ajuste El valor de -2Log máxima verosimilitud (-2LL) es de 3330, es decir el valor de la máxima verosimilitud se aproxima acero (un valor perfecto tiene una verosimilitud de 1 y -2LL es cero). El valor de -2Log máxima verosimilitud es demasiado elevado para poder decir que el modelo estimado es apropiado es decir no proporciona un buen ajuste; otras medidas diferentes para representar el ajuste global del modelo son el 2 R de Cox & Snell el cual para el modelo estimado es de 60.7%, y el valor de 2 R de Nagelkerke cuyo valor es de 82.6% los cuales tampoco permiten calificar al modelo estimado como adecuado. Los resultados obtenidos se muestran en la Tabla Nº 7.

20 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA 19 Tabla Nº 7 Medidas de bondad de ajuste del modelo de regresión logística estimado El modelo de regresión logística es: e p = P( C 1 Pr ) = 1 + e ( EDAD SEXO 0.16ESTACIVIL NRODEPEN FONOPART 0.047FONOLAB 0.21AUTOVALUO 1.46ESAVAL TIENEAVAL 0.001ANTIGUEDAD TIPORENT ) ( EDAD SEXO 0.16ESTACIVIL NRODEPEN FONOPART 0.047FONOLAB 0.21AUTOVALUO 1.46ESAVAL TIENEAVAL 0.001ANTIGUEDAD TIPORENT ) 1 2 r p = P( C P ) = 1 + e 1 ( EDAD SEXO 0.16ESTACIVIL 2.250NRODEPEN FONOPART FONOLAB 0.21AUTOVALUO 1.46ESAVAL TIENEAVAL 0.001ANTIGUEDAD TIPORENT ) Al estimar los parámetros del modelo de regresión logística se obtiene una función discriminante que también tiene forma lineal, si p es mayor a 0.5 se asigna al individuo a la clase (no morosos) en caso contrario este ira a la clase (morosos) C 1 C 2

21 20

22 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA 21 En relación a los scores, la metodología CART obtiene los scores porcentuales, obtenidos a partir de la mejora que puedan generar las particiones relacionadas a las variables que participaron en la confección del árbol de clasificación, mientras que el modelo de regresión logística proporciona puntuaciones que indican el grado de importancia de cada variable. Tabla Nº 11 Comparación de scores de las variables Variables Metodología CART Modelo de regresión logística Nro. de dependientes 100% Edad del cliente 33.35% Antigüedad de la empresa 55.13% Tipo de renta Tiene fono particular Tiene fono laboral Paga autovaluo El modelo de regresión logística proporciona un porcentaje de clasificación correcto de 95.9%, superior al obtenido por la metodología CART. Estos resultados se obtuvieron haciendo uso de todas las variables consideradas en el estudio, además si se incluye en el modelo solo las variables cuyo score es alto, el porcentaje de clasificación disminuye. La metodología CART proporciona el score de aquellas variables predictoras que participaron en la confección del árbol de clasificación, es decir logra su porcentaje de clasificación correcto por validación cruzada con las variables más significativas. V. CONCLUSIONES Y RECOMENDACIONES 1. El algoritmo CART encuentra que las variables predictoras (variables independientes) más importantes al momento de discriminar a los individuos son: El número de hijos del cliente, la edad del cliente y la antigüedad que tiene el negocio que el cliente o persona natural administra. 2. La construcción del árbol de clasificación permite concluir que si un cliente tiene cuatro a más hijos o adicionalmente tiene una empresa con una antigüedad inferior o igual a nueve años de antigüedad este se encuentra bien clasificado como moroso, así también si el cliente tiene de cuatro a más hijos, su empresa tiene una antigüedad que sea superior a los nueve años y medio, además el cliente tiene una edad inferior a los 35 años y medio este se encuentra bien clasificado como moroso. De manera similar si un cliente tiene un número de hijos inferior a tres este se encuentra bien clasificado como no moroso, así también si el cliente tiene tres

23 22 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO 2 hijos, su empresa una antigüedad superior a los diez años y una edad igual o superior a los cuarenta años estará bien clasificado como un cliente no moroso. Por otro lado el modelo de regresión logística encuentra una función discriminante que permite clasificar a un individuo u objeto empleando todas las variables, proporcionando un porcentaje de clasificación correcto de 95.9% el cual es ligeramente superior al obtenido por la metodología CART, el cual tiene un 93.4% de clientes bien clasificados. 3. A partir de las reglas de decisión obtenidas para los clientes morosos y no morosos se pueden clasificar a nuevos clientes empleando las variables predictoras más importantes (El número de hijos del cliente, la edad del cliente y la antigüedad que tiene el negocio que el cliente o persona natural administra) para poder discriminar a los clientes futuros que acudan a dicha institución financiera. 4. Los resultados obtenidos con la metodología CART no se ve afectada cuando la información se encuentra incompleta o por la presencia de valores extremos, en cambio esto al estimar el modelo de regresión logística la información tiene que estar libre de valores extremos y contar con la información completa. 5. Por otro lado el modelo de regresión logística encuentra una función discriminante que permite clasificar a un individuo u objeto empleando todas las variables, proporcionando un porcentaje de clasificación correcto de 95.9% el cual es ligeramente superior al obtenido por la metodología CART, el cual tiene un 93.4% de clientes bien clasificados. Metodología CART Modelo de regresión logística Observado morosos no morosos Porcentaje morosos no morosos Porcentaje morosos % % no morosos % % Porcentaje clasificación correcto 93.40% Porcentaje clasificación correcto 95.90% Como recomendaciones, se proponen las siguientes: 1. Se recomienda aplicar la metodología CART y repetir el estudio empleando variables distintas a las empleadas en el presente estudio, como el ingreso mensual del cliente, la tenencia de auto, el número de dividendos que percibe anualmente la empresa, etc. Siempre que se tenga acceso a dicha información, con el fin de poder detectar la participación de nuevas variables en la clasificación de clientes (morosos y no morosos). 2. Se recomienda aplicar la metodología CART no solo en el sector financiero sino también en otras áreas como la biología, botánica, medicina, meteorología, etc. como un método alternativo de discriminación a partir del reconocimiento de patrones de clasificación y en situaciones donde los supuestos básicos de normalidad y homocedasticidad no se cumplan.

24 ANALISIS DISCRIMINANTE CON LA METODOLOGIA Y COMPARACION CON EL METODO DE REGRESION LOGISTICA Al trabajar con la metodología CART se recomienda analizar las primeras particiones del árbol de clasificación, pues son estas las que proporcionan las clasificaciones más notorias relacionadas a la categoría en la cual un cliente se encontrará clasificado (moroso o no moroso). 4. Tener cuidado con las variables independientes cuantitativas discreta que se encuentran relacionadas a individuos como por ejemplo el número de hijos, pues la partición podría ser (<=2.5 hijos) lo cual resultaría ser absurdo. VI. BIBLIOGRAFÍA 1. ACUÑA FERNÁNDEZ EDGAR (1999), «Métodos de Análisis Discriminante», Universidad de Puerto rico en Mayagüez. 2. BIGGS, D., B. de VILLE, y E. SUEN. (1991), «A meted of choosing multiway partitions for classification and decision trees», Journal of applied Statistics, 18: BREIMAN, L. FRIEDMAN, J. H., OLSHEN, R. y STONE, C, J. (1984) Classification and Regression Trees, Wadsworth, Belmont, CA. 4. COLGG, C. C., AD S. R. ELIASIN. (1987), Some Problems in log-linear Analysis. «Sociological Methods and research», 16:1, CORNFIELD, J. (1962), «Joint dependence of risk coronary heart disease on serum cholesterol and systolic blood preassure», Fed Amer. Socs. Exper. Biol. Proc. Suppl. 11, CÉSAR PÉREZ LÓPEZ (2001), «Técnicas Estadísticas Con SPSS», Universidad Complutense de Madrid. 7. FISHER, R.A. (1936), «The use of multiple measurements in taxonomics problems», Annals of Eugenics, 7, GNANADESIKAN, R. (1977), «Methods for statistical data analysis of multivariate observations». New York: John Wiley & Sons, Inc. 9. GOODMAN, L. A. (1979), «Simple models for the analysis of association in crossclassifications having ordered categories», Journal of the American Statistical Association, 74: HAIR ANDERSON TATHAM BLACK (1999), Análisis Multivariante, Ed. Prentice Hall, 5 o Edición. 11. HAWKINS, D.M. (1976), «A test for multivariate normality and homocedasticy. Techno metrics», 23, JOHNSON, DALLAS E. (2000), Métodos Multivariados aplicados al análisis de datos, Eds. International Thomson 2000.

25 24 JESÚS SALINAS FLORES, CHRISTIAN SALAZAR HIDALGO KASS, G. (1980), «An exploratory technique for investigating large quantities of categorical data», Applied Statistics, 29:2, LOH, W. Y., and Y. S. SHIH. (1997), «Split selection methods for classification trees». Statistica Sinica, 7: MARKS, S. AND DUNN, O.J. (1974), «Disciminant function when covariance matrices are unequal». J. Amer. Statist. Assoc. 69, MAGIDSON, J. (1992), «Chi-squared analysis of a escalable dependent variable», In Proceedings of the 1992 Annual Meeting of the American Statistical Association, Ecuational Statistics Section. 17. SPSS, Inc. (1998) AnswerTree 2.0 Guía del usuario. 18. SPSS, Inc. (1998) Data Mining with Confidence. 19. SALINAS FLORES JESÚS W. y VALCÁRCEL ASENCIOS VIOLETA del PILAR (2002), «Aplicación del Algoritmo CART como una técnica de clasificación y predicción», Universidad Nacional Agraria la Molina.

26 25 DEFICIT EN CUENTA CORRIENTE Y DEFICIT FISCAL: PERU Rosario Perez Liu RESUMEN Es bastante conocida la relación existente entre la brecha fiscal y la brecha en cuenta corriente en cuentas nacionales,. En el corto plazo, el modelo Mundell Fleming, en cualquiera de las situaciones referentes al sistema de tipo de cambio y el control de capitales, da una explicación plausible del nexo entre ambas variables, yendo la causalidad desde el déficit fiscal hacia el déficit en cuenta corriente. Empíricamente, el caso de los EEUU es especialmente ilustrativo y, ciertamente, nuestro país no ha sido ni es la excepción. En el presente trabajo se analiza la relación entre ambas variables a lo largo de los últimos 35 años, en los que se han producido avances y retrocesos y han sido los que más matices le han dado a la economía peruana. Sin embargo, como veremos, aunque esa correlación se da en varios años del período señalado, en muchos de ellos, no ocurre. Como resultado del análisis encontramos dos grupos de variables que explican el por qué no se cumple la relación; por un lado, variables de origen externo como la elevación de las tasas de interés internacionales y el crecimiento mundial, y por el otro, variables de política como la devaluación y el cambio en el modelo económico seguido. En el largo plazo, entonces, la relación entre el déficit fiscal y el déficit en cuenta corriente, no es claro. ABSTRACT It is well-known the relationship existent between the fiscal gap and the gap in account current in the national account. In the short term, the Mundell Fleming model, in anyone of the relating situations to the exchange rate system and the control of capitals, gives a commendable explanation of the nexus among both variables, going the causation from the fiscal deficit toward the deficit in account current. Empirically, the USA s case is especially illustrative and, certainly, our country hasn t been an exception. In this paper we are going to analyze the relationship among both variables along the last 35 years, in those that advances and setbacks have taken place and they have Profesora del Departamento Académico de Economía y Planificación

27 26 ROSARIO PEREZ LIU been those that more shades have given to the Peruvian economy. However, like we will see, although we have found correlation in several years of the signal period, in many of them, it doesn t happen. As a result of the analysis we find two groups of variables which explain why the relationship is not completed; first, variables of external origin as the elevation of international interest rates and world growth, and on the other hand, politics variables as devaluation and change in the behavior economic model. In the long term, the relationship between fiscal deficit and deficit in bill current is not clear. I.- Introducción Es bastante conocida la relación existente entre la brecha fiscal y la brecha en cuenta corriente en cuentas nacionales,. En el corto plazo, el modelo Mundell Fleming, en cualquiera de las situaciones referentes al sistema de tipo de cambio y el control de capitales, da una explicación plausible del nexo entre ambas variables, yendo la causalidad desde el déficit fiscal hacia el déficit en cuenta corriente. Los datos estadísticos de los países muestran la estrecha correlación de ambos déficits, el caso de los EEUU es especialmente ilustrativo y, ciertamente, nuestro país no ha sido ni es la excepción, en el presente trabajo se analiza la relación de ambas variables a lo largo de los últimos 35 años, en los que se han producido avances y retrocesos y han sido los que más matices le han dado a la economía peruana. Sin embargo, como veremos, aunque esa correlación se da en varios años del período señalado, en la mayoría de ellos se da una brusca ruptura entre ambas, en el propio modelo Mundell-Fleming es enteramente posible que ello ocurra, cuando alguna otra variable exógena como la cantidad de dinero (en un sistema de tipo de cambio libre), la devaluación, las tasas de interés internacionales, etc.,en el caso concreto de la economía peruana, cuál es la relación entre ambas variables?, se ha mantenido?, de no ser así, qué factores han incidido en esa ruptura? y, en general, cómo han evolucionado tales variables?, las respuestas a estas interrogantes son el tema de la presente investigación. I.- Objetivos 1.- Analizar la evolución de los déficits fiscales y comerciales en el país en las últimas décadas. 2.- Establecer la relación existente entre ambos déficits. III.- Marco Teórico 3.1 Las Cuentas Nacionales El déficit fiscal se define como la diferencia entre los ingresos y los gastos del gobierno. En las cuentas fiscales, no obstante, la obtención del déficit fiscal pasa por una serie de desagregados que introducen conceptos más específicos. El ahorro en cuenta corriente viene a ser la diferencia entre los ingresos corrientes y los gastos no corrientes: financieros y no