ANALISIS MULTIVARIANTE



Documentos relacionados
Covarianza y coeficiente de correlación

Análisis y cuantificación del Riesgo

Fundamentos de Investigación de Operaciones Investigación de Operaciones 1

4 Teoría de diseño de Experimentos

VECTORES. Módulo, dirección y sentido de un vector fijo En un vector fijo se llama módulo del mismo a la longitud del segmento que lo define.

_ Antología de Física I. Unidad II Vectores. Elaboró: Ing. Víctor H. Alcalá-Octaviano

Programa para el Mejoramiento de la Enseñanza de la Matemática en ANEP Proyecto: Análisis, Reflexión y Producción. Fracciones

Aplicaciones Lineales

LOS ANCIANOS Y LA SOLEDAD

Los valores de las respuesta son las puntuaciones que, de cada individuo, o cluster, obtenemos semanalmente durante cinco semanas consecutivas:

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

LA MEDIDA Y SUS ERRORES

Caso práctico de Cuadro de Mando con Tablas Dinámicas

Aproximación local. Plano tangente. Derivadas parciales.

MOOC UJI: La Probabilidad en las PAU

2.- Métodos para la medición de la pobreza

INTRODUCCIÓN A LA CONTABILIDAD DE COSTOS DEFINICIÓN

Capítulo 4 4. CONCLUSIONES Y RECOMENDACIONES. compañías estudiadas con un 45% y un 34% respectivamente.

El concepto de asociación estadística. Tema 6 Estadística aplicada Por Tevni Grajales G.

Una nueva visión de la capacidad jurídica: algunas reflexiones con ocasión del Día Mundial de Concienciación sobre el Autismo.

Lección 24: Lenguaje algebraico y sustituciones

MANUAL DE AYUDA HERRAMIENTA DE APROVISIONAMIENTO

GRAFICOS DE CONTROL DATOS TIPO VARIABLES

Los estados financieros proporcionan a sus usuarios información útil para la toma de decisiones

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia.

Lección 4: Suma y resta de números racionales

MICROECONOMÍA MICROECONOMÍA

Geometría Tridimensional

NIFBdM C-7 OTRAS INVERSIONES PERMANENTES

[PROYECTO] DOCUMENTO DE PRACTICA DE LAS NIIF. Aplicación de la Materialidad o Importancia Relativa en los Estados Financieros

Estudiante: Mag. Ingeniero. Roberto Schovelin Surhoff Director: Dr. Arq. Josep Roca Cladera Tutor Dr. Ingeniero. Francisco Nuñez Cerda

Por qué es importante la planificación?

Lección 14: Problemas que se resuelven por sistemas de ecuaciones lineales

3º Grado Educación Infantil Bilingüe Números. Método Singapur y F. Bravo E R

ESTIMACIÓN. puntual y por intervalo

Análisis de propuestas de evaluación en las aulas de América Latina

SEMINARIO VIRTUAL : TECNICAS DE CREDITOS Y COBRANZAS

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

CAPITULO 1 INTRODUCCIÓN. Puesta en Evidencia de un circulo virtuoso creado por los SRI entre los Mercados Financieros y las Empresas

Representaciones Gráficas

GUÍA DE EJERCICIOS UNIDAD 1 MACROECONOMÍA

Indicadores de la Variable.- Son aquellas cualidades o propiedades del objeto que pueden ser directamente observadas y cuantificadas en la práctica.

El rincón de los problemas. Oportunidades para estimular el pensamiento matemático. Triángulos de área máxima o de área mínima Problema

LÍMITES Y CONTINUIDAD DE FUNCIONES

PROBLEMAS RESUELTOS DE OPTIMIZACIÓN

MODELOS DE RECUPERACION

Plan de clase (1/4) Intenciones didácticas: Que los alumnos reflexionen sobre la manera de ubicar puntos en el plano cartesiano.

NORMA INTERNACIONAL DE AUDITORÍA 706 PÁRRAFOS DE ÉNFASIS Y PÁRRAFOS SOBRE OTRAS CUESTIONES EN EL INFORME EMITIDO POR UN AUDITOR INDEPENDIENTE

NUEVAS SOLUCIONES y CAMBIOS EN LA GESTION DEL NEGOCIO. JOSE LUIS LENCE Socio Director de Gesfarm Consultoria Farmacias

PROYECTO MEDICINA PERSONALIZADA PARA EL CÁNCER INFANTIL CÁNCER INFANTIL. Javier Alonso

Ejercicio Nº 3: Realizar aumentos en una Tabla de Sueldos

TEMA 9 DISTRIBUCIONES BIDIMENSIONALES

MATEMÁTICAS para estudiantes de primer curso de facultades y escuelas técnicas

Cómo puede usted contribuir a la investigación médica?

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

1.3 Números racionales

1. EL CONCEPTO DE INTERÉS

Las razones financieras ayudan a determinar las relaciones existentes entre diferentes rubros de los estados financieros

ESTUDIO Y OBTENCIÓN DE NUEVOS CONCEPTOS PARA TRAVIESA PARACHOQUES

SESION El comando Integrate 2. Aproximación de integrales definidas 3. Integración de funciones racionales

MATEMÁTICAS CON LA HOJA DE CÁLCULO

CONCEPTOS Y CRITERIOS DE LOS INDICADORES DE CALIDAD

Para llegar a conseguir este objetivo hay una serie de líneas a seguir:

COMPARACIÓN DE POBLACIONES

Es una persona que ayudará a que los derechos de las personas con discapacidad se hagan realidad

5. Actividades. ACTIVIDAD No. 1

Cualquier número de cualquier base se puede representar mediante la siguiente ecuación polinómica:

Wise Up Kids! En matemáticas, a la división de un objeto o unidad en varias partes iguales o a un grupo de esas divisiones se les denomina fracción.

Créditos académicos. Ignacio Vélez. Facultad de Ingeniería Industrial. Politécnico Grancolombiano

NORMA TÉCNICA DE AUDITORÍA SOBRE CONSIDERACIONES RELATIVAS A LA AUDITORÍA DE ENTIDADES QUE EXTERIORIZAN PROCESOS DE ADMINISTRACIÓN

Sistemas de numeración

Guía breve para la. administración de la capacitación en las. entidades públicas. Versión abreviada del Manual para la. entidades públicas

CIIF CENTRO INTERNACIONAL DE INVESTIGACION FINANCIERA

Soluciones de los ejercicios de Selectividad sobre Probabilidad de Matemáticas Aplicadas a las Ciencias Sociales II

LA INNOVACIÓN EMPRESARIAL

Nivelación de Matemática MTHA UNLP 1. Vectores

CPE (SEGUNDO CURSO) = P [T 1 ]P [T 2 ]... P [T 525,600 ] = ( ) 525,600 =

proporción de diabetes = = % expresada en porcentaje

Manual de uso del Cuestionario SUSESO-ISTAS 21 Versión breve

TEMA 4 FRACCIONES MATEMÁTICAS 1º ESO

Discriminación de precios y tarifa en dos etapas

Contabilidad Orientada a los Negocios

Revisión del Universo de empresas para la Estimación de los Datos Del Mercado Español de Investigación de Mercados y Opinión.

Unidad Didáctica. Códigos Binarios

MICROECONOMÍA II PRÁCTICA TEMA III: MONOPOLIO

Análisis de medidas conjuntas (conjoint analysis)

PARA COMERCIANTES Y AUTÓNOMOS. INFORMACIÓN SOBRE TARJETAS DE CRÉDITO.

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Selectividad Septiembre 2009 SEPTIEMBRE Opción A

TEMA 5. MUESTREO PARA LA ACEPTACIÓN.

AUTORA: SUSANA REYES BENÍTEZ DNI: C LA IMPORTANCIA DE LOS RECUROS HUMANOS. Introducción:

Probabilidad. Relación de problemas 5

Antoni Miró. Experiencia previa y formación

DESCRIPCIÓN DE LA METODOLOGÍA UTILIZADA EN EL PROGRAMA DE CESTAS REDUCIDAS ÓPTIMAS

ISO 17799: La gestión de la seguridad de la información

FUNCIONES DE PROPORCIONALIDAD

1.1. Introducción y conceptos básicos

El desarrollo del pensamiento multiplicativo.

Transcripción:

ANALISIS MULTIVARIANTE Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto, son: (i) [Análisis en Componentes Principales] Muchas de las variables que se recogen entre los individuos de la población están correlacionadas, con lo cuál la información es redundante. Interesa, por lo tanto, reducir el número de variables para resumir adecuadamente la información. En este sentido, la técnica consiste en crear artificialmente unas pocas variables nuevas que retengan una parte significativa de la información proporcionada por los datos. El procedimiento para crear dichas variables es matemático y no hay seguridad de que las nuevas variables tengan un sentido claro; sin embargo, en muchos casos esas variables pueden interpretarse, es decir, se les puede dotar de sentido. Por ejemplo, si tomamos como variables las notas de un conjunto de alumnos de Bachillerato en las distintas materias, el análisis en componentes principales puede reducir las variables a unas pocas variables, que quizá puedan identificarse como índices de competencia humanística, científico-técnica, etc. (ii) [Análisis Discriminante] Consideremos una variable Y, categórica, con una cantidad finita de valores (niveles) posibles, y varias variables numéricas X 1,..., X n. Tanto la variable Y como las X i se registran simultáneamente sobre un conjunto de individuos. Por ejemplo, si consideramos un conjunto de pacientes afectados de una cierta enfermedad, las X i podrían ser el número de pulsaciones, el número de glóbulos rojos, niveles de calcio, potasio, etc. y la variable Y podría ser una variable cualitativa que indica si se estima que el paciente puede curar totalmente, parcialmente, o no curar. Se plantean entonces dos cuestiones: (a) Cuáles de entre las variables X i permiten discriminar mejor el valor de Y entre distintas alternativas? (obsérvese que en el fondo estamos intentando detectar influencias ). (b) Dado un nuevo individuo en el cuál se han registrado los valores de las variables X i, predecir el valor más probable de Y para dicho individuo (es decir, clasificar dicho individuo en alguno de los niveles posibles para la variable Y ). (iii) [Análisis Cluster] Dado un conjunto amplio de individuos sobre los cuáles se han registrado los valores de ciertas variables numéricas X 1,..., X n, dividir a dichos individuos en k grupos, también llamados clusters, distintos 1

(el número de grupos lo fija el experimentador) de modo que los elementos de cada grupo posean cierta afinidad. La técnica para determinar los clusters es matemática, es decir, la idea de afinidad se traduce en ciertos procedimientos matemáticos que permiten agrupar observaciones. Al igual que en el caso del análisis en componentes principales, corre después a cargo del experimentador dar sentido a cada uno de los grupos determinados, es decir, encontrar los rasgos, comunes a las observaciones pertenecientes a un cluster dado, que lo definen. Por ejemplo, en el caso de los clientes de una empresa, el análisis cluster puede servir para dividir a dichos clientes en distintos grupos, cada uno con un perfil distinto. A menudo las técnicas anteriores se combinan. Por ejemplo, puede suceder que la predicción de una cierta variable categórica Y mejore cuando se utilizan no ciertas variables X i, sino ciertas combinaciones de las X i determinadas a partir de un análisis en componentes principales. O que el análisis discriminante funcione mejor sobre los elementos de un cierto cluster, en lugar de aplicarse a toda la muestra, etc. Análisis en Componentes Principales El problema es el siguiente: dadas X 1,..., X n variables, recogidas sobre una cierta población, que poseen las siguientes características, a. n es grande b. Entre ellas existen correlaciones (es decir, proporcionan información redundante). c. Tienen significación (es decir, cada X i tiene un sentido claro), determinar nuevas variables Y 1,..., Y m, llamadas componentes principales, cada una de ellas de la forma Y j = a 1,j X 1 + + a n,j X n (el coeficiente a k,i recibe el mombre de peso de la variable X i en Y j ) y con las siguientes características: a. m es menor que n (a menudo, significativamente menor) b. Las Y j son independientes (es decir, entre ellas no hay correlaciones, y por tanto no proporcionan información redundante). c. En principio, se obtienen a partir de un procedimiento matemático, y no hay certeza de que tengan un significado claro. Sin embargo, al observar en las Y j las variables que tienen mayor peso (es decir, aquellas a las que corresponden los mayores a k,j ), algunas Y j pueden interpretarse (observemos que para hacer efectivo este criterio, las Y j deben ser de tamaños similares). 2

En principio, el procedimiento matemático suministra Y 1,..., Y n, es decir, el mismo número de Y j que de X i (lo cuál no supone ningún adelanto). Sin embargo, las Y j aparecen ordenadas según el porcentaje de información original (es decir, procedente de las X i ) que retienen. De este modo, basta con tomar unas cuantas Y j, no todas, para retener un porcentaje de información suficiente. Es en esta etapa del proceso cuando el número de variables se reduce. Dicho porcentaje de información se mide como el porcentaje de varianza original retenida. La idea es que, conocidas las varianzas de las X i (que pueden calcularse a partir de los datos originales) y las expresiones de las Y j (es decir, una vez determinados los pesos de las X i en cada Y j ), las varianzas de las Y j pueden determinarse. Además, la varianza conjunta de varias variables se estima como la suma de las varianzas. Puesto que la varianza conjunta de las X i supone una estimación de la diversidad presente en los datos, para que un número reducido de Y j describa suficientemente bien la población la varianza conjunta de estas Y j debe suponer un porcentaje suficientemente grande (digamos, cerca del 80 por ciento) de la variabilidad original. De hecho, este es el criterio que suele considerarse para escoger las componentes principales más relevantes. Análisis Discriminante Dadas X 1,..., X n variables numéricas, y una variable categórica (o discreta) Y, que recibe el nombre de variable clasificadora o factor de clasificación, y que posee k valores (niveles) posibles, se plantean dos cuestiones: (i) Determinar las X i más influyentes a la hora de discriminar el valor de Y entre distintas opciones. Este problema está relacionado con las llamadas funciones discriminantes. (ii) Predecir el valor de Y más probable para un individuo en el que se han registrado valores concretos de las X i. Esta cuestión puede responderse también mediante las funciones discriminanes, o bien mediante las llamadas funciones de clasificación. Las funciones discriminantes son expresiones del tipo: F 1 = a 1 X 1 + a 2 X 2 + + a n X n F 2 = b 1 X 1 + b 2 X 2 + + b n X n. donde los a i, b j, etc. reciben el nombre de pesos. Cada función discriminante posee un cierto poder discriminante. En general, el procedimiento proporciona varias funciones discriminantes; de ellas, nosotros nos quedaremos con unas cuántas (en ocasiones, bastará con una) de modo que el poder discriminante 3

total sea grande. Cada función discriminante permite discriminar entre distintas opciones, de modo que la utilización sucesiva de todas las funciones permite discriminar efectivamente el valor de Y ; por ejemplo, si Y es un diagnóstico sobre un enfermo del tipo cura totalmente, cura parcialmente o no cura, y tenemos dos funciones discriminantes, puede suceder que la primera permita distinguir entre aquellos pacientes que curan (total o parcialmente) y aquellos que no, mientras que la segunda función permita distinguir los que curan totalmente de los que sólo lo hacen parcialmente. Si por el contrario, en el mismo ejemplo tenemos sólo una función discriminante, de su valor podemos deducir directamente el posible diagnóstico de entre las tres alternativas que se dan. Observemos que, si las variables involucradas en la función tienen tamaños similares, las variables que poseen mayor peso en cada función discriminante son las más influyentes a la hora de discriminar Y entre las alternativas correspondientes a dicha función. Si la variable Y tiene k niveles posibles, hay k funciones de clasificación s 1 = c 1,0 + c 1,1 X 1 + + c 1,n X n. s j = c j,0 + c j,1 X 1 + + c j,n X n de modo que dado un nuevo individuo, que registra valores x 1,..., x n en las respectivas variables X i, el valor más probable de Y para dicho individuo se obtiene sustituyendo los valores x 1,..., x n en las funciones de clasificación, y tomando el nivel correspondiente al subíndice de aquella función que de un valor mayor. En el caso de las funciones de clasificación, los coeficientes de las funciones no son interpretables, y por tanto no pueden utilizarse para responder a la pregunta (i). Análisis Cluster Dado un número suficientemente grande de individuos entre los cuáles hemos registrado los valores de las variables numéricas X 1,..., X n, queremos dividir las observaciones en grupos (clusters) según criterios de homogeneidad. Es decir, cada grupo responderá a un cierto perfil, cuya descripción corre a cargo del experimentador (es decir, el criterio para formar los clusters es matemático, y los resultados son interpretados por el experimentador, si ello es posible). Para formar los grupos o clusters, el procedimiento es el siguiente: (1) Fijamos una cierta distancia. La más habitual es la euclídea al cuadrado, según la cuál la distancia entre dos puntos del plano es el cuadrado de la longitud de la porción de recta que los une; esta noción puede generalizarse al espacio, y a un número mayor de dimensiones. Hay, no obstante, otras 4

nociones posibles de distancia, que también pueden usarse. (2) Fijamos un número (k) de clusters. (3) Buscamos la pareja de datos más próxima, conforme a la distancia fijada en (1). Dicha pareja forma, provisionalmente, un grupo. (4) A partir de este momento, continuamos buscando la pareja más próxima. En este sentido, el grupo formado en (3) cuenta ahora como una sóla entidad, y por tanto se hace necesaria definir la distancia de una observación a un grupo como el anterior, o, en general, la distancia entre dos grupos (por ejemplo, entre dos parejas que han sido encontradas en distintos pasos del procedimiento). Para medir distancias entre grupos hay distintas posibilidades. Entre ellas: método del centroide: Se sustituye el grupo por el punto (centroide) cuyas coordenadas son las medias de las observaciones que integran el grupo. De este modo, la distancia entre dos grupos es la distancia entre sus centroides, medida según (1). método del vecino más próximo: La distancia entre dos grupos es la menor de las distancias (según (1)) entre los integrantes de cada grupo. método de Ward: tiene en cuenta la variabilidad total de cada grupo, de modo que la distancia entre dos grupos se define como el aumento que se produciría en la variabilidad conjunta si ambos grupos se fundieran para formar uno sólo. Este método requiere que la distancia fijada en (1) sea la euclídea al cuadrado. etc. (5) Reiteramos el paso (4) hasta obtener k clusters. Conviene observar que el experimentador tiene que decidir tanto el número de clusters, como la distancia entre observaciones y la distancia entre grupos. Distintas elecciones para estos parámetros llevan a resultados distintos, con lo cuál en cada caso habrá que ver qué elecciones arrojan resultados más significativos. 5