CARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS

Transcripción

1 CARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS TURISTAS DE CRUCEROS MEDIANTE TÉCNICAS DE DATAMINING Silvia Altmark, Ramón Alvarez, Florencia Santiñaque IESTA Buenos Aires,17 de Setiembre Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 1 / 41

2 ESQUEMA DE LA PRESENTACIÓN 1 PRESENTACIÓN DEL PROBLEMA 2 METODOLOGÍA Métodos de Clustering 3 RESULTADOS Datos utilizados Clustering Caracterización de los clusters 4 CONCLUSIONES Y FUTUROS PASOS ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 2 / 41

3 Presentación del problema PRESENTACIÓN DEL PROBLEMA TURISMO DE CRUCEROS El turismo de cruceros es una de las actividades turísticas que más ha crecido en el mundo. Para Uruguay esta situación no es ajena, la cual ha determinado un importante aporte de divisas al país cada temporada (abril a octubre de cada año). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 3 / 41

4 Presentación del problema PRESENTACIÓN DEL PROBLEMA TURISMO DE CRUCEROS El turismo de cruceros es una de las actividades turísticas que más ha crecido en el mundo. Para Uruguay esta situación no es ajena, la cual ha determinado un importante aporte de divisas al país cada temporada (abril a octubre de cada año). EVOLUCIÓN Según el Ministerio de Turismo y Deporte, en la temporada se registraron 130 arribos de cruceros, mientras que en la temporada la cifra aumentó a 225 cruceros arribados. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 3 / 41

5 Presentación del problema PRESENTACIÓN DEL PROBLEMA TURISMO DE CRUCEROS El turismo de cruceros es una de las actividades turísticas que más ha crecido en el mundo. Para Uruguay esta situación no es ajena, la cual ha determinado un importante aporte de divisas al país cada temporada (abril a octubre de cada año). EVOLUCIÓN Según el Ministerio de Turismo y Deporte, en la temporada se registraron 130 arribos de cruceros, mientras que en la temporada la cifra aumentó a 225 cruceros arribados. COMPONENTES DEL GASTO El gasto de turistas cruceristas puede descomponerse en varios rubros. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 3 / 41

6 Presentación del problema PRESENTACIÓN DEL PROBLEMA (2) TRANSFORMACIÓN EN PROPORCIONES En este trabajo se propone convertir los componentes del gasto en proporciones, y caracterizar las mismas mediante herramientas gráficas, como son los gráficos ternarios o triangulares. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 4 / 41

7 Presentación del problema PRESENTACIÓN DEL PROBLEMA (2) TRANSFORMACIÓN EN PROPORCIONES En este trabajo se propone convertir los componentes del gasto en proporciones, y caracterizar las mismas mediante herramientas gráficas, como son los gráficos ternarios o triangulares. CREACIÓN DE TIPOLOGÍAS DE CRUCERISTAS Por otro lado se comparan los resultados, con la tipología que surge de aplicar métodos de clusters jerárquicos y no jerárquicos. Se utilizan los datos correspondientes a las temporadas de cruceros y , cuya fuente es el Ministerio de Turismo y Deporte. Los mismos surgen de una muestra de pasajeros a través de una encuesta cara a cara con diseño muestral complejo. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 4 / 41

8 Presentación del problema PRESENTACIÓN DEL PROBLEMA (3) DIFERENTES MÉTODOS DE CLUSTERING Tipología de cruceristas, con 5 grupos al aplicar el algoritmo de kmeans sobre los gastos por rubro; una segunda agrupación en 5 cluster al aplicar el método PAM sobre los gastos en proporciones. Por último se aplican algoritmos de cluster para datos binarios al considerar presencia o ausencia de gastos por rubro. CARACTERIZACIÓN Las diferentes tipologías se analizan y asocian con las características sociodemográficas. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 5 / 41

9 Metodología DESCRIPCIÓN DE DATOS GRÁFICOS TRIANGULARES Los gráficos triangulares son un tipo de gráfico baricéntrico que permiten trabajar a la vez con 3 variables que tienen la característica de tener una suma constante por observación; son un caso particular (para 3 variables) de lo que se denomina datos composicionales. En un gráfico triangular (ternary plot), las proporciones de las tres variables a, b, y c deben sumar una constante, K. De esta manera hay solamente 2 variables que pueden fluctuar libremente debida a la restricción de que a + b + c = K para todas las observaciones- sólo hay dos grados de libertad - es posible representar gráficamente la intersección de las tres variables en sólo dos dimensiones. (Chessel et al., 2004),(Hamilton, 2015),(David Meyer and Hornik, 2015) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 6 / 41

10 Metodología DESCRIPCIÓN DE DATOS(2) En el gráfico 1 se puede ver como la posición que tiene un punto respeta la restricción de que la suma en las 3 componentes es constante FIGURA : Ejemplo de gráfico triangular Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 7 / 41

11 Metodología TÉCNICAS DE DATAMINING ALGUNAS DEFINICIONES Existen muchas definiciones de datamining que también se conoce como minería de datos y para eso tomamos la que propone Jiawei Han (2012) La minería de datos es el proceso de descubrir patrones interesantes y conocimiento a partir de grandes cantidades de datos. ALGUNAS ALTERNATIVAS La tarea que hay que efectuar en la minería de datos es el análisis automático de grandes cantidades de datos donde para extraer patrones interesantes desconocidos, se pueden agrupar registros de datos, identificar registros poco usuales y lo más importante dependencias entre registros para un mismo atributo o para atributos entre si. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 8 / 41

12 Metodología Métodos de Clustering MÉTODO JERÁRQUICOS-METODO DE WARD Los métodos jerárquicos se caracterizan por generar una serie de particiones encajadas y requieren la definición de una distancia. Inicialmente, cada objeto se le asigna a su propio grupo, y entonces los algoritmos proceden iterativamente, en cada etapa unen los dos grupos más similares, continuando hasta que sólo quede un solo grupo. (Maechler et al., 2015) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 9 / 41

13 Metodología Métodos de Clustering MÉTODO JERÁRQUICOS-METODO DE WARD Los métodos jerárquicos se caracterizan por generar una serie de particiones encajadas y requieren la definición de una distancia. Inicialmente, cada objeto se le asigna a su propio grupo, y entonces los algoritmos proceden iterativamente, en cada etapa unen los dos grupos más similares, continuando hasta que sólo quede un solo grupo. (Maechler et al., 2015) T = W + B (1) Donde T es la matriz de varianzas y covarianzas del total, W la matriz de varianzas y covarianzas dentro de los grupos y B la matriz de varianzas y covarianzas entre grupos. En este caso para determinar con que cantidad de grupos trabajar, existen varias reglas de detención, de las cuales se presentan algunas ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 9 / 41

14 Metodología Métodos de Clustering MÉTODO JERÁRQUICO-REGLAS DE DETENCIÓN R cuadrado: Establece la relación entre la variación explicada y la variación total, donde la variación explicada representa la estructura de grupos hallada en cada nivel. R 2 = 1 K k=1 n k i=1 J j=1 (x (i j(k)) x k j ) 2 I i=1 J j=1 (x (i j) x j ) 2 (2) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 10 / 41

15 Metodología Métodos de Clustering MÉTODO JERÁRQUICO-REGLAS DE DETENCIÓN R cuadrado: Establece la relación entre la variación explicada y la variación total, donde la variación explicada representa la estructura de grupos hallada en cada nivel. R 2 = 1 K k=1 n k i=1 J j=1 (x (i j(k)) x k j ) 2 I i=1 J j=1 (x (i j) x j ) 2 (2) Regla de Calinski (llamada Pseudo F):se busca máximos locales pseudo F = R2 /(k 1) (1 R 2 )/(n k) (3) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 10 / 41

16 Metodología Métodos de Clustering MÉTODO JERÁRQUICO-REGLAS DE DETENCIÓN R cuadrado: Establece la relación entre la variación explicada y la variación total, donde la variación explicada representa la estructura de grupos hallada en cada nivel. R 2 = 1 K k=1 n k i=1 J j=1 (x (i j(k)) x k j ) 2 I i=1 J j=1 (x (i j) x j ) 2 (2) Regla de Calinski (llamada Pseudo F):se busca máximos locales pseudo F = R2 /(k 1) (1 R 2 )/(n k) (3) Test de Duda-Hart (pseudo t 2 ):disminución en la suma de cuadrados residuales (variación intragrupos, o variación en los grupos) pseudo t 2 = trw G +trw L trw GL (4) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 10 / 41

17 Metodología Métodos de Clustering K-MEANS(1) A partir de un conjunto de de n observaciones (x1, x2,..., xn), se puede considerar un vector p, el método de k-means buscar encontrar una partición de los n individuos en k subconjuntos con k n,de manera de minimizar la suma de cuadrados intraclase (SCIC) de los subconjuntos S i : Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 11 / 41

18 Metodología Métodos de Clustering K-MEANS(1) A partir de un conjunto de de n observaciones (x1, x2,..., xn), se puede considerar un vector p, el método de k-means buscar encontrar una partición de los n individuos en k subconjuntos con k n,de manera de minimizar la suma de cuadrados intraclase (SCIC) de los subconjuntos S i : argmin S k x j µ i 2 i=1 x j S i (5) considerando µ como el centroide de los puntos en el grupo S i Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 11 / 41

19 Metodología Métodos de Clustering K-MEANS(1) A partir de un conjunto de de n observaciones (x1, x2,..., xn), se puede considerar un vector p, el método de k-means buscar encontrar una partición de los n individuos en k subconjuntos con k n,de manera de minimizar la suma de cuadrados intraclase (SCIC) de los subconjuntos S i : argmin S k x j µ i 2 i=1 x j S i (5) considerando µ como el centroide de los puntos en el grupo S i Al inicio, todos los centros de los conglomerados están en la media de las celdas de Voronoi (que se puede interpretar como el conjunto de puntos de los datos que están más cerca del centro de ese grupo que de cualquier otro grupo). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 11 / 41

20 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

21 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros 2 Se asigna cada observación al cluster con la media mas próxima, es decir que la partición queda determinada por el diagrama de Voronoi que se generó con las medias iniciales Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

22 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros 2 Se asigna cada observación al cluster con la media mas próxima, es decir que la partición queda determinada por el diagrama de Voronoi que se generó con las medias iniciales 3 Se calcula los S i de la siguiente manera S (t) i = { x p : x p m (t) i x p m (t) j 1 j k } (6) donde cada uno de los x p queda asignado a uno de los S (t) i. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

23 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros 2 Se asigna cada observación al cluster con la media mas próxima, es decir que la partición queda determinada por el diagrama de Voronoi que se generó con las medias iniciales 3 Se calcula los S i de la siguiente manera S (t) i = { x p : x p m (t) i x p m (t) j 1 j k } (6) donde cada uno de los x p queda asignado a uno de los S (t) i. 4 El algoritmo se actualiza calculando las nuevas medias del grupo m (t+1) i = 1 S (t) i x j S (t) i x j (7) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

24 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros 2 Se asigna cada observación al cluster con la media mas próxima, es decir que la partición queda determinada por el diagrama de Voronoi que se generó con las medias iniciales 3 Se calcula los S i de la siguiente manera S (t) i = { x p : x p m (t) i x p m (t) j 1 j k } (6) donde cada uno de los x p queda asignado a uno de los S (t) i. 4 El algoritmo se actualiza calculando las nuevas medias del grupo m (t+1) i = 1 S (t) i x j S (t) i x j (7) 5 El algoritmo se detiene luego que al reasignar alguna observación a otro grupo no hay cambios menores a una tolerancia prefijada en la (SCIC) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

25 Metodología Métodos de Clustering K-MEDOIDES MÉTODO PAM El algoritmo PAM (partition around medoids), se basa en la búsqueda de k objetos representativos o medoides entre las observaciones del conjunto de datos, de manera que representen adecuadamente la estructura de los datos. Un medoide se podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto más céntrico de la agrupación considerada. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 13 / 41

26 Metodología Métodos de Clustering K-MEDOIDES MÉTODO PAM El algoritmo PAM (partition around medoids), se basa en la búsqueda de k objetos representativos o medoides entre las observaciones del conjunto de datos, de manera que representen adecuadamente la estructura de los datos. Un medoide se podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto más céntrico de la agrupación considerada. 1 Inicialización: Selección al azar de k de los n puntos de datos como los candidatos a medoides fase de construcción). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 13 / 41

27 Metodología Métodos de Clustering K-MEDOIDES MÉTODO PAM El algoritmo PAM (partition around medoids), se basa en la búsqueda de k objetos representativos o medoides entre las observaciones del conjunto de datos, de manera que representen adecuadamente la estructura de los datos. Un medoide se podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto más céntrico de la agrupación considerada. 1 Inicialización: Selección al azar de k de los n puntos de datos como los candidatos a medoides fase de construcción). 2 Se asigna cada observación al cluster con el medoide mas próximo, dependiendo de la distancia elegida (euclidiana, Manhattan o Minkowski). Luego se encuentra un mínimo local para la función objetivo, es decir, una solución de tal manera el cambio de observación con un medoide haga que la función objetivo decrezca (esto se denomina la fase de intercambio). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 13 / 41

28 Metodología Métodos de Clustering K-MEDOIDES MÉTODO PAM El algoritmo PAM (partition around medoids), se basa en la búsqueda de k objetos representativos o medoides entre las observaciones del conjunto de datos, de manera que representen adecuadamente la estructura de los datos. Un medoide se podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto más céntrico de la agrupación considerada. 1 Inicialización: Selección al azar de k de los n puntos de datos como los candidatos a medoides fase de construcción). 2 Se asigna cada observación al cluster con el medoide mas próximo, dependiendo de la distancia elegida (euclidiana, Manhattan o Minkowski). Luego se encuentra un mínimo local para la función objetivo, es decir, una solución de tal manera el cambio de observación con un medoide haga que la función objetivo decrezca (esto se denomina la fase de intercambio). 3 Se repiten los pasos anteriores hasta que los medoides queden estables (es decir que no haya cambios en los medoides). ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 13 / 41

29 Metodología Métodos de Clustering CLUSTERS DIFUSOS (FANNY) A diferencia de los métodos anteriores donde se obtiene una partición en k subconjuntos, es decir N = n 1 x i = k j=nk 1 j=1 c j, donde c j son los clusters determinados mediante algún algoritmo, en el agrupamiento difuso (fuzzy), cada observación se extiende a través de los distintos grupos. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 14 / 41

30 Metodología Métodos de Clustering CLUSTERS DIFUSOS (FANNY) A diferencia de los métodos anteriores donde se obtiene una partición en k subconjuntos, es decir N = n 1 x i = k j=nk 1 j=1 c j, donde c j son los clusters determinados mediante algún algoritmo, en el agrupamiento difuso (fuzzy), cada observación se extiende a través de los distintos grupos. En este método se puede establecer: m parámetro de incertidumbre (fuzziness parameter), v k es el centro del cluster c y u ik el grado de pertenencia del individuo i al grupo k. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 14 / 41

31 Metodología Métodos de Clustering CLUSTERS DIFUSOS (FANNY) A diferencia de los métodos anteriores donde se obtiene una partición en k subconjuntos, es decir N = n 1 x i = k j=nk 1 j=1 c j, donde c j son los clusters determinados mediante algún algoritmo, en el agrupamiento difuso (fuzzy), cada observación se extiende a través de los distintos grupos. En este método se puede establecer: m parámetro de incertidumbre (fuzziness parameter), v k es el centro del cluster c y u ik el grado de pertenencia del individuo i al grupo k. Si se tiene n el número de observaciones, k el número de clusters, r es el parámetro de ajuste del modelo y d(i, j) la disimilaridad entre las observaciones i y j, el método fanny busca minimizar la función objetivo (?),(R Development Core Team, 2015) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 14 / 41

32 Metodología Métodos de Clustering CLUSTERS DIFUSOS (FANNY) A diferencia de los métodos anteriores donde se obtiene una partición en k subconjuntos, es decir N = n 1 x i = k j=nk 1 j=1 c j, donde c j son los clusters determinados mediante algún algoritmo, en el agrupamiento difuso (fuzzy), cada observación se extiende a través de los distintos grupos. En este método se puede establecer: m parámetro de incertidumbre (fuzziness parameter), v k es el centro del cluster c y u ik el grado de pertenencia del individuo i al grupo k. Si se tiene n el número de observaciones, k el número de clusters, r es el parámetro de ajuste del modelo y d(i, j) la disimilaridad entre las observaciones i y j, el método fanny busca minimizar la función objetivo (?),(R Development Core Team, 2015) v=n v=1 i j 1 1 u r i,v ur j,vd(i, j) 2 n u r j, 1 (8) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 14 / 41

33 Metodología Métodos de Clustering GRAFICOS DE SILUETA El método Silueta en realidad no es método de clustering en si mismo sino un método de interpretación y validación del número de conglomerados o clusters hallado (Kaufman and Rousseeuw, 1990). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 15 / 41

34 Metodología Métodos de Clustering GRAFICOS DE SILUETA El método Silueta en realidad no es método de clustering en si mismo sino un método de interpretación y validación del número de conglomerados o clusters hallado (Kaufman and Rousseeuw, 1990). Tiene la ventaja que puede ser utilizada para datos que hayan sido clasificados a través de cualquier método como por ejemplo k-medias o k-medoides. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 15 / 41

35 Metodología Métodos de Clustering GRAFICOS DE SILUETA El método Silueta en realidad no es método de clustering en si mismo sino un método de interpretación y validación del número de conglomerados o clusters hallado (Kaufman and Rousseeuw, 1990). Tiene la ventaja que puede ser utilizada para datos que hayan sido clasificados a través de cualquier método como por ejemplo k-medias o k-medoides. Para cada observación i, a(i) es la disimilaridad promedio de i con todos los demás observaciones dentro del mismo grupo. Para los demás clusters C se define d(i,c) como la disimilaridad promedio de i con los datos de C. Se repite el procedimiento para cada grupo del cual el i no es miembro y se determina b(i) := min C d(i,c), que representa la mínima disimilaridad promedio de i con cualquier otro grupo, lo que representa la disimilaridad entre i y los clusters vecinos. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 15 / 41

36 Metodología Métodos de Clustering GRAFICOS DE SILUETA El método Silueta en realidad no es método de clustering en si mismo sino un método de interpretación y validación del número de conglomerados o clusters hallado (Kaufman and Rousseeuw, 1990). Tiene la ventaja que puede ser utilizada para datos que hayan sido clasificados a través de cualquier método como por ejemplo k-medias o k-medoides. Para cada observación i, a(i) es la disimilaridad promedio de i con todos los demás observaciones dentro del mismo grupo. Para los demás clusters C se define d(i,c) como la disimilaridad promedio de i con los datos de C. Se repite el procedimiento para cada grupo del cual el i no es miembro y se determina b(i) := min C d(i,c), que representa la mínima disimilaridad promedio de i con cualquier otro grupo, lo que representa la disimilaridad entre i y los clusters vecinos. Se define entonces el estadístico S(i)(silueta) como S(i) = (b(i) a(i)) max[(b(i) a(i))] (9) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 15 / 41

37 Resultados Datos utilizados LOS DATOS Se utilizan los datos de la temporada del Ministerio de Turismo y Deporte. Entonces, dado que el interés del presente trabajo es el gasto de los cruceristas, se descartaron los grupos que no presentaban gasto o que tenían un monto de gasto imputado, reduciéndose el estudio a 2311 casos (filas). Esto significa que 2311 grupos de cruceristas realizaron algún tipo de gasto. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 16 / 41

38 Resultados Datos utilizados LOS DATOS Se utilizan los datos de la temporada del Ministerio de Turismo y Deporte. Entonces, dado que el interés del presente trabajo es el gasto de los cruceristas, se descartaron los grupos que no presentaban gasto o que tenían un monto de gasto imputado, reduciéndose el estudio a 2311 casos (filas). Esto significa que 2311 grupos de cruceristas realizaron algún tipo de gasto. Los rubros que se utilizan para desagregación del gasto de los cruceristas son: Shopping (Compras), Alimentación, Tours, Transporte y Otro gasto, siendo los de mayor importancia Shopping y Alimentación. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 16 / 41

39 Resultados Datos utilizados LOS DATOS Temporada Gasto en U$S Personas Gasto p/ persona CUADRO : Evolución del Gasto Temporada Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 17 / 41

40 Resultados Datos utilizados DISTRIBUCIÓN DE GASTO TOTAL Y COMPONENTES EN PROPORCIONES En el gráfico 2 se puede ver como es la distribución de los componentes FIGURA : Gasto Total y componentes Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 18 / 41

41 Resultados Datos utilizados DISTRIBUCIÓN DE GASTO TOTAL Y COMPONENTES EN PROPORCIONES En el gráfico 3 se puede ver como es la distribución de los componentes en proporciones FIGURA : componentes en proporciones Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 19 / 41

42 Resultados Datos utilizados DISTRIBUCIÓN DE GASTO TOTAL Y COMPONENTES EN PROPORCIONES En el gráfico 4 se puede ver como es la distribución acumulada de los componentes en proporciones FIGURA : distribución acumulada de los componentes en proporciones Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 20 / 41

43 Resultados Datos utilizados RELACIONES ENTRE ESOS TRES COMPONENTES En el gráfico 5 se puede ver como es la relación entre los 3 componentes mas importantes Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 21 / 41

44 Resultados Datos utilizados RELACIONES ENTRE ESOS TRES COMPONENTES-TERNARY PLOTS FIGURA : Gráfico triangular para Relación entre proporciones de Gasto,Shopping y Tour Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 22 / 41

45 Resultados Datos utilizados RELACIONES ENTRE ESOS TRES COMPONENTES-TERNARY PLOTS-SEGMENTADOS FIGURA : Gráfico triangular para Relación entre proporciones de Gasto,Shopping y Tour y número de gastos Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 23 / 41

46 Resultados Datos utilizados RELACIONES ENTRE ESOS TRES COMPONENTES-TERNARY PLOTS-SEGMENTADOS FIGURA : Gráfico triangular para Relación entre proporciones de Gasto,Shopping y Tour y niveles de gastos Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 24 / 41

47 Resultados Clustering FIGURA : Variabilidad intercluster vs número de cluster Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 25 / 41 CLUSTERS MEDIANTE K-MEANS PARA GASTOS EN NIVELES

48 Resultados Clustering FIGURA : Relaciones entre esos tres componentes y Gasto Total Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 26 / 41

49 Resultados Clustering GRUPOS SOBRE GASTOS EN NIVELES cluster Gasto Total Gasto Tour Gasto Alim Gasto Shopping N 1-0,577-0,0179-0,267-0, ,495-0,212-0,114 2, ,94 3,81 0,0823-0, ,675-0,142-0,158 0, ,982-0,274 2,368-0, Total CUADRO : Gasto promedio según Grupos (Gastos en niveles) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 27 / 41

50 Resultados Clustering FIGURA : Relaciones entre componentes en proporciones Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 28 / 41 CLUSTERS MEDIANTE K-MEANS PARA GASTOS EN PROPORCIONES

51 Resultados Clustering GRUPOS SOBRE GASTOS EN PROPORCIONES cluster G. Tour G. Alim G. Shopping G.Transporte G. Resto N 1 0,654 0,074 0,066 0,187 0, ,035 0,341 0,573 0,029 0, ,004 0,962 0,009 0,017 0, ,016 0,047 0,005 0,006 0, ,008 0,15 0,971 0,004 0, Total CUADRO : Gasto promedio según Grupos (Gastos en proporciones) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 29 / 41

52 Resultados Clustering GRÁFICO SILUETA PARA MUESTRA APRENDIZAJE CON PAM SOBRE PROPORCIONES FIGURA : Gráfico silueta para muestra aprendizaje Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 30 / 41

53 Resultados Clustering DENDROGRAMA PARA CLUSTERS JERÁRQUICOS SOBRE DATOS BINARIOS FIGURA : Dendrograma algoritmo de Ward Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 31 / 41

54 Resultados Clustering GRUPOS SOBRE GASTOS DATOS BINARIOS cluster G. Tour G. Alim G. Shopping G.Transporte G. Resto N ,014 0,873 0,87 0 0, ,114 0,261 0, , ,348 0, Total 0,119 0,462 0,645 0,09 0, CUADRO : Gasto promedio según Grupos (Gastos variables binarias) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 32 / 41

55 Resultados Caracterización de los clusters CARACTERIZACIÓN DE GRUPOS CARACTERÍSTICAS SOCIOCEMOGRÁFICAS Se usa el Total de personas del grupo de cruceristas, sexo,edad, número de visitas y gasto total. Para la construcción de los indicadores % de hombre se relativiza el total de hombres contra el total de personas % de adultos es total de personas entre 15 y 64 contra total de personas. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 33 / 41

56 Resultados Caracterización de los clusters CARACTERIZACIÓN GRUPOS SOBRE GASTOS EN NIVELES Cluster 3 y 5 se diferencian de los demás por ser segmentos con proporción de grupos de cruceristas unitarios muy por debajo de la media, siendo a su vez el cluster que tiene en proporción mayor cantidad de personas por grupo de cruceristas El Cluster 5 se diferencia de los demás por ser el que tiene % de hombres 0 mas bajo que el promedio (casi la mitad), mientras que el cluster 3 se caracteriza por tener mayor % relativo de grupos con 3 hombres El cluster 2 es el segmento que tiene menor % de 0 adultos (casi la mitad) y el cluster 3 es el que tiene reparto mas uniforme de las categorías en cuanto a % de adultos, siendo el segmento donde la totalidad de cruceristas son todos adultos es menor (casi 2/3 partes del promedio) como el 2 que concentra el 100% de su gasto en el tercer quintil del gasto total, mientras que los clusters 3,4 y 5 no tienen grupos de cruceristas con gasto total en el 1 er quintil y el tercer quintil. A su vez el cluster 4 se diferencia del 3 y 5 por no tener cruceristas con el mayor tramo de gasto (quinto quintil) El cluster 3 se caracteriza por tener una composición mayoritaria de cruceristas que llegan por primera vez Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 34 / 41

57 Resultados Caracterización de los clusters CARACTERIZACIÓN GRUPOS SOBRE GASTOS PROPORCIONES El cluster 4 se diferencia de los restantes por ser el que tiene mayor proporción de grupos de cruceristas unitarios y el que tiene menor proporción de grupos de 3 viajeros el cluster 2 es el que tiene menor proporción de grupos con 0% el cluster 4 es el que tiene menor proporción de cruceristas con 0% de adultos, mientras que en este segmento aparece la mayor proporción de cruceristas donde hay solamente adultos Para el gasto total es donde se ve la mayor diferenciación, con el cluster 3 y 4 donde predominan cruceristas que gastan en el 1 er quintil El cluster 2 concentra cruceristas que gastan en el 2 y 3 quintil, mientras que el cluster 5 es el que tiene una distribución de gasto similar al promedio marginal en quintiles. El cluster 1 se diferencia por ser el segmento donde los cruceristas que vienen por primera vez predominan, con un 10% mas que para la distribución marginal Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 35 / 41

58 Resultados Caracterización de los clusters CARACTERIZACIÓN DE LOS CLUSTERS PARA VARIABLES BINARIAS En total, los cruceristas estudiados viajan en grupos de 2 personas, integrados por más mujeres que hombres, adultos que vienen por primera vez y con un gasto total con distribución bastante uniforme, con un peso mayor de los grupos que gastan entre 100 y 200 dólares Según la cantidad de personas, el cluster 5 se distingue del resto en que se integra generalmente por 5 personas; muy pocos de este tipo de cruceristas viaja solo. El cluster 1 es altamente femenino (lo cual es predecible, dado que es el segmento que gasta exclusivamente en Compras), en el cluster 4 predominan los adultos y el cluster 5 es más joven. En cuanto al número de visitas, en general los cruceristas estudiados vienen por primera vez, destacándose el cluster 5. Al analizar el rango de gasto, se destaca el cluster 3 con un menor gasto que el resto, lo cual es coherente con la identificación del segmento como el que gasta exclusivamente en Alimentación. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 36 / 41

59 Conclusiones y futuros pasos CONCLUSIONES: LO REALIZADO HASTA EL MOMENTO DESCRIPCIÓN MEDIANTE CLUSTERING Se consideran los 3 rubros más importantes Se considerar la totalidad de los gastos (en proporciones) Deja de lado el gradiente de gasto y analizan como atributos de ausencia o presencia (para combatir la gran asimetría de cada rubro) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 37 / 41

60 Conclusiones y futuros pasos FUTUROS PASOS ANÁLISIS FACTORIAL+CLUSTERING Es importante ver como funcionan los métodos de cluster difusos. Construir perfiles de gasto usando toda la información que se dispone complementaria al tipo y nivel de gasto, en particular las socio-demográficas. Para eso se puede probar de aplicar análisis factorial de correspondencias sobre las variables binarias de gastos + el bloque de variables socio-demográficas Sobre los factores creados a posteriori pueden crearse la tipología o perfiles de gasto usando cualquiera de los métodos de clustering presentados. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 38 / 41

61 Conclusiones y futuros pasos FUTUROS PASOS(2):MODELIZACIÓN MODELOS DE RESPUESTA DISCRETA Si gasta en algún rubro (Respuesta Binaria) Cuando gasta en alguno, la propensión a gastar en ese componente (respuesta Binaria) lo mismo que en el ítem (b) pero adecuando la variable de respuesta en niveles, para poder evaluar gradiente de gasto, con el uso de variables de respuesta politómicas ordinales Modelos de respuesta de variable continua truncada, al considerar cada componente a través de su proporción del gasto total Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 39 / 41

62 Conclusiones y futuros pasos FUTUROS PASOS(2):MODELIZACIÓN MODELOS DE RESPUESTA DISCRETA Si gasta en algún rubro (Respuesta Binaria) Cuando gasta en alguno, la propensión a gastar en ese componente (respuesta Binaria) lo mismo que en el ítem (b) pero adecuando la variable de respuesta en niveles, para poder evaluar gradiente de gasto, con el uso de variables de respuesta politómicas ordinales Modelos de respuesta de variable continua truncada, al considerar cada componente a través de su proporción del gasto total MODELOS DE REGRESIÓN PARA TASAS Usar modelos de regresión Beta que solo consideran a cada gasto por separado Como alternativa la Regresión Dirichlet, que permite considerar en forma simultánea varias tasas o proporciones como variables de respuesta, que es parte del análisis de lo que se considera en los datos composicionales ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 39 / 41

63 Conclusiones y futuros pasos Muchas Gracias...!!! Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 40 / 41

64 Conclusiones y futuros pasos Chessel, D., Dufour, A., and Thioulouse, J. (2004). The ade4 package-i- one-table methods. R News, (4):5 10. David Meyer, A. Z. and Hornik, K. (2015). Vcd: Visualizing Categorical Data. R package version Hamilton, N. (2015). ggtern: An Extension to ggplot2, for the Creation of Ternary Diagrams. R package version Kaufman, L. and Rousseeuw, P. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley, New York. Maechler, M., Rousseeuw, P., Struyf, A., Hubert, M., and Hornik, K. (2015). cluster: Cluster Analysis Basics and Extensions. R package version For new features, see the Changelog file (in the package source). R Development Core Team (2015). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 41 / 41