CARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS

Tamaño: px
Comenzar la demostración a partir de la página:

Download "CARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS"

Transcripción

1 CARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS TURISTAS DE CRUCEROS MEDIANTE TÉCNICAS DE DATAMINING Silvia Altmark, Ramón Alvarez, Florencia Santiñaque IESTA Buenos Aires,17 de Setiembre Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 1 / 41

2 ESQUEMA DE LA PRESENTACIÓN 1 PRESENTACIÓN DEL PROBLEMA 2 METODOLOGÍA Métodos de Clustering 3 RESULTADOS Datos utilizados Clustering Caracterización de los clusters 4 CONCLUSIONES Y FUTUROS PASOS ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 2 / 41

3 Presentación del problema PRESENTACIÓN DEL PROBLEMA TURISMO DE CRUCEROS El turismo de cruceros es una de las actividades turísticas que más ha crecido en el mundo. Para Uruguay esta situación no es ajena, la cual ha determinado un importante aporte de divisas al país cada temporada (abril a octubre de cada año). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 3 / 41

4 Presentación del problema PRESENTACIÓN DEL PROBLEMA TURISMO DE CRUCEROS El turismo de cruceros es una de las actividades turísticas que más ha crecido en el mundo. Para Uruguay esta situación no es ajena, la cual ha determinado un importante aporte de divisas al país cada temporada (abril a octubre de cada año). EVOLUCIÓN Según el Ministerio de Turismo y Deporte, en la temporada se registraron 130 arribos de cruceros, mientras que en la temporada la cifra aumentó a 225 cruceros arribados. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 3 / 41

5 Presentación del problema PRESENTACIÓN DEL PROBLEMA TURISMO DE CRUCEROS El turismo de cruceros es una de las actividades turísticas que más ha crecido en el mundo. Para Uruguay esta situación no es ajena, la cual ha determinado un importante aporte de divisas al país cada temporada (abril a octubre de cada año). EVOLUCIÓN Según el Ministerio de Turismo y Deporte, en la temporada se registraron 130 arribos de cruceros, mientras que en la temporada la cifra aumentó a 225 cruceros arribados. COMPONENTES DEL GASTO El gasto de turistas cruceristas puede descomponerse en varios rubros. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 3 / 41

6 Presentación del problema PRESENTACIÓN DEL PROBLEMA (2) TRANSFORMACIÓN EN PROPORCIONES En este trabajo se propone convertir los componentes del gasto en proporciones, y caracterizar las mismas mediante herramientas gráficas, como son los gráficos ternarios o triangulares. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 4 / 41

7 Presentación del problema PRESENTACIÓN DEL PROBLEMA (2) TRANSFORMACIÓN EN PROPORCIONES En este trabajo se propone convertir los componentes del gasto en proporciones, y caracterizar las mismas mediante herramientas gráficas, como son los gráficos ternarios o triangulares. CREACIÓN DE TIPOLOGÍAS DE CRUCERISTAS Por otro lado se comparan los resultados, con la tipología que surge de aplicar métodos de clusters jerárquicos y no jerárquicos. Se utilizan los datos correspondientes a las temporadas de cruceros y , cuya fuente es el Ministerio de Turismo y Deporte. Los mismos surgen de una muestra de pasajeros a través de una encuesta cara a cara con diseño muestral complejo. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 4 / 41

8 Presentación del problema PRESENTACIÓN DEL PROBLEMA (3) DIFERENTES MÉTODOS DE CLUSTERING Tipología de cruceristas, con 5 grupos al aplicar el algoritmo de kmeans sobre los gastos por rubro; una segunda agrupación en 5 cluster al aplicar el método PAM sobre los gastos en proporciones. Por último se aplican algoritmos de cluster para datos binarios al considerar presencia o ausencia de gastos por rubro. CARACTERIZACIÓN Las diferentes tipologías se analizan y asocian con las características sociodemográficas. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 5 / 41

9 Metodología DESCRIPCIÓN DE DATOS GRÁFICOS TRIANGULARES Los gráficos triangulares son un tipo de gráfico baricéntrico que permiten trabajar a la vez con 3 variables que tienen la característica de tener una suma constante por observación; son un caso particular (para 3 variables) de lo que se denomina datos composicionales. En un gráfico triangular (ternary plot), las proporciones de las tres variables a, b, y c deben sumar una constante, K. De esta manera hay solamente 2 variables que pueden fluctuar libremente debida a la restricción de que a + b + c = K para todas las observaciones- sólo hay dos grados de libertad - es posible representar gráficamente la intersección de las tres variables en sólo dos dimensiones. (Chessel et al., 2004),(Hamilton, 2015),(David Meyer and Hornik, 2015) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 6 / 41

10 Metodología DESCRIPCIÓN DE DATOS(2) En el gráfico 1 se puede ver como la posición que tiene un punto respeta la restricción de que la suma en las 3 componentes es constante FIGURA : Ejemplo de gráfico triangular Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 7 / 41

11 Metodología TÉCNICAS DE DATAMINING ALGUNAS DEFINICIONES Existen muchas definiciones de datamining que también se conoce como minería de datos y para eso tomamos la que propone Jiawei Han (2012) La minería de datos es el proceso de descubrir patrones interesantes y conocimiento a partir de grandes cantidades de datos. ALGUNAS ALTERNATIVAS La tarea que hay que efectuar en la minería de datos es el análisis automático de grandes cantidades de datos donde para extraer patrones interesantes desconocidos, se pueden agrupar registros de datos, identificar registros poco usuales y lo más importante dependencias entre registros para un mismo atributo o para atributos entre si. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 8 / 41

12 Metodología Métodos de Clustering MÉTODO JERÁRQUICOS-METODO DE WARD Los métodos jerárquicos se caracterizan por generar una serie de particiones encajadas y requieren la definición de una distancia. Inicialmente, cada objeto se le asigna a su propio grupo, y entonces los algoritmos proceden iterativamente, en cada etapa unen los dos grupos más similares, continuando hasta que sólo quede un solo grupo. (Maechler et al., 2015) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 9 / 41

13 Metodología Métodos de Clustering MÉTODO JERÁRQUICOS-METODO DE WARD Los métodos jerárquicos se caracterizan por generar una serie de particiones encajadas y requieren la definición de una distancia. Inicialmente, cada objeto se le asigna a su propio grupo, y entonces los algoritmos proceden iterativamente, en cada etapa unen los dos grupos más similares, continuando hasta que sólo quede un solo grupo. (Maechler et al., 2015) T = W + B (1) Donde T es la matriz de varianzas y covarianzas del total, W la matriz de varianzas y covarianzas dentro de los grupos y B la matriz de varianzas y covarianzas entre grupos. En este caso para determinar con que cantidad de grupos trabajar, existen varias reglas de detención, de las cuales se presentan algunas ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 9 / 41

14 Metodología Métodos de Clustering MÉTODO JERÁRQUICO-REGLAS DE DETENCIÓN R cuadrado: Establece la relación entre la variación explicada y la variación total, donde la variación explicada representa la estructura de grupos hallada en cada nivel. R 2 = 1 K k=1 n k i=1 J j=1 (x (i j(k)) x k j ) 2 I i=1 J j=1 (x (i j) x j ) 2 (2) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 10 / 41

15 Metodología Métodos de Clustering MÉTODO JERÁRQUICO-REGLAS DE DETENCIÓN R cuadrado: Establece la relación entre la variación explicada y la variación total, donde la variación explicada representa la estructura de grupos hallada en cada nivel. R 2 = 1 K k=1 n k i=1 J j=1 (x (i j(k)) x k j ) 2 I i=1 J j=1 (x (i j) x j ) 2 (2) Regla de Calinski (llamada Pseudo F):se busca máximos locales pseudo F = R2 /(k 1) (1 R 2 )/(n k) (3) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 10 / 41

16 Metodología Métodos de Clustering MÉTODO JERÁRQUICO-REGLAS DE DETENCIÓN R cuadrado: Establece la relación entre la variación explicada y la variación total, donde la variación explicada representa la estructura de grupos hallada en cada nivel. R 2 = 1 K k=1 n k i=1 J j=1 (x (i j(k)) x k j ) 2 I i=1 J j=1 (x (i j) x j ) 2 (2) Regla de Calinski (llamada Pseudo F):se busca máximos locales pseudo F = R2 /(k 1) (1 R 2 )/(n k) (3) Test de Duda-Hart (pseudo t 2 ):disminución en la suma de cuadrados residuales (variación intragrupos, o variación en los grupos) pseudo t 2 = trw G +trw L trw GL (4) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 10 / 41

17 Metodología Métodos de Clustering K-MEANS(1) A partir de un conjunto de de n observaciones (x1, x2,..., xn), se puede considerar un vector p, el método de k-means buscar encontrar una partición de los n individuos en k subconjuntos con k n,de manera de minimizar la suma de cuadrados intraclase (SCIC) de los subconjuntos S i : Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 11 / 41

18 Metodología Métodos de Clustering K-MEANS(1) A partir de un conjunto de de n observaciones (x1, x2,..., xn), se puede considerar un vector p, el método de k-means buscar encontrar una partición de los n individuos en k subconjuntos con k n,de manera de minimizar la suma de cuadrados intraclase (SCIC) de los subconjuntos S i : argmin S k x j µ i 2 i=1 x j S i (5) considerando µ como el centroide de los puntos en el grupo S i Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 11 / 41

19 Metodología Métodos de Clustering K-MEANS(1) A partir de un conjunto de de n observaciones (x1, x2,..., xn), se puede considerar un vector p, el método de k-means buscar encontrar una partición de los n individuos en k subconjuntos con k n,de manera de minimizar la suma de cuadrados intraclase (SCIC) de los subconjuntos S i : argmin S k x j µ i 2 i=1 x j S i (5) considerando µ como el centroide de los puntos en el grupo S i Al inicio, todos los centros de los conglomerados están en la media de las celdas de Voronoi (que se puede interpretar como el conjunto de puntos de los datos que están más cerca del centro de ese grupo que de cualquier otro grupo). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 11 / 41

20 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

21 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros 2 Se asigna cada observación al cluster con la media mas próxima, es decir que la partición queda determinada por el diagrama de Voronoi que se generó con las medias iniciales Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

22 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros 2 Se asigna cada observación al cluster con la media mas próxima, es decir que la partición queda determinada por el diagrama de Voronoi que se generó con las medias iniciales 3 Se calcula los S i de la siguiente manera S (t) i = { x p : x p m (t) i x p m (t) j 1 j k } (6) donde cada uno de los x p queda asignado a uno de los S (t) i. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

23 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros 2 Se asigna cada observación al cluster con la media mas próxima, es decir que la partición queda determinada por el diagrama de Voronoi que se generó con las medias iniciales 3 Se calcula los S i de la siguiente manera S (t) i = { x p : x p m (t) i x p m (t) j 1 j k } (6) donde cada uno de los x p queda asignado a uno de los S (t) i. 4 El algoritmo se actualiza calculando las nuevas medias del grupo m (t+1) i = 1 S (t) i x j S (t) i x j (7) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

24 Metodología Métodos de Clustering K-MEANS(2) El algoritmo funciona de la siguiente manera: 1 Se eligen en forma aleatoria los centros iniciales. Queda entonces la siguiente secuencia m 1.m 2,...,m k de k centros 2 Se asigna cada observación al cluster con la media mas próxima, es decir que la partición queda determinada por el diagrama de Voronoi que se generó con las medias iniciales 3 Se calcula los S i de la siguiente manera S (t) i = { x p : x p m (t) i x p m (t) j 1 j k } (6) donde cada uno de los x p queda asignado a uno de los S (t) i. 4 El algoritmo se actualiza calculando las nuevas medias del grupo m (t+1) i = 1 S (t) i x j S (t) i x j (7) 5 El algoritmo se detiene luego que al reasignar alguna observación a otro grupo no hay cambios menores a una tolerancia prefijada en la (SCIC) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 12 / 41

25 Metodología Métodos de Clustering K-MEDOIDES MÉTODO PAM El algoritmo PAM (partition around medoids), se basa en la búsqueda de k objetos representativos o medoides entre las observaciones del conjunto de datos, de manera que representen adecuadamente la estructura de los datos. Un medoide se podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto más céntrico de la agrupación considerada. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 13 / 41

26 Metodología Métodos de Clustering K-MEDOIDES MÉTODO PAM El algoritmo PAM (partition around medoids), se basa en la búsqueda de k objetos representativos o medoides entre las observaciones del conjunto de datos, de manera que representen adecuadamente la estructura de los datos. Un medoide se podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto más céntrico de la agrupación considerada. 1 Inicialización: Selección al azar de k de los n puntos de datos como los candidatos a medoides fase de construcción). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 13 / 41

27 Metodología Métodos de Clustering K-MEDOIDES MÉTODO PAM El algoritmo PAM (partition around medoids), se basa en la búsqueda de k objetos representativos o medoides entre las observaciones del conjunto de datos, de manera que representen adecuadamente la estructura de los datos. Un medoide se podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto más céntrico de la agrupación considerada. 1 Inicialización: Selección al azar de k de los n puntos de datos como los candidatos a medoides fase de construcción). 2 Se asigna cada observación al cluster con el medoide mas próximo, dependiendo de la distancia elegida (euclidiana, Manhattan o Minkowski). Luego se encuentra un mínimo local para la función objetivo, es decir, una solución de tal manera el cambio de observación con un medoide haga que la función objetivo decrezca (esto se denomina la fase de intercambio). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 13 / 41

28 Metodología Métodos de Clustering K-MEDOIDES MÉTODO PAM El algoritmo PAM (partition around medoids), se basa en la búsqueda de k objetos representativos o medoides entre las observaciones del conjunto de datos, de manera que representen adecuadamente la estructura de los datos. Un medoide se podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto más céntrico de la agrupación considerada. 1 Inicialización: Selección al azar de k de los n puntos de datos como los candidatos a medoides fase de construcción). 2 Se asigna cada observación al cluster con el medoide mas próximo, dependiendo de la distancia elegida (euclidiana, Manhattan o Minkowski). Luego se encuentra un mínimo local para la función objetivo, es decir, una solución de tal manera el cambio de observación con un medoide haga que la función objetivo decrezca (esto se denomina la fase de intercambio). 3 Se repiten los pasos anteriores hasta que los medoides queden estables (es decir que no haya cambios en los medoides). ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 13 / 41

29 Metodología Métodos de Clustering CLUSTERS DIFUSOS (FANNY) A diferencia de los métodos anteriores donde se obtiene una partición en k subconjuntos, es decir N = n 1 x i = k j=nk 1 j=1 c j, donde c j son los clusters determinados mediante algún algoritmo, en el agrupamiento difuso (fuzzy), cada observación se extiende a través de los distintos grupos. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 14 / 41

30 Metodología Métodos de Clustering CLUSTERS DIFUSOS (FANNY) A diferencia de los métodos anteriores donde se obtiene una partición en k subconjuntos, es decir N = n 1 x i = k j=nk 1 j=1 c j, donde c j son los clusters determinados mediante algún algoritmo, en el agrupamiento difuso (fuzzy), cada observación se extiende a través de los distintos grupos. En este método se puede establecer: m parámetro de incertidumbre (fuzziness parameter), v k es el centro del cluster c y u ik el grado de pertenencia del individuo i al grupo k. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 14 / 41

31 Metodología Métodos de Clustering CLUSTERS DIFUSOS (FANNY) A diferencia de los métodos anteriores donde se obtiene una partición en k subconjuntos, es decir N = n 1 x i = k j=nk 1 j=1 c j, donde c j son los clusters determinados mediante algún algoritmo, en el agrupamiento difuso (fuzzy), cada observación se extiende a través de los distintos grupos. En este método se puede establecer: m parámetro de incertidumbre (fuzziness parameter), v k es el centro del cluster c y u ik el grado de pertenencia del individuo i al grupo k. Si se tiene n el número de observaciones, k el número de clusters, r es el parámetro de ajuste del modelo y d(i, j) la disimilaridad entre las observaciones i y j, el método fanny busca minimizar la función objetivo (?),(R Development Core Team, 2015) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 14 / 41

32 Metodología Métodos de Clustering CLUSTERS DIFUSOS (FANNY) A diferencia de los métodos anteriores donde se obtiene una partición en k subconjuntos, es decir N = n 1 x i = k j=nk 1 j=1 c j, donde c j son los clusters determinados mediante algún algoritmo, en el agrupamiento difuso (fuzzy), cada observación se extiende a través de los distintos grupos. En este método se puede establecer: m parámetro de incertidumbre (fuzziness parameter), v k es el centro del cluster c y u ik el grado de pertenencia del individuo i al grupo k. Si se tiene n el número de observaciones, k el número de clusters, r es el parámetro de ajuste del modelo y d(i, j) la disimilaridad entre las observaciones i y j, el método fanny busca minimizar la función objetivo (?),(R Development Core Team, 2015) v=n v=1 i j 1 1 u r i,v ur j,vd(i, j) 2 n u r j, 1 (8) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 14 / 41

33 Metodología Métodos de Clustering GRAFICOS DE SILUETA El método Silueta en realidad no es método de clustering en si mismo sino un método de interpretación y validación del número de conglomerados o clusters hallado (Kaufman and Rousseeuw, 1990). Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 15 / 41

34 Metodología Métodos de Clustering GRAFICOS DE SILUETA El método Silueta en realidad no es método de clustering en si mismo sino un método de interpretación y validación del número de conglomerados o clusters hallado (Kaufman and Rousseeuw, 1990). Tiene la ventaja que puede ser utilizada para datos que hayan sido clasificados a través de cualquier método como por ejemplo k-medias o k-medoides. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 15 / 41

35 Metodología Métodos de Clustering GRAFICOS DE SILUETA El método Silueta en realidad no es método de clustering en si mismo sino un método de interpretación y validación del número de conglomerados o clusters hallado (Kaufman and Rousseeuw, 1990). Tiene la ventaja que puede ser utilizada para datos que hayan sido clasificados a través de cualquier método como por ejemplo k-medias o k-medoides. Para cada observación i, a(i) es la disimilaridad promedio de i con todos los demás observaciones dentro del mismo grupo. Para los demás clusters C se define d(i,c) como la disimilaridad promedio de i con los datos de C. Se repite el procedimiento para cada grupo del cual el i no es miembro y se determina b(i) := min C d(i,c), que representa la mínima disimilaridad promedio de i con cualquier otro grupo, lo que representa la disimilaridad entre i y los clusters vecinos. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 15 / 41

36 Metodología Métodos de Clustering GRAFICOS DE SILUETA El método Silueta en realidad no es método de clustering en si mismo sino un método de interpretación y validación del número de conglomerados o clusters hallado (Kaufman and Rousseeuw, 1990). Tiene la ventaja que puede ser utilizada para datos que hayan sido clasificados a través de cualquier método como por ejemplo k-medias o k-medoides. Para cada observación i, a(i) es la disimilaridad promedio de i con todos los demás observaciones dentro del mismo grupo. Para los demás clusters C se define d(i,c) como la disimilaridad promedio de i con los datos de C. Se repite el procedimiento para cada grupo del cual el i no es miembro y se determina b(i) := min C d(i,c), que representa la mínima disimilaridad promedio de i con cualquier otro grupo, lo que representa la disimilaridad entre i y los clusters vecinos. Se define entonces el estadístico S(i)(silueta) como S(i) = (b(i) a(i)) max[(b(i) a(i))] (9) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 15 / 41

37 Resultados Datos utilizados LOS DATOS Se utilizan los datos de la temporada del Ministerio de Turismo y Deporte. Entonces, dado que el interés del presente trabajo es el gasto de los cruceristas, se descartaron los grupos que no presentaban gasto o que tenían un monto de gasto imputado, reduciéndose el estudio a 2311 casos (filas). Esto significa que 2311 grupos de cruceristas realizaron algún tipo de gasto. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 16 / 41

38 Resultados Datos utilizados LOS DATOS Se utilizan los datos de la temporada del Ministerio de Turismo y Deporte. Entonces, dado que el interés del presente trabajo es el gasto de los cruceristas, se descartaron los grupos que no presentaban gasto o que tenían un monto de gasto imputado, reduciéndose el estudio a 2311 casos (filas). Esto significa que 2311 grupos de cruceristas realizaron algún tipo de gasto. Los rubros que se utilizan para desagregación del gasto de los cruceristas son: Shopping (Compras), Alimentación, Tours, Transporte y Otro gasto, siendo los de mayor importancia Shopping y Alimentación. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 16 / 41

39 Resultados Datos utilizados LOS DATOS Temporada Gasto en U$S Personas Gasto p/ persona CUADRO : Evolución del Gasto Temporada Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 17 / 41

40 Resultados Datos utilizados DISTRIBUCIÓN DE GASTO TOTAL Y COMPONENTES EN PROPORCIONES En el gráfico 2 se puede ver como es la distribución de los componentes FIGURA : Gasto Total y componentes Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 18 / 41

41 Resultados Datos utilizados DISTRIBUCIÓN DE GASTO TOTAL Y COMPONENTES EN PROPORCIONES En el gráfico 3 se puede ver como es la distribución de los componentes en proporciones FIGURA : componentes en proporciones Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 19 / 41

42 Resultados Datos utilizados DISTRIBUCIÓN DE GASTO TOTAL Y COMPONENTES EN PROPORCIONES En el gráfico 4 se puede ver como es la distribución acumulada de los componentes en proporciones FIGURA : distribución acumulada de los componentes en proporciones Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 20 / 41

43 Resultados Datos utilizados RELACIONES ENTRE ESOS TRES COMPONENTES En el gráfico 5 se puede ver como es la relación entre los 3 componentes mas importantes Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 21 / 41

44 Resultados Datos utilizados RELACIONES ENTRE ESOS TRES COMPONENTES-TERNARY PLOTS FIGURA : Gráfico triangular para Relación entre proporciones de Gasto,Shopping y Tour Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 22 / 41

45 Resultados Datos utilizados RELACIONES ENTRE ESOS TRES COMPONENTES-TERNARY PLOTS-SEGMENTADOS FIGURA : Gráfico triangular para Relación entre proporciones de Gasto,Shopping y Tour y número de gastos Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 23 / 41

46 Resultados Datos utilizados RELACIONES ENTRE ESOS TRES COMPONENTES-TERNARY PLOTS-SEGMENTADOS FIGURA : Gráfico triangular para Relación entre proporciones de Gasto,Shopping y Tour y niveles de gastos Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 24 / 41

47 Resultados Clustering FIGURA : Variabilidad intercluster vs número de cluster Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 25 / 41 CLUSTERS MEDIANTE K-MEANS PARA GASTOS EN NIVELES

48 Resultados Clustering FIGURA : Relaciones entre esos tres componentes y Gasto Total Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 26 / 41

49 Resultados Clustering GRUPOS SOBRE GASTOS EN NIVELES cluster Gasto Total Gasto Tour Gasto Alim Gasto Shopping N 1-0,577-0,0179-0,267-0, ,495-0,212-0,114 2, ,94 3,81 0,0823-0, ,675-0,142-0,158 0, ,982-0,274 2,368-0, Total CUADRO : Gasto promedio según Grupos (Gastos en niveles) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 27 / 41

50 Resultados Clustering FIGURA : Relaciones entre componentes en proporciones Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 28 / 41 CLUSTERS MEDIANTE K-MEANS PARA GASTOS EN PROPORCIONES

51 Resultados Clustering GRUPOS SOBRE GASTOS EN PROPORCIONES cluster G. Tour G. Alim G. Shopping G.Transporte G. Resto N 1 0,654 0,074 0,066 0,187 0, ,035 0,341 0,573 0,029 0, ,004 0,962 0,009 0,017 0, ,016 0,047 0,005 0,006 0, ,008 0,15 0,971 0,004 0, Total CUADRO : Gasto promedio según Grupos (Gastos en proporciones) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 29 / 41

52 Resultados Clustering GRÁFICO SILUETA PARA MUESTRA APRENDIZAJE CON PAM SOBRE PROPORCIONES FIGURA : Gráfico silueta para muestra aprendizaje Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 30 / 41

53 Resultados Clustering DENDROGRAMA PARA CLUSTERS JERÁRQUICOS SOBRE DATOS BINARIOS FIGURA : Dendrograma algoritmo de Ward Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 31 / 41

54 Resultados Clustering GRUPOS SOBRE GASTOS DATOS BINARIOS cluster G. Tour G. Alim G. Shopping G.Transporte G. Resto N ,014 0,873 0,87 0 0, ,114 0,261 0, , ,348 0, Total 0,119 0,462 0,645 0,09 0, CUADRO : Gasto promedio según Grupos (Gastos variables binarias) Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 32 / 41

55 Resultados Caracterización de los clusters CARACTERIZACIÓN DE GRUPOS CARACTERÍSTICAS SOCIOCEMOGRÁFICAS Se usa el Total de personas del grupo de cruceristas, sexo,edad, número de visitas y gasto total. Para la construcción de los indicadores % de hombre se relativiza el total de hombres contra el total de personas % de adultos es total de personas entre 15 y 64 contra total de personas. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 33 / 41

56 Resultados Caracterización de los clusters CARACTERIZACIÓN GRUPOS SOBRE GASTOS EN NIVELES Cluster 3 y 5 se diferencian de los demás por ser segmentos con proporción de grupos de cruceristas unitarios muy por debajo de la media, siendo a su vez el cluster que tiene en proporción mayor cantidad de personas por grupo de cruceristas El Cluster 5 se diferencia de los demás por ser el que tiene % de hombres 0 mas bajo que el promedio (casi la mitad), mientras que el cluster 3 se caracteriza por tener mayor % relativo de grupos con 3 hombres El cluster 2 es el segmento que tiene menor % de 0 adultos (casi la mitad) y el cluster 3 es el que tiene reparto mas uniforme de las categorías en cuanto a % de adultos, siendo el segmento donde la totalidad de cruceristas son todos adultos es menor (casi 2/3 partes del promedio) como el 2 que concentra el 100% de su gasto en el tercer quintil del gasto total, mientras que los clusters 3,4 y 5 no tienen grupos de cruceristas con gasto total en el 1 er quintil y el tercer quintil. A su vez el cluster 4 se diferencia del 3 y 5 por no tener cruceristas con el mayor tramo de gasto (quinto quintil) El cluster 3 se caracteriza por tener una composición mayoritaria de cruceristas que llegan por primera vez Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 34 / 41

57 Resultados Caracterización de los clusters CARACTERIZACIÓN GRUPOS SOBRE GASTOS PROPORCIONES El cluster 4 se diferencia de los restantes por ser el que tiene mayor proporción de grupos de cruceristas unitarios y el que tiene menor proporción de grupos de 3 viajeros el cluster 2 es el que tiene menor proporción de grupos con 0% el cluster 4 es el que tiene menor proporción de cruceristas con 0% de adultos, mientras que en este segmento aparece la mayor proporción de cruceristas donde hay solamente adultos Para el gasto total es donde se ve la mayor diferenciación, con el cluster 3 y 4 donde predominan cruceristas que gastan en el 1 er quintil El cluster 2 concentra cruceristas que gastan en el 2 y 3 quintil, mientras que el cluster 5 es el que tiene una distribución de gasto similar al promedio marginal en quintiles. El cluster 1 se diferencia por ser el segmento donde los cruceristas que vienen por primera vez predominan, con un 10% mas que para la distribución marginal Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 35 / 41

58 Resultados Caracterización de los clusters CARACTERIZACIÓN DE LOS CLUSTERS PARA VARIABLES BINARIAS En total, los cruceristas estudiados viajan en grupos de 2 personas, integrados por más mujeres que hombres, adultos que vienen por primera vez y con un gasto total con distribución bastante uniforme, con un peso mayor de los grupos que gastan entre 100 y 200 dólares Según la cantidad de personas, el cluster 5 se distingue del resto en que se integra generalmente por 5 personas; muy pocos de este tipo de cruceristas viaja solo. El cluster 1 es altamente femenino (lo cual es predecible, dado que es el segmento que gasta exclusivamente en Compras), en el cluster 4 predominan los adultos y el cluster 5 es más joven. En cuanto al número de visitas, en general los cruceristas estudiados vienen por primera vez, destacándose el cluster 5. Al analizar el rango de gasto, se destaca el cluster 3 con un menor gasto que el resto, lo cual es coherente con la identificación del segmento como el que gasta exclusivamente en Alimentación. Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 36 / 41

59 Conclusiones y futuros pasos CONCLUSIONES: LO REALIZADO HASTA EL MOMENTO DESCRIPCIÓN MEDIANTE CLUSTERING Se consideran los 3 rubros más importantes Se considerar la totalidad de los gastos (en proporciones) Deja de lado el gradiente de gasto y analizan como atributos de ausencia o presencia (para combatir la gran asimetría de cada rubro) ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 37 / 41

60 Conclusiones y futuros pasos FUTUROS PASOS ANÁLISIS FACTORIAL+CLUSTERING Es importante ver como funcionan los métodos de cluster difusos. Construir perfiles de gasto usando toda la información que se dispone complementaria al tipo y nivel de gasto, en particular las socio-demográficas. Para eso se puede probar de aplicar análisis factorial de correspondencias sobre las variables binarias de gastos + el bloque de variables socio-demográficas Sobre los factores creados a posteriori pueden crearse la tipología o perfiles de gasto usando cualquiera de los métodos de clustering presentados. ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 38 / 41

61 Conclusiones y futuros pasos FUTUROS PASOS(2):MODELIZACIÓN MODELOS DE RESPUESTA DISCRETA Si gasta en algún rubro (Respuesta Binaria) Cuando gasta en alguno, la propensión a gastar en ese componente (respuesta Binaria) lo mismo que en el ítem (b) pero adecuando la variable de respuesta en niveles, para poder evaluar gradiente de gasto, con el uso de variables de respuesta politómicas ordinales Modelos de respuesta de variable continua truncada, al considerar cada componente a través de su proporción del gasto total Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 39 / 41

62 Conclusiones y futuros pasos FUTUROS PASOS(2):MODELIZACIÓN MODELOS DE RESPUESTA DISCRETA Si gasta en algún rubro (Respuesta Binaria) Cuando gasta en alguno, la propensión a gastar en ese componente (respuesta Binaria) lo mismo que en el ítem (b) pero adecuando la variable de respuesta en niveles, para poder evaluar gradiente de gasto, con el uso de variables de respuesta politómicas ordinales Modelos de respuesta de variable continua truncada, al considerar cada componente a través de su proporción del gasto total MODELOS DE REGRESIÓN PARA TASAS Usar modelos de regresión Beta que solo consideran a cada gasto por separado Como alternativa la Regresión Dirichlet, que permite considerar en forma simultánea varias tasas o proporciones como variables de respuesta, que es parte del análisis de lo que se considera en los datos composicionales ilvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 39 / 41

63 Conclusiones y futuros pasos Muchas Gracias...!!! Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 40 / 41

64 Conclusiones y futuros pasos Chessel, D., Dufour, A., and Thioulouse, J. (2004). The ade4 package-i- one-table methods. R News, (4):5 10. David Meyer, A. Z. and Hornik, K. (2015). Vcd: Visualizing Categorical Data. R package version Hamilton, N. (2015). ggtern: An Extension to ggplot2, for the Creation of Ternary Diagrams. R package version Kaufman, L. and Rousseeuw, P. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley, New York. Maechler, M., Rousseeuw, P., Struyf, A., Hubert, M., and Hornik, K. (2015). cluster: Cluster Analysis Basics and Extensions. R package version For new features, see the Changelog file (in the package source). R Development Core Team (2015). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN Silvia Altmark, Ramón Alvarez, Florencia Santiñaque (IESTA) Componentes del gasto en cruceristas Buenos Aires,17 de Setiembre 41 / 41

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila Ramón Álvarez 1 Flavio Pazos 2 Adrián Valentín 2 Curso de data Mining-2012,Instituto Pasteur 1 IESTA(Instituto de Estadística)

Más detalles

1. Análisis de Conglomerados

1. Análisis de Conglomerados 1. Análisis de Conglomerados El objetivo de este análisis es formar grupos de observaciones, de manera que todas las unidades en un grupo sean similares entre ellas pero que sean diferentes a aquellas

Más detalles

CARACTERIZACIÓN DEL GASTO DE TURISTAS DE CRUCEROS EN URUGUAY MEDIANTE TÉCNICAS DE MINERÍA DE DATOS

CARACTERIZACIÓN DEL GASTO DE TURISTAS DE CRUCEROS EN URUGUAY MEDIANTE TÉCNICAS DE MINERÍA DE DATOS CARACTERIZACIÓN DEL GASTO DE TURISTAS DE CRUCEROS EN URUGUAY MEDIANTE TÉCNICAS DE MINERÍA DE DATOS Silvia Altmark 1 ; Ramón Álvarez 1 ; Florencia Santiñaque 1 Introducción RESUMEN El turismo de cruceros

Más detalles

Minería de Datos Web. Cursada 2018

Minería de Datos Web. Cursada 2018 Minería de Datos Web Cursada 2018 Proceso de Minería de Texto Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los

Más detalles

RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)

RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) Análisis de conglomerados los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos en ocasiones no

Más detalles

Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN

Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN 165 ENCUESTA DE COMPORTAMIENTOS Y TIPOLOGÍAS DE VISITANTES EN EUSKADI 166 ANEXO I. CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN

Más detalles

Aprendizaje no supervisado

Aprendizaje no supervisado Aprendizaje no supervisado Algoritmo de K medias Julio Waissman Vilanova Licenciatura en Ciencias de la Computación Universidad de Sonora Curso Inteligencia Artificial Plan del curso Aprendizaje no supervisado

Más detalles

Técnicas de Clustering

Técnicas de Clustering Técnicas de Clustering Programa Introducción Métodos Divisivos Métodos Jerárquicos Algunos otros métodos Cuantos clusters? estabilidad Introducción Definiciones previas: Cluster: Agrupamiento de objetos.

Más detalles

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Más detalles

CLUSTERING. Bases de Datos Masivas

CLUSTERING. Bases de Datos Masivas 1 CLUSTERING Bases de Datos Masivas 2 Temas Qué es clustering? K-Means Clustering Hierarchical Clustering QUÉ ES CLUSTERING? 3 Aprendizaje Supervisado vs. No Supervisado 4 Aprendizaje Supervisado: tanto

Más detalles

Clasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO

Clasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO Clasificación NO SUPERVISADA AGRUPAMIENTO Clasificación No Supervisada Se trata de construir clasificadores sin información a priori, o sea, a partir de conjuntos de patrones no etiquetados Objetivo: Descubrir

Más detalles

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER EN SPSS Opción: Analizar Clasificar ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES 1.- Cluster en dos etapas 2.- K-means 3.- Jerárquicos

Más detalles

Coordenadas Principales de Matrices de Proximidad (Principal Coordinates of Neighbor Matrices) PCNM

Coordenadas Principales de Matrices de Proximidad (Principal Coordinates of Neighbor Matrices) PCNM Coordenadas Principales de Matrices de Proximidad (Principal Coordinates of Neighbor Matrices) PCNM Implementación de PCNM en QEco La rutina de Coordenadas Principales de Matrices de Proximidad (PCNM)

Más detalles

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos

Más detalles

UN MÉTODO DE ALTERNATIVO PARA LA VIGILANCIA EPIDEMIOLÓGICA

UN MÉTODO DE ALTERNATIVO PARA LA VIGILANCIA EPIDEMIOLÓGICA UN MÉTODO DE ALTERNATIVO PARA LA VIGILANCIA EPIDEMIOLÓGICA Ramón Alvarez 1 ; Andrés Castrillejo 1 RESUMEN En vigilancia epidemiológica se usan algunas herramientas gráficas para el estudio de fenómenos

Más detalles

INTELIGENCIA DE NEGOCIO

INTELIGENCIA DE NEGOCIO INTELIGENCIA DE NEGOCIO 2016-2017 n n n n n n n n Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y

Más detalles

1. Justicación. 2. Objetivos General Especícos PLAN DE TRABAJO DE LA ASIGNATURA. Código: Versión: 02 Emisión: Página 1 de 6

1. Justicación. 2. Objetivos General Especícos PLAN DE TRABAJO DE LA ASIGNATURA. Código: Versión: 02 Emisión: Página 1 de 6 Código: Versión: 02 Emisión: 03-02-2014 Página 1 de 6 PERÍODO 2015-II ASIGNATURA Herramientas estadísticas para la investigación cuantitativa INTENSIDAD HORARIA SEMANAL: : 4 Independiente: 8 Total: 12

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Más detalles

Redes de Neuronas de Base Radial

Redes de Neuronas de Base Radial Redes de Neuronas de Base Radial 1 Introducción Redes multicapa con conexiones hacia delante Única capa oculta Las neuronas ocultas poseen carácter local Cada neurona oculta se activa en una región distinta

Más detalles

Análisis Estadístico de Datos Climáticos. Análisis de agrupamiento (o clusters)

Análisis Estadístico de Datos Climáticos. Análisis de agrupamiento (o clusters) Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) A. Díaz - M. Bidegain M. Barreiro Facultad de Ciencias Facultad de Ingeniería 2011 Objetivo Idear una clasificación o esquema

Más detalles

Estadística Descriptiva 2da parte

Estadística Descriptiva 2da parte Universidad Nacional de Mar del Plata Facultad de Ingeniería Estadística Descriptiva 2da parte 2 Cuatrimestre 2018 COMISIÓN :1. Prof. Dr. Juan Ignacio Pastore. Qué es la estadística? El contenido de la

Más detalles

ESTIMACIONES DE POBREZA POR EL

ESTIMACIONES DE POBREZA POR EL REPÚBLICA ORIENTAL DEL URUGUAY ABRIL 2003 INSTITUTO NACIONAL DE ESTADÍSTICA ESTIMACIONES DE POBREZA POR EL MÉTODO DEL INGRESO 1 AÑO 2002 1 Los resultados que aquí se presentan, empalman con los que se

Más detalles

Introducción a Aprendizaje no Supervisado

Introducción a Aprendizaje no Supervisado Introducción a Aprendizaje no Supervisado Felipe Suárez, Álvaro Riascos 25 de abril de 2017 2 / 33 Contenido 1. Motivación 2. k-medias Algoritmos Implementación 3. Definición 4. Motivación 5. Aproximación

Más detalles

DETERMINACIÓN DE TIPOLOGÍAS DE INFECCIONES PARASITARIAS INTESTINALES, EN ESCOLARES MEDIANTE, TÉCNICAS DE CLUSTERING SOBRE DATOS BINARIOS

DETERMINACIÓN DE TIPOLOGÍAS DE INFECCIONES PARASITARIAS INTESTINALES, EN ESCOLARES MEDIANTE, TÉCNICAS DE CLUSTERING SOBRE DATOS BINARIOS DETERMINACIÓN DE TIPOLOGÍAS DE INFECCIONES PARASITARIAS INTESTINALES, EN ESCOLARES MEDIANTE, TÉCNICAS DE CLUSTERING SOBRE DATOS BINARIOS Federico Álvarez; Ramón Alvarez 1 ; Fernando Massa 1 RESUMEN El

Más detalles

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1 http://www.geografia.us.es/ Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación

Más detalles

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016 ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una

Más detalles

Técnicas de Minería de Datos

Técnicas de Minería de Datos Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2016 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

TALLER GUIA No. 2 GRADO: UNDECIMO

TALLER GUIA No. 2 GRADO: UNDECIMO TALLER GUIA No. 2 GRADO: UNDECIMO AREA: MATEMÁTICAS. ASIGNATURA: ESTADISTICA. UNIDAD: No. 2.1 NOMBRE: ANALISIS DE LA VARIABLE CUALITANTIVA. OBJETIVO: Desarrollar la capacidad de interpretación y análisis

Más detalles

Tema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.

Tema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población. Tema 3: Análisis multivariante para la agrupación Objetivo: Encontrar los grupos naturales en los que se divide la población. Ejemplo canónico en Biologia: Taxonomía Rosa doméstica Reino: Plantae (Plantas)

Más detalles

Estas dos clases. ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías

Estas dos clases. ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías ANOVA I 19-8-2014 Estas dos clases ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías ANOVA II - ANOVA factorial - ANCOVA (análisis

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

Capítulo II. Marco Teórico-Metodológico. Antes de comenzar a caracterizar el consumo de bienes y servicios, se

Capítulo II. Marco Teórico-Metodológico. Antes de comenzar a caracterizar el consumo de bienes y servicios, se Capítulo II. Marco Teórico-Metodológico. 1. Marco Teórico. Antes de comenzar a caracterizar el consumo de bienes y servicios, se debe tomar en cuenta la principal variable dentro del análisis del consumo:

Más detalles

Clustering: Auto-associative Multivariate Regression Tree (AAMRT)

Clustering: Auto-associative Multivariate Regression Tree (AAMRT) Introducción Tipos Validación AAMRT Clustering: Auto-associative Multivariate Regression Tree (AAMRT) Miguel Bernal C Quantil 12 de diciembre de 2013 Miguel Bernal C Quantil Matemáticas Aplicadas Contenido

Más detalles

GUIA DOCENTE. Titulación Máster en Ingeniería Ambiental. Profesores (*) Responsable. Juan José Egozcue Rubí. Otros. Maribel Ortego Martínez

GUIA DOCENTE. Titulación Máster en Ingeniería Ambiental. Profesores (*) Responsable. Juan José Egozcue Rubí. Otros. Maribel Ortego Martínez GUIA DOCENTE Nombre de la asignatura Análisis e interpretación de datos ambientales (AIDA) Centro Escuela Técnica Superior de Ingenieros de Caminos, Canales y Puertos de Barcelona Departamento Matemática

Más detalles

Sistemas de Percepción Visión por Computador

Sistemas de Percepción Visión por Computador Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión

Más detalles

Curso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal

Curso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal Curso de Postgrado en Herramientas Estadísticas Avanzadas: ANÁLISIS MULTIVARIANTE PARA INVESTIGACIÓN EN SISTEMAS AGROPECUARIOS ANÁLISIS CLUSTER Prof. Dr. José Perea Dpto. Producción Animal ANÁLISIS DE

Más detalles

Primero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster.

Primero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster. K-Means Introducción El algoritmo k-means es el algoritmo de clustering más popular y ampliamente utilizado. Algoritmo Supongamos que queremos agrupar los siguientes datos en dos clusters Primero se inicializan

Más detalles

Taller Análisis de Datos Multinivel

Taller Análisis de Datos Multinivel Taller Análisis de Datos Multinivel Sergio R. Muñoz, Ph.D. CIGES & Departamento Salud Publica Facultad de Medicina Universidad de La Frontera munozs@ufro.cl 12-25 de Mayo, 2012 Datos Pacientes en clínicas

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

INTELIGENCIA DE NEGOCIO

INTELIGENCIA DE NEGOCIO INTELIGENCIA DE NEGOCIO 2018-2019 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y series temporales

Más detalles

Reconocimiento de Formas

Reconocimiento de Formas Reconocimiento de Formas Técnicas no Supervisadas: clustering José Martínez Sotoca Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o

Más detalles

Aprendizaje No Supervisado

Aprendizaje No Supervisado Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje No Supervisado Supervisado vs. No Supervisado Aprendizaje Supervisado Clasificación y regresión. Requiere instancias etiquetadas para entrenamiento.

Más detalles

Métodos Descriptivos en Minería de Datos

Métodos Descriptivos en Minería de Datos Métodos Descriptivos en Minería de Datos Descripción: En este curso se presentarán los principales conceptos y métodos en Minería de Datos. El énfasis principal del curso será examinar dichos métodos desde

Más detalles

Clasicación Automática de Documentos

Clasicación Automática de Documentos Clasicación Automática de Documentos Carlos G. Figuerola, José Luis Alonso Berrocal, Angel F. Zazo Universidad de Salamanca Grupo REINA http://reina.usal.es Carlos G. Figuerola (Grupo REINA) Clasicación

Más detalles

Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.

Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Sistemas Inteligentes Escuela Técnica Superior de Informática Universitat Politècnica de València Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Índice 1 Introducción 1 2 Agrupamientos particionales

Más detalles

Introducción Ordenación Clasificación Ord. + Clas. Geobotánica. Tema 12 Ordenación y clasificación

Introducción Ordenación Clasificación Ord. + Clas. Geobotánica. Tema 12 Ordenación y clasificación Introducción Clasificación Ord. + Clas. Geobotánica Tema 12 y clasificación Copyright: 2011 Francisco Alcaraz Ariza. Esta obra está bajo una licencia de Reconocimiento-No Comercial de Creative Commons

Más detalles

Métricas para la validación de Clustering

Métricas para la validación de Clustering Métricas para la validación de Clustering MINERIA DE DATOS Elizabeth León Guzmán, Profesor Asociado Universidad Nacional de Colombia Ingeniería de Sistemas y Computación Contenido Introducción Tipos de

Más detalles

Universidad Autónoma de Sinaloa

Universidad Autónoma de Sinaloa Séptima Edición del Diplomado en Estadística Mc. José V. Jiménez Ramírez Director de la Escuela de Ciencias Fisico-Matemáticas Tel. : 7 16 11 54 vidaljr@uas.uasnet.mx Dr. René Castro Montoya Coordinador

Más detalles

INFORME TAREA N 4 CLUSTERING

INFORME TAREA N 4 CLUSTERING Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Eléctrica EL4106 Inteligencia Computacional INFORME TAREA N 4 CLUSTERING Nombre Alumno : Profesor : Profesor Auxiliar

Más detalles

Análisis de Correspondencias Simple

Análisis de Correspondencias Simple 1 Capítulo 4 Análisis de Correspondencias Simple 41 INTRODUCCIÓN El Análisis de Correspondencias Simple permite describir las relaciones entre dos variables categóricas dispuestas en una tabla de contingencia

Más detalles

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada. ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos

Más detalles

Análisis multivariante II

Análisis multivariante II Análisis multivariante II Tema 2: Análisis de conglomerados Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa

Más detalles

Estadística Descriptiva 1era parte

Estadística Descriptiva 1era parte Universidad Nacional de Mar del Plata Facultad de Ingeniería Estadística Descriptiva 1era parte 1 Cuatrimestre 2018 COMISIÓN :1. Prof. Dr. Juan Ignacio Pastore. Qué es la estadística? La estadística, como

Más detalles

Técnicas de Muestreo Métodos

Técnicas de Muestreo Métodos Muestreo aleatorio: Técnicas de Muestreo Métodos a) unidad muestral elemental: a.1) muestreo aleatorio simple a.2) muestreo (seudo)aleatorio sistemático a.3) muestreo aleatorio estratificado b) unidad

Más detalles

Informe Turismo Emisivo Según Género Primer Semestre Año 2013

Informe Turismo Emisivo Según Género Primer Semestre Año 2013 Informe Turismo Emisivo Según Género Primer Semestre Año 2013 Noviembre, 2013 Fecha publicación: 26 de Noviembre de 2013 Documento elaborado por: SERVICIO NACIONAL DE TURISMO Subdirección de Estudios Av.

Más detalles

Técnicas de agrupamiento (clustering)

Técnicas de agrupamiento (clustering) Técnicas de agrupamiento (clustering) Introducción al Reconocimiento de Patrones IIE - FING - UdelaR 2015 Duda, Hart, Stork. Pattern Classification, capítulo 10. Jain, Duin, Mao. Statistical Pattern Recognition:

Más detalles

Análisis Espacial. Superposición: Cuando es posible conocer las relaciones de intersección entre diferentes capas temáticas.

Análisis Espacial. Superposición: Cuando es posible conocer las relaciones de intersección entre diferentes capas temáticas. Análisis Espacial Superposición: Cuando es posible conocer las relaciones de intersección entre diferentes capas temáticas. Proximidad-Vecindad: Cuando una estructura topológica permite investigar las

Más detalles

Análisis multivariante II

Análisis multivariante II Análisis multivariante II Tema 1: Introducción Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa Pedro Galeano

Más detalles

Estadística para las Ciencias Agropecuarias

Estadística para las Ciencias Agropecuarias Estadística para las Ciencias Agropecuarias Séptima Edición Di Rienzo, Julio Alejandro Casanoves, Fernando Gonzalez, Laura Alicia Tablada, Elena Margot Díaz, María del Pilar Robledo, Carlos Walter Balzarini,

Más detalles

Análisis de regresión y correlación lineal

Análisis de regresión y correlación lineal Análisis de regresión y correlación lineal En las unidades anteriores hemos aplicado metodologías estadísticas para analizar la información de una variable desde una o más muestras utilizando las herramientas

Más detalles

TEMA 6 ANÁLISIS DE CONGLOMERADOS

TEMA 6 ANÁLISIS DE CONGLOMERADOS TEMA 6 ANÁLISIS DE CONGLOMERADOS Facultade de Psicoloxía Campus Sur, s/n 15782 Santiago de Compostela wwwusces/psicom Dr Jesús Varela Mallou Dr Antonio Rial Boubeta Dr Eduardo Picón Prado Análisis Multivariante

Más detalles

En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de :

En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva Extraer conclusiones acerca de hipótesis

Más detalles

El ejemplo: Una encuesta de opinión

El ejemplo: Una encuesta de opinión El ejemplo: Una encuesta de opinión Objetivos Lo más importante a la hora de planificar una encuesta es fijar los objetivos que queremos lograr. Se tiene un cuestionario ya diseñado y se desean analizar

Más detalles

Estadística Inferencial. Estadística Descriptiva

Estadística Inferencial. Estadística Descriptiva INTRODUCCIÓN Estadística: Ciencia que trata sobre la teoría y aplicación de métodos para coleccionar, representar, resumir y analizar datos, así como realizar inferencias a partir de ellos. Recogida y

Más detalles

Análisis de imágenes digitales

Análisis de imágenes digitales Análisis de imágenes digitales SEGMENTACIÓN DE LA IMAGEN Segmentación basada en texturas INTRODUCCIÓN La textura provee información sobre la distribución espacio-local del color o niveles de intensidades

Más detalles

El perfil de la Demanda del Turismo Rural

El perfil de la Demanda del Turismo Rural I Jornadas Regionales sobre Turismo Rural El perfil de la Demanda del Turismo Rural Isabel P. Albaladejo Pina Mª Teresa Díaz Delfa Lourdes Molera Peris Dpto. Métodos Cuantitativos para la Economía Universidad

Más detalles

Prof. Dra. Silvia Schiaffino ISISTAN

Prof. Dra. Silvia Schiaffino ISISTAN Clustering ISISTAN sschia@ea.unicen.edu.ar Clustering: Concepto Cluster: un número de cosas o personas similares o cercanas, agrupadas Clustering: es el proceso de particionar un conjunto de objetos (datos)

Más detalles

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables Pág. N. 1 Índice general Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN 1.1 Diseño 1.2 Descriptiva 1.3 Inferencia Diseño Población Muestra Individuo (Observación, Caso, Sujeto) Variables Ejercicios de Población

Más detalles

Capítulo 1 Probabilidades y Estadística

Capítulo 1 Probabilidades y Estadística Capítulo 1 Probabilidades y Estadística 1 S E B A S T I Á N M A L D O N A D O A S I G N A T U R A : I N 3 4 0 1 S E M E S T R E O T O Ñ O, 2 0 1 0 Conceptos Preliminares Estadística 2 Estadística: ciencia

Más detalles

MINICURSO Introducción al análisis multivariado de datos químicos (Quimiometría) Dr. Roberto Pellerano

MINICURSO Introducción al análisis multivariado de datos químicos (Quimiometría) Dr. Roberto Pellerano MINICURSO Introducción al análisis multivariado de datos químicos (Quimiometría) Dr. Roberto Pellerano Descripción breve del curso: El análisis multivariado de datos químicos (Quimiometría) es el conjunto

Más detalles

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA ESTADÍSTICA La estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comprobaciones y sacar conclusiones. Un estudio estadístico consta

Más detalles

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1 Contenido Prólogo... i Presentación... iii Grupo de trabajo...v 1. Introducción y conceptos preliminares...1 2. Tipos de modelos estadísticos lineales...19 Caso 2.1...20 Caso 2.2...26 Caso 2.3...30 3.

Más detalles

Análisis de la relación precio marginal y demanda de electricidad mediante conglomerados

Análisis de la relación precio marginal y demanda de electricidad mediante conglomerados Análisis de la relación precio marginal y demanda de electricidad mediante conglomerados Andrés Ramos, Gonzalo Cortés, Jesús María Latorre, Santiago Cerisola Universidad Pontificia Comillas Índice Introducción

Más detalles

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows. TEMA 12 REGRESIÓN LINEAL Mediante la regresión lineal se busca hallar la línea recta que mejor explica la relación entre unas variables independientes o variables de exposición y una variable dependiente

Más detalles

CENTRO UNIVERSITARIO UAEM ZUMPANGO INGENIERO EN COMPUTACIÓN MUESTRAS ALEATORIAS Y DISTRIBUCIONES DE MUESTREO

CENTRO UNIVERSITARIO UAEM ZUMPANGO INGENIERO EN COMPUTACIÓN MUESTRAS ALEATORIAS Y DISTRIBUCIONES DE MUESTREO CENTRO UNIVERSITARIO UAEM ZUMPANGO INGENIERO EN COMPUTACIÓN MUESTRAS ALEATORIAS Y DISTRIBUCIONES DE MUESTREO ELABORÓ: M. EN C. LUIS ENRIQUE KU MOO FECHA: AGOSTO DE 2017 UNIDAD DE APRENDIZAJE PROBABILIDAD

Más detalles

Prácticas de Ecología Curso 3 Práctica 1: Muestreo

Prácticas de Ecología Curso 3 Práctica 1: Muestreo PRÁCTICA 1: MUESTREO Introducción La investigación ecológica se basa en la medición de parámetros de los organismos y del medio en el que viven. Este proceso de toma de datos se denomina muestreo. En la

Más detalles

AÑO: Datos de la asignatura Nombre Estadística. Tipo (Marque con una X) Nivel (Marque con una X) Obligatoria X Grado X Optativa Post-Grado

AÑO: Datos de la asignatura Nombre Estadística. Tipo (Marque con una X) Nivel (Marque con una X) Obligatoria X Grado X Optativa Post-Grado AÑO: 2015 1- Datos de la asignatura Nombre Estadística Código M178 Tipo (Marque con una X) Nivel (Marque con una X) Obligatoria X Grado X Optativa Post-Grado Área curricular a la que pertenece Matemática

Más detalles

Clusters. Walter Sosa Escudero. Universidad de San Andres y CONICET

Clusters. Walter Sosa Escudero. Universidad de San Andres y CONICET (wsosa@udesa.edu.ar) Universidad de San Andres y CONICET Ideas generales X matriz de N filas y p columnas. Cada fila es un punto de p dimensiones. Cada columna se corresponde con una variable. Ejemplo:

Más detalles

Part VII. Estadística I. Mario Francisco. Introducción a la inferencia. Estimación puntual. Propiedades deseables de los estimadores

Part VII. Estadística I. Mario Francisco. Introducción a la inferencia. Estimación puntual. Propiedades deseables de los estimadores Part VII La inferencia puede definirse como el conjunto de métodos mediante cuales podemos extraer información sobre distintas características de interés de cierta distribución de probabilidad de la cual

Más detalles

Julio Deride Silva. 18 de agosto de 2010

Julio Deride Silva. 18 de agosto de 2010 Estadística Descriptiva Julio Deride Silva Área de Matemática Facultad de Ciencias Químicas y Farmcéuticas Universidad de Chile 18 de agosto de 2010 Tabla de Contenidos Estadística Descriptiva Julio Deride

Más detalles

Décimas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, noviembre de 2005

Décimas Jornadas Investigaciones en la Facultad de Ciencias Económicas y Estadística, noviembre de 2005 Badler, Clara E. Alsina, Sara M. 1 Puigsubirá, Cristina R. 1 Vitelleschi, María S. 1 Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística (IITAE) UTILIZACIÓN DE METODOLOGÍA PARA

Más detalles

Ejemplo: Si lanzamos un dado 7 veces y 3 de ellas nos sale par, la frecuencia

Ejemplo: Si lanzamos un dado 7 veces y 3 de ellas nos sale par, la frecuencia Probabilidad La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles,

Más detalles

MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER. Resumen

MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER. Resumen MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER Resumen El objetivo del presente estudio fue encontrar la similitud entre textos para asociar reclamos y determinar si estos

Más detalles

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS)

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS) 2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS) La idea principal en este capitulo es el inicio a planear los diseño experimentales y su correspondiente análisis estadístico. En este caso iniciaremos

Más detalles

Conjuntos de Clasificadores (Ensemble Learning)

Conjuntos de Clasificadores (Ensemble Learning) Aprendizaje Automático Segundo Cuatrimestre de 2016 Conjuntos de Clasificadores (Ensemble Learning) Gracias a Ramiro Gálvez por la ayuda y los materiales para esta clase. Bibliografía: S. Fortmann-Roe,

Más detalles

Paquete de R: isocir

Paquete de R: isocir Paquete de R: isocir Inferencia ISOtónica con datos CIRculares resolviendo problemas de la Biología Molecular. Sandra Barragán Andrés(1), Cristina Rueda(1), Miguel A. Fernández (1) and Shyamal D. Peddada

Más detalles

Segmentación de imágenes biomédicas

Segmentación de imágenes biomédicas Segmentación de imágenes biomédicas Definición de segmentación La segmentación es la partición de una imagen, en un subconjunto regiones homogéneas en base a una característica (intensidad, textura,...).

Más detalles

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE) El análisis de correspondencias Ana María López Jiménez Dept. Psicología Experimental (USE) 4. El análisis de correspondencias 4.. Introducción 4.2. Tabla de correspondencias 4.3. Dependencia e independencia

Más detalles

RESUMEN PROGRAMACIÓN ESTADÍSTICA I. 3. Diseñar tablas estadísticas para coleccionar y ordenar datos.

RESUMEN PROGRAMACIÓN ESTADÍSTICA I. 3. Diseñar tablas estadísticas para coleccionar y ordenar datos. RESUMEN PROGRAMACIÓN ESTADÍSTICA I OBJETIVOS 1. Conocer los principales conceptos usados en Estadística: población, muestra e individuo. 2. Diferenciar los tres tipos de variables estadísticas: cualitativas,

Más detalles

Análisis Cluster. Metodología de las CC del Comp-Universitat de València. Abril Pedro Valero

Análisis Cluster. Metodología de las CC del Comp-Universitat de València. Abril Pedro Valero Análisis Cluster Pedro Valero Mora-valerop@uv.es Metodología de las CC del Comp-Universitat de València Abril 2011 Pedro Valero Mora-valerop@uv.es Metodología de las CC del Comp-Universitat de València

Más detalles

Estimación del modelo lineal con dos variables

Estimación del modelo lineal con dos variables Estimación del modelo lineal con dos variables el método de mínimos cuadrados ordinarios (MCO) Mariana Marchionni marchionni.mariana@gmail.com Mariana Marchionni Estimación del modelo lineal por MCO 1

Más detalles

Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Estadística Básica COMISIÓN 1. 1 Cuatrimestre 2016

Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Estadística Básica COMISIÓN 1. 1 Cuatrimestre 2016 Universidad Nacional de Mar del Plata Facultad de Ingeniería Estadística Básica COMISIÓN 1 1 Cuatrimestre 2016 s. La palabra Estadística procede del vocablo Estado, pues era función principal de los Gobiernos

Más detalles