IIC 3633 - Sistemas Recomendadores

Documentos relacionados
IIC Sistemas Recomendadores

IIC Sistemas Recomendadores

IIC Sistemas Recomendadores

IIC Sistemas Recomendadores

Inferencia Estadística

IIC Sistemas Recomendadores. Denis Parra Profesor Asistente, DCC, PUC CHile

Pruebas de. Hipótesis

Conceptos básicos de estadística para clínicos

7.6 Comparación entre dos medias Poblacionales usando muestras independientes

Práctica 3. Emilio Torres. Departamento de Estadística Universidad de Oviedo February 23, 2011

Test ( o Prueba ) de Hipótesis

IIC Sistemas Recomendadores

PRÁCTICA 4. Ingeniería Técnica Industrial (2º) - Mecánica.

PRUEBAS NO PARAMÉTRICAS

Detergente Lavad.1 Lavad.2 Lavad.3 Media A B C D Media

Práctica 5. Contrastes paramétricos en una población

10. DISEÑOS EXPERIMENTALES

Métodos no paramétricos para la comparación de dos muestras

Comparación de medias

COMITÉ DE ÉTICA EN INVESTIGACIÓN Y COMITÉ DE INVESTIGACIÓN. Autores: Dra. Liliana Muñoz Hernandez Dr. Carlos A. Aguilar Salinas

Fundamentos de Investigación de Operaciones Investigación de Operaciones 1

Son las dispersiones diferentes?

Tema 3: Diseño de experimentos

Multiple Linear Regression

Capítulo 1: Fundamentos: Lógica y Demostraciones Clase 1: Lógica Proposicional

Relación entre tests de hipótesis bilaterales e intervalos de confianza

Palabras Clave Enseñanza, Computación I, Programación Gráfica, Algoritmos, Programación Estructurada.

Curso Práctico de Bioestadística Con Herramientas De Excel

Hay diferencias en la media del HOMA entre los diabéticos y los no diabéticos? Resumen del procesamiento de los casos

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

Se asignaron al azar ratas en condiciones similares a cuatro dietas (A D). Dos semanas después se midió el tiempo de coagulación.

DISEÑO DE INDICADORES DE DESIGUALDAD SOCIAL EN LAS CIUDADES.-

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros

Principios de Estadística. Intro. En R. Ejercicios

EJEMPLO DE REPORTE DE LIBERTAD FINANCIERA

Análisis Estadísticos con R

Lección 1-Introducción a los Polinomios y Suma y Resta de Polinomios. Dra. Noemí L. Ruiz Limardo 2009

Análisis de la Varianza (ANOVA) de un factor y test a posteriori.

Curso Comparabilidad de resultados

INTRODUCCIÓN A LA ECONOMIA II

Indicaciones específicas para los análisis estadísticos.

Tests de hipótesis estadísticas

Unidad: Representación gráfica del movimiento

IV. DISCUSIÓN. El estrés ha sido objeto de estudio a través de un largo periodo de tiempo y aún

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics-

Análisis de propuestas de evaluación en las aulas de América Latina

CUESTIONARIO CMC.2 (ESO y Bachillerato).

INFERENCIA ESTADISTICA: CONTRASTE DE HIPÓTESIS

Capítulo 3. Estimación de elasticidades

EL PODER ESTADÍSTICO. DIFERENCIAS OBSERVADAS CUANDO SE CAMBIA EL ALFA ESTABLECIDO EN UN ESTUDIO DE INVESTIGACIÓN

Métodos estadísticos y numéricos Contraste de hipótesis pag. 1 PROBLEMAS RESUELTOS DE CONTRASTE DE HIPÓTESIS

Capítulo 3. Cómo evaluar un proyecto de inversión.

Solución ESTADÍSTICA. Prueba de evaluación contínua 2 - PEC2

POR QUÉ EL VALOR PRESENTE NETO CONDUCE A MEJORES DECISIONES DE INVERSIÓN QUE OTROS CRITERIOS? ( Brealey & Myers )

Sistemas de ecuaciones lineales

SESIÓN PRÁCTICA 6: CONTRASTES DE HIPÓTESIS PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

7.- PRUEBA DE HIPOTESIS

CAPÍTULO IV MARCO METODOLÓGICO. Se empleará el método explicativo, el cual buscará medir

Programación Lineal Continua/ Investigación Operativa. EJERCICIOS DE INVESTIGACIÓN OPERATIVA. Hoja 1

El concepto de asociación estadística. Tema 6 Estadística aplicada Por Tevni Grajales G.

TEMA 3 PROFESOR: M.C. ALEJANDRO GUTIÉRREZ DÍAZ 2 3. PROCESAMIENTO DE CONSULTAS DISTRIBUIDAS

Máquinas de Factorización { Factorization Machines (FM) } Denis Parra Sistemas Recomendadores IIC do semestre de 2016

Te damos los elementos básicos de los vectores para que puedas entender las operaciones básicas.

Pero qué hacemos cuando no se cumple la normalidad o tenemos muy pocos datos?

Empleos de Emergencia: Realidad Laboral en las Zonas del Terremoto

Estrategias de producto y precio

Hipótesis Alternativa: Afirmación sobre las posibles alternativas que se tienen a la afirmación hecha en la hipótesis nula.

Combinar comentarios y cambios de varios documentos en un documento

Capitulo 4. Polinomios

Alineamiento. Cognitens-WLS400M

Inducción. El arco del conocimiento. Intro: hace años. Intro: el método científico (II) Intro: el método científico (I)

Ciudad de Guatemala, 2013

ACCIONES Y OTROS TÍTULOS DE INVERSIÓN


1 Introducción Distribución exponencial Distribución Weibull Distribuciones Gamma y k-erlang... 10

Inferencia de información para dos o más poblaciones

PRUEBA DE KOLMOGOROV SMIRNOV (Contraste sobre la forma de la distribución) F(X) es la función de distribución que hipotetizamos.

En España hay 2,5 millones de. Usuarios de lentes de contacto, Puede seguir creciendo esta cifra?

CORRELACIONES CON SPSS

Implicit Feedback for Recommender Systems. Denis Parra Sistemas Recomendadores IIC 3633

Programa de Statgraphics. TITULO: Aplicaciones del Análisis de la Varianza. Resolución de dos Ejercicios propuestos paso por paso.

DETERMINACIÓN DEL COEFICIENTE BETA (β) o RIESGO NO DIVERSIFICABLE

CALIDAD TOTAL. Visión estratégica y buena gestión son los ingredientes fundamentales.

ELABORACION DE ESTADOS FINANCIEROS CON DATOS INCOMPLETOS

Métodos generales de generación de variables aleatorias

IIC Sistemas Recomendadores

Unidad de Consultoría Estadística

CONTRASTES DE HIPÓTESIS DE 1 POBLACIÓN

ESTÁNDARES DE NYSE ESTÁNDARES DE NASDAQ NUESTRAS PRÁCTICAS DE GOBIERNO CORPORATIVO

Tema IV. EL ANOVA de un factor

VECTORES. Módulo, dirección y sentido de un vector fijo En un vector fijo se llama módulo del mismo a la longitud del segmento que lo define.

UNIDAD 6. Programación no lineal

SPSS: ANOVA de un Factor

ESTUDIO COMPARATIVO DEL DESEMPEÑO DE ALUMNOS DE ESTADÍSTICA EN LAS ORGANIZACIONES BAJO LAS MODALIDADES POR INTERNET, VIRTUAL Y PRESENCIAL.

II. ANÁLISIS DE SISTEMAS DE MEDICIÓN

Diseño curricular del programa formativo del máster. Asignaturas Carácter Créditos Semestre. Metodología de Investigación Obligatoria 6 1 y 2

Los valores de las respuesta son las puntuaciones que, de cada individuo, o cluster, obtenemos semanalmente durante cinco semanas consecutivas:

2.2 Transformada de Laplace y Transformada Definiciones Transformada de Laplace

Índice Introducción Números Polinomios Funciones y su Representación. Curso 0: Matemáticas y sus Aplicaciones Tema 1. Números, Polinomios y Funciones

Soluciones Examen de Estadística Ingeniería Superior de Telecomunicación

Transcripción:

Tests Estadísticos para Comparar Recomendaciones IIC 3633 - Sistemas Recomendadores Denis Parra Profesor Asistente, DCC, PUC CHile Page 1 of 16

TOC En esta clase 1. Significancia Estadistica de los Resultados T-test Signed test Wilcoxon 2. Tests a grupos ANOVA Kruskal Wallis 3. Cómo reproducir resultados de papers? 4. Demostraciones interactivas 2/16 Page 2 of 16

Antes de empezar 1. Métricas de predicción vistas la clase anterior RMSE, MSE, MAE Precision, Recall, F-1 MRR AP, MAP ndcg [Pending] Se mencionó Kendall-Tau y Spearman Rank Correlation 2. Otras métricas [Pending] Diversity (Ziegler) Lathia's Diversity (over time) MPR (for implicit feedback) 3/16 Page 3 of 16

Rendimiento de una lista: Kendall-Tau Se compara el resultado de ranking como lista, respecto a una lista que representa el "ground truth". En el contexto RecSys, se ha usado una modificación llamada AP correlation: es útil. 2 C(i) τ aρ = [ ] 1 N 1 i I index(i) 1 N C(i) index(i) APcorrelation es el numero de items rankeados en la lista, el numero de items reankeados bajo de forma correcta. Valores de van entre +1 to -1. Un problema que tiene es que asume un orden total, con un orden parcial de los elementos no 4/16 Page 4 of 16

Diversity (Ziegler) Esta métrica se calcula sobre una lista de recomendaciones. Se compara la similaridad entre los pares de elementos recomendados, obteniendo la Intra-list Similarity bk P wi bk P wi, b k b c c o ( b k, b c ) ILS( P wi ) = 2 Valores altos de ILS denotan menor diversidad en la lista. Basado en esta métrica, los autors proponen un algoritmo de diversificación. Los resultados de un estudio off-line y online muestran que la satisfacción del usuario va más allá de la precisión de la recomendación, incluyendo la diversidad percibida de las recomendaciones. Ref: Ziegler, C. N., McNee, S. M., Konstan, J. A., & Lausen, G. (2005, May). Improving recommendation lists through topic diversification. In Proceedings of the 14th international conference on World Wide Web (pp. 22-32). ACM. 5/16 Page 5 of 16

Diversidad (Lathia) en el tiempo Lathia compara diversidad y novedad a lo largo del tiempo. La razón corresponde a la fracción de elementos de que no están en la lista. Por otro lado, "novelty" compara la última lista recomendada \textit{l2} con respecto al conjunto de todos los ítems recomendados a la A t fecha. L1 L2/L1 diversity(l1, L2, N) = L2 L1 N novelty(l2, N) = L2 A t N L2 Ref: Lathia, N., Hailes, S., Capra, L., & Amatriain, X. (2010, July). Temporal diversity in recommender systems. In Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval (pp. 210-217). ACM. 6/16 Page 6 of 16

Mean Percentage Ranking (Implicit Feedback) Donde indica si el usuario consumio el item y denota el percentile-ranking de dentro de una lista ordenada. De esta forma, r ui u i rank ui rank ui = 0% significa que i está al tope de la lista. MPR = ui rui t rank ui ui rui t i Ref: Hu, Y., Koren, Y., & Volinsky, C. (2008, December). Collaborative filtering for implicit feedback datasets. In Data Mining, 2008. ICDM'08. Eighth IEEE International Conference on (pp. 263-272). IEEE. 7/16 Page 7 of 16

Comparando Métricas de Performance entre Recomendadores Hipótesis nula (H0): No existe diferencia entre la media métrica de performance (RMSE, MAP, ndcg, etc.) del recomendador R 1 R 2 versus el recomendador. H 0 : metrica ˉ R 1 = metrica ˉ R 2 Hipótesis alternativa (H1): Si existe diferencia H 1 : metrica ˉ R 1 metrica ˉ R 2 Opciones de Test para chequear si rechazamos o fallamos en rechazar la hipótesis nula H 0 - T-test (paired y not paired): test paramétrico, válido bajo ciertos supuestos - Signed y Wilcoxon: No paramétrico, no requiere los supuestos del T-test pero tiene menos poder (en el sentido estadistico ) α p-value < 0, 05 Debemos definir un nivel de significacion, por lo general se rechaza la hipotesis nula con. 8/16 Page 8 of 16

Supuestos del T-test Variable Bivariada independiente (grupos A, B) Variable dependiente continua (MAP, precision, recall, etc.) Cada observación de la variable es independiente de las otras observaciones: - El MAP de un usuario es independiente del MAP de otro usuario - En el t-test pareado, requerimos sólo las diferencias de pares ( ) que sean independientes La variable dependiente tiene una distribución normal, con la misma varianza σ 2 en cada grupo (como si la distribución del grupo A y del grupo B fueran la misma, pero una desplazada respecto de la otra, sin cambiar de forma) A i B i ** REF: http://www.csic.cornell.edu/elrod/t-test/t-test-assumptions.html 9/16 Page 9 of 16

Ejemplo 1: T-Test # Datasets de prueba # lista de MAP para recomendador 1, con 30 usuarios, media de 0.2 y desv. st. de 0.1 rec1_map <- rnorm(30, mean = 0.2, sd = 0.1) # lista de MAP para recomendador 1, con 30 usuarios, media de 0.2 y desv. st. de 0.1 rec2_map <- rnorm(30, mean = 0.4, sd = 0.15) summary(rec1_map) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 0.06167 0.16130 0.21530 0.20750 0.26830 0.31120 summary(rec2_map) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 0.1285 0.2687 0.4044 0.3780 0.4656 0.6492 10/16 Page 10 of 16

Gráfico de las distribuciones # Graficos plot(density(rec1_map), col=2, main="density of MAP in two recommenders", xlab="map", ylab="probability", xlim=c(-1, 1), ylim=c(0, 6)) lines(density(rec2_map), col=3) 11/16 Page 11 of 16

T-test de Muestras Independientes Revisamos si el p-value es menor de 0.05 (nuestro α level ) # Independent samples T-test t.test(rec1_map,rec2_map) ## ## Welch Two Sample t-test ## ## data: rec1_map and rec2_map ## t = -6.2627, df = 45.027, p-value = 1.268e-07 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -0.2252576-0.1156287 ## sample estimates: ## mean of x mean of y ## 0.2075135 0.3779566 12/16 Page 12 of 16

T-test de Pares Tiene mayor poder en términos estadísticos: La probablidad de encontrar un efecto, dado que existe, es mayor que en un t-test de muestras independientes. # Paired samples T-test t.test(rec1_map,rec2_map,paired=true ) ## ## Paired t-test ## ## data: rec1_map and rec2_map ## t = -5.9812, df = 29, p-value = 1.677e-06 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -0.2287251-0.1121612 ## sample estimates: ## mean of the differences ## -0.1704432 13/16 Page 13 of 16

Tests alternativos no-paramétricos Cuando no se cumplen los supuestos (normalidad) y no se puede hacer alguna corrección o relajo de ellos, debemos usar alternativas (que usualmente tienen menos poder estadístico) Wilcoxon rank sum test (no es el mismo que signed rank test) Wilcoxon Signed Rank Test: Para datos pareados 14/16 Page 14 of 16

Wilcoxon Rank Sum Test También llamado Mann-Whitney U, Wilcoxin-Mann-Whitney test, o Wilcoxin rank sum test. Consiste en calcular la métrica U basada en rankear las observaciones luego de mezclar ambas muestras. wilcox.test(rec1_map,rec2_map) ## ## Wilcoxon rank sum test ## ## data: rec1_map and rec2_map ## W = 128, p-value = 4.215e-07 ## alternative hypothesis: true location shift is not equal to 0 15/16 Page 15 of 16

Wilcoxon Signed-Rank test Se basa en calcular diferencias entre pares La estadística de test corresponde al número de diferencias positivos o negativas H 0 : la mediana de las diferencias entre pares es igual a zero wilcox.test(rec1_map,rec2_map, paired=true) ## ## Wilcoxon signed rank test ## ## data: rec1_map and rec2_map ## V = 26, p-value = 1.991e-06 ## alternative hypothesis: true location shift is not equal to 0 16/16 Page 16 of 16