Análisis del juego televisivo QUIÉN QUIERE SER MILLONARIO? R



Documentos relacionados
Un juego de cartas: Las siete y media

Ecuaciones de primer grado con dos incógnitas

E 1 E 2 E 2 E 3 E 4 E 5 2E 4

Cómo?: Resolviendo el sistema lineal homógeneo que satisfacen las componentes de cualquier vector de S. x4 = x 1 x 3 = x 2 x 1

1.1. Introducción y conceptos básicos

ANÁLISIS DE UN JUEGO DE CARTAS: LAS SIETE Y MEDIA

TEMA 3: MÉTODO CONTABLE. LAS CUENTAS

Inversión. Inversión. Arbitraje. Descuento. Tema 5

Lección 24: Lenguaje algebraico y sustituciones

CAPITULO V. SIMULACION DEL SISTEMA 5.1 DISEÑO DEL MODELO

Aproximación local. Plano tangente. Derivadas parciales.

Sistemas de numeración

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora

Divisibilidad y números primos

Análisis de los datos

Bases de datos en Excel

Fórmulas y enfoques utilizados para calcular el Tasa Efectiva de Interés (TEI) o Costo Anual Total (CAT)

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: Fax.:

UNIDAD 1. LOS NÚMEROS ENTEROS.

ÍNDICE DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ

H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS

FUNDACION NIC-NIIF

Tema 2. Espacios Vectoriales Introducción

x y 8000 x + y a) La región factible asociada a las restricciones anteriores es la siguiente: Pedro Castro Ortega lasmatematicas.

Poder en el congreso de la Unión Europea

Fundamentos de Investigación de Operaciones Investigación de Operaciones 1

EJERCICIOS RESUELTOS SOBRE ERRORES DE REDONDEO

Funciones, x, y, gráficos

SISTEMAS DE NUMERACIÓN. Sistema decimal

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

Informática Bioingeniería

UNIDAD 1 LAS LEYES FINANCIERAS DE CAPITALIZACIÓN DESCUENTO

CESMA BUSINESS SCHOOL MATEMÁTICAS FINANCIERAS. TEMA 3 CAPITALIZACIÓN COMPUESTA

ORGANIZACIÓN INDUSTRIAL (16691-ECO) PARTE II: MODELOS DE COMPETENCIA IMPERFECTA TEMA 2: EL MONOPOLIO SOLUCIÓN A LOS PROBLEMAS PROPUESTOS

Análisis de medidas conjuntas (conjoint analysis)

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros.

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Un problema sobre repetidas apuestas al azar

Una vez que tengamos el padrón de un determinado tributo con todos sus datos actualizados, podemos generar los recibos de ese padrón.

Base de datos en Excel

TEMA 13. FONDOS DE INVERSIÓN

1

PARTE 3 ECUACIONES DE EQUIVALENCIA FINANCIERA T E M A S

UCLM - Pruebas de Acceso a Enseñanzas Universitarias Oficiales de Grado (PAEG)

Temas de electricidad II

Universidad Diego Portales Facultad de Economía y Empresa

Accesibilidad web GUÍA FUNCIONAL

Ejemplo de tipo fijo CALCULADOR CONTABLE

Subespacios vectoriales en R n

La nueva criba de Eratóstenes Efraín Soto Apolinar 1 F.I.M.E. U.A.N.L. San Nicolás, N.L. México. efrain@yalma.fime.uanl.mx

La ventana de Microsoft Excel

4 Pruebas y análisis del software

Cálculo Simbólico también es posible con GeoGebra

De dos incógnitas. Por ejemplo, x + y 3 = 4. De tres incógnitas. Por ejemplo, x + y + 2z = 4. Y así sucesivamente.

Apuntes de Matemática Discreta 9. Funciones

Dirección de Evaluación de la Calidad Educativa

1.- INTRODUCCIÓN 2.- PARÁMETROS

Aplicaciones Lineales

Cifras significativas e incertidumbre en las mediciones

ETS Caminos Santander. Curso Ejercicios de introducción a la programación.

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

Caso práctico 1: Determinación del coste de capital de REGRESENGER.

Programa para el Mejoramiento de la Enseñanza de la Matemática en ANEP Proyecto: Análisis, Reflexión y Producción. Fracciones

Unidad 8. Estado de Perdidas y Ganancias o Estados de Resultados

Transformación de binario a decimal. Transformación de decimal a binario. ELECTRÓNICA DIGITAL

Conclusiones. Particionado Consciente de los Datos

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

Soluciones de los ejercicios de Selectividad sobre Probabilidad de Matemáticas Aplicadas a las Ciencias Sociales II

GUÍA RED SOCIAL FACEBOOK

Lección 22: Probabilidad (definición clásica)

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS

Ejemplos de conversión de reales a enteros

La estrategia básica para jugar blackjack.

Juego Azar O Matemática?

Datos del autor. Nombres y apellido: Germán Andrés Paz. Lugar de nacimiento: Rosario (Código Postal 2000), Santa Fe, Argentina

Uso del Programa Gantt Project

Los estados financieros proporcionan a sus usuarios información útil para la toma de decisiones

MÓDULO 2. LEYES FINANCIERAS DE CAPITALIZACIÓN Y DESCUENTO SIMPLE

Matrices equivalentes. El método de Gauss

TPVFÁCIL. Caja Real. Definiciones.

3º Grado Educación Infantil Bilingüe Números. Método Singapur y F. Bravo E R

CASO PRÁCTICO DISTRIBUCIÓN DE COSTES

FICHERO MUESTRA Pág. 1

En cualquier caso, tampoco es demasiado importante el significado de la "B", si es que lo tiene, lo interesante realmente es el algoritmo.

Algunas cifras de campañas de Marketing que es importante que conozca

MANUAL DE PRACTICUM12 PARA CENTROS EDUCATIVOS ÁMBITO MÁSTER

Unidad Formativa UF0525: Gestión Administrativa para el Asesoramiento de Productos de Activo

PARA COMERCIANTES Y AUTÓNOMOS. INFORMACIÓN SOBRE TARJETAS DE CRÉDITO.

GUIA APLICACIÓN DE SOLICITUDES POR INTERNET. Gestión de Cursos, Certificados de Aptitud Profesional y Tarjetas de Cualificación de Conductores ÍNDICE

BREVE MANUAL DE SOLVER

1. INVERSA DE UNA MATRIZ REGULAR

Actividades con GeoGebra

Servicios Educativos Del Estado De Chihuahua Sistema Integral de Presupuestos y Materiales. Indice. Introducción Barra de Herramientas...

RIESGO Y RENTABILIDAD DE LA EMPRESA (Riesgo y Rendimiento) Qué es lo que determina el rendimiento requerido de una inversión?

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

Transcripción:

Análisis del juego televisivo QUIÉN QUIERE SER MILLONARIO? R Federico Perea Justo Puerto * MaMaEuSch ** Management Mathematics for European Schools 94342 - CP - 1-2001 - DE - COMENIUS - C21 * Universidad de Sevilla ** Este proyecto ha sido desarrollado con ayuda parcial de la Unión Europea dentro del marco del programa Sócrates. El contenido no refleja necesariamente la posición de la Unión Europea ni implica ninguna responsabilidad por parte de la Unión Europea. 0

1. Introducción Este trabajo versa sobre el popular juego televisivo Quién quiere ser millonario? R. Formularemos un modelo matemático del juego y encontraremos la estrategia óptima de un participante del juego. Cuando se escribió este trabajo había 45 versiones del programa en 71 países. En más de 100 países, diferentes cadenas de televisión habían comprado la licencia y emitirían el programa antes o después. Quién quiere ser millonario? R debutó en el Reino Unido en Septiembre de 1998 y tuvo un gran éxito. Después se extendió por todo el mundo, llegando a España en el verano del año 2000, donde fue emitido por la cadena de televisión Telecinco. Aunque las reglas del juego son similares en todos los países, en este trabajo nos referiremos a las reglas seguidas en la versión española del juego. Se elige a un candidato de entre 10, y éste tiene la oportunidad de ganar un premio de 50 millones de pesetas (en adelante las cifras serán dadas en Euros). Para alcanzar dicha cantidad debe responder correctamente a 15 preguntas de respuesta múltiple seguidas. El concursante puede abandonar el juego y mantener sus ganancias. En cada etapa le proponen una pregunta y cuatro posibles respuestas antes de decidir si juega o no. Una vez que ha decidido seguir jugando, tiene que responder correctamente a dicha pregunta para poder seguir en el juego. Cada pregunta tiene un cierto valor monetario, dados en la siguiente tabla en Euros. El dinero que el concursante puede ganar si contesta correctamente a cada una de las preguntas viene dado en la tabla 1. Hay tres estados ( puntos de seguridad ) donde el dinero se acumula y no se puede perder aunque el concursante responda incorrectamente a una de las preguntas. Esas tres cantidades de seguridad son: 1800, 18000 y 300000 Euros. No hay tiempo límite para responder a una pregunta. Si el tiempo se agota con un jugador concreto, el siguiente programa continuará con el mismo jugador. En cualquier momento el concursante puede usar uno o más comodines. Estos son: Opción del 50 %: la computadora elimina dos de las cuatro posibles respuestas, dejando sólo la correcta y una de las incorrectas. Teléfono: el concursante puede consultar la pregunta por teléfono a un amigo o familiar, con un tiempo máximo de llamada de 30 segundos. Público: cada miembro del público tiene la opción de elegir la respuesta que considere correcta presionando un botón en su asiento. Los resultados de las elecciones del público se muestran al concursante en porcentajes. 1

pregunta n o valor monetario 1 150 2 300 3 450 4 900 5 1800 6 2100 7 2700 8 3600 9 4500 10 9000 11 18000 12 36000 13 72000 14 144000 15 300000 Cuadro 1: Recompensas inmediatas En adelante nos referiremos a esos comodines como: comodín 1 para el 50 %, comodín 2 para el Teléfono, comodín 3 para el Público. Cada concursante puede usar cada comodín sólo una vez durante el juego completo. El principal objetivo de este trabajo es mostrar como un problema real de toma de decisión difícil puede ser modelado y resuelto fácilmente mediante herramientas básicas de la Investigación Operativa, en nuestro caso mediante Programación Dinámica Discreta. Este objetivo se alcanzará después de tres fases: 1. modelado, 2. formulación matemática, 3. simulación del proceso real. 2

En la fase de modelado identificamos los elementos que describen el problema y los asociamos con elementos matemáticos. En la fase de formulación proponemos una descripción del problema como un proceso de decisión Markoviano, resuelto mediante programación matemática discreta. Se presentarán dos modelos que guiarán a los jugadores a encontrar estrategias óptimas que maximicen su ganancia esperada, modelo llamado estrategia de máxima esperanza, y estrategias óptimas que maximicen la probabilidad de alcanzar una cantidad de dinero fijada, estrategia llamada estrategia de máxima probabilidad. Al hacer esto estableceremos dos modelos matemáticos del juego, y encontraremos estrategias óptimas para un concursante cualquiera. Esto se consigue mediante la descripción matemática del juego como un proceso de decisión Markoviano discreto y su resolución mediante programación matemática discreta. El resto del trabajo se organiza de la siguiente forma: la segunda sección está dedicada a mostrar el modelo matemático general (estados, posibles acciones, recompensas, función de transición, probabilidades de contestar correctamente y sus estimaciones). En la tercera sección presentamos la descripción del primer modelo (estrategia de máxima esperanza). También en esta sección se presenta el caso en el que queremos maximizar la probabilidad de ganar una cierta cantidad de dinero (estrategia de máxima probabilidad), comenzando en un estado de partida. Después de esto, presentamos simulaciones de cómo jugar a este juego de forma dinámica. 2. El modelo general El juego real requiere que el participante tome decisiones cada vez que contesta a una pregunta correctamente. El horizonte es finito, es decir, tenemos N = 16 posibles estados, donde el 16 o estado corresponde a la situación después de contestar correctamente la pregunta número 15. Para tomar una decisión, el concursante tiene que conocer el número de la pregunta en la que está y el número de comodines que ha usado hasta ese momento. La historia del juego se resume con esa información. Definimos S como el conjunto de vectores de estado s = (k, l 1, l 2, l 3 ), donde k es el índice de la pregunta en la que nos encontramos y { 1 si el comodín i no ha sido utilizado, l i = 0 si el comodín i ha sido utilizado en una pregunta anterior. En cualquier estado s S siendo A(s) el conjunto de posibles acciones en ese estado. Si suponemos que estamos en el estado s = (k, l 1, l 2, l 3 ), A(s) dependerá del índice de la pregunta en la que estemos y de los comodines que nos queden por usar. Si k = 16 el juego se ha terminado y no hay posibles acciones. Si k 15, el concursante tiene varias posibilidades: 3

r 0 0 r 1 150 r 2 300 r 3 450 r 4 900 r 5 1800 r 6 2100 r 7 2700 r 8 3600 r 9 4500 r 10 9000 r 11 18000 r 12 36000 r 13 72000 r 14 144000 r 15 300000 r0 0 r1 0 r2 0 r3 0 r4 0 r5 1800 r6 1800 r7 1800 r8 1800 r9 1800 r10 9000 r11 9000 r12 9000 r13 9000 r14 9000 r15 300000 Cuadro 2: Recompensas inmediatas y dinero asegurado Responder a la pregunta sin usar comodines. Responder a la pregunta utilizando uno o más comodines, si le queda alguno. En ese caso, el concursante debe especificar el comodín que va a usar. Plantarse y abandonar el juego Si el jugador decide no contestar, la recompensa inmediata que recibe es el valor monetario de la última pregunta contestada. Si decide contestar, la recompensa inmediata es una variable aleatoria y depende de la probabilidad de contestar correctamente. Si al responder lo hace incorrectamente, la recompensa inmediata es el último punto de seguridad alcanzado antes de fallar. Si el concursante contesta correctamente, no hay recompensa inmediata, pues pasará a la siguiente pregunta. Denotemos r k la recompensa inmediata que obtiene el concursante si decide dejar el juego después de responder correctamente la pregunta k-ésima, es decir, si decide pararse en el estado s = (k + 1, l 1, l 2, l 3 ), y denotemos por rk la recompensa inmediata si fallase en el estado s = (k + 1, l 1, l 2, l 3 ). Ver la tabla 2. 4

Después de tomar una decisión nos encontraremos en un nuevo estado del proceso. Si el concursante decide plantarse o falla la pregunta, el juego se termina. Si decide seguir jugando y responde correctamente, hay una transición a otro estado t(s, a) = (k, l 1, l 2, l 3) S, donde el índice k de la pregunta es igual a k + 1 y los indicadores de los comodines l i son: l i = { l i 1 l i si el concursante usa el comodín i en esa pregunta, en otro caso. El hecho de contestar correctamente viene definido por su probabilidad, dependiendo de la pregunta en la que estemos, siendo esas probabilidades iguales para todos los candidatos. Además supondremos que en dichas probabilidades influyen los comodines que usemos, que se supone que nos ayudan, es decir, aumentan la probabilidad de contestar correctamente. Denotemos por p a s la probabilidad de contestar correctamente en el estado s S si llevamos a cabo la acción a A(s). Nuestro análisis tiene en cuenta la posible habilidad del participante. Por ello, dividiremos a los concursantes en cuatro grupos, A, B, C, D. El hecho de que un concursante pertenezca a uno de los grupos quiere decir que sus probabilidades a priori de responder correctamente p a s se modifican por un factor, que es diferente para cada grupo. Matemáticamente quiere decir que dichas probabilidades se multiplican por un factor de corrección h G, G {A, B, C, D}, que las modifica de la siguiente forma: h G p a S, G {A, B, C, D}, donde h A = 1, h B = 0,9, h C = 0,8, h D = 0,7. Esto significa que cuanto menor es la habilidad del participante, menores son sus probabilidades de responder correctamente una pregunta. Uno de los principales problemas en la resolución del problema real es la obtención de una buena estimación de las probabilidades en el proceso de decisión. Para una estimación realista, se necesitarían datos de cada pregunta y cada posible combinación de comodines utilizados, un número de concursantes que contestaron correctamente y un número de concursantes que fallaron en cada pregunta y con cada combinación de comodines. Además, dicho número debería ser suficientemente grande para estimar las probabilidades. Como se mencionó antes, sólo hay disponibles datos reales de unos cuarenta programas y, por lo tanto, no tenemos observaciones reales para la mayoría de las combinaciones de 5

preguntas y comodines. Aún así, tenemos información suficiente para poder estimar las probabilidades de contestar correctamente sin utilizar comodines y utilizando un único comodín. Y con esa información, y ciertas suposiciones que ahora enunciaremos, podemos resolver el problema de la estimación de probabilidades. Sea p k la probabilidad de contestar correctamente sin usar comodines. Supongamos que existe una relación multiplicativa entre, la probabilidad de fallar una pregunta en un cierto estado utilizando el comodín i y la probabilidad de fallarla sin utilizar comodines. Esta relación es tal que la probabilidad de equivocarse disminuye por un factor c i, 0 < c i < 1, i = 1, 2, 3, o en otras palabras: p i k = 1 (1 p k)c i k, (1) donde p i k es la probabilidad de contestar correctamente la pregunta número k utilizando el comodín i ésimo (conocemos tanto p k como p i k para todo (k, i)). Además suponemos que la combinación de varios comodines modifica las probabilidades originales (1 p k ) multiplicando por las diferentes constantes c. Esta simplificación nos permite dar una expresión heurística de las probabilidades, lo que se puede justificar porque no teníamos suficientes datos para dar una estimación real para cada combinación de comodines. Con esta suposición, podemos usar la información que tenemos sobre los concursantes para estimar sus probabilidades de contestar correctamente con toda combinación posible de comodines. Ahora estimaremos las probabilidades de contestar correctamente sin usar comodines y las constantes c i k a partir de los datos disponibles. Para toda pregunta k, consideramos los concursantes que no emplearon comodines y los que emplearon solo uno. Entonces, para cada uno de esos grupos de concursantes, tendremos en cuenta el número de ellos que contestaron correctamente esta pregunta y aquellos que la fallaron. Esas probabilidades se estiman mediante las frecuencias observadas en los datos, y son las que se muestran en la tabla 3. Sea p k la probabilidad de responder correctamente la k-ésima pregunta sin utilizar comodines, p 1 k la probabilidad de responder correctamente utilizando el comodín 1 (comodín del 50 %), p 2 k la probabilidad de responder correctamente utilizando el comodín 2 (telefonear a un amigo) y p 3 k la probabilidad de responder correctamente utilizando el comodín 3 (consultar al público). En la tabla 3 tenemos las probabilidades de responder correctamente (dadas en %) 1. 1 valor original 100 % reemplazado por 99 % 6

pregunta n o k p k p 1 k p 2 k p 3 k 1 97 99 99 99 2 95 99 99 99 3 92 99 99 99 4 86 93 99 95 5 80 91 98 93 6 79 99 99 99 7 76 87 90 88 8 63 70 78 69 9 51 67 70 65 10 43 58 66 52 11 39 57 68 50 12 38 54 64 49 13 40 54 60 47 14 37 50 62 48 15 36 52 60 45 Cuadro 3: Estimación de las probabilidades de responder correctamente En nuestro modelo utilizamos la ecuación (1) para estimar los valores de las constantes c. Por lo tanto, para cada pregunta k el factor c i k modifica la probabilidad de acertar cuando se usa el comodín i de la siguiente forma: La tabla 4 presenta los diferentes factores. c i k = 1 pi k. 1 p k 3. Formulación matemática En esta sección presentamos dos modelos diferentes. El primero está pensado para encontrar la estrategia que maximiza la recompensa esperada, y el segundo la que maximice la probabilidad de alcanzar una pregunta determinada. Ambos, además de dar la máxima probabilidad y la recompensa esperada, nos darán también las estrategias óptimas a seguir. 7

k c 1 k c 2 k c 3 k 1 0.3333 0.3333 0.3333 2 0.2 0.2 0.2 3 0.125 0.125 0.125 4 0.5 0.0714 0.3571 5 0.45 0.1 0.35 6 0.0476 0.0476 0.0476 7 0.5416 0.4166 0.5 8 0.8108 0.5945 0.8378 9 0.6734 0.6122 0.7142 10 0.7368 0.5964 0.8421 11 0.7049 0.5245 0.8196 12 0.7419 0.5806 0.8225 13 0.7666 0.6666 0.8833 14 0.7936 0.6031 0.8253 15 0.75 0.625 0.8593 Cuadro 4: Factores de corrección 3.1. Modelo 1: recompensa esperada Sea p a s la probabilidad de responder correctamente si en el estado s S se lleva a cabo la acción a A(s). Supongamos que las probabilidades p a s sólo dependen del índice de la pregunta en la que estemos y de los comodines utilizados. Sea f(s) la recompensa máxima esperada que se puede obtener desde el estado s. Podemos evaluar f(s) de la siguiente forma: La máxima recompensa esperada a partir de s será el máximo de todas las recompensas esperadas que se pueden obtener eligiendo las diferentes acciones posibles en el juego a A(s). En ese punto, podemos o bien abandonar el juego, con lo que nos aseguraremos r k 1, o ir a la siguiente pregunta (supondremos que viene indexada por k). En el último caso, si elegimos la acción a A(s), entonces contestaremos correctamente con probabilidad p a s y fallaremos con probabilidad (1 p a s). La recompensa obtenida cuando fallamos una pregunta viene dada por las recompensas aseguradas citadas anteriormente, en nuestro caso, para la pregunta k, es decir, rk 1. Por otro lado, si contestamos correctamente a la pregunta k se produce una transición a la siguiente pregunta con los comodines no utilizados. Denotemos por t(s, a) a la función de transición que nos da el nuevo estado en el que nos encontramos si se elige la acción a en el estado s. Entonces, a partir de ese punto la 8

Estado f(estado) 15,1,1,1 224976.5 15,0,0,1 144000 15,0,1,0 183600 15,0,1,1 199968.75 15,1,1,0 212700 15,1,0,1 179962.5 15,1,0,0 160320 15,0,0,0 144000 Cuadro 5: Probabilidades en el estado de partida. recompensa esperada es f(t(s, a)). En resumen, la recompensa esperada bajo la acción a es: Por tanto, p a sf(t(s, a)) + (1 p a s)r k 1. f(s) = máx {r k 1, p a sf(t(s, a)) + (1 p a s)rk 1}. a A(s) Para obtener la máxima recompensa esperada tenemos que evaluar f(estado inicial). Si el concursante comienza desde la pregunta número 1 con los tres comodines, tenemos que calcular f(1, 1, 1, 1). Los valores de f se pueden calcular recursivamente mediante inducción inversa, ya que conocemos el valor de f en cada estado factible del estado final. En la tabla 5 se muestran dichos valores, calculados de forma sencilla. Por lo tanto, mediante la inducción inversa y a partir de los datos de la tabla 5, obtenemos f(1, 1, 1, 1) y las estrategias óptimas. En este proceso utilizamos las probabilidades estimadas y las constantes obtenidas en la sección 2. Todos los cálculos se realizaron mediante un programa informático desarrollado con MAPLE. La solución hallada por el programa es f(1, 1, 1, 1) = 2490,89, y la estrategia a seguir para obtener esa ganancia esperada es la que se muestra en la tabla 6. 3.2. Modelo 2: alcanzar una pregunta En esta sección abordamos una nueva situación. Hemos encontrado en la sección 3.1 la estrategia óptima a seguir si quisiéramos maximizar la recompensa esperada, y cuál es la 9

Pregunta Estrategia 1 Sin comodines 2 Sin comodines 3 Sin comodines 4 Sin comodines 5 Público 6 Sin comodines 7 Sin comodines 8 Sin comodines 9 50 % 10 Teléfono 11 Sin comodines 12 Sin comodines 13 Parar Recompensa esperada 2490.89 Cuadro 6: Solución del modelo 1. recomoensa máxima esperada. Ahora queremos encontrar la estrategia óptima a seguir si queremos maximizar la probabilidad de alcanzar una pregunta determinada y responderla correctamente. Además, también damos la probabilidad de conseguirlo si se sigue la estrategia óptima. Definamos el nuevo problema. Recordar que un estado s viene definido como un vector de cuatro componentes, como antes: s = (k, l 1, l 2, l 3 ). Sea k = 1, 2,, 15, un número fijo. Nuestro objetivo es responder correctamente la pregunta número k. Denotamos por f(s) la máxima probabilidad de llegar a la pregunta k y contestarla correctamente, comenzando desde el estado s. Evaluamos f(s) de la siguiente forma: La máxima probabilidad de alcanzar y contestar correctamente la pregunta número k, comenzando en el estado s que es el máximo de entre las probabilidades de contestar correctamente la pregunta actual, dependiendo de la acción a A(s) elegida, multiplicado por la máxima probabilidad de alcanzar nuestro objetivo desde el estado t(a, s), a A(s), donde t(a, s) es el estado en el que nos encontraremos si elegimos la acción a en s y respondemos correctamente. 10

Es decir, tenemos que: f(k, l 1, l 2, l 3 ) = máx 0 g i l i g i Z, i {p k,g1,g 2,g 3 f(k + 1, l 1 g 1, l 2 g 2, l 3 g 3 )}, donde p k,g1,g 2,g 3 es la probabilidad de contestar correctamente la k-ésima pregunta utilizando los comodines indicados, donde g i = 1, i = 1, 2, 3 si se utiliza el i-ésimo comodín y 0 en caso contrario. La función f es un funcional recursivo, por lo tanto para obtener sus valores por inducción inversa necesitamos conocer su valor en todos los estados de la etapa final. Notar que el objetivo en esta formulación es alcanzar el estado k. Por lo tanto, la probabilidad de haberlo hecho si estamos en el estado k + 1 es claramente 1. Así pues, tenemos que f(k + 1, l 1, l 2, l 3 ) = 1 l i {0, 1}, i = 1, 2, 3. Una vez que tenemos los valores de la función en la etapa final, la solución de este modelo es el cálculo de f(estado inicial). Si comenzamos desde la primera pregunta y tenemos todos los comodines, el estado de salida es (1,1,1,1). Pero si comenzamos en la tercera pregunta y solo tenemos el comodín del 50 % y el del público, el estado de salida sería (3,1,0,1). De cualquier modo, el algoritmo que proponemos resuelve el problema comenzando desde cualquier posible estado y teniendo como objetivo cualquier nivel del juego. Desarrollamos un programa informático en MAPLE en el que, utilizando las constantes c i calculadas antes, evaluamos el valor de la función f y encontramos las estrategias óptimas. En este modelo no tenemos una única solución, sino 15, ya que podemos tener 15 posibles objetivos: las quince preguntas del juego. Por motivos de brevedad, solo mostraremos la solución obtenida si partimos del estado (1,1,1,1) y queremos alcanzar y responder correctamente las preguntas 5,10,13 y 15. En la tabla 7 aparecen las estrategias óptimas y las probabilidades de alcanzar y contestar correctamente las preguntas mencionadas antes. La última fila de dicha tabla representa la probabilidad de alcanzar el objetivo propuesto. 4. Otras consideraciones del análisis del juego Hemos resuelto el problema de una forma estática, es decir, todas las probabilidades venían determinadas a priori, sin conocer realmente ni el enunciado de las preguntas, ni sus 11

Pregunta Objetivo: 5 Objetivo: 10 Objetivo: 13 Objetivo:15 1 Sin comodines Sin comodines Sin comodines Sin comodines 2 Sin comodines Sin comodines Sin comodines Sin comodines 3 50 % Sin comodines Sin comodines Sin comodines 4 Público Sin comodines Sin comodines Sin comodines 5 Teléfono Sin comodines Sin comodines Sin comodines 6 Público Sin comodines Sin comodines 7 Sin comodines Sin comodines Sin comodines 8 Sin comodines Sin comodines Sin comodines 9 50 % Público Sin comodines 10 Teléfono Sin comodines Sin comodines 11 Teléfono Teléfono 12 50 % Sin comodines 13 Sin comodines Sin comodines 14 Público 15 50 % Probabilidad 0.85 0.12 0.01 0.001 Cuadro 7: Estrategias óptimas en el modelo 2. 12

posibles respuestas. En el concurso real, el juego se desarrolla de forma que las probabilidades de contestar una pregunta correctamente se modifican cada vez que el concursante lee su enunciado y ve las posibles respuestas. Por ejemplo, estando en la cuarta pregunta se puede estimar la probabilidad de acertarla sabiendo realmente cuál es esa pregunta. Lo que haremos será cambiar la probabilidad de acertar la pregunta y mantener las estimaciones realizadas para los siguientes estados. Este análisis quiere decir que el jugador modifica, en cada estado k, la probabilidad p k de contestar correctamente de acuerdo con su conocimiento de la pregunta. Esto sería una forma realista de jugar al juego dinámicamente. Esta característica ha sido incorporada a nuestro programa informático, por lo que en cada estado el jugador puede cambiar la probabilidad de responder correctamente la pregunta a la que se enfrenta en ese momento. Notar que este argumento no modifica nuestro análisis recursivo del problema. Sólo significa que permitimos cambiar la probabilidad p k en cada etapa del análisis. 4.1. Simulación Como ilustración de nuestro análisis del juego realizaremos una simulación del proceso para comprobar el comportamiento de las estrategias ganadoras propuestas en los modelos. Como mencionamos en la sección 2, clasificamos a los participantes en cuatro grupos de la siguiente forma: Los jugadores del grupo A tienen las probabilidades originales descritas con anterioridad. Las probabilidades de contestar correctamente para los jugadores del grupo B son las del grupo A multiplicadas por 0.9. Las probabilidades de contestar correctamente para los jugadores del grupo C son las del grupo A multiplicadas por 0.8. Los jugadores del grupo D tienen unas probabilidades de acertar que son las del grupo A multiplicadas por 0.7. Ahora presentamos dos tablas (tabla 8) con las estrategias que deben seguir los participantes, dependiendo del grupo al que pertenezcan, para maximizar su ganancia esperada (Modelo 1) y la probabilidad de ganar o al menos, la máxima ganancia esperada (Modelo 2). Por ejemplo, la última fila en la columna del participante A en el Modelo 1 muestra el dinero esperado que conseguiría siguiendo la estrategia descrita en dicha columna, y la última fila en el Modelo 2 es la probabilidad de ganar, al menos, dicha cantidad de dinero. Es decir, como para ganar al menos 2490.9 euros tenemos que contestar correctamente la pregunta número 7, nuestro 13

objetivo será alcanzar y contestar correctamente la pregunta número 7. Los otros casos son análogos. En ambas tablas, la última fila muestra la máxima recompensa esperada, en la columna del Modelo 1, o la probabilidad de tener éxito con la estrategia descrita en el Modelo 2. Para terminar esta sección vamos a mostrar una simulación del Modelo 1 del juego jugado dinámicamente. Es decir, supondremos que en cada pregunta la probabilidad de contestarla correctamente se modifica una vez que hemos leído su enunciado y las cuatro posibles respuestas. Supongamos que el concursante se enfrenta ahora a la pregunta k th. Tiene que decidir si la contesta, y en ese caso cómo, o no la contesta, dependiendo del grado de dificultad de la pregunta real. El modelo supone que las probabilidades de contestar correctamente las siguientes preguntas, es decir, de k + 1 en adelante, son las que estimamos originalmente. En la tabla 9 las estrategias de utilizar el comodín del 50 %, el Teléfono o el Público se denotan por 50, T y P respectivamente. Para simplificar la simulación supondremos que las probabilidades de contestar correctamente pueden ser: 1 si el concursante conoce la respuesta correcta. 0.5 si el concursante duda entre dos posibles respuestas. 0.33 si lo único que sabe es que una de las respuestas es incorrecta. 0.25 si no tiene ni idea de cuál de las respuestas puede ser la correcta. El lector puede notar que se puede incoporar al modelo cualquier tipo de información probabilística a priori, basada en el conocimiento del jugador. Esta incorporación se realiza mediante el cálculo posterior de las probabilidades usando la regla de Bayes. Está claro que las estrategias cambian dependiendo de las probabilidades de contestar correctamente la pregunta en la que estemos en este momento, que han sido elegidas aleatoriamente utilizando diferentes funciones de probabilidad para cada pregunta. El primer número en cada celda es la probabilidad real de contestar correctamente la correspondiente pregunta. Como se puede observar, dependiendo de la probabilidad simulada, las estrategias pueden variar, desde parar en la quinta pregunta hasta seguir jugando hasta la duodécima. 14

Grupo A Grupo B Pregunta Modelo 1 Modelo 2 Modelo 1 Modelo 2 1 Sin comodines Sin comodines Sin comodines Sin comodines 2 Sin comodines Sin comodines Sin comodines Sin comodines 3 Sin comodines Sin comodines Sin comodines 50 % 4 Sin comodines Sin comodines Público Público 5 Sin comodines Teléfono Teléfono Teléfono 6 Público 50 % Sin comodines Parar 7 Sin comodines Público Sin comodines 8 Sin comodines Parar Sin comodines 9 50 % Sin comodines 10 Teléfono 50 % 11 Sin comodines Sin comodines 12 Sin comodines Sin comodines 13 Parar Parar 14 15 R.E / Prob 2490.9 0.622 1289.4 0.557 Grupo C Grupo D Pregunta Modelo 1 Modelo 2 Modelo 1 Modelo 2 1 Sin comodines Sin comodines Sin comodines Sin comodines 2 Sin comodines Público Sin comodines Sin comodines 3 50 % 50 % 50 % 50 % 4 Público Teléfono Público Público 5 Teléfono Parar Teléfono Teléfono 6 Sin comodines Sin comodines Parar 7 Sin comodines Sin comodines 8 Sin comodines Parar 9 Parar 10 11 12 13 14 15 R.E / Prob 747.5 0.482 421.1 0.475 Cuadro 8: Soluciones óptimas dependiendo de la habilidad del concursante 15

Pregunta P1 P2 P3 P4 P5 P6 1 1/SC 1/SC 0.5/50-P 0.5/50-P 0.5/50-P 1/SC 2 0.5/50 0.5/T 1/SC 0.33/ T 1/SC 1/SC 3 1/SC 0.33/P 0.5/T 1/SC 1/SC 0.33/50 4 1/SC 0.5/50 0.5/SC 1/SC 0.5/T 1/SC 5 0.5/T 0.25/Parar 0.5/SC 0.33/SC 0.5/SC 1/SC 6 0.5/P 0.33/SC 0.5/SC 1/SC 0.5/P 7 0.5/SC 1/SC 0.5/SC 0.33/SC 1/SC 8 1/SC 0.5/SC 0.5/SC 1/SC 0.5/SC 9 0.33/Parar 0.33/Parar 0.33/Parar 0.25/Parar 1/SC 10 0.25/T 11 0.25/SC 12 0.25/Parar 13 14 15 Cuadro 9: Simulación Referencias [1] Chlond M.J. (2001), The Travelling Space Telescope Problem, INFORMS Transactions on Education 2:1 (58-60). [2] Cochran J.J. (2001), Who Wants To Be A Millionaire R : The Classroom Edition, INFORMS Transactions on Education 1:3 (112-116). [3] Rump C.M. (2001), Who Wants to See a $Million Error?. A Neglected Educational Resource, INFORMS Transactions on Education 1:3 (102-111). [4] Heyman D. and Sobel M. (1984), Stochastic Models in Operations Research. Vol 2, McGraw-Hill, New York. [5] Sniedovich M. (2003),. A Neglected Educational Resource, INFORMS Transactions on Education 2:3, 86-95. [6] Sniedovich M. (2002), Towers of Hanoi, INFORMS Transactions on Education 3:1 (34-51). 16

[7] Sniedovich M. (2000), Çounterfeit Coin Problem. INFORMS Transactions on Education 3:2 (32-41). [8] Tijms H.C. (1986), Stochastic modeling and analysis. A computational approach. WILEY, New York. 17