Mejor respuesta - Best response

En teoría de juegos , la mejor respuesta es la estrategia (o estrategias) que produce el resultado más favorable para un jugador, tomando las estrategias de otros jugadores como dadas ( Fudenberg & Tirole 1991 , p. 29; Gibbons 1992 , pp. 33-49) . El concepto de una mejor respuesta es fundamental para la contribución más conocida de John Nash , el equilibrio de Nash , el punto en el que cada jugador en un juego ha seleccionado la mejor respuesta (o una de las mejores respuestas) a las estrategias de los otros jugadores ( Nash 1950 ).

Correspondencia

Figura 1. Correspondencia de reacción del jugador Y en el juego Stag Hunt.

Las correspondencias de reacción , también conocidas como correspondencias de mejor respuesta, se utilizan en la prueba de la existencia de equilibrios de Nash de estrategias mixtas ( Fudenberg y Tirole 1991 , Sección 1.3.B; Osborne y Rubinstein 1994 , Sección 2.2). Las correspondencias de reacción no son "funciones de reacción" ya que las funciones solo deben tener un valor por argumento, y muchas correspondencias de reacción estarán indefinidas, es decir, una línea vertical, para alguna elección de estrategia del oponente. Uno construye una correspondencia para cada jugador del conjunto de perfiles de estrategia del oponente en el conjunto de estrategias del jugador. Entonces, para cualquier conjunto dado de estrategias del oponente , representa las mejores respuestas del jugador a .

Figura 2. Correspondencia de reacción del jugador X en el juego Stag Hunt.

Las correspondencias de respuesta para todos los juegos de forma normal 2x2 se pueden trazar con una línea para cada jugador en un espacio de estrategia de un cuadrado unitario . Las figuras 1 a 3 muestran las mejores correspondencias de respuesta para el juego de la caza del ciervo . La línea de puntos en la Figura 1 muestra la probabilidad óptima de que el jugador Y juegue 'Ciervo' (en el eje y), en función de la probabilidad de que el jugador X juegue Ciervo (que se muestra en el eje x). En la Figura 2, la línea punteada muestra la probabilidad óptima de que el jugador X juegue 'Ciervo' (que se muestra en el eje x), en función de la probabilidad de que el jugador Y juegue Ciervo (que se muestra en el eje y). Tenga en cuenta que la Figura 2 traza las variables independientes y de respuesta en los ejes opuestos a los que se utilizan normalmente, de modo que pueda superponerse al gráfico anterior, para mostrar los equilibrios de Nash en los puntos donde las mejores respuestas de los dos jugadores coinciden en la Figura 3.

Hay tres formas distintivas de correspondencia de reacción, una para cada uno de los tres tipos de juegos simétricos de 2x2: juegos de coordinación, juegos de descoordinación y juegos con estrategias dominadas (el cuarto caso trivial en el que los pagos son siempre iguales para ambos movimientos no es realmente un juego teórico problema). Cualquier juego 2x2 simétrico de pago adoptará una de estas tres formas.

Juegos de coordinacion

Los juegos en los que los jugadores obtienen la puntuación más alta cuando ambos jugadores eligen la misma estrategia, como la caza del ciervo y la batalla de los sexos , se denominan juegos de coordinación . Estos juegos tienen correspondencias de reacción de la misma forma que la Figura 3, donde hay un equilibrio de Nash en la esquina inferior izquierda, otro en la esquina superior derecha y un Nash de mezcla en algún lugar a lo largo de la diagonal entre los otros dos.

Juegos de anti-coordinación

Figura 3. Correspondencia de reacción de ambos jugadores en el juego Stag Hunt. Equilibrios de Nash mostrados con puntos, donde las correspondencias de los dos jugadores concuerdan, es decir, se cruzan

Los juegos como el juego de la gallina y el juego de la paloma halcón en el que los jugadores obtienen la puntuación más alta cuando eligen estrategias opuestas, es decir, descoordinado, se denominan juegos anti-coordinación. Tienen correspondencias de reacción (Figura 4) que se cruzan en la dirección opuesta a los juegos de coordinación, con tres equilibrios de Nash, uno en cada una de las esquinas superior izquierda e inferior derecha, donde un jugador elige una estrategia, el otro jugador elige la estrategia opuesta. El tercer equilibrio de Nash es una estrategia mixta que se encuentra a lo largo de la diagonal desde la esquina inferior izquierda hasta la esquina superior derecha. Si los jugadores no saben cuál de ellos es cuál, entonces el Nash mixto es una estrategia evolutivamente estable (ESS), ya que el juego se limita a la línea diagonal inferior izquierda a superior derecha. De lo contrario, se dice que existe una asimetría no correlacionada , y los equilibrios de Nash de esquina son ESS.

Figura 4. Correspondencia de reacción de ambos jugadores en el juego halcón-paloma. Equilibrios de Nash mostrados con puntos, donde las correspondencias de los dos jugadores concuerdan, es decir, se cruzan

Juegos con estrategias dominadas

Figura 5. Correspondencia de reacción para un juego con estrategia dominada.

Los juegos con estrategias dominadas tienen correspondencias de reacción que solo se cruzan en un punto, que estará en la esquina inferior izquierda o superior derecha en los juegos simétricos 2x2 de pago. Por ejemplo, en el dilema del prisionero de una sola jugada , el movimiento "Cooperar" no es óptimo para ninguna probabilidad de Cooperación del oponente. La Figura 5 muestra la correspondencia de reacción para tal juego, donde las dimensiones son "Juego de probabilidad Cooperar", el equilibrio de Nash está en la esquina inferior izquierda donde ningún jugador juega Cooperar. Si las dimensiones se definieran como "Defecto de juego de probabilidad", entonces las curvas de mejor respuesta de ambos jugadores serían 1 para todas las probabilidades de estrategia del oponente y las correspondencias de reacción se cruzarían (y formarían un equilibrio de Nash) en la esquina superior derecha.

Otros juegos (pagos asimétricos)

Es posible una gama más amplia de formas de correspondencias de reacción en juegos 2x2 con asimetrías de pago. Para cada jugador hay cinco formas de mejor respuesta posibles, que se muestran en la Figura 6. De izquierda a derecha, estas son: estrategia dominada (siempre jugar 2), estrategia dominada (siempre jugar 1), ascendente (estrategia de juego 2 si la probabilidad de que el otro jugador jugadas 2 está por encima del umbral), descendente (estrategia de juego 1 si la probabilidad de que el otro jugador juegue 2 está por encima del umbral) e indiferente (ambas estrategias funcionan igualmente bien en todas las condiciones).

Figura 6 - Las cinco correspondencias de reacción posibles para un jugador en un juego de 2x2., Se supone que los ejes muestran la probabilidad de que el jugador juegue su estrategia 1. De izquierda a derecha: A) Juega siempre 2, la estrategia 1 está dominada, B ) Siempre juega 1, la estrategia 2 está dominada, C) La estrategia 1 es mejor cuando el oponente juega su estrategia 1 y 2 mejor cuando el oponente juega su 2, D) La estrategia 1 es mejor cuando el oponente juega su estrategia 2 y 2 mejor cuando el oponente juega su 1, E) Ambas estrategias funcionan igualmente bien sin importar lo que juegue el oponente.

Si bien solo hay cuatro tipos posibles de juegos 2x2 simétricos de pago (de los cuales uno es trivial), las cinco curvas de mejor respuesta diferentes por jugador permiten un mayor número de tipos de juegos asimétricos de pago. Muchos de estos no son realmente diferentes entre sí. Las dimensiones pueden redefinirse (intercambiar nombres de las estrategias 1 y 2) para producir juegos simétricos que son lógicamente idénticos.

Centavos a juego

Un juego conocido con asimetrías de pago es el juego de monedas de un centavo . En este juego, un jugador, el jugador de la fila, representado en la dimensión y, gana si los jugadores se coordinan (ambos eligen cara o ambos eligen cruz) mientras que el otro jugador, el jugador de la columna, que se muestra en el eje x, gana si los jugadores descoordinado. La correspondencia de reacción del jugador Y es la de un juego de coordinación, mientras que la del jugador X es un juego de descoordinación. El único equilibrio de Nash es la combinación de estrategias mixtas donde ambos jugadores eligen independientemente cara y cruz con probabilidad de 0.5 cada uno.

Figura 7. Correspondencias de reacción de los jugadores en el juego de monedas de un centavo . El mapeo más a la izquierda es para el jugador coordinador, el medio muestra el mapeo para el jugador que no coordina. El único equilibrio de Nash se muestra en el gráfico de la derecha.

Dinámica

En la teoría de juegos evolutivos , la dinámica de mejor respuesta representa una clase de reglas de actualización de estrategias, donde las estrategias de los jugadores en la siguiente ronda están determinadas por sus mejores respuestas a algún subconjunto de la población. Algunos ejemplos incluyen:

  • En un modelo de población grande, los jugadores eligen su próxima acción de forma probabilística en función de qué estrategias son las mejores respuestas para la población en su conjunto.
  • En un modelo espacial, los jugadores eligen (en la siguiente ronda) la acción que es la mejor respuesta a todos sus vecinos ( Ellison 1993 ).

Es importante destacar que en estos modelos los jugadores solo eligen la mejor respuesta en la siguiente ronda que les daría la mayor recompensa en la siguiente ronda . Los jugadores no consideran el efecto que tendría la elección de una estrategia en la siguiente ronda en el juego futuro del juego. Esta restricción da como resultado que la regla dinámica a menudo se denomine mejor respuesta miope .

En la teoría de los juegos potenciales , la dinámica de mejor respuesta se refiere a una forma de encontrar un equilibrio de Nash calculando la mejor respuesta para cada jugador:

Teorema: En cualquier juego de potencial finito, la mejor dinámica de respuesta siempre converge a un equilibrio de Nash. ( Nisan et al.2007, Sección 19.3.2)

Suavizado

Figura 8. Correspondencia BR (negro) y funciones BR suavizadas (colores)

En lugar de correspondencias de mejor respuesta, algunos modelos utilizan funciones de mejor respuesta suavizadas . Estas funciones son similares a la correspondencia de mejor respuesta, excepto que la función no "salta" de una estrategia pura a otra. La diferencia se ilustra en la Figura 8, donde el negro representa la mejor correspondencia de respuesta y los otros colores representan cada uno diferentes funciones de mejor respuesta suavizadas. En las correspondencias de mejor respuesta estándar, incluso el más mínimo beneficio de una acción dará como resultado que el individuo juegue esa acción con probabilidad 1. En la mejor respuesta suavizada a medida que la diferencia entre dos acciones disminuye, el juego del individuo se acerca al 50:50.

Hay muchas funciones que representan funciones de mejor respuesta suavizadas. Las funciones ilustradas aquí son varias variaciones de la siguiente función:

donde representa la recompensa esperada de la acción y es un parámetro que determina el grado en que la función se desvía de la mejor respuesta verdadera (un valor más grande implica que es más probable que el jugador cometa "errores").

El uso de la mejor respuesta suavizada tiene varias ventajas, tanto teóricas como empíricas. Primero, es consistente con los experimentos psicológicos; cuando los individuos son más o menos indiferentes entre dos acciones, parecen elegir más o menos al azar. En segundo lugar, el juego de los individuos está determinado de manera única en todos los casos, ya que es una correspondencia que también es una función . Finalmente, el uso de la mejor respuesta suavizada con algunas reglas de aprendizaje (como en el juego ficticio ) puede resultar en que los jugadores aprendan a jugar equilibrios de Nash de estrategia mixta ( Fudenberg y Levine 1998 ).

Ver también

Referencias

  • Ellison, G. (1993), "Aprendizaje, interacción local y coordinación" (PDF) , Econometrica , 61 (5): 1047–1071, doi : 10.2307 / 2951493 , JSTOR  2951493
  • Fudenberg, D .; Levine, David K. (1998), La teoría del aprendizaje en los juegos , Cambridge MA: MIT Press
  • Fudenberg, Drew ; Tirole, Jean (1991). Teoría de juegos . Cambridge, Massachusetts: MIT Press . ISBN 9780262061414. Vista previa del libro.
  • Gibbons, R. (1992) , Introducción a la teoría de juegos , Harvester-Wheatsheaf, S2CID  10248389
  • Nash, John F. (1950), "Puntos de equilibrio en juegos de n personas", Actas de la Academia Nacional de Ciencias de los Estados Unidos de América , 36 (1): 48–49, Código Bibliográfico : 1950PNAS ... 36. ..48N , doi : 10.1073 / pnas.36.1.48 , PMC  1063129 , PMID  16588946
  • Osborne, MJ; Rubinstein, Ariel (1994), Un curso de teoría de juegos , Cambridge MA: MIT Press
  • Young, HP (2005), Aprendizaje estratégico y sus límites , Oxford University Press
  • Nisan, N .; Roughgarden, T .; Tardos, É .; Vazirani, VV (2007), Teoría algorítmica de juegos (PDF) , Nueva York: Cambridge University Press