Estrategia (teoría de juegos) - Strategy (game theory)

En la teoría de juegos , la estrategia de un jugador es cualquiera de las opciones que eligen en un entorno en el que el resultado depende no solo de sus propias acciones, sino también de las acciones de los demás. La disciplina se refiere principalmente a la acción de un jugador en un juego que afecta el comportamiento o las acciones de otros jugadores. Algunos ejemplos de "juegos" incluyen ajedrez, bridge, póquer, monopolio, diplomacia o acorazado. La estrategia de un jugador determinará la acción que realizará el jugador en cualquier etapa del juego. Al estudiar la teoría de juegos, los economistas recurren a una lente más racional para analizar decisiones en lugar de las perspectivas psicológicas o sociológicas que se adoptan al analizar las relaciones entre decisiones de dos o más partes en diferentes disciplinas.

El concepto de estrategia a veces se confunde (erróneamente) con el de movimiento . Un movimiento es una acción realizada por un jugador en algún momento durante el juego de un juego (por ejemplo, en el ajedrez, mover el alfil blanco a2 a b3). Una estrategia, por otro lado, es un algoritmo completo para jugar, que le dice al jugador qué hacer en cada situación posible a lo largo del juego. Es útil pensar en una "estrategia" como una lista de direcciones y un "movimiento" como un solo giro en la misma lista de direcciones.

Un perfil de estrategia (a veces llamado combinación de estrategia ) es un conjunto de estrategias para todos los jugadores que especifica completamente todas las acciones de un juego. Un perfil de estrategia debe incluir una y solo una estrategia para cada jugador.

Conjunto de estrategia

El conjunto de estrategias de un jugador define qué estrategias están disponibles para que juegue. Un perfil de estrategia es una lista de conjuntos de estrategias, ordenados de más a menos deseables.

Un jugador tiene un conjunto de estrategias finito si tiene varias estrategias discretas disponibles. Por ejemplo, un juego de piedra, papel y tijera comprende un solo movimiento de cada jugador, y el movimiento de cada jugador se realiza sin el conocimiento del otro, no como una respuesta, por lo que cada jugador tiene el conjunto de estrategias finito {piedra, papel o tijera}.

De lo contrario, un conjunto de estrategias es infinito. Por ejemplo, el juego de cortar pasteles tiene un continuo limitado de estrategias en el conjunto de estrategias {Cortar entre el cero por ciento y el 100 por ciento del pastel}.

En un juego dinámico , juegos que se juegan durante una serie de tiempo, el conjunto de estrategias consiste en las posibles reglas que un jugador podría darle a un robot o agente sobre cómo jugar el juego. Por ejemplo, en el juego del ultimátum , la estrategia establecida para el segundo jugador consistiría en todas las reglas posibles para qué ofertas aceptar y cuáles rechazar.

En un juego bayesiano , o en juegos en los que los jugadores tienen información incompleta entre ellos, el conjunto de estrategias es similar al de un juego dinámico. Consiste en reglas sobre qué acciones tomar para cualquier posible información privada.

Elegir un conjunto de estrategias

En la teoría de juegos aplicada, la definición de los conjuntos de estrategias es una parte importante del arte de hacer que un juego tenga solución y sea significativo al mismo tiempo. El teórico del juego puede utilizar el conocimiento del problema general, es decir, la fricción entre dos o más jugadores, para limitar los espacios de estrategia y facilitar la solución.

Por ejemplo, estrictamente hablando en el juego Ultimatum, un jugador puede tener estrategias como: Rechazar ofertas de ($ 1, $ 3, $ 5, ..., $ 19), aceptar ofertas de ($ 0, $ 2, $ 4, ..., $ 20) . La inclusión de todas estas estrategias crea un espacio de estrategia muy grande y un problema algo difícil. En cambio, un teórico de juegos podría creer que puede limitar el conjunto de estrategias a: {Rechazar cualquier oferta ≤ x , aceptar cualquier oferta> x ; para x en ($ 0, $ 1, $ 2, ..., $ 20)}.

Estrategias puras y mixtas

Una estrategia pura proporciona una definición completa de cómo un jugador jugará un juego. La estrategia pura se puede considerar como un plan sujeto a las observaciones que hacen durante el transcurso del juego. En particular, determina el movimiento que hará un jugador para cualquier situación que pueda enfrentar. El conjunto de estrategias de un jugador es el conjunto de estrategias puras disponibles para ese jugador.

Una estrategia mixta es una asignación de probabilidad a cada estrategia pura. Cuando se utiliza una estrategia mixta, a menudo se debe a que el juego no permite una descripción racional al especificar una estrategia pura para el juego. Esto permite que un jugador seleccione aleatoriamente una estrategia pura. (Consulte la siguiente sección para ver una ilustración). Dado que las probabilidades son continuas, hay infinitas estrategias mixtas disponibles para un jugador. Dado que las probabilidades se asignan a estrategias para un jugador específico cuando se discuten los beneficios de ciertos escenarios, el pago debe denominarse "pago esperado".

Por supuesto, se puede considerar una estrategia pura como un caso degenerado de una estrategia mixta, en el que esa estrategia pura particular se selecciona con probabilidad 1 y todas las demás estrategias con probabilidad 0 .

Una estrategia totalmente mixta es una estrategia mixta en la que el jugador asigna una probabilidad estrictamente positiva a cada estrategia pura. (Las estrategias totalmente mixtas son importantes para el refinamiento del equilibrio , como el equilibrio perfecto de la mano temblorosa ).

Estrategia mixta

Ilustración

En un penalti de fútbol, el pateador debe elegir si patear hacia el lado derecho o izquierdo de la portería y, simultáneamente, el portero debe decidir en qué dirección bloquearlo. Además, el pateador tiene una dirección en la que es mejor disparar, que es la izquierda si es diestro. La matriz del juego de fútbol ilustra esta situación, una forma simplificada del juego estudiado por Chiappori, Levitt y Groseclose (2002). Se asume que si el portero adivina correctamente, la patada se bloquea, lo que se establece en el pago base de 0 para ambos jugadores. Si el portero adivina mal, es más probable que la patada ingrese si está hacia la izquierda (recompensas de +2 para el pateador y -2 para el portero) que si está hacia la derecha (la recompensa más baja de +1 para pateador y -1 al portero).

		Portero
		Magra izquierda	Inclinarse a la derecha
Pateador	Patada a la izquierda	0, 0	+2, -2
	Patear a la derecha	+1, -1	0, 0


Pago por el juego de fútbol (pateador, portero)

Este juego no tiene un equilibrio de estrategia pura, porque un jugador u otro se desviaría de cualquier perfil de estrategias; por ejemplo, (izquierda, izquierda) no es un equilibrio porque el pateador se desviaría a la derecha y aumentaría su pago de 0 a 1. .

El equilibrio de estrategia mixta del pateador se encuentra en el hecho de que se desviarán de la aleatorización a menos que sus ganancias de la patada izquierda y la patada derecha sean exactamente iguales. Si el portero se inclina hacia la izquierda con probabilidad g, la recompensa esperada por el pateador de Kick Left es g (0) + (1-g) (2), y de Kick Right es g (1) + (1-g) (0). Al equiparar estos rendimientos g = 2/3. De manera similar, el portero está dispuesto a aleatorizar solo si el pateador elige la probabilidad de estrategia mixta k tal que la recompensa de Lean Left de k (0) + (1-k) (- 1) sea igual a la recompensa de Lean Right de k (-2) + (1 -k) (0), entonces k = 1/3. Por lo tanto, el equilibrio de estrategia mixta es (Prob (Patada a la izquierda) = 1/3, (Prob (Inclinación a la izquierda) = 2/3).

Tenga en cuenta que en equilibrio, el pateador patea hacia su mejor lado solo 1/3 de las veces. Eso es porque el portero está protegiendo más ese lado. También tenga en cuenta que en equilibrio, el pateador es indiferente en la dirección en que patea, pero para que sea un equilibrio, debe elegir exactamente 1/3 de probabilidad.

Chiappori, Levitt y Groseclose intentan medir qué tan importante es para el pateador patear hacia su lado favorito, agregar patadas centrales, etc., y observar cómo se comportan realmente los jugadores profesionales. Encuentran que sí hacen al azar, y que los pateadores patean hacia su lado favorito el 45% del tiempo y los porteros se inclinan hacia ese lado el 57% del tiempo. Su artículo es bien conocido como un ejemplo de cómo las personas en la vida real utilizan estrategias mixtas a pesar de no ser matemáticamente sofisticadas.

Significado

En su famoso artículo, John Forbes Nash demostró que existe un equilibrio para cada juego finito. Se pueden dividir los equilibrios de Nash en dos tipos. Los equilibrios de Nash de estrategia pura son equilibrios de Nash en los que todos los jugadores juegan estrategias puras. Los equilibrios de Nash de estrategia mixta son equilibrios en los que al menos un jugador está jugando una estrategia mixta. Aunque Nash demostró que todo juego finito tiene un equilibrio de Nash, no todos tienen equilibrios de Nash de estrategia pura. Para ver un ejemplo de un juego que no tiene un equilibrio de Nash en estrategias puras, consulte Coincidencia de centavos . Sin embargo, muchos juegos tienen equilibrios de Nash de estrategia pura (por ejemplo, el juego de coordinación , el dilema del prisionero , la caza del ciervo ). Además, los juegos pueden tener equilibrios de estrategia pura y de estrategia mixta. Un ejemplo fácil es el juego de coordinación pura, donde además de las estrategias puras (A, A) y (B, B) existe un equilibrio mixto en el que ambos jugadores juegan cualquier estrategia con probabilidad 1/2.

Interpretaciones de estrategias mixtas

Durante la década de 1980, el concepto de estrategias mixtas fue objeto de fuertes críticas por ser "intuitivamente problemático", ya que son equilibrios de Nash débiles, y un jugador es indiferente sobre si seguir su probabilidad de estrategia de equilibrio o desviarse a alguna otra probabilidad. El teórico de juegos Ariel Rubinstein describe formas alternativas de entender el concepto. La primera, de Harsanyi (1973), se llama purificación y supone que la interpretación de estrategias mixtas simplemente refleja nuestra falta de conocimiento de la información de los jugadores y el proceso de toma de decisiones. Las elecciones aparentemente aleatorias se ven entonces como consecuencias de factores exógenos no especificados e irrelevantes para la rentabilidad. Una segunda interpretación imagina a los jugadores representando una gran población de agentes. Cada uno de los agentes elige una estrategia pura y la recompensa depende de la fracción de agentes que eligen cada estrategia. Por tanto, la estrategia mixta representa la distribución de estrategias puras elegidas por cada población. Sin embargo, esto no proporciona ninguna justificación para el caso de que los jugadores sean agentes individuales.

Posteriormente, Aumann y Brandenburger (1995), reinterpretaron el equilibrio de Nash como un equilibrio en creencias , más que en acciones. Por ejemplo, en piedra, papel, tijera, un equilibrio en las creencias haría que cada jugador creara que el otro tenía la misma probabilidad de jugar cada estrategia. Sin embargo, esta interpretación debilita el poder descriptivo del equilibrio de Nash, ya que en tal equilibrio es posible que cada jugador realmente juegue una estrategia pura de Rock en cada jugada del juego, aunque a lo largo del tiempo las probabilidades son las de la estrategia mixta. .

Estrategia de comportamiento

Mientras que una estrategia mixta asigna una distribución de probabilidad sobre las estrategias puras, una estrategia de comportamiento asigna a cada conjunto de información una distribución de probabilidad sobre el conjunto de acciones posibles. Si bien los dos conceptos están estrechamente relacionados en el contexto de los juegos de forma normal, tienen implicaciones muy diferentes para los juegos de forma extensiva. Aproximadamente, una estrategia mixta elige aleatoriamente un camino determinista a través del árbol del juego , mientras que una estrategia de comportamiento puede verse como un camino estocástico. La relación entre estrategias mixtas y conductuales es el tema del teorema de Kuhn , una perspectiva conductual sobre hipótesis tradicionales de la teoría de juegos. El resultado establece que en cualquier juego finito de forma extensiva con recuerdo perfecto, para cualquier jugador y cualquier estrategia mixta, existe una estrategia de comportamiento que, contra todos los perfiles de estrategias (de otros jugadores), induce la misma distribución sobre los nodos terminales que el la estrategia mixta lo hace. Lo contrario también es cierto.

Piccione y Rubinstein (1997) dan un ejemplo famoso de por qué se requiere una memoria perfecta para la equivalencia con su juego Absent-Minded Driver .

Equivalencia de resultados

La equivalencia de resultados combina la estrategia mixta y de comportamiento del jugador i en relación con la estrategia pura del oponente del jugador i. La equivalencia de resultados se define como la situación en la que, para cualquier estrategia mixta y de comportamiento que adopte el Jugador i, en respuesta a cualquier estrategia pura que juegue el oponente del Jugador I, la distribución de resultados de la estrategia mixta y de comportamiento debe ser igual. Esta equivalencia se puede describir mediante la siguiente fórmula: (Q ^ (U (i), S (-i))) (z) = (Q ^ (β (i), S (-i))) (z), donde U (i) describe la estrategia mixta del jugador i, β (i) describe la estrategia de comportamiento del jugador i y S (-i) es la estrategia del oponente.

Estrategia con recuerdo perfecto

La recuperación perfecta se define como la capacidad de cada jugador en el juego para recordar y recordar todas las acciones pasadas dentro del juego. Se requiere un recuerdo perfecto para la equivalencia ya que, en juegos finitos con recuerdo imperfecto, existirán estrategias mixtas del jugador I en las que no hay una estrategia de comportamiento equivalente. Esto se describe completamente en el juego Conductor distraído formulado por Piccione y Rubinstein. En resumen, este juego se basa en la toma de decisiones de un conductor con memoria imperfecta, que necesita tomar la segunda salida de la autopista para llegar a casa pero no recuerda en qué intersección se encuentra cuando llega. La figura [2] describe este juego.

Sin información perfecta (es decir, información imperfecta), los jugadores toman una decisión en cada nodo de decisión sin conocer las decisiones que lo han precedido. Por lo tanto, la estrategia mixta de un jugador puede producir resultados que su estrategia de comportamiento no puede, y viceversa. Esto se demuestra en el juego Conductor distraído . Con un recuerdo e información perfectos, el conductor tiene una única estrategia pura, que es [continuar, salir], ya que el conductor es consciente de en qué intersección (o nodo de decisión) se encuentra cuando llega a ella. Por otro lado, mirando solo la etapa óptima de planificación, la recompensa máxima se logra al continuar en ambas intersecciones, maximizada en p = 2/3 (referencia). Este sencillo juego de un jugador demuestra la importancia de la recuperación perfecta para la equivalencia de resultados y su impacto en los juegos de forma normal y extendida.

Languages

In other projects