Ensayo de derecho natural (VI): teoría de juegos

Para poder sostener que la justicia y el derecho surgen entre las sociedades de seres vivos como consecuencia de procesos naturales, es preciso antes exponer siquiera sea de forma somera qué son la teoría de la evolución y la teoría de juegos.

No me detendré ahora a explicar la teoría de la evolución —lo haré más adelante desde un enfoque «informacional»— pues, aunque sea superficialmente, es relativamente conocida. Sí lo haré, en cambio, respecto de la teoría de juegos ya que, en conversaciones con otros juristas, he detectado que es para ellos una absoluta desconocida. A explicar de forma somera qué es la teoría de juegos y un ejemplo clásico de la misma, va destinado éste post.

La teoría de juegos es un área de la matemática aplicada que utiliza modelos para estudiar interacciones en estructuras formalizadas de incentivos (los llamados juegos) y llevar a cabo procesos de decisión. Sus investigadores estudian las estrategias óptimas así como el comportamiento previsto y observado de individuos en juegos. Desarrollada en sus comienzos como una herramienta para entender el comportamiento de la economía, la teoría de juegos se usa actualmente en muchos campos, desde la biología a la filosofía y también (¿por qué no?) el derecho. Experimentó un crecimiento sustancial y se formalizó por primera vez a partir de los trabajos de John von Neumann y Oskar Morgenstern, antes y durante la Guerra Fría, debido sobre todo a su aplicación a la estrategia militar. En otras palabras, estudia la elección de la conducta óptima cuando los costes y los beneficios de cada opción no están fijados de antemano, sino que dependen de las elecciones de otros individuos.

El ejemplo que más a menudo suele usarse para ilustrar la teoría de juegos es el llamado “Dilema del prisionero” que, en su versión más clásica, es enunciado así (wikipedia):

La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su cómplice no, el cómplice será condenado a la pena total, diez años, y el primero será liberado. Si uno calla y el cómplice confiesa, el primero recibirá esa pena y será el cómplice quien salga libre. Si ambos permanecen callados, todo lo que podrán hacer será encerrarlos durante seis meses por un cargo menor. Si ambos confiesan, ambos serán condenados a seis años.

Lo que puede expresarse como

Tabla de pagos 1

Tabla de pagos 1

Vamos a suponer que ambos prisioneros son completamente egoístas y su única meta es reducir su propia estancia en la cárcel. Como prisioneros tienen dos opciones: cooperar con su cómplice y permanecer callados o traicionar a su cómplice y confesar. El resultado de cada elección depende de la elección del cómplice. Desafortunadamente, uno no conoce qué ha elegido hacer el otro. Incluso si pudiesen hablar entre sí, no podrían estar seguros de confiar mutuamente.

Si uno espera que el cómplice escoja cooperar con él y permanecer en silencio, la opción óptima para el primero sería confesar, lo que significaría que sería liberado inmediatamente, mientras el cómplice tendrá que cumplir una condena de 10 años. Si espera que su cómplice decida confesar, la mejor opción es confesar también, ya que al menos no recibirá la condena completa de 10 años, y sólo tendrá que esperar 6, al igual que el cómplice. Si, sin embargo, ambos decidiesen cooperar y permanecer en silencio, ambos serían liberados en sólo 6 meses.

Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la elección del otro jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto conduce a un resultado regular, en el que ambos confiesan y ambos reciben largas condenas. Aquí se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es óptimo -en el sentido de eficiencia de Pareto-; existe una situación tal que la utilidad de uno de los detenidos podría mejorar (incluso la de ambos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina al resultado en el cual los dos eligen confesar.

Si se razona desde la perspectiva del interés óptimo del grupo (de los dos prisioneros), el resultado correcto sería que ambos cooperasen, ya que esto reduciría el tiempo total de condena del grupo a un total de un año. Cualquier otra decisión sería peor para ambos si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egoístas, cada uno de los dos prisioneros recibirá una sentencia dura.

El científico cognitivo Douglas Hofstadter observó que la matriz de pagos del dilema del prisionero puede, de hecho, escribirse de múltiples formas, siempre que se adhiera al siguiente principio:

T > R > C > P

donde T es la tentación para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador coopera); R es la recompensa por la cooperación mutua; C es el castigo por la deserción mutua; y P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta).

En el caso del dilema del prisionero, la fórmula se cumple: 0 > -0,5 > -6 > -10 (en negativo pues los números corresponden a años de carcel).

Las fórmulas anteriores aseguran que, independientemente de los números exactos en cada parte de la matriz de pagos, es siempre «mejor» para cada jugador desertar, haga lo que haga el otro.

Siguiendo este principio, y simplificando el dilema del prisionero obtendremos la siguiente matriz de pagos canónica para el dilema, esto es, la que se suele mostrar en la literatura sobre este tema:

Tabla de pagos 2

Tabla de pagos 2

En terminología «ganancia-ganancia» la tabla sería similar a esta:

Tabla de pagos 3

Tabla de pagos 3

Estos ejemplos en concreto en los que intervienen prisioneros, intercambio de bolsas y cosas parecidas pueden parecer rebuscados, pero existen, de hecho, muchos ejemplos de interacciones humanas y de interacciones naturales en las que se obtiene la misma matriz de pagos. El dilema del prisionero es por ello de interés para ciencias sociales como economía, ciencia política y sociología, además de ciencias biológicas como etología y biología evolutiva.

En ciencia política, dentro del campo de las relaciones internacionales, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentística. Ambos razonarán que tienen dos opciones: o incrementar el gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el otro acatará el acuerdo; de este modo, ambos se inclinarán hacia la expansión militar. La ironía está en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional.

Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por ejemplo el Tour de Francia. Considérense dos ciclistas a mitad de carrera, con el pelotón a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperación mutua) compartiendo la pesada carga de la posición delantera, donde no se pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer delante, el pelotón les alcanzará rápidamente (deserción mutua). Un ejemplo visto a menudo es que un sólo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelotón. Al final, esto llevará probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera fácil en la estela del primer corredor.

Un ejemplo adicional se puede observar en las intersecciones de dos vías por donde circulan autos y donde ninguna tiene una preferencia sobre la otra: si todos los conductores colaboran y hacen turnos para pasar, la pequeña espera se justifica por el beneficio de no generar una congestión en el medio. Si alguien no colabora y el resto sí, se beneficia el «no colaborador» generando un desorden en la secuencia de turnos que perjudica a los que estaban colaborando. Por último, cuando nadie quiere colaborar y tratan de pasar primero, se genera una gran congestión donde todos pierden mucho tiempo.

Una variante de éste juego especialmente útil para justificar la afirmación de que los principios de justicia se explican a través de la teoría de juegos y la evolución, es el juego llamado “Dilema del prisionero iterado”.

Esta variante del juego se produce cuando los prisioneros no juegan una sola vez el juego, sino que lo juegan varias veces, de forma sucesiva y con memoria. Ahora los participantes en el juego repiten el mismo varias veces, y lo que es mejor, se acuerdan de si en la partida anterior su contrincante les traicionó o cooperó.

Tal y como mostró el premio nobel Robert Aumann en 1959, si el juego del prisionero se juega repetidamente y con memoria un número indefinido de veces el resultado es que los jugadores acaban estableciendo una estrategia de cooperación.

Mediante competiciones reales y simulaciones por ordenador se ha determinado que en éste juego del prisionero iterado el egoísmo no es rentable, la mejor estrategia para ganar en el juego es la llamada de “venganza sin rencor” o “Tit for Tat with forgiveness.» (“Donde las dan las toman con capacidad de perdón”).

La estrategia ganadora es simple: En la primera jugada cooperaremos y, a partir de ahí, haremos lo que haya hecho el oponente en la jugada anterior; si nos traiciona le traicionaremos, si coopera entonces cooperaremos. Como la estrategia puede conducir a un bucle si nuestro adversario aplica la misma estrategia, en algunas pocas ocasiones, olvidaremos su traición y cooperaremos. Finalmente los estudios demuestran que ambos contendientes acaban cooperando y que la estrategia más egoísta es, precisamente, la altruista. Desde un punto de vista egoísta lo más aconsejable precisamente es, paradójicamente, establecer una conducta altruista.

Quedémonos, pues, con esta paradoja aparente pues en los capítulos siguientes volveremos sobre ella.