협력의 탄생: 죄수의 딜레마를 반복하면?

by seunglee

학교에서 The Computational Beauty of Nature 책으로 강의하는 전산생물학 수업을 들었는데, 참 흥미로운 내용이 많았습니다. 그중에서도 특히 깊은 인상을 주었던 것은 “죄수의 딜레마”에 대한 부분이었어요.

모르는 분을 위해 간단하게 설명하자면, 범죄를 저지른 두 명의 공범을 서로 다른 방에 가두어놓고 취조를 합니다. 두 명이 모두 자백을 하면 두 사람 무거운 형을 선고받게 됩니다. 만약 한 명은 자백을 하고 다른 한 명은 발뺌을 하면, 자백한 사람은 풀려나고, 발뺌한 사람은 최고형을 받게 됩니다. 대신 두 명이 모두 끝까지 발뺌을 하면 두 명 다 무죄 석방됩니다.

이상적으로는 두 명이 끝까지 발뺌해야겠지만 실제로 이런 상황이 되면 두 명이 서로를 못 믿어 결국 모두 자백한다고 합니다. 여기까지는 익히 알려진 사실이죠? 하지만 정말 흥미로운 부분은 이제부터입니다.

만약에 선택을 해서 그에 상응하는 대가를 치른 죄수에게 똑같은 기회가 다시 한 번 주어지면 어떻게 될까요? 게다가 그 기회가 한 번이 아니라 여러 번 반복된다면?

누군가가 이 상황을 모델링해서 재미있는 게임을 고안해 냈습니다. 게임의 규칙은 간단합니다.

  • 게임에 참가한 N명이 리그 방식으로 일대일로 대전을 하고, 각 대전의 결과로 점수를 얻습니다.
  • 모든 대결이 끝난 뒤 가장 높은 점수를 얻은 자가 우승자가 됩니다.

일대일 대전 규칙은 다음과 같습니다.

  • 대전자는 [상대를 믿고 협력한다]와 [상대를 속인다] 중 하나의 행동을 선택합니다.
  • 각 대전자의 행동을 조합하면 총 4가지 경우가 있는데, 각 경우에 대전자가 얻는 점수는 다음과 같습니다.
  • 서로 믿고 협력한 경우: 두 명 모두 5점
  • 한 명은 협력하고, 다른 한 명은 속인 경우: 속인 자는 10점 획득, 속은 자는 -5점
  • 두 명 다 속이려고 한 경우: 두 명 모두 0점
  • (지금 책이 없는 관계로 위의 수치는 틀릴 수 있습니다.)

자… 위와 같은 규칙으로 게임을 하면 어떻게 될까요? 우승하기 위해서는 어떤 전략을 취해야 할까요? 상대방과 항상 협력을 해서 점수를 쌓아갈 수 있다면 가장 좋겠지만, 그랬다가는 분명히 나를 속이는 사람을 만나서 이용당하기 일쑤겠죠? 그렇다고 모두 서로를 속이려고만 하면 신뢰를 잃어서 점수를 쌓기가 어렵겠군요. 간단해 보이면서도 오묘한 부분이 있습니다.

예전에 실제로 이런 대회가 열린 적이 있다고 합니다. 많은 사람이 저마다 전략을 가지고 게임에 참가했습니다. 결과는 어떻게 되었을까요? 도대체 어떤 전략이 1등을 차지했을까요?

우승자의 전략은 아주 단순한 것이었습니다. 허무할 정도로 말이죠.

“일단은 믿어보고, 다음부터는 나와 대전하는 상대의 이전 전략을 무조건 따라한다.”

그가 이전 승부에서 상대를 속였다면 나도 그에게 협력하지 않고, 그가 협력했다면 나도 그를 믿고 협력하는 것이지요. 이 게임의 중요한 특징은 바로 승리의 조건인데, 토너먼트처럼 단순히 상대를 이기는 것이 아니라 모든 승부가 끝난 뒤에 상대적으로 높은 점수를 획득하는 것이 중요합니다. 이를 위해서는 믿을만한 상대와는 협력해서 점수를 쌓고, 나를 속이려는 상대에게는 이용당하지 말아야 합니다. 상대의 이전 행동을 따라하는 단순한 전략이 이 상황에 잘 먹혔던 것이죠. 단순하지만 세상의 진리가 담겨 있는 듯한 전략 아닌가요?

그런데 말입니다…

이게 끝이 아닙니다. 똑같은 규칙으로 다시 한 번 대회가 열렸습니다. 그리고 이번에는 이전 대회 우승자의 전략이 공개되었습니다. 첫 번째 대회에서 시행착오를 겪었고, 이번에는 우승 전략까지 알게 된 사람들이 다시 한 번 저마다의 전략을 가지고 우승에 도전했습니다. 이번에는 어떤 결과가 나왔을까요?

여기까지 진행하시던 교수님이 말씀하셨습니다.

“그건 다음 수업 시간에 계속합시다.”

그렇게 다음 수업이 기다려진 건 처음이었던 것 같습니다. (^^) 하지만 저는 그러지 말아야죠. 자… 많은 사람들이 대망의 꿈을 안고 2차 대회에 참가했겠죠? 그 결과는.. 또 다시 TFT가 우승을 차지했습니다. (1차 대회 우승자의 전략, “상대의 이전 행동을 따라한다”를 Tit For Tat 이라고 부르는데, 앞으로는 TFT로 줄여 쓰겠습니다. 또, “항상 협력하기”와 “항상 속이기”는 각각 C와 D라고 칭하겠습니다.)

어떻게 보면 참 대단하죠. 자신의 전략이 완전히 공개된 상태에서 출전하여 또 다시 우승하다니요.. 이 전략을 고안해낸 사람의 직업이 심리학자인가 인류학자라고 들었는데, 이것도 역시 의미심장하군요.

그런데 이제와서 이런 말 하면 좀 어이없게 들리겠지만, 이 게임에서 죄수의 딜레마는 사실 딜레마가 아닙니다. 왜 그런지 한 번 찬찬히 생각해볼까요? 한쪽 방에서 취조를 받는 죄수의 입장에서는 별로 고민할 필요가 없습니다. 상대가 어떤 행동을 취하든 나는 상대를 배신하는 쪽이 더 이익입니다. 최소한 그것이 손해가 되는 경우는 없습니다. (게임 규칙을 다시 한 번 봐주세요.) 즉, “네가 그럴 줄 알았으면 난 이렇게 할 걸..” 이라며 후회할 필요가 없다는 뜻입니다.

그로 인해 두 명 모두에게 최악의 결과를 가져오는 건 사실이지만, 어쨌든 개인으로서는 가장 합리적인 선택을 한 것입니다. 그렇다면 문제는, 이렇게 이기적인 개인들이 모인 사회에서 어떻게 협력이라는 현상이 나타날 수 있는가 하는 점입니다.

이 게임에서 각 전략이 얻은 점수를, 진화론에서 말하는 개체의 적응도로 생각하면 어떻게 될까요? 가장 높은 점수를 얻은 녀석(TFT)은 자신과 비슷한 개체를 더 많이 퍼뜨릴 수 있겠지만, 반면에 허약하거나(C) 야비한(D) 녀석에게는 한계가 따르겠죠. 그러한 과정이 여러 세대에 걸쳐 반복되면, 약한 것은 자연도태 되고 강한 것들만 살아남아서 결국 우리가 상상하는 것과 비슷한 사회(?)가 나타납니다.

Computational Beauty of Nature 책에서는 시뮬레이션 결과를 통해서 그런 현상이 실제로 나타남을 보여줍니다. 그래서 이 내용을 다루는 챕터의 제목도 아마 Competition and Cooperation이었을 겁니다. 재미있죠? 게임이론과 시뮬레이션을 통해서, 언뜻 이해가 되지 않는 현상의 원인을 탐구하는 과정이 무척 흥미로웠습니다. 즐거움 뿐만 아니라 여러가지로 참 생각할 거리가 많은 실험인 것 같기도 하고요.