협동의 진화론

뽕브라단속단 작성일 09.04.17 09:04:35
댓글 1조회 1,300추천 0

출처: http://chaos.inje.ac.kr/Alife/prisonerdilemma&cooperation.htm

'선하게' 행동하는 것과 악을 응징하는 것에 대한 진화론적 관점의 글입니다.

좀 길기는 한데 읽다 보면 재미있네요.

==================================================================

협동의 진화론

 

D.G.Hofstadter

 

생은 파라독스로 가득차 있다.그래서 때로 생의 진수는 이 파라독스를 이해하는데 있는 것처럼 보인다.여러 파라독스들은 어떤 면에서 모두 서로 관련되어 있는 듯이 보이는데 어떤 것은 추상적이고 철학적인가 하면 어떤 것은 피부에 바로 와 닿는다.생과 직결되는 파라독스에 1950년에 메릴 플러드Merril Flood와 맬빈 드래셔Melvin Drasher가 발견하고 후에 알버트 터커Albert Tucker가 정립한 "죄수의 딜레마"(prisoner's dilemma)라는 것이 있다.나는 이것을 우선 다음과 같은 비유의 형태로 여러분께 소개하고 난 다음,정식으로 문제를 만들어 풀어가도록 하겠다.

내가 보기에는 죄수를 이용하여 설정한 오리지날이 다음에 제시하는 변형된 형태보다 조금 못한 듯 하다.문제는 아래와 같다.

당신이 어떤 것(예를 들어 돈)을 많이 가지고 있다고 가정하자.그리고 이 대신에 다른 것(예컨대 우표,옷 또는 다이아몬드)을 가지고 싶다고 가정하자.그래서 당신은 어느 딱 한사람의 장사꾼과 서로 합당한 조건으로 교환을 하기로 결정한다.서로 주고 받는데,물건의 값어치가 차이난다거나 하는 불만은 없다.그런데 어떤 특별한 이유 때문에 이 교환은 비밀스레 이루어져야만 하게 되어 있다.그래서 당신과 그 상대는 각각 어느 비밀스러운 곳에다 자신의 보따리를 가져다 두고 상대방의 보따리를 다른 비밀지점에서 찾아가기로 계약하게 되었다.그런데 당신들 두 당사자는 이 거래가 끝나면 이후 다시는 만나지 않을 것이고,또 거래를 더하지도 않게 되었다.

이 문제에 부닥치면 당신은 어떻게 하겠는가?

자,두사람 모두 두려워 하고 있는 것인데,상대가 빈보따리를 두고 갈까 하는 것이다.온 보따리를 두고만 가준다면 틀림없이 당신들은 서로 만족할텐데 말이다.그러나 아무것도 안주고 공짜로 온 보따리를 차지하는 것은 더욱 신나는 일이다.그래서 당신은 빈보따리를 두고 오고 싶은 유혹을 느끼게 된다.다시 더 볼 것도 아니니 말이다.

실제 엄격한 논리학으로 다음과 같이 따져 볼 수 있다.

"저쪽이 온 보따리를 가져올 경우를 가정하면 나는 빈 보따리를 두고 오는게 낫다.공짜로 가지고 싶은 것을 가지게 될 터이니까.한편,저 쪽이 빈보따리를 두고 가는 경우라도 나는 손해볼 것이 없다.또 속지 않게되니 나쁠 것 없지 않겠는가?어차피 나도 빈보따리를 두고 왔으니까."즉 상대가 어떤 행동을 취하는 경우라도 나는 빈보따리를 두고 오는 것이 더 나은 행동임에 틀림없다.그러므로 빈보따리를 두고 오는 것이 타당하다."

그런데 상대편 장사꾼도 입장만 다를 뿐 동일한 조건에 처하여 있기 때문에 비슷한 생각과 논리로 빈보따리를 두고 가는 것이 최선이라는 결론에 똑같이 도달하게 된다.그래서 당신은 완벽한 논리적 사고의 결과 둘 다 빈보따리를 두게 되고 서로 빈손으로 돌아가게 된다.그저 처음 약속한 대로 바보처럼 단순히 협조하였더라면 서로 원하는 것을 얻을 수 있을 터인데 얼마나 슬픈일인가?

"논리가 협동을 방해하는가?" 이것이 죄수의 딜레마가 제시하는 문제의 핵심이다.

왜 "죄수"의 딜레마란 이름이 붙었는지 의하해 하는 분들을 위해 그 이유를 설명하겠다.당신과 어떤 사람이 우연히 함께 범죄를 저지르게 된 공범들인데 그 때문에 함께 체포되어 재판을 초조하게 기다리고 있다.둘은 각각 독방에 감금되어 서로 연락을 할 수 없는 형편이다.검사가 두 사람에게 각각 다음과 같은 제안을 한다.당신들은 둘다 검사가 이런 제안을 한다는 것을 알고 있다.

"너희들이 죄를 저질렀다는 여러 상황증거가 있다.그러니 계속 무죄라고 우겨 보아야 어차피 너희들은 재판에서 2년 징역을 먹게 되어 있다.그러니 자백을 해서 증거를 대라.확실한 증거를 주면 네 동지녀석을 확실하게 기소하고 너는 자유로이 풀어 주겠다.그녀석은 최소 5년은 썩을 테니까 보복을 겁낼 필요는 없겠지."

그런데 당신은 검사가 똑같은 내용을 동지에게도 한다는 것을 알고 있다.당신은 의아해 혼란에 빠지며 묻는다.

"나도 자백하고 내 동지도 자백하면 어떻게 되나요?"

"아,유감스럽게도 그러면 둘다 아마 4년씩을 받게 될거야."(증거가 있는데 검사도 어쩔수 없는 것이지)

자 당신은 정말 곤란하게 되었다.당신의 동지가 자백을 한다고 믿는 경우라면,당신은 결백하다고 우기고 싶지 않을 것이다.5년이나 살게 될 터이니까 말이다.어차피 같이 당신이 자백을 한다 하더라도 4년을 살게 될 뿐이지 않은가? 한편 그 동지가 무죄를 주장하고 있어 주면 당신에게는 자백하는 것이 최선인 것이다.아예 풀려나게 될 것이니까 말이다.그러니까 우선 생각에 당신이 해야할 일은 "부는 것"이라는 것은 자명하다.헌데 당신에게 자명한 것은 당신 동료에게도 자명할 것이므로,결국 당신 둘은 불고불고 하여 4년을 살게 될 것이다.이것이 논리적 사고의 결과임에 틀림없다.그런데 당신 둘이 좀 비논리적이어서 서로 불지 않고 무죄라고 우겼으면 함께 2년만 살아도 되었을 터인데,좀 우습지 않은가?논리가 또 말썽을 피우는 것일까?

여기서 다시 처음의 비유로 돌아가서 조건을 조금 바꾸어 보겠다.이번에는 당신과 장사꾼은 단 한번의 거래로 끝내는 것이 아니라 한달에 한번,일생동안 규칙적으로 그러한 거래를 하기로 처음부터 동의하였다고 가정하는 것이다.그래도 당신들은 서로 대면하게 되는 일은 없다.또 서로 상대를 모르기 때문에 상대가 얼마나 늙었는지,언제 거래래 끊길지 모른다.물론 정황증거로 보아 최소 수개월 이상,아마도 수년간은 지속할 것이라고 믿어지기는 하지만..

자 첫 거래에서 당신은 어떻게 하고 싶은가?처음부터 빈보따리를 가져다 두는 것은 첫 거래를 트는 것 치고는 좀 지나치게 야비한 것처럼 생각되고,신용을 쌓는 방법이 아닐 것이라는 것은 틀림없다.그래서 당신도 온 보따리,저쪽도 온 보따리를 각각 가져다 두고 또 가져 간다고 생각할 수 있다.그래서 첫달은 그렇게 지나간다.그 다음 달,당신은 또 생각하게 될 것이다."온 보따리냐,빈 보따리냐"를 말이다.매달 당신은 배반(Defect; 빈 보따리)과 협동(Cooperate;온 보따리)을 결정하게 된다.협동이 계속되면 서로들 만족하게 될 터이지만 어느 달,상대 장사꾼이 갑자기 변절하였다고 하자.자 이제 당신은 어떻게 하겠는가?그 장사꾼을 이제 다시 신용할 수 없으므로 당신도 빈 보따리를 가져다 놓겠는가?그저 모른척하고 계속 온 보따리를 가져다 두는 친절을 계속하겠는가?아니면 몇 번 빈 보따리를 두고 온 보따리만 챙기는 것으로 상대를 혼내줄 터인가?한번?두번?여러번? 저쪽에서 배반하는 수에 따라서?얼마만큼 화를 낼 터인가?

이 형태는 "반복적 죄수의 딜레마(Iterated Prisoner's Dilemma) 문제이다.이것은 아주 어려운 문제인데 게임이론과 컴퓨터 시뮬레이션을 통해 정량적으로 연구되었다.어떻게 정량화했을까?해답은 각 행동에 대하여 점수를 할당함으로써 정량화했는데 이것은 아래 그림1에 나타나 있다.

 

그림 1 죄수의 딜레마의 점수 할당표.(x,y)에서 x는 당신의 점수,y는 상대의 점수를 나타낸다.

 

이 표에서 상호협동(서로 온 보따리를 주고 받음)은 2점을 얻게 되며 상호배반(서로 빈 보따리를 주고 받아 손실이나 이득이 없음)은 0점을 얻게 된다.당신이 협동하는데 대하여 상대가 배반하는 것은 매우 고통스러운 일로서,당신은 -1,상대는 4점을 얻게 되는데 이렇게 점수가 많은 것은 공짜로 얻은 것이기 때문이다.반대로 어느날 당신이 좀도둑 노릇을 하고 상대가 얼간이짓을 하였다면 당신이 4점을 얻고 상대는 -1점을 얻는다.전체적으로 보면 서로 협동하는 것이 최선임이 분명하다.그러나 당신들은 서로 상대에게 눈꼽만큼도 경의를 표하지 않는다고 가정하고 있음을 알아야 한다.당신들은 고상한 "공동선"(collective good)을 찾고 있는 존재가 아니란 말이다.둘다 지독한 이기주의자들이다.

이기주의자란 다음 예를 보면 그 뜻이 분명해진다.예를 들어 수년간 당신과 상대는 서로 신뢰하고 협동관계를 쌓아 왔는데,어느날 어느 믿을 만한 비밀정보통으로부터 상대가 병에 걸려 1-2달안에 죽게 될 것이라는 것을 알게 된다.그런데 그 상대 장사꾼은 당신이 그런 사실을 알게 되었다는 것을 모른다.

이럴 때 수년간 협동해온 관계임에도 불구하고 당신은 갑자기 배반하고 싶은 유혹을 받지 않겠는가?당신은 이 비정한 세상에서 당신 자신외에 누구 하나 돌본 적이 없다.더구나 이번이 그 장사꾼과 마지막 거래라면,이러한 비밀정보를 이용하여 최대한의 이득을 보지 않을 이유가 없다.당신의 배반은 절대 벌받는 일없고,또 죽어가는 상대가 마지막으로 배반한다고 하더라도 손해볼 것은 없게 되니까 말이다.마지막 거래라는 것을 알고 있는 상대도 분명히 배반으로 나올 공산이 크다.손해보지 않기 위해서라도 배반해야 한다.당신들은 서로 거래가 막바지에 왔다고 느끼면 느낄수록 그런 유혹을 강하게 받게 될 것이다.이것이 "이기주의"의 뜻이다.즉 당신은 친구,호의,동정이라는 감정을 게임상대에게 느끼지 않으며,양심도 없고,그저 점수를 얻는데에만,그것도 더 많이,더 많이 따는데에만 신경을 쓸 뿐인 그러한 존재로 규정된다.

다시 죄수의 딜레마로 돌아가자.그림 2는 죄수의 딜레마의 점수 할당표이다.이 점수에 +4를 부가하면 앞의 표와 같아진다는 점에서 두 표는 유사하다.

 

 

그림 2 죄수의 딜레마에서 실제 죄수에 대한 점수할당표.(-x,-y)는 살게될 징역년수.

 

사실 이 두표에 어떤 상수를 가하더라도 근본적으로 딜레마는 변하지 않는다.그러니까 이 표에 +5하여 -를 모두 없애면 그림3에 나오는 표준 죄수의 딜레마의 점수표가 된다.

 

 

그림 3 표준화된 죄수의 딜레마에서의 점수할당표.

 

상호협동은 약자 R(reward)로 표기하는데 3점,상호배반은 약자 P(punishment)로 표기하는데 1점,유혹은 T(temptation)로 표기하며 5점,배반당한 것은 S로 약기하는데 이것은 sucker's payoff(흡혈귀의 착취)의 의미로 0점이다.

이 점수간의 관계를 일반화하면 다음과 같다.

 

1) T>R>P>S

2)

 

첫 공식이 주는 조건은 맨 처음 우리가 논리적으로 도달한 결론,"상대가 무슨 행동을 취하든간에 나에게는 배반하는 것이 가장 좋다."고 하는 조건을 나타내고,둘째의 공식은 당신들이 변덕을 일으켜서 "한달은 내가 배반하고 저쪽이 협조하며,다음달은 내가 협동하고 상대가 배반하는 것" 보다 매달 협동하는 편이 더 낫다는 것을 규정하고 있다.

자 당신은 어떤 정책을 취하겠는가? 정답이 "항상 통하는 최선의 해답은 없다."는 것임은 쉽게 이해되리라 믿는다.다시말하자면 어떤 경우에나 다른 정책보다 우월한 절대우월 전략은 없다는 것을 의미한다.예를 들어 상대가 "ALL D"(항상 배반)정책을 쓰는 경우를 생각해 보자.이때 당신이 취할 가장 좋은 방도는 아예 처음부터 그리고 끝까지 매번 당신도 배반하는 것이다.한편 상대가 "철저한 보복 정책"(MASSIVE RETALIATORY STRIKE) 즉 "당신이 변절할 때 까지는 협동하겠지만 당신이 변절하면 영원히 나도 협동하지 않겠다."는 작전으로 나오면 어떻게 대처해야 할까?이 경우 당신이 처음 시작부터 배반하면 한번 T점을 딴 후 게임이 끝날 때 까지 P점으로 죽쓰게 된다.이 경우는 섯불리 배반하지 말고 꾸준히 참고 기다리면 상호협동의 결과 많은 R점을 따게 될 것이고,이것을 서너번만 되풀이 하더라도 한 개의 T점 보다는 더 많은 점수를 딸 수 있을 RJTE이다.요약하면 ALL D에는 ALL D가 최선이고 철저한 보복정책에는 "항상 협동하되 상대가 죽게된다는 것이 분명할 때 그 때 배반하는 정책"이 최선의 대응전략이 된다.이 한두가지 사례로 보아 당신은 상대에 따라서 게임을 풀어가야 한다는 것을 알 수 있을 것이다.

정책의 질이 제기하는 개념적 중요성은 다음과 같은 경우 더 전략적이고 경험적 의미를 띄게 된다.즉 어떤 바다에 조그마한 생명체들이 헤엄을 치면서 상대와 맞추칠 때 마다 "죄수의 딜레마"게임을 반복하게 된다고 하자.가령 한 개체가 다른 개체를 만날 때 마다 상대의 그 전 행동이 어떠하였나를 기억한다고 생각하고 이런 기억으로부터 이번의 행동양식을 결정하게 된다고 하자.그리고 이들 개체들이 계속 생존을 위해서 헤엄을 치고 서로 부닥치고 하는 동안,바다안의 모든 개체들이 서로서로 셀 수 없이 많이 만난다고 가정하면,즉 모든 가능한 "정책"들이 동원되어 상호작용한다고 가정할 수 있다.여기서의 상호작용이란 한 개체가 다른 개체를 완전히 죽이는 그러한 것은 아니다.그 뜻은 매번 상호작용을 모든 개체끼리 균등히 일으키고,시간이 충분히 흐르면 어떤 정책을 쓴 개체가 가장 많은 점수를 따게 되는가 하는 것이다.관심사는 어느 개체가 관계되는 "승리"의 숫자가 아니며,개체가 얻는 총점으로써,이 점수가 많은 헤엄치는 바다에서 최종적인 경쟁력을 지니게 된다.이 또한 약간 파라독스처럼 보이지만 개체는 수많은,아니 거의 모든 다른 개체와의 충돌에서 패배하고도 최종적인 우승자로써 나타날 수 있다.

이러한 이미지는 생물의 진화론의 주제와 상통하는데가 있다.완전히 이기적이고 무의식적인 개체들이 어떤 공통환경에 생존하면서,믿을만한 협동정책을 발달시킬 수 있을까하는 의문이 그것이다.순수한 이기주의자들의 세계에서 협동이라는 것이 저절로 나타날 수 있을까?만약 그것이 가능하다면 이것은 진화론에 혁명적 중요성을 부여하게 되는데,이 부분이 진화론을 부정적으로 비판하던 여러 사람들에게 이 문제야 말로 진화론으로 도저히 해결할 수 없으리라고 생각되던 부분이기 때문이다.

그런데 그러한 협동의 진화가 나타날 수 있음이 명백히 증명되었는데,이 증명은 미국의 미시간대학의 로버트 악셀로드Robert Axelord교수가 시행한 컴퓨터 토너먼트 실험에 의하여 이루워졌다.좀더 자세히 말한다면 악셀로드는 처음 컴퓨터 토너먼트를 통하여 협동이 진화하는 방식을 연구하였고 이때 발견된 일반적 경향을 분석함으로써 그 기본원리를 찾아낸 다음 무(nothingness)에서 협동이 발생한다는 사실과 이에 필요한 조건에 관한 정리(theorem)를 제시했다.악셀로드는 이 발견을 배경으로 깊은 사색에 잠기게 하는 책 『협동의 진화론』The Evolution of Cooperation이라는 책을 썼다.더 나아가 악셀로드는 진화생물학자 윌리암 해밀톤William Hamilton과 공동으로 이 발견과 진화론사이의 관련에 관하여 많은 논문들을 발표하였다.

"이기주의자들의 세계에서 협동이 발달해 나올 수 있는가?"하는 질문에는 실제 3가지 측면이 있다.첫번째는 "어떻게 협동이 시작될 수 있는가?"하는 것이며,둘째는 "협동의 정책들이 비협동적 경쟁자들 보다 더 잘 생존할 수 있을까?"하는 것이며,셋째는 "어떤 협동의 정책이 제일 좋은 성적을 얻으며,어떻게 이것이 가장 우월한 위치에 서게 되는가?"하는 것이다.이것을 좀더 분명하게 하려면 아무래도 악셀로드의 토너먼트와 그 결과의 놀라움을 바로 설명하는 것이 좋으리라.

1979년 악셀로드는 게임이론을 전공하는 학자들에게 부탁하여 라운드로빈 방식으로 죄수의 딜레마게임에 참가할 각종 정책을 제출하여 여러 정책이 상호작용하는 동안 최고의 점수를 딸 수 있도록 해보라고 청하였다.이 정책들은 컴퓨터프로그램을 만들어 다른 정책들이 C(협동)나 D(배반)를 택할 때 동일한 정책을 쓰는 상대를 다시 만날 때 상대의 과거행위를 기억하도록 하여 그에 대응하는 행동으로 쓸 수 있게 하였다.이 프로그램은 항상 C나 D로 밖에 반응할 수 없으나 어떤 제약도 주지 않았는데 예를 들어 주사위를 던져 C나 D를 골라 반응에 이용할 수 있게 하는 것도 허용하였다.처음 악셀로드의 토너먼트에 14종의 정책이 참가하였는데 악셀로드는 여기에 RANDOM(무작위)이라는 프로그램을 하나 더 첨가하였다.이 게임에 출전한 프로그램들은 다양해서 베이직 컴퓨터 언어로 4줄에 불과한 것에서부터 77줄에 이르는 프로그램 까지 있었다.악셀로드는 이 프로그램들 끼리 200회씩 각각 대전하도록 하였는데 이 토너먼트를 5번 반복하여 통계적 오류를 제거하였다.

우승을 따낸 프로그램은 토론토대학의 심리학자이자 철학자인 아나톨 라포로트Anatol Rappoport가 내어 놓은 것인데 이것은 프로그램중 가장 짧은 것으로 TIT FOR TAT라고 불렀다.이것은 아주 단순한 기법으로 탁포르틱(눈에는 눈)이라고 불러도 좋을 것이다.이 정책은 "첫번째 만남에서 우선 협동하고,그 다음 부터는 상대가 바로 직전에 한 수대로 따라 한다."는 것이다."이게뭐야"할 정도로 단순한 것인데 세상에 이런 것이 내노라하는 쟁쟁한 전문가들이 만들어낸 복잡한 전략의 프로그램들을 이기게 될 줄은 아무도 몰라었다.

악셀로드는 여기에 대하여 비평하기를 일반적으로 보아 게임이론가들이 깊이 있게 이 게임을 분석해 보지 않았기 때문이라고 하였다.즉 "두 단계의 깊이"(two level deep)만을 보았기 때문이며,"세 단계의 깊이"(three level deep)를 분석해 보지 않았기 때문이라는 것이다.무슨 소리일까?이에 대하여 악셀로드는 다음 예를 들어 설명하고 있다.

JOSS는 스위스의 수학자 요한 요스가 참가시킨 프로그램인데 TIT FOR TAT와 아주 비슷하여,처음에는 협동으로 시작하여 배반에는 배반으로 대응하되,"거의 대부분" 협동에 협동으로 대응하는 프로그램이다.실제 JOSS에서는 협동에 대하여 배반으로 대응할 때 그 결정을 컴퓨터의 무작위수(랜덤수)의 생산에 맡겼는데 약 10%의 확률로 상대의 협동에 대하여 배반으로 대응하도록 되어 있다.

TIT FOR TAT와 만나면 JOSS는 처음에는 잘 해 나간다.그러나 TIT FOR TAT에 대해 JOSS가 갑자기 배반(D)하게 되는데 이에 대해 TIT FOR TAT는 곧 D로 대응하며 이렇게 되면 이 이후는 영원한 상호배반으로 끝나 버리게 된다.TIT FOR TAT에 대한 JOSS의 첫 착취시도가 TIT FOR TAT의 반격에 의해 결국 완전한 불신과 비협동으로 끝나게 하는 불씨가 되는 것이다.이러한 결과는 두 전략에 있어서 모두 결점이 있어서 서로 상대에 피해를 끼치는 것처럼 보일지는 모르나,실제 손해를 가장 많이 보는 것은 JOSS로서 JOSS는 만나는 상대마다 자꾸 트릭을 걸어 신뢰를 파괴하게 되는데 비하여 TIT FOR TAT는 신뢰에 금이 가게하는 행동을 먼저 시작하지 않는다는 것이다.악셀로드는 상대가 배반하기 전에 먼저 배반하지 않는다는 전략을 기술적 용어로 "선한"(nice) 전략이라고 부르고 있다.TIT FOR TAT는 선한데 대하여 JOSS는 그렇지 않다는 것이다.여기서 선하다고 하여 절대 배반하지 않는다는 것은 아니라는 것을 분명히 해 두어야 한다.즉 TIT FOR TAT도 도발받으면 배반하게 되는데 그럼에도 선하다는 사실은 달라지지 않는 것이다.악셀로드는 첫 토너먼트를 다음과 같이 요약하고 있다.

"이 토너먼트의 교훈은 세심하게 그 결과의 분석을 세단계 까지 깊이 해보아야 한다는 것이다.첫 단계는 어떤 전략의 선택이 가져오는 직접적 영향인데 이것은 쉬운 문제인데 배반이 협동 보다 좋은 점수를 얻게 된다.둘째 단계는 간접적 영향으로 상대가 이 배반에 대하여 어떻게 반응하는가를 감안하는 것이다.아마 참가자들은 여기까지는 다 고려한 것 같다.문제는 셋째 단계인데 상대의 배반에 대하여 반응함에 있어 잔신이 전에 착취하려했던 나쁜 방법은 증폭하게 되는 결과를 가져온다는 것이다.즉 하나의 배반은 직접적,간접적 효과만을 보면 그래도 나은 것처럼 보이는데 셋째 단계에서 값비싼 대가를 치루게 되는데 혼자 배반함으로써 끝없는 수렁에 빠져들게 되는 것이 그것이다.결국 자신에 의해 자신이 파괴되는 것이다."

"토너먼트의 분석은 상호작용하는 힘의 세계에서 어떻게 대응할 것인지에 대해서 많은 것을 가르쳐 준다.정치학,사회학,경제학,심리학 및 수학의 전략전문가들은 자신의 이익을 위하여 상대에 대하여 지나치게 경쟁적이며,비관용적이며,부정적이라는 것이다."

악셀로드는 첫 토너먼트를 분석하는데 그치지 않고 여러 가지 가상적인 토너먼트를 치르도록 하고는 때로는 참가 전략들을 여러 가지로 바꾸어 보기도 하였다.가령 TIT FOR TATS라는 것이 있다.상대가 2번 연속해서 배반할 때만 응징하는 TIT FOR TAT보다는 약간 관용적인 것이다.이외에 REVISED DOWING,LOOK AHEAD등의 전략들이 있다.

첫 토너먼트의 교훈은 "먼저 배반하지 않는다."는 선한 성질과 "화를 한번 내고 나면 원한을 남기지 않는다."는 관용적 성질이 중요하다는 것이었다.TIT FOR TAT는 이런 특징들을 함께 지니고 있었다.이러한 세밀한 분석후,악셀로드는 상당한 교훈을 얻었고 또 지혜도 쌓였기 때문에 이를 기초로 더 정교한 정책들을 꾸며낼 수 있으리라고 생각하였다.그래서 더 큰 컴퓨터 토너먼트를 개최하기로 하였다.여기에 첫 라운드의 참가자들을 모두 초대하고 또 컴퓨터 잡지에 광고를 내어 프로그램하는 것을 중독될 정도로 좋아하는 기찬 프로그램의 개발에 미쳐 있는 사람들에게 이 토너먼트에 참가해 보도록 유도했다.

악셀로드의 초청에 대하여 굉장한 반응이 있었는데 6개국에서,거의 모든 연령층에 걸쳐,또 8개의 다른 전공분야에서의 참가가 접수되었다.라포포트는 또 TIT FOR TAT를 참가시켰다.10세의 소년이 제출한 것도 있고 게임이론과 진화론의 세계적 석학인 존 메이나드 스미스Jone Maynard Smith는 TIT FOR TATS를 참가시켰다.두사람이 각각 따로 REVISED DOWING을 접수시켰다.결국 62개가 접수되었는데 첫 토너먼트 때 보다는 상당히 복잡해진 전략들로 구성되어 있다.이번에도 TIT FOR TAT이 가장 짧은 프로그램이었고,가장 긴 것은 뉴질랜드에서 온 것으로 152줄의 포토란 언어로 된 것이었다.여기에 RANDOM을 추가하여 토너먼트를 출발시켰다.컴퓨터가 돌기 시작하여 여러시간이 지나 결과가 나왔다.

결과는 그저 놀랄 수 밖에 없었다.TIT FOR TAT,가장 단순한 프로그램이 또 이긴 것이다.더 놀라운 것은 첫 토너먼트에 참가한 프로그램중,가상 토너먼트에서 우승한 두 프로그램이 여기서는 아주 나쁜 성적을 나타낸 것이다.TIT FOR TATS는 24위에 머물렀고 REVISED DOWING은 거의 꼴찌에 가까웠다.이러한 결과는 도저히 상상하기 어려운 결과이겠으나 프로그램의 성공여부는 프로그램이 작동하고 있는 환경에 전적으로 달렸음을 알아야 한다.모든 환경에 적용할 수 있는 "최선의 전략"이라 할 수 있는 단일 정책은 존재하지 않으며,어떤 환경에서 승리한다 하더라도 다른 환경의 토너먼트에서 이긴다는 보장은 없다는 것을 증명했을 뿐이다.

TIT FOR TAT는 여러 다양한 전략들과 잘 지내는 장점을 지닌데 대하여 다른 전략들은 협력을 유도함에 있어서 좀 제한된다고 할 수 있다.악셀로드는 이렇게 설명하고 있다."무슨 일이 일어났는가 하면 첫 라운드에서 어떤 교훈을 얻은 사람과 다른 교훈을 얻은 사람들 사이의 상호작용이다.첫 교훈은 <선하게 굴고 용서하라>는 것이었고,다른 교훈은 좀 교활해서 <상대가 선하고 용서한다면 그런 사실을 이용하는 것이 득이다>하는 것이었다.첫 교훈을 따르는 사람들이 둘째 교훈을 실천한 사람들에게 당한셈이다."

즉 두 번째 토너먼트에서의 선한 전략들은 첫 토너먼트의 중추적 교훈 즉 "협동을 시작토록 하고,계속 상호협동토록 하는 것"을 충분히 터득하지 못하였던 것이다.협동을 이끌어내기 위해서는 선한 것만으로는 안되며 제한된 응징이 함께 부가되어야 한다는 것이 첫 번째 토너먼트에서의 중요한 교훈이었다.

그러나 대체로 선한 전략들이 성공했다.상위 15위안에서 하나(8등)만이 선하지 않는 전략이었다.

몇가지 악성(non-nice) 전략들은 상대가 배반에 대하여 얼마만큼 신경을 써는가에 대해 조심스럽게 탐색하는 수단을 사용하고 있었다.이러한 시험에 가끔 상대가 휘말리기도 했으나 대개는 반발을 초래하여 신뢰를 파괴하는 수가 많았다.요컨대 상대의 약점을 찾기위하여 배반으로 시험해 보는 것은 아주 비싼 값을 치르게 된다는 것이었다.가능한한 협동을 많이 하도록 전략을 가지되,상대가 치고 들어올 때는 재빨리 반격할 의지를 갖는 것이 이익이라는 것이 증명된 것이다.

그러나 철저한 보복전략은 그 응징의 도가 너무 커서 좋지 않다는 것이 지적되어야 할 것이다.관용의 결여로 충돌후 상호협동의 분위기-흔히 쓰이는 외교용어-를 회복시키는 것을 불가능하게 하기 때문이다.TIT FOR TAT는 선함과 관용 이 둘을 절묘하게 갖고 있다.

첫 번째 토너먼트의 전체적 교훈이 "선하게 행동하고,용서하라"는 것이었는데 사람들은 이것을 믿을 수 없었으며,더 머리를 쓰고 꾀를 부림으로써 승리할 수 있으리라고 생각하였던 것이다.두번째 토너먼트를 치르고 나서야 그들은 잘못되었다는 것을 인정하였다.두번째 토너먼트에서 세 번째의 핵심전략이 유도되었는데 배반에 대한 반격은 과감해야 한다는 것이다.이 셋을 종합하면 "선하게 행동하되 배반에 대해서는 과감하게 응징하고 그 다음 용서하라."는 것이다.

악셀로드는 다양한 환경에서 좋은 성과를 거둘수 있는 정책을 "강인한robust 정책"이라고 한다.강인성은 선,응징,용서의 적절한 구사에서 나온다.TIT FOR TAT는 이런 특성을 가진 전략으로서 유일한 것은 아니지만,그러한 전략의 표준이 되고 있다.

아마 가장 생생하게 TIT FOR TAT의 강인성을 보여주는 것은 두 번째 토너먼트 후에 행해진 여러 가지 가상적 재경기에서의 결과일 것이다.악셀로드가 시도한 거의 모든 가상적 재경기에서 TIT FOR TAT가 우승하였는데 가장 의의깊고 중요한 것은 생태적 환경을 모방한 환경속에서 행해진 경기일 것이다.여기서의 토너먼트는 하나의 경기로서 끝나는 것이 아니라 그 경기의 결과가 다음 경기의 환경을 결정하도록 한 것이다.예를 들어 한 토너먼트에서 어떤 프로그램의 성적을 "적합성"(fitness)을 측정하는 것으로 하고 이 적합성을 그 다음 세대에서의 자손의 수로 나타내고 그 다음 세대가 다음 토너먼트를 진행한다.성공적인 프로그램은 다음 토너먼트에서 더 많은 숫자를 차지하게 되는데 이것을 생태적이라고 부르는 것은 이것이 생태학의 "적응"과 유사하기 때문이다.(어떤 종의 개체수는 적응의 정도에 따라 늘어나기도 하고 줄기도 한다.)

생태학적 토너먼트를 세대를 이어 계속하면 환경은 점차 변화하게 되는데 처음에는 열등한 프로그램과 우수한 프로그램은 동등하게 나타나나 시간이 지남에 따라 열등한 것은 떨어져 나가고 우수한 것들은 번영하게 된다.또 우수한 것들도 순위가 바뀌게 되는데 이 우수성의 대비가 항상 똑같은 경쟁자들 사이에 이루어지지 않기 때문이다.

즉 성공은 더 큰 성공을 잉태하는데,단 이 성공이 비슷한 성공적인 프로그램과의 상호작용에 기초할 때만 그러할 수 있다.반대로 어떤 프로그램의 능력이 "바보스러운"프로그램을 착취하는데 의존하고 있으면 이 바보프로그램이 점차 약탈되어 몰락하면 이 프로그램을 착취하던 프로그램도 기반을 잃고 동일한 운명에 처하게 된다.

이러한 생태학적 멸종의 예는 HARRINGTON에서 아주 뚜렷이 볼 수 있는데 이 프로그램은 두 번째 토너먼트에서 상위 15위내에 든 유일한 악성 프로그램이었다. 생태학적 토너먼트의 첫 200세대 동안 TIT FOR TAT와 아주 유사한 선한 프로그램들이 증가해 갔는데 이것과 함께 이것을 착취하는 HARRINGTON도 그와 함께 증가하였다.그러나 200세대 쯤 되면서 사정이 달라지기 시작했다.약한 프로그램들이 점차 멸종되기 시작했는데 이것은 동시에 HARRINGTON이 재미를 보아오던 봉이 점차 줄어든다는 것을 뜻했다.그것은 1000세대가 지나자 다른 선한 프로그램에 대해서 경쟁력을 잃고 멸종하고 말았다.

악셀로드는 "악성의 것은 처음에는 유망해 보이지만 결국 장기적으로 보아 자신의 성공에 필요한 환경을 파괴하게 된다."는 말로 이 상황을 요약했다.

TIT FOR TAT는 생태토너먼트에서 대단한 성적을 올려 보였는데 세대가 지나면서 그 리드는 커졌다.즉 1000세대가 지나면서 TIT FOR TAT는 선두를 차지 하였을 뿐 아니라 다른 프로그램들 보다 성장의 속도도 빨라졌는데 이런 성공사례에 비견할 만한 것이 없었다.이렇게 단순한 전략이 이와같은 효과를 보여줄수 있다니..모두 놀랐다.

그런데 여기서 깊이 숙고해야 할 점은 TIT FOR TAT의 성공은 경쟁상대를 물리쳐서 얻은 것이 아니라는 점이다.사실 TIT FOR TAT은 아무것도 격퇴하지 못하는 프로그램으로서 기껏 잘해야 무승부(tie)를 기록하는 것이 최선이기 때문이다.

악셀로드는 특히 이점을 꼬집어 지적하고 있다."TIT FOR TAT가 토너먼트에서 승리한 것은 다른 경기자를 물리쳐서 얻은 결과가 아니라 다른 경기자로부터 서로 잘하자는 협동행위를 유발한 결과이다.TIT FOR TAT는 상호협동에 의한 태도를 취하였기 때문에 토너먼트의 어떤 프로그램 보다 더 높은 점수를 딸 수 있었던 것이다."

"그러므로 영합게임(non zero sum)1)의 세계에서 당신이 자기자신에게 좋은 결과를 가져 오려면 다른 사람들 보다 더 잘 하는 것이 꼭 필요한 것이 아니다.이것은 특히 당신이 여러 다른 경기자들을 상대할 때라면 특히 그러하다.그들 하나하나가 당신 자신과 같거나 조금 더 잘하게 하는 것은 당신에게 별 손해가 없는한 아주 좋은 것이다.다른 경기자가 성공한다고 시샘하는 것은 별로 좋은 일이 못되는데 반복적 죄수의 딜레마에서 보면 장기적으로 타인의 성공은 자기자신의 성공에 꼭 필요한 조건이 되기 때문이다."

악셀로드는 이런 원칙이 통한다는 것을 일상적 생활에서 예를 찾아 보여주고 있다."부품을 납품받는 업자가 납품하는 업자의 이득을 시샘하는 것은 별로 도움이 되지 않는다.납품업자의 이익을 줄이고자 돈을 적기에 주지 않는다고 하면 납품업자로부터의 반격을 촉발할 뿐이다.반격은 여러 가지 모습으로 나타날 수 있는데 분명히 직접 손해를 끼치거나 하지는 않을 것이다.좀 납품이 늦어질지도 모르고 품질관리가 좀 덜해지거나 대량주문에 값을 덜 깍아 준다거나 새로운 시장정보를 안건네준다거나 하는 것일지도 모른다.즉 반발을 초래함으로써 시샘은 비싼 값을 치루게 되는 것이다.납품업자의 이득이 얼마인가에 신경을 쓰기 보다 어떻게 구매하는 것이 더 낳은 정책인지를 고려하는 것이 옳을 것이다."절대 상대를 속이지 않는 비즈니스 상대와 같이 TIT FOR TAT는 절대 누구를 때려 누이는 법은 없으며,단지 비슷한 사람들 끼리 잘해 나가게 되는 것이다.

[다른 한편 RANDOM의 전략은 왜 성공하지 못한 것일까?상대가 그 수를 전혀 알수 없기 때문에 상대를 궁지에 몰아넣을 수도 있을 법한데 말이다.상대가 그 수를 뻔히 아는 것 예컨대 ALL D와 같은 것이 취약한 전략이듯이 상대로 하여금 다음 전략을 전혀 예측할 수 없게 하는 것도 취약한 전략이다.]

악셀로드는 이것을 다음과 같이 설명한다."TIT FOR TAT의 성공의 일면에는 다른 정책들이 그 존재를 예상해서 TIT FOR TAT와 잘해나가도록 구상된 데에도 있을 것이다.TIT FOR TAT와 잘해나가려면 협동하는 길 뿐인데 이것은 TIT FOR TAT에 득이 되는 것이다.또 어떻게 재미 좀 볼까하고 기웃거리게 만든 정책들도 TIT FOR TAT에는 재빨리 용서를 빌고 만다.어떤 것이 TIT FOR TAT로부터 이득을 취하고자 하면 자신을 해칠 뿐인 것이다."

TIT FOR TAT가 이러한 세를 모을 수 있는 것은 다음 3가지 조건이 만족되기 때문이다.

 

1.TIT FOR TAT를 만날 가능성이 많다.

2.마주치면 TIT FOR TAT를 쉽게 알아 볼 수 있다.

3.알게되면 TIT FOR TAT에 "사심이 없다는 것"(nonexploitability)을 쉽게 알아볼 수 있다.

 

이러한 사실들은 성공을 위한 중요한 네 번째의 성격적 특성 즉 선,의협성,관용에 덧붙여 직선적 성격이 필요하다는 것을 제시한다.악세로드는 이것을 "투명성"(clarity) 라고 부르는데 다음과 같이 명쾌하게 해설하고 있다."너무 복잡하면 아예 혼돈된 것으로 여긴다.무작위적 행동이라고 보이는 정책을 사용하면 상대경기자에게는 무반응적인 것으로 비친다.무반응적이면 다른 경기자가 당신과 협동할 유인을 찾지 못함으로 너무 복잡하게 행동하여 도무지 이해할 수 없다는 것은 극히 위험한 것이다."

악셀로드는 자신의 저서에서 순전히 이기적 세계에서 협동이 진화해오는 과정에 던져지는 3가지 근원적인 의문에 해답을 주느라고 애쓰고 있는데 첫 의문은 초기의 생존력에 관한 것이다.즉 ALL D들의 개체들이 우글거리는 원시의 바다 즉 무조건적 배반으로 가득찬 세계에서 어떻게 협동이 시작될 수 있는가 하는 것이다.해답은 협동하는 소수의 개체군이 아주 적은 양이라도 우연히 형성되면 협동을 시작할 수 있도록하는 기반을 만들 수 있다는 것이다.협동적 개체 하나하나는 사멸하겠지만 소수 협동적 개체들의 군집은 적대적인 환경에 처하더라도 증식해 나가게 되는데 이 때 TIT FOR TAT가 가진 철저한 방어력이 전제가 되고 있다.

두 번째의 근원적 의문은 강인성에 관한 것으로서 예측할 수 없고 변화무쌍한 환경에서 어떤 전략이 가장 좋은 성과를 거두는가 하는 것이다.이에 대한 해답은 선,의협성,관용 및 투명성의 4가지 기본성격을 가진 전략이어야 한다는 것이었다.

마지막 의문은 안정성(stability)에 관한 것으로서 협동성이 다른 전략의 제물이 되지 않겠는가 하는 것이다.악셀로드는 협동이 침입을 쉽게 물리칠 수 있음을 증명해 보이고 있는데 협동하는 소수의 개체군들은 ALL D전략을 표방하는 이기적 집단들의 세계를 쉽게 뚫고 들어가는 반면 이 이기적 개체들은 협동자의 세계에서는 아무리 많은 수가 나타나더라도 곧 퇴치됨을 보이고 있다.즉 협동이 한번 시작되고 나면 지속성을 지니는 것이다.악셀로드의 설명으로는 "사회진화의 바퀴에는 거꾸로 도는 것을 막는 미늘 톱늬바퀴의 기어가 장치되어 있다."는 것이다.

여기서 "사회"라는 말은 사고력을 가진 고등동물에게만 적용되는 것은 아니다.4줄 짜리 컴퓨터 프로그램이 생각하는 것은 아닐진대 또 이런 프로그램 개체의 세계에서 협동이 진화해 나가는 것은 분명히 "사고력"하고는 무관한 것이다.TIT FOR TAT에게 유일한 인식능력이란 과거에 접촉한 상대를 구별하고 그 때 그 상대가 어떤 일을 하였는가를 기억하는 것 뿐이다.박테리아에게도 사실 이런 능력이 있는데 다른 개체와 접촉해 보고 그 개체가 바로 전에 자신에게 어떤 영향을 주었는가를 알면 되는 것으로 기억이란 실제 자동적이고,또 필요한 기억의 양도 극히 적다.중요한 것은 전략의 주체가 박테리아이건,조그마한 동물이건,고등동물이건,한 국가이건 마찬가지라는 것이다.

악셀로드는 이것을 다음과 같이 요약하고 있다.

 

"TIT FOR TAT의 전략은 첫번째 선택에서 협동으로 부터 출발하며 그 후로 부터는 정확히 상대방의 프로그램이 바로 전번에 했던 대로 선택했다.즉 정의파 전략은 당근과 채찍의 본질을 공유하고 있다.결코 먼저 배반하지 않는다는 점에서 그것은 '착했다'.좋은 행동에 대해서 다음번에 협조함으로써 보상한다는 점에서,그것은 관대했다.그러나 비협력적 행동에 대해서는 다음번에 배반함으로써 응징한다는 점에서 그것은 '강력했다'. 더구나 그 전략이 너무도 간단해서 상대프로그램이 쉽게 그 전략을 알아낼 수 있다는 점에서,그것은 '투명했다'...

불신으로 가득찬 세계에서 조차 번창하기 위해서는 공진화(co-evolution)의 과정에 TIT FOR TAT형의 협동이 있어야 한다.그런 세계에 돌연변이에 의해 몇개의 TIT FOR TAT의 개체들이 생겨났다고 가정해 보자.그 개체들이 충분히 자주 만나게 되어 미래의 만남에 대한 이해관계가 생긴다면,그들은 작은 협동체계를 형성하기 시작할 것이다.일단 그러한 협동체계가 생기면 그들의 주위에 있는,등뒤에서 칼을 찌르는 식의 비열한 무리들 보다 훨씬 일을 잘 수행할 것이며,따라서 그들의 수는 신속하게 증가할 것이다.정말로 TIT FOR TAT식의 협동이 급기야 전체를 관장하게 될 것이다.그리고 일단 이것이 정착되면,협동하는 개체들은 거기에 머무를 것이다.만일 덜 협동적인 종류가 침략해서 그들의 '착한 점'들을 이용해 먹을려고 하면 TIT FOR TAT의 강인한 정책이 그들을 철저하게 응징할 것이며 따라서 그들은 퍼져 나갈수 없다. 이리하여 진화의 톱늬바퀴는 상향톱늬장치를 갖추게 된다."

 

지금 세계 각처에서 이러한 아이디어가 꼭,또 긴급히 필요하다고 생각되는 경우가 참으로 많아 보인다.악셀로드는 책의 마지막 부분에서 인간세상에서 협동을 증진시키려면 어떻게 해야하는가를 논하고 난 뒤,정치학자로서 범세계적 현안들에 대하여 몇가지 제안을 조심스럽게 내어 놓고 있다.

 

"오늘날 인류가 직면하고 있는 가장 중요한 문제는 독립적인 국가들 끼리 서로 이기주의적인 태도로 대립되어 일종의 무정부적 상태를 나타내고 있다는 점이다.문제의 많은 부분들이 반복적 죄수의 딜레마의 양식을 나타내고 있는데 군비경쟁,핵무기의 확산,위기시의 협상,군비증가 등이 모두 그 예이다.물론 이러한 문제들을 현실적으로 이해하려면 단순한 죄수의 딜레마가 아니라 이데올로기,관료주의,선거공약,국가간의 제휴,중재와 지도력 등을 감안해야 할 것이다.우리가 얻을 수 있는 지혜를 총동원하여야 한다."

 

D.G.Hofstadter,"The Evolution of Cooperation" Matamagical Themes,Scientific American,『딜레마 게임』이홍규,최강원 옮김,(고려의학)

 

<각주>

1) 이것은 영합게임(zero sum game)과 구분된다.이것은 한쪽의 승리가 다른 쪽의 패배로 된다.장기,바둑,축구와 같은 것은 영합게임이다.그러나 죄수의 딜레마는 비영합게임인데 같이 이익을 볼 수 있기 때문이다.

뽕브라단속단의 최근 게시물

무서운글터 인기 게시글