패러독스에서 배우기

by SL

어떤 음식 X가 질병 Y를 유발하는지 알아보려고 한다. 100명의 사람을 대상으로 데이터를 구했는데, 100명 중에 남자와 여자가 각각 50명이고, X를 먹는 사람과 먹지 않는 사람도 각기 50명이다. 그리고 질병 Y가 발병한 사람은 총 70명이다. 표로 요약하면 아래와 같다. (남자 중에서 X를 먹는 사람은 35명이고, 이중 20명에게서 Y가 발병)

그럼 이제부터 간단한 계산을 해보자.

  • X를 먹는 남자에게 Y가 발병한 확률 P(Y=1 | X=1, 남자) = 20 / 35 = 57%이다.
  • X를 먹지 않는 남자에게 Y가 발병한 확률 P(Y=1 | X=0, 남자) = 7 / 15 = 47%이다.

즉, Y가 발병할 확률은 X를 먹지 않는 남자보다 X를 먹는 남자에게서 더 높다. 여자는 어떨까?

  • P(Y=1 | X=1, 여자) = 13 / 15 = 87%
  • P(Y=1 | X=0, 여자) = 30 / 35 = 85%

역시나 P(Y=1 | X=1, 여자) > P(Y=1 | X=0, 여자)

남자든 여자든 X를 먹는 경우에, 먹지 않을 때보다 Y가 발병할 확률이 높았다. 그러므로 자연스럽게 P(Y=1 | X=1) > P(Y=1 | X=0)이라는 결론이 나온다. 그렇지 않은가? 그래도 혹시 모르니까 확인해보자.

  • P(Y=1 | X=1) = 33 / 50 = 66%
  • P(Y=1 | X=0) = 37 / 50 = 74%

응? P(Y=1 | X=1) < P(Y=1 | X=0)이라고? 말도 안돼.

이것이 바로 심슨의 패러독스(Simpson’s Paradox)라고 알려진 현상이다. 케이스 별로 나누어봤을 때 보이던 경향이 전체로 보면 사라지고 심지어는 역전되는 현상. 이를 어떻게 해석해야 하는가?

이 문제가 왜 발생하는지부터 알아야 한다. 다시 봐도 직관에 반하는 결과라는 건 분명하지만, 수식 자체나 그 전개에는 문제가 없다. 그렇다면 문제는 둘 중 하나다. 우리의 가정이 틀렸거나 아니면 해석이 틀렸거나. 아래 논리에서 어디가 틀렸을까?

  1. 인간은 남자 아니면 여자이다. (P(남자) + P(여자) = 1, P(남자 and 여자) = 0)
  2. 성별에 상관없이 X를 먹었을 때, Y가 더 잘 발병했다.
  3. 따라서, 인간은 X를 먹으면, 안 먹을 때보다 Y가 더 잘 발생한다.

논리 상으로도 딱히 오류는 없는 것 같다. 문제는, 수식이 실제로 말하는 것과 그 수식이 말한다고 우리가 생각한 것이 서로 다르다는 점이다.

이 맥락에서 P(Y=1 | X=1, 남자)는 “남자이고 X를 먹을 때, Y가 발병한 확률”이다. 다르게 말하면, X를 먹는 남자 중에서 Y가 발병할 사람의 비율로서, X와 Y 사이의 관련성 외에는 -특히 인과관계에 대해서는- 아무런 말도 하지 않는다.

하지만 위의 삼단논법(?)에서는 “X를 먹었을 때, Y가 발병한다”라고 하면서 슬그머니 상관관계를 인과관계처럼 바꿔버렸다. 이렇게 말하려면, 랜덤으로 사람을 선택해서 X를 먹인 뒤 Y가 발병하는지 관찰하는 통제실험을 했어야 한다.

우리가 모르는 어떤 원인(이를테면, 유전자?)이 있으며, 거기에 해당하는 사람은 X를 좋아하고 동시에 Y에 걸리기 쉬운지 모른다. 아니면, X가 Y병에 좋다고 알려져서, Y에 취약한 사람들이 일부러 X를 찾아먹는지도 모른다. 그렇기 때문에 P(Y=1 | X=1)을 (그럴 만한 이유없이) 단순히 X를 먹었을 때 Y에 걸릴 확률로 생각해선 안 되는 것이다.

문제의 현상을 상관관계로 제대로 해석하면, “남자 중에서 X를 먹는 사람이 안 먹는 사람보다 Y에 걸린 확률(=비율)이 더 크고, 여자도 마찬가지지만, 전체적으로 보면 X를 안 먹는 사람 중에서 Y에 걸린 확률이 더 크다”고 말할 수 있다. 여전히 직관에 혼란을 주긴 하지만, 말이 안 되는 것은 아니다.

“남자에게 X를 먹이면 Y에 걸릴 확률이 늘어나고, 여자에게도 마찬가지지만, 사람에게 X를 먹이면 Y의 발병 확률이 줄어든다”는 모순된 얘기와 비교해보라.

심슨의 패러독스는 얼핏 말도 안 되는 소리같지만, 알고보면 확률의 알쏭달쏭한 의미 해석에서 우리가 착각하고 있었음을 깨닫게 해준다. 그 모순을 해소하는 과정에서 상관관계와 인과관계에 대해 더 깊은 이해를 얻을 수 있다. 패러독스를 말 장난으로 치부하고 무시하면 안 되는 이유다.

이외에도 지천에 널린 수많은 패러독스로부터 우리는 또 무엇을 배울 수 있을까?

참고자료

  • All of Statistics: A Concise Course in Statistical Inference, Larry Wasserman, 2004