Poisson Distribution: 쉽고 기초적인 내용만

by SL

양수 lambda가 인자(parameter)로 주어졌을 때 랜덤 변수 X가 다음과 같은 확률을 가지면 푸아송 분포(Poisson Distribution)를 따른다고 한다.

Poission Distribution

이렇게 수식으로만 보면 매우 복잡하고 어려운 것 같으니까, Poisson 분포가 무엇을 의미하며 어떻게 쓰이는지를 살펴보자. 쉽게 얘기하면, 어떤 이벤트가 발생하는 확률을 알고 있을 때, 단위 시간 동안 그 이벤트가 몇 번 발생할지에 대한 확률을 보여주는 것이다.

graph

오른쪽 그림은 위키피디아에서 멋대로 가져온 것인데, 그래프의 가로축은 랜덤 변수 X, 세로축은 P(X)를 나타낸다. 까만선(lambda = 10)을 보자. P(X = 10)일 확률이 가장 높고, 좌우로 갈수록 낮아지는 것이 보인다.

좀더 와닿는 예를 살펴볼까? 책을 만드는데 평균적으로 400글자마다 오타가 두 개씩 발생한다고 치자. 한 페이지 당 400글자가 들어간다면, 임의의 페이지에 오타가 딱 한 개 있을 확률은 얼마일까?

400글자를 한 단위로 봤을 때, 단위 당 이벤트(오타)가 발생하는 횟수, 즉 lambda = 2이다.

P(X=1) = 0.27

혹시 위의 문제를 보고 Binomial 분포를 떠올린 분이 있을지도 모르겠다. 그렇다. n = 400, p = 2 / 400인 Binomial 분포가 맞다. 실제로 n이 매우 크고 p는 매우 작다는 조건 하에서 Binomial 분포 B(n, p)는 Poission(lambda = np)로 근사(approximate)할 수 있다. 실제 결과값을 비교해봐도 매우 유사하다는 걸 알 수 있다.

B = 0.27

참고자료

  • A First Course in Probability, 6th edition, Sheldon Ross, Prentice Hall