알아가는 즐거움

Learning to think

Gradient Boosting 알고리즘: 개념

기계학습에서 부스팅(Boosting)이란 단순하고 약한 학습기(Weak Learner)를 결합해서 보다 정확하고 강력한 학습기(Strong Learner)를 만드는 방식을 의미한다. 정확도가 낮더라도 일단 모델을 만들고, 드러난 약점(예측 오류)은 두 번째 모델이 보완한다. 이 둘을 합치면 처음보다는 정확한 모델이 만들어지고, 그럼에도 여전히 남아 있는 문제는 다음 모델에서 보완하여 계속 더하는 과정을 반복하는 원리다. Read the rest of this entry »

Empirical Bayes 방법에 대해서

Empirical Bayes(EB) 방법에 대해서 간단히 알아보자. 위키피디아에서 찾아보면, 통계적 추론을 할 때 사전확률 분포(Prior Distribution)를 데이터로부터 추정하는 방식이라고 설명한다. 데이터를 보기 전에 사전확률을 고정(Fix)하는 베이지안 방법과 대비된다는 내용이 이어진다. 하지만 이런 설명만으로는 개념을 잡기가 쉽지 않은데, 마침 구체적인 사례와 함께 이 방법론을 설명하는 시리즈 글이 두 개가 있다. 첫 번째는 야구 타자의 타율을 추정하는 문제에 대한 David Robinson의 글이고 두 번째는 전자상거래 사이트에서 상품의 노출 대비 판매율을 추정하는 문제에 관해 이베이 테크 블로그에 올라온 David Goldberg의 글이다. Read the rest of this entry »

Active Learning: 무엇을 먼저 배울 것인가

어떤 데이터를 먼저 레이블링해서 알고리즘이 학습하게 할 것인지가 액티브 러닝(Active Learning, 번역하면 능동학습?)의 핵심 질문이다. 우리의 경험에 비추어보자. 자신을 발전시키고 싶을 때, 스스로에게 무엇을 먼저 배우게 할 것인가?

첫 번째 방법은 알쏭달쏭한 것부터 물어보는 것이다. “Q1 문제에 대한 답은 A1이라고 생각하고 정답을 확신해. 그런데 Q2에 대한 답은 A2같기는 한데 자신은 없어.”라는 상황에서 무엇을 물어야 할지는 자명하다. 이런 방식을 Uncertainty Sampling이라고 하고, 불확실성을 정량화하기 위해 아래의 방식들이 제안되었다. Read the rest of this entry »

인지하는 확률과 실제 확률의 관계

우리가 체감하는 확률 혹은 상대적 빈도는 실제와 다르다. 인지하는 과정에서 왜곡이 발생하기 때문이다. 그렇다면 왜곡은 임의적으로 발생하는가 아니면 어떤 규칙을 따르는가. 이 질문에 흥미로운 답을 제시하는 을 읽었다.

많은 연구에서 보고된 바에 따르면, 왜곡된 확률(Probability Distortion)과 진짜 확률에 어떤 함수 하나를 취해서 그래프를 그리면 둘 사이에 선형적인 관계가 나온다고 한다. 이런 현상이 특정한 문제에 국한되지 않고 다양한 경우에서 공통적으로 관찰된다고 해서 흥미를 더한다. 예를 들어, 사람들에게 영어 텍스트에서 알파벳 문자의 등장 횟수나 미국의 사망 원인(ex. 홍수, 살인, 자동차 사고 등) 비율을 추정하게 한 연구가 있었다. 이런 상대적 빈도는 확률로 볼 수 있고 통계 데이터도 구축되어 있으므로 우리가 인지하는 확률이 얼마나 실제와 다른지 쉽게 비교할 수 있다. 인용한 그래프를 보면 발생 확률이 작은 이벤트는 실제보다 높게 추정하고, 반대로 흔한 이벤트는 더 낮게 추정하는 경향이 보인다. 하지만 딱 봐도 선형 관계는 아니다. (그래프는 원문에 다 있다.) Read the rest of this entry »

바이올리니스트의 엄지: DNA로 엮은 이야기

모든 사람이 인간에 대한 저마다의 관점이 있듯이 학문 분야에 따라서도 인간을 바라보는 관점이나 관심을 갖는 각도가 다를 것이다. 경제학에서는 인센티브에 반응하여 합리적인 선택을 추구하는 면을 조명하고, 사람이 쉽게 하는 일을 기계에게 가르치려는 분야에서는 도대체 사람은 그 일을 어떻게 하는지 메커니즘을 규명하는 데 관심을 가지기도 한다. 그때의 인간은 섬세하고 복잡하면서도 때로는 과감한 일종의 컴퓨터처럼 보일 수 있다. 그렇다면 생물학 그중에서도 특히 DNA와 유전자를 연구하는 관점에서 바라보는 인간은 어떤 모습일까? 어떤 흥미로운 이야기를 갖고 있을까? Read the rest of this entry »

계량경제학을 읽으면서 2

지난 글에 이어서 선형 회귀분석을 이용해 경제 변수 사이의 관계를 분석하고 있다. 그런데 변수 값의 변화량이 동일하다고 해도 그것이 갖는 의미와 효과는 상황에 따라 다를 수 있다. 가령 소득과 삶의 만족도의 관계를 연구할 때 원래 소득이 100만원일 때와 1000만원일 때 100만원의 증가를 동일하게 취급해도 될까? 안 된다면 어떻게 해야 할까? Read the rest of this entry »