알아가는 즐거움

Learning to think

Active Learning: 무엇을 먼저 배울 것인가

어떤 데이터를 먼저 레이블링해서 알고리즘이 학습하게 할 것인지가 액티브 러닝(Active Learning, 번역하면 능동학습?)의 핵심 질문이다. 우리의 경험에 비추어보자. 자신을 발전시키고 싶을 때, 스스로에게 무엇을 먼저 배우게 할 것인가?

첫 번째 방법은 알쏭달쏭한 것부터 물어보는 것이다. “Q1 문제에 대한 답은 A1이라고 생각하고 정답을 확신해. 그런데 Q2에 대한 답은 A2같기는 한데 자신은 없어.”라는 상황에서 무엇을 물어야 할지는 자명하다. 이런 방식을 Uncertainty Sampling이라고 하고, 불확실성을 정량화하기 위해 아래의 방식들이 제안되었다. Read the rest of this entry »

인지하는 확률과 실제 확률의 관계

우리가 체감하는 확률 혹은 상대적 빈도는 실제와 다르다. 인지하는 과정에서 왜곡이 발생하기 때문이다. 그렇다면 왜곡은 임의적으로 발생하는가 아니면 어떤 규칙을 따르는가. 이 질문에 흥미로운 답을 제시하는 을 읽었다.

많은 연구에서 보고된 바에 따르면, 왜곡된 확률(Probability Distortion)과 진짜 확률에 어떤 함수 하나를 취해서 그래프를 그리면 둘 사이에 선형적인 관계가 나온다고 한다. 이런 현상이 특정한 문제에 국한되지 않고 다양한 경우에서 공통적으로 관찰된다고 해서 흥미를 더한다. 예를 들어, 사람들에게 영어 텍스트에서 알파벳 문자의 등장 횟수나 미국의 사망 원인(ex. 홍수, 살인, 자동차 사고 등) 비율을 추정하게 한 연구가 있었다. 이런 상대적 빈도는 확률로 볼 수 있고 통계 데이터도 구축되어 있으므로 우리가 인지하는 확률이 얼마나 실제와 다른지 쉽게 비교할 수 있다. 인용한 그래프를 보면 발생 확률이 작은 이벤트는 실제보다 높게 추정하고, 반대로 흔한 이벤트는 더 낮게 추정하는 경향이 보인다. 하지만 딱 봐도 선형 관계는 아니다. (그래프는 원문에 다 있다.) Read the rest of this entry »

바이올리니스트의 엄지: DNA로 엮은 이야기

모든 사람이 인간에 대한 저마다의 관점이 있듯이 학문 분야에 따라서도 인간을 바라보는 관점이나 관심을 갖는 각도가 다를 것이다. 경제학에서는 인센티브에 반응하여 합리적인 선택을 추구하는 면을 조명하고, 사람이 쉽게 하는 일을 기계에게 가르치려는 분야에서는 도대체 사람은 그 일을 어떻게 하는지 메커니즘을 규명하는 데 관심을 가지기도 한다. 그때의 인간은 섬세하고 복잡하면서도 때로는 과감한 일종의 컴퓨터처럼 보일 수 있다. 그렇다면 생물학 그중에서도 특히 DNA와 유전자를 연구하는 관점에서 바라보는 인간은 어떤 모습일까? 어떤 흥미로운 이야기를 갖고 있을까? Read the rest of this entry »

계량경제학을 읽으면서 2

지난 글에 이어서 선형 회귀분석을 이용해 경제 변수 사이의 관계를 분석하고 있다. 그런데 변수 값의 변화량이 동일하다고 해도 그것이 갖는 의미와 효과는 상황에 따라 다를 수 있다. 가령 소득과 삶의 만족도의 관계를 연구할 때 원래 소득이 100만원일 때와 1000만원일 때 100만원의 증가를 동일하게 취급해도 될까? 안 된다면 어떻게 해야 할까? Read the rest of this entry »

계량경제학을 읽으면서 1

계량경제학에 대한 책을 읽고 있다. 경제 요소 간의 관계를 분석해서 한 요소 값의 변화가 어떤 영향을 끼치는지를 정량적으로 추정하는 것이 목표인데, 여기서 말하는 경제 요소란 학업 성취도나 범죄율, 집값 등을 포괄해서 가리킨다. 통계적인 도구로는 선형회귀분석을 이용한다. 회귀분석은 기계학습 분야에서도 쓰는 기본적인 도구지만 그쪽의 맥락에서 공부했을 때와는 조금 다른 느낌이 들었다. 예측 정확도 자체보다 개별 요소의 효과 측정과 의미 해석에 중점을 두고 있다는 점에서 배울 거리가 많았다.

개발도상국에서 농민의 살충제 사용이 가구의 의료비 지출에 미치는 영향을 연구한다고 생각해보자. 살충제 사용 여부와 의료비 데이터만 구해다가 회귀분석을 하면 될까? Read the rest of this entry »

R 노트북을 써보았다: 간단한 PCA

RStudio 1.0이 나오면서 정식으로 포함된 R 노트북을 써볼 겸 간단하게 주성분분석(PCA)을 돌려보았다. 세계 국가의 인구, 영토, GDP, 1인당 GDP 데이터에서 주성분을 뽑으면 무엇이 나올까? Read the rest of this entry »