Lemmatization: Stemming과의 차이

by SL

Lemmatization이란 문장 속에서 다양한 형태로 활용된(inflected) 단어의 표제어(lemma)를 찾는 일을 뜻한다. 여기서 말하는 표제어란 사전에서 단어의 뜻을 찾을 때 쓰는 기본형이라고 생각하면 된다. 예를 들어, ‘아름다운’이 Lemmatization을 거치면 ‘아름답다’가 된다. Stemming과 비슷해 보이지만 중요한 차이가 있다. Stemming은 단어 그 자체만을 고려하지만 Lemmatization은 그 단어가 문장 속에서 어떤 품사(Part-of-speech)로 쓰였는지까지 판단한다.

영어를 예로 들면, (한국어에서는 적절한 예가 떠오르지 않는다.) ‘flies’가 주어졌을 때, Stemming은 단순히 이 단어의 어근을 내놓는데 비해, Lemmatization은 문장 속에서 ‘files’가 동사 ‘날다’ 와 명사 ‘파리’ 중 어떤 뜻으로 쓰였는지까지 결정할 수 있어야 한다. 그렇기 때문에 Lemmatization을 수행하려면 문장 구조 분석 같은 언어적 이해가 필요하고 따라서 Stemming에 비해 복잡한 처리 과정을 거쳐야 한다.

참고자료: http://en.wikipedia.org/wiki/Lemmatisation