Lemmatization: Stemming과의 차이

Lemmatization이란 문장 속에서 다양한 형태로 활용된(inflected) 단어의 표제어(lemma)를 찾는 일을 뜻한다. 여기서 말하는 표제어란 사전에서 단어의 뜻을 찾을 때 쓰는 기본형이라고 생각하면 된다. 예를 들어, ‘아름다운’이 Lemmatization을 거치면 ‘아름답다’가 된다. Stemming과 비슷해 보이지만 중요한 차이가 있다. Stemming은 단어 그 자체만을 고려하지만 Lemmatization은 그 단어가 문장 속에서 어떤 품사(Part-of-speech)로 쓰였는지까지 판단한다.