September 4th, 2009
교과서에서 익힌 기계학습(machine learning) 기법을 교과서에 나오지 않는 데이터에 적용하려고 할 때 부딪치는 가장 큰 어려움이 뭘까?
내가 봤을 때 전처리가 잘 되어 있고 충분히 믿음직한 좋은 품질의 데이터를 구하는 것이 가장 중요하고 또 어려운 것 같다. 여러 알고리즘 중의 가장 적절한 것을 찾는 것은 그 다음의 일이다.
좋은 데이터를 구하는 게 중요한 일이지만 그렇다고 뾰족한 해결책이 있는 것은 아니다. 그냥 ‘알아서 잘 만들어라.’ 외에는. 그런 이유로 교과서에서는 여기에 대해 길게 설명하지 않는다. 하지만, 실제로 맞닥뜨리면 상당히 많은 시간과 노력을 필요로 하는 작업이라는 걸 알게 된다. 왜냐하면 기본적으로 사람이 데이터를 하나하나 보면서 직접 판단을 해야 하기 때문이다. 인물 사진 10000개를 보면서 그게 누구 얼굴인지 태그다는 일을 생각해보라. [계속 읽기]
No Comments » |
paper |
Permalink
Posted by seunglee
May 12th, 2009
CACM 4월호에 실린 짧은 글인데, Sentimental Analysis의 개념을 설명하고 기술 상용화를 준비하고 있는 회사들의 이야기가 있어서 간단히 소개한다.
이 글에서는 Sentimental Analysis라는 용어로, 여태껏 Opinion Mining, Business Intelligence 따위의 단어로 불리던 기술응용분야를 묶었다. Sentimental Analysis를 간단히 설명하자면, 사람들이 적은 글에서 특정 대상(또는 주제)에 대한 저자의 주관적인 의견을 뽑아내는 것이다. 예를 들어 영화 리뷰나 제품 사용기가 있을 때, ‘글을 쓴 사람이 대상을 좋아했는가? 만약 그렇다면 얼마나 좋아했는가?’를 알아내는 것부터 ‘그 영화 줄거리는 좋은데 배우가 연기를 못 해’ 같은 의견을 추출하는 것까지를 모두 포함한다. [계속 읽기]
1 Comment |
paper |
Permalink
Posted by SL
March 16th, 2009
저자들의 설명에 따르면, 작자 미상의 글이 있을 때 그 글의 내용이나 스타일 등을 통해서 저자에 대한 정보를 추측하는 것을 Authorship Profiling이라고 한다. 저자로 추정되는 여러 후보를 중에서 한 명을 콕 집어내는 Authorship Attribution과 달리, Authorship Profiling은 저자의 성별이나 나이 따위의 개인적인 특성을 추측하려는 것이다.
이런 게 왜 필요할까? 가령 어느 익명 게시판에 갔더니 특정 상품에 대해 부정적인 리뷰가 넘쳐난다고 생각해보자. 회사 관계자라면 그 상품을 나쁘게 평가한 소비자들이 주로 남자인지 여자인지, 청소년인지 장년층인지 궁금하지 않을까? [계속 읽기]
1 Comment |
paper |
Permalink
Posted by SL