August 7th, 2010
검색엔진에 ‘모나리자’를 입력했을 때, 레오나르도 다 빈치의 그림과 조용필의 노래 중에 어떤 걸 원하는지는 그 사람만이 안다. 하지만, 침묵하는 사용자의 속마음을 알아내려는 검색 연구자들의 노력 또한 치열하다 못해 아주 뜨겁다. 그동안 제안된 아이디어를 간단하게 네 가지로 분류해보자.
1. 검색어 추천 (자동완성 / 관련검색어)
이미 많이 쓰이고 있으며 많은 이들이 익숙한 방식이다. 검색어를 입력하는 동안 혹은 검색한 후에, 사용자가 찾고 있음 직한 쿼리를 제안해준다. Daum에 ‘이정수’를 검색하면, 인물 프로필에서 동명이인들을 보여주고 그중 한 명을 선택하면 ‘스케이트선수 이정수’, ‘축구선수 이정수’ 등으로 쿼리를 확장해서 재검색해준다. 다른 방법에 비해 단순해 보이지만, 사용자가 스스로 명확하게 지정하기 때문에 오류나 혼란이 적다는 것은 무시하기 어려운 장점이다.
2. 상황인지(context-aware)
현재 사용자가 어디에 있는지, 무슨 요일인지, 몇 시인지에 따라서 다른 결과를 제공하는 것도 유용할 것이다. [계속 읽기]
No Comments » |
공부 |
Permalink
Posted by SL
March 5th, 2010
검색을 할 때 질의어(query)와 문서 사이의 관련성(relevancy) 못지않게 중요한 것이 문서의 절대적인 품질(static quality)입니다. “흥부와 놀부”로 검색했는데, “흥부와 놀부는 흥부와 놀부는 흥부와 놀부는…” 이런 문서가 나온다고 생각해보세요. 어떤 기분이 들까요?
사람이 쓴 글의 품질을 자동으로 평가하는 일이 그리 쉬워 보이지는 않습니다. 이럴 때는 거인의 어깨에 올라서 봐야죠. 논문을 뒤져보니 위키피디아에 올라온 글을 대상으로 품질을 평가하려는 연구들이 좀 보입니다. [계속 읽기]
3 Comments |
논문 |
Permalink
Posted by SL
December 8th, 2009
Prologue: 지난번에 소개한 Random Walks on the Click Graph의 저자들이 쓴 다른 논문입니다. International World Wide Web Conference, 줄여서 WWW라고 하는 컨퍼런스에 포스터로 나온 건데요(2008년), 구체적인 기술 내용까지 모두 이해하려면 이것 외에 이 논문도 읽어봐야 할 것 같습니다.
텍스트를 주제에 따라 분류하는 기술도 아직 완벽하지 않습니다. 그러니 사진 같은 멀티미디어 데이터를 분류하는 일은 오죽하겠습니까. 성인 이미지 필터링 같은 문제를 생각해보면 됩니다. [계속 읽기]
2 Comments |
논문 |
Permalink
Posted by seunglee