August 7th, 2010
검색엔진에 ‘모나리자’를 입력했을 때, 레오나르도 다 빈치의 그림과 조용필의 노래 중에 어떤 걸 원하는지는 그 사람만이 안다. 하지만, 침묵하는 사용자의 속마음을 알아내려는 검색 연구자들의 노력 또한 치열하다 못해 아주 뜨겁다. 그동안 제안된 아이디어를 간단하게 네 가지로 분류해보자.
1. 검색어 추천 (자동완성 / 관련검색어)
이미 많이 쓰이고 있으며 많은 이들이 익숙한 방식이다. 검색어를 입력하는 동안 혹은 검색한 후에, 사용자가 찾고 있음 직한 쿼리를 제안해준다. Daum에 ‘이정수’를 검색하면, 인물 프로필에서 동명이인들을 보여주고 그중 한 명을 선택하면 ‘스케이트선수 이정수’, ‘축구선수 이정수’ 등으로 쿼리를 확장해서 재검색해준다. 다른 방법에 비해 단순해 보이지만, 사용자가 스스로 명확하게 지정하기 때문에 오류나 혼란이 적다는 것은 무시하기 어려운 장점이다.
2. 상황인지(context-aware)
현재 사용자가 어디에 있는지, 무슨 요일인지, 몇 시인지에 따라서 다른 결과를 제공하는 것도 유용할 것이다. [계속 읽기]
1 Comment |
paper |
Permalink
Posted by SL
August 2nd, 2010
주말에 여차저차해서 시간이 남아도는 바람에 지난 글에 이어서 논문 몇 편을 더 소개한다.
Context-Aware Ranking in Web Search
검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 분류하고 그에 맞게 랭킹을 변경하는 방식을 제안한다.
1. Reformulation (“homes for rent in Atlanta” -> “houses for rent in Atlanta”)
2. Specialization (“time life music” -> “time life Christian CDs”)
3. Generalization (“free online Tetris game” -> “Tetris game”)
4. Association (“Xbox 360″ -> “FIFA 2010″)
위의 경우를 보면 두 번째 쿼리가 들어왔을 때, 이전 쿼리와의 관계에 따라 사용자 의도를 알아채서 조금 더 똑똑한 랭킹을 할 수 있을 것도 같다. 하지만, 또 한편으로 이런 생각도 든다. [계속 읽기]
2 Comments |
paper |
Permalink
Posted by SL
June 24th, 2010
2003년 CIKM(Conference on Information and Knowledge Management)에 나온 Time-Based Language Models라는 논문을 보면, Language Model에 기반한 기존의 검색 랭킹 연구를 소개하고, 거기에 시간이라는 요소를 추가한 새로운 모델을 설명하고 있다.
우선 기본적인 방식은 Query Likelihood Model이다. 1999년 CIKM에 나온 A General Language Model for Information Retrieval에 따르면, 글의 내용에 따라 그 문서의 모델 Md를 만들고, 그 모델로부터 쿼리 Q가 생성될 확률을 계산한다.

2년 후 SIGIR에 등장한 Relevance-based Language Models에서는 여기에 새로운 아이디어를 덧붙였다. 적합성 피드백(Relevance Feedback)에 기초해 쿼리확장(Query Expansion)을 해보자는 것인데, 자세히 살펴보자. [계속 읽기]
No Comments » |
paper |
Permalink
Posted by SL
June 19th, 2010
검색에 있어 문서 품질의 중요성을 얘기한 적이 있는데, 그외에 또 중요한 요소가 바로 시간성이다. 문서의 다른 조건이 동일하다면, 언제 쓰여진 글을 보여줄 것인가? 우리말로는 시간성, 시의성, 최신성 등으로 다양하게 부르고, 영어에서도 recency, temporal, time-sensitive 등으로 표현한다.
문서 최신성을 추구하는 노력의 극단에 실시간 검색이 있다. 직접 경험하기 전까지만 해도 실시간 검색의 필요성에는 다소 회의적이었는데, 실제로 써보니까 중계(운동경기, 선거개표현황)나 즉각적인 반응(백분토론, 맥북프로신제품)에 대한 검색 요구에는 유용한 도구 같다. 입장을 철회해야겠다.
그렇지만, 사람들이 검색하는 모든 질의어에서 최신성이 중요한 것은 아니다. 어떨 때 사람들이 (상대적으로) 최근의 소식, 따끈따끈한 정보를 원하는지 먼저 알아내야 한다. [계속 읽기]
3 Comments |
paper |
Permalink
Posted by SL