시간성이 중요한 쿼리를 어떻게 찾을까?

by SL

검색에 있어 문서 품질의 중요성을 얘기한 적이 있는데, 그외에 또 중요한 요소가 바로 시간성이다. 문서의 다른 조건이 동일하다면, 언제 쓰여진 글을 보여줄 것인가? 우리말로는 시간성, 시의성, 최신성 등으로 다양하게 부르고, 영어에서도 recency, temporal, time-sensitive 등으로 표현한다.

문서 최신성을 추구하는 노력의 극단에 실시간 검색이 있다. 직접 경험하기 전까지만 해도 실시간 검색의 필요성에는 다소 회의적이었는데, 실제로 써보니까 중계(운동경기, 선거개표현황)나 즉각적인 반응(백분토론, 맥북프로신제품)에 대한 검색 요구에는 유용한 도구 같다. 입장을 철회해야겠다.

그렇지만, 사람들이 검색하는 모든 질의어에서 최신성이 중요한 것은 아니다. 어떨 때 사람들이 (상대적으로) 최근의 소식, 따끈따끈한 정보를 원하는지 먼저 알아내야 한다.

2009년 야후!의 Improving Search Relevance for Implicitly Temporal Queries라는 두 장짜리 논문을 보면, 사람들이 날리는 쿼리로그에서 패턴을 집어내려고 시도한다. 연도(year)랑 같이 입력되는 키워드(ex. “2010 월드컵”)는 최신성이 중요하다고 판단, 검색 결과를 만들 때 문서가 작성된 시기를 더 중요하게 반영하자는 것이다. 다른 단어보다는 연도와 많이 결합될수록, 또 다양한 연도와 결합될수록 그 키워드의 검색에서 문서의 나이는 더 중요하다고 볼 수 있다.

그런데 또 한편으로는 무조건 최근글에 가중치를 주는 게 맞나 하는 의문이 생긴다. 2008년에 콜럼비아 대학교와 뉴욕대학교에도 그런 생각을 한 사람들이 있었다. 그들은 Answering General Time-Sensitive Queries라는 무척 멋진 제목의 (역시 두 장짜리) 논문에서, 특정 주제의 문서가 쏟아져나온 시기를 자동으로 찾고, 그때 작성된 문서에 높은 가중치를 주는 검색 방법을 제안하였다. 아래는 논문에 삽입된 그림인데, 이슈가 발생해서 특정 단어를 포함한 문서가 많이 생산되는 시기가 있음을 보여준다.

이럴 땐 언제 작성된 문서를 보여주는 게 최선일까?

올해 2월에 열린 WSDM(Web Search and Data Mining, 위즈덤(wisdom)이라고 읽는다고 한다)에서는 Towards Recency Ranking in Web Search라는 논문이 발표되었고, 7월에 있을 SIGIR 2010 컨퍼런스에도 이 주제와 관련된 논문들이 보인다. 과연 어떤 새로운 아이디어를 선보일지 기대된다.