SIGIR 2010에서 관심이 가는 논문들 – 두 번째

by SL

주말에 여차저차해서 시간이 남아도는 바람에 지난 글에 이어서 논문 몇 편을 더 소개한다.

Context-Aware Ranking in Web Search

검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 분류하고 그에 맞게 랭킹을 변경하는 방식을 제안한다.

  1. Reformulation (“homes for rent in Atlanta” -> “houses for rent in Atlanta”)
  2. Specialization (“time life music” -> “time life Christian CDs”)
  3. Generalization (“free online Tetris game” -> “Tetris game”)
  4. Association (“Xbox 360” -> “FIFA 2010”)

위의 경우를 보면 두 번째 쿼리가 들어왔을 때, 이전 쿼리와의 관계에 따라 사용자 의도를 알아채서 조금 더 똑똑한 랭킹을 할 수 있을 것도 같다. 하지만, 또 한편으로 이런 생각도 든다. 1) 이렇게 의미를 직관적으로 해석할 수 있는 경우가 얼마나 될까? 2) 구체적인 메커니즘을 모르는 사용자에게는 똑같은 쿼리인데도 검색결과가 자꾸 바뀌거나 하면 오히려 혼란스럽지 않을까?

The Demographics of Web Search

“wagner”라는 단어를 검색했을 때 여자들은 주로 클래식 음악 작곡가를, 남자들은 분무기 솔(spray brush) 제조사를 클릭한다는 사례로 시작하는 도입부가 흥미로웠다. 다의어의 예로 만날 “jaguar”나 “java”만 보다가 새로운 예를 만나니 신선하기도 했고. Demography는 인구통계학을 의미한다. 이 논문은 Yahoo!에서 로그인한 사용자의 검색 로그를 분석해서, 나이, 성별, 인증, 학력 등에 따른 검색 사용 행태 차이를 연구한 내용을 담고 있다.

쉽게 상상할 수 있듯이, 위에서 언급한 특성으로 분류된 그룹마다 자주 검색하는 단어가 다르다. 또, 학력에 따라 쿼리 길이가 다르다거나, 특정 나이대의 사용자들이 특정한 종류의 쿼리에 대해서 클릭 엔트로피(Click Entropy)가 튄다는 등의 결과도 들려준다.

사용자 한 명 한 명에 맞추는 것이 아니라 특성에 따라 그룹을 짓는 점이 다르다면서 개인화(Personalization)와 구분하지만, 넓게 보면 비슷하지 않나 싶다. 문서 내용을 통해 저자의 특성을 추출하려는 Author Profiling도 떠올랐다.

Query Similarity by Projecting the Query-Flow Graph

클릭 그래프(Click Graph)는 쿼리와 클릭한 문서의 관계를 표현하는 그래프다. 이 논문에서 사용하는 쿼리플로우 그래프(Query-flow Graph)는 어떤 특정한 목적을 달성하기 위해서 입력한 쿼리들이 서로 연결되는 그래프이다. 가령, 영화 인셉션에 대한 반응이 궁금해서 “인셉션 별점”, “인셉션 평가”라고 검색했다면 이 쿼리들이 서로 두텁게 연결된 그래프가 만들어진다.

이 논문의 핵심은 이 그래프에 Graph-projection Method를 적용해서 쿼리들을 클러스터링하고, 쿼리 간 유사도를 계산했다는 것이다. 이게 잘 되면 검색어 자동완성이나 관련검색어를 만드는 데 적용할 수 있다. 특히, 여기서는 주어진 쿼리에 대해서 다양한 관련 검색어를 추천하는 데 활용하는 얘기를 해서 관심이 갔다. 검색의 중요성이 커지는 만큼 다양성을 보장하는 데 대한 이야기도 처음 지적된 이후 꾸준하게 나오는 것 같다.

마지막으로, 이번 프로시딩을 훑으면서 새삼 깨달은 사실. 검색 연구에서 Yahoo!와 Microsoft가 차지하는 비중이 장난 아니구나.