• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    SIGIR 2010에서 관심이 가는 논문들 – 두 번째

    August 2nd, 2010

    주말에 여차저차해서 시간이 좀 남아도는 바람에, 지난 글에 이어서 논문 몇 편을 더 소개한다.

    • Context-Aware Ranking in Web Search
      검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 위치 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 다르고, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 분류하고 그에 맞게 랭킹을 변경하는 방식을 제안한다.
      1. Reformulation (“homes for rent in Atlanta” -> “houses for rent in Atlanta”)
      2. Specialization (“time life music” -> “time life Christian CDs”)
      3. Generalization (“free online Tetris game” -> “Tetris game”)
      4. Association (“Xbox 360″ -> “FIFA 2010″)
      위의 경우를 보면 두 번째 쿼리가 들어왔을 때, 이전 쿼리와의 관계에 따라 사용자 의도를 알아채서 조금 더 똑똑한 랭킹을 할 수 있을 것도 같다. 하지만, 또 한편으로 이런 생각도 든다. [계속 읽기]

    Behavioral Classification on the Click Graph – WWW 2008

    December 8th, 2009

    Prologue: 지난번에 소개한 Random Walks on the Click Graph의 저자들이 쓴 다른 논문입니다. International World Wide Web Conference, 줄여서 WWW라고 하는 컨퍼런스에 포스터로 나온 건데요(2008년), 구체적인 기술 내용까지 모두 이해하려면 이것 외에 이 논문도 읽어봐야 할 것 같습니다.

    텍스트를 주제에 따라 분류하는 기술도 아직 완벽하지 않습니다. 그러니 사진 같은 멀티미디어 데이터를 분류하는 일은 오죽하겠습니까. 성인 이미지 필터링 같은 문제를 생각해보면 됩니다. [계속 읽기]


    Random Walks on the Click Graph – SIGIR 2007

    December 1st, 2009

    검색 사용자들의 클릭 정보를 활용해서 검색 품질을 높일 수 있다는 건 이미 널리 알려진 사실입니다. 쉽게 생각해도 사람들이 많이 클릭한 문서일수록 좋은 문서일 것 같잖아요. 하지만, 막상 적용하려고 하면 그리 간단하지만은 않습니다. 일단 악의적으로 특정 문서를 많이 클릭해서 많이 노출시키려는 사람들이 있지요. 이런 걸 스팸 또는 어뷰징(abusing)이라고 합니다. 또 악의는 없더라도 제목에 낚여서 사람들이 많이 클릭한 문서가 있다면 역시 적절히 걸러줘야 할 겁니다. [계속 읽기]