• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    SIGIR 2010에서 관심이 가는 논문들 – 첫 번째

    July 23rd, 2010

    7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.

    Freshness Matters: In Flowers, Food, and Web Authority

    얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다. [계속 읽기]


    Behavioral Classification on the Click Graph – WWW 2008

    December 8th, 2009

    Prologue: 지난번에 소개한 Random Walks on the Click Graph의 저자들이 쓴 다른 논문입니다. International World Wide Web Conference, 줄여서 WWW라고 하는 컨퍼런스에 포스터로 나온 건데요(2008년), 구체적인 기술 내용까지 모두 이해하려면 이것 외에 이 논문도 읽어봐야 할 것 같습니다.

    텍스트를 주제에 따라 분류하는 기술도 아직 완벽하지 않습니다. 그러니 사진 같은 멀티미디어 데이터를 분류하는 일은 오죽하겠습니까. 성인 이미지 필터링 같은 문제를 생각해보면 됩니다. [계속 읽기]


    Random Walks on the Click Graph – SIGIR 2007

    December 1st, 2009

    검색 사용자들의 클릭 정보를 활용해서 검색 품질을 높일 수 있다는 건 이미 널리 알려진 사실입니다. 쉽게 생각해도 사람들이 많이 클릭한 문서일수록 좋은 문서일 것 같잖아요. 하지만, 막상 적용하려고 하면 그리 간단하지만은 않습니다. 일단 악의적으로 특정 문서를 많이 클릭해서 많이 노출시키려는 사람들이 있지요. 이런 걸 스팸 또는 어뷰징(abusing)이라고 합니다. 또 악의는 없더라도 제목에 낚여서 사람들이 많이 클릭한 문서가 있다면 역시 적절히 걸러줘야 할 겁니다. [계속 읽기]