• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    SIGIR 2010에서 관심이 가는 논문들 – 첫 번째

    July 23rd, 2010

    7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.

    Freshness Matters: In Flowers, Food, and Web Authority

    얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다. [계속 읽기]


    Learning to Rank: 개념만 간단히

    October 26th, 2009

    검색엔진을 구성하는 요소에는 수집기, 색인기, 검색기 등이 있지만, 사용자가 체감하는 품질을 결정짓는 요소는 결국 랭킹입니다. 키워드 입력하고 엔터키 쳤을 때, 얼마나 그에 잘 부합하는 문서가 상단에 나오느냐 하는 거죠.

    랭킹의 중요한 특징은 키워드-문서 사이의 관련도를 반드시 수치로 정확하게 알 필요가 없다는 점입니다. 문서 A와 B의 점수가 각각 80점 / 70점이든, 90점 / 60점이든 상관없습니다. 순서가 A, B라는 것, 바로 그게 중요한 겁니다. [계속 읽기]