• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    SIGIR 2010에서 관심이 가는 논문들

    July 23rd, 2010

    7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.

    • Freshness Matters: In Flowers, Food, and Web Authority
      얼핏 문학적으로 보이는 제목은, 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써, 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다. [계속 읽기]

    의미있는 실패

    June 16th, 2010

    좋은 아이디어가 떠올라서 당장 적용해보고 싶은 순간이 살다 보면 몇 번은 생긴다. 손발이 근질거리는 마음은 이해하지만 잠시 흥분을 가라앉히고 먼저 데이터 분석을 통해 검증해보자. 십중팔구는 생각하지 못한 예외적인 경우를 발견할 것이다. 운이 좋아서 그런 예외를 쉽게 걸러내는 방법을 찾거나, 처음의 생각을 약간 수정하는 정도로 검증 과정을 통과할지도 모르지만, 많은 경우에 그 예외가 사실은 예외가 아니고 너무나 결정적이어서 아이디어 자체를 폐기해야 하기도 한다. 그렇더라도 이런 실패는 다른 연구자의 시행착오(라 쓰고 삽질이라 읽는다)를 줄여주고, 그렇게 절약한 시간과 에너지를 더 생산적인 곳에 쏟아부을 수 있게 한다는 점에서 공유할 만한 가치가 있다. [계속 읽기]


    문서의 품질을 자동으로 측정할 수 있을까?

    March 5th, 2010

    검색을 할 때 질의어(query)와 문서 사이의 관련성(relevancy) 못지않게 중요한 것이 문서의 절대적인 품질(static quality)입니다. “흥부와 놀부”로 검색했는데, “흥부와 놀부는 흥부와 놀부는 흥부와 놀부는…” 이런 문서가 나온다고 생각해보세요. 어떤 기분이 들까요?

    사람이 쓴 글의 품질을 자동으로 평가하는 일이 그리 쉬워 보이지는 않습니다. 이럴 때는 거인의 어깨에 올라서 봐야죠. 논문을 뒤져보니 위키피디아에 올라온 글을 대상으로 품질을 평가하려는 연구들이 좀 보입니다. [계속 읽기]


    Learning to Rank: 개념만 간단히

    October 26th, 2009

    검색엔진을 구성하는 요소에는 수집기, 색인기, 검색기 등이 있지만, 사용자가 체감하는 품질을 결정짓는 요소는 결국 랭킹입니다. 키워드 입력하고 엔터키 쳤을 때, 얼마나 그에 잘 부합하는 문서가 상단에 나오느냐 하는 거죠.

    랭킹의 중요한 특징은 키워드-문서 사이의 관련도를 반드시 수치로 정확하게 알 필요가 없다는 점입니다. 문서 A와 B의 점수가 각각 80점 / 70점이든, 90점 / 60점이든 상관없습니다. 순서가 A, B라는 것, 바로 그게 중요한 겁니다. [계속 읽기]


    현실 마이닝(Reality Mining) – MIT Medialab

    October 19th, 2009

    유행을 선도하는 사람들을 보면 정말 이름 하나는 잘 짓는다는 생각이 듭니다. MIT 미디어랩은 그중에서도 특히 새로운 개념을 만들고 제시하는 데 출중해서, 보다 보면 질투가 다 날 지경입니다. (^^;)

    웹에서 현실 마이닝(Reality Mining)이라는 단어를 보고 혹해서 검색했더니 역시나(?) MIT 미디어랩의 프로젝트라고 나오네요. 이미 2004 ~ 2005년에 실험해서 데이터를 수집했고, 관련된 연구 논문들도 많이 나와 있습니다. [계속 읽기]


    Page 1 of 212