• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    SIGIR 2010에서 관심이 가는 논문들 – 첫 번째

    July 23rd, 2010

    7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.

    Freshness Matters: In Flowers, Food, and Web Authority

    얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다. [계속 읽기]


    Learning More about Active Learning

    September 4th, 2009

    교과서에서 익힌 기계학습(machine learning) 기법을 교과서에 나오지 않는 데이터에 적용하려고 할 때 부딪치는 가장 큰 어려움이 뭘까?

    내가 봤을 때 전처리가 잘 되어 있고 충분히 믿음직한 좋은 품질의 데이터를 구하는 것이 가장 중요하고 또 어려운 것 같다. 여러 알고리즘 중의 가장 적절한 것을 찾는 것은 그 다음의 일이다.

    좋은 데이터를 구하는 게 중요한 일이지만 그렇다고 뾰족한 해결책이 있는 것은 아니다. 그냥 ‘알아서 잘 만들어라.’ 외에는. 그런 이유로 교과서에서는 여기에 대해 길게 설명하지 않는다. 하지만, 실제로 맞닥뜨리면 상당히 많은 시간과 노력을 필요로 하는 작업이라는 걸 알게 된다. 왜냐하면 기본적으로 사람이 데이터를 하나하나 보면서 직접 판단을 해야 하기 때문이다. 인물 사진 10000개를 보면서 그게 누구 얼굴인지 태그다는 일을 생각해보라. [계속 읽기]