• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    책의 관계를 그래프로 그려보자

    December 31st, 2010

    간단하게 그래프를 그려주는 도구를 찾고 있었는데, 우연히 정보시각화 아틀리에 블로그의 글을 보고 NodeXL이라는 엑셀 플러그인을 알게 되었다. (무료) 이런 프로그램을 찾아다닌 이유는 아래와 같은 그림을 그리기 위해서였다.

    누르면 커져요
    [계속 읽기]


    SIGIR 2010에서 관심이 가는 논문들 – 두 번째

    August 2nd, 2010

    주말에 여차저차해서 시간이 남아도는 바람에 지난 글에 이어서 논문 몇 편을 더 소개한다.

    Context-Aware Ranking in Web Search

    검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 분류하고 그에 맞게 랭킹을 변경하는 방식을 제안한다.
    1. Reformulation (“homes for rent in Atlanta” -> “houses for rent in Atlanta”)
    2. Specialization (“time life music” -> “time life Christian CDs”)
    3. Generalization (“free online Tetris game” -> “Tetris game”)
    4. Association (“Xbox 360″ -> “FIFA 2010″)
    위의 경우를 보면 두 번째 쿼리가 들어왔을 때, 이전 쿼리와의 관계에 따라 사용자 의도를 알아채서 조금 더 똑똑한 랭킹을 할 수 있을 것도 같다. 하지만, 또 한편으로 이런 생각도 든다. [계속 읽기]


    Behavioral Classification on the Click Graph – WWW 2008

    December 8th, 2009

    Prologue: 지난번에 소개한 Random Walks on the Click Graph의 저자들이 쓴 다른 논문입니다. International World Wide Web Conference, 줄여서 WWW라고 하는 컨퍼런스에 포스터로 나온 건데요(2008년), 구체적인 기술 내용까지 모두 이해하려면 이것 외에 이 논문도 읽어봐야 할 것 같습니다.

    텍스트를 주제에 따라 분류하는 기술도 아직 완벽하지 않습니다. 그러니 사진 같은 멀티미디어 데이터를 분류하는 일은 오죽하겠습니까. 성인 이미지 필터링 같은 문제를 생각해보면 됩니다. [계속 읽기]


    Random Walks on the Click Graph – SIGIR 2007

    December 1st, 2009

    검색 사용자들의 클릭 정보를 활용해서 검색 품질을 높일 수 있다는 건 이미 널리 알려진 사실입니다. 쉽게 생각해도 사람들이 많이 클릭한 문서일수록 좋은 문서일 것 같잖아요. 하지만, 막상 적용하려고 하면 그리 간단하지만은 않습니다. 일단 악의적으로 특정 문서를 많이 클릭해서 많이 노출시키려는 사람들이 있지요. 이런 걸 스팸 또는 어뷰징(abusing)이라고 합니다. 또 악의는 없더라도 제목에 낚여서 사람들이 많이 클릭한 문서가 있다면 역시 적절히 걸러줘야 할 겁니다. [계속 읽기]