• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    SIGIR 2010에서 관심이 가는 논문들

    July 23rd, 2010

    7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.

    • Freshness Matters: In Flowers, Food, and Web Authority
      얼핏 문학적으로 보이는 제목은, 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써, 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다. [계속 읽기]

    Time-Based Language Models – CIKM 2003

    June 24th, 2010

    2003년 CIKM(Conference on Information and Knowledge Management)에 나온 Time-Based Language Model이라는 논문을 보면, Language Model에 기반한 기존의 검색 랭킹 연구를 소개하고, 거기에 시간이라는 요소를 추가한 새로운 모델을 설명하고 있다.

    우선 기본적인 방식은 Query Likelihood Model이다. 1992년 CIKM에 나온 A General Language Model for Information Retrieval에 따르면, 글의 내용에 따라 그 문서의 모델 Md를 만들고, 그 모델로부터 쿼리 Q가 생성될 확률을 계산한다.

    2년 후 SIGIR에 등장한 Relevance-based Language Models에서는 여기에 새로운 아이디어를 덧붙였다. 적합성 피드백(Relevance Feedback)에 기초해 쿼리확장(Query Expansion)을 해보자는 것인데, 좀더 자세히 살펴보자. [계속 읽기]


    시간성이 중요한 쿼리를 어떻게 찾을까?

    June 19th, 2010

    검색에 있어 문서 품질의 중요성을 얘기한 적이 있는데, 그외에 또 중요한 요소가 바로 시간성이다. 문서의 다른 조건이 동일하다면, 언제 쓰여진 글을 보여줄 것인가? 우리말로는 시간성, 시의성, 최신성 등으로 다양하게 부르고, 영어에서도 recency, temporal, time-sensitive 등으로 표현한다.

    문서 최신성을 추구하는 노력의 극단에 실시간 검색이 있다. 직접 경험하기 전까지만 해도 실시간 검색의 필요성에는 다소 회의적이었는데, 실제로 써보니까 중계(운동경기, 선거개표현황)나 즉각적인 반응(백분토론, 맥북프로신제품)에 대한 검색 요구에는 유용한 도구 같다. 입장을 철회해야겠다.

    그렇지만, 사람들이 검색하는 모든 질의어에서 최신성이 중요한 것은 아니다. 어떨 때 사람들이 (상대적으로) 최근의 소식, 따끈따끈한 정보를 원하는지 먼저 알아내야 한다. [계속 읽기]


    현대 포트폴리오 이론 (Modern Portfolio Theory)

    May 2nd, 2010

    예전에 투자이론(Modern Portfolio Theory)을 검색에 응용한 논문김진영님소개해 주셨습니다. 쿼리를 입력한 사용자의 의도를 정확하게 짚어내는 건 불가능하기 때문에 위험 회피 차원에서 검색 결과의 다양성을 보장하는 것이 필요한데, 여기에 경제학의 투자 이론을 적용하자는 것이지요. 상관없어 보이는 두 분야를 연결하는 기지가 돋보인 연구였습니다. 하지만 결국 시간이 흐르면 잊혀질 운명이었던 투자이론을 다시 만난 것은 최근에 읽은 <죽은 경제학자의 살아있는 아이디어>에서였습니다. 투자이론을 개척한 해리 마코위츠1(Harry Markowitz) 박사가 노벨경제학상을 받은 지금에 와서는 어엿한 경제학의 한 분야로 인정받지만, 처음부터 그랬던 건 아니었나 봅니다. 그의 박사학위 논문을 심사하던 교수는 중간에 이렇게 말했다는 걸 보면요.

    “해리 군. 난 자네 논문에서 수학적으로 어떤 문제점이나 오류를 발견하지 못했네. 하지만 한 가지 문제가 있네. 자네 논문은 경제학 논문으로 보기 어렵네. 무슨 뜻인지 아는가? 경제학 논문이 아닌 논문에 경제학 박사 학위를 줄 수는 없다네. 자네 논문은 수학 논문도 아니고, 경제학 논문도 아니네. 그렇다고 경영학 논문은 더더욱 아니고.” (from <죽은 경제학자의 살아있는 아이디어>)

    이 말을 들은 순간 마코위츠의 심정이 어땠을까요? 더군다나 그 말을 한 사람이 유명한 밀턴 프리드먼이었다면? … 뭐 결국은 박사 학위를 받았지만 말입니다. 오른쪽 사진이 바로 마코위츠 박사입니다. 사진은 여기에서 가져왔어요.
    이쯤 되면 호기심이 막 생기지 않나요? 도대체 그 투자이론이라는 게 뭐기에 이 요란(?)인지 한 번 간단하게 살펴보겠습니다. [계속 읽기]

    1. 마코비츠라고 발음해야 하나요? []

    문서의 품질을 자동으로 측정할 수 있을까?

    March 5th, 2010

    검색을 할 때 질의어(query)와 문서 사이의 관련성(relevancy) 못지않게 중요한 것이 문서의 절대적인 품질(static quality)입니다. “흥부와 놀부”로 검색했는데, “흥부와 놀부는 흥부와 놀부는 흥부와 놀부는…” 이런 문서가 나온다고 생각해보세요. 어떤 기분이 들까요?

    사람이 쓴 글의 품질을 자동으로 평가하는 일이 그리 쉬워 보이지는 않습니다. 이럴 때는 거인의 어깨에 올라서 봐야죠. 논문을 뒤져보니 위키피디아에 올라온 글을 대상으로 품질을 평가하려는 연구들이 좀 보입니다. [계속 읽기]


    Page 1 of 612345...Last »