• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    Time-Based Language Models – CIKM 2003

    June 24th, 2010

    2003년 CIKM(Conference on Information and Knowledge Management)에 나온 Time-Based Language Models라는 논문을 보면, Language Model에 기반한 기존의 검색 랭킹 연구를 소개하고, 거기에 시간이라는 요소를 추가한 새로운 모델을 설명하고 있다.

    우선 기본적인 방식은 Query Likelihood Model이다. 1999년 CIKM에 나온 A General Language Model for Information Retrieval에 따르면, 글의 내용에 따라 그 문서의 모델 Md를 만들고, 그 모델로부터 쿼리 Q가 생성될 확률을 계산한다.

    2년 후 SIGIR에 등장한 Relevance-based Language Models에서는 여기에 새로운 아이디어를 덧붙였다. 적합성 피드백(Relevance Feedback)에 기초해 쿼리확장(Query Expansion)을 해보자는 것인데, 자세히 살펴보자. [계속 읽기]


    시간성이 중요한 쿼리를 어떻게 찾을까?

    June 19th, 2010

    검색에 있어 문서 품질의 중요성을 얘기한 적이 있는데, 그외에 또 중요한 요소가 바로 시간성이다. 문서의 다른 조건이 동일하다면, 언제 쓰여진 글을 보여줄 것인가? 우리말로는 시간성, 시의성, 최신성 등으로 다양하게 부르고, 영어에서도 recency, temporal, time-sensitive 등으로 표현한다.

    문서 최신성을 추구하는 노력의 극단에 실시간 검색이 있다. 직접 경험하기 전까지만 해도 실시간 검색의 필요성에는 다소 회의적이었는데, 실제로 써보니까 중계(운동경기, 선거개표현황)나 즉각적인 반응(백분토론, 맥북프로신제품)에 대한 검색 요구에는 유용한 도구 같다. 입장을 철회해야겠다.

    그렇지만, 사람들이 검색하는 모든 질의어에서 최신성이 중요한 것은 아니다. 어떨 때 사람들이 (상대적으로) 최근의 소식, 따끈따끈한 정보를 원하는지 먼저 알아내야 한다. [계속 읽기]


    의미있는 실패

    June 16th, 2010

    좋은 아이디어가 떠올라서 당장 적용해보고 싶은 순간이 살다 보면 몇 번은 생긴다. 손발이 근질거리는 마음은 이해하지만 잠시 흥분을 가라앉히고 먼저 데이터 분석을 통해 검증해보자. 십중팔구는 생각하지 못한 예외적인 경우를 발견할 것이다. 운이 좋아서 그런 예외를 쉽게 걸러내는 방법을 찾거나, 처음의 생각을 약간 수정하는 정도로 검증 과정을 통과할지도 모르지만, 많은 경우에 그 예외가 사실은 예외가 아니고 너무나 결정적이어서 아이디어 자체를 폐기해야 하기도 한다. 그렇더라도 이런 실패는 다른 연구자의 시행착오(라 쓰고 삽질이라 읽는다)를 줄여주고, 그렇게 절약한 시간과 에너지를 더 생산적인 곳에 쏟아부을 수 있게 한다는 점에서 공유할 만한 가치가 있다. [계속 읽기]


    취향과 수준에 따른 4가지 분류

    June 11th, 2010

    사람의 능력을 취향과 깊이라는 두 개의 차원으로 단순화해보았다.

    위 그림에서 각각의 사각형이 한 사람을 나타낸다. 사각형의 길이는 그가 가지고 있는 능력의 수준, 즉 내공을 뜻한다. 쉽게 말해 A와 C가 10년 이상 경력의 베테랑이라면, B와 D는 이제 갓 뛰어든 햇병아리다.

    원 중심으로부터의 방향은 그 사람의 분야/취향/스타일을 나타낸다. A와 B가 한 그룹, C와 D가 또 다른 한 그룹에 속하는데, 프로그래머 vs 디자이너, 윈도우 개발자 vs 리눅스 개발자, vi 사용자 vs emacs 사용자 등등 결론이 나기 어려운 논쟁을 벌이는 어떤 관계라도 여기에 포함될 수 있다.

    자, 간단하게 4가지로 분류했으니 이제는 각각의 사람들이 만났을 때 어떤 일이 벌어지는지 생각해보자. [계속 읽기]


    Creative, Professional

    June 6th, 2010

    단순히 눈에 튀고 색다른 아이디어를 내는 것만이 창의적인 것은 아니다. 내가 중시하고 추구하는 것은 ‘창의적인 문제해결’이라고 할 때의 창의성에 더 가깝다. 무슨 말이냐면, 처음에 문제만 주어졌을 때는 모순되는 다양한 경우의 수가 있어서 까다롭거나 복잡해 보였지만 탐구 끝에 이를 쉽고 우아하게 해결하는 방법을 찾아내는 것도 창의력의 하나라는 얘기다. [계속 읽기]