• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    펀드 평가 방법: 베타β와 젠센의 알파α

    August 13th, 2010

    이 글에 앞서 투자이론에서 위험의 의미를 읽으면 도움이 된다.

    어떤 포트폴리오, 즉 펀드를 평가하려면 그 펀드가 추종하는 벤치마크(Benchmark; BM) 지수와 비교해서 얼마나 잘 운용했는지를 따져야 한다. 이때 많이 사용하는 척도로 알파와 베타가 있다. 아래 그래프를 보자. (사실은 위키피디아의 선형회귀 페이지에서 가져왔지만) x축은 시장수익률(market rate, 즉 벤치마크 지수의 변동폭)이고, y축은 펀드의 수익률이라고 상상하자.

    여기에 선형회귀(Linear Regression) 분석을 하면, 이 데이터를 잘 표현하는 직선을 구할 수 있다. 이 직선의 기울기가 베타, y 절편(intercept)이 알파다. 알파는 이 펀드가 벤치마크 지수보다 얼마나 높은(혹은 낮은) 수익을 거뒀는지를 보여준다. 정의상 시장 자체의 알파는 0이며, 알파 값이 0보다 크면 시장수익률보다 높은 성과를 거뒀다는 의미이므로 해당 펀드는 평가 기간에 시장을 이긴 것이다. [계속 읽기]


    SIGIR 2010에서 관심이 가는 논문들 – 두 번째

    August 2nd, 2010

    주말에 여차저차해서 시간이 남아도는 바람에 지난 글에 이어서 논문 몇 편을 더 소개한다.

    Context-Aware Ranking in Web Search

    검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 분류하고 그에 맞게 랭킹을 변경하는 방식을 제안한다.
    1. Reformulation (“homes for rent in Atlanta” -> “houses for rent in Atlanta”)
    2. Specialization (“time life music” -> “time life Christian CDs”)
    3. Generalization (“free online Tetris game” -> “Tetris game”)
    4. Association (“Xbox 360″ -> “FIFA 2010″)
    위의 경우를 보면 두 번째 쿼리가 들어왔을 때, 이전 쿼리와의 관계에 따라 사용자 의도를 알아채서 조금 더 똑똑한 랭킹을 할 수 있을 것도 같다. 하지만, 또 한편으로 이런 생각도 든다. [계속 읽기]


    SIGIR 2010에서 관심이 가는 논문들 – 첫 번째

    July 23rd, 2010

    7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.

    Freshness Matters: In Flowers, Food, and Web Authority

    얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다. [계속 읽기]


    Time-Based Language Models – CIKM 2003

    June 24th, 2010

    2003년 CIKM(Conference on Information and Knowledge Management)에 나온 Time-Based Language Models라는 논문을 보면, Language Model에 기반한 기존의 검색 랭킹 연구를 소개하고, 거기에 시간이라는 요소를 추가한 새로운 모델을 설명하고 있다.

    우선 기본적인 방식은 Query Likelihood Model이다. 1999년 CIKM에 나온 A General Language Model for Information Retrieval에 따르면, 글의 내용에 따라 그 문서의 모델 Md를 만들고, 그 모델로부터 쿼리 Q가 생성될 확률을 계산한다.

    2년 후 SIGIR에 등장한 Relevance-based Language Models에서는 여기에 새로운 아이디어를 덧붙였다. 적합성 피드백(Relevance Feedback)에 기초해 쿼리확장(Query Expansion)을 해보자는 것인데, 자세히 살펴보자. [계속 읽기]


    Learning to Rank: 개념만 간단히

    October 26th, 2009

    검색엔진을 구성하는 요소에는 수집기, 색인기, 검색기 등이 있지만, 사용자가 체감하는 품질을 결정짓는 요소는 결국 랭킹입니다. 키워드 입력하고 엔터키 쳤을 때, 얼마나 그에 잘 부합하는 문서가 상단에 나오느냐 하는 거죠.

    랭킹의 중요한 특징은 키워드-문서 사이의 관련도를 반드시 수치로 정확하게 알 필요가 없다는 점입니다. 문서 A와 B의 점수가 각각 80점 / 70점이든, 90점 / 60점이든 상관없습니다. 순서가 A, B라는 것, 바로 그게 중요한 겁니다. [계속 읽기]


    Page 1 of 212