• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    Learning to Rank: 개념만 간단히

    October 26th, 2009

    검색엔진을 구성하는 요소에는 수집기, 색인기, 검색기 등이 있지만, 사용자가 체감하는 품질을 결정짓는 요소는 결국 랭킹입니다. 키워드 입력하고 엔터키 쳤을 때, 얼마나 그에 잘 부합하는 문서가 상단에 나오느냐 하는 거죠.

    랭킹의 중요한 특징은 키워드-문서 사이의 관련도를 반드시 수치로 정확하게 알 필요가 없다는 점입니다. 문서 A와 B의 점수가 각각 80점 / 70점이든, 90점 / 60점이든 상관없습니다. 순서가 A, B라는 것, 바로 그게 중요한 겁니다. [계속 읽기]


    TF-IDF: 문서와 단어 사이의 연관도를 측정하는 방법

    December 7th, 2007

    검색엔진에서 가장 중요한 것은, “얼마나 많은 문서를 수집하느냐”가 아니라 “가지고 있는 문서를 얼마나 잘 랭킹하느냐”라는 것을 구글이 증명했다. 즉, 질의를 입력한 사용자가 가장 원할 것 같은 문서를 앞에다가 배치하는 것이 중요하다는 말이다. 그렇다면 검색 엔진은 보통 어떤 방법으로 랭킹을 하고 있을까?

    컴퓨터로 랭킹 알고리즘을 구현할 때 먼저 생각해야 할 것은, 질의어와 문서를 컴퓨터 상에서 어떻게 표현할 것이냐는 문제다. 그 다음으로는 질의어와 문서의 연관도를 어떻게 계산할지도 결정해야 한다. 쉬운 방법은 단순히 질의어에 속한 단어를 포함한 모든 문서를 찾는 것이지만 이것만으로는 정확도가 떨어질 수밖에 없다.

    그래서 보통 벡터 공간 모델(Vector Space Model, VSM)을 많이 사용한다. 질의어와 문서를 키워드의 벡터로 표현하고, 내적값을 계산해서 유사함을 평가한다. (Cosine Similarity) [계속 읽기]


    Page 2 of 212