June 13th, 2008
바라바시 교수가 쓴 링크라는 책을 흥미롭게 읽은 기억이 있는데, 그의 최근 논문을 소개하는 블로그를 보고 반가운 마음에 트랙백 걸려고(..) 씁니다. 내용상 큰 관련은 없어요.
Zipf’s Law란, 간단히 말해서 빈도(frequency)는 지위(rank)에 반비례한다는 얘기다. 회사에서 직급 별 인원수를 생각해보면 쉽다.
이 Zipf라는 분은 사실 언어학자인데, 문헌에 등장하는 단어의 분포를 연구하다가 이 규칙을 발견한 것으로 보인다. [계속 읽기]
No Comments » |
note |
Permalink
Posted by SL
December 7th, 2007
검색엔진에서 가장 중요한 것은, “얼마나 많은 문서를 수집하느냐”가 아니라 “가지고 있는 문서를 얼마나 잘 랭킹하느냐”라는 것을 구글이 증명했다. 즉, 질의를 입력한 사용자가 가장 원할 것 같은 문서를 앞에다가 배치하는 것이 중요하다는 말이다. 그렇다면 검색 엔진은 보통 어떤 방법으로 랭킹을 하고 있을까?
컴퓨터로 랭킹 알고리즘을 구현할 때 먼저 생각해야 할 것은, 질의어와 문서를 컴퓨터 상에서 어떻게 표현할 것이냐는 문제다. 그 다음으로는 질의어와 문서의 연관도를 어떻게 계산할지도 결정해야 한다. 쉬운 방법은 단순히 질의어에 속한 단어를 포함한 모든 문서를 찾는 것이지만 이것만으로는 정확도가 떨어질 수밖에 없다.
그래서 보통 벡터 공간 모델(Vector Space Model, VSM)을 많이 사용한다. 질의어와 문서를 키워드의 벡터로 표현하고, 내적값을 계산해서 유사함을 평가한다. (Cosine Similarity) [계속 읽기]
2 Comments |
note |
Permalink
Posted by SL