April 11th, 2012
보통 검색 랭킹 알고리즘을 평가할 때 NDCG 척도를 사용한다. 여기에 깔린 아이디어를 한 마디로 말하면, 더 나은 문서를 상위에 올려줄수록 좋은 랭킹이라는 것이다. 5점 짜리 문서와 4점 문서가 있을 때, 5점을 위에 보여주는 게 낫다는 당연한 생각을 수식으로 만들고, 이상적인 결과와 비교했을 때의 상대적인 성능을 정량화해 놓은 것이 NDCG이다. 그런데…
서로 다른 두 개의 랭킹 함수 A, B를 만들었다. 그리고 각자 나름대로 최고라고 생각하는 문서를 5개씩 뽑아왔다. 이를 평가해보니 [4, 4, 4, 4, 4]와 [5, 3, 2, 2, 2]로 나왔다. 즉, A가 찾은 문서는 모두 4점(=꽤 만족)이었고, B가 찾은 문서는 1등은 5점(=완벽)이었지만 2등 이하는 좀 별로였다. 누가 더 잘했다고 봐야 할까? [계속 읽기]
5 Comments |
thought |
Permalink
Posted by SL
December 24th, 2011
바야흐로 빅데이터의 시대라고 한다. 폭증하는 정보 속에서 가치있는 것을 찾아내는 일은 점점 더 중요해지고 있으며, 이를 위해 가능한 모든 것을 정량화하려는 시도 또한 계속되고 있다. 정보검색 연구자들은 문서의 품질을 자동으로 평가하기 위한 알고리즘을 찾아 분투하고 있는데, 현재까지 가장 성공적이라고 알려진 것은 웹페이지 간의 링크 구조를 분석하는 방법이다. 그런 방식의 선구자 격인 알고리즘이 바로 HITS(Hyperlink-Induced Topic Search)이며, 이를 개발한 사람은 현재 코넬대학교에 교수로 있는 존 클라인버그다.
최근 그의 연구를 보면 관심사가 사회연결망(소셜 네트워크)에 집중되어 있는 듯하다. 하지만 테마는 여전히 네트워크 분석이며, 도메인만 웹페이지에서 사람으로 바뀐 것이다. 근래에 발표한 연구 중에서는 사람 간의 권력 차이(power difference)를 측정하려는 시도가 눈에 띈다. [계속 읽기]
No Comments » |
paper, web |
Permalink
Posted by SL