December 24th, 2011
바야흐로 빅데이터의 시대라고 한다. 폭증하는 정보 속에서 가치있는 것을 찾아내는 일은 점점 더 중요해지고 있으며, 이를 위해 가능한 모든 것을 정량화하려는 시도 또한 계속되고 있다. 정보검색 연구자들은 문서의 품질을 자동으로 평가하기 위한 알고리즘을 찾아 분투하고 있는데, 현재까지 가장 성공적이라고 알려진 것은 웹페이지 간의 링크 구조를 분석하는 방법이다. 그런 방식의 선구자 격인 알고리즘이 바로 HITS(Hyperlink-Induced Topic Search)이며, 이를 개발한 사람은 현재 코넬대학교에 교수로 있는 존 클라인버그다.
최근 그의 연구를 보면 관심사가 사회연결망(소셜 네트워크)에 집중되어 있는 듯하다. 하지만 테마는 여전히 네트워크 분석이며, 도메인만 웹페이지에서 사람으로 바뀐 것이다. 근래에 발표한 연구 중에서는 사람 간의 권력 차이(power difference)를 측정하려는 시도가 눈에 띈다. [계속 읽기]
No Comments » |
paper, web |
Permalink
Posted by SL
August 7th, 2010
검색엔진에 ‘모나리자’를 입력했을 때, 레오나르도 다 빈치의 그림과 조용필의 노래 중에 어떤 걸 원하는지는 그 사람만이 안다. 하지만, 침묵하는 사용자의 속마음을 알아내려는 검색 연구자들의 노력 또한 치열하다 못해 아주 뜨겁다. 그동안 제안된 아이디어를 간단하게 네 가지로 분류해보자.
1. 검색어 추천 (자동완성 / 관련검색어)
이미 많이 쓰이고 있으며 많은 이들이 익숙한 방식이다. 검색어를 입력하는 동안 혹은 검색한 후에, 사용자가 찾고 있음 직한 쿼리를 제안해준다. Daum에 ‘이정수’를 검색하면, 인물 프로필에서 동명이인들을 보여주고 그중 한 명을 선택하면 ‘스케이트선수 이정수’, ‘축구선수 이정수’ 등으로 쿼리를 확장해서 재검색해준다. 다른 방법에 비해 단순해 보이지만, 사용자가 스스로 명확하게 지정하기 때문에 오류나 혼란이 적다는 것은 무시하기 어려운 장점이다.
2. 상황인지(context-aware)
현재 사용자가 어디에 있는지, 무슨 요일인지, 몇 시인지에 따라서 다른 결과를 제공하는 것도 유용할 것이다. [계속 읽기]
1 Comment |
paper |
Permalink
Posted by SL
August 2nd, 2010
주말에 여차저차해서 시간이 남아도는 바람에 지난 글에 이어서 논문 몇 편을 더 소개한다.
Context-Aware Ranking in Web Search
검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 분류하고 그에 맞게 랭킹을 변경하는 방식을 제안한다.
1. Reformulation (“homes for rent in Atlanta” -> “houses for rent in Atlanta”)
2. Specialization (“time life music” -> “time life Christian CDs”)
3. Generalization (“free online Tetris game” -> “Tetris game”)
4. Association (“Xbox 360″ -> “FIFA 2010″)
위의 경우를 보면 두 번째 쿼리가 들어왔을 때, 이전 쿼리와의 관계에 따라 사용자 의도를 알아채서 조금 더 똑똑한 랭킹을 할 수 있을 것도 같다. 하지만, 또 한편으로 이런 생각도 든다. [계속 읽기]
2 Comments |
paper |
Permalink
Posted by SL