얀덱스에서 나온 논문 두 개

by SL

2012년 SIGIR 학회에 참석했을 때 얀덱스 연구자의 발표를 처음 들었다. 얀덱스는 러시아의 검색엔진인데, 찾아보니 여기서도 흥미로운 연구를 많이 발표했다.

Recency Ranking by Diversification of Result Set

우선 눈에 띄는 것은 검색결과의 신선함에 대한 색다른 접근이다. 기존 연구를 찾아보면, 최신 정보가 필요한 쿼리를 어떻게 찾을지, 또 그런 쿼리에 대해서 언제적에 작성된 문서가 만족스러울지를 알아내려 한다. (시간성이 중요한 쿼리를 찾을까?)

얀덱스의 저자들은 이를 선택이 아닌 정도의 문제로 접근한다. 즉, 최신성이냐 아니냐가 아니라 최신성이 중요하다면 얼마나 중요한가의 문제라는 것이고, 검색엔진 입장에서는 결과에서 최신 문서가 얼마나 많은 비중을 차지하고, 얼마나 상위에 노출될지를 결정해야 한다.

예를 들어보자. 올여름에도 어김없이 태풍이 한반도를 강타할 텐데, 그때 사람들의 일차 관심은 태풍의 이동경로 같은 최신 정보일 것이다. 그렇다면 관련된 최신 뉴스를 보여주는 것으로 충분할까? 태풍의 발생원인, 대처요령 같은 건 그저 낡은 정보에 불과할까? (예가 좀 부적절한가? 원문에서는 마이클 잭슨이 사망했을 때, 뉴스와 그의 프로필 정보를 예로 들었다.)

즉, 최신 이슈가 발생했더라도 사람들이 항상 그와 관련된 뉴스만 원하는 것은 아니므로 최신 문서와 오래된 문서를 어떻게 잘 섞어서 다양하게 보여줄지에 대한 전략이 필요하다. 이 문제를 해결하기 위해 (기존 ERR을 개선한) ERR-IAA라는 척도를 만들고 ((그런데 논문에 나온 수식1에는 표기 오류가 있는 것 같은데, 잘 아시는 분이 계시면 알려주시길)), 이 값을 최대화하는 로직을 만들어서 자신들의 아이디어를 검증한다.

의도적인 다양화는 모호함에 대처하는 효과적인 전략인데, 이 경우는 주제가 아닌 시의성에 대한 모호함을 극복하려는 것으로 볼 수 있다. 두 번째 연구는 쿼리의 모호함을 제거하는 도구로서 성별(Gender) 정보를 이용한다.