SIGIR 2010에서 관심이 가는 논문들 – 첫 번째

by SL

7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.

Freshness Matters: In Flowers, Food, and Web Authority

얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(Smoothing)함으로써 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다.

Incorporating Post-Click Behaviors Into a Click Model

검색어를 날린 뒤 사용자가 결과 문서를 클릭하는 행위를 잘 모델링해서 각 문서의 쿼리적합성(Relevance)를 측정하려는 연구는 이미 많았다. ((단순히 많이 클릭되었다고 그 문서가 좋다는 뜻은 아니므로 Relevance와 Preference를 구분하기도 한다.)) 하지만, 저자들은 기존 모델에서는 문서의 위치 편향(Position Bias) 문제는 어느 정도 해결할 수 있었지만, 정작 사용자가 문서를 클릭한 후의 행위는 고려하지 않았다고 지적한다. 다시 말해서, 어떤 문서는 클릭한 지 3초만에 닫아버렸고 다른 문서는 1분 넘게 보고 있었다면 아마도 후자가 더 좋지 않겠냐는 얘기다. 문서의 체류시간(Dwelling Time) 외에도, 문서 클릭 후에 또 다른 문서를 클릭했는가, 새로운 쿼리로 바꿔서 검색하기까지 시간이 얼마나 걸렸나 같은 것들이 쓸 만한 요소로 제시되었다. 클릭 후 행위까지 고려하는 클릭 모델이라고 해서 Post-Clicked Click Model, 줄여서 PCC 모델이라는 이름이 붙었다.

Query Term Ranking based on Dependency Parsing of Verbose Queries

흔히 ‘검색’하면 떠오르는 키워드 질의어가 아니라 문장 수준의 복잡한 쿼리에 효과적으로 대처하는 방법을 제시한다. Dependency Parsing Tree라는 걸 써서 질의문에서 문법적으로 중요한 단어를 찾아내는 것이다. 내 생각에 사람들이 검색 엔진에 키워드를 입력하는 패턴이 쉽게 바뀔 것 같지는 않고, 전에도 쓴 적이 있지만 메신저나 트위터에서 사람들이 적는 말을 엿듣고 있다가 기회가 왔을 때 ‘혹시 이거 찾는 거에요?’ 하면서 검색 결과를 내놓으면 사용자에게 감동을 줄 수 있지 않을까?

Mining the Blogosphere for Top News Stories Identification

TSIT(Top Stories Identification Task)는 말 그대로 중요 뉴스를 찾는 작업을 가리킨다. 사람들이 뉴스 같은 걸 찾을 때 블로그 검색을 많이 하고 또 각종 화제에 대한 생각들을 블로그에 많이 올리니까 하루 동안 블로그에 출판된 글을 이용해서 그날의 주요 뉴스를 자동으로 찾아보자는 게 이 논문의 주제다. Language Model을 써서 그날 출판된 블로그 글로부터 뉴스 헤드라인이 나올 확률을 계산하는 방식이라고 한다. 포스터를 제외한 논문 중에는 유일하게 한국 학교에서 나온 것이라 반가운 마음으로 접했다.

Active Learning for Ranking Through Expected Loss Optimization

개인적으로 관심이 있고 공부는 하지 않던 Active Learning을 랭킹학습(Learning-to-rank, LTR)에 활용한 연구로, Yahoo! Labs에서 나왔다. 저자들은 Active Learning을 랭킹에 적용할 때 맞닥뜨리는 문제로 두 가지를 언급한다. 우선 그동안의 Active Learning은 주로 분류(Classification) 문제에 쓰였는데, 랭킹은 성격이 다르다는 점이다. SVM 같은 Maximum Margin Classifier의 경우에는 어떤 샘플이 Informative한지 대략 감이 잡힐 듯도 한데 랭킹에서는 그게 모호할 수 있다. 두 번째는 데이터 샘플이 독립이 아니라는 건데, 이게 무슨 말일까? 문서를 분류한다고 했을 때, 한 번 문서 A가 B 타입에 속한다고 했으면 끝까지 B 타입이다. 그런데 랭킹에서는 문서 A가 B보다 좋을 수도 있고 아닐 수도 있다. 쿼리가 P일 때는 A가 더 좋았더라도 쿼리가 Q로 바뀌면 B가 더 좋아질 수도 있기 때문이다. 이런 두 가지 문제를 해결하기 위해 Expected Loss Optimization에 기반을 둔 Active Learning Framework를 만들었다고 하는데, 그게 뭔지 모르겠다. (공부를 안 하는데 알 턱이 있나. 퍽)

이외에도 점찍어둔 논문이 몇 개 더 있는데, 읽어보니까 예상했던 내용이 아닌 것도 있고 시간이 없어서 못 읽은 것도 있다. 기회가 되면 다음 기회에.