WWW 2012에서 관심이 가는 논문들 1

by SL

SIGIR 2010에 나온 논문을 훑어본 게 엊그제 같은데 벌써 2년이 지났다. 줄여서 ‘WWW’라고 쓰고, ‘따따따’라고 읽는 월드와이드웹 컨퍼런스 지난 4월에 프랑스 리옹에서 열렸다. 검색(Information Retrieval)에 대한 스페셜 인터레스트 그룹인 SIGIR이 인터넷을 검색의 대상이자 정보의 원천으로서 바라본다면, WWW는 인터넷의 주요한 요소 중 하나로서 검색을 생각한다는 느낌이다. 세션 이름만 봐도 WWW에는 모바일 웹, 시큐리티, 웹 엔지니어링, 퍼포먼스 등의 단어가 자주 등장한다. 물론, 그못지 않게 검색 관련 이야기도 많으며, 구글 창업자인 세르게이 브린과 래리 페이지가 PageRank 알고리즘을 발표한 곳도 바로 이 월드와이드웹 컨퍼런스였다. (1998년) 아무튼 IR 연구 동향에 관심있는 사람이라면 둘 다 빠뜨려선 안 될 컨퍼런스라는 건 분명하다.

Leveraging User Comments for Aesthetic Aware Image Search Reranking

이런 연구를 포함해서 이미지의 미적인 요소를 정량화하려는 시도는 계속되어 왔지만, 아직까지는 그림 자체만 보고 기계적으로 아름다움을 평가하는 일은 성공적이지 못한 것 같다. 그래서 착안한 아이디어가 동호회 사이트에 올라온 사진에 사람들이 단 댓글을 분석해서 그 사진의 심미성을 측정해보자는 것이다. 댓글 내용을 자연어 처리해서 brightness, lighting, composition 등에 대해 어떻게 얘기하는지를 (긍정/부정) 추출한 뒤, 그 사이트에서 매긴 사진 점수를 타겟으로 삼아 심미성 예측 모델을 만들었다.
한 가지 흥미로운 건, -상품 리뷰 사이트와 달리- 사람들이 직접적으로 부정적인 피드백을 안 주더라는 발견이다. 친목의 성격도 있는 동호회 사이트이다 보니, “I would increase the vibrancy of colors” 같은 식으로 건설적인, 조언형 피드백을 준다는 걸 알게 됐고, 그래서 댓글에서 의견을 추출할 때 그런 측면을 반영했다고 한다.

Actions Speak as Loud as Words: Predicting Relationships from Social Behavior Data

언제부터인가 (아마도 트위터 대박 이후?) 소셜(Social)은 이런 컨퍼런스의 단골 주제가 되었다. 그래서 좀 식상하기도 하지만, 어떤 사람의 행동을 예측하고 싶으면 그 사람의 말이 아니라 과거 행동을 살펴보라는 (내가 좋아하는) 격언을 떠올리게 하는 제목에 눈이 갔다. 트위터 같은 소셜 네트워크에서 연결된 두 사람이 있을 때, 그 둘의 관계를 파악하는 방법에는 어떤 게 있을까?
이 연구는 각 사용자의 팔로워수나 멘션/리트윗(RT) 개수를 분석하는 단순함에 정교함을 더했다. A와 B가 서로 메시지를 주고받고 있을 때, 1) A가 작성한 메시지 중에 몇 개가 B를 향했는가 2) B가 작성한 메시지 중에 얼마가 A로부터 받은 걸 전파(propagate)했는가 3) B가 A의 메시지에 답하는 데 시간이 얼마나 걸리는가 4) B가 A에게 답한 우선순위가 얼마나 되는가 혹은 지연시키는가 등의 행위를 측정하였다. 그리고 행위 요소를 메시지 내용 분석 결과와 매핑해서 비교하니, (내용은 일체 보지 않고 행동만 관찰해서) 친밀한 관계와 공식적인 (딱딱한) 관계를 구분할 수 있을 정도로 서로 다른 특징이 드러났다고 한다.

Learning from the Past: Answering New Questions with Past Answers

네이버 지식인, Daum 지식 같은 질답 서비스를 외국에서는 Community-based Question Answering, 줄여서 CQA 서비스라고 부른다. 이 논문을 쓴 야후 연구자들에 따르면, Yahoo! Answers에 올라온 질문의 약 15%가 답변이 달리지 않은 채 불만족한 상태로 남아있다고 한다. 이 문제를 해결하기 위해 저자들은 과거에 해결된 질문 중 방금 올라온 질문과 비슷한 게 있는지 찾아보는 연구를 했다. 독립적인 두 질문 간의 유사도를 찾으려고 기본적인 TF-IDF Cosine Similarity는 물론, 어휘 분석(Lexical Analysis), 토픽 모델을 이용한 주제 유사도를 계산하고, Query Clarity, Query Feedback 등 각종 방법을 사용한 것이 이 논문의 관전 포인트. 대망의 하이라이트는 Alice, Jane, Lilly라는 이름의 가상 사용자를 만들어 실제 서비스에 자동으로 답변을 달도록 한 결과.