알아가는 즐거움

Learning to think

Tag: paper

온라인 콘텐츠를 위한 지표 찾기

무언가를 달성하려면 목표에 어울리는 지표를 설정하고 그것을 개선하도록 노력해야 한다. 문제는 무엇을 목표로 삼아야 할지, 목표를 어떻게 지표로 측정해야 할지를 모를 때 생긴다. 언론매체를 생각해보자. 만약 내가 구독자로서 혹은 광고주로서 단 하나의 매체만 선택해야 한다면, 어떤 기준을 제시할 것인가? (물론, 세상에는 숫자로 표현하기 힘든 가치가 많이 있지만 여기서는 기계적으로 수치화할 수 있는 요소만으로 한정하자. 그리고 […]

Yelp의 허위 리뷰 필터링 들여다보기

허위 리뷰를 탐지하는 기술이 가장 간절한 곳은 아마도 실제 사용자 평가에 기반해서 서비스를 제공하는 업체일 것이다. 어뷰징은 이들 서비스의 생명인 신뢰를 깎아내려서 사용자를 모두 내쫓아버린다. 그래서 어뷰징 대응 연구를 하기 가장 좋은 곳은 현실적인(=금전적인) 필요와 내부에서만 관찰할 수 있는 데이터라는 조건이 만족되는 실제 서비스 업체들이다. 미국에서는 옐프(Yelp)라는 서비스가 유명한 듯한데, 흥미롭게도 이 사이트는 내부적으로 허위라고 […]

얀덱스에서 나온 논문 두 개

2012년 SIGIR 학회에 참석했을 때 얀덱스 연구자의 발표를 처음 들었다. 얀덱스는 러시아의 검색엔진인데, 찾아보니 여기서도 흥미로운 연구를 많이 발표했다. Recency Ranking by Diversification of Result Set 우선 눈에 띄는 것은 검색결과의 신선함에 대한 색다른 접근이다. 기존 연구를 찾아보면, 최신 정보가 필요한 쿼리를 어떻게 찾을지, 또 그런 쿼리에 대해서 언제적에 작성된 문서가 만족스러울지를 알아내려 한다. (시간성이 […]

구체적인 단어 찾기

어떤 글이 이해하기 쉬울까? 다양한 요소가 있겠으나, 일반적으로 추상적인 내용보다는 손에 잡힐 듯 구체적인 글이 더 잘 이해되는 것 같다. 그럼 혹시 어떤 문서가 얼마나 구체적인지를 측정할 수는 없을까? 올해 WSDM 컨퍼런스에 일본 연구자들이 발표한 Estimating content concreteness for finding comprehensible documents라는 논문을 보면, 일단 가능성은 열려 있는 것 같다. 이들은 단어 단위로 다양한 특성을 […]

Protected: 포스터 인생

There is no excerpt because this is a protected post.

SIGIR 2012 참석 후기

작년에 회사의 지원을 받아 최진우님과 함께 처음으로 SIGIR 학회에 다녀왔다. 벌써 반 년이 넘게 지났지만, 남아 있는 기억을 모아서 간단하게 후기를 써본다. 8월 12일 일요일 공식적으로 학회가 시작하는 건 내일이지만, 하루 앞서 튜토리얼이 열린다. 이 튜토리얼은 요즘 검색에서 관심을 많이 받는 특정 주제에 대해서 전문가들이 제공하는 몇 십만 원 짜리 유료 강좌로 생각하면 되는데, 하루 […]