• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    Mining of Massive Datasets 4장

    April 26th, 2012

    Anand Rajaraman과 스탠포드 대학교의 Jeff Ullman 교수1가 공저한 Mining of Massive Datasets 책을 사려고 하면 7만 원이 넘지만, PDF 파일은 여기에서 무료로 다운받을 수 있다. 이 책 4장의 제목은 Mining Data Streams이다. 밀물처럼 쓸려오는 거대한 데이터의 흐름을 효율적으로 처리하는 기법들을 소개하고 있다. 이 글에서는 대충 어떤 문제들을 해결하려고 하는지만 정리해보자. 바탕에 깔린 전략은 해쉬(Hash) 함수를 이용해서 근삿값을 찾겠다는(Approximate) 것이다. 스트림 데이터의 예로 검색엔진에 유입되는 쿼리를 생각해보자. [계속 읽기]

    1. 맞다, Advising students for success를 쓴 그 Ullman 교수다. []

    평가가 중요하다

    April 11th, 2012

    보통 검색 랭킹 알고리즘을 평가할 때 NDCG 척도를 사용한다. 여기에 깔린 아이디어를 한 마디로 말하면, 더 나은 문서를 상위에 올려줄수록 좋은 랭킹이라는 것이다. 5점 짜리 문서와 4점 문서가 있을 때, 5점을 위에 보여주는 게 낫다는 당연한 생각을 수식으로 만들고, 이상적인 결과와 비교했을 때의 상대적인 성능을 정량화해 놓은 것이 NDCG이다. 그런데…

    서로 다른 두 개의 랭킹 함수 A, B를 만들었다. 그리고 각자 나름대로 최고라고 생각하는 문서를 5개씩 뽑아왔다. 이를 평가해보니 [4, 4, 4, 4, 4]와 [5, 3, 2, 2, 2]로 나왔다. 즉, A가 찾은 문서는 모두 4점(=꽤 만족)이었고, B가 찾은 문서는 1등은 5점(=완벽)이었지만 2등 이하는 좀 별로였다. 누가 더 잘했다고 봐야 할까? [계속 읽기]


    클릭 분석과 편향 문제

    April 1st, 2012

    검색 결과 페이지에서 사용자가 어떤 문서를 클릭했는지의 정보는 검색 품질에 대한 가장 직접적인 피드백이다. 사람들이 알아서 자기가 원하는 문서를 클릭할 것이므로, 검색엔진은 적당히 랭킹해서 문서를 노출해보고 일정 시간이 흐른 뒤에 CTR(Click-through rate, 노출 대비 클릭)이 높은 순으로 재정렬하면 그만이라고 생각할 수도 있다. 만약 그랬다면, 검색엔진의 성능은 결국 얼마나 많은 문서를 보유하고, 얼마나 많은 사용자가 방문하는지만으로 결정났을 것이다. (뭐 딱히 틀린 말만은 아니라고 생각하지만…)
     
    클릭 분석에서 반드시 고려해야 하는 요소 중 하나로, 노출 편향(Presentation Bias) 또는 위치 편향(Position Bias)이라는 문제가 있다. 상위에 노출되는 문서가 대체로 더 많이 노출되고 그 결과로 더 많이 클릭되는 것이다. [계속 읽기]


    검색이 잘 안 될 때 사람들의 행동 변화 연구

    March 21st, 2012

    검색엔진에서 원하는 정보를 찾지 못할 때 사용자의 행동이 어떻게 달라지는지 조사한 결과를 구글 연구진이 발표한 게 있다. 처음에는 쿼리 입력해서 나오는 결과를 훑어본 뒤 적당한 문서를 클릭하고, 필요하면 쿼리를 바꾸기도 하고 그러는데, 몇 번을 반복해도 원하는 정보가 안 나오면 슬슬 행동에 변화가 나타난다고 한다. 한숨을 쉬거나 손톱을 물어뜯기도 하고, 검색 결과 화면을 향해 멍때리는 자학(!)과 좌절(!)의 모습이 관찰되었다. [계속 읽기]


    영향력을 측정하는 방법

    December 24th, 2011

    바야흐로 빅데이터의 시대라고 한다. 폭증하는 정보 속에서 가치있는 것을 찾아내는 일은 점점 더 중요해지고 있으며, 이를 위해 가능한 모든 것을 정량화하려는 시도 또한 계속되고 있다. 정보검색 연구자들은 문서의 품질을 자동으로 평가하기 위한 알고리즘을 찾아 분투하고 있는데, 현재까지 가장 성공적이라고 알려진 것은 웹페이지 간의 링크 구조를 분석하는 방법이다. 그런 방식의 선구자 격인 알고리즘이 바로 HITS(Hyperlink-Induced Topic Search)이며, 이를 개발한 사람은 현재 코넬대학교에 교수로 있는 존 클라인버그다.

    최근 그의 연구를 보면 관심사가 사회연결망(소셜 네트워크)에 집중되어 있는 듯하다. 하지만 테마는 여전히 네트워크 분석이며, 도메인만 웹페이지에서 사람으로 바뀐 것이다. 근래에 발표한 연구 중에서는 사람 간의 권력 차이(power difference)를 측정하려는 시도가 눈에 띈다. [계속 읽기]


    Page 1 of 512345