영향력을 측정하는 방법

by SL

바야흐로 빅데이터의 시대라고 한다. 폭증하는 정보 속에서 가치있는 것을 찾아내는 일은 점점 더 중요해지고 있으며, 이를 위해 가능한 모든 것을 정량화하려는 시도 또한 계속되고 있다. 정보검색 연구자들은 문서의 품질을 자동으로 평가하기 위한 알고리즘을 찾아 분투하고 있는데, 현재까지 가장 성공적이라고 알려진 것은 웹페이지 간의 링크 구조를 분석하는 방법이다. 그런 방식의 선구자 격인 알고리즘이 바로 HITS(Hyperlink-Induced Topic Search)이며, 이를 개발한 사람은 현재 코넬대학교에 교수로 있는 존 클라인버그다.

최근 그의 연구를 보면 관심사가 사회연결망(소셜 네트워크)에 집중되어 있는 듯하다. 하지만 테마는 여전히 네트워크 분석이며, 도메인만 웹페이지에서 사람으로 바뀐 것이다. 근래에 발표한 연구 중에서는 사람 간의 권력 차이(power difference)를 측정하려는 시도가 눈에 띈다.

대화를 할 때 우리는 알게모르게 상대방을 따라한다. 몸짓이나 목소리 톤 같은 것 뿐만 아니라 언어 스타일까지 영향을 받는데, 클라인버그에 따르면 여기에 권력 관계가 개입한다. 대화의 내용이 아닌 언어 스타일에서 모방이 발생하며, 그 스타일이란 that, for, but, themselves 같은 기능어의 사용 패턴이다. 즉, “누군가 어떤 기능어를 사용했을 때 상대방이 그것을 얼마나 따라하는지에 권력 관계가 영향을 미치며, 이를 거꾸로 이용하면 상대가 그의 언어 스타일을 얼마나 따라하는지를 측정해서 그 사람의 권력을 정량화할 수 있다”는 얘기다. 이를 검증하기 위해서 위키피디아 편집 회의(어드민 vs 비어드민), 법원의 발언기록을 분석했다고 하니 관심있는 사람은 여기서 논문을 읽어보자. 나는 이 글만 참고했다.

사람이 대화할 때 언어 스타일로 영향을 주고받는다는 생각을 조금 더 확장해보자.

정말로 영향력있는 사람이라면 그의 발언을 들은 사람들의 생각에도 변화가 발생할 것이다. 단순한 스타일의 복제가 아니라 컨텐츠 자체를 바꾸는, 그런 사람을 우리는 오피니언 리더라고 부르지 않던가. 인터넷 포탈사이트에 어떤 글이 올라온 뒤에 새로운 사실이 상식이 되거나 혹은 여론의 흐름이 바뀌는 것을 본 경험, 다들 있을 것이다. 이런 영향력을 측정할 수는 없을까?

LDA(Latent Dirichlet Allocation)의 창시자 중 한 명인 데이비드 블레이(David Blei) 교수(이 분은 프린스턴 대학교에 있다)의 2010년 논문를 보면, 인용 지수 대신 이 개념을 이용해서 논문의 임팩트를 계산하려는 연구를 소개하고 있다. 어떤 연구가 그 분야에서 아주 새로운 사실을 밝혀내거나, 혁신적인 방법론을 도입하거나, 아무튼 기존에 없었던 중요한 뭔가를 제시했다면, 이후에 나오는 논문은 그에 영향을 받지 않을 수 없다. 그러면 그 변화는 미래에 출판되는 논문들의 내용에 고스란히 드러난다. 어떤 용어는 과거의 유산이 되어 사라지고 동시에 다른 용어는 새로운 유행으로 부상할 것이기 때문이다. 이끌어내는 변화가 클수록 그 논문의 영향력은 크다고 볼 수 있다.

아이디어는 나왔다. 그러면 실제로 논문의 주제와 유행의 변화를 어떻게 측정할 수 있을까? 편집자가 단어를 하나하나 보면서 분석할 수는 없는 노릇이다. LDA 같은 토픽 모델이 텍스트 분석에서 중요한 이유가 바로 여기에 있다. 특정한 주제와 관련된 단어의 변화 혹은 주제 자체의 비율 변화 등을 비교적 쉽게 자동으로 계산할 수 있기 때문이다. (자세한 건 원논문을 참고)

이런 방식의 장점 한 가지는 웹이나 SNS, 저널처럼 링크 구조가 명시적이지 않은 도메인에서도 쓸 수 있다는 점이다. 또, 링크로 권위를 계산하는 네트워크 구조에 항상 따라오는 부익부빈익빈 현상을 완화시키는 용도로 쓰일 수도 있을 것 같다. 가령, 페이지랭크에서는 링크를 많이 받았기 때문에 유명해지고 유명해졌기 때문에 링크를 더 많이 받는 노드가 생기는 반면, 훌륭한 품질에도 불구하고 초기에 관심받지 못했다는 이유로 고사하는 노드도 생긴다. 이때 주제의 변화를 감지해서 낡은 것에는 페널티를 부여하고, 트렌드를 이끄는, 적어도 앞서가는 것에는 가중치를 주면, 묻혀있는 좋은 웹페이지를 찾아낼 수 있지 않을까?