오픈 검색 서비스 구상

by SL

구글과 네이버는 대중의 지혜로 무엇을 제공하고 있나?에서 얘기하는 것처럼, 사람들이 검색하는 쿼리와 클릭한 문서 데이터에는 엄청난 가치가 숨어 있다. 이런 귀중한 자원을 검색 서비스를 제공한다는 이유로 특정 기업들이 독점해도 되는가 하는 의문이 생길 수 있다. 그래서 든 생각. 검색 서비스를 공공화할 수는 없을까? 그래서 검색과 관련된 각종 데이터를 투명하게 일반에 공개할 수는 없을까? 이런 질문에서 시작된 상상이 가칭 오픈 검색 서비스(Open Search Service, OSS)의 구상으로 이어졌다.

Open Search Service의 특징

1. 데이터의 투명한 공개

데이터 공개는 OSS의 가장 큰 특징이자 존재 의의다. 여기서 공개하는 데이터에는 두 종류가 있다.

A. 웹크롤링 로봇이 수집한 문서

검색 서비스를 시작하려면 당연히 웹상에 널려있는 문서를 긁어오는 것부터 시작해야 하는데, 이게 생각보다 어렵고 복잡하고 시간이 많이 드는 작업이다. OSS의 크롤러는 robots.txt 규약을 준수하여 공개된 문서만 수집하되 그 결과를 만인에 공개하여 자유롭게 사용하도록 한다.

B. 검색 및 클릭 로그

사람들이 무엇을 검색했는지, 그리고 검색 결과에서 무엇을 클릭했는지와 같은 로그 정보는 다양한 잠재활용가치를 가진 데이터이다. 따라서 OSS의 로그는 반드시 공개되어야 하는데, 문제는 프라이버시이다. 이 문제를 방지하기 위해 OSS는 사용자가 자신의 기록 중 어디까지 공개할지 선택할 수 있다. (IP, 브라우저 및 점속 환경, 쿠키 등) 그러나 최소한 검색어와 클릭 문서 로그는 익명으로 공개하도록 강제한다. 이마저도 노출되지 않기를 바란다면, 다른 서비스를 이용하도록 안내한다.

2. 자유로운 참여와 선택 가능성

데이터가 있다고 바로 쓸 만한 서비스가 나오는 것은 아니다. 소스가 공개된 검색엔진은 이미 있다 치더라도 훌륭한 문서 랭킹 알고리즘이 필요하고 검색결과를 보기좋게 보여주는 유저인터페이스도 필요하다. 명색이 오픈 검색 서비스인데 랭킹 로직의 내부를 감출 수는 없다. 하지만 무작정 오픈하기에도 문제는 있다. 어뷰징에 취약해지는 것이다. 누구나 랭킹 함수 속을 들여다볼 수 있게 되면 검색 결과 상위 노출을 노리고 그 랭킹에 최적화된 문서를 작성하는 하이에나들이 들끓을 수 있다.

이에 대한 한 가지 해결책은 랭킹, UI 등의 요소를 모두 플러그인 형태로 제작하도록 하고, 사용자가 자기 입맛에 따라 선택하게 하는 것이다. “나는 랭킹 알고리즘 A타입에 UI는 B타입을 쓸래”, “나는 랭킹 C타입, UI A타입” 이런 식이다. 마치 워드프레스 사이트에 다양한 테마와 플러그인이 올라오고 사용자는 그중 필요한 걸 가져다 쓰는 것처럼 검색 서비스에도 생태계를 만든다. 그러면 사람들이 저마다 컴포넌트를 만들어서 올리고 그렇게 서로 경쟁하는 과정에서 우수한 알고리즘들이 계속 탄생할 것이다. 최고의 문서를 잘 찾으면서도 어뷰징에는 강인한 그런 랭킹.

기대 효과

이런 오픈 검색 서비스가 생긴다면 어떤 일이 벌어질까?

  1. 검색 로그가 있으므로 Google Trend, Google Insight는 물론, 그 이상의 분석이 가능해진다. 또한 종종 화두가 되는 인기검색어 조작 의혹도 깔끔하게 해소할 수 있다. 직접 로그를 들여다보면 되니까.
  2. 검색 로그 뿐 아니라 방대한 문서 데이터도 노다지다. 데이터마이닝 교과서에서 배운 각종 알고리즘을 실험하는 데 가장 컸던 장벽이 사라진다. 페이지랭크를 직접 계산해보고 싶다고? 오피니언 마이닝(Opinion Mining, Sentimental Analysis )을 해보겠다고? 그럼 그냥 데이터 가져다가 코드 돌리면 된다.
  3. 쉽게 자기만의 검색 서비스를 만들 수 있다. 지금까지는 검색 결과가 마음에 들지 않으면 다른 검색엔진으로 옮겨가는 수밖에 없었다. 하지만 이제는 내 입맛에 맞는 랭킹 방식을 선택할 수 있고, (능력과 의지만 있다면) 직접 만들어서 적용할 수도 있다. 더 멋진 건 내가 만든 랭킹 알고리즘을 사용하는 사람들의 실제 클릭 로그를 추적해볼 수도 있다는 점이다. (물론 그 사람들이 지정한 프라이버시의 범위 안에서)

수익 모델

오픈 검색 서비스를 지속하기 위해서는 당연히 많은 비용이 든다. 다행스럽게도 인터넷 업계에는 보증된 수익 모델이 있다. 바로 검색 광고. 오픈 검색 서비스의 품질이 높아지고 사용자가 늘어나면 여기에 검색광고를 하는 업체가 생길 것이고, 그러면 거기서 발생한 수익으로 인건비를 포함한 서비스 유지 비용을 감당할 수 있을 것이다. 초과 이윤은 각 컴포넌트 제작자들과 나누면 된다. 가령 각 랭킹 알고리즘의 선택 비율에 따라 그걸 만든 사람들과 이익을 공유할 수 있을 것이다.

마무리

장난스럽게 시작한 글인데, 쓰다보니 정말로 실현가능한 모델이 아닐까 하는 생각이 든다. 말만 하고 마는 나와 달리 행동력이 있는 능력자와 만난다면 위키피디아나 워드프레스처럼 성공한 프로젝트(오픈 플랫폼? 오픈 서비스?)가 되어 구글과 경쟁할 수도 있지 않을까?