LDA 실습: 이 블로그의 주제는?

by SL

LDA(Latent Dirichlet Allocation)로 검색하다가 재미난 글을 발견하고 나도 따라해봤다. 블로그를 시작한 2007년 8월 27일부터 지금까지 작성한 총 136개 포스트를 대상으로 LDA를 돌렸다. 더 이상 직접 구현해 본답시고 삽질하지 않기로 했으므로 인터넷에서 파이썬으로 구현된 LDA 코드를 구했다. 한글 문서를 다룰 때 항상 문제가 되는 어근 추출은 국민대학교 강승식 교수님이 공개한 형태소분석기를 사용해 명사만 뽑는 방식으로 해결했다. 이걸로 준비는 끝, 결과를 살펴보자.

우선, 이 블로그의 주제는?

LDA가 주제의 개수까지 자동으로 찾아주지는 않는데, 어차피 내가 쓰는 글은 다 거기서 거기이므로 주제 개수를 4 ~ 6개로 돌려보고 가장 그럴듯한 결과를 내는 5로 정했다. 아래는 주제별로 관련성이 높게 나온 단어 목록이다.

  • 주제 1: 시간 영화 이야기 우리 정도 보고 하나 무척 사진 기억 모습 스스로 아들 느낌 결국
  • 주제 2: 책 저자 내용 이해 설명 연구 필요 방식 우리 스스로 지금 컴퓨터 가장 시작 무엇
  • 주제 3: 게임이론 위험 펀드 얼마 게임 수익 전략 예측 행동 결과 경제학 알파 이론 포트폴리오 시장
  • 주제 4: 문서 논문 단어 검색 결과 쿼리 분류 키워드 클릭 얼마 사용자 알고리즘 표현 중요 방식
  • 주제 5: 파일 프로그램 기능 검색 블로그 사용 사이트 태그 하나 관리 인터넷 인터페이스 얼마 입력 추가

LDA가 찾아낸 주제가 항상 명쾌하게 해석되는 건 아니지만 각 주제를 대충 아래와 같이 이름 지어도 될 것 같다.

  • 주제 1: 감상 (영화, 경험)
  • 주제 2: 독서
  • 주제 3: 경제 / 경영 / 투자
  • 주제 4: 검색 연구
  • 주제 5: 컴퓨터: 소프트웨어, 유저 인터페이스, 블로그

흠, 꽤 그럴듯한걸 :)

다음으로, 주제의 변화, 즉 트렌드를 살펴보자!

각각의 글에 대한 주제 가중치의 변화 추이를 살펴보면 나의 관심이 어떻게 바뀌어왔는지를 알 수 있을 것이다. 윈도우 크기를 5로 잡아서 이동 평균(Moving Average) 그래프를 그렸다.

지난 3년의 기억이 주마등처럼 스쳐간다.

  • 블로그를 개설하고 책 감상문을 열심히 올리다가 곧 시들해졌지만 최근에 다시 독후감 러쉬를 한 게 드러난다.
  • 한때 프로그래밍이나 유저 인터페이스 관련 얘기를 한 덕분에 컴퓨터 주제가 상승세를 탔으나 이제는 완전 하락세로 들어섰다.
  • 최근에는 투자 이론이나 독후감에 다소 주춤하지만, 그전까지만 해도 꽤 열심히 검색 관련 연구를 소개하곤 했었지.
  • 이전에는 돈에 관련된 얘기는 가계부 정도밖에 없었는데, 현대 투자 이론(Modern Portfolio Theory)을 접하면서 투자나 펀드 평가, 또 게임이론 같은 데로 관심이 확장된 게 노란색 선에 나타난다.

그냥 재미로 시작했는데 이거 진짜로 재밌네. 엠티 끝나고 남은 시간에 혼자 연구소에서 코딩하고 있는 건 좀 안습이지만.