• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    LDA 실습: 이 블로그의 주제는?

    November 14th, 2010

    LDA(Latent Dirichlet Allocation)로 검색하다가 아이추판다님 블로그에서 재미난 글을 발견하고 나도 따라 해봤다.

    블로그를 시작한 2007년 8월 27일부터 지금까지 작성한 총 136개 포스트를 대상으로 LDA를 돌렸다. 더 이상 직접 구현해 본답시고 삽질하지 않기로 했으므로 인터넷에서 파이썬으로 구현된 LDA 코드를 구했다. 한글 문서를 다룰 때 항상 문제가 되는 어근 추출은 국민대학교 강승식 교수님이 공개한 형태소분석기를 사용해 명사만 뽑는 방식으로 해결했다. 이걸로 준비는 끝, 결과를 살펴보자. [계속 읽기]


    LDA(Latent Dirichlet Allocation): 겉핥기

    November 7th, 2010

    배경 설명

    정보검색 등에서 문서 모델링은 중요한 의미가 있다. 위험을 무릅쓰고 간단하게 말하자면, 문서 모델링이란 개별 문서, 더 나아가 코퍼스(=문서 컬렉션)를 표현하는 방법을 찾는 것이다. 다양한 활용분야가 있겠지만 주제 분류나 문서 간 유사도 계산 등에 많이 쓰인다. [계속 읽기]


    Weka: Explorer와의 첫만남

    August 5th, 2010

    Weka(Waikato Environment for Knowledge Analysis)는 뉴질랜드의 University of Waikato에서 개발하여 GNU 라이센스로 공개한 기계학습 환경(A suite for machine learning software)이다. 다른 건 일단 제쳐놓고, 자바로 만들어졌기 때문에 맥 OS에서도 잘 실행된다. 홈페이지에서 프로그램을 받아서 실행하면 아래와 같은 화면이 뜨고, 여기서 Explorer를 클릭하면 된다.

    UCI(University of California, Irvine)의 Machine Learning Repository에 가면 다양한 기계학습 테스트 데이터를 구할 수 있다. [계속 읽기]


    SIGIR 2010에서 관심이 가는 논문들 – 첫 번째

    July 23rd, 2010

    7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.

    Freshness Matters: In Flowers, Food, and Web Authority

    얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다. [계속 읽기]


    의미있는 실패

    June 16th, 2010

    좋은 아이디어가 떠올라서 당장 적용해보고 싶은 순간이 살다 보면 몇 번은 생긴다. 손발이 근질거리는 마음은 이해하지만 잠시 흥분을 가라앉히고 먼저 데이터 분석을 통해 검증해보자. 십중팔구는 생각하지 못한 예외적인 경우를 발견할 것이다. 운이 좋아서 그런 예외를 쉽게 걸러내는 방법을 찾거나, 처음의 생각을 약간 수정하는 정도로 검증 과정을 통과할지도 모르지만, 많은 경우에 그 예외가 사실은 예외가 아니고 너무나 결정적이어서 아이디어 자체를 폐기해야 하기도 한다. 그렇더라도 이런 실패는 다른 연구자의 시행착오(라 쓰고 삽질이라 읽는다)를 줄여주고, 그렇게 절약한 시간과 에너지를 더 생산적인 곳에 쏟아부을 수 있게 한다는 점에서 공유할 만한 가치가 있다. [계속 읽기]


    Page 2 of 41234