• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    TF-IDF: 문서와 단어 사이의 연관도를 측정하는 방법

    December 7th, 2007

    검색엔진에서 가장 중요한 것은, “얼마나 많은 문서를 수집하느냐”가 아니라 “가지고 있는 문서를 얼마나 잘 랭킹하느냐”라는 것을 구글이 증명했다. 즉, 질의를 입력한 사용자가 가장 원할 것 같은 문서를 앞에다가 배치하는 것이 중요하다는 말이다. 그렇다면 검색 엔진은 보통 어떤 방법으로 랭킹을 하고 있을까?

    컴퓨터로 랭킹 알고리즘을 구현할 때 먼저 생각해야 할 것은, 질의어와 문서를 컴퓨터 상에서 어떻게 표현할 것이냐는 문제다. 그 다음으로는 질의어와 문서의 연관도를 어떻게 계산할지도 결정해야 한다. 쉬운 방법은 단순히 질의어에 속한 단어를 포함한 모든 문서를 찾는 것이지만 이것만으로는 정확도가 떨어질 수밖에 없다.

    그래서 보통 벡터 공간 모델(Vector Space Model, VSM)을 많이 사용한다. 질의어와 문서를 키워드의 벡터로 표현하고, 내적값을 계산해서 유사함을 평가한다. (Cosine Similarity) [계속 읽기]


    iBank: Mac용 가계부 프로그램

    December 4th, 2007

    매킨토시 세상에도 참 다양한 가계부 프로그램이 있다. 그 중에서 내가 사용하는 것은 iBank. 2년 전의 어느 날부터 오늘까지 매일의 돈쓰임을 꾸준하게 기록해왔다. 이제 12월도 되고 했으니 연말기념으로 이 프로그램에 대해 간단히 정리해본다.

    비슷한 많은 프로그램 중에서 iBank를 선택한 가장 큰 이유는 바로 깔끔하고 정갈한 디자인이었다. 그냥 스크린샷 하나로 충분, 다른 이유가 필요하지 않았다.

    하지만 그게 유일한 장점은 아니다. [계속 읽기]


    Programming Collective Intelligence: 첫인상

    December 2nd, 2007

    이 책은 요즘 유행하는 웹 2.0을 표방하는 서비스에 적용할 만한 패턴분류(pattern classification) 또는 기계학습(machine learning) 이론을 소개하고, 이를 활용하여 재미있고 유용한 서비스를 구현하는 방법을 설명한다. 책의 구성은 단순하다. 챕터마다 특정 알고리즘을 소개하고 그것을 적용할 만한 웹서비스를 제시한 뒤 실제 구현 코드를 보여주면서 마무리 짓는 형식이다.

    등장하는 알고리즘의 면면을 살펴보면, Recommendation, Decision Tree, Neural Network, Bayesian Classifier, Optimization, Clustering, Support Vector Machine, Feature Extraction 등으로 아주 화려하다. [계속 읽기]


    누가 전자책을 원할까?

    November 24th, 2007

    우연히 아는 분의 아는 분이 전자책 관련 사업을 하신다는 얘기를 들었다. 나는 좋아하는 책들이 가지런히 꽂혀있는 책장을 보며 흐뭇해 하는 취향을 가진 사람이라 그동안 전자책에는 별다른 관심을 가지지 않았다. 오히려 그 가능성에 대해 다소 부정적이었던 게 솔직한 마음이다. 하지만 가만히 생각해 보니, 전자책이 매력적으로 들이댈 수 있는 시장도 있겠다 싶었다. [계속 읽기]


    포터 알고리즘(Porter’s Stemming Algorithm)

    November 23rd, 2007

    정보검색(Information Retrieval; IR)과 관련된 구현을 시작하면서 가장 처음 맞닥뜨리게 되는 현실적인 어려움은 아마도 키워드의 어근 추출 문제일 것이다. 예를 들어 TF-IDF 알고리즘을 구현한다고 해보자. 문서에 포함된 각 단어에 대하여 그 단어와 문서의 연관성을 계산해야 하는데, 어근이 제대로 추출되지 않는다면 최종 구현물의 정확도는 떨어질 수밖에 없다. ability와 abilities가 서로 다른 단어로 처리되기 때문이다. [계속 읽기]


    Page 35 of 37« First...102030...3334353637