• Home
  • About
  • Bookmark
  • Library
  • Search
  •  

    키워드의 가중치 구하기와 Zipf’s Law

    June 13th, 2008

    바라바시 교수가 쓴 링크라는 책을 흥미롭게 읽은 기억이 있는데, 그의 최근 논문을 소개하는 블로그를 보고 반가운 마음에 트랙백 걸려고(..) 씁니다. 내용상 큰 관련은 없어요.

    Zipf’s Law란, 간단히 말해서 빈도(frequency)는 지위(rank)에 반비례한다는 얘기다. 회사에서 직급 별 인원수를 생각해보면 쉽다.

    이 Zipf라는 분은 사실 언어학자인데, 문헌에 등장하는 단어의 분포를 연구하다가 이 규칙을 발견한 것으로 보인다. [계속 읽기]


    Lemmatization: Stemming과의 차이

    May 20th, 2008

    Lemmatization이란 문장 속에서 다양한 형태로 활용된(inflected) 단어의 표제어(lemma)를 찾는 일을 뜻한다. 여기서 말하는 표제어란 사전에서 단어의 뜻을 찾을 때 쓰는 기본형이라고 생각하면 된다. 예를 들어, ‘아름다운’이 Lemmatization을 거치면 ‘아름답다’가 된다. Stemming과 비슷해 보이지만 중요한 차이가 있다. [계속 읽기]


    TF-IDF: 문서와 단어 사이의 연관도를 측정하는 방법

    December 7th, 2007

    검색엔진에서 가장 중요한 것은, “얼마나 많은 문서를 수집하느냐”가 아니라 “가지고 있는 문서를 얼마나 잘 랭킹하느냐”라는 것을 구글이 증명했다. 즉, 질의를 입력한 사용자가 가장 원할 것 같은 문서를 앞에다가 배치하는 것이 중요하다는 말이다. 그렇다면 검색 엔진은 보통 어떤 방법으로 랭킹을 하고 있을까?

    컴퓨터로 랭킹 알고리즘을 구현할 때 먼저 생각해야 할 것은, 질의어와 문서를 컴퓨터 상에서 어떻게 표현할 것이냐는 문제다. 그 다음으로는 질의어와 문서의 연관도를 어떻게 계산할지도 결정해야 한다. 쉬운 방법은 단순히 질의어에 속한 단어를 포함한 모든 문서를 찾는 것이지만 이것만으로는 정확도가 떨어질 수밖에 없다.

    그래서 보통 벡터 공간 모델(Vector Space Model, VSM)을 많이 사용한다. 질의어와 문서를 키워드의 벡터로 표현하고, 내적값을 계산해서 유사함을 평가한다. (Cosine Similarity) [계속 읽기]


    포터 알고리즘(Porter’s Stemming Algorithm)

    November 23rd, 2007

    정보검색(Information Retrieval; IR)과 관련된 구현을 시작하면서 가장 처음 맞닥뜨리게 되는 현실적인 어려움은 아마도 키워드의 어근 추출 문제일 것이다. 예를 들어 TF-IDF 알고리즘을 구현한다고 해보자. 문서에 포함된 각 단어에 대하여 그 단어와 문서의 연관성을 계산해야 하는데, 어근이 제대로 추출되지 않는다면 최종 구현물의 정확도는 떨어질 수밖에 없다. ability와 abilities가 서로 다른 단어로 처리되기 때문이다. [계속 읽기]


    Page 4 of 41234