<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>알아가는 즐거움 &#187; information-retrieval</title>
	<atom:link href="http://www.4four.us/article/tag/information-retrieval/feed" rel="self" type="application/rss+xml" />
	<link>http://www.4four.us</link>
	<description>아~ 하기 싫다~</description>
	<lastBuildDate>Mon, 30 Jan 2012 12:14:47 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3</generator>
		<item>
		<title>영향력을 측정하는 방법</title>
		<link>http://www.4four.us/article/2011/12/measuring-influence</link>
		<comments>http://www.4four.us/article/2011/12/measuring-influence#comments</comments>
		<pubDate>Fri, 23 Dec 2011 15:05:25 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[web]]></category>
		<category><![CDATA[document-quality]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[latent-dirichlet-allocation]]></category>
		<category><![CDATA[link-analysis]]></category>
		<category><![CDATA[measure]]></category>
		<category><![CDATA[topic-model]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=4255</guid>
		<description><![CDATA[바야흐로 빅데이터의 시대라고 한다. 폭증하는 정보 속에서 가치있는 것을 찾아내는 일은 점점 더 중요해지고 있으며, 이를 위해 가능한 모든 것을 정량화하려는 시도 또한 계속되고 있다. 정보검색 연구자들은 문서의 품질을 자동으로 평가하기 위한 알고리즘을 찾아 분투하고 있는데, 현재까지 가장 성공적이라고 알려진 것은 웹페이지 간의 링크 구조를 분석하는 방법이다. 그런 방식의 선구자 격인 알고리즘이 바로 HITS(Hyperlink-Induced Topic [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2007/12/tf-idf-computing-keyword-weighting-document' rel='bookmark' title='TF-IDF: 문서와 단어 사이의 연관도를 측정하는 방법'>TF-IDF: 문서와 단어 사이의 연관도를 측정하는 방법</a></li>
<li><a href='http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply' rel='bookmark' title='LDA(Latent Dirichlet Allocation): 겉핥기'>LDA(Latent Dirichlet Allocation): 겉핥기</a></li>
<li><a href='http://www.4four.us/article/2009/10/ambient-search' rel='bookmark' title='생활에 녹아드는 검색'>생활에 녹아드는 검색</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>바야흐로 빅데이터의 시대라고 한다. 폭증하는 정보 속에서 가치있는 것을 찾아내는 일은 점점 더 중요해지고 있으며, 이를 위해 가능한 모든 것을 정량화하려는 시도 또한 계속되고 있다. 정보검색 연구자들은 <a href="http://www.4four.us/article/2010/03/document-quality-measurement" target=_blank>문서의 품질을 자동으로 평가하기 위한 알고리즘을 찾아 분투</a>하고 있는데, 현재까지 가장 성공적이라고 알려진 것은 웹페이지 간의 링크 구조를 분석하는 방법이다. 그런 방식의 선구자 격인 알고리즘이 바로 <a href="http://en.wikipedia.org/wiki/HITS_algorithm" target=_blank>HITS(Hyperlink-Induced Topic Search)</a>이며, 이를 개발한 사람은 현재 코넬대학교에 교수로 있는 존 클라인버그다.</p>
<p><a href="http://arxiv.org/find/cs/1/au:+Kleinberg_J/0/1/0/all/0/1" target=_blank>최근 그의 연구</a>를 보면 관심사가 사회연결망(소셜 네트워크)에 집중되어 있는 듯하다. 하지만 테마는 여전히 네트워크 분석이며, 도메인만 웹페이지에서 사람으로 바뀐 것이다. 근래에 발표한 연구 중에서는 사람 간의 권력 차이(power difference)를 측정하려는 시도가 눈에 띈다.<span id="more-4255"></span></p>
<p>대화를 할 때 우리는 알게모르게 상대방을 따라한다. 몸짓이나 목소리 톤 같은 것 뿐만 아니라 언어 스타일까지 영향을 받는데, 클라인버그에 따르면 여기에 권력 관계가 개입한다. 대화의 내용이 아닌 언어 스타일에서 모방이 발생하며, 그 스타일이란 that, for, but, themselves 같은 기능어의 사용 패턴이다. 즉, <strong>&#8220;누군가 어떤 기능어를 사용했을 때 상대방이 그것을 얼마나 따라하는지에 권력 관계가 영향을 미치며, 이를 거꾸로 이용하면 상대가 그의 언어 스타일을  얼마나 따라하는지를 측정해서 그 사람의 권력을 정량화할 수 있다&#8221;</strong>는 얘기다. 이를 검증하기 위해서 위키피디아 편집 회의(어드민 vs 비어드민), 법원의 발언기록을 분석했다고 하니 관심있는 사람은 <a href="http://arxiv.org/pdf/1112.3670" target=_blank>여기</a>서 논문을 읽어보자. 나는 <a href="http://www.technologyreview.com/blog/arxiv/27437/" target=_blank>이 글</a>만 참고했다.</p>
<p>사람이 대화할 때 언어 스타일로 영향을 주고받는다는 생각을 조금 더 확장해보자.</p>
<p>정말로 영향력있는 사람이라면 그의 발언을 들은 사람들의 생각에도 변화가 발생할 것이다. 단순한 스타일의 복제가 아니라 컨텐츠 자체를 바꾸는, 그런 사람을 우리는 오피니언 리더라고 부르지 않던가. 인터넷 포탈사이트에 어떤 글이 올라온 뒤에 새로운 사실이 상식이 되거나 혹은 여론의 흐름이 바뀌는 것을 본 경험, 다들 있을 것이다. 이런 영향력을 측정할 수는 없을까?</p>
<p>LDA(Latent Dirichlet Allocation)의 창시자인 데이비드 블레이(David Blei) 교수(이 분은 프린스턴 대학교에 있다)의 <a href="http://www.icml2010.org/papers/384.pdf" target=_blank>2010년 논문</a>를 보면, 인용 지수 대신 이 개념을 이용해서 논문의 임팩트를 계산하려는 연구를 소개하고 있다. <strong>어떤 연구가 그 분야에서 아주 새로운 사실을 밝혀내거나, 혁신적인 방법론을 도입하거나, 아무튼 기존에 없었던 중요한 뭔가를 제시했다면, 이후에 나오는 논문은 그에 영향을 받지 않을 수 없다.</strong> 그러면 그 변화는 미래에 출판되는 논문들의 내용에 고스란히 드러난다. 어떤 용어는 과거의 유산이 되어 사라지고 동시에 다른 용어는 새로운 유행으로 부상할 것이기 때문이다. 이끌어내는 변화가 클수록 그 논문의 영향력은 크다고 볼 수 있다.</p>
<p>아이디어는 나왔다. 그러면 실제로 논문의 주제와 유행의 변화를 어떻게 측정할 수 있을까? 편집자가 단어를 하나하나 보면서 분석할 수는 없는 노릇이다. LDA 같은 토픽 모델이 텍스트 분석에서 중요한 이유가 바로 여기에 있다. 특정한 주제와 관련된 단어의 변화 혹은 주제 자체의 비율 변화 등을 비교적 쉽게 자동으로 계산할 수 있기 때문이다. (자세한 건 원논문을 참고)</p>
<p>이런 방식의 장점 한 가지는 웹이나 SNS, 저널처럼 링크 구조가 명시적이지 않은 도메인에서도 쓸 수 있다는 점이다. 또, 링크로 권위를 계산하는 네트워크 구조에 항상 따라오는 부익부빈익빈 현상을 완화시키는 용도로 쓰일 수도 있을 것 같다. 가령, 페이지랭크에서는 링크를 많이 받았기 때문에 유명해지고 유명해졌기 때문에 링크를 더 많이 받는 노드가 생기는 반면, 훌륭한 품질에도 불구하고 초기에 관심받지 못했다는 이유로 고사하는 노드도 생긴다. 이때 주제의 변화를 감지해서 낡은 것에는 페널티를 부여하고, 트렌드를 이끄는, 적어도 앞서가는 것에는 가중치를 주면, 묻혀있는 좋은 웹페이지를 찾아낼 수 있지 않을까?<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=4255&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2007/12/tf-idf-computing-keyword-weighting-document' rel='bookmark' title='TF-IDF: 문서와 단어 사이의 연관도를 측정하는 방법'>TF-IDF: 문서와 단어 사이의 연관도를 측정하는 방법</a></li>
<li><a href='http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply' rel='bookmark' title='LDA(Latent Dirichlet Allocation): 겉핥기'>LDA(Latent Dirichlet Allocation): 겉핥기</a></li>
<li><a href='http://www.4four.us/article/2009/10/ambient-search' rel='bookmark' title='생활에 녹아드는 검색'>생활에 녹아드는 검색</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2011/12/measuring-influence/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>LDA(Latent Dirichlet Allocation): 겉핥기</title>
		<link>http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply</link>
		<comments>http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply#comments</comments>
		<pubDate>Sun, 07 Nov 2010 08:01:39 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[classification]]></category>
		<category><![CDATA[document]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[latent-dirichlet-allocation]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[model]]></category>
		<category><![CDATA[topic-model]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2589</guid>
		<description><![CDATA[배경 설명 정보검색 등에서 문서 모델링은 중요한 의미가 있다. 위험을 무릅쓰고 간단하게 말하자면, 문서 모델링이란 개별 문서, 더 나아가 코퍼스(=문서 컬렉션)를 표현하는 방법을 찾는 것이다. 다양한 활용분야가 있겠지만 주제 분류나 문서 간 유사도 계산 등에 많이 쓰인다. Generative Model 어떤 확률분포와 그 파라미터가 있다고 할 때, 그로부터 랜덤 프로세스에 따라 데이터를 생성하는 관점의 모델이다. 문서 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/11/lda-my-blog-topic-trend' rel='bookmark' title='LDA 실습: 이 블로그의 주제는?'>LDA 실습: 이 블로그의 주제는?</a></li>
<li><a href='http://www.4four.us/article/2011/12/measuring-influence' rel='bookmark' title='영향력을 측정하는 방법'>영향력을 측정하는 방법</a></li>
<li><a href='http://www.4four.us/article/2010/03/document-quality-measurement' rel='bookmark' title='문서의 품질을 자동으로 측정할 수 있을까?'>문서의 품질을 자동으로 측정할 수 있을까?</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<h3>배경 설명</h3>
<p>정보검색 등에서 문서 모델링은 중요한 의미가 있다. 위험을 무릅쓰고 간단하게 말하자면, 문서 모델링이란 개별 문서, 더 나아가 코퍼스(=문서 컬렉션)를 표현하는 방법을 찾는 것이다. 다양한 활용분야가 있겠지만 주제 분류나 문서 간 유사도 계산 등에 많이 쓰인다.<span id="more-2589"></span></p>
<h4>Generative Model</h4>
<p>어떤 확률분포와 그 파라미터가 있다고 할 때, 그로부터 랜덤 프로세스에 따라 데이터를 생성하는 관점의 모델이다. 문서 모델링의 말로 설명하면, 문서의 주제 분포와 각 주제별로 특정 단어를 생성할 확률을 알고 있으면, 특정 문서가 만들어질 확률을 계산할 수 있다는 얘기다.</p>
<h3>개념 학습</h3>
<h4>Latent Dirichlet Allocation이란?</h4>
<p>LDA(Latent Dirichlet Allocation)는 문서 같은 데이터의 집합에 대한 Generative Probabilistic Model이다. 이건 정의도 아니거니와 LDA에 대해 별로 설명도 안 되니까 그냥 처음부터 구체적인 과정을 살펴보자. 아래는 모델에서 하나의 문서를 생성하는 절차를 보여준다.</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2598" title="pseudocode" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/pseudocode.png" width="498" height="130" /></p>
<p>여기서 α와 β는 코퍼스 단위로 정해지는 값이고, N과 θ는 문서 단위로 정해지는 값이다. β는 각 주제별로 특정 단어가 생성될 확률이 담긴 테이블(2차원 매트릭스)이며, N은 문서의 길이, θ는 해당 문서에서 각 주제의 가중치를 나타낸다. (θ의 각 엔트리 값을 합치면 1이 된다.) zi는 문서의 i번째 단어에 대한 주제 벡터(하나의 엔트리만 1이고 나머지는 0)이다. 이 모델에서 주제의 개수는 k로 고정되어 있으며, 따라서 θ와 zi는 길이가 k인 벡터이다.</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2597" title="plate" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/plate.png" alt="" width="363" height="160" /></p>
<p>정리하면, 어떤 문서에 대해 파라미터 θ(주제 벡터)가 있고, 앞에서부터 단어를 하나씩 채울 때마다 θ로부터 하나의 주제를 선택하고, 다시 그 주제로부터 단어를 선택하는 방식으로 문서 생성 과정을 모델링하는 것이다. 사람이 실제로 글을 쓰는 과정하고는 완전히 다른 얘기이므로 헷갈리지 말자. 위 그림은 이 과정을 요약한 것이다.</p>
<h4>이게 무슨 의미가 있는데?</h4>
<p>이런 Generative Model을 써서 우리가 새로운 글을 쓰려는 건 당연히 아니다. 하지만, 이런 방법으로 문서 내용을 성공적으로 모델링, 즉 표현할 수 있다면 거꾸로 이미 알고 있는 문서의 파라미터 θ를 찾아내는 것도 가능할 것이다. 앞에서 문서 모델링의 필요성을 왜 얘기했겠나. 글 d1과 d2가 있을 때, 주제는 비슷하더라도 각 문서에 등장하는 단어의 종류나 빈도는 다를 수 있기 때문에 단순한 키워드 기반의 모델로는 유사도를 계산하거나 주제 분류를 하는 데에는 한계가 있다. 그러나 이미 보유한 많은 텍스트에 기초에 α와 β를 알아 두고, 개별 문서의 θ를 계산할 수 있으면, 이 θ를 가지고 유사도 계산이나 분류 작업을 훨씬 쉽고도 정확하게 해낼 수 있다.</p>
<h4>이름의 의미</h4>
<p>이쯤에서 Latent Dirichlet Allocation이라는 이름에 담긴 뜻을 짚어보자.</p>
<ol>
<li>Latent: 사전적인 의미는 &#8220;잠재적인, 숨어 있는&#8221;. 위에서 설명한 과정에서 우리가 직접 관찰할 수 있는 것은 문서 내용뿐이다. α, β, θ, z는 모두 감춰진 파라미터이다.</li>
<li>Dirichlet: 19세기 독일 수학자의 이름. Dirichlet distribution이 그의 이름을 따서 지어졌다고 한다. 제일 위의 코드를 보면 θ를 결정할 때 α에 대한 Dirichlet distribution을 사용하고 있는데, 그 이유는 뒤에서 다시 살펴보겠다.</li>
<li>Allocation: 말 그대로 &#8216;할당&#8217;. 각 단어를 결정할 때, θ에 대한 multinomial distribution으로 주제를 &#8216;할당&#8217;한 뒤 그 주제로부터 단어를 뽑는다. LDA의 개념이나 활용에서 여러 가지 할당이 나오므로 해석은 마음껏.</li>
</ol>
<h3>파라미터 추정</h3>
<p>본격적으로 수식이 활개를 치고 베이시안이 어쩌니 추론이 저쩌니 하면서 복잡해지는 부분이다. 물론 여기서는 쉬운 것만 다룰 것이므로 파라미터 추정 과정을 본격적으로 설명할 것이라는 기대는 미리미리 접자.</p>
<h4>왜 Dirichlet Distribution인가?</h4>
<p>앞서 설명한 내용을 수식으로 적으면 아래와 같다.<br />
<img class="alignnone size-full wp-image-2595" title="zn" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/zn.png" alt="" width="274" height="62" /><br />
<img class="alignnone size-full wp-image-2613" title="wz" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/wz.png" alt="" width="294" height="53" /><br />
첫 번째 식은 문서의 주제 생성, 두 번째 식은 문서의 주제와 단어 생성을 나타낸다.<br />
문서 주제(=내용)를 나타내는 z는 θ에 대한 조건부 확률이다. Bayes Rule을 떠올려보자.<br />
<img class="alignnone size-full wp-image-2614" title="bayes" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/bayes.png" alt="" width="185" height="56" /><br />
우리가 결국 하고 싶은 일은 문서 내용(위 식의 data)으로부터 θ를 추정(inference)하는 것이다. 위에서 posterior라고 된 부분이 어떤 분포를 따르는지를 알고 있으면 이 작업이 그나마 좀 쉬워지고, conjugate prior의 필요성이 바로 여기에서 나온다. 위 수식에서 posterior와 prior가 동일한 분포를 따르면, prior를 likelihood의 conjugate prior라고 한다. 중간에 likelihood라고 된 부분은 θ에 대한 multinomial distribution이라고 앞에서 얘기했다. 그럼 multinomial distribution의 conjugate prior가 뭘까? +_+ 예상하듯이(&#8230;) 바로 Dirichlet distribution이다. 다시 말해서, prior를 Dirichlet distribution이라고 그냥 결정해버림으로써 posterior를 쉽게 계산하려는 것이다.</p>
<h4>모델 단순화</h4>
<p>이름에 대한 마지막 의문이 풀렸으니 θ를 구하기 위한 여정을 계속하자. 코퍼스 레벨의 α와 β를 아는 상태에서 문서 w가 주어졌을 때, θ와 z에 대한 조건부 확률을 아래와 같이 쓸 수 있다.<br />
<img class="alignnone size-full wp-image-2594" title="intractable" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/intractable.png" alt="" width="218" height="50" /><br />
그런데 이걸 계산하는 게 intractable 하다네? 어쩔 수 없지. 모델을 단순화하자, 아래 그림처럼. (위의 그림과 비교해보자.)</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2596" title="variational" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/variational.png" alt="" width="241" height="172" /></p>
<p>얼씨구. 기껏 θ와 z의 관계를 설명하더니 이제 와서 두 개를 γ와 φ로 완전히 분리해버렸네? 그런데 이게 전혀 뜬금없는 건 아니고, variational inference라고 해서, 아래와 같이 q로 variational distribution을 표기하고,<br />
<img class="alignnone size-full wp-image-2593" title="parameter" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/parameter.png" alt="" width="233" height="53" /><br />
원래의 분포와 variational distribution 사이의 (두 분포 사이의 거리를 의미하는) KL divergence를 최소화하는 variational parameter(=γ와 φ)를 찾아내는 알고리즘이 있다고 한다. 자세한 내용이 궁금하면 LDA를 소개한 논문인 참고자료1의 부록을 참고하자. 이렇게 γ와 φ를 구한 뒤, 다시 이 값과 관찰된 문서를 사용해서 α와 β까지 추정한다. (γ와 φ를 구하는 과정을 E-Step, α와 β를 구하는 과정을 M-Step으로 놓고, EM 알고리즘을 쓴다. 역시 자세한 건 참고자료를 참고) 자, 특별히 설명한 건 없지만 어쨌든 코퍼스의 α와 β, 그리고 개별 문서에 대해 (θ와 z는 아니지만) γ와 φ를 구했다. 이제는 활용하는 일만 남았다.</p>
<h3>결과</h3>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2599" title="result" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/result.png" alt="" width="523" height="450" /></p>
<p>LDA를 설명할 때 빠지지 않고 나오는 그림이다. 윗부분은 주제별로 관련성이 높은 단어를 뽑은 것, 즉 β이고, 아랫부분은 예제 문서에서 주제가 확실한 단어에 색칠한 것, 즉 φ를 보여준다. 윗부분에서 주제 이름(Arts, Budgets, Children, Education)은 알고리즘이 자동으로 뽑아주는 것이 아니라 사람이 정한 것이다. 비슷한 단어들이 엮여 나오기 때문에 문서 모델링 뿐 아니라 키워드 클러스터링에도 LDA를 써먹을 수 있다. 사실 LDA는 문서를 다룰 때만 쓰이는 것이 아니라, 비슷한 형태의 모든 데이터 분석에 활용할 수 있다. 아무튼 이렇게 결과로 나온 특징(feature)을 써서 문서 분류 등에 활용한 결과가 역시 참고자료1에 많이 나온다.</p>
<h3>참고자료</h3>
<ol>
<li><a href="http://jmlr.csail.mit.edu/papers/v3/blei03a.html" target="_blank">Latent Dirichlet Allocation</a>, David M. Blei, Andrew Y. Ng, Michael I. Jordan, Journal of Machine Learning Research 3, 993 &#8211; 1022, 2003</li>
<li><a href="http://www.pletscher.org/academics/undergraduate/talks/lda-slides.pdf" target="_blank">http://www.pletscher.org/academics/undergraduate/talks/lda-slides.pdf</a>, Patrick Pletscher, 2005</li>
<li><a href="http://en.wikipedia.org/wiki/Dirichlet_distribution" target=_blank>Dirichlet distribution &#8211; Wikipedia, the free encyclopedia</a></li>
<li><a href="http://en.wikipedia.org/wiki/Conjugate_prior" target=_blank>Conjugate prior &#8211; Wikipedia, the free encyclopedia</a></li>
</ol>
<p><!-- WSA: rules for context 'example-post-bottom' did not apply --><script type="text/javascript" src="http://www.luminate.com/widget/9bff1cafcb/"></script></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2589&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/11/lda-my-blog-topic-trend' rel='bookmark' title='LDA 실습: 이 블로그의 주제는?'>LDA 실습: 이 블로그의 주제는?</a></li>
<li><a href='http://www.4four.us/article/2011/12/measuring-influence' rel='bookmark' title='영향력을 측정하는 방법'>영향력을 측정하는 방법</a></li>
<li><a href='http://www.4four.us/article/2010/03/document-quality-measurement' rel='bookmark' title='문서의 품질을 자동으로 측정할 수 있을까?'>문서의 품질을 자동으로 측정할 수 있을까?</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply/feed</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>모질대세: 모호한 질의어에 대처하는 검색엔진의 자세</title>
		<link>http://www.4four.us/article/2010/08/dealing-with-ambiguous-query</link>
		<comments>http://www.4four.us/article/2010/08/dealing-with-ambiguous-query#comments</comments>
		<pubDate>Fri, 06 Aug 2010 18:45:48 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[context]]></category>
		<category><![CDATA[diversity]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[personalization]]></category>
		<category><![CDATA[query]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2137</guid>
		<description><![CDATA[검색엔진에 &#8216;모나리자&#8217;를 입력했을 때, 레오나르도 다 빈치의 그림과 조용필의 노래 중에 어떤 걸 원하는지는 그 사람만이 안다. 하지만, 침묵하는 사용자의 속마음을 알아내려는 검색 연구자들의 노력 또한 치열하다 못해 아주 뜨겁다. 그동안 제안된 아이디어를 간단하게 네 가지로 분류해보자. 1. 검색어 추천 (자동완성 / 관련검색어) 이미 많이 쓰이고 있으며 많은 이들이 익숙한 방식이다. 검색어를 입력하는 동안 혹은 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/11/url-blocking-during-a-search' rel='bookmark' title='나오지마: 검색 인터페이스 제안'>나오지마: 검색 인터페이스 제안</a></li>
<li><a href='http://www.4four.us/article/2009/10/the-next-ui-breakthrough-command-lines-donald-a-norman-3' rel='bookmark' title='The Next UI Breakthrough: Command lines &#8211; Donald A. Norman'>The Next UI Breakthrough: Command lines &#8211; Donald A. Norman</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>검색엔진에 &#8216;모나리자&#8217;를 입력했을 때, 레오나르도 다 빈치의 그림과 조용필의 노래 중에 어떤 걸 원하는지는 그 사람만이 안다. 하지만, 침묵하는 사용자의 속마음을 알아내려는 검색 연구자들의 노력 또한 치열하다 못해 아주 뜨겁다. 그동안 제안된 아이디어를 간단하게 네 가지로 분류해보자.</p>
<h3>1. 검색어 추천 (자동완성 / 관련검색어)</h3>
<p>이미 많이 쓰이고 있으며 많은 이들이 익숙한 방식이다. 검색어를 입력하는 동안 혹은 검색한 후에, 사용자가 찾고 있음 직한 쿼리를 제안해준다. Daum에 &#8216;이정수&#8217;를 검색하면, 인물 프로필에서 동명이인들을 보여주고 그중 한 명을 선택하면 &#8216;스케이트선수 이정수&#8217;, &#8216;축구선수 이정수&#8217; 등으로 쿼리를 확장해서 재검색해준다. 다른 방법에 비해 단순해 보이지만, 사용자가 스스로 명확하게 지정하기 때문에 오류나 혼란이 적다는 것은 무시하기 어려운 장점이다.</p>
<h3>2. 상황인지(context-aware)</h3>
<p>현재 사용자가 어디에 있는지, 무슨 요일인지, 몇 시인지에 따라서 다른 결과를 제공하는 것도 유용할 것이다.<span id="more-2137"></span> 스마트폰이 퍼지면서 더욱 각광받게 될 텐데, 가령 &#8216;시간표&#8217;라고 했을 때 사용자가 지하철역에 있느냐, 버스정류장에 있느냐에 따라 더 적절한 문서를 상단에 노출하는 식으로 응용할 수 있다. <a href="http://portal.acm.org/citation.cfm?id=1458082.1458274&amp;coll=portal&amp;dl=ACM&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">Searching the Wikipedia with Contextual Information</a> 논문을 보면, 위키피디아에서 어떤 페이지를 보다가 검색했는지에 따라서 다른 결과를 제공하는 아이디어가 나온다. 금융이론에 대한 글을 읽다가 beta를 검색했다면 십중팔구는 이 <a href="http://en.wikipedia.org/wiki/Beta_(finance)" target=_blank>베타</a>를 찾는 것일 테니까 말이다.<br />
그런데 context search로 논문을 찾아보면 위에서 말한 &#8216;상황&#8217;보다는 현재 검색 세션을 컨텍스트로 사용하는 경우가 많다. 즉, &#8216;이전에 어떤 쿼리를 날려서 어떤 문서를 클릭했으니, 이번 쿼리는 아마도 이런 걸 찾는 거겠지?&#8217;라는 건데, 영한사전에서 context의 첫 번째 의미가 &#8216;문맥&#8217;이라는 걸 감안하면 수긍이 되는 이야기다. 이런 컨텍스트를 고려해서 랭킹을 하면 세션 내에서 검색을 계속함에 따라 조금씩 의도에 부합하는 문서에 다가가는 데 도움이 될 듯하다.</p>
<h3>3. 개인화(personalization)</h3>
<p>여기서 말하는 개인화란, 사용자별로 프로파일을 만들어두고, 사람에 따라 동일한 쿼리라도 다른 결과를 제공하는 것이다. 프로파일에는 이전 검색과 클릭 내역, 사용자가 알려준 관심사나 직업 등이 들어갈 수 있다. 구글 등에서 이미 시도하고 있는데, 역시 가장 큰 이슈는 프라이버시와 어떻게 조화시키느냐는 문제 같다. 내가 생각하는 두 번째 문제는 검색결과의 편향이다. &#8216;Weka&#8217;라고 검색했을 때 내가 기계학습에 관심이 있다고 해서 소프트웨어 Weka에 대한 문서만 나오기를 바라지는 않기 때문이다. 뉴질랜드에만 산다는, 날지 못하는 새 Weka에 대한 정보도 보여줘서 그동안 몰랐던 새로운 지식을 얻을 기회를 놓치지 않았으면 좋겠다. 그래서 나는 구글에 검색할 때면 항상 먼저 로그아웃부터 한다. (그런데.. 이런 나의 희망을 반영해서 다양성을 보장하는 것까지도 포괄할 수 있는 개인화라면? 그건 또 그것 나름대로 무섭겠다 ㄷㄷㄷ)</p>
<h3>4. 다양화(diversification)</h3>
<p>사용자/상황에 따른 맞춤형 검색에 연연하지 않고, 쿨하게 처음부터 최대다수의 최대만족을 위해 다양화된 검색 결과를 제공하겠다는 전략이다. 재미있게도 구글과 마이크로소프트에서 같은 주제로 각각 논문이 나왔다. 심지어 두 논문의 제목마저도 비슷하다.</p>
<ul>
<li><a href="http://portal.acm.org/citation.cfm?id=1498759.1498766&amp;coll=Portal&amp;dl=GUIDE&amp;CFID=97265251&amp;CFTOKEN=69202813" target="_blank">Diversifying Search Results</a>, WSDM 2009 (from Microsoft)</li>
<li><a href="http://portal.acm.org/citation.cfm?id=1772690.1772770&amp;coll=Portal&amp;dl=GUIDE&amp;CFID=97265251&amp;CFTOKEN=69202813" target="_blank">Diversifying Web Search Results</a>, WWW 2010 (from Google)</li>
</ul>
<p>내가 임의로 종류를 구분하기는 했지만, 상황이나 개인화를 어떻게 정의하느냐에 따라 2와 3의 경계가 모호할 수 있고, 또 상황에 따라 다른 검색어를 추천하는 식으로 1과 2를 결합할 수도 있다. 실제로 동일한 쿼리에 대해 맞춤형 검색결과를 제공하는 간단한 방법은 Query Reformulation, 다시 말해서 쿼리 변형이다. 개인적으로는 4번 방식에 관심이 많은데, 다양화가 한때의 연구 유행으로 그칠지 아니면 검색의 필수 요소로 자리 잡을지 앞으로 관심을 두고 지켜봐야 할 것 같다.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2137&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/11/url-blocking-during-a-search' rel='bookmark' title='나오지마: 검색 인터페이스 제안'>나오지마: 검색 인터페이스 제안</a></li>
<li><a href='http://www.4four.us/article/2009/10/the-next-ui-breakthrough-command-lines-donald-a-norman-3' rel='bookmark' title='The Next UI Breakthrough: Command lines &#8211; Donald A. Norman'>The Next UI Breakthrough: Command lines &#8211; Donald A. Norman</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/08/dealing-with-ambiguous-query/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</title>
		<link>http://www.4four.us/article/2010/08/sigir-2010-papers2</link>
		<comments>http://www.4four.us/article/2010/08/sigir-2010-papers2#comments</comments>
		<pubDate>Sun, 01 Aug 2010 15:03:34 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[context]]></category>
		<category><![CDATA[diversity]]></category>
		<category><![CDATA[graph]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[personalization]]></category>
		<category><![CDATA[query]]></category>
		<category><![CDATA[ranking]]></category>
		<category><![CDATA[sigir]]></category>
		<category><![CDATA[similarity]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2084</guid>
		<description><![CDATA[주말에 여차저차해서 시간이 남아도는 바람에 지난 글에 이어서 논문 몇 편을 더 소개한다. Context-Aware Ranking in Web Search 검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008' rel='bookmark' title='Behavioral Classification on the Click Graph &#8211; WWW 2008'>Behavioral Classification on the Click Graph &#8211; WWW 2008</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>주말에 여차저차해서 시간이 남아도는 바람에 <a href="http://www.4four.us/article/2010/07/sigir-2010-papers1" target="_blank">지난 글</a>에 이어서 논문 몇 편을 더 소개한다.</p>
<h3>Context-Aware Ranking in Web Search</h3>
<p>검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 분류하고 그에 맞게 랭킹을 변경하는 방식을 제안한다.<br />
1. Reformulation (&#8220;homes for rent in Atlanta” -&gt; &#8220;houses for rent in Atlanta”)<br />
2. Specialization (&#8220;time life music&#8221; -&gt; &#8220;time life Christian CDs&#8221;)<br />
3. Generalization (&#8220;free online Tetris game&#8221; -&gt; &#8220;Tetris game&#8221;)<br />
4. Association (&#8220;Xbox 360&#8243; -&gt; &#8220;FIFA 2010&#8243;)<br />
위의 경우를 보면 두 번째 쿼리가 들어왔을 때, 이전 쿼리와의 관계에 따라 사용자 의도를 알아채서 조금 더 똑똑한 랭킹을 할 수 있을 것도 같다. 하지만, 또 한편으로 이런 생각도 든다.<span id="more-2084"></span> 1) 이렇게 의미를 직관적으로 해석할 수 있는 경우가 얼마나 될까? 2) 구체적인 메커니즘을 모르는 사용자에게는 똑같은 쿼리인데도 검색결과가 자꾸 바뀌거나 하면 오히려 혼란스럽지 않을까?</p>
<h3>The Demographics of Web Search</h3>
<p>&#8220;wagner&#8221;라는 단어를 검색했을 때 여자들은 주로 클래식 음악 작곡가를, 남자들은 분무기 솔(spray brush) 제조사를 클릭한다는 사례로 시작하는 도입부가 흥미로웠다. 다의어의 예로 만날 &#8220;jaguar&#8221;나 &#8220;java&#8221;만 보다가 새로운 예를 만나니 신선하기도 했고. Demography는 인구통계학을 의미한다. 이 논문은 Yahoo!에서 로그인한 사용자의 검색 로그를 분석해서, 나이, 성별, 인증, 학력 등에 따른 검색 사용 행태 차이를 연구한 내용을 담고 있다.<br />
쉽게 상상할 수 있듯이, 위에서 언급한 특성으로 분류된 그룹마다 자주 검색하는 단어가 다르다. 또, 학력에 따라 쿼리 길이가 다르다거나, 특정 나이대의 사용자들이 특정한 종류의 쿼리에 대해서 클릭 엔트로피(Click Entropy)가 튄다는 등의 결과도 들려준다.<br />
사용자 한 명 한 명에 맞추는 것이 아니라 특성에 따라 그룹을 짓는 점이 다르다면서 개인화(personalization)와 구분하지만, 넓게 보면 비슷하지 않나 싶다. 문서 내용을 통해 저자의 특성을 추출하려는 <a href="http://www.4four.us/article/2009/03/automatically-profiling-the-author-of-an-anonymous-text-2" target="_blank">Author Profiling</a>도 떠올랐다.</p>
<h3>Query Similarity by Projecting the Query-Flow Graph</h3>
<p>클릭 그래프(Click Graph)는 쿼리와 클릭한 문서의 관계를 표현하는 그래프다. 이 논문에서 사용하는 쿼리플로우 그래프(Query-flow Graph)는 어떤 특정한 목적을 달성하기 위해서 입력한 쿼리들이 서로 연결되는 그래프이다. 가령, 영화 인셉션에 대한 반응이 궁금해서 &#8220;인셉션 별점&#8221;, &#8220;인셉션 평가&#8221;라고 검색했다면 이 쿼리들이 서로 두텁게 연결된 그래프가 만들어진다.<br />
이 논문의 핵심은 이 그래프에 Graph-projection method를 적용해서 쿼리들을 클러스터링하고, 쿼리 간 유사도를 계산했다는 것이다. 이게 잘 되면 검색어 자동완성이나 관련검색어를 만드는 데 적용할 수 있다. 특히, 여기서는 주어진 쿼리에 대해서 다양한 관련 검색어를 추천하는 데 활용하는 얘기를 해서 관심이 갔다. 검색의 중요성이 커지는 만큼 다양성을 보장하는 데 대한 이야기도 처음 지적된 이후 꾸준하게 나오는 것 같다.</p>
<p>마지막으로, 이번 프로시딩을 훑으면서 새삼 깨달은 사실. 검색 연구에서 Yahoo!와 Microsoft가 차지하는 비중이 장난 아니구나.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2084&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008' rel='bookmark' title='Behavioral Classification on the Click Graph &#8211; WWW 2008'>Behavioral Classification on the Click Graph &#8211; WWW 2008</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/08/sigir-2010-papers2/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</title>
		<link>http://www.4four.us/article/2010/07/sigir-2010-papers1</link>
		<comments>http://www.4four.us/article/2010/07/sigir-2010-papers1#comments</comments>
		<pubDate>Fri, 23 Jul 2010 00:03:11 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[active-learning]]></category>
		<category><![CDATA[bias]]></category>
		<category><![CDATA[click]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[learning-to-rank]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[ranking]]></category>
		<category><![CDATA[recency]]></category>
		<category><![CDATA[sigir]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2000</guid>
		<description><![CDATA[7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다. Freshness Matters: In Flowers, Food, and Web Authority 얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft size-full wp-image-3227" title="sigir2010" src="http://www.4four.us/wordpress/wp-content/uploads/2010/07/sigir2010.jpg" alt="" width="64" />7월 19일에서 23일까지 스위스 제네바에서 <a href="http://www.sigir2010.org/doku.php" target="_blank">SIGIR 2010</a>이 열리고 있다. <a href="http://portal.acm.org/toc.cfm?id=1835449&amp;idx=SERIES278&amp;type=proceeding&amp;coll=portal&amp;dl=ACM&amp;part=series&amp;WantType=Proceedings&amp;title=SIGIR&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">ACM 디지털 라이브러리</a>에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.</p>
<h3>Freshness Matters: In Flowers, Food, and Web Authority</h3>
<p>얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다.<span id="more-2000"></span></p>
<h3>Incorporating Post-Click Behaviors Into a Click Model</h3>
<p>검색어를 날린 뒤 사용자가 결과 문서를 클릭하는 행위를 잘 모델링해서 각 문서의 쿼리적합성(relevancy)를 측정하려는 연구는 이미 많았다.<sup><a href="http://www.4four.us/article/2010/07/sigir-2010-papers1#footnote_0_2000" id="identifier_0_2000" class="footnote-link footnote-identifier-link" title="단순히 많이 클릭되었다고 그 문서가 좋다는 뜻은 아니므로 Relevancy와 Preference를 구분하기도 한다.">1</a></sup> 하지만, 저자들은 기존 모델에서는 문서의 순위 편견<sup><a href="http://www.4four.us/article/2010/07/sigir-2010-papers1#footnote_1_2000" id="identifier_1_2000" class="footnote-link footnote-identifier-link" title="position bias를 우리말로 뭐라고 하면 좋단 말인가.">2</a></sup> 문제는 어느 정도 해결할 수 있었지만, 정작 사용자가 문서를 클릭한 후의 행위는 고려하지 않았다고 지적한다. 다시 말해서, 어떤 문서는 클릭한 지 3초만에 닫아버렸고 다른 문서는 1분 넘게 보고 있었다면 아마도 후자가 더 좋지 않겠냐는 얘기다. 문서의 체류시간(dwelling time) 외에도, 문서 클릭 후에 또 다른 문서를 클릭했는가, 새로운 쿼리로 바꿔서 검색하기까지 시간이 얼마나 걸렸나 같은 것들이 쓸 만한 요소로 제시되었다. 클릭 후 행위까지 고려하는 클릭 모델이라고 해서 Post-Clicked Click Model, 줄여서 PCC 모델이라는 이름이 붙었다.</p>
<h3>Query Term Ranking based on Dependency Parsing of Verbose Queries</h3>
<p>흔히 &#8216;검색&#8217;하면 떠오르는 키워드 질의어가 아니라 문장 수준의 복잡한 쿼리에 효과적으로 대처하는 방법을 제시한다. Dependency Parsing Tree라는 걸 써서 질의문에서 문법적으로 중요한 단어를 찾아내는 것이다. 내 생각에 사람들이 검색 엔진에 키워드를 입력하는 패턴이 쉽게 바뀔 것 같지는 않고, <a href="http://www.4four.us/article/2009/10/ambient-search/" target="_blank">전에도 쓴 적</a>이 있지만 메신저나 트위터에서 사람들이 적는 말을 엿듣고 있다가 기회가 왔을 때 &#8216;혹시 이거 찾는 거에요?&#8217; 하면서 검색 결과를 내놓으면 사용자에게 감동을 줄 수 있지 않을까?</p>
<h3>Mining the Blogosphere for Top News Stories Identification</h3>
<p>TSIT(Top Stories Identification Task)는 말 그대로 중요 뉴스를 찾는 작업을 가리킨다. 사람들이 뉴스 같은 걸 찾을 때 블로그 검색을 많이 하고 또 각종 화제에 대한 생각들을 블로그에 많이 올리니까 하루 동안 블로그에 출판된 글을 이용해서 그날의 주요 뉴스를 자동으로 찾아보자는 게 이 논문의 주제다. Language Model을 써서 그날 출판된 블로그 글로부터 뉴스 헤드라인이 나올 확률을 계산하는 방식이라고 한다. 포스터를 제외한 논문 중에는 유일하게 한국 학교에서 나온 것이라 반가운 마음으로 접했다.</p>
<h3>Active Learning for Ranking Through Expected Loss Optimization</h3>
<p>개인적으로 관심이 있고 공부는 하지 않던 active learning을 랭킹학습(learning-to-rank)에 활용한 연구로, Yahoo! Labs에서 나왔다. 저자들은 active learning을 랭킹에 적용할 때 맞닥뜨리는 문제로 두 가지를 언급한다. 우선 그동안의 active learning은 주로 분류(classification) 문제에 쓰였는데, 랭킹은 성격이 다르다는 점이다. SVM 같은 maximum margin classifier의 경우에는 어떤 샘플이 informative한지 대략 감이 잡힐 듯도 한데 랭킹에서는 그게 모호할 수 있다. 두 번째는 데이터 샘플이 독립이 아니라는 건데, 이게 무슨 말일까? 문서를 분류한다고 했을 때, 한 번 문서 A가 B 타입에 속한다고 했으면 끝까지 B 타입이다. 그런데 랭킹에서는 문서 A가 B보다 좋을 수도 있고 아닐 수도 있다. 쿼리가 P일 때는 A가 더 좋았더라도 쿼리가 Q로 바뀌면 B가 더 좋아질 수도 있기 때문이다. 이런 두 가지 문제를 해결하기 위해 expected loss optimization에 기반을 둔 active learning framework를 만들었다고 하는데, 그게 뭔지 모르겠다. (공부를 안 하는데 알 턱이 있나. 퍽)</p>
<p>이외에도 점찍어둔 논문이 몇 개 더 있는데, 읽어보니까 예상했던 내용이 아닌 것도 있고 시간이 없어서 못 읽은 것도 있다. 기회가 되면 다음 기회에.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<ol class="footnotes"><li id="footnote_0_2000" class="footnote">단순히 많이 클릭되었다고 그 문서가 좋다는 뜻은 아니므로 Relevancy와 Preference를 구분하기도 한다.</li><li id="footnote_1_2000" class="footnote">position bias를 우리말로 뭐라고 하면 좋단 말인가.</li></ol><img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2000&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/07/sigir-2010-papers1/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Time-Based Language Models &#8211; CIKM 2003</title>
		<link>http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003</link>
		<comments>http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003#comments</comments>
		<pubDate>Thu, 24 Jun 2010 00:34:18 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[language-model]]></category>
		<category><![CDATA[query]]></category>
		<category><![CDATA[query-expansion]]></category>
		<category><![CDATA[ranking]]></category>
		<category><![CDATA[recency]]></category>
		<category><![CDATA[sigir]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1951</guid>
		<description><![CDATA[2003년 CIKM(Conference on Information and Knowledge Management)에 나온 Time-Based Language Models라는 논문을 보면, Language Model에 기반한 기존의 검색 랭킹 연구를 소개하고, 거기에 시간이라는 요소를 추가한 새로운 모델을 설명하고 있다. 우선 기본적인 방식은 Query Likelihood Model이다. 1999년 CIKM에 나온 A General Language Model for Information Retrieval에 따르면, 글의 내용에 따라 그 문서의 모델 Md를 만들고, 그 모델로부터 쿼리 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/09/commonsense-based-interfaces' rel='bookmark' title='Commonsense-based Interfaces &#8211; Marvin Minsky'>Commonsense-based Interfaces &#8211; Marvin Minsky</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><!-- WSA: rules for context 'example-post-bottom' did not apply -->2003년 <a href="http://portal.acm.org/browse_dl.cfm?linked=1&amp;part=series&amp;idx=SERIES772&amp;coll=portal&amp;dl=ACM&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">CIKM</a>(Conference on Information and Knowledge Management)에 나온 <a href="http://portal.acm.org/citation.cfm?id=956863.956951" target="_blank">Time-Based Language Models</a>라는 논문을 보면, Language Model에 기반한 기존의 검색 랭킹 연구를 소개하고, 거기에 시간이라는 요소를 추가한 새로운 모델을 설명하고 있다.</p>
<p>우선 기본적인 방식은 Query Likelihood Model이다. 1999년 CIKM에 나온 <a href="http://portal.acm.org/citation.cfm?id=319950.320022&amp;coll=portal&amp;dl=ACM&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">A General Language Model for Information Retrieval</a>에 따르면, 글의 내용에 따라 그 문서의 모델 Md를 만들고, 그 모델로부터 쿼리 Q가 생성될 확률을 계산한다.</p>
<p><img class="aligncenter size-full wp-image-1965" title="33" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/33.png" alt="" width="216" height="49" /></p>
<p>2년 후 SIGIR에 등장한 <a href="http://portal.acm.org/citation.cfm?id=383952.383972&amp;coll=portal&amp;dl=ACM&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">Relevance-based Language Models</a>에서는 여기에 새로운 아이디어를 덧붙였다. 적합성 피드백(Relevance Feedback)에 기초해 쿼리확장(Query Expansion)을 해보자는 것인데, 자세히 살펴보자.<span id="more-1951"></span></p>
<p>검색 의도에 부합하는(relevant) 문서의 집합 R이라는 게 있다고 치자. 그리고 R에 속하는 문서에 (원래 검색어에는 없었던) 새로운 단어 w가 들어 있을 확률을 P(w|R)이라고 하자. 그러면, P(w|R)은 &#8220;사용자가 쿼리 Q ={q1, q2, &#8230;,qn}를 날렸을 때, Q에 w가 포함되어야 할 확률&#8221;이라고도 생각할 수 있다. 즉, P(w|R)과 P(w|Q)는 같다고 봐도 무방하다.</p>
<p><img class="aligncenter size-full wp-image-1966" title="34" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/34.png" alt="" width="344" height="68" /></p>
<p>단어 w와 질의어 q1, q2, &#8230;, qn이 서로 독립이고, w도 다른 쿼리와 동일하게 샘플링된다고 가정하면,</p>
<p><img class="aligncenter size-full wp-image-1967" title="35" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/35.png" alt="" width="301" height="57" /></p>
<p>이제 우리는 P(w|R)을 구할 수 있게 되었다. 그래서 어떡하냐고? 어떡하긴, 문서와 R이 얼마나 유사한지 계산해서 많이 비슷할수록 문서에 높은 랭킹 점수를 주면 되지.</p>
<p>이럴 때 쓸 만한 방법이 <a href="http://en.wikipedia.org/wiki/KL_divergence" target="_blank">KL divergence</a>다. 두 분포 사이의 거리가 얼마나 되는지에 대한 척도로서, 값이 작을수록 두 분포는 서로 비슷다는 의미다. 따라서 아래와 같이 계산하는 KL(R || Md)가 작을수록 문서 d가 더 사용자의 검색 의도에 부합한다고 판단, 순위를 높여준다.</p>
<p><img class="aligncenter size-full wp-image-1968" title="36" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/36.png" alt="" width="296" height="63" /></p>
<p>질의어와 자주 같이 등장하는 새로운 단어가 검색 랭킹에 반영되므로 결국 쿼리확장인 셈이다.</p>
<p>쿼리와 문서의 직접적인 관계만 따지는 Query Likelihood Model에 비해 두 번째 방식은 Relevancy를 고려해서 쿼리확장을 하기 때문에 Relevance Model이라고 부른다.<sup><a href="http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003#footnote_0_1951" id="identifier_0_1951" class="footnote-link footnote-identifier-link" title="원본 논문을 안 읽어서 추측으로 쓴 부분이 조금 있다. 흥미가 동한다면 링크한 논문을 읽어보자.">1</a></sup></p>
<p>자, 그럼 이 두 모델에 시간이라는 요소를 어떻게 결합할 수 있을까?<br />
여기까지 왔으면 간단하다. 위의 수식에서 P(d)와 P(M)을 각각 P(d|Td)와 P(M|TD)로 갈아끼우면 된다. 다시 말하면, 이전의 모델에서는 시간에 상관없이 문서의 확률 P(d)<sup><a href="http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003#footnote_1_1951" id="identifier_1_1951" class="footnote-link footnote-identifier-link" title="P(d)의 의미는 해석하기 나름이다. 문서 d의 인기도라고 해도 좋고, 문서품질이라고 봐도 좋고, 그냥 다 똑같다고 가정해도 된다.">2</a></sup>가 동일하다고 가정했는데, 이제는 문서 d가 생성된 시각 Td에 따라 각기 다른 값을 부여하는 것이다.</p>
<p>그러면 P(d|Td)를 어떻게 구할지가 중요하겠군?<br />
그렇지! 그런데 사실 그게 간단하지만은 않다. <a href="http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries/" target="_blank">이전글</a>에서도 얘기했지만, 시의성이 중요하다는 것이 무조건 최신 문서를 보여줘야 한다는 뜻은 아니기 때문이다. 저자들 역시 그것을 모르지는 않지만, 이 연구에서는 어쨌거나 최신성이 중요한 질의어에 집중했다고 밝혔다. 논문에서는 그런 것들을 특별히 최신성 쿼리(recency query)라고 부른다. 문제를 이렇게 한정하면 P(d|Td)를 구하는 게 한결 수월해진다. 문서의 나이가 많을수록 P(d|Td)가 작아지도록 하면 되니까. 저자들은 아래와 같이 Exponential Distribution으로 모델링하는 방법을 썼다.</p>
<p style="text-align:center;"><img class="aligncenter size-full wp-image-1969" title="Time Prior Modeling" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/time_prior.png" alt="" width="326" height="234" /></p>
<p>논문의 Time-based Language Model 설명 중 특히 인상적인 건, 시간이 흐르면서 달라지는 사용자 모델을 반영해 쿼리를 다르게 해석하는 것이라며 그 의미를 친절하게 설명해주는 부분이었다. 더 쉽게 풀어쓰면, 똑같은 검색어가 입력되어도 검색 시점에 따라 최신 문서가 달라지기 때문에 자연스럽게 이슈에 맞게 쿼리확장이 이루어지고, 결과적으로 최근 문서가 검색되어 나온다는 얘기다.</p>
<p>Language Model이라는 프레임워크에 Relevancy, 그리고 Recency라는 요소를 녹여넣는 과정이 이론적으로 무척 깔끔하다는 생각이 들었다.  그러니 성능도 어련히 알아서 잘 나왔겠지 싶어서 평가 결과는 읽어보지 않았다.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<ol class="footnotes"><li id="footnote_0_1951" class="footnote">원본 논문을 안 읽어서 추측으로 쓴 부분이 조금 있다. 흥미가 동한다면 링크한 논문을 읽어보자.</li><li id="footnote_1_1951" class="footnote">P(d)의 의미는 해석하기 나름이다. 문서 d의 인기도라고 해도 좋고, 문서품질이라고 봐도 좋고, 그냥 다 똑같다고 가정해도 된다.</li></ol><img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1951&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/09/commonsense-based-interfaces' rel='bookmark' title='Commonsense-based Interfaces &#8211; Marvin Minsky'>Commonsense-based Interfaces &#8211; Marvin Minsky</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>시간성이 중요한 쿼리를 어떻게 찾을까?</title>
		<link>http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries</link>
		<comments>http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries#comments</comments>
		<pubDate>Sat, 19 Jun 2010 01:58:28 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[query]]></category>
		<category><![CDATA[recency]]></category>
		<category><![CDATA[sigir]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1919</guid>
		<description><![CDATA[검색에 있어 문서 품질의 중요성을 얘기한 적이 있는데, 그외에 또 중요한 요소가 바로 시간성이다. 문서의 다른 조건이 동일하다면, 언제 쓰여진 글을 보여줄 것인가? 우리말로는 시간성, 시의성, 최신성 등으로 다양하게 부르고, 영어에서도 recency, temporal, time-sensitive 등으로 표현한다. 문서 최신성을 추구하는 노력의 극단에 실시간 검색이 있다. 직접 경험하기 전까지만 해도 실시간 검색의 필요성에는 다소 회의적이었는데, 실제로 써보니까 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003' rel='bookmark' title='Time-Based Language Models &#8211; CIKM 2003'>Time-Based Language Models &#8211; CIKM 2003</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>검색에 있어 <a href="http://www.4four.us/article/2010/03/document-quality-measurement/" target="_blank">문서 품질의 중요성을 얘기</a>한 적이 있는데, 그외에 또 중요한 요소가 바로 시간성이다. 문서의 다른 조건이 동일하다면, 언제 쓰여진 글을 보여줄 것인가? 우리말로는 시간성, 시의성, 최신성 등으로 다양하게 부르고, 영어에서도 recency, temporal, time-sensitive 등으로 표현한다.</p>
<p>문서 최신성을 추구하는 노력의 극단에 실시간 검색이 있다. 직접 경험하기 전까지만 해도 실시간 검색의 필요성에는 다소 회의적이었는데, 실제로 써보니까 중계(운동경기, 선거개표현황)나 즉각적인 반응(백분토론, 맥북프로신제품)에 대한 검색 요구에는 유용한 도구 같다. 입장을 철회해야겠다.</p>
<p>그렇지만, 사람들이 검색하는 모든 질의어에서 최신성이 중요한 것은 아니다. 어떨 때 사람들이 (상대적으로) 최근의 소식, 따끈따끈한 정보를 원하는지 먼저 알아내야 한다.<span id="more-1919"></span></p>
<p>2009년 야후!의 <a href="http://research.yahoo.com/pub/2827" target="_blank">Improving Search Relevance for Implicitly Temporal Queries</a>라는 두 장짜리 논문을 보면, 사람들이 날리는 쿼리로그에서 패턴을 집어내려고 시도한다. 연도(year)랑 같이 입력되는 키워드(ex. “2010 월드컵”)는 최신성이 중요하다고 판단, 검색 결과를 만들 때 문서가 작성된 시기를 더 중요하게 반영하자는 것이다. 다른 단어보다는 연도와 많이 결합될수록, 또 다양한 연도와 결합될수록 그 키워드의 검색에서 문서의 나이는 더 중요하다고 볼 수 있다.</p>
<p>그런데 또 한편으로는 무조건 최근글에 가중치를 주는 게 맞나 하는 의문이 생긴다. 2008년에 콜럼비아 대학교와 뉴욕대학교에도 그런 생각을 한 사람들이 있었다. 그들은 <a href="http://pages.stern.nyu.edu/~panos/publications/cikm2008.pdf" target="_blank">Answering General Time-Sensitive Queries</a>라는 무척 멋진 제목의 (역시 두 장짜리)  논문에서, 특정 주제의 문서가 쏟아져나온 시기를 자동으로 찾고, 그때 작성된 문서에 높은 가중치를 주는 검색 방법을 제안하였다. 아래는 논문에 삽입된 그림인데, 이슈가 발생해서 특정 단어를 포함한 문서가 많이 생산되는 시기가 있음을 보여준다.</p>
<p style="text-align: center;"><img class="size-full wp-image-1926" title="Temporal Queries" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/temporal_query.png" alt="" width="301" height="108" /></p>
<p><center>이럴 땐 언제 작성된 문서를 보여주는 게 최선일까?</center></p>
<p>올해 2월에 열린 <a href="http://www.wsdm-conference.org/2010/" target="_blank">WSDM</a>(Web Search and Data Mining, 위즈덤(wisdom)이라고 읽는다고 한다)에서는 <a href="http://www.wsdm-conference.org/2010/proceedings/docs/p11.pdf" target="_blank">Towards Recency Ranking in Web Search</a>라는 논문이 발표되었고, 7월에 있을 SIGIR 2010 컨퍼런스에도 이 주제와 관련된 논문들이 보인다.(<a href="http://members.unine.ch/jacques.savoy/Events/SIGIR.html" target="_blank">프로그램 참조</a>) 과연 어떤 새로운 아이디어를 선보일지 기대된다.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1919&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003' rel='bookmark' title='Time-Based Language Models &#8211; CIKM 2003'>Time-Based Language Models &#8211; CIKM 2003</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>문서의 품질을 자동으로 측정할 수 있을까?</title>
		<link>http://www.4four.us/article/2010/03/document-quality-measurement</link>
		<comments>http://www.4four.us/article/2010/03/document-quality-measurement#comments</comments>
		<pubDate>Thu, 04 Mar 2010 23:48:45 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[classification]]></category>
		<category><![CDATA[document]]></category>
		<category><![CDATA[document-quality]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[machine-learning]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1739</guid>
		<description><![CDATA[검색을 할 때 질의어(query)와 문서 사이의 관련성(relevancy) 못지않게 중요한 것이 문서의 절대적인 품질(static quality)입니다. &#8220;흥부와 놀부&#8221;로 검색했는데, &#8220;흥부와 놀부는 흥부와 놀부는 흥부와 놀부는&#8230;&#8221; 이런 문서가 나온다고 생각해보세요. 어떤 기분이 들까요? 사람이 쓴 글의 품질을 자동으로 평가하는 일이 그리 쉬워 보이지는 않습니다. 이럴 때는 거인의 어깨에 올라서 봐야죠. 논문을 뒤져보니 위키피디아에 올라온 글을 대상으로 품질을 평가하려는 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries' rel='bookmark' title='시간성이 중요한 쿼리를 어떻게 찾을까?'>시간성이 중요한 쿼리를 어떻게 찾을까?</a></li>
<li><a href='http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply' rel='bookmark' title='LDA(Latent Dirichlet Allocation): 겉핥기'>LDA(Latent Dirichlet Allocation): 겉핥기</a></li>
<li><a href='http://www.4four.us/article/2011/12/measuring-influence' rel='bookmark' title='영향력을 측정하는 방법'>영향력을 측정하는 방법</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>검색을 할 때 질의어(query)와 문서 사이의 관련성(relevancy) 못지않게 중요한 것이 문서의 절대적인 품질(static quality)입니다. &#8220;흥부와 놀부&#8221;로 검색했는데, &#8220;흥부와 놀부는 흥부와 놀부는 흥부와 놀부는&#8230;&#8221; 이런 문서가 나온다고 생각해보세요. 어떤 기분이 들까요?</p>
<p>사람이 쓴 글의 품질을 자동으로 평가하는 일이 그리 쉬워 보이지는 않습니다. 이럴 때는 거인의 어깨에 올라서 봐야죠. 논문을 뒤져보니 위키피디아에 올라온 글을 대상으로 품질을 평가하려는 연구들이 좀 보입니다. <span id="more-1739"></span>위키피디아는 잘 알려진 것처럼 현재까지 가장 성공적인 위키이며, 모든 글에 대해서 누가 어떻게 편집했는지 기록이 남아 있습니다. 2007년에 출판된 <a href="http://portal.acm.org/citation.cfm?id=1316926" target="_blank">On Improving Wikipedia Search using Article Quality</a>를 보면, 각 글을 완성하는 데 기여한 사람(contributor, 내용을 작성한 사람과 리뷰한 사람 모두 포함)의 권위를 통해서 글의 품질을 측정하려고 합니다. 높은 품질의 글에 기여할수록 그 사람의 권위 또한 높아지는 순환구조의 <a href="http://en.wikipedia.org/wiki/HITS_algorithm" target="_blank">HITS 알고리즘</a>입니다.</p>
<p><a href="http://search.daum.net/search?nil_suggest=btn&amp;nil_ch=&amp;rtupcoll=&amp;w=tot&amp;m=&amp;f=&amp;lpp=&amp;q=Assessing+Information+Quality+of+a+Community-based+Encyclopedia&amp;search=%B0%CB%BB%F6" target="_blank">Assessing Information Quality of a Community-based Encyclopedia</a> (2005년) 논문에서는 아래와 같은 문서 특징을 분석해서 자동으로 품질 높은 문서를 찾으려고 시도합니다. 위키피디아의 Featured Article을 품질 높은 문서로 보고 기계학습 기법을 써서 이런 글을 분류해 내겠다는 거죠.</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-1747" title="Wikipedia Article Feature" src="http://www.4four.us/wordpress/wp-content/uploads/2010/03/feature1.png" alt="" width="431" height="123" /></p>
<p><img class="alignright size-medium wp-image-1742" title="Featured Article Length" src="http://www.4four.us/wordpress/wp-content/uploads/2010/03/length-300x158.png" alt="" width="300" height="158" />이런 복잡한 모델 말고 그냥 <del>글이 길면 장땡</del> 글의 길이와 품질 사이의 높은 상관관계를 얘기하는 <a href="http://www2008.org/papers/pdf/p1095-jblumenstock.pdf" target="_blank">Size Matters: Word Count as a Measure of Quality on Wikipedia</a> (2008년) 이런 논문도 보이네요. (오른쪽 그림 참조) 하지만, 이건 누가 마음먹고 본문을 수십 번 복사-붙여넣기하면 바로 무력해지는 방식이기 때문에 실제로 쓰기에는 무리가 많습니다. 앞서 얘기한 위키피디아 품질 연구도 위키피디아니까 가능한 얘기지 보통 웹문서에까지 적용할 수는 없습니다.</p>
<p>사람들이 웹에 올린 글의 &#8220;품질&#8221;을 평가하는 일은 어렵기도 하거니와 또한 무척 조심스러운 일입니다. 논리적이거나 무게 잡는 글은 품질이 좋고, 개인의 일상이나 감정을 적은 글은 품질이 낮은 걸까요? 그건 아닐 겁니다. 연구자 중에도 눈을 돌려서 품질 측정이 아니라 글의 성격에 따른 분류라는 관점으로 접근한 사람들이 있습니다. WWW에 2007년 발표된 <a href="http://portal.acm.org/citation.cfm?id=1242611" target="_blank">Exploring in the Weblog Space by Detecting Informative and Affective Articles</a>가 바로 그건데요, 여기서는 블로그 글을 다음과 같이 두 종류로 구분합니다.</p>
<ul>
<li>감정적(affective): 개인의 일상이나 감정을 공유하는 일기성 글</li>
<li>정보성(informative): 저자의 취미나 전공, 비즈니스 같은 특정 주제에 대해 정보를 제공하는 글</li>
</ul>
<p>물론 경계가 모호한 성격의 글도 있겠지만 그건 분류 작업을 할 때 피할 수 없는 문제이고요, Affective-Informative는 꽤 의미있는 구분인 것 같습니다. 저자들도 검색이나 오피니언 마이닝(Opinion Mining 또는 <a href="http://www.4four.us/article/2009/05/our-sentiments-exactly/" target="_blank">Sentimental Analysis</a>)을 할 때 전처리 과정으로 유용하게 쓸 수 있을 것이라 얘기하네요. 한 가지 궁금한 것은 문서를 분류할 때 어떤 문서 특징(document feature)을 썼을까였는데, 그냥 키워드(term)만 추출해서 기계학습 알고리즘을 돌렸다고 합니다. 그것만으로도 의미있는 결과가 나왔다고 하네요. 참고로 중국어 블로그 대상입니다.</p>
<p>휴&#8230; 글의 품질 측정에서 시작했지만 결국 다시 문서의 분류 문제로 돌아오고 말았습니다. 그래도 앞서간 사람들의 발자취를 더듬어보는 것은 역시 재미있고 보람있네요.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1739&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries' rel='bookmark' title='시간성이 중요한 쿼리를 어떻게 찾을까?'>시간성이 중요한 쿼리를 어떻게 찾을까?</a></li>
<li><a href='http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply' rel='bookmark' title='LDA(Latent Dirichlet Allocation): 겉핥기'>LDA(Latent Dirichlet Allocation): 겉핥기</a></li>
<li><a href='http://www.4four.us/article/2011/12/measuring-influence' rel='bookmark' title='영향력을 측정하는 방법'>영향력을 측정하는 방법</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/03/document-quality-measurement/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>햇빛과 버스운전기사, 그리고 선글라스</title>
		<link>http://www.4four.us/article/2010/02/diversity-in-search-result</link>
		<comments>http://www.4four.us/article/2010/02/diversity-in-search-result#comments</comments>
		<pubDate>Sat, 13 Feb 2010 15:02:55 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[thought]]></category>
		<category><![CDATA[diversity]]></category>
		<category><![CDATA[information-retrieval]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1629</guid>
		<description><![CDATA[지난 주말에 한가로이 누워서 텔레비젼을 보고 있었습니다. 스타골든벨이라는 프로그램에서 무척 재미난 게임을 하더군요. 어떤 단어가 주어졌을 때 두 사람(갑, 을)이 그와 연관된 단어로 힌트를 줍니다. 그러면 세 번째 사람(병)이 그걸 듣고 원래 단어가 뭐였는지를 맞추는 겁니다. 프로그램에서 한 문제가 나오자 갑이 먼저 &#8216;햇빛&#8217;이라고 힌트를 줍니다. 을이 잠시 고민하다가 꺼낸 단어는 &#8216;고속버스운전기사&#8217;였습니다. 그제서야 출연자는 미소를 지으며 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/dealing-with-ambiguous-query' rel='bookmark' title='모질대세: 모호한 질의어에 대처하는 검색엔진의 자세'>모질대세: 모호한 질의어에 대처하는 검색엔진의 자세</a></li>
<li><a href='http://www.4four.us/article/2009/10/the-next-ui-breakthrough-command-lines-donald-a-norman-3' rel='bookmark' title='The Next UI Breakthrough: Command lines &#8211; Donald A. Norman'>The Next UI Breakthrough: Command lines &#8211; Donald A. Norman</a></li>
<li><a href='http://www.4four.us/article/2009/10/what-is-learning-to-rank' rel='bookmark' title='Learning to Rank: 개념만 간단히'>Learning to Rank: 개념만 간단히</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>지난 주말에 한가로이 누워서 텔레비젼을 보고 있었습니다. 스타골든벨이라는 프로그램에서 무척 재미난 게임을 하더군요. 어떤 단어가 주어졌을 때 두 사람(갑, 을)이 그와 연관된 단어로 힌트를 줍니다. 그러면 세 번째 사람(병)이 그걸 듣고 원래 단어가 뭐였는지를 맞추는 겁니다. 프로그램에서 한 문제가 나오자 갑이 먼저 &#8216;햇빛&#8217;이라고 힌트를 줍니다. 을이 잠시 고민하다가 꺼낸 단어는 &#8216;고속버스운전기사&#8217;였습니다. 그제서야 출연자는 미소를 지으며 답을 외칩니다. 선글라스!<span id="more-1629"></span></p>
<p>무척 간단해 보이지만 조금 생각해볼 거리가 있는 게임입니다. &#8216;선글라스&#8217;가 문제로 나왔을 때 힌트로 쓸 만한 단어는 무척 많습니다. 하지만, &#8216;이거 하나면 완벽해&#8217;라고 할 만한 정답 단어는 없죠. 그때 그 아이(갑)가 고른 단어는 &#8216;햇빛&#8217;이었습니다. 그럼 두 번째 힌트는 무엇이 되어야 할까요? &#8216;눈부심&#8217; 같은 건 별로 좋은 힌트가 아닐 겁니다. &#8216;햇빛&#8217;과 의미적으로 겹치니까요. 반면에 &#8216;안경&#8217;이나 &#8216;버스운전기사&#8217;는 이전 단어와 의미가 중복되지 않으면서도 &#8216;선글라스&#8217;의 다른 특징을 잘 보여주는 단어입니다.</p>
<p>간단한 얘기죠? 그런데 이 게임의 법칙은 검색 결과 랭킹에도 시사하는 바가 있습니다. 사용자가 찾고 싶은 또는 알고 싶어 하는 무언가(information need)를 &#8216;선글라스&#8217;라고 생각해 봅시다. 그러면 검색엔진의 첫 번째 답은 가장 관련이 높은 문서, 이 문제의 경우라면 &#8216;햇빛&#8217;이 되어야 할 겁니다. 그럼 두 번째 답은요? &#8216;햇빛&#8217;을 제외하고 가장 관련이 높은 단어인 &#8216;눈부심&#8217;이면 될까요? 그러면 사용자가 만족할까요? 혹시 &#8216;안경&#8217;이나 &#8216;버스운전기사&#8217;가 필요한 것은 아닐까요?</p>
<p>사람들이 일반적으로 검색엔진에 입력하는 질의어(query)는 무척 짧다고 알려져 있습니다. 그래서 검색 키워드만 보고는 그가 무엇을 찾고 있는지 정확하게 추측하기가 어렵습니다. 또, <a href="http://search.daum.net/search?w=blog&amp;q=persona&amp;enc=utf8&amp;nil_search=btn" target="_blank">Persona같은 동음이의어</a> 문제도 있고요.</p>
<p>이렇듯 검색 결과에 다양성이 고려되어야 하는 이유는 충분히 있습니다. 찾아 보니 최근에 나온 것 중에는 <a href="http://portal.acm.org/citation.cfm?id=1498766" target="_blank">이런 논문</a>이 있군요. WSDM이라는 웹검색 관련 학회에 2009년에 나온 것입니다. 아직 읽어보지는 않았지만 제목이 참 간결하니 예쁘네요.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1629&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/dealing-with-ambiguous-query' rel='bookmark' title='모질대세: 모호한 질의어에 대처하는 검색엔진의 자세'>모질대세: 모호한 질의어에 대처하는 검색엔진의 자세</a></li>
<li><a href='http://www.4four.us/article/2009/10/the-next-ui-breakthrough-command-lines-donald-a-norman-3' rel='bookmark' title='The Next UI Breakthrough: Command lines &#8211; Donald A. Norman'>The Next UI Breakthrough: Command lines &#8211; Donald A. Norman</a></li>
<li><a href='http://www.4four.us/article/2009/10/what-is-learning-to-rank' rel='bookmark' title='Learning to Rank: 개념만 간단히'>Learning to Rank: 개념만 간단히</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/02/diversity-in-search-result/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Behavioral Classification on the Click Graph &#8211; WWW 2008</title>
		<link>http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008</link>
		<comments>http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008#comments</comments>
		<pubDate>Tue, 08 Dec 2009 13:53:04 +0000</pubDate>
		<dc:creator>seunglee</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[click]]></category>
		<category><![CDATA[click-graph]]></category>
		<category><![CDATA[graph]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[random-walk]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1277</guid>
		<description><![CDATA[Prologue: 지난번에 소개한 Random Walks on the Click Graph의 저자들이 쓴 다른 논문입니다. International World Wide Web Conference, 줄여서 WWW라고 하는 컨퍼런스에 포스터로 나온 건데요(2008년), 구체적인 기술 내용까지 모두 이해하려면 이것 외에 이 논문도 읽어봐야 할 것 같습니다. 텍스트를 주제에 따라 분류하는 기술도 아직 완벽하지 않습니다. 그러니 사진 같은 멀티미디어 데이터를 분류하는 일은 오죽하겠습니까. 성인 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>Prologue: 지난번에 소개한 <a href="http://www.4four.us/article/2009/12/random-walks-on-the-click-graph/" target="_blank">Random Walks on the Click Graph</a>의 저자들이 쓴 다른 논문입니다. <a href="http://portal.acm.org/browse_dl.cfm?linked=1&amp;part=series&amp;idx=SERIES968&amp;coll=portal&amp;dl=ACM&amp;CFID=65746778&amp;CFTOKEN=56557914" target="_blank">International World Wide Web Conference</a>, 줄여서 WWW라고 하는 컨퍼런스에 포스터로 나온 건데요(2008년), 구체적인 기술 내용까지 모두 이해하려면 이것 외에 <a href="http://research.microsoft.com/en-us/um/people/szummer/papers/SzummerJaakkola-nips01.pdf" target="_blank">이 논문</a>도 읽어봐야 할 것 같습니다.</p>
<p>텍스트를 주제에 따라 분류하는 기술도 아직 완벽하지 않습니다. 그러니 사진 같은 멀티미디어 데이터를 분류하는 일은 오죽하겠습니까. 성인 이미지 필터링 같은 문제를 생각해보면 됩니다.<span id="more-1277"></span></p>
<p>문서에 들어있는 키워드만 고려하여 주제를 분류하면 이를 내용에 기반(content-based)했다고 합니다. 문서의 외부적인 조건 -웹페이지를 예로 들면, 누가 링크/추천했는지 같은 게 있겠네요- 은 무시하고 내용 그 자체에만 충실한 방식이죠.</p>
<p>반대로, 사람들이 그 문서를 어떻게 사용하는지에 따라서, 즉 그 문서를 둘러싼 외부 행위에 기반(bahavior-based)해서 분류를 하는 방법도 생각할 수 있습니다. <a href="http://www2008.org/papers/pp282.html" target="_blank">이 논문 Behavioral Classification on the Click Graph</a>에서는 클릭 그래프(Click Graph, &#8220;검색 쿼리&#8221; &#8211; &#8220;클릭한 문서&#8221;의 관계를 그래프로 표현한 것)를 활용해서 성인 이미지 필터링을 했다고 합니다.</p>
<p>구체적인 알고리즘에 대한 설명은 아무도 원하지 않으므로 패스(-_-)하는데, 한 가지 눈길을 끄는 점은 웹페이지를 무작위로 뽑아서 성인용인지를 판단한 게 아니라, 텍스트 내용만 보고 분류했을 때 애매한 페이지만 따로 뽑아서 행위 기반으로 분류했다는 겁니다.(웹페이지 안에는 이미지만 있는 게 아니라 텍스트도 있잖아요.)</p>
<p>이제부터는 추측입니다. 눈을 감고 조용히 상상해봅시다.</p>
<blockquote><p>마이크로소프트 연구소(Microsft Research)에서 열심히 일하던 저자들에게 어느 날 새로운 업무가 떨어집니다.</p>
<p>&#8220;웹페이지 중에서 성인 이미지가 들어 있는 것들만 골라내라.&#8221;</p>
<p>그들은 어떻게 할까 고민하다가 일단 텍스트 기반으로 필터링 필터링하기로 합니다. 이런.. 정확도가 별로 만족스럽지 않군요.</p>
<p>&#8216;이제 어쩐다&#8230;? 옳지! 잘 분류되지 않은 놈들만 따로 모아서 클릭 그래프 방식으로 분류해 보자.&#8217;</p>
<p>346,000개의 쿼리와 2,500,000개의 URL로 이루어진 클릭 그래프를 처리하는 초조한 시간이 지나가고 드디어 결과가 나왔습니다.</p>
<p>&#8216;오! 이 정도면 만족할 만한걸. 어서 논문 쓰자 +_+&#8217;</p></blockquote>
<p>상상 끝났습니다. 이제 눈 떠도 됩니다. 실제 이야기를 알 도리는 없지만, 혹시 이런 과정을 거쳐 이 논문이 세상에 나온 건 아닐까요? :) 결과로 나온 논문을 보면서 그들이 어떻게 이런 걸 하게 됐는지 상상의 나래를 펼쳐보는 것도 꽤 재미있더라고요.</p>
<p>아무튼 클릭 그래프에서 랜덤 워크 모델을 쓰니까 -텍스트 기반 필터에서는 잘 분류되지 않던 페이지에 대해서- 정확도가 80%까지 나왔다는 소식을 전하며 장황했던 글을 마칩니다. 관심 있는 분들은 이 논문과 프롤로그에서 링크한 논문을 같이 한 번 읽어보세요.</p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1277&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

