<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>알아가는 즐거움 &#187; paper</title>
	<atom:link href="http://www.4four.us/article/tag/paper/feed" rel="self" type="application/rss+xml" />
	<link>http://www.4four.us</link>
	<description>아~ 하기 싫다~</description>
	<lastBuildDate>Mon, 30 Jan 2012 12:14:47 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3</generator>
		<item>
		<title>스포일러 방지를 위한 연구</title>
		<link>http://www.4four.us/article/2011/05/preventing-spoiler</link>
		<comments>http://www.4four.us/article/2011/05/preventing-spoiler#comments</comments>
		<pubDate>Mon, 23 May 2011 21:46:19 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[latent-dirichlet-allocation]]></category>
		<category><![CDATA[movie]]></category>
		<category><![CDATA[spoiler]]></category>
		<category><![CDATA[topic-model]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=3366</guid>
		<description><![CDATA[정보와 광고의 경계가 모호한 지점이 있듯이, 뉴스와 스포일러의 경계도 모호해지는 지점이 생기는 것 같다. (여기서 말하는 스포일러는 공중파 방송 전의 내용 유출이 아니라 방송 후에 인터넷 등을 통해서 결말을 알게 되는 것만을 뜻한다.) &#8220;나는 가수다&#8221; 같은 서바이벌 프로그램의 탈락자가 누구인지는 방송사에서도 철저하게 보안을 지키려 하고, 시청자 입장에서도 결과를 알고 보면 아무래도 긴장감이 떨어질 수밖에 없다. [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2007/09/flyboys' rel='bookmark' title='라파예트'>라파예트</a></li>
<li><a href='http://www.4four.us/article/2010/08/dealing-with-ambiguous-query' rel='bookmark' title='모질대세: 모호한 질의어에 대처하는 검색엔진의 자세'>모질대세: 모호한 질의어에 대처하는 검색엔진의 자세</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>정보와 광고의 경계가 모호한 지점이 있듯이, 뉴스와 스포일러의 경계도 모호해지는 지점이 생기는 것 같다. (여기서 말하는 스포일러는 공중파 방송 전의 내용 유출이 아니라 방송 후에 인터넷 등을 통해서 결말을 알게 되는 것만을 뜻한다.) &#8220;나는 가수다&#8221; 같은 서바이벌 프로그램의 탈락자가 누구인지는 방송사에서도 철저하게 보안을 지키려 하고, 시청자 입장에서도 결과를 알고 보면 아무래도 긴장감이 떨어질 수밖에 없다. 모두가 본방사수를 한다면 문제가 없겠지만 VOD가 활성화된 요즘엔 방송이 끝났다고 모두가 이미 시청했다고 가정하긴 어렵다. 그렇다고 아직 안 본 사람이 있으니 방송에 나온 내용을 인터넷에서 얘기하지 말라고 강요할 수도 없고, 해봤자 씨알도 안 먹힌다. 하지만 또 스포일러 피하자고 인터넷을 안 할 수도 없는 노릇. 결국 스포일러의 정의와 경계로까지 논란이 이어진다. 이런 문제를 막기 위해 미리 연구한 사람들은 없을까?<span id="more-3366"></span></p>
<div class="alignleft"><img src="http://www.4four.us/wordpress/wp-content/uploads/2011/05/scenario.jpg" alt="" title="시나리오" width="210" class="alignleft size-full wp-image-3381" /></div>
<p>2007년 하와이에서 열린 IUI 컨퍼런스에서 두 일본인 학자는 미리 알면 김이 빠지는 정보를 자동으로 필터링해주는 시스템을 제안했다. 사용자가 즐기려는 TV 프로그램이나 책, 스포츠 경기를 알아낸 뒤, 스포일링이 가능해지는 시점(축구 경기라면 경기 시작 시각, 책이라면 책 출판일)부터 사용자가 결과를 알게 될 때까지는 그와 관련된 정보를 통째로 필터링해버리겠다는 아이디어다.</p>
<p>Temporal Filtering System to Reduce the Risk of Spoiling a User’s Enjoyment. 제목에 &#8216;시스템&#8217;이 들어간 논문답게 현재 사용자가 누구이며, 어떤 컨텐츠를 보려고 하는지, 다 봤는지는 어떻게 체크할지를 길게 얘기하고, 정작 스포일러 컨텐츠를 감지하는 방법에 가서는 단순한 단어 패턴 매칭 방법을 들고 나온다.</p>
<p>축구 경기라면, 리그와 선수 이름 등의 데이터베이스를 따로 마련하고, 또 휴리스틱으로 관련 단어(ex. &#8216;골&#8217;, &#8216;승리&#8217;)를 들고 있다가 이런 게 포함된 내용은 무조건 필터링해버리자는 것이다. 사용자가 경기를 즐길 때까지 잠시만 미뤄두는 일시적인 필터링이기 때문에 이런 무지막지한 방법도 괜찮을 수는 있겠지만, 그래도 내가 기대한 건 이보다는 조금 더 똑똑한 방법이다.</p>
<p>Coling 2010에 나온 Finding the Storyteller: Automatic Spoiler Tagging using Linguistic Cues이라는 논문에서는 LDA를 써서 영화 리뷰(코멘트)에 스포일러가 담겨 있는지를 검출하는 방식을 제시했다. 영화는 시놉시스가 있으니까 커멘트와의 유사도를 계산함으로써 스포일러성을 판단할 수 있다는 얘기인데, 여기에 LDA 같은 주제 모델(Topic Model)을 쓰면 꼭 동일한 단어가 나오지 않더라도 내용상 유사함을 발견할 수 있다.</p>
<p>하지만, 생각해보면 스포일러라는 건 보통 결정적인 한 문장 한 구절에서 나온다. &#8220;범인은 누구다&#8221; 이런 식. 그래서 이 연구에서는 단순히 개별 단어를 추출해서 쓰는 것에서 더 나아가, 문장을 문법적으로 분석한 결과를 써서 성능을 개선했음을 강조한다. 예를 들면, &#8220;최후의 생존자 김철수&#8221; 같은 명사구가 있을 때, &#8220;생존자&#8221;, &#8220;김철수&#8221;를 분리하는 대신 &#8220;생존자-김철수&#8221; 이런 식으로 파싱한 결과도 하나의 단어로 사용했다고 한다.</p>
<p>그러나 이 방식도 시놉시스가 이미 주어져 있는 영화에는 통할지 몰라도 &#8216;나가수&#8217; 스포일러(?)를 막을 수 있을 것 같지는 않다. 결국 &#8216;나가수&#8217;, &#8216;탈락&#8217;, &#8220;꼴찌&#8217;, &#8217;7위&#8217;, 그리고 출연자 이름으로 패턴 매칭하는 게 장땡인가? -_-;<br />
<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=3366&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2007/09/flyboys' rel='bookmark' title='라파예트'>라파예트</a></li>
<li><a href='http://www.4four.us/article/2010/08/dealing-with-ambiguous-query' rel='bookmark' title='모질대세: 모호한 질의어에 대처하는 검색엔진의 자세'>모질대세: 모호한 질의어에 대처하는 검색엔진의 자세</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2011/05/preventing-spoiler/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>컴퓨터 오케스트라와 콘체르토를</title>
		<link>http://www.4four.us/article/2011/03/music-plus-one</link>
		<comments>http://www.4four.us/article/2011/03/music-plus-one#comments</comments>
		<pubDate>Thu, 17 Mar 2011 10:26:08 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[cacm]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[music]]></category>
		<category><![CDATA[역시ICML논문은어려워]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=3335</guid>
		<description><![CDATA[우리는 별다른 수고 없이도 소리를 듣고 느끼지만 귀와 뇌가 없는 컴퓨터에게 공기의 진동으로부터 음악을 듣는 것은 특별한 노력이 필요한 일이다. 어렵긴 하지만 그래도 그럴 만한 가치가 있다. 기계가 음악을 들을 줄 알게 되면 무엇이 가능해지는지 이 동영상을 보자. 조유진(Yoo-jin Cho)이라는 분이 바이올린 협주곡을 연주하는 장면이다. 협주곡이라면 독주자(soloist)와 오케스트라가 함께 연주한다는 뜻인데, 오케스트라는 어디에 있을까? 바로 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/01/nodame-cantabile' rel='bookmark' title='노다메 칸타빌레: 피아노가 치고 싶어지는 드라마'>노다메 칸타빌레: 피아노가 치고 싶어지는 드라마</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
<li><a href='http://www.4four.us/article/2009/03/automatically-profiling-the-author-of-an-anonymous-text-2' rel='bookmark' title='Automatically Profiling the Author of an Anonymous Text'>Automatically Profiling the Author of an Anonymous Text</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><!-- WSA: rules for context 'example-post-bottom' did not apply -->우리는 별다른 수고 없이도 소리를 듣고 느끼지만 귀와 뇌가 없는 컴퓨터에게 공기의 진동으로부터 음악을 듣는 것은 특별한 노력이 필요한 일이다. 어렵긴 하지만 그래도 그럴 만한 가치가 있다. 기계가 음악을 들을 줄 알게 되면 무엇이 가능해지는지 이 <a href="http://www.music.informatics.indiana.edu/papers/icml10/smc09/yoo-jin_cho_sibelius_mvmt1.mov" target="_blank">동영상</a>을 보자. 조유진(Yoo-jin Cho)이라는 분이 바이올린 협주곡을 연주하는 장면이다. 협주곡이라면 독주자(soloist)와 오케스트라가 함께 연주한다는 뜻인데, 오케스트라는 어디에 있을까? 바로 컴퓨터 속으로 들어갔다.</p>
<p><a href="http://www.music.informatics.indiana.edu/papers/icml10/smc09/yoo-jin_cho_sibelius_mvmt1.mov"><img class="aligncenter size-full wp-image-3337" title="바이올린 협주" src="http://www.4four.us/wordpress/wp-content/uploads/2011/03/concerto.jpg" alt="" width="510" /></a></p>
<p>위의 링크는 Music Plus One이라는 프로젝트의 데모 영상이다.<span id="more-3335"></span> 이 연구의 목적은 동영상에서처럼 솔로로 연주하는 사람에 맞추어 오케스트라 파트를 스스로 연주하는 시스템을 구현하는 것이다. 그 결과가 2010년 ICML(International Conference on Machine Learning)에 <a href="http://www.icml2010.org/papers/904.pdf" target="_blank">Music Plue One and Machine Learning</a>이라는 제목으로 발표되었고, CACM 3월호 Research Highlights 섹션에도 <a href="http://cacm.acm.org/magazines/2011/3/105321-the-informatics-philharmonic/fulltext" target="_blank">소개</a>되었다.</p>
<div class="alignright"><img class="aligncenter size-full wp-image-3339" title="HMM for note" src="http://www.4four.us/wordpress/wp-content/uploads/2011/03/hmm_note.jpg" alt="" width="200" /></div>
<p>협주를 하려면 당연하게도 먼저 상대방의 소리를 듣는 법부터 배워야 한다. 간단해 보이지만 기계 입장에서는 악보를 아는 상태에서 연주 소리를 따라가는 것부터도 쉽지 않다. 우선 물리적으로 소리를 감지한 순간부터 처리하는 동안 발생하는 딜레이가 있으며, 빨리 따라가려고 서두른 나머지 나지도 않은 소리를 들어서도 곤란하다. 또, 협연이라는 특성상 오케스트라 스스로 내는 소리와 솔로 연주를 구분하는 것도 필요하다. 이런 다양한 상황에 유연하게 대처하기 위해 연구자들이 사용한 방식은 HMM(Hidden Markov Model)이다.</p>
<p>HHM에서는 시간에 따라 상태가 변하며, 각 상태마다 특정한 현상을 만들어낼 확률을 가지고 있다. 이 경우에는 오른쪽 그림처럼 악보의 모든 음표에 대해 어택-sust 상태 그래프가 있고, 매 프레임(30fps할 때 그 프레임)에서 감지된 오디오 신호로부터 현재 상태를 추정한다.</p>
<div class="alignleft"><img class="aligncenter size-full wp-image-3343" title="composite_rhythm" src="http://www.4four.us/wordpress/wp-content/uploads/2011/03/composite_rhythm.jpg" alt="" width="200" /></div>
<p>듣기의 다음 단계는 솔로 연주에 맞추어 오케스트라를 진짜로 연주하는 일이다. 리허설을 통해 독주자와 맞춰가는 과정이 필요한 것은 기계 오케스트라나 진짜 오케스트라나 별반 다르지 않다. 연습을 통해 솔로 연주에 적응(adapt)하는 것이다. 게데가, 연주자에 따른 차이 뿐만 아니라 연주 중간에 시시각각 달라지는 템포 등 다양한 상황에도 순간적으로 맞출 수 있는 모델이 필요하다. 그래서 이 연구에서는 독주자와 오케스트라의 소리가 합쳐진 리듬 모형을 만들어두고 (왼쪽 그림), 리허설을 통해 혹은 실제 연주 중에 들린 소리에 따라 자기가 소리를 낼 타이밍을 예측하고 조정하는 방식을 사용했다고 한다.</p>
<p>내용이 어려워지려고 하니까 급히 마무리하는 감이 있지만(&#8230;) 결국 컴퓨터가 협주하는 오케스트라란 수학 모형을 이용해서 솔로 연주 소리를 인식하고, 스스로 연주할 타이밍을 계산해서 미리 녹음된 음을 적당한 템포로 재생하는 것이다. 이렇게 글로 쓰면 밋밋하기 그지없지만, 정말로 이런 시스템이 주변에 있어서 보통 사람들도 쉽게 자기만의 오케스트라와 콘체르토를 연주할 수 있다면 무척 멋지지 않을까?</p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=3335&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/01/nodame-cantabile' rel='bookmark' title='노다메 칸타빌레: 피아노가 치고 싶어지는 드라마'>노다메 칸타빌레: 피아노가 치고 싶어지는 드라마</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
<li><a href='http://www.4four.us/article/2009/03/automatically-profiling-the-author-of-an-anonymous-text-2' rel='bookmark' title='Automatically Profiling the Author of an Anonymous Text'>Automatically Profiling the Author of an Anonymous Text</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2011/03/music-plus-one/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
<enclosure url="http://www.music.informatics.indiana.edu/papers/icml10/smc09/yoo-jin_cho_sibelius_mvmt1.mov" length="122053498" type="video/quicktime" />
		</item>
		<item>
		<title>컴퓨터가 유머를 이해할 수 있다면</title>
		<link>http://www.4four.us/article/2011/02/computational-humor</link>
		<comments>http://www.4four.us/article/2011/02/computational-humor#comments</comments>
		<pubDate>Sun, 27 Feb 2011 15:07:41 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[artificial-intelligence]]></category>
		<category><![CDATA[human-computer-interaction]]></category>
		<category><![CDATA[humor]]></category>
		<category><![CDATA[model]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=3148</guid>
		<description><![CDATA[구글 크롬의 재치있는 에러 메시지에 많은 사람이 재미있어 한 기억이 난다. 지구에서 유머 감각을 가진 생물종은 인간밖에 없다고 한다. 바로 그 지성의 총체, 유머에 대한 계산 모델을 탐구하는 연구 소갯글이 IEEE Intelligent Systems에 Computational Humor라는 제목으로 실렸다. 따끈따끈한 내용은 아니고 벌써 5년이나 지난 2006년의 글이지만 Computational Humor(계산 유머?) 연구의 동향을 살펴볼 수 있다. Frame-Shifting Humor [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/05/our-sentiments-exactly' rel='bookmark' title='Our Sentiments, Exactly'>Our Sentiments, Exactly</a></li>
<li><a href='http://www.4four.us/article/2009/09/commonsense-based-interfaces' rel='bookmark' title='Commonsense-based Interfaces &#8211; Marvin Minsky'>Commonsense-based Interfaces &#8211; Marvin Minsky</a></li>
<li><a href='http://www.4four.us/article/2009/11/url-blocking-during-a-search' rel='bookmark' title='나오지마: 검색 인터페이스 제안'>나오지마: 검색 인터페이스 제안</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><!-- WSA: rules for context 'example-post-bottom' did not apply -->구글 크롬의 재치있는 에러 메시지에 많은 사람이 재미있어 한 기억이 난다.</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-3156" title="chrome_humor" src="http://www.4four.us/wordpress/wp-content/uploads/2011/02/chrome_humor1.jpg" alt="" width="400" /></p>
<p>지구에서 유머 감각을 가진 생물종은 인간밖에 없다고 한다. 바로 그 지성의 총체, 유머에 대한 계산 모델을 탐구하는 연구 소갯글이 IEEE Intelligent Systems에 Computational Humor라는 제목으로 실렸다. 따끈따끈한 내용은 아니고 벌써 5년이나 지난 2006년의 글이지만 Computational Humor(계산 유머?) 연구의 동향을 살펴볼 수 있다.<span id="more-3148"></span></p>
<h3>Frame-Shifting Humor in Simulation-based Language Understanding</h3>
<p>by Benjamin Bergen and Seana Coulson</p>
<p>유머를 이해하려면 먼저 텍스트(구어든 문어든)의 내용을 있는 그대로 파악하는 능력부터 갖춰야 한다. 하지만 이게 말처럼 쉽지 않은 건 명시적으로 언급된 내용을 이해하는 것뿐 아니라 빠진 부분을 스스로 채워 넣는 능력이 필요하기 때문이다. 화자가 상식적으로 가정하고 있는 명제를 찾아야 하고, 맥락에 따라 단어의 여러 의미 중 적당한 것을 골라야 하며, 이어질 상황을 예측도 해야 한다.</p>
<p>이 글에서는 저자네 연구팀이 개발한 시스템을 <del>홍보</del>소개한다. 분석(Analysis) 파트와 시뮬레이션 파트로 나뉘어서, 상황에 맞게 입력을 해석하고, 그 입력에 따라 뒤에 나올 내용과 상황을 예측하고, 또 그 예측에 의거해 다음 입력을 해석하는 시스템을 통해 아래의 유머를 이해하는 과정을 설명한다.</p>
<blockquote><p>“Everyone had so much fun diving from the tree into the swimming pool, we decided to put in a little&#8230; <em>water</em>”</p></blockquote>
<p>앞부분에서 암묵적으로 가정했던 것이 뒷부분에서 깨지는 반전을 기계적으로 발견할 수 있다는 건데, 그런데 이게 정말 유머 맞나? 영어 문화권 사람들은 재미있어하나?</p>
<h3>Embodied Conversational Agents: “A Little Humor Too”</h3>
<p>by Anton Nijholt</p>
<p>두 번째 글에서는 보다 특정한 형태의 유머에 초점을 맞췄다. Incongruity-resolution theory(우리말로 뭔가요? 부조화 해결 이론?)와 관련이 있는데, 그냥 예를 보는 게 쉬울 것 같다. 옷가게에서 쇼핑 중인 여성과 점원의 대화다.</p>
<blockquote><p>Lady: “May I try on that dress in the window?”<br />
Clerk: (doubtfully) “Don’t you think it would be better to use the dressing room?”</p></blockquote>
<p>즉, 두 가지로 해석할 수 있는 모호한 문장을 던져서 의미상 충돌을 만들고, 그 오해를 통해 웃음을 주는 방식이다. 그러나 이런 모호함과 오해가 항상 웃기지는 않기 때문에 저자는 유머 이론과 인공지능의 언어를 통해 유머와 단순한 오해 사이의 경계를 설명하려 애쓴다.</p>
<p>이 연구 그룹에서 추진하는 프로젝트는 유머하는 채팅 로봇이다. 글에서는 대명사(anaphora)의 대상을 의도적으로 오해해서 유머를 날리는 정도를 얘기했는데, 다양한 이론을 적용하겠다는 포부를 밝혔으니 5년이 지난 지금의 성과에도 한 번 관심을 가져보자.</p>
<h3>Automatic Production of Humorous Expressions for Catching the Attention and Remembering</h3>
<p>by Oliviero Stock and Carlo Strapparava</p>
<p>세 번째 글은 유머의 심리/감정적인 요소를 강조하며 시작한다. 너무 무겁고 진지해지지 않도록 긴장을 풀어주고, 창의성을 발휘하게 도우며, 쉽게 사람들의 시선을 끄는 것으로도 부족해 기억력까지 향상시켜주는 유머 <del>니가 짱이다</del>. 이런 효과를 살려 광고나 헤드라인 작성에 활용할 수도 있겠다지만, 저자가 소개하는 프로젝트는 <a href="http://haha.fbk.eu/" target="_blank">HAHAcronym</a>, 알파벳 약자에 재미난 풀이를 만들겠다는 것이다.</p>
<p>흥미로운 것은 단어에 묻어 있는 감정을 계산하려는 시도다. “fear”나 “cheerful” 같이 직접적으로 느낌을 드러내는 단어도 있지만, “monster”나 “mom”도 거의 그에 상응하는 수준의 감정을 지니고 있다. 저자는 단어가 함께 등장(co-occurrence)하는 패턴을 통계적으로 분석해서 단어 간의 감정적 유사도를 계산하고, 이를 단어 조합에 활용하는 얘기를 한다. 이건 꼭 유머가 아니더라도 글 속에 있는 단어의 느낌을 분석해서 따뜻한 글 / 차가운 글로 분류하거나, 글의 느낌을 색상으로 시각화해도 재미있을 것 같다.</p>
<h3>The STANDUP Interactive Riddle Builder</h3>
<p>by Graeme Ritchie, Ruli Manurung, Helen Pain, Annalu Waller and Dave O’Mara</p>
<p>마지막으로 소개하는 연구는 가장 실용적인 내용을 담고 있다. 이 연구팀은 자동으로 수수께끼(난센스 퀴즈)를 만들어주는 소프트웨어를 만들었다.</p>
<blockquote><p>Q: What kind of berry is a stream?<br />
A: A current <a href="http://engdic.daum.net/dicen/contents.do?query1=E284670" target="_blank">currant</a></p></blockquote>
<p>어떻게? 우선 스키마, 이를테면 “발음이 같은 단어 중 하나는 명사, 다른 하나는 형용사인 것을 찾으라&#8221;고 사람이 입력해 두면 프로그램은 사전을 뒤져 조건에 맞는 단어 쌍을 가져온다. 그러면 또 사람이 미리 저장해 둔 문제와 문장을 만드는 패턴 몇 가지를 적용해서 자동으로 위와 같은 수수께끼를 만드는 것이다. 여기 소개된 연구 중에서는 가장 간단한 듯하지만, 또 그만큼 현실적인 방안이 아닐까 싶다.</p>
<h3>읽고 나서 네 마디</h3>
<ul>
<li>기계가 유머를 다루는 게 무슨 의미가 있냐고 사람들이 딴죽을 엄청 걸었나 보다. 유저 인터페이스 디자인 등에 활용할 수 있다며 이런 연구의 필요성을 계속 강조하는 걸 보면.</li>
<li>WordNet 같은 사전이 구축되어 있으니까 이런 연구에 무척 유용하게 쓰이는구나.</li>
<li>틀려도 부담이 없는 곳에 이런 연구 결과를 많이 응용해 보면 좋겠다. 온라인 게임 NPC가 썰렁하더라도 유머 한 마디씩 날려주면 게이머들이 좋아하지 않을까? 어이없어하려나? (중요한 건 미리 입력된 걸 그대로 내뱉는 게 아니라 상황이나 문맥, 상대에 따라 스스로 유머를 만드는 것)</li>
<li>fun 말고 pun이라는 단어가 있었구나. 뜻은 말장난. 재담.</li>
</ul>
<p><!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=3148&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/05/our-sentiments-exactly' rel='bookmark' title='Our Sentiments, Exactly'>Our Sentiments, Exactly</a></li>
<li><a href='http://www.4four.us/article/2009/09/commonsense-based-interfaces' rel='bookmark' title='Commonsense-based Interfaces &#8211; Marvin Minsky'>Commonsense-based Interfaces &#8211; Marvin Minsky</a></li>
<li><a href='http://www.4four.us/article/2009/11/url-blocking-during-a-search' rel='bookmark' title='나오지마: 검색 인터페이스 제안'>나오지마: 검색 인터페이스 제안</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2011/02/computational-humor/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>생각을 넓혀주는 독서법: 앗, 이건 논문 읽는법이잖아!</title>
		<link>http://www.4four.us/article/2010/10/how-to-read-a-book</link>
		<comments>http://www.4four.us/article/2010/10/how-to-read-a-book#comments</comments>
		<pubDate>Mon, 11 Oct 2010 19:05:45 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[book]]></category>
		<category><![CDATA[communication]]></category>
		<category><![CDATA[critical-thinking]]></category>
		<category><![CDATA[paper]]></category>
		<category><![CDATA[reading]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2627</guid>
		<description><![CDATA[요즘 들어서 난독증이 의심되는 나에게 스스로 선물한 책이다. 소감을 쓰기에 앞서, &#60;How to Read a Book&#62;이라는 점잖은 원제를 &#60;생각을 넓혀주는 독서법&#62;이라는 허접한 자기계발서풍의 제목으로 바꿔버린 센스에 경의를 표한다. 덕분에 밖에서 읽을 때면 자꾸 얼굴이 화끈거려서 손으로 표지를 가려야 했다. 책을 읽는 데에는 흥미 유발이나 정보 수집 등 다양한 이유가 있겠지만 이 책은 그중에서도 읽기를 통해 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/11/how-to-understand' rel='bookmark' title='이해의 프레임워크'>이해의 프레임워크</a></li>
<li><a href='http://www.4four.us/article/2011/09/the-shallows' rel='bookmark' title='생각하지 않는 사람들: 인터넷이 뇌에 미치는 영향'>생각하지 않는 사람들: 인터넷이 뇌에 미치는 영향</a></li>
<li><a href='http://www.4four.us/article/2011/11/physics-for-future-presidents' rel='bookmark' title='대통령을 위한 물리학: 정책 의사결정을 돕는 과학'>대통령을 위한 물리학: 정책 의사결정을 돕는 과학</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<div class="alignleft">
<div class="ttbReview">
<table>
<tbody>
<tr>
<td><a href="http://www.aladin.co.kr/shop/wproduct.aspx?ISBN=8988152085&amp;ttbkey=ttblseuny1334003&amp;COPYPaper=1"><img src="http://image.aladin.co.kr/coveretc/book/covermini/8988152085_1.jpg" alt="" border="0"/></a></td>
</tr>
</tbody>
</table>
</div>
</div>
<p>요즘 들어서 난독증이 의심되는 나에게 스스로 선물한 책이다. 소감을 쓰기에 앞서, &lt;How to Read a Book&gt;이라는 점잖은 원제를 &lt;생각을 넓혀주는 독서법&gt;이라는 허접한 자기계발서풍의 제목으로 바꿔버린 센스에 경의를 표한다. 덕분에 밖에서 읽을 때면 자꾸 얼굴이 화끈거려서 손으로 표지를 가려야 했다.</p>
<p>책을 읽는 데에는 흥미 유발이나 정보 수집 등 다양한 이유가 있겠지만 이 책은 그중에서도 읽기를 통해 이해력을 증진하고 싶은 사람을 위한 길잡이를 자처한다. 저자는 책 읽기 수준을 4가지로 구분하는데, 가장 중점적으로 다루는 것은 3수준의 &#8216;분석하며 읽기&#8217;다. 글의 내용을 잘 이해하기 위한 8개의 원칙과 각각의 실천 지침을 자세히 설명하고 있다.<span id="more-2627"></span></p>
<ol>
<li>책을 종류와 주제에 따라 분류한다.</li>
<li>책이 전체적으로 무엇을 다루고 있는지 최대한 간결하게 이야기한다.</li>
<li>주요 부분을 순서와 연관성에 따라 열거하고 전체적인 윤곽을 그린다.</li>
<li>저자가 풀어나가려는 문제를 분명하게 파악한다.</li>
<li>중요한 키워드를 저자가 어떤 의미로 사용하고 있는지 파악한다.</li>
<li>가장 중요한 문장을 통해 저자가 제시하는 주요 명제를 파악한다.</li>
<li>저자의 논증을 문장과의 연관 속에서 구성하거나 찾아낸다.</li>
<li>저자가 풀어낸 문제와 그렇지 못한 문제를 구분하고, 풀지 못한 문제를 저자도 알고 있는지 파악한다.</li>
</ol>
<p>이렇게 책을 끝까지 읽고 내용을 이해했다고 해서 끝이 아니다. 독자에게는 아직 비평의 &#8220;의무&#8221;가 남아 있다. 책 저자의 의견에 찬성하는 것 또한 비평의 일종이며, 무조건 고개를 끄덕이는 것이 아니라 숙고 끝에 내려야 하는 결정이다. 저자 모티머 애들러는 거기서 더 나아가, 책 저자의 주장에 반론할 수 없으면 동의하는 것 역시 의무라고 말한다.</p>
<blockquote><p>앞에서 말한 세 가지 반론을 제기할 만한 근거가 없다면 책을 이해한 이상 저자에게 동의할 의무가 있다는 점이다. (중략) &#8220;전제된 이야기나, 논리를 펴나가는 과정에서 잘못된 내용은 없습니다. 하지만 그런 결론에 동의할 수는 없습니다&#8221;라고 이야기할 수는 없다. (중략) 이는 반대를 하는 것이 아니라 단순히 감정이나 편견을 드러내고 있는 것이다.</p></blockquote>
<p>그렇지만 완벽한 책은 없으며, 우리가 읽는 책 대부분에는 허점이 있을 것이므로 섣불리 찬성하기보다는 이 책에서 제시하는 네 가지 기준에 따라 내용을 비판적으로 분석해보는 것이 좋겠다.</p>
<ol>
<li>아는 것이 부족하다.</li>
<li>잘못 알고 있다.</li>
<li>논리적이지 않아 설득력이 부족하다.</li>
<li>완전하지 않으니 좀더 분석해보라.</li>
</ol>
<p>내 생각에는 1번과 4번 사이의 경계가 모호한 지점이 있는 것 같은데, 역시 자세한 설명은 책을 참고.</p>
<h3>논문 읽는법</h3>
<p>책을 읽다 보니 저자가 설명하는 분석적 읽기 원칙을 전공 논문을 갓 읽기 시작한 대학원생에게 가르치면 좋겠다는 생각이 든다.</p>
<ol>
<li>읽을 논문이 무엇에 대한 것인지, 어떤 성격인지(주장/조사/설명 등) 분류하고,</li>
<li>저자가 어떤 메시지를 어떤 순서와 구조로 제시하는지 살펴서 무슨 문제를 해결하려고 하는지 파악하고,</li>
<li>본문을 읽을 때는 용어에 주의를 기울여서 의미를 이해하고, 명제들 사이의 논증을 따라서 문제가 어떻게/얼마나 해결되었는지 꼼꼼하게 살핀 뒤,</li>
<li>지금까지의 이해를 바탕으로 논문을 비판해서 찬성/반대/판단보류의 입장을 정하고, 그 연구의 한계를 발견해서</li>
<li>자신의 연구에 참고한다.</li>
</ol>
<p>독서의 네 번째 수준인 &#8216;통합적인 읽기&#8217;는 관련 연구 정리를 위한 문헌 조사와도 일맥상통한다. 나는 언제부턴가 이 책에서 &#8216;책&#8217;이라는 단어가 나오면 &#8216;논문&#8217;으로 바꿔서 읽었는데 이해하는 데 아무런 무리가 없었다. 독서법에 관한 책이고, 논문은 책의 한 종류니까 당연한 얘기겠지만.. 영어 해석이 문제가 아닌데도 논문을 읽고 소화하는 데 어려움을 겪는 이가 있다면 이 책을 강력추천한다.</p>
<p>그 외에 글을 잘 쓰고 싶은 사람이나 토론을 잘하고 싶은 사람도 얻을 것이 가득하다. 책을 잘 읽는 원칙이 존재한다는 것은 좋은 글의 특징이 있다는 뜻이며, 따라서 글을 잘 쓰고 싶다면 그 원칙을 이해하고 존중해야 한다. 또, 이 책은 저자에게 적절한 비판을 하는 방법과 &#8216;지적 에티켓&#8217;에 대해서도 설명하는데, 이는 독서뿐 아니라 대화와 토론에서도 여전히 유효한 원칙이다.</p>
<h3>결국은 실천</h3>
<p>가장 중요한 문제는 제시한 원칙을 실제 책을 읽을 때 적용하느냐는 것이다. 그저 글자만 따라가면서, 이해가 되는 만큼만 이해하는 습관을 그대로 두면 아무리 좋은 원칙과 지침도 소용이 없다. 저자는 독서를 스키 배우는 것에 비유하면서, 개별 기술을 집중적으로 연습해야 그 각각을 더 잘하게 되는 동시에 한꺼번에 모든 작업을 잘하게 된다고 주장한다.</p>
<blockquote><p>강사가 간단하다며 해보이는 동작조차 배우는 사람은 제대로 따라하지 못해서 도리어 모욕을 당한 것처럼 느껴지기도 한다. (중략) 이런 것들을 일일이 기억하면서 스키를 탈 수 있을까? (중략) 따로 떨어진 동작 하나하나에 신경을 쓰지 않고도 모든 동작을 잘할 수 있는 법을 터득해야 한다. 하지만 &#8220;개별적인 동작들이라는 것을 잊어버리기 위해서는, 일단 하나씩 따로 배워야 한다.&#8221; 그래야 그 동작들을 하나로 연결시켜 스키를 잘 타게 되는 것이다.</p></blockquote>
<p>즉, 의식적으로 개별 원칙을 연습해야 하고, 그러다 보면 시나브로 모든 원칙을 따르면서도 자연스럽게 책을 읽을 수 있게 된다는 것이다. &#8216;과연 나도 할 수 있을까?&#8217; 의심하는 독자에게 저자는 용기를 준다.</p>
<blockquote><p>이런 이야기를 하는 것은 당신도 잘할 수 있다는 것을 알려주기 위해서이다. (중략) 익숙해지면 저절로 훨씬 더 책을 잘 읽을 수 있다.</p></blockquote>
<h3>노란 형광펜</h3>
<ul>
<li>&#8220;처음부터 끝까지 무조건 읽어내려 가라. 쉽게 이해되지 않는 부분이 있어도 뭔가를 찾아보려고 하거나 곰곰이 생각해보려고 하지 말고!&#8221; (독서의 2수준 &#8216;살펴보기&#8217;에 대한 설명 중), 47p</li>
<li>기초적인 읽기의 수준을 넘어서면 올바른 순서를 따라 올바른 질문을 하는 습관을 갖는 것이 하나의 기술이다., 55p</li>
<li>모든 비평은 같은 의견, 다른 의견, 또는 판단을 보류하는 세 가지 입장으로 볼 수 있다. 그리고 비평하는 것이 늘 다른 의견을 갖는 것이라고 잘못 생각하는 일은 없어야 하며 저자의 의견에 찬성하는 것도 반대하는 것만큼이나 어렵게 비평하는 것이다., 156p</li>
<li>많은 사람들이 의견이 다르면 가르치거나 배우는 기회로 활용할 수 있다는 생각을 하지 못하는 것이 문제다. 그저 견해의 차이가 있다고 생각하는 데서 그치고 만다., 162p</li>
<li>어떤 사람들은 &#8220;찬성&#8221;에도 두 가지 의미가 있다는 것을 미처 구분하지 못하는 잘못을 한다. 한 마디로, 서로를 이해한다면 의견도 같아야만 한다는 생각은 잘못된 것이다. 그런 사람들은 의견이 서로 다른 이유가 모두 오해에서 비롯된다고 생각한다., 168p</li>
</ul>
<p><!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2627&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/11/how-to-understand' rel='bookmark' title='이해의 프레임워크'>이해의 프레임워크</a></li>
<li><a href='http://www.4four.us/article/2011/09/the-shallows' rel='bookmark' title='생각하지 않는 사람들: 인터넷이 뇌에 미치는 영향'>생각하지 않는 사람들: 인터넷이 뇌에 미치는 영향</a></li>
<li><a href='http://www.4four.us/article/2011/11/physics-for-future-presidents' rel='bookmark' title='대통령을 위한 물리학: 정책 의사결정을 돕는 과학'>대통령을 위한 물리학: 정책 의사결정을 돕는 과학</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/10/how-to-read-a-book/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>모질대세: 모호한 질의어에 대처하는 검색엔진의 자세</title>
		<link>http://www.4four.us/article/2010/08/dealing-with-ambiguous-query</link>
		<comments>http://www.4four.us/article/2010/08/dealing-with-ambiguous-query#comments</comments>
		<pubDate>Fri, 06 Aug 2010 18:45:48 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[context]]></category>
		<category><![CDATA[diversity]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[personalization]]></category>
		<category><![CDATA[query]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2137</guid>
		<description><![CDATA[검색엔진에 &#8216;모나리자&#8217;를 입력했을 때, 레오나르도 다 빈치의 그림과 조용필의 노래 중에 어떤 걸 원하는지는 그 사람만이 안다. 하지만, 침묵하는 사용자의 속마음을 알아내려는 검색 연구자들의 노력 또한 치열하다 못해 아주 뜨겁다. 그동안 제안된 아이디어를 간단하게 네 가지로 분류해보자. 1. 검색어 추천 (자동완성 / 관련검색어) 이미 많이 쓰이고 있으며 많은 이들이 익숙한 방식이다. 검색어를 입력하는 동안 혹은 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/11/url-blocking-during-a-search' rel='bookmark' title='나오지마: 검색 인터페이스 제안'>나오지마: 검색 인터페이스 제안</a></li>
<li><a href='http://www.4four.us/article/2009/10/the-next-ui-breakthrough-command-lines-donald-a-norman-3' rel='bookmark' title='The Next UI Breakthrough: Command lines &#8211; Donald A. Norman'>The Next UI Breakthrough: Command lines &#8211; Donald A. Norman</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>검색엔진에 &#8216;모나리자&#8217;를 입력했을 때, 레오나르도 다 빈치의 그림과 조용필의 노래 중에 어떤 걸 원하는지는 그 사람만이 안다. 하지만, 침묵하는 사용자의 속마음을 알아내려는 검색 연구자들의 노력 또한 치열하다 못해 아주 뜨겁다. 그동안 제안된 아이디어를 간단하게 네 가지로 분류해보자.</p>
<h3>1. 검색어 추천 (자동완성 / 관련검색어)</h3>
<p>이미 많이 쓰이고 있으며 많은 이들이 익숙한 방식이다. 검색어를 입력하는 동안 혹은 검색한 후에, 사용자가 찾고 있음 직한 쿼리를 제안해준다. Daum에 &#8216;이정수&#8217;를 검색하면, 인물 프로필에서 동명이인들을 보여주고 그중 한 명을 선택하면 &#8216;스케이트선수 이정수&#8217;, &#8216;축구선수 이정수&#8217; 등으로 쿼리를 확장해서 재검색해준다. 다른 방법에 비해 단순해 보이지만, 사용자가 스스로 명확하게 지정하기 때문에 오류나 혼란이 적다는 것은 무시하기 어려운 장점이다.</p>
<h3>2. 상황인지(context-aware)</h3>
<p>현재 사용자가 어디에 있는지, 무슨 요일인지, 몇 시인지에 따라서 다른 결과를 제공하는 것도 유용할 것이다.<span id="more-2137"></span> 스마트폰이 퍼지면서 더욱 각광받게 될 텐데, 가령 &#8216;시간표&#8217;라고 했을 때 사용자가 지하철역에 있느냐, 버스정류장에 있느냐에 따라 더 적절한 문서를 상단에 노출하는 식으로 응용할 수 있다. <a href="http://portal.acm.org/citation.cfm?id=1458082.1458274&amp;coll=portal&amp;dl=ACM&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">Searching the Wikipedia with Contextual Information</a> 논문을 보면, 위키피디아에서 어떤 페이지를 보다가 검색했는지에 따라서 다른 결과를 제공하는 아이디어가 나온다. 금융이론에 대한 글을 읽다가 beta를 검색했다면 십중팔구는 이 <a href="http://en.wikipedia.org/wiki/Beta_(finance)" target=_blank>베타</a>를 찾는 것일 테니까 말이다.<br />
그런데 context search로 논문을 찾아보면 위에서 말한 &#8216;상황&#8217;보다는 현재 검색 세션을 컨텍스트로 사용하는 경우가 많다. 즉, &#8216;이전에 어떤 쿼리를 날려서 어떤 문서를 클릭했으니, 이번 쿼리는 아마도 이런 걸 찾는 거겠지?&#8217;라는 건데, 영한사전에서 context의 첫 번째 의미가 &#8216;문맥&#8217;이라는 걸 감안하면 수긍이 되는 이야기다. 이런 컨텍스트를 고려해서 랭킹을 하면 세션 내에서 검색을 계속함에 따라 조금씩 의도에 부합하는 문서에 다가가는 데 도움이 될 듯하다.</p>
<h3>3. 개인화(personalization)</h3>
<p>여기서 말하는 개인화란, 사용자별로 프로파일을 만들어두고, 사람에 따라 동일한 쿼리라도 다른 결과를 제공하는 것이다. 프로파일에는 이전 검색과 클릭 내역, 사용자가 알려준 관심사나 직업 등이 들어갈 수 있다. 구글 등에서 이미 시도하고 있는데, 역시 가장 큰 이슈는 프라이버시와 어떻게 조화시키느냐는 문제 같다. 내가 생각하는 두 번째 문제는 검색결과의 편향이다. &#8216;Weka&#8217;라고 검색했을 때 내가 기계학습에 관심이 있다고 해서 소프트웨어 Weka에 대한 문서만 나오기를 바라지는 않기 때문이다. 뉴질랜드에만 산다는, 날지 못하는 새 Weka에 대한 정보도 보여줘서 그동안 몰랐던 새로운 지식을 얻을 기회를 놓치지 않았으면 좋겠다. 그래서 나는 구글에 검색할 때면 항상 먼저 로그아웃부터 한다. (그런데.. 이런 나의 희망을 반영해서 다양성을 보장하는 것까지도 포괄할 수 있는 개인화라면? 그건 또 그것 나름대로 무섭겠다 ㄷㄷㄷ)</p>
<h3>4. 다양화(diversification)</h3>
<p>사용자/상황에 따른 맞춤형 검색에 연연하지 않고, 쿨하게 처음부터 최대다수의 최대만족을 위해 다양화된 검색 결과를 제공하겠다는 전략이다. 재미있게도 구글과 마이크로소프트에서 같은 주제로 각각 논문이 나왔다. 심지어 두 논문의 제목마저도 비슷하다.</p>
<ul>
<li><a href="http://portal.acm.org/citation.cfm?id=1498759.1498766&amp;coll=Portal&amp;dl=GUIDE&amp;CFID=97265251&amp;CFTOKEN=69202813" target="_blank">Diversifying Search Results</a>, WSDM 2009 (from Microsoft)</li>
<li><a href="http://portal.acm.org/citation.cfm?id=1772690.1772770&amp;coll=Portal&amp;dl=GUIDE&amp;CFID=97265251&amp;CFTOKEN=69202813" target="_blank">Diversifying Web Search Results</a>, WWW 2010 (from Google)</li>
</ul>
<p>내가 임의로 종류를 구분하기는 했지만, 상황이나 개인화를 어떻게 정의하느냐에 따라 2와 3의 경계가 모호할 수 있고, 또 상황에 따라 다른 검색어를 추천하는 식으로 1과 2를 결합할 수도 있다. 실제로 동일한 쿼리에 대해 맞춤형 검색결과를 제공하는 간단한 방법은 Query Reformulation, 다시 말해서 쿼리 변형이다. 개인적으로는 4번 방식에 관심이 많은데, 다양화가 한때의 연구 유행으로 그칠지 아니면 검색의 필수 요소로 자리 잡을지 앞으로 관심을 두고 지켜봐야 할 것 같다.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2137&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/11/url-blocking-during-a-search' rel='bookmark' title='나오지마: 검색 인터페이스 제안'>나오지마: 검색 인터페이스 제안</a></li>
<li><a href='http://www.4four.us/article/2009/10/the-next-ui-breakthrough-command-lines-donald-a-norman-3' rel='bookmark' title='The Next UI Breakthrough: Command lines &#8211; Donald A. Norman'>The Next UI Breakthrough: Command lines &#8211; Donald A. Norman</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/08/dealing-with-ambiguous-query/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</title>
		<link>http://www.4four.us/article/2010/08/sigir-2010-papers2</link>
		<comments>http://www.4four.us/article/2010/08/sigir-2010-papers2#comments</comments>
		<pubDate>Sun, 01 Aug 2010 15:03:34 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[context]]></category>
		<category><![CDATA[diversity]]></category>
		<category><![CDATA[graph]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[personalization]]></category>
		<category><![CDATA[query]]></category>
		<category><![CDATA[ranking]]></category>
		<category><![CDATA[sigir]]></category>
		<category><![CDATA[similarity]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2084</guid>
		<description><![CDATA[주말에 여차저차해서 시간이 남아도는 바람에 지난 글에 이어서 논문 몇 편을 더 소개한다. Context-Aware Ranking in Web Search 검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008' rel='bookmark' title='Behavioral Classification on the Click Graph &#8211; WWW 2008'>Behavioral Classification on the Click Graph &#8211; WWW 2008</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>주말에 여차저차해서 시간이 남아도는 바람에 <a href="http://www.4four.us/article/2010/07/sigir-2010-papers1" target="_blank">지난 글</a>에 이어서 논문 몇 편을 더 소개한다.</p>
<h3>Context-Aware Ranking in Web Search</h3>
<p>검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 분류하고 그에 맞게 랭킹을 변경하는 방식을 제안한다.<br />
1. Reformulation (&#8220;homes for rent in Atlanta” -&gt; &#8220;houses for rent in Atlanta”)<br />
2. Specialization (&#8220;time life music&#8221; -&gt; &#8220;time life Christian CDs&#8221;)<br />
3. Generalization (&#8220;free online Tetris game&#8221; -&gt; &#8220;Tetris game&#8221;)<br />
4. Association (&#8220;Xbox 360&#8243; -&gt; &#8220;FIFA 2010&#8243;)<br />
위의 경우를 보면 두 번째 쿼리가 들어왔을 때, 이전 쿼리와의 관계에 따라 사용자 의도를 알아채서 조금 더 똑똑한 랭킹을 할 수 있을 것도 같다. 하지만, 또 한편으로 이런 생각도 든다.<span id="more-2084"></span> 1) 이렇게 의미를 직관적으로 해석할 수 있는 경우가 얼마나 될까? 2) 구체적인 메커니즘을 모르는 사용자에게는 똑같은 쿼리인데도 검색결과가 자꾸 바뀌거나 하면 오히려 혼란스럽지 않을까?</p>
<h3>The Demographics of Web Search</h3>
<p>&#8220;wagner&#8221;라는 단어를 검색했을 때 여자들은 주로 클래식 음악 작곡가를, 남자들은 분무기 솔(spray brush) 제조사를 클릭한다는 사례로 시작하는 도입부가 흥미로웠다. 다의어의 예로 만날 &#8220;jaguar&#8221;나 &#8220;java&#8221;만 보다가 새로운 예를 만나니 신선하기도 했고. Demography는 인구통계학을 의미한다. 이 논문은 Yahoo!에서 로그인한 사용자의 검색 로그를 분석해서, 나이, 성별, 인증, 학력 등에 따른 검색 사용 행태 차이를 연구한 내용을 담고 있다.<br />
쉽게 상상할 수 있듯이, 위에서 언급한 특성으로 분류된 그룹마다 자주 검색하는 단어가 다르다. 또, 학력에 따라 쿼리 길이가 다르다거나, 특정 나이대의 사용자들이 특정한 종류의 쿼리에 대해서 클릭 엔트로피(Click Entropy)가 튄다는 등의 결과도 들려준다.<br />
사용자 한 명 한 명에 맞추는 것이 아니라 특성에 따라 그룹을 짓는 점이 다르다면서 개인화(personalization)와 구분하지만, 넓게 보면 비슷하지 않나 싶다. 문서 내용을 통해 저자의 특성을 추출하려는 <a href="http://www.4four.us/article/2009/03/automatically-profiling-the-author-of-an-anonymous-text-2" target="_blank">Author Profiling</a>도 떠올랐다.</p>
<h3>Query Similarity by Projecting the Query-Flow Graph</h3>
<p>클릭 그래프(Click Graph)는 쿼리와 클릭한 문서의 관계를 표현하는 그래프다. 이 논문에서 사용하는 쿼리플로우 그래프(Query-flow Graph)는 어떤 특정한 목적을 달성하기 위해서 입력한 쿼리들이 서로 연결되는 그래프이다. 가령, 영화 인셉션에 대한 반응이 궁금해서 &#8220;인셉션 별점&#8221;, &#8220;인셉션 평가&#8221;라고 검색했다면 이 쿼리들이 서로 두텁게 연결된 그래프가 만들어진다.<br />
이 논문의 핵심은 이 그래프에 Graph-projection method를 적용해서 쿼리들을 클러스터링하고, 쿼리 간 유사도를 계산했다는 것이다. 이게 잘 되면 검색어 자동완성이나 관련검색어를 만드는 데 적용할 수 있다. 특히, 여기서는 주어진 쿼리에 대해서 다양한 관련 검색어를 추천하는 데 활용하는 얘기를 해서 관심이 갔다. 검색의 중요성이 커지는 만큼 다양성을 보장하는 데 대한 이야기도 처음 지적된 이후 꾸준하게 나오는 것 같다.</p>
<p>마지막으로, 이번 프로시딩을 훑으면서 새삼 깨달은 사실. 검색 연구에서 Yahoo!와 Microsoft가 차지하는 비중이 장난 아니구나.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2084&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008' rel='bookmark' title='Behavioral Classification on the Click Graph &#8211; WWW 2008'>Behavioral Classification on the Click Graph &#8211; WWW 2008</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/08/sigir-2010-papers2/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</title>
		<link>http://www.4four.us/article/2010/07/sigir-2010-papers1</link>
		<comments>http://www.4four.us/article/2010/07/sigir-2010-papers1#comments</comments>
		<pubDate>Fri, 23 Jul 2010 00:03:11 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[active-learning]]></category>
		<category><![CDATA[bias]]></category>
		<category><![CDATA[click]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[learning-to-rank]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[ranking]]></category>
		<category><![CDATA[recency]]></category>
		<category><![CDATA[sigir]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2000</guid>
		<description><![CDATA[7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다. Freshness Matters: In Flowers, Food, and Web Authority 얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft size-full wp-image-3227" title="sigir2010" src="http://www.4four.us/wordpress/wp-content/uploads/2010/07/sigir2010.jpg" alt="" width="64" />7월 19일에서 23일까지 스위스 제네바에서 <a href="http://www.sigir2010.org/doku.php" target="_blank">SIGIR 2010</a>이 열리고 있다. <a href="http://portal.acm.org/toc.cfm?id=1835449&amp;idx=SERIES278&amp;type=proceeding&amp;coll=portal&amp;dl=ACM&amp;part=series&amp;WantType=Proceedings&amp;title=SIGIR&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">ACM 디지털 라이브러리</a>에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.</p>
<h3>Freshness Matters: In Flowers, Food, and Web Authority</h3>
<p>얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다.<span id="more-2000"></span></p>
<h3>Incorporating Post-Click Behaviors Into a Click Model</h3>
<p>검색어를 날린 뒤 사용자가 결과 문서를 클릭하는 행위를 잘 모델링해서 각 문서의 쿼리적합성(relevancy)를 측정하려는 연구는 이미 많았다.<sup><a href="http://www.4four.us/article/2010/07/sigir-2010-papers1#footnote_0_2000" id="identifier_0_2000" class="footnote-link footnote-identifier-link" title="단순히 많이 클릭되었다고 그 문서가 좋다는 뜻은 아니므로 Relevancy와 Preference를 구분하기도 한다.">1</a></sup> 하지만, 저자들은 기존 모델에서는 문서의 순위 편견<sup><a href="http://www.4four.us/article/2010/07/sigir-2010-papers1#footnote_1_2000" id="identifier_1_2000" class="footnote-link footnote-identifier-link" title="position bias를 우리말로 뭐라고 하면 좋단 말인가.">2</a></sup> 문제는 어느 정도 해결할 수 있었지만, 정작 사용자가 문서를 클릭한 후의 행위는 고려하지 않았다고 지적한다. 다시 말해서, 어떤 문서는 클릭한 지 3초만에 닫아버렸고 다른 문서는 1분 넘게 보고 있었다면 아마도 후자가 더 좋지 않겠냐는 얘기다. 문서의 체류시간(dwelling time) 외에도, 문서 클릭 후에 또 다른 문서를 클릭했는가, 새로운 쿼리로 바꿔서 검색하기까지 시간이 얼마나 걸렸나 같은 것들이 쓸 만한 요소로 제시되었다. 클릭 후 행위까지 고려하는 클릭 모델이라고 해서 Post-Clicked Click Model, 줄여서 PCC 모델이라는 이름이 붙었다.</p>
<h3>Query Term Ranking based on Dependency Parsing of Verbose Queries</h3>
<p>흔히 &#8216;검색&#8217;하면 떠오르는 키워드 질의어가 아니라 문장 수준의 복잡한 쿼리에 효과적으로 대처하는 방법을 제시한다. Dependency Parsing Tree라는 걸 써서 질의문에서 문법적으로 중요한 단어를 찾아내는 것이다. 내 생각에 사람들이 검색 엔진에 키워드를 입력하는 패턴이 쉽게 바뀔 것 같지는 않고, <a href="http://www.4four.us/article/2009/10/ambient-search/" target="_blank">전에도 쓴 적</a>이 있지만 메신저나 트위터에서 사람들이 적는 말을 엿듣고 있다가 기회가 왔을 때 &#8216;혹시 이거 찾는 거에요?&#8217; 하면서 검색 결과를 내놓으면 사용자에게 감동을 줄 수 있지 않을까?</p>
<h3>Mining the Blogosphere for Top News Stories Identification</h3>
<p>TSIT(Top Stories Identification Task)는 말 그대로 중요 뉴스를 찾는 작업을 가리킨다. 사람들이 뉴스 같은 걸 찾을 때 블로그 검색을 많이 하고 또 각종 화제에 대한 생각들을 블로그에 많이 올리니까 하루 동안 블로그에 출판된 글을 이용해서 그날의 주요 뉴스를 자동으로 찾아보자는 게 이 논문의 주제다. Language Model을 써서 그날 출판된 블로그 글로부터 뉴스 헤드라인이 나올 확률을 계산하는 방식이라고 한다. 포스터를 제외한 논문 중에는 유일하게 한국 학교에서 나온 것이라 반가운 마음으로 접했다.</p>
<h3>Active Learning for Ranking Through Expected Loss Optimization</h3>
<p>개인적으로 관심이 있고 공부는 하지 않던 active learning을 랭킹학습(learning-to-rank)에 활용한 연구로, Yahoo! Labs에서 나왔다. 저자들은 active learning을 랭킹에 적용할 때 맞닥뜨리는 문제로 두 가지를 언급한다. 우선 그동안의 active learning은 주로 분류(classification) 문제에 쓰였는데, 랭킹은 성격이 다르다는 점이다. SVM 같은 maximum margin classifier의 경우에는 어떤 샘플이 informative한지 대략 감이 잡힐 듯도 한데 랭킹에서는 그게 모호할 수 있다. 두 번째는 데이터 샘플이 독립이 아니라는 건데, 이게 무슨 말일까? 문서를 분류한다고 했을 때, 한 번 문서 A가 B 타입에 속한다고 했으면 끝까지 B 타입이다. 그런데 랭킹에서는 문서 A가 B보다 좋을 수도 있고 아닐 수도 있다. 쿼리가 P일 때는 A가 더 좋았더라도 쿼리가 Q로 바뀌면 B가 더 좋아질 수도 있기 때문이다. 이런 두 가지 문제를 해결하기 위해 expected loss optimization에 기반을 둔 active learning framework를 만들었다고 하는데, 그게 뭔지 모르겠다. (공부를 안 하는데 알 턱이 있나. 퍽)</p>
<p>이외에도 점찍어둔 논문이 몇 개 더 있는데, 읽어보니까 예상했던 내용이 아닌 것도 있고 시간이 없어서 못 읽은 것도 있다. 기회가 되면 다음 기회에.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<ol class="footnotes"><li id="footnote_0_2000" class="footnote">단순히 많이 클릭되었다고 그 문서가 좋다는 뜻은 아니므로 Relevancy와 Preference를 구분하기도 한다.</li><li id="footnote_1_2000" class="footnote">position bias를 우리말로 뭐라고 하면 좋단 말인가.</li></ol><img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2000&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/07/sigir-2010-papers1/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Time-Based Language Models &#8211; CIKM 2003</title>
		<link>http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003</link>
		<comments>http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003#comments</comments>
		<pubDate>Thu, 24 Jun 2010 00:34:18 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[language-model]]></category>
		<category><![CDATA[query]]></category>
		<category><![CDATA[query-expansion]]></category>
		<category><![CDATA[ranking]]></category>
		<category><![CDATA[recency]]></category>
		<category><![CDATA[sigir]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1951</guid>
		<description><![CDATA[2003년 CIKM(Conference on Information and Knowledge Management)에 나온 Time-Based Language Models라는 논문을 보면, Language Model에 기반한 기존의 검색 랭킹 연구를 소개하고, 거기에 시간이라는 요소를 추가한 새로운 모델을 설명하고 있다. 우선 기본적인 방식은 Query Likelihood Model이다. 1999년 CIKM에 나온 A General Language Model for Information Retrieval에 따르면, 글의 내용에 따라 그 문서의 모델 Md를 만들고, 그 모델로부터 쿼리 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/09/commonsense-based-interfaces' rel='bookmark' title='Commonsense-based Interfaces &#8211; Marvin Minsky'>Commonsense-based Interfaces &#8211; Marvin Minsky</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><!-- WSA: rules for context 'example-post-bottom' did not apply -->2003년 <a href="http://portal.acm.org/browse_dl.cfm?linked=1&amp;part=series&amp;idx=SERIES772&amp;coll=portal&amp;dl=ACM&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">CIKM</a>(Conference on Information and Knowledge Management)에 나온 <a href="http://portal.acm.org/citation.cfm?id=956863.956951" target="_blank">Time-Based Language Models</a>라는 논문을 보면, Language Model에 기반한 기존의 검색 랭킹 연구를 소개하고, 거기에 시간이라는 요소를 추가한 새로운 모델을 설명하고 있다.</p>
<p>우선 기본적인 방식은 Query Likelihood Model이다. 1999년 CIKM에 나온 <a href="http://portal.acm.org/citation.cfm?id=319950.320022&amp;coll=portal&amp;dl=ACM&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">A General Language Model for Information Retrieval</a>에 따르면, 글의 내용에 따라 그 문서의 모델 Md를 만들고, 그 모델로부터 쿼리 Q가 생성될 확률을 계산한다.</p>
<p><img class="aligncenter size-full wp-image-1965" title="33" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/33.png" alt="" width="216" height="49" /></p>
<p>2년 후 SIGIR에 등장한 <a href="http://portal.acm.org/citation.cfm?id=383952.383972&amp;coll=portal&amp;dl=ACM&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">Relevance-based Language Models</a>에서는 여기에 새로운 아이디어를 덧붙였다. 적합성 피드백(Relevance Feedback)에 기초해 쿼리확장(Query Expansion)을 해보자는 것인데, 자세히 살펴보자.<span id="more-1951"></span></p>
<p>검색 의도에 부합하는(relevant) 문서의 집합 R이라는 게 있다고 치자. 그리고 R에 속하는 문서에 (원래 검색어에는 없었던) 새로운 단어 w가 들어 있을 확률을 P(w|R)이라고 하자. 그러면, P(w|R)은 &#8220;사용자가 쿼리 Q ={q1, q2, &#8230;,qn}를 날렸을 때, Q에 w가 포함되어야 할 확률&#8221;이라고도 생각할 수 있다. 즉, P(w|R)과 P(w|Q)는 같다고 봐도 무방하다.</p>
<p><img class="aligncenter size-full wp-image-1966" title="34" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/34.png" alt="" width="344" height="68" /></p>
<p>단어 w와 질의어 q1, q2, &#8230;, qn이 서로 독립이고, w도 다른 쿼리와 동일하게 샘플링된다고 가정하면,</p>
<p><img class="aligncenter size-full wp-image-1967" title="35" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/35.png" alt="" width="301" height="57" /></p>
<p>이제 우리는 P(w|R)을 구할 수 있게 되었다. 그래서 어떡하냐고? 어떡하긴, 문서와 R이 얼마나 유사한지 계산해서 많이 비슷할수록 문서에 높은 랭킹 점수를 주면 되지.</p>
<p>이럴 때 쓸 만한 방법이 <a href="http://en.wikipedia.org/wiki/KL_divergence" target="_blank">KL divergence</a>다. 두 분포 사이의 거리가 얼마나 되는지에 대한 척도로서, 값이 작을수록 두 분포는 서로 비슷다는 의미다. 따라서 아래와 같이 계산하는 KL(R || Md)가 작을수록 문서 d가 더 사용자의 검색 의도에 부합한다고 판단, 순위를 높여준다.</p>
<p><img class="aligncenter size-full wp-image-1968" title="36" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/36.png" alt="" width="296" height="63" /></p>
<p>질의어와 자주 같이 등장하는 새로운 단어가 검색 랭킹에 반영되므로 결국 쿼리확장인 셈이다.</p>
<p>쿼리와 문서의 직접적인 관계만 따지는 Query Likelihood Model에 비해 두 번째 방식은 Relevancy를 고려해서 쿼리확장을 하기 때문에 Relevance Model이라고 부른다.<sup><a href="http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003#footnote_0_1951" id="identifier_0_1951" class="footnote-link footnote-identifier-link" title="원본 논문을 안 읽어서 추측으로 쓴 부분이 조금 있다. 흥미가 동한다면 링크한 논문을 읽어보자.">1</a></sup></p>
<p>자, 그럼 이 두 모델에 시간이라는 요소를 어떻게 결합할 수 있을까?<br />
여기까지 왔으면 간단하다. 위의 수식에서 P(d)와 P(M)을 각각 P(d|Td)와 P(M|TD)로 갈아끼우면 된다. 다시 말하면, 이전의 모델에서는 시간에 상관없이 문서의 확률 P(d)<sup><a href="http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003#footnote_1_1951" id="identifier_1_1951" class="footnote-link footnote-identifier-link" title="P(d)의 의미는 해석하기 나름이다. 문서 d의 인기도라고 해도 좋고, 문서품질이라고 봐도 좋고, 그냥 다 똑같다고 가정해도 된다.">2</a></sup>가 동일하다고 가정했는데, 이제는 문서 d가 생성된 시각 Td에 따라 각기 다른 값을 부여하는 것이다.</p>
<p>그러면 P(d|Td)를 어떻게 구할지가 중요하겠군?<br />
그렇지! 그런데 사실 그게 간단하지만은 않다. <a href="http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries/" target="_blank">이전글</a>에서도 얘기했지만, 시의성이 중요하다는 것이 무조건 최신 문서를 보여줘야 한다는 뜻은 아니기 때문이다. 저자들 역시 그것을 모르지는 않지만, 이 연구에서는 어쨌거나 최신성이 중요한 질의어에 집중했다고 밝혔다. 논문에서는 그런 것들을 특별히 최신성 쿼리(recency query)라고 부른다. 문제를 이렇게 한정하면 P(d|Td)를 구하는 게 한결 수월해진다. 문서의 나이가 많을수록 P(d|Td)가 작아지도록 하면 되니까. 저자들은 아래와 같이 Exponential Distribution으로 모델링하는 방법을 썼다.</p>
<p style="text-align:center;"><img class="aligncenter size-full wp-image-1969" title="Time Prior Modeling" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/time_prior.png" alt="" width="326" height="234" /></p>
<p>논문의 Time-based Language Model 설명 중 특히 인상적인 건, 시간이 흐르면서 달라지는 사용자 모델을 반영해 쿼리를 다르게 해석하는 것이라며 그 의미를 친절하게 설명해주는 부분이었다. 더 쉽게 풀어쓰면, 똑같은 검색어가 입력되어도 검색 시점에 따라 최신 문서가 달라지기 때문에 자연스럽게 이슈에 맞게 쿼리확장이 이루어지고, 결과적으로 최근 문서가 검색되어 나온다는 얘기다.</p>
<p>Language Model이라는 프레임워크에 Relevancy, 그리고 Recency라는 요소를 녹여넣는 과정이 이론적으로 무척 깔끔하다는 생각이 들었다.  그러니 성능도 어련히 알아서 잘 나왔겠지 싶어서 평가 결과는 읽어보지 않았다.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<ol class="footnotes"><li id="footnote_0_1951" class="footnote">원본 논문을 안 읽어서 추측으로 쓴 부분이 조금 있다. 흥미가 동한다면 링크한 논문을 읽어보자.</li><li id="footnote_1_1951" class="footnote">P(d)의 의미는 해석하기 나름이다. 문서 d의 인기도라고 해도 좋고, 문서품질이라고 봐도 좋고, 그냥 다 똑같다고 가정해도 된다.</li></ol><img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1951&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/09/commonsense-based-interfaces' rel='bookmark' title='Commonsense-based Interfaces &#8211; Marvin Minsky'>Commonsense-based Interfaces &#8211; Marvin Minsky</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>시간성이 중요한 쿼리를 어떻게 찾을까?</title>
		<link>http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries</link>
		<comments>http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries#comments</comments>
		<pubDate>Sat, 19 Jun 2010 01:58:28 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[query]]></category>
		<category><![CDATA[recency]]></category>
		<category><![CDATA[sigir]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1919</guid>
		<description><![CDATA[검색에 있어 문서 품질의 중요성을 얘기한 적이 있는데, 그외에 또 중요한 요소가 바로 시간성이다. 문서의 다른 조건이 동일하다면, 언제 쓰여진 글을 보여줄 것인가? 우리말로는 시간성, 시의성, 최신성 등으로 다양하게 부르고, 영어에서도 recency, temporal, time-sensitive 등으로 표현한다. 문서 최신성을 추구하는 노력의 극단에 실시간 검색이 있다. 직접 경험하기 전까지만 해도 실시간 검색의 필요성에는 다소 회의적이었는데, 실제로 써보니까 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003' rel='bookmark' title='Time-Based Language Models &#8211; CIKM 2003'>Time-Based Language Models &#8211; CIKM 2003</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>검색에 있어 <a href="http://www.4four.us/article/2010/03/document-quality-measurement/" target="_blank">문서 품질의 중요성을 얘기</a>한 적이 있는데, 그외에 또 중요한 요소가 바로 시간성이다. 문서의 다른 조건이 동일하다면, 언제 쓰여진 글을 보여줄 것인가? 우리말로는 시간성, 시의성, 최신성 등으로 다양하게 부르고, 영어에서도 recency, temporal, time-sensitive 등으로 표현한다.</p>
<p>문서 최신성을 추구하는 노력의 극단에 실시간 검색이 있다. 직접 경험하기 전까지만 해도 실시간 검색의 필요성에는 다소 회의적이었는데, 실제로 써보니까 중계(운동경기, 선거개표현황)나 즉각적인 반응(백분토론, 맥북프로신제품)에 대한 검색 요구에는 유용한 도구 같다. 입장을 철회해야겠다.</p>
<p>그렇지만, 사람들이 검색하는 모든 질의어에서 최신성이 중요한 것은 아니다. 어떨 때 사람들이 (상대적으로) 최근의 소식, 따끈따끈한 정보를 원하는지 먼저 알아내야 한다.<span id="more-1919"></span></p>
<p>2009년 야후!의 <a href="http://research.yahoo.com/pub/2827" target="_blank">Improving Search Relevance for Implicitly Temporal Queries</a>라는 두 장짜리 논문을 보면, 사람들이 날리는 쿼리로그에서 패턴을 집어내려고 시도한다. 연도(year)랑 같이 입력되는 키워드(ex. “2010 월드컵”)는 최신성이 중요하다고 판단, 검색 결과를 만들 때 문서가 작성된 시기를 더 중요하게 반영하자는 것이다. 다른 단어보다는 연도와 많이 결합될수록, 또 다양한 연도와 결합될수록 그 키워드의 검색에서 문서의 나이는 더 중요하다고 볼 수 있다.</p>
<p>그런데 또 한편으로는 무조건 최근글에 가중치를 주는 게 맞나 하는 의문이 생긴다. 2008년에 콜럼비아 대학교와 뉴욕대학교에도 그런 생각을 한 사람들이 있었다. 그들은 <a href="http://pages.stern.nyu.edu/~panos/publications/cikm2008.pdf" target="_blank">Answering General Time-Sensitive Queries</a>라는 무척 멋진 제목의 (역시 두 장짜리)  논문에서, 특정 주제의 문서가 쏟아져나온 시기를 자동으로 찾고, 그때 작성된 문서에 높은 가중치를 주는 검색 방법을 제안하였다. 아래는 논문에 삽입된 그림인데, 이슈가 발생해서 특정 단어를 포함한 문서가 많이 생산되는 시기가 있음을 보여준다.</p>
<p style="text-align: center;"><img class="size-full wp-image-1926" title="Temporal Queries" src="http://www.4four.us/wordpress/wp-content/uploads/2010/06/temporal_query.png" alt="" width="301" height="108" /></p>
<p><center>이럴 땐 언제 작성된 문서를 보여주는 게 최선일까?</center></p>
<p>올해 2월에 열린 <a href="http://www.wsdm-conference.org/2010/" target="_blank">WSDM</a>(Web Search and Data Mining, 위즈덤(wisdom)이라고 읽는다고 한다)에서는 <a href="http://www.wsdm-conference.org/2010/proceedings/docs/p11.pdf" target="_blank">Towards Recency Ranking in Web Search</a>라는 논문이 발표되었고, 7월에 있을 SIGIR 2010 컨퍼런스에도 이 주제와 관련된 논문들이 보인다.(<a href="http://members.unine.ch/jacques.savoy/Events/SIGIR.html" target="_blank">프로그램 참조</a>) 과연 어떤 새로운 아이디어를 선보일지 기대된다.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1919&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/06/time-based-language-model-cikm-2003' rel='bookmark' title='Time-Based Language Models &#8211; CIKM 2003'>Time-Based Language Models &#8211; CIKM 2003</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/06/how-to-find-time-sensitive-queries/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>의미있는 실패</title>
		<link>http://www.4four.us/article/2010/06/failure-worth-spreading</link>
		<comments>http://www.4four.us/article/2010/06/failure-worth-spreading#comments</comments>
		<pubDate>Wed, 16 Jun 2010 14:13:13 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[note]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[paper]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1912</guid>
		<description><![CDATA[좋은 아이디어가 떠올라서 당장 적용해보고 싶은 순간이 살다 보면 몇 번은 생긴다. 손발이 근질거리는 마음은 이해하지만 잠시 흥분을 가라앉히고 먼저 데이터 분석을 통해 검증해보자. 십중팔구는 생각하지 못한 예외적인 경우를 발견할 것이다. 운이 좋아서 그런 예외를 쉽게 걸러내는 방법을 찾거나, 처음의 생각을 약간 수정하는 정도로 검증 과정을 통과할지도 모르지만, 많은 경우에 그 예외가 사실은 예외가 아니고 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/about' rel='bookmark' title='About'>About</a></li>
<li><a href='http://www.4four.us/article/2009/11/selfcontrol-domain-blocking-software-for-mac' rel='bookmark' title='SelfControl: 또 다른 Mac용 인터넷 차단 프로그램'>SelfControl: 또 다른 Mac용 인터넷 차단 프로그램</a></li>
<li><a href='http://www.4four.us/article/2009/10/frequently-visited-site-by-alphabet' rel='bookmark' title='자주 방문하는 사이트를 알파벳 문자별로 알아봅시다'>자주 방문하는 사이트를 알파벳 문자별로 알아봅시다</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>좋은 아이디어가 떠올라서 당장 적용해보고 싶은 순간이 살다 보면 몇 번은 생긴다. 손발이 근질거리는 마음은 이해하지만 잠시 흥분을 가라앉히고 먼저 데이터 분석을 통해 검증해보자. 십중팔구는 생각하지 못한 예외적인 경우를 발견할 것이다. 운이 좋아서 그런 예외를 쉽게 걸러내는 방법을 찾거나, 처음의 생각을 약간 수정하는 정도로 검증 과정을 통과할지도 모르지만, 많은 경우에 그 예외가 사실은 예외가 아니고 너무나 결정적이어서 아이디어 자체를 폐기해야 하기도 한다. 그렇더라도 이런 실패는 다른 연구자의 시행착오(라 쓰고 삽질이라 읽는다)를 줄여주고, 그렇게 절약한 시간과 에너지를 더 생산적인 곳에 쏟아부을 수 있게 한다는 점에서 공유할 만한 가치가 있다.<span id="more-1912"></span></p>
<p>모두가 성공한 연구만을 인정하는 냉정한 세계에 이런 &#8220;실패한 연구&#8221;의 가치를 인정하는 저널이 있다. <a href="http://jinr.site.uottawa.ca/" target="_blank">Journal of Interesting Negative Result</a>(ISSN 1916-7423), 줄여서 JINR이라는 곳이다. JINR은 자연어처리나 데이터마이닝 분야를 다룬다고 하고 의료/생물 분야에도 비슷한 취지의 다른 저널이 있는 것 같다. 호기심이 솟아나 소개글을 읽어보니 스스로 이런 저널의 필요성을 설명하기를&#8230;</p>
<blockquote><p>&#8220;Much can be learned by analysing why some ideas, while intuitive and plausible, do not work. The importance of counter-examples for disproving conjectures is already well known.&#8221;</p>
<p style="text-align: right;">from <a href="http://jinr.site.uottawa.ca/" target="_blank">jinr.site.uottawa.ca</a></p>
</blockquote>
<p>일반적으로 당연하다고 여겨지는 명제가 실은 당연하지 않다는 사실/이유/경우를 발견하는 것을 수학의 반례를 통한 증명에 비유하는 대목에서 고개가 끄덕여진다. 그런데.. 어라? 실제로 게재된 논문은 2008년 하나밖에 없네? 뭐지?</p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1912&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/about' rel='bookmark' title='About'>About</a></li>
<li><a href='http://www.4four.us/article/2009/11/selfcontrol-domain-blocking-software-for-mac' rel='bookmark' title='SelfControl: 또 다른 Mac용 인터넷 차단 프로그램'>SelfControl: 또 다른 Mac용 인터넷 차단 프로그램</a></li>
<li><a href='http://www.4four.us/article/2009/10/frequently-visited-site-by-alphabet' rel='bookmark' title='자주 방문하는 사이트를 알파벳 문자별로 알아봅시다'>자주 방문하는 사이트를 알파벳 문자별로 알아봅시다</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/06/failure-worth-spreading/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

