<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>알아가는 즐거움 &#187; graph</title>
	<atom:link href="http://www.4four.us/article/tag/graph/feed" rel="self" type="application/rss+xml" />
	<link>http://www.4four.us</link>
	<description>아~ 하기 싫다~</description>
	<lastBuildDate>Mon, 30 Jan 2012 12:14:47 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3</generator>
		<item>
		<title>책의 관계를 그래프로 그려보자</title>
		<link>http://www.4four.us/article/2010/12/visualize-book-network</link>
		<comments>http://www.4four.us/article/2010/12/visualize-book-network#comments</comments>
		<pubDate>Fri, 31 Dec 2010 14:59:36 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[note]]></category>
		<category><![CDATA[book]]></category>
		<category><![CDATA[excel]]></category>
		<category><![CDATA[graph]]></category>
		<category><![CDATA[ideation]]></category>
		<category><![CDATA[software]]></category>
		<category><![CDATA[tag]]></category>
		<category><![CDATA[visualization]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2976</guid>
		<description><![CDATA[간단하게 그래프를 그려주는 도구를 찾고 있었는데, 우연히 정보시각화 아틀리에 블로그의 글을 보고 NodeXL이라는 엑셀 플러그인을 알게 되었다. (무료) 이런 프로그램을 찾아다닌 이유는 아래와 같은 그림을 그리기 위해서였다. 누르면 커져요 그동안 읽은 책들 간의 관계를 시각적으로 표현한 것이다. 파란색은 책의 제목, 빨간색은 내가 책에 붙인 태그 단어다. 원래는 (책 &#8211; 저자)로 할랬는데, 한 저자의 책을 여러 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/10/frequently-visited-site-by-alphabet' rel='bookmark' title='자주 방문하는 사이트를 알파벳 문자별로 알아봅시다'>자주 방문하는 사이트를 알파벳 문자별로 알아봅시다</a></li>
<li><a href='http://www.4four.us/article/2011/10/bandinlunis-recommendation-service' rel='bookmark' title='반디앤루니스의 추천inside 서비스'>반디앤루니스의 추천inside 서비스</a></li>
<li><a href='http://www.4four.us/about' rel='bookmark' title='About'>About</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>간단하게 그래프를 그려주는 도구를 찾고 있었는데, 우연히 <a href="http://infovis.tistory.com/61" target="_blank">정보시각화 아틀리에 블로그의 글</a>을 보고 <a href="http://nodexl.codeplex.com/" target="_blank">NodeXL</a>이라는 엑셀 플러그인을 알게 되었다. (무료) 이런 프로그램을 찾아다닌 이유는 아래와 같은 그림을 그리기 위해서였다.</p>
<p><center><a href="http://www.4four.us/wordpress/wp-content/uploads/2010/12/book_network.jpg"><img class="aligncenter size-full wp-image-2977" title="책 그래프" src="http://www.4four.us/wordpress/wp-content/uploads/2010/12/book_network.jpg" alt="" width="300" /></a></center><center>누르면 커져요</center><span id="more-2976"></span></p>
<p>그동안 읽은 책들 간의 관계를 시각적으로 표현한 것이다. 파란색은 책의 제목, 빨간색은 내가 책에 붙인 태그 단어다. 원래는 (책 &#8211; 저자)로 할랬는데, 한 저자의 책을 여러 권 읽지 않는 내 취향 때문에 저자 대신 태그를 썼다. 책이 아니라 논문이라면 (논문 &#8211; 저자) 쌍도 괜찮을 것이다.</p>
<p>지상 최고(&#8230;)의 프로그램 엑셀에다가 제목과 태그만 입력하면 나머지는 NodeXL이 알아서 그래프로 그려준다. 아, 노드 색깔과 점 크기(다른 것보다 큰 빨간 동그라미)도 손으로 입력해야 한다.</p>
<p>아직 투박한 모양새지만, 내가 관심있어 하는 주제나 책들의 관계가 어느 정도 잘 표현된 듯하다. 제목이 서로 가리지 않도록 하고, 제목 글자 대신 책 표지가 나오도록 하고, 노드의 중요도가 더 잘 드러나도록 하고, 시간 요소를 가미해서 관심사가 어떻게 변해왔는지까지 표현하면 좋겠지만, 내가 그렇게까지 할 리 없지(&#8230;)</p>
<p>요즘 인터넷 서비스의 트렌드 중 하나는 사용자가 스스로를 표현하고 소통할 공간을 만들어주는 것 같다. <a href="http://book.daum.net/" target="_blank">Daum 책</a>이나 <a href="http://userstorybook.net/" target="_blank">유저스토리북</a>, <a href="http://aladin.co.kr" target="_blank">알라딘</a>처럼 책을 매개로 서비스하는 곳에서 사용자가 자기만의 도서 네트워크를 멋지게 꾸밀 수 있는 공간을 제공하면 어떨까? 책을 하나씩 추가하는 뿌듯함, 정성들여 태그를 입력하는 수고로부터 어떤 비즈니스 가치를 뽑아낼 수 있을 것도 같지 않은가?<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2976&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/10/frequently-visited-site-by-alphabet' rel='bookmark' title='자주 방문하는 사이트를 알파벳 문자별로 알아봅시다'>자주 방문하는 사이트를 알파벳 문자별로 알아봅시다</a></li>
<li><a href='http://www.4four.us/article/2011/10/bandinlunis-recommendation-service' rel='bookmark' title='반디앤루니스의 추천inside 서비스'>반디앤루니스의 추천inside 서비스</a></li>
<li><a href='http://www.4four.us/about' rel='bookmark' title='About'>About</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/12/visualize-book-network/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</title>
		<link>http://www.4four.us/article/2010/08/sigir-2010-papers2</link>
		<comments>http://www.4four.us/article/2010/08/sigir-2010-papers2#comments</comments>
		<pubDate>Sun, 01 Aug 2010 15:03:34 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[context]]></category>
		<category><![CDATA[diversity]]></category>
		<category><![CDATA[graph]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[personalization]]></category>
		<category><![CDATA[query]]></category>
		<category><![CDATA[ranking]]></category>
		<category><![CDATA[sigir]]></category>
		<category><![CDATA[similarity]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2084</guid>
		<description><![CDATA[주말에 여차저차해서 시간이 남아도는 바람에 지난 글에 이어서 논문 몇 편을 더 소개한다. Context-Aware Ranking in Web Search 검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008' rel='bookmark' title='Behavioral Classification on the Click Graph &#8211; WWW 2008'>Behavioral Classification on the Click Graph &#8211; WWW 2008</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>주말에 여차저차해서 시간이 남아도는 바람에 <a href="http://www.4four.us/article/2010/07/sigir-2010-papers1" target="_blank">지난 글</a>에 이어서 논문 몇 편을 더 소개한다.</p>
<h3>Context-Aware Ranking in Web Search</h3>
<p>검색에서의 컨텍스트라고 했을 때 내가 떠올린 것은 사용자가 로컬 컴퓨터 상에서 하던 작업(task)이나 현재 장소 같은 것이었다. 이 논문에서 말하는 컨텍스트는 그것과는 달리, 말 그대로 문맥이었다. 한 세션 내에서 사용자가 날린 쿼리들을 시간 순서대로 분석해서 4가지 종류로 분류하고 그에 맞게 랭킹을 변경하는 방식을 제안한다.<br />
1. Reformulation (&#8220;homes for rent in Atlanta” -&gt; &#8220;houses for rent in Atlanta”)<br />
2. Specialization (&#8220;time life music&#8221; -&gt; &#8220;time life Christian CDs&#8221;)<br />
3. Generalization (&#8220;free online Tetris game&#8221; -&gt; &#8220;Tetris game&#8221;)<br />
4. Association (&#8220;Xbox 360&#8243; -&gt; &#8220;FIFA 2010&#8243;)<br />
위의 경우를 보면 두 번째 쿼리가 들어왔을 때, 이전 쿼리와의 관계에 따라 사용자 의도를 알아채서 조금 더 똑똑한 랭킹을 할 수 있을 것도 같다. 하지만, 또 한편으로 이런 생각도 든다.<span id="more-2084"></span> 1) 이렇게 의미를 직관적으로 해석할 수 있는 경우가 얼마나 될까? 2) 구체적인 메커니즘을 모르는 사용자에게는 똑같은 쿼리인데도 검색결과가 자꾸 바뀌거나 하면 오히려 혼란스럽지 않을까?</p>
<h3>The Demographics of Web Search</h3>
<p>&#8220;wagner&#8221;라는 단어를 검색했을 때 여자들은 주로 클래식 음악 작곡가를, 남자들은 분무기 솔(spray brush) 제조사를 클릭한다는 사례로 시작하는 도입부가 흥미로웠다. 다의어의 예로 만날 &#8220;jaguar&#8221;나 &#8220;java&#8221;만 보다가 새로운 예를 만나니 신선하기도 했고. Demography는 인구통계학을 의미한다. 이 논문은 Yahoo!에서 로그인한 사용자의 검색 로그를 분석해서, 나이, 성별, 인증, 학력 등에 따른 검색 사용 행태 차이를 연구한 내용을 담고 있다.<br />
쉽게 상상할 수 있듯이, 위에서 언급한 특성으로 분류된 그룹마다 자주 검색하는 단어가 다르다. 또, 학력에 따라 쿼리 길이가 다르다거나, 특정 나이대의 사용자들이 특정한 종류의 쿼리에 대해서 클릭 엔트로피(Click Entropy)가 튄다는 등의 결과도 들려준다.<br />
사용자 한 명 한 명에 맞추는 것이 아니라 특성에 따라 그룹을 짓는 점이 다르다면서 개인화(personalization)와 구분하지만, 넓게 보면 비슷하지 않나 싶다. 문서 내용을 통해 저자의 특성을 추출하려는 <a href="http://www.4four.us/article/2009/03/automatically-profiling-the-author-of-an-anonymous-text-2" target="_blank">Author Profiling</a>도 떠올랐다.</p>
<h3>Query Similarity by Projecting the Query-Flow Graph</h3>
<p>클릭 그래프(Click Graph)는 쿼리와 클릭한 문서의 관계를 표현하는 그래프다. 이 논문에서 사용하는 쿼리플로우 그래프(Query-flow Graph)는 어떤 특정한 목적을 달성하기 위해서 입력한 쿼리들이 서로 연결되는 그래프이다. 가령, 영화 인셉션에 대한 반응이 궁금해서 &#8220;인셉션 별점&#8221;, &#8220;인셉션 평가&#8221;라고 검색했다면 이 쿼리들이 서로 두텁게 연결된 그래프가 만들어진다.<br />
이 논문의 핵심은 이 그래프에 Graph-projection method를 적용해서 쿼리들을 클러스터링하고, 쿼리 간 유사도를 계산했다는 것이다. 이게 잘 되면 검색어 자동완성이나 관련검색어를 만드는 데 적용할 수 있다. 특히, 여기서는 주어진 쿼리에 대해서 다양한 관련 검색어를 추천하는 데 활용하는 얘기를 해서 관심이 갔다. 검색의 중요성이 커지는 만큼 다양성을 보장하는 데 대한 이야기도 처음 지적된 이후 꾸준하게 나오는 것 같다.</p>
<p>마지막으로, 이번 프로시딩을 훑으면서 새삼 깨달은 사실. 검색 연구에서 Yahoo!와 Microsoft가 차지하는 비중이 장난 아니구나.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2084&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008' rel='bookmark' title='Behavioral Classification on the Click Graph &#8211; WWW 2008'>Behavioral Classification on the Click Graph &#8211; WWW 2008</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/08/sigir-2010-papers2/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Behavioral Classification on the Click Graph &#8211; WWW 2008</title>
		<link>http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008</link>
		<comments>http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008#comments</comments>
		<pubDate>Tue, 08 Dec 2009 13:53:04 +0000</pubDate>
		<dc:creator>seunglee</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[click]]></category>
		<category><![CDATA[click-graph]]></category>
		<category><![CDATA[graph]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[random-walk]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1277</guid>
		<description><![CDATA[Prologue: 지난번에 소개한 Random Walks on the Click Graph의 저자들이 쓴 다른 논문입니다. International World Wide Web Conference, 줄여서 WWW라고 하는 컨퍼런스에 포스터로 나온 건데요(2008년), 구체적인 기술 내용까지 모두 이해하려면 이것 외에 이 논문도 읽어봐야 할 것 같습니다. 텍스트를 주제에 따라 분류하는 기술도 아직 완벽하지 않습니다. 그러니 사진 같은 멀티미디어 데이터를 분류하는 일은 오죽하겠습니까. 성인 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>Prologue: 지난번에 소개한 <a href="http://www.4four.us/article/2009/12/random-walks-on-the-click-graph/" target="_blank">Random Walks on the Click Graph</a>의 저자들이 쓴 다른 논문입니다. <a href="http://portal.acm.org/browse_dl.cfm?linked=1&amp;part=series&amp;idx=SERIES968&amp;coll=portal&amp;dl=ACM&amp;CFID=65746778&amp;CFTOKEN=56557914" target="_blank">International World Wide Web Conference</a>, 줄여서 WWW라고 하는 컨퍼런스에 포스터로 나온 건데요(2008년), 구체적인 기술 내용까지 모두 이해하려면 이것 외에 <a href="http://research.microsoft.com/en-us/um/people/szummer/papers/SzummerJaakkola-nips01.pdf" target="_blank">이 논문</a>도 읽어봐야 할 것 같습니다.</p>
<p>텍스트를 주제에 따라 분류하는 기술도 아직 완벽하지 않습니다. 그러니 사진 같은 멀티미디어 데이터를 분류하는 일은 오죽하겠습니까. 성인 이미지 필터링 같은 문제를 생각해보면 됩니다.<span id="more-1277"></span></p>
<p>문서에 들어있는 키워드만 고려하여 주제를 분류하면 이를 내용에 기반(content-based)했다고 합니다. 문서의 외부적인 조건 -웹페이지를 예로 들면, 누가 링크/추천했는지 같은 게 있겠네요- 은 무시하고 내용 그 자체에만 충실한 방식이죠.</p>
<p>반대로, 사람들이 그 문서를 어떻게 사용하는지에 따라서, 즉 그 문서를 둘러싼 외부 행위에 기반(bahavior-based)해서 분류를 하는 방법도 생각할 수 있습니다. <a href="http://www2008.org/papers/pp282.html" target="_blank">이 논문 Behavioral Classification on the Click Graph</a>에서는 클릭 그래프(Click Graph, &#8220;검색 쿼리&#8221; &#8211; &#8220;클릭한 문서&#8221;의 관계를 그래프로 표현한 것)를 활용해서 성인 이미지 필터링을 했다고 합니다.</p>
<p>구체적인 알고리즘에 대한 설명은 아무도 원하지 않으므로 패스(-_-)하는데, 한 가지 눈길을 끄는 점은 웹페이지를 무작위로 뽑아서 성인용인지를 판단한 게 아니라, 텍스트 내용만 보고 분류했을 때 애매한 페이지만 따로 뽑아서 행위 기반으로 분류했다는 겁니다.(웹페이지 안에는 이미지만 있는 게 아니라 텍스트도 있잖아요.)</p>
<p>이제부터는 추측입니다. 눈을 감고 조용히 상상해봅시다.</p>
<blockquote><p>마이크로소프트 연구소(Microsft Research)에서 열심히 일하던 저자들에게 어느 날 새로운 업무가 떨어집니다.</p>
<p>&#8220;웹페이지 중에서 성인 이미지가 들어 있는 것들만 골라내라.&#8221;</p>
<p>그들은 어떻게 할까 고민하다가 일단 텍스트 기반으로 필터링 필터링하기로 합니다. 이런.. 정확도가 별로 만족스럽지 않군요.</p>
<p>&#8216;이제 어쩐다&#8230;? 옳지! 잘 분류되지 않은 놈들만 따로 모아서 클릭 그래프 방식으로 분류해 보자.&#8217;</p>
<p>346,000개의 쿼리와 2,500,000개의 URL로 이루어진 클릭 그래프를 처리하는 초조한 시간이 지나가고 드디어 결과가 나왔습니다.</p>
<p>&#8216;오! 이 정도면 만족할 만한걸. 어서 논문 쓰자 +_+&#8217;</p></blockquote>
<p>상상 끝났습니다. 이제 눈 떠도 됩니다. 실제 이야기를 알 도리는 없지만, 혹시 이런 과정을 거쳐 이 논문이 세상에 나온 건 아닐까요? :) 결과로 나온 논문을 보면서 그들이 어떻게 이런 걸 하게 됐는지 상상의 나래를 펼쳐보는 것도 꽤 재미있더라고요.</p>
<p>아무튼 클릭 그래프에서 랜덤 워크 모델을 쓰니까 -텍스트 기반 필터에서는 잘 분류되지 않던 페이지에 대해서- 정확도가 80%까지 나왔다는 소식을 전하며 장황했던 글을 마칩니다. 관심 있는 분들은 이 논문과 프롤로그에서 링크한 논문을 같이 한 번 읽어보세요.</p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1277&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Random Walks on the Click Graph &#8211; SIGIR 2007</title>
		<link>http://www.4four.us/article/2009/12/random-walks-on-the-click-graph</link>
		<comments>http://www.4four.us/article/2009/12/random-walks-on-the-click-graph#comments</comments>
		<pubDate>Mon, 30 Nov 2009 17:06:14 +0000</pubDate>
		<dc:creator>seunglee</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[click]]></category>
		<category><![CDATA[click-graph]]></category>
		<category><![CDATA[graph]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[random-walk]]></category>
		<category><![CDATA[sigir]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1211</guid>
		<description><![CDATA[검색 사용자들의 클릭 정보를 활용해서 검색 품질을 높일 수 있다는 건 이미 널리 알려진 사실입니다. 쉽게 생각해도 사람들이 많이 클릭한 문서일수록 좋은 문서일 것 같잖아요. 하지만, 막상 적용하려고 하면 그리 간단하지만은 않습니다. 일단 악의적으로 특정 문서를 많이 클릭해서 많이 노출시키려는 사람들이 있지요. 이런 걸 스팸 또는 어뷰징(abusing)이라고 합니다. 또 악의는 없더라도 제목에 낚여서 사람들이 많이 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008' rel='bookmark' title='Behavioral Classification on the Click Graph &#8211; WWW 2008'>Behavioral Classification on the Click Graph &#8211; WWW 2008</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>검색 사용자들의 클릭 정보를 활용해서 검색 품질을 높일 수 있다는 건 이미 널리 알려진 사실입니다. 쉽게 생각해도 사람들이 많이 클릭한 문서일수록 좋은 문서일 것 같잖아요. 하지만, 막상 적용하려고 하면 그리 간단하지만은 않습니다. 일단 악의적으로 특정 문서를 많이 클릭해서 많이 노출시키려는 사람들이 있지요. 이런 걸 스팸 또는 어뷰징(abusing)이라고 합니다. 또 악의는 없더라도 제목에 낚여서 사람들이 많이 클릭한 문서가 있다면 역시 적절히 걸러줘야 할 겁니다.<span id="more-1211"></span></p>
<p>두 번째는 사람들의 관심과 클릭이 검색 결과 상단에 집중되기 때문에 나타나는 문제인데, 대부분의 문서에는 클릭이 아예 발생하지 않습니다. 아무리 좋은 문서라도요. 상위에 노출되기 때문에 많이 클릭되고, 또 많이 클릭되기 때문에 계속 상위에 노출되는 악순환이 생기는 거지요.</p>
<p>클릭 데이터를 쓰면 좋아지는 건 확실한데, 이런 부작용이 있다? 사람들이 이를 가만히 놓아둘 리 없죠. 수많은 연구자가 이를 해결할 수 있는, 아니 개선할 수 있는 저마다의 아이디어를 제안했습니다. 이번에 소개하는 <a href="http://portal.acm.org/citation.cfm?id=1277741.1277784&amp;coll=Portal&amp;dl=GUIDE&amp;CFID=79039809&amp;CFTOKEN=27704944" target="_blank">Random Walks on the Click Graph</a>도 그 중 하나입니다. 웹페이지의 하이퍼링크를 이용해서 좋은 문서를 골라내는 구글의 페이지랭크처럼, 검색 클릭 패턴으로부터 좋은 문서를 찾아내자는 것입니다.</p>
<p>클릭 그래프(Click Graph)라고 해서, 사용자가 입력한 쿼리(query)와 문서를 그래프의 점(vertex, node)으로, 클릭수를 edge로 나타냅니다. 쿼리-문서 쌍이 많이 클릭될수록 edge는 강해집니다. 아래 그림을 보면 사용자가 어떤 쿼리를 입력하고, 결과 중에 어떤 문서를 클릭했는지 나와 있습니다.(논문에서는 이 검색모델을 이미지 검색에 적용했기 때문에 이 글에서는 문서와 이미지라는 말을 같은 의미로 봐도 무방합니다.)</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-1216" title="Click Graph" src="http://www.4four.us/wordpress/wp-content/uploads/2009/12/click_graph1.png" alt="Click Graph" width="420" /></p>
<p>이 그래프 상에서 특정 노드(즉, 쿼리)에서 출발해서 edge를 따라 임의로 돌아다닙니다. 임의(random)라고 했습니다만, 정확히 말하면 edge가 강할수록 그 길(edge)을 따라갈 확률이 높습니다. 이렇게 돌아다니는 것을 랜덤 워크(Random Walk)라고 하는데, 정해진 횟수만큼 이동한 뒤 특정 문서에 도착할 확률이 얼마인지를 계산하는 거지요.</p>
<p>간단하게 수식으로 써볼게요. J 노드에서 출발해서 얼마 후에 K 노드에 도착할 확률을 P(K|J)라고 합시다. J가 쿼리이고 K가 문서라면, P(K|J)가 높을수록 문서가 쿼리에 잘 부합한다는 뜻이니까 K의 랭크를 높여서 검색결과 상위에 보여주면 되겠죠?</p>
<p>클릭 그래프에 적용해서 설명하자면, 쿼리 노드에서 시작해서 많이 클릭된 문서 노드로 이동하고, 그 문서를 많이 클릭한 다른 쿼리(B)를 찾아서 또 이동하고, B에 대해서 많이 클릭한 문서로 이동하기를 반복. 그러다 보면 정말 좋은 문서에 도착하는 거지요.(그 문서와 애초의 쿼리 사이에 클릭 관계가 없더라도요.) 괜찮은 아이디어 같죠?</p>
<p>그런데&#8230; 이 순서를 뒤집어도 말이 됩니다. 무슨 말이냐고요? 이렇게 생각해 봅시다. 사용자는 찾으려고 하는 영상을 먼저 마음속에 그립니다. 그리고 나서 그런 이미지를 찾을 수 있는 쿼리를 입력하는 거지요. 즉, 앞에서 얘기한 P(K|J)에서 앞뒤가 바뀐 겁니다. 이를 P&#8217;(K|J)라고 할까요? 사용자가 쿼리 J를 입력하게 됐을 때, 애초에 염두에 뒀던 이미지가 K였을 확률을 구하자는 얘깁니다</p>
<p>클릭 그래프로 설명하자면, 이번에는 이미지 노드에서 출발해서 쿼리 노드로, 다시 이미지를 거쳐 쿼리 노드에 도착합니다. 도착하고 나서, 어디서 출발했을 확률이 가장 높은지를 따져보는 거지요. 이 방식은 뒤(쿼리)에서부터 거꾸로 원인(즉, 처음에 생각한 영상)을 찾아 들어가기 때문에 Backward Walk라고 부릅니다. 쿼리에서부터 시작하는 첫 번째 방식은 Forward Walk구요.</p>
<p>이런 아이디어를 수식으로 표현하고 계산하려고 Transition Matrix, Bayes Rule 등을 쓰는데, 자세한 설명은 논문을 참조하시면 되겠습니다.</p>
<p>다른 건 그냥 접어놓고, Forward Walk 방식과 Backward Walk 방식 중에 어떤 게 더 좋은 결과를 낼 것 같나요?</p>
<p>이것도 역시 논문에 다 나와 있으니까 궁금하신 분은 한 번 읽어보세요 :)</p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1211&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/12/behavioral-classification-on-the-click-graph-www-2008' rel='bookmark' title='Behavioral Classification on the Click Graph &#8211; WWW 2008'>Behavioral Classification on the Click Graph &#8211; WWW 2008</a></li>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2009/12/random-walks-on-the-click-graph/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
	</channel>
</rss>

