<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>알아가는 즐거움 &#187; machine-learning</title>
	<atom:link href="http://www.4four.us/article/tag/machine-learning/feed" rel="self" type="application/rss+xml" />
	<link>http://www.4four.us</link>
	<description>아~ 하기 싫다~</description>
	<lastBuildDate>Mon, 30 Jan 2012 12:14:47 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3</generator>
		<item>
		<title>웹 항해일지: 얼굴 인식 기술 활용</title>
		<link>http://www.4four.us/article/2011/12/web-logbook-facial-recognition</link>
		<comments>http://www.4four.us/article/2011/12/web-logbook-facial-recognition#comments</comments>
		<pubDate>Fri, 16 Dec 2011 13:28:39 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[web]]></category>
		<category><![CDATA[anonymous-profiling]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[targeting]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=4238</guid>
		<description><![CDATA[얼굴 인식 기술을 다양한 분야에 활용한 사례가 보여서 소개한다. Face Recognition Technology Comes to Malls and Nightclubs 얼굴 인식 기술을 활용한 광고 기법 하나. 라스베가스의 어느 카지노에는 그 앞에 가면 자동으로 고객에게 맞는 레스토랑을 추천해주는 서비스가 있다고 한다. 인텔의 Anonymous Video Analytics 기술을 사용한 것인데, 그 사람의 얼굴을 보고 성별과 나이대를 추정해서 그에 어울리는 곳을 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2011/12/web-logbook-on-search' rel='bookmark' title='웹 항해일지: 검색 관련 소식들'>웹 항해일지: 검색 관련 소식들</a></li>
<li><a href='http://www.4four.us/article/2011/12/technology-review-article-on-ai' rel='bookmark' title='테크놀러지리뷰에 올라온 인공지능 관련 기사들'>테크놀러지리뷰에 올라온 인공지능 관련 기사들</a></li>
<li><a href='http://www.4four.us/article/2009/03/automatically-profiling-the-author-of-an-anonymous-text-2' rel='bookmark' title='Automatically Profiling the Author of an Anonymous Text'>Automatically Profiling the Author of an Anonymous Text</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>얼굴 인식 기술을 다양한 분야에 활용한 사례가 보여서 소개한다.</p>
<h3><a href="http://techland.time.com/2011/12/12/face-recognition-technology-comes-to-malls-and-nightclubs/" target=_blank>Face Recognition Technology Comes to Malls and Nightclubs</a></h3>
<p>얼굴 인식 기술을 활용한 광고 기법 하나. 라스베가스의 어느 카지노에는 그 앞에 가면 자동으로 고객에게 맞는 레스토랑을 추천해주는 서비스가 있다고 한다. 인텔의 Anonymous Video Analytics 기술을 사용한 것인데, 그 사람의 얼굴을 보고 성별과 나이대를 추정해서 그에 어울리는 곳을 추천해주는 것이다. 젊은 여성과 중년 남성의 취향이 같지는 않을 테니. 하나 더 재미있는 것은 센서를 써서 그 사람이 광고를 보고있는지를 판단하는 기능인데, 여러 사람이 있더라도 광고 디스플레이를 보고 있는 사람에게 타겟팅할 수 있겠구나.<span id="more-4238"></span></p>
<p>얼굴 인식 기술을 활용한 서비스 하나. <a href="http://scenetap.com/" target=_blank>SceneTap</a>이라는 스마트폰 앱이 있는데, 주요 기능은 저녁에 갈 만한 클럽이나 바를 추천해주는 것이다. 사용자의 얼굴을 보고 그에게 어울리는 곳을 추천해주는 방식은 물론 아니다 :) 카메라는 스마트폰이 아니라 클럽에 달려 있다. 그 카메라를 통해서 클럽에 입장한 사람수, 그들의 성비와 평균 나이대를 알아낸 뒤 그에 따라 사용자에게 적당한 곳을 추천해준다는 재미난 아이디어다. 인터넷에서 좋다는 카페나 식당을 찾아갔다가 기다리는 손님이 많아서 좌절한 경험이 꽤 있는데, 한국의 맛집앱에도 적용되면 인생살이가 좀 편해질 것 같다.</p>
<p>문제는 역시 프라이버시인데, 개인의 신원 식별이 아니라 성별과 나이대 같은 정보만 추출하는 것이라고 방어한다.</p>
<h3><a href="http://www.newscientist.com/article/mg21228424.900-facial-recognition-software-spots-family-resemblance.html" target=_blank>Facial recognition software spots family resemblance</a></h3>
<p>피카사의 얼굴 인식 기능을 써서 사진 정리하다가 가족의 사진을 나로 잘못 분류한 것을 보고 묘한 기분이 든 적이 있다. 그렇다면 아예 두 사람이 가족인지를 판별하기 위해 얼굴 인식 기능을 이용할 수 있을까? 이 기사에 소개된 연구 결과를 보면 가능성이 있는 듯하다.</p>
<p>연구진은 22개의 얼굴 특징을 이용해서 기계 학습을 시킨 끝에 사람보다 조금 더 정확하게 분류하는 알고리즘 개발에 성공했다고 한다. 이들은 이 용도로 쓰기에 적합한 얼굴 특징 6개를 찾아냈는데, 바로 눈의 색깔과 짙음(darkness), 피부의 색깔과 짙음, 코와 입 사이의 거리, 눈과 코 사이의 거리라고 한다. (응? 진짜 이것만으로 구분이 돼?)</p>
<p>학습 데이터로는 유명인 150명과 그 자녀의 사진을 썼는데, 지난 번에 <a href="http://www.4four.us/article/2011/12/research-on-emotions-in-speech" target=_blank>거짓말 탐지 연구를 위해 법정 발언을 분석</a>한 것도 그렇고 참 생각도 못한 다양한 데이터들을 가져다 분석하는 것 같다. 이 연구를 당장 어떻게 써먹을 수 있을지는 모르겠지만 일단 흥미로우니깐.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=4238&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2011/12/web-logbook-on-search' rel='bookmark' title='웹 항해일지: 검색 관련 소식들'>웹 항해일지: 검색 관련 소식들</a></li>
<li><a href='http://www.4four.us/article/2011/12/technology-review-article-on-ai' rel='bookmark' title='테크놀러지리뷰에 올라온 인공지능 관련 기사들'>테크놀러지리뷰에 올라온 인공지능 관련 기사들</a></li>
<li><a href='http://www.4four.us/article/2009/03/automatically-profiling-the-author-of-an-anonymous-text-2' rel='bookmark' title='Automatically Profiling the Author of an Anonymous Text'>Automatically Profiling the Author of an Anonymous Text</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2011/12/web-logbook-facial-recognition/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>음성에 실린 감정 분석 연구</title>
		<link>http://www.4four.us/article/2011/12/research-on-emotions-in-speech</link>
		<comments>http://www.4four.us/article/2011/12/research-on-emotions-in-speech#comments</comments>
		<pubDate>Fri, 09 Dec 2011 11:53:59 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[web]]></category>
		<category><![CDATA[emotion]]></category>
		<category><![CDATA[machine-learning]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=4208</guid>
		<description><![CDATA[기계적으로 말을 알아듣는 것에 만족하지 않고, 목소리에 담긴 감정까지 분석해서 활용하려는 다양한 연구들이 뉴욕타임스에 소개되었다. 스피드 미팅1에서 각 사람의 목소리를 분석해서 그가 호의적인지 아니면 시시껄렁한 사람인지(friendliness and flirtatiousness) 분석하려는 연구가 있고, 또 목소리만 가지고 그 사람이 취했는지를 판별하려는 연구가 있다. 화난 목소리인지를 판단하는 것은 조금 쉬울 것 같기도 한데, 이 사람이 지금 개그를 날리고 있는지 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/about' rel='bookmark' title='About'>About</a></li>
<li><a href='http://www.4four.us/article/2011/05/force-of-emotions' rel='bookmark' title='내 감정 사용법: 감정을 객관적으로 살펴보자'>내 감정 사용법: 감정을 객관적으로 살펴보자</a></li>
<li><a href='http://www.4four.us/article/2011/12/web-logbook-facial-recognition' rel='bookmark' title='웹 항해일지: 얼굴 인식 기술 활용'>웹 항해일지: 얼굴 인식 기술 활용</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>기계적으로 말을 알아듣는 것에 만족하지 않고, 목소리에 담긴 감정까지 분석해서 활용하려는 다양한 연구들이 <a href="http://www.nytimes.com/2011/12/04/business/lie-detection-software-parses-the-human-voice.html?_r=3&#038;ref=technology" target=_blank>뉴욕타임스에 소개</a>되었다. 스피드 미팅<sup><a href="http://www.4four.us/article/2011/12/research-on-emotions-in-speech#footnote_0_4208" id="identifier_0_4208" class="footnote-link footnote-identifier-link" title="4-minute speed-dating session, CSI에서도 본 것 같은데, 남녀 여러 명이 짧은 시간 돌아가면서 얘기하고 최종 파트너를 정하는 그런 미팅인 모양">1</a></sup>에서 각 사람의 목소리를 분석해서 그가 호의적인지 아니면 시시껄렁한 사람인지(friendliness and flirtatiousness) 분석하려는 연구가 있고, 또 목소리만 가지고 그 사람이 취했는지를 판별하려는 연구가 있다. 화난 목소리인지를 판단하는 것은 조금 쉬울 것 같기도 한데, 이 사람이 지금 개그를 날리고 있는지 알기는 어렵다고 한다 :)<span id="more-4208"></span></p>
<p>그중에서 가장 실용적인 건 아마도 거짓말 탐지기일 텐데, 목소리의 크기와 고저 변화, 단어 사이의 간격, &#8216;음.. 아..&#8217; 같은 소리과 신경질적인 웃음 같은 요소를 분석해서 거짓말을 탐지하려는 연구도 소개되어 있다. 이런 데 관심이 많은 곳은 역시 미국 공군. 영어 외에 아랍어와 중국어를 분석하는 알고리즘에 투자한다는 얘기가 나온다.</p>
<p>속임수를 잡아내는 수단이 목소리만 있는 건 아니다. 어떤 연구팀은 법정에서 거짓말로 밝혀진 발언들을 모아다가 거짓말할 때 자주 나오는 단어와 구절을 분석했고, 또 다른 교수는 -역시나 나중에 잘못된 것으로 밝혀진- 회사 중역들의 발언을 분석했다. 그에 따르면 그 중역들이 즐겨쓰는 말 중 하나는 &#8220;clearly, &#8220;very clearly&#8221;였다고 하니 다음에 그런 말을 많이 쓰는 사람을 만나면 경계심을 약간 높여도 좋겠다.</p>
<p>뉴스 기사이다 보니 흥미로운 응용 사례 위주로 얘기하고 있지만, 결국 이런 연구들의 목표는 아래와 같이 요약되는 것 같다.</p>
<blockquote><p>“The scientific goal is to understand how our emotions are reflected in our speech,” Dr. Jurafsky said. “The engineering goal is to build better systems that understand these emotions.”</p></blockquote>
<p>그밖에, 법정 녹취록을 연구 목적으로 갖다 썼다는 얘기, 경영학 교수가 연구에 써먹으려고 자기 학교의 전산언어학(Computational Linguisitcs) 수업을 청강(audit)했다는 얘기가 기억에 남는다.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<ol class="footnotes"><li id="footnote_0_4208" class="footnote">4-minute speed-dating session, CSI에서도 본 것 같은데, 남녀 여러 명이 짧은 시간 돌아가면서 얘기하고 최종 파트너를 정하는 그런 미팅인 모양</li></ol><img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=4208&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/about' rel='bookmark' title='About'>About</a></li>
<li><a href='http://www.4four.us/article/2011/05/force-of-emotions' rel='bookmark' title='내 감정 사용법: 감정을 객관적으로 살펴보자'>내 감정 사용법: 감정을 객관적으로 살펴보자</a></li>
<li><a href='http://www.4four.us/article/2011/12/web-logbook-facial-recognition' rel='bookmark' title='웹 항해일지: 얼굴 인식 기술 활용'>웹 항해일지: 얼굴 인식 기술 활용</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2011/12/research-on-emotions-in-speech/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>테크놀러지리뷰에 올라온 인공지능 관련 기사들</title>
		<link>http://www.4four.us/article/2011/12/technology-review-article-on-ai</link>
		<comments>http://www.4four.us/article/2011/12/technology-review-article-on-ai#comments</comments>
		<pubDate>Thu, 01 Dec 2011 23:59:47 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[web]]></category>
		<category><![CDATA[artificial-intelligence]]></category>
		<category><![CDATA[decision-making]]></category>
		<category><![CDATA[inference]]></category>
		<category><![CDATA[internet]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[magazine]]></category>
		<category><![CDATA[personalization]]></category>
		<category><![CDATA[probability]]></category>
		<category><![CDATA[recommendation]]></category>
		<category><![CDATA[uncertainty]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=4184</guid>
		<description><![CDATA[테크놀러지리뷰 사이트에서 인공지능 관련 기사를 몇 개 발견했다. 나로서는 도저히 안 읽을 수 없게 만드는 제목들이다. Google and Microsoft Talk Artificial Intelligence 구글의 피터 노빅(Peter Norvig)과 마이크로소프트의 에릭 호비츠(Eric Horvitz)에게 인공지능 관련 질문을 던지고 두 사람이 대답한 내용을 기사에 간단히 정리해놓았다. 두 명이 함께 인터뷰를 하다보니 일부러 다른 사람이 말한 내용과 중복되지 않게 얘기한 것 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2011/12/web-logbook-facial-recognition' rel='bookmark' title='웹 항해일지: 얼굴 인식 기술 활용'>웹 항해일지: 얼굴 인식 기술 활용</a></li>
<li><a href='http://www.4four.us/article/2011/10/personalized-agent' rel='bookmark' title='개인화 서비스에 대한 개인적 생각'>개인화 서비스에 대한 개인적 생각</a></li>
<li><a href='http://www.4four.us/article/2011/10/bandinlunis-recommendation-service' rel='bookmark' title='반디앤루니스의 추천inside 서비스'>반디앤루니스의 추천inside 서비스</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><a href="http://www.technologyreview.com/" target=_blank>테크놀러지리뷰 사이트</a>에서 인공지능 관련 기사를 몇 개 발견했다. 나로서는 도저히 안 읽을 수 없게 만드는 제목들이다.</p>
<h3><a href="http://www.technologyreview.com/computing/39156" target=_blank>Google and Microsoft Talk Artificial Intelligence</a></h3>
<p>구글의 피터 노빅(Peter Norvig)과 마이크로소프트의 에릭 호비츠(Eric Horvitz)에게 인공지능 관련 질문을 던지고 두 사람이 대답한 내용을 기사에 간단히 정리해놓았다. 두 명이 함께 인터뷰를 하다보니 일부러 다른 사람이 말한 내용과 중복되지 않게 얘기한 것 같기는 한데, 암튼 학습에 사용할 레이블링된 데이터가 없는 경우에 기계학습이 어렵지 않냐는 질문에, 한 사람은 Active Learning을, 다른 한 사람은 Reinforcement Learning을 해결책으로 제시한다. 최근에 본 인공지능 데모 중에 인상깊었던 것을 물으니, 한 사람은 Unsupervised Learning을 (구체적으로는 말하지 않았다. 근데 이것도 학습 데이터 부족에 대한 대안이 될 수 있겠다.), 다른 사람은 Apprentice Learning (learning by example)을 언급하면서, 조종사를 관찰함으로써 스스로 비행하는 법을 배우는 헬리콥터를 예로 든다.<span id="more-4184"></span></p>
<p>하지만 불확실함 속에서의 의사결정 문제에 있어, 규칙 기반(rule-based) 방식이 가지는 한계를 지적하고 확률론적인 접근 방식의 중요함을 말할 때는 서로 입을 모았다.</p>
<h3><a href="http://www.technologyreview.com/computing/19782" target=_blank>Software That Learns from Users</a></h3>
<p>이 기사에서는 미국 DARPA가 지원하는 <a href="http://www.ai.sri.com/project/CALO" target=_blank>CALO</a>라는 인공지능 프로젝트를 소개하고 있다. CALO는 Cognitive Assistant that Learns and Organizes의 약자다. 미리 프로그래밍 되지 않았더라도 스스로 환경을 학습하고 적응해서 사용자를 도울 수 있는 인공지능 시스템을 만드는 것이 목표라고 하는데, 이미 여기저기서 많이 들어본 말이고, 이 프로젝트의 차별점은 기존에 존재하는 다양한 테크닉들을 하나의 거대한 시스템으로 묶어서 서로 시너지를 발휘할 수 있는 구조를 만들겠다는 것 같다. 여러 소스로부터 들어오는 불확실한 데이터를 효과적으로 처리하는 방법으로 확률과 로직을 결합하겠다는데, 그걸 위해서 <a href="https://pal.sri.com/Plone/framework/Components/learning-applications/probabilistic-consistency-engine-jw" target=_blank>Probability Consistency Engine</a>이란 걸 만들었다고 하네.</p>
<p>CALO 프로젝트 참여자는 아니지만 기사에 인용된 Alan Qi의 말에 공감한다.</p>
<blockquote><p>The unification of logic and probability is an important endeavor for the field of artificial intelligence. Combining these two approaches, Qi says, is far better than using either alone. Probabilistic approaches can handle noise and uncertainty well, while a logical structure is best for handling meaning.</p></blockquote>
<h3><a href="http://www.technologyreview.com/web/37865" target=_blank>Can AI Be Your Guide to the Web?</a></h3>
<p>위에서 언급한 CALO로부터 파생되어 나온 또 하나의 서비스 <a href="http://trap.it/" target=_blank>TrapIt</a>을 소개하는 기사다. (이미 상용화된 다른 서비스는 다름아닌 애플 아이폰4s의 Siri다.) 주제에 대해서 가장 적합한 정보를 찾고, 제공된 정보에 대한 사용자 반응으로부터 배우는 기계학습 기술을 써서 내가 좋아할 만한 내용을 추천해주는 서비스라는데, 얼마나 똑똑한지 잠깐 써보려고 했으나 영어 때문에 애로사항이 꽃피었다. 그래도 그동안 갈구하던 개념의 서비스가 나왔으니 시간을 두고 조금씩 써봐야지.</p>
<p>그러고보니 많고 많은 소설 북마크 서비스 중에 내가 즐겨찾기한 페이지를 분석해서 새로운 페이지를 추천해주는 기능이 있는 건 없나? 크롭 웹브라우저 보니까 Google Similar Pages를 이용해서 현재 보는 거랑 비슷한 웹페이지 찾아주는 확장 기능도 있고 그렇던데&#8230;<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=4184&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2011/12/web-logbook-facial-recognition' rel='bookmark' title='웹 항해일지: 얼굴 인식 기술 활용'>웹 항해일지: 얼굴 인식 기술 활용</a></li>
<li><a href='http://www.4four.us/article/2011/10/personalized-agent' rel='bookmark' title='개인화 서비스에 대한 개인적 생각'>개인화 서비스에 대한 개인적 생각</a></li>
<li><a href='http://www.4four.us/article/2011/10/bandinlunis-recommendation-service' rel='bookmark' title='반디앤루니스의 추천inside 서비스'>반디앤루니스의 추천inside 서비스</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2011/12/technology-review-article-on-ai/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>컴퓨터 오케스트라와 콘체르토를</title>
		<link>http://www.4four.us/article/2011/03/music-plus-one</link>
		<comments>http://www.4four.us/article/2011/03/music-plus-one#comments</comments>
		<pubDate>Thu, 17 Mar 2011 10:26:08 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[cacm]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[music]]></category>
		<category><![CDATA[역시ICML논문은어려워]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=3335</guid>
		<description><![CDATA[우리는 별다른 수고 없이도 소리를 듣고 느끼지만 귀와 뇌가 없는 컴퓨터에게 공기의 진동으로부터 음악을 듣는 것은 특별한 노력이 필요한 일이다. 어렵긴 하지만 그래도 그럴 만한 가치가 있다. 기계가 음악을 들을 줄 알게 되면 무엇이 가능해지는지 이 동영상을 보자. 조유진(Yoo-jin Cho)이라는 분이 바이올린 협주곡을 연주하는 장면이다. 협주곡이라면 독주자(soloist)와 오케스트라가 함께 연주한다는 뜻인데, 오케스트라는 어디에 있을까? 바로 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/01/nodame-cantabile' rel='bookmark' title='노다메 칸타빌레: 피아노가 치고 싶어지는 드라마'>노다메 칸타빌레: 피아노가 치고 싶어지는 드라마</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
<li><a href='http://www.4four.us/article/2009/03/automatically-profiling-the-author-of-an-anonymous-text-2' rel='bookmark' title='Automatically Profiling the Author of an Anonymous Text'>Automatically Profiling the Author of an Anonymous Text</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><!-- WSA: rules for context 'example-post-bottom' did not apply -->우리는 별다른 수고 없이도 소리를 듣고 느끼지만 귀와 뇌가 없는 컴퓨터에게 공기의 진동으로부터 음악을 듣는 것은 특별한 노력이 필요한 일이다. 어렵긴 하지만 그래도 그럴 만한 가치가 있다. 기계가 음악을 들을 줄 알게 되면 무엇이 가능해지는지 이 <a href="http://www.music.informatics.indiana.edu/papers/icml10/smc09/yoo-jin_cho_sibelius_mvmt1.mov" target="_blank">동영상</a>을 보자. 조유진(Yoo-jin Cho)이라는 분이 바이올린 협주곡을 연주하는 장면이다. 협주곡이라면 독주자(soloist)와 오케스트라가 함께 연주한다는 뜻인데, 오케스트라는 어디에 있을까? 바로 컴퓨터 속으로 들어갔다.</p>
<p><a href="http://www.music.informatics.indiana.edu/papers/icml10/smc09/yoo-jin_cho_sibelius_mvmt1.mov"><img class="aligncenter size-full wp-image-3337" title="바이올린 협주" src="http://www.4four.us/wordpress/wp-content/uploads/2011/03/concerto.jpg" alt="" width="510" /></a></p>
<p>위의 링크는 Music Plus One이라는 프로젝트의 데모 영상이다.<span id="more-3335"></span> 이 연구의 목적은 동영상에서처럼 솔로로 연주하는 사람에 맞추어 오케스트라 파트를 스스로 연주하는 시스템을 구현하는 것이다. 그 결과가 2010년 ICML(International Conference on Machine Learning)에 <a href="http://www.icml2010.org/papers/904.pdf" target="_blank">Music Plue One and Machine Learning</a>이라는 제목으로 발표되었고, CACM 3월호 Research Highlights 섹션에도 <a href="http://cacm.acm.org/magazines/2011/3/105321-the-informatics-philharmonic/fulltext" target="_blank">소개</a>되었다.</p>
<div class="alignright"><img class="aligncenter size-full wp-image-3339" title="HMM for note" src="http://www.4four.us/wordpress/wp-content/uploads/2011/03/hmm_note.jpg" alt="" width="200" /></div>
<p>협주를 하려면 당연하게도 먼저 상대방의 소리를 듣는 법부터 배워야 한다. 간단해 보이지만 기계 입장에서는 악보를 아는 상태에서 연주 소리를 따라가는 것부터도 쉽지 않다. 우선 물리적으로 소리를 감지한 순간부터 처리하는 동안 발생하는 딜레이가 있으며, 빨리 따라가려고 서두른 나머지 나지도 않은 소리를 들어서도 곤란하다. 또, 협연이라는 특성상 오케스트라 스스로 내는 소리와 솔로 연주를 구분하는 것도 필요하다. 이런 다양한 상황에 유연하게 대처하기 위해 연구자들이 사용한 방식은 HMM(Hidden Markov Model)이다.</p>
<p>HHM에서는 시간에 따라 상태가 변하며, 각 상태마다 특정한 현상을 만들어낼 확률을 가지고 있다. 이 경우에는 오른쪽 그림처럼 악보의 모든 음표에 대해 어택-sust 상태 그래프가 있고, 매 프레임(30fps할 때 그 프레임)에서 감지된 오디오 신호로부터 현재 상태를 추정한다.</p>
<div class="alignleft"><img class="aligncenter size-full wp-image-3343" title="composite_rhythm" src="http://www.4four.us/wordpress/wp-content/uploads/2011/03/composite_rhythm.jpg" alt="" width="200" /></div>
<p>듣기의 다음 단계는 솔로 연주에 맞추어 오케스트라를 진짜로 연주하는 일이다. 리허설을 통해 독주자와 맞춰가는 과정이 필요한 것은 기계 오케스트라나 진짜 오케스트라나 별반 다르지 않다. 연습을 통해 솔로 연주에 적응(adapt)하는 것이다. 게데가, 연주자에 따른 차이 뿐만 아니라 연주 중간에 시시각각 달라지는 템포 등 다양한 상황에도 순간적으로 맞출 수 있는 모델이 필요하다. 그래서 이 연구에서는 독주자와 오케스트라의 소리가 합쳐진 리듬 모형을 만들어두고 (왼쪽 그림), 리허설을 통해 혹은 실제 연주 중에 들린 소리에 따라 자기가 소리를 낼 타이밍을 예측하고 조정하는 방식을 사용했다고 한다.</p>
<p>내용이 어려워지려고 하니까 급히 마무리하는 감이 있지만(&#8230;) 결국 컴퓨터가 협주하는 오케스트라란 수학 모형을 이용해서 솔로 연주 소리를 인식하고, 스스로 연주할 타이밍을 계산해서 미리 녹음된 음을 적당한 템포로 재생하는 것이다. 이렇게 글로 쓰면 밋밋하기 그지없지만, 정말로 이런 시스템이 주변에 있어서 보통 사람들도 쉽게 자기만의 오케스트라와 콘체르토를 연주할 수 있다면 무척 멋지지 않을까?</p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=3335&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2009/01/nodame-cantabile' rel='bookmark' title='노다메 칸타빌레: 피아노가 치고 싶어지는 드라마'>노다메 칸타빌레: 피아노가 치고 싶어지는 드라마</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
<li><a href='http://www.4four.us/article/2009/03/automatically-profiling-the-author-of-an-anonymous-text-2' rel='bookmark' title='Automatically Profiling the Author of an Anonymous Text'>Automatically Profiling the Author of an Anonymous Text</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2011/03/music-plus-one/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
<enclosure url="http://www.music.informatics.indiana.edu/papers/icml10/smc09/yoo-jin_cho_sibelius_mvmt1.mov" length="122053498" type="video/quicktime" />
		</item>
		<item>
		<title>Bias-Variance Tradeoff: 경험에서 배울 때 주의사항</title>
		<link>http://www.4four.us/article/2010/11/bias-variance-tradeoff</link>
		<comments>http://www.4four.us/article/2010/11/bias-variance-tradeoff#comments</comments>
		<pubDate>Sat, 20 Nov 2010 10:44:29 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[thought]]></category>
		<category><![CDATA[algorithm-for-life]]></category>
		<category><![CDATA[bias]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[risk]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2713</guid>
		<description><![CDATA[기계학습, 통계적 추론(Statistical Inference)을 공부하다 보면 언젠가는 Bias-Variance Tradeoff라는 개념을 만나게 된다. 사실, 아무리 기를 써도 피할 수 없다 :) Bias의 사전적 의미는 &#8220;편이&#8221;, &#8220;선입견&#8221;, &#8220;편견&#8221;, &#8220;성향&#8221;, &#8220;치우침&#8221;, Variance는 &#8220;변화&#8221;, &#8220;편차&#8221;, &#8220;분산&#8221;이다. 기계학습의 문맥에서 이들의 의미는 &#8216;학습 모형이 입력 데이터에 얼마나 의존하는가&#8217;라고 이해하면 쉬울 것 같다. Bias가 높다 / 낮다는 말의 의미를 혼동하기 쉬운데, 내가 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>기계학습, 통계적 추론(Statistical Inference)을 공부하다 보면 언젠가는 Bias-Variance Tradeoff라는 개념을 만나게 된다. 사실, 아무리 기를 써도 피할 수 없다 :) Bias의 사전적 의미는 <a href="http://www.4four.us/article/2010/07/sigir-2010-papers1#comments" target=_blank>&#8220;편이&#8221;</a>, &#8220;선입견&#8221;, &#8220;편견&#8221;, &#8220;성향&#8221;, &#8220;치우침&#8221;, Variance는 &#8220;변화&#8221;, &#8220;편차&#8221;, &#8220;분산&#8221;이다. 기계학습의 문맥에서 이들의 의미는 &#8216;학습 모형이 입력 데이터에 얼마나 의존하는가&#8217;라고 이해하면 쉬울 것 같다. Bias가 높다 / 낮다는 말의 의미를 혼동하기 쉬운데, 내가 찾아낸 헷갈리지 않는 설명은 이렇다.</p>
<p>Bias, 즉 선입관이 크면, (좋게 말해서) 줏대가 있고 (나쁘게 말해서) 고집이 세기 때문에 새로운 경험을 해도 거기에 크게 휘둘리지 않는다. 평소 믿음과 다른 결과가 관찰되더라도 한두 번 갖고는 콧방귀도 안 뀌며 생각의 일관성을 중시한다. (High Bias, Low Variance) 반대로 선입관이 작으면, (좋게 말하면) 사고가 유연하고 (나쁘게 말하면) 귀가 얇기 때문에 개별 경험이나 관찰 결과에 크게 의존한다. 새로운 사실이 발견되면 최대한 그걸 받아들이려고 하는 것이다. 그래서 어떤 경험을 했느냐에 따라서 최종 형태가 왔다갔다한다. (High Variance, Low Bias)<span id="more-2713"></span></p>
<p>일란성 쌍둥이가 경제적 능력과 가풍이 크게 다른 두 집안에 입양되었다고 하자. 20년 후 그들은 서로 얼마나 달라져 있을까? 유전적으로 타고난 Bias가 높다면 환경의 차이에도 불구하고 교육으로 학습된 개인차는 상대적으로 작을 것이며, Variance가 크다면 둘은 정말 완전히 다른 사람이 되어 있을 것이다.<sup><a href="http://www.4four.us/article/2010/11/bias-variance-tradeoff#footnote_0_2713" id="identifier_0_2713" class="footnote-link footnote-identifier-link" title="수식을 안 적으려고 나름대로 비유한 것이다. Bias와 Variance 용어의 정의가 궁금한 사람은 따로 책을 찾아보도록 하자.">1</a></sup></p>
<h3>이 개념이 기계학습에서 왜 중요할까?</h3>
<p><a href="http://commons.wikimedia.org/wiki/File:Overfitting.svg" target=_blank><img src="http://www.4four.us/wordpress/wp-content/uploads/2010/11/overfitting.png" alt="" title="Overfitting" width="200" height="200" class="alignright size-full wp-image-2715" /></a>기계학습이 다루는 중요한 문제 중 하나는, 주어진 데이터에 귀납적인 알고리즘을 적용해서 잘 분류하는 모형을 찾는 것이다. 그런데 이런저런 제약이 많아서 데이터 전체를 살펴볼 수는 없고, 일부만 샘플링해서 학습을 해야 한다. 이때 모형마다 표현할 수 있는 능력이 다르기 때문에 문제의 복잡도에 따라서 적당한 모형을 고르는 것이 중요하다. 닭 잡는 데 소 잡는 칼을 쓰는 것도, 바늘 들고 소 잡겠다고 설치는 것도 모두 현명한 일이 아니니까. 위키피디아에서 가져온 오른쪽 그림에서 녹색 곡선이 소잡는 칼인데, 과욕이 불러온 참사를 목격할 수 있다. 검은선은 적당하게 분류한 경우이고, 만약 이런 데이터를 곡선이 아닌 직선으로 분류하려고 하면 어떤 일이 생길지를 생각해보자. 그게 바로 바늘이다.</p>
<p>세상일이 복잡다단한데도 자기만의 잣대로 너무 단순하게 해석해버리는 사람을 우리는 순진(naive)하다고 한다. 그런 사람이 내놓는 결론은 정확도가 낮아서 신뢰하기 힘들다. 반면에, 자기 경험에 지나치게 생각이 맞춰진(overfitting) 사람의 의견은 그 경험과 조금만 상황이 달라져도 역시 신뢰하기 어렵다. 일부 샘플을 과신해서 그 하나하나에 다 맞추려다 보니 보편성을 잃어버린 것이다. 그렇다고 다시 변화에 보수적인 태도를 취하면, 일관성을 중시하려다 유연성을 잃으면 경험에서 배우는 게 적고 스스로의 능력에 한계를 지우게 된다. 그 결과 다시 순진해진다.</p>
<p>이렇게 하나를 추구하면 다른 하나를 희생해야 하기 때문에 Bias와 Variance는 서로 트레이드오프(tradeoff) 관계에 있다고 한다. 결국 답은 이 둘의 합이 최소가 되도록 모델링을 잘 해야 한다는 것인데, 통계학에는 이 Bias와 Variance의 합을 일컫는 용어가 이미 있다. 바로 위험(risk)이다.<sup><a href="http://www.4four.us/article/2010/11/bias-variance-tradeoff#footnote_1_2713" id="identifier_1_2713" class="footnote-link footnote-identifier-link" title="투자 이론에서 말하는 위험과의 의미 차이를 비교해보는 것도 재미있겠다.">2</a></sup> Bias, Variance, Risk 이런 개념들을 창안한 학자들이 이름 지을 때는 경험을 통해서 일상용어 중 적당한 것을 갖다 붙인 것이겠지만, 뒤늦게 공부하는 후학(-_-)으로서는 거꾸로 이런 학술용어의 의미를 일상에서 곱씹으며 많은 생각을 하게 된다.</p>
<p>경험으로부터 어떻게 배워야 할까? 기계학습에는 이런 위험을 최소화하는 수학적 방법이 있다지만, 우리 삶에서 위험을 최소화하는 알고리즘은 어디에 있을까? 아니, 있기는 할까?</p>
<h3>참고자료</h3>
<ol>
<li>Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, 2008</li>
<li>All of Statistics: A Concise Course in Statistical Inference, 1ed, Larry Wasserman, 2004</li>
</ol>
<p><!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<ol class="footnotes"><li id="footnote_0_2713" class="footnote">수식을 안 적으려고 나름대로 비유한 것이다. Bias와 Variance 용어의 정의가 궁금한 사람은 따로 책을 찾아보도록 하자.</li><li id="footnote_1_2713" class="footnote">투자 이론에서 말하는 위험과의 의미 차이를 비교해보는 것도 재미있겠다.</li></ol><img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2713&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/07/sigir-2010-papers1' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/11/bias-variance-tradeoff/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>LDA 실습: 이 블로그의 주제는?</title>
		<link>http://www.4four.us/article/2010/11/lda-my-blog-topic-trend</link>
		<comments>http://www.4four.us/article/2010/11/lda-my-blog-topic-trend#comments</comments>
		<pubDate>Sun, 14 Nov 2010 12:42:22 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[note]]></category>
		<category><![CDATA[blog]]></category>
		<category><![CDATA[document]]></category>
		<category><![CDATA[latent-dirichlet-allocation]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[programming]]></category>
		<category><![CDATA[python]]></category>
		<category><![CDATA[stemming]]></category>
		<category><![CDATA[topic-model]]></category>
		<category><![CDATA[unsupervised-learning]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2679</guid>
		<description><![CDATA[LDA(Latent Dirichlet Allocation)로 검색하다가 아이추판다님 블로그에서 재미난 글을 발견하고 나도 따라 해봤다. 블로그를 시작한 2007년 8월 27일부터 지금까지 작성한 총 136개 포스트를 대상으로 LDA를 돌렸다. 더 이상 직접 구현해 본답시고 삽질하지 않기로 했으므로 인터넷에서 파이썬으로 구현된 LDA 코드를 구했다. 한글 문서를 다룰 때 항상 문제가 되는 어근 추출은 국민대학교 강승식 교수님이 공개한 형태소분석기를 사용해 명사만 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply' rel='bookmark' title='LDA(Latent Dirichlet Allocation): 겉핥기'>LDA(Latent Dirichlet Allocation): 겉핥기</a></li>
<li><a href='http://www.4four.us/article/2007/12/programming-collective-intelligence' rel='bookmark' title='Programming Collective Intelligence: 첫인상'>Programming Collective Intelligence: 첫인상</a></li>
<li><a href='http://www.4four.us/article/2007/09/acm-magazine' rel='bookmark' title='ACM 잡지'>ACM 잡지</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>LDA(Latent Dirichlet Allocation)로 검색하다가 아이추판다님 블로그에서 <a href="http://nullmodel.egloos.com/1912746" target=_blank>재미난 글</a>을 발견하고 나도 따라 해봤다.</p>
<p>블로그를 시작한 2007년 8월 27일부터 지금까지 작성한 총 136개 포스트를 대상으로 LDA를 돌렸다. 더 이상 직접 구현해 본답시고 삽질하지 않기로 했으므로 인터넷에서 파이썬으로 구현된 LDA 코드를 구했다. 한글 문서를 다룰 때 항상 문제가 되는 어근 추출은 국민대학교 강승식 교수님이 공개한 형태소분석기를 사용해 명사만 뽑는 방식으로 해결했다. 이걸로 준비는 끝, 결과를 살펴보자.<span id="more-2679"></span></p>
<h3>우선, 이 블로그의 주제는?</h3>
<p>LDA가 주제의 개수까지 자동으로 찾아주지는 않는다&#8230;만 어차피 내가 쓰는 글은 다 거기서 거기이므로 주제 개수를 4 ~ 6개로 돌려보고 가장 그럴듯한 결과를 내는 5로 정했다. 3년 넘게 운영했는데 주제가 고작 5개라니.. 과연 편협한 블로그가 아닌가 ㅋㅋ<sup><a href="http://www.4four.us/article/2010/11/lda-my-blog-topic-trend#footnote_0_2679" id="identifier_0_2679" class="footnote-link footnote-identifier-link" title="사실은 주제 개수를 10으로 해도 나름 의미있는 분류가 나오기는 하는데 그냥 해석 편의상&amp;#8230;">1</a></sup></p>
<p>아래는 주제별로 관련성이 높게 나온 단어 목록이다.</p>
<p>주제 1: 시간  영화 이야기 우리 정도 보고 하나 무척 사진 기억 모습 스스로 아들 느낌 결국<br />
주제 2: 책 저자 내용 이해 설명 연구 필요 방식 우리 스스로 지금 컴퓨터 가장 시작 무엇<br />
주제 3: 게임이론 위험 펀드 얼마 게임 수익 전략 예측 행동 결과 경제학 알파 이론 포트폴리오 시장<br />
주제 4: 문서 논문 단어 검색 결과 쿼리 분류 키워드 클릭 얼마 사용자 알고리즘 표현 중요 방식<br />
주제 5: 파일 프로그램 기능 검색 블로그 사용 사이트 태그 하나 관리 인터넷 인터페이스 얼마 입력 추가</p>
<p>LDA가 찾아낸 주제가 항상 명쾌하게 해석되는 건 아니지만 각 주제를 대충 아래와 같이 이름 지어도 될 것 같다.</p>
<p>주제 1: 감상 (영화, 경험)<br />
주제 2: 독서<br />
주제 3: 경제 / 경영 / 투자<br />
주제 4: 검색 연구<br />
주제 5: 컴퓨터: 소프트웨어, 유저 인터페이스, 블로그</p>
<p>흠, 꽤 그럴듯한걸 :)</p>
<h3>다음으로, 주제의 변화, 즉 트렌드를 살펴보자!</h3>
<p>각각의 글에 대한 주제 가중치의 변화 추이를 살펴보면 나의 관심이 어떻게 바뀌어왔는지를 알 수 있을 것이다. 윈도우 크기를 5로 잡아서 이동 평균(moving average) 그래프를 그렸다.</p>
<p><a href="http://www.4four.us/wordpress/wp-content/uploads/2010/11/topic_trend_101114.png"><img src="http://www.4four.us/wordpress/wp-content/uploads/2010/11/topic_trend_101114-300x98.png" alt="" title="블로그 주제 변화 추이" width="650" class="alignnone size-medium wp-image-2680" /></a></p>
<p>지난 3년의 기억이 주마등처럼 스쳐간다.</p>
<ul>
<li>블로그를 개설하고 책 감상문을 열심히 올리다가 곧 시들해졌지만 최근에 다시 독후감 러쉬를 한 게 드러난다.</li>
<li>한때 프로그래밍이나 유저 인터페이스 관련 얘기를 한 덕분에 컴퓨터 주제가 상승세를 탔으나 이제는 완전 하락세로 들어섰다.</li>
<li>최근에는 투자 이론이나 독후감에 다소 주춤하지만, 그전까지만 해도 꽤 열심히 검색 관련 연구를 소개하곤 했었지.</li>
<li>이전에는 돈에 관련된 얘기는 가계부 정도밖에 없었는데, 현대 투자 이론(Modern Portfolio Theory)을 접하면서 투자나 펀드 평가, 또 게임이론 같은 데로 관심이 확장된 게 노란색 선에 나타난다.</li>
</ul>
<p>그냥 재미로 시작했는데 이거 진짜로 재밌네. 엠티 끝나고 남은 시간에 혼자 연구소에서 코딩하고 있는 건 좀 안습이지만.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<ol class="footnotes"><li id="footnote_0_2679" class="footnote">사실은 주제 개수를 10으로 해도 나름 의미있는 분류가 나오기는 하는데 그냥 해석 편의상&#8230;</li></ol><img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2679&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply' rel='bookmark' title='LDA(Latent Dirichlet Allocation): 겉핥기'>LDA(Latent Dirichlet Allocation): 겉핥기</a></li>
<li><a href='http://www.4four.us/article/2007/12/programming-collective-intelligence' rel='bookmark' title='Programming Collective Intelligence: 첫인상'>Programming Collective Intelligence: 첫인상</a></li>
<li><a href='http://www.4four.us/article/2007/09/acm-magazine' rel='bookmark' title='ACM 잡지'>ACM 잡지</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/11/lda-my-blog-topic-trend/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>LDA(Latent Dirichlet Allocation): 겉핥기</title>
		<link>http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply</link>
		<comments>http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply#comments</comments>
		<pubDate>Sun, 07 Nov 2010 08:01:39 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[classification]]></category>
		<category><![CDATA[document]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[latent-dirichlet-allocation]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[model]]></category>
		<category><![CDATA[topic-model]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2589</guid>
		<description><![CDATA[배경 설명 정보검색 등에서 문서 모델링은 중요한 의미가 있다. 위험을 무릅쓰고 간단하게 말하자면, 문서 모델링이란 개별 문서, 더 나아가 코퍼스(=문서 컬렉션)를 표현하는 방법을 찾는 것이다. 다양한 활용분야가 있겠지만 주제 분류나 문서 간 유사도 계산 등에 많이 쓰인다. Generative Model 어떤 확률분포와 그 파라미터가 있다고 할 때, 그로부터 랜덤 프로세스에 따라 데이터를 생성하는 관점의 모델이다. 문서 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/11/lda-my-blog-topic-trend' rel='bookmark' title='LDA 실습: 이 블로그의 주제는?'>LDA 실습: 이 블로그의 주제는?</a></li>
<li><a href='http://www.4four.us/article/2011/12/measuring-influence' rel='bookmark' title='영향력을 측정하는 방법'>영향력을 측정하는 방법</a></li>
<li><a href='http://www.4four.us/article/2010/03/document-quality-measurement' rel='bookmark' title='문서의 품질을 자동으로 측정할 수 있을까?'>문서의 품질을 자동으로 측정할 수 있을까?</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<h3>배경 설명</h3>
<p>정보검색 등에서 문서 모델링은 중요한 의미가 있다. 위험을 무릅쓰고 간단하게 말하자면, 문서 모델링이란 개별 문서, 더 나아가 코퍼스(=문서 컬렉션)를 표현하는 방법을 찾는 것이다. 다양한 활용분야가 있겠지만 주제 분류나 문서 간 유사도 계산 등에 많이 쓰인다.<span id="more-2589"></span></p>
<h4>Generative Model</h4>
<p>어떤 확률분포와 그 파라미터가 있다고 할 때, 그로부터 랜덤 프로세스에 따라 데이터를 생성하는 관점의 모델이다. 문서 모델링의 말로 설명하면, 문서의 주제 분포와 각 주제별로 특정 단어를 생성할 확률을 알고 있으면, 특정 문서가 만들어질 확률을 계산할 수 있다는 얘기다.</p>
<h3>개념 학습</h3>
<h4>Latent Dirichlet Allocation이란?</h4>
<p>LDA(Latent Dirichlet Allocation)는 문서 같은 데이터의 집합에 대한 Generative Probabilistic Model이다. 이건 정의도 아니거니와 LDA에 대해 별로 설명도 안 되니까 그냥 처음부터 구체적인 과정을 살펴보자. 아래는 모델에서 하나의 문서를 생성하는 절차를 보여준다.</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2598" title="pseudocode" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/pseudocode.png" width="498" height="130" /></p>
<p>여기서 α와 β는 코퍼스 단위로 정해지는 값이고, N과 θ는 문서 단위로 정해지는 값이다. β는 각 주제별로 특정 단어가 생성될 확률이 담긴 테이블(2차원 매트릭스)이며, N은 문서의 길이, θ는 해당 문서에서 각 주제의 가중치를 나타낸다. (θ의 각 엔트리 값을 합치면 1이 된다.) zi는 문서의 i번째 단어에 대한 주제 벡터(하나의 엔트리만 1이고 나머지는 0)이다. 이 모델에서 주제의 개수는 k로 고정되어 있으며, 따라서 θ와 zi는 길이가 k인 벡터이다.</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2597" title="plate" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/plate.png" alt="" width="363" height="160" /></p>
<p>정리하면, 어떤 문서에 대해 파라미터 θ(주제 벡터)가 있고, 앞에서부터 단어를 하나씩 채울 때마다 θ로부터 하나의 주제를 선택하고, 다시 그 주제로부터 단어를 선택하는 방식으로 문서 생성 과정을 모델링하는 것이다. 사람이 실제로 글을 쓰는 과정하고는 완전히 다른 얘기이므로 헷갈리지 말자. 위 그림은 이 과정을 요약한 것이다.</p>
<h4>이게 무슨 의미가 있는데?</h4>
<p>이런 Generative Model을 써서 우리가 새로운 글을 쓰려는 건 당연히 아니다. 하지만, 이런 방법으로 문서 내용을 성공적으로 모델링, 즉 표현할 수 있다면 거꾸로 이미 알고 있는 문서의 파라미터 θ를 찾아내는 것도 가능할 것이다. 앞에서 문서 모델링의 필요성을 왜 얘기했겠나. 글 d1과 d2가 있을 때, 주제는 비슷하더라도 각 문서에 등장하는 단어의 종류나 빈도는 다를 수 있기 때문에 단순한 키워드 기반의 모델로는 유사도를 계산하거나 주제 분류를 하는 데에는 한계가 있다. 그러나 이미 보유한 많은 텍스트에 기초에 α와 β를 알아 두고, 개별 문서의 θ를 계산할 수 있으면, 이 θ를 가지고 유사도 계산이나 분류 작업을 훨씬 쉽고도 정확하게 해낼 수 있다.</p>
<h4>이름의 의미</h4>
<p>이쯤에서 Latent Dirichlet Allocation이라는 이름에 담긴 뜻을 짚어보자.</p>
<ol>
<li>Latent: 사전적인 의미는 &#8220;잠재적인, 숨어 있는&#8221;. 위에서 설명한 과정에서 우리가 직접 관찰할 수 있는 것은 문서 내용뿐이다. α, β, θ, z는 모두 감춰진 파라미터이다.</li>
<li>Dirichlet: 19세기 독일 수학자의 이름. Dirichlet distribution이 그의 이름을 따서 지어졌다고 한다. 제일 위의 코드를 보면 θ를 결정할 때 α에 대한 Dirichlet distribution을 사용하고 있는데, 그 이유는 뒤에서 다시 살펴보겠다.</li>
<li>Allocation: 말 그대로 &#8216;할당&#8217;. 각 단어를 결정할 때, θ에 대한 multinomial distribution으로 주제를 &#8216;할당&#8217;한 뒤 그 주제로부터 단어를 뽑는다. LDA의 개념이나 활용에서 여러 가지 할당이 나오므로 해석은 마음껏.</li>
</ol>
<h3>파라미터 추정</h3>
<p>본격적으로 수식이 활개를 치고 베이시안이 어쩌니 추론이 저쩌니 하면서 복잡해지는 부분이다. 물론 여기서는 쉬운 것만 다룰 것이므로 파라미터 추정 과정을 본격적으로 설명할 것이라는 기대는 미리미리 접자.</p>
<h4>왜 Dirichlet Distribution인가?</h4>
<p>앞서 설명한 내용을 수식으로 적으면 아래와 같다.<br />
<img class="alignnone size-full wp-image-2595" title="zn" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/zn.png" alt="" width="274" height="62" /><br />
<img class="alignnone size-full wp-image-2613" title="wz" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/wz.png" alt="" width="294" height="53" /><br />
첫 번째 식은 문서의 주제 생성, 두 번째 식은 문서의 주제와 단어 생성을 나타낸다.<br />
문서 주제(=내용)를 나타내는 z는 θ에 대한 조건부 확률이다. Bayes Rule을 떠올려보자.<br />
<img class="alignnone size-full wp-image-2614" title="bayes" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/bayes.png" alt="" width="185" height="56" /><br />
우리가 결국 하고 싶은 일은 문서 내용(위 식의 data)으로부터 θ를 추정(inference)하는 것이다. 위에서 posterior라고 된 부분이 어떤 분포를 따르는지를 알고 있으면 이 작업이 그나마 좀 쉬워지고, conjugate prior의 필요성이 바로 여기에서 나온다. 위 수식에서 posterior와 prior가 동일한 분포를 따르면, prior를 likelihood의 conjugate prior라고 한다. 중간에 likelihood라고 된 부분은 θ에 대한 multinomial distribution이라고 앞에서 얘기했다. 그럼 multinomial distribution의 conjugate prior가 뭘까? +_+ 예상하듯이(&#8230;) 바로 Dirichlet distribution이다. 다시 말해서, prior를 Dirichlet distribution이라고 그냥 결정해버림으로써 posterior를 쉽게 계산하려는 것이다.</p>
<h4>모델 단순화</h4>
<p>이름에 대한 마지막 의문이 풀렸으니 θ를 구하기 위한 여정을 계속하자. 코퍼스 레벨의 α와 β를 아는 상태에서 문서 w가 주어졌을 때, θ와 z에 대한 조건부 확률을 아래와 같이 쓸 수 있다.<br />
<img class="alignnone size-full wp-image-2594" title="intractable" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/intractable.png" alt="" width="218" height="50" /><br />
그런데 이걸 계산하는 게 intractable 하다네? 어쩔 수 없지. 모델을 단순화하자, 아래 그림처럼. (위의 그림과 비교해보자.)</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2596" title="variational" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/variational.png" alt="" width="241" height="172" /></p>
<p>얼씨구. 기껏 θ와 z의 관계를 설명하더니 이제 와서 두 개를 γ와 φ로 완전히 분리해버렸네? 그런데 이게 전혀 뜬금없는 건 아니고, variational inference라고 해서, 아래와 같이 q로 variational distribution을 표기하고,<br />
<img class="alignnone size-full wp-image-2593" title="parameter" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/parameter.png" alt="" width="233" height="53" /><br />
원래의 분포와 variational distribution 사이의 (두 분포 사이의 거리를 의미하는) KL divergence를 최소화하는 variational parameter(=γ와 φ)를 찾아내는 알고리즘이 있다고 한다. 자세한 내용이 궁금하면 LDA를 소개한 논문인 참고자료1의 부록을 참고하자. 이렇게 γ와 φ를 구한 뒤, 다시 이 값과 관찰된 문서를 사용해서 α와 β까지 추정한다. (γ와 φ를 구하는 과정을 E-Step, α와 β를 구하는 과정을 M-Step으로 놓고, EM 알고리즘을 쓴다. 역시 자세한 건 참고자료를 참고) 자, 특별히 설명한 건 없지만 어쨌든 코퍼스의 α와 β, 그리고 개별 문서에 대해 (θ와 z는 아니지만) γ와 φ를 구했다. 이제는 활용하는 일만 남았다.</p>
<h3>결과</h3>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2599" title="result" src="http://www.4four.us/wordpress/wp-content/uploads/2010/10/result.png" alt="" width="523" height="450" /></p>
<p>LDA를 설명할 때 빠지지 않고 나오는 그림이다. 윗부분은 주제별로 관련성이 높은 단어를 뽑은 것, 즉 β이고, 아랫부분은 예제 문서에서 주제가 확실한 단어에 색칠한 것, 즉 φ를 보여준다. 윗부분에서 주제 이름(Arts, Budgets, Children, Education)은 알고리즘이 자동으로 뽑아주는 것이 아니라 사람이 정한 것이다. 비슷한 단어들이 엮여 나오기 때문에 문서 모델링 뿐 아니라 키워드 클러스터링에도 LDA를 써먹을 수 있다. 사실 LDA는 문서를 다룰 때만 쓰이는 것이 아니라, 비슷한 형태의 모든 데이터 분석에 활용할 수 있다. 아무튼 이렇게 결과로 나온 특징(feature)을 써서 문서 분류 등에 활용한 결과가 역시 참고자료1에 많이 나온다.</p>
<h3>참고자료</h3>
<ol>
<li><a href="http://jmlr.csail.mit.edu/papers/v3/blei03a.html" target="_blank">Latent Dirichlet Allocation</a>, David M. Blei, Andrew Y. Ng, Michael I. Jordan, Journal of Machine Learning Research 3, 993 &#8211; 1022, 2003</li>
<li><a href="http://www.pletscher.org/academics/undergraduate/talks/lda-slides.pdf" target="_blank">http://www.pletscher.org/academics/undergraduate/talks/lda-slides.pdf</a>, Patrick Pletscher, 2005</li>
<li><a href="http://en.wikipedia.org/wiki/Dirichlet_distribution" target=_blank>Dirichlet distribution &#8211; Wikipedia, the free encyclopedia</a></li>
<li><a href="http://en.wikipedia.org/wiki/Conjugate_prior" target=_blank>Conjugate prior &#8211; Wikipedia, the free encyclopedia</a></li>
</ol>
<p><!-- WSA: rules for context 'example-post-bottom' did not apply --><script type="text/javascript" src="http://www.luminate.com/widget/9bff1cafcb/"></script></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2589&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/11/lda-my-blog-topic-trend' rel='bookmark' title='LDA 실습: 이 블로그의 주제는?'>LDA 실습: 이 블로그의 주제는?</a></li>
<li><a href='http://www.4four.us/article/2011/12/measuring-influence' rel='bookmark' title='영향력을 측정하는 방법'>영향력을 측정하는 방법</a></li>
<li><a href='http://www.4four.us/article/2010/03/document-quality-measurement' rel='bookmark' title='문서의 품질을 자동으로 측정할 수 있을까?'>문서의 품질을 자동으로 측정할 수 있을까?</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply/feed</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>Weka: Explorer와의 첫만남</title>
		<link>http://www.4four.us/article/2010/08/weka-explorer</link>
		<comments>http://www.4four.us/article/2010/08/weka-explorer#comments</comments>
		<pubDate>Thu, 05 Aug 2010 11:05:27 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[note]]></category>
		<category><![CDATA[mac]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[software]]></category>
		<category><![CDATA[visualization]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2113</guid>
		<description><![CDATA[Weka(Waikato Environment for Knowledge Analysis)는 뉴질랜드의 University of Waikato에서 개발하여 GNU 라이센스로 공개한 기계학습 환경(A suite for machine learning software)이다. 다른 건 일단 제쳐놓고, 자바로 만들어졌기 때문에 맥 OS에서도 잘 실행된다. 홈페이지에서 프로그램을 받아서 실행하면 아래와 같은 화면이 뜨고, 여기서 Explorer를 클릭하면 된다. UCI(University of California, Irvine)의 Machine Learning Repository에 가면 다양한 기계학습 테스트 데이터를 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2007/12/programming-collective-intelligence' rel='bookmark' title='Programming Collective Intelligence: 첫인상'>Programming Collective Intelligence: 첫인상</a></li>
<li><a href='http://www.4four.us/article/2009/10/what-is-learning-to-rank' rel='bookmark' title='Learning to Rank: 개념만 간단히'>Learning to Rank: 개념만 간단히</a></li>
<li><a href='http://www.4four.us/article/2009/10/reality-mining-mit-medialab' rel='bookmark' title='현실 마이닝(Reality Mining) &#8211; MIT Medialab'>현실 마이닝(Reality Mining) &#8211; MIT Medialab</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>Weka(Waikato Environment for Knowledge Analysis)는 뉴질랜드의 University of Waikato에서 개발하여 GNU 라이센스로 공개한 기계학습 환경(A suite for machine learning software)이다. 다른 건 일단 제쳐놓고, 자바로 만들어졌기 때문에 맥 OS에서도 잘 실행된다. <a href="http://www.cs.waikato.ac.nz/~ml/weka/ " target="_blank">홈페이지</a>에서 프로그램을 받아서 실행하면 아래와 같은 화면이 뜨고, 여기서 Explorer를 클릭하면 된다.</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-2116" title="Weka 시작화면" src="http://www.4four.us/wordpress/wp-content/uploads/2010/08/weka_startup.png" alt="" width="186" /></p>
<p>UCI(University of California, Irvine)의 <a href="http://archive.ics.uci.edu/ml/ " target="_blank">Machine Learning Repository</a>에 가면 다양한 기계학습 테스트 데이터를 구할 수 있다.<span id="more-2113"></span> 여기서 가장 인기 있다는 <a href="http://archive.ics.uci.edu/ml/datasets/Iris" target="_blank">붓꽃(Iris) 데이터</a>를 받아서 프로그램에 입력했다. 어렵잖게 분류 알고리즘을 실행하고 결과를 확인할 수 있었다. Weka Explorer의 대략적인 사용법을 익히는 데는 <a href="http://weka.sourceforge.net/manuals/ExplorerGuide.pdf " target="_blank">10장 남짓한 매뉴얼(영어)</a> 하나면 충분한 것 같다.</p>
<p>다양한 기계학습 알고리즘을 돌려보면서 결과를 쉽게 비교할 수 있다는 게 강점이지만, Weka Explorer에서 제공하는 시각화 도구도 그 못지않은 매력덩어리다. 아래 그림처럼 데이터의 분포를 그래프로 보여주는가 하면,</p>
<p style="text-align: center;"><a href="http://www.4four.us/wordpress/wp-content/uploads/2010/08/weka_preprocess.png"><img class="aligncenter size-full wp-image-2117" title="Preprocess" src="http://www.4four.us/wordpress/wp-content/uploads/2010/08/weka_preprocess.png" alt="" width="360" /></a></p>
<p>각 변수 간의 상관관계를 보여주는 Scatter Plot Matrix도 제공된다.</p>
<p style="text-align: center;"><a href="http://www.4four.us/wordpress/wp-content/uploads/2010/08/weka_scatterplot.png"><img class="aligncenter size-full wp-image-2118" title="Scatter Plot" src="http://www.4four.us/wordpress/wp-content/uploads/2010/08/weka_scatterplot.png" alt="" width="360" /></a></p>
<p>또, 분류 모델 결과를 시각적으로 제공해서 분석 및 튜닝 작업을 도와준다.</p>
<p style="text-align: center;"><a href="http://www.4four.us/wordpress/wp-content/uploads/2010/08/weka_error_viz.png"><img class="aligncenter size-full wp-image-2119" title="Classification Error" src="http://www.4four.us/wordpress/wp-content/uploads/2010/08/weka_error_viz.png" alt="" width="360" /></a><br />
<a href="http://www.4four.us/wordpress/wp-content/uploads/2010/08/weka_tree_viz.png"><img class="aligncenter size-full wp-image-2120" title="Tree Visualization" src="http://www.4four.us/wordpress/wp-content/uploads/2010/08/weka_tree_viz.png" alt="" width="360" /></a></p>
<p>이렇게 멋진 프로그램을 여태 모르고 살았다니&#8230;<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2113&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2007/12/programming-collective-intelligence' rel='bookmark' title='Programming Collective Intelligence: 첫인상'>Programming Collective Intelligence: 첫인상</a></li>
<li><a href='http://www.4four.us/article/2009/10/what-is-learning-to-rank' rel='bookmark' title='Learning to Rank: 개념만 간단히'>Learning to Rank: 개념만 간단히</a></li>
<li><a href='http://www.4four.us/article/2009/10/reality-mining-mit-medialab' rel='bookmark' title='현실 마이닝(Reality Mining) &#8211; MIT Medialab'>현실 마이닝(Reality Mining) &#8211; MIT Medialab</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/08/weka-explorer/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>SIGIR 2010에서 관심이 가는 논문들 &#8211; 첫 번째</title>
		<link>http://www.4four.us/article/2010/07/sigir-2010-papers1</link>
		<comments>http://www.4four.us/article/2010/07/sigir-2010-papers1#comments</comments>
		<pubDate>Fri, 23 Jul 2010 00:03:11 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[active-learning]]></category>
		<category><![CDATA[bias]]></category>
		<category><![CDATA[click]]></category>
		<category><![CDATA[information-retrieval]]></category>
		<category><![CDATA[learning-to-rank]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[ranking]]></category>
		<category><![CDATA[recency]]></category>
		<category><![CDATA[sigir]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=2000</guid>
		<description><![CDATA[7월 19일에서 23일까지 스위스 제네바에서 SIGIR 2010이 열리고 있다. ACM 디지털 라이브러리에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다. Freshness Matters: In Flowers, Food, and Web Authority 얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft size-full wp-image-3227" title="sigir2010" src="http://www.4four.us/wordpress/wp-content/uploads/2010/07/sigir2010.jpg" alt="" width="64" />7월 19일에서 23일까지 스위스 제네바에서 <a href="http://www.sigir2010.org/doku.php" target="_blank">SIGIR 2010</a>이 열리고 있다. <a href="http://portal.acm.org/toc.cfm?id=1835449&amp;idx=SERIES278&amp;type=proceeding&amp;coll=portal&amp;dl=ACM&amp;part=series&amp;WantType=Proceedings&amp;title=SIGIR&amp;CFID=90191922&amp;CFTOKEN=13345206" target="_blank">ACM 디지털 라이브러리</a>에는 이미 모든 논문 PDF가 올라와 있기 때문에 관심이 있는 사람은 읽어볼 수 있다. 학회 프로그램이 공개되었을 때부터 관심이 갔던 논문을 내려받아서 간단히 훑어봤다.</p>
<h3>Freshness Matters: In Flowers, Food, and Web Authority</h3>
<p>얼핏 문학적으로 보이는 제목은 웹 문서도 꽃/음식과 마찬가지로 신선함이 중요하다는 의미다. 기존의 페이지랭크 알고리즘은 링크 수에 기반하기 때문에 오래전에 작성된 웹페이지일수록 유리하고, 그렇게 검색 결과 상위에 노출되었기 때문에 계속해서 인기를 유지하는 부익부 빈익빈의 문제가 많이 지적되었다. 이 논문의 저자들은 웹페이지의 권위를 계산할 때, 각 페이지와 링크의 시간에 따른 변경 추이를 추가적으로 살펴서 오래된 페이지와 신생 페이지가 공정하게 경쟁하게 만들었다고 한다. 더불어, 서로 다른 시간에 웹의 스냅샷을 찍어서 스무딩(smoothing)함으로써 한순간 인위적으로 링크를 몰린 덕분에 권위가 높아지는 페이지, 즉 어뷰징(스팸)에 대한 해결책도 찾으려고 한다.<span id="more-2000"></span></p>
<h3>Incorporating Post-Click Behaviors Into a Click Model</h3>
<p>검색어를 날린 뒤 사용자가 결과 문서를 클릭하는 행위를 잘 모델링해서 각 문서의 쿼리적합성(relevancy)를 측정하려는 연구는 이미 많았다.<sup><a href="http://www.4four.us/article/2010/07/sigir-2010-papers1#footnote_0_2000" id="identifier_0_2000" class="footnote-link footnote-identifier-link" title="단순히 많이 클릭되었다고 그 문서가 좋다는 뜻은 아니므로 Relevancy와 Preference를 구분하기도 한다.">1</a></sup> 하지만, 저자들은 기존 모델에서는 문서의 순위 편견<sup><a href="http://www.4four.us/article/2010/07/sigir-2010-papers1#footnote_1_2000" id="identifier_1_2000" class="footnote-link footnote-identifier-link" title="position bias를 우리말로 뭐라고 하면 좋단 말인가.">2</a></sup> 문제는 어느 정도 해결할 수 있었지만, 정작 사용자가 문서를 클릭한 후의 행위는 고려하지 않았다고 지적한다. 다시 말해서, 어떤 문서는 클릭한 지 3초만에 닫아버렸고 다른 문서는 1분 넘게 보고 있었다면 아마도 후자가 더 좋지 않겠냐는 얘기다. 문서의 체류시간(dwelling time) 외에도, 문서 클릭 후에 또 다른 문서를 클릭했는가, 새로운 쿼리로 바꿔서 검색하기까지 시간이 얼마나 걸렸나 같은 것들이 쓸 만한 요소로 제시되었다. 클릭 후 행위까지 고려하는 클릭 모델이라고 해서 Post-Clicked Click Model, 줄여서 PCC 모델이라는 이름이 붙었다.</p>
<h3>Query Term Ranking based on Dependency Parsing of Verbose Queries</h3>
<p>흔히 &#8216;검색&#8217;하면 떠오르는 키워드 질의어가 아니라 문장 수준의 복잡한 쿼리에 효과적으로 대처하는 방법을 제시한다. Dependency Parsing Tree라는 걸 써서 질의문에서 문법적으로 중요한 단어를 찾아내는 것이다. 내 생각에 사람들이 검색 엔진에 키워드를 입력하는 패턴이 쉽게 바뀔 것 같지는 않고, <a href="http://www.4four.us/article/2009/10/ambient-search/" target="_blank">전에도 쓴 적</a>이 있지만 메신저나 트위터에서 사람들이 적는 말을 엿듣고 있다가 기회가 왔을 때 &#8216;혹시 이거 찾는 거에요?&#8217; 하면서 검색 결과를 내놓으면 사용자에게 감동을 줄 수 있지 않을까?</p>
<h3>Mining the Blogosphere for Top News Stories Identification</h3>
<p>TSIT(Top Stories Identification Task)는 말 그대로 중요 뉴스를 찾는 작업을 가리킨다. 사람들이 뉴스 같은 걸 찾을 때 블로그 검색을 많이 하고 또 각종 화제에 대한 생각들을 블로그에 많이 올리니까 하루 동안 블로그에 출판된 글을 이용해서 그날의 주요 뉴스를 자동으로 찾아보자는 게 이 논문의 주제다. Language Model을 써서 그날 출판된 블로그 글로부터 뉴스 헤드라인이 나올 확률을 계산하는 방식이라고 한다. 포스터를 제외한 논문 중에는 유일하게 한국 학교에서 나온 것이라 반가운 마음으로 접했다.</p>
<h3>Active Learning for Ranking Through Expected Loss Optimization</h3>
<p>개인적으로 관심이 있고 공부는 하지 않던 active learning을 랭킹학습(learning-to-rank)에 활용한 연구로, Yahoo! Labs에서 나왔다. 저자들은 active learning을 랭킹에 적용할 때 맞닥뜨리는 문제로 두 가지를 언급한다. 우선 그동안의 active learning은 주로 분류(classification) 문제에 쓰였는데, 랭킹은 성격이 다르다는 점이다. SVM 같은 maximum margin classifier의 경우에는 어떤 샘플이 informative한지 대략 감이 잡힐 듯도 한데 랭킹에서는 그게 모호할 수 있다. 두 번째는 데이터 샘플이 독립이 아니라는 건데, 이게 무슨 말일까? 문서를 분류한다고 했을 때, 한 번 문서 A가 B 타입에 속한다고 했으면 끝까지 B 타입이다. 그런데 랭킹에서는 문서 A가 B보다 좋을 수도 있고 아닐 수도 있다. 쿼리가 P일 때는 A가 더 좋았더라도 쿼리가 Q로 바뀌면 B가 더 좋아질 수도 있기 때문이다. 이런 두 가지 문제를 해결하기 위해 expected loss optimization에 기반을 둔 active learning framework를 만들었다고 하는데, 그게 뭔지 모르겠다. (공부를 안 하는데 알 턱이 있나. 퍽)</p>
<p>이외에도 점찍어둔 논문이 몇 개 더 있는데, 읽어보니까 예상했던 내용이 아닌 것도 있고 시간이 없어서 못 읽은 것도 있다. 기회가 되면 다음 기회에.<!-- WSA: rules for context 'example-post-bottom' did not apply --></p>
<ol class="footnotes"><li id="footnote_0_2000" class="footnote">단순히 많이 클릭되었다고 그 문서가 좋다는 뜻은 아니므로 Relevancy와 Preference를 구분하기도 한다.</li><li id="footnote_1_2000" class="footnote">position bias를 우리말로 뭐라고 하면 좋단 말인가.</li></ol><img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=2000&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/article/2010/08/sigir-2010-papers2' rel='bookmark' title='SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째'>SIGIR 2010에서 관심이 가는 논문들 &#8211; 두 번째</a></li>
<li><a href='http://www.4four.us/article/2009/12/random-walks-on-the-click-graph' rel='bookmark' title='Random Walks on the Click Graph &#8211; SIGIR 2007'>Random Walks on the Click Graph &#8211; SIGIR 2007</a></li>
<li><a href='http://www.4four.us/article/2009/09/learning-more-about-active-learning' rel='bookmark' title='Learning More about Active Learning'>Learning More about Active Learning</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/07/sigir-2010-papers1/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>의미있는 실패</title>
		<link>http://www.4four.us/article/2010/06/failure-worth-spreading</link>
		<comments>http://www.4four.us/article/2010/06/failure-worth-spreading#comments</comments>
		<pubDate>Wed, 16 Jun 2010 14:13:13 +0000</pubDate>
		<dc:creator>SL</dc:creator>
				<category><![CDATA[note]]></category>
		<category><![CDATA[machine-learning]]></category>
		<category><![CDATA[paper]]></category>

		<guid isPermaLink="false">http://www.4four.us/?p=1912</guid>
		<description><![CDATA[좋은 아이디어가 떠올라서 당장 적용해보고 싶은 순간이 살다 보면 몇 번은 생긴다. 손발이 근질거리는 마음은 이해하지만 잠시 흥분을 가라앉히고 먼저 데이터 분석을 통해 검증해보자. 십중팔구는 생각하지 못한 예외적인 경우를 발견할 것이다. 운이 좋아서 그런 예외를 쉽게 걸러내는 방법을 찾거나, 처음의 생각을 약간 수정하는 정도로 검증 과정을 통과할지도 모르지만, 많은 경우에 그 예외가 사실은 예외가 아니고 [...]
Related posts:<ol>
<li><a href='http://www.4four.us/about' rel='bookmark' title='About'>About</a></li>
<li><a href='http://www.4four.us/article/2009/11/selfcontrol-domain-blocking-software-for-mac' rel='bookmark' title='SelfControl: 또 다른 Mac용 인터넷 차단 프로그램'>SelfControl: 또 다른 Mac용 인터넷 차단 프로그램</a></li>
<li><a href='http://www.4four.us/article/2009/10/frequently-visited-site-by-alphabet' rel='bookmark' title='자주 방문하는 사이트를 알파벳 문자별로 알아봅시다'>자주 방문하는 사이트를 알파벳 문자별로 알아봅시다</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>좋은 아이디어가 떠올라서 당장 적용해보고 싶은 순간이 살다 보면 몇 번은 생긴다. 손발이 근질거리는 마음은 이해하지만 잠시 흥분을 가라앉히고 먼저 데이터 분석을 통해 검증해보자. 십중팔구는 생각하지 못한 예외적인 경우를 발견할 것이다. 운이 좋아서 그런 예외를 쉽게 걸러내는 방법을 찾거나, 처음의 생각을 약간 수정하는 정도로 검증 과정을 통과할지도 모르지만, 많은 경우에 그 예외가 사실은 예외가 아니고 너무나 결정적이어서 아이디어 자체를 폐기해야 하기도 한다. 그렇더라도 이런 실패는 다른 연구자의 시행착오(라 쓰고 삽질이라 읽는다)를 줄여주고, 그렇게 절약한 시간과 에너지를 더 생산적인 곳에 쏟아부을 수 있게 한다는 점에서 공유할 만한 가치가 있다.<span id="more-1912"></span></p>
<p>모두가 성공한 연구만을 인정하는 냉정한 세계에 이런 &#8220;실패한 연구&#8221;의 가치를 인정하는 저널이 있다. <a href="http://jinr.site.uottawa.ca/" target="_blank">Journal of Interesting Negative Result</a>(ISSN 1916-7423), 줄여서 JINR이라는 곳이다. JINR은 자연어처리나 데이터마이닝 분야를 다룬다고 하고 의료/생물 분야에도 비슷한 취지의 다른 저널이 있는 것 같다. 호기심이 솟아나 소개글을 읽어보니 스스로 이런 저널의 필요성을 설명하기를&#8230;</p>
<blockquote><p>&#8220;Much can be learned by analysing why some ideas, while intuitive and plausible, do not work. The importance of counter-examples for disproving conjectures is already well known.&#8221;</p>
<p style="text-align: right;">from <a href="http://jinr.site.uottawa.ca/" target="_blank">jinr.site.uottawa.ca</a></p>
</blockquote>
<p>일반적으로 당연하다고 여겨지는 명제가 실은 당연하지 않다는 사실/이유/경우를 발견하는 것을 수학의 반례를 통한 증명에 비유하는 대목에서 고개가 끄덕여진다. 그런데.. 어라? 실제로 게재된 논문은 2008년 하나밖에 없네? 뭐지?</p>
<img src="http://www.4four.us/wordpress/?ak_action=api_record_view&id=1912&type=feed" alt="" /><p>Related posts:<ol>
<li><a href='http://www.4four.us/about' rel='bookmark' title='About'>About</a></li>
<li><a href='http://www.4four.us/article/2009/11/selfcontrol-domain-blocking-software-for-mac' rel='bookmark' title='SelfControl: 또 다른 Mac용 인터넷 차단 프로그램'>SelfControl: 또 다른 Mac용 인터넷 차단 프로그램</a></li>
<li><a href='http://www.4four.us/article/2009/10/frequently-visited-site-by-alphabet' rel='bookmark' title='자주 방문하는 사이트를 알파벳 문자별로 알아봅시다'>자주 방문하는 사이트를 알파벳 문자별로 알아봅시다</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.4four.us/article/2010/06/failure-worth-spreading/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

