강화학습 기반 음악 추천 시스템의 탐색-활용 균형

Source

  • Evernote/Inbox/Exploration in Interactive Personalized Music Recommendation A Reinforcement Learning Approach.md

Summary

기존 음악 추천 시스템은 높은 평점을 가진 곡만 추천하는 탐욕적(greedy) 방식의 한계(장기적 최적화 실패, 신규 곡 추천 부재)를 지적한다. 본 논문은 사용자 선호도 탐색(exploration)과 정보 활용(exploitation)의 균형을 강화학습 문제로 정식화한다. 오디오 콘텐츠와 추천의 신규성(novelty)을 고려한 베이지안 모델을 사용하여 사용자 선호도를 학습하는 새로운 접근법을 제시한다.

Key Points

  • 기존 탐욕적 추천 방식은 장기적으로 비최적이며 사용자 선호도 정보 수집과 신규 곡 추천에 실패함
  • 탐색(Exploration)과 활용(Exploitation)의 트레이드오프를 강화학습 문제로 모델링
  • 오디오 콘텐츠와 추천 신규성을 고려한 베이지안 모델을 통해 사용자 선호도 학습
  • 저자: Xinxi Wang, Yi Wang, David Hsu, Ye Wang (ACM TOMM, 2014)