Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems

Source

  • Evernote/Papers/Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems.md

Summary

로봇 제어용 상태 머신(State Machine) 선택 문제에서, 특정 환경(예: 방 레이아웃)에 대한 평가 비용이 높은 상황을 다룹니다. Netflix 등 추천 시스템의 협업 필터링 개념을 다중 팔 밴딧(Multi-Armed Bandit) 프레임워크에 결합하여, 개별 환경에 최적화된 상태 머신을 효율적으로 선택하는 방법을 제안합니다. 실험 결과, 이 접근법은 기존 추천 알고리즘, 밴딧 알고리즘 단독 사용, 또는 모든 환경에 대한 ‘평균 최적’ 상태 머신 선택 기법보다 우수한 성능을 보였습니다.

Key Points

  • 로봇 제어용 상태 머신 라이브러리에서 특정 작업 환경에 맞는 정책 선택 문제 해결
  • 환경 평가 비용이 높은 경우를 전제로 함 (Motivating Example: 시뮬레이션 청소 로봇의 방 레이아웃별 주행 상태 머신 선택)
  • 추천 시스템의 협업 필터링 기법을 다중 팔 밴딧(Multi-Armed Bandit)에 통합한 하이브리드 접근법 제안
  • 기존 개별 기법(추천, 밴딧) 및 베이스라인(평균 최적 상태 머신) 대비 성능 우위 입증