Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems

Source

Evernote/Papers/Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems.md

Summary

로봇 제어용 상태 머신(State Machine) 선택 문제에서, 특정 환경(예: 방 레이아웃)에 대한 평가 비용이 높은 상황을 다룹니다. Netflix 등 추천 시스템의 협업 필터링 개념을 다중 팔 밴딧(Multi-Armed Bandit) 프레임워크에 결합하여, 개별 환경에 최적화된 상태 머신을 효율적으로 선택하는 방법을 제안합니다. 실험 결과, 이 접근법은 기존 추천 알고리즘, 밴딧 알고리즘 단독 사용, 또는 모든 환경에 대한 ‘평균 최적’ 상태 머신 선택 기법보다 우수한 성능을 보였습니다.

Key Points

로봇 제어용 상태 머신 라이브러리에서 특정 작업 환경에 맞는 정책 선택 문제 해결
환경 평가 비용이 높은 경우를 전제로 함 (Motivating Example: 시뮬레이션 청소 로봇의 방 레이아웃별 주행 상태 머신 선택)
추천 시스템의 협업 필터링 기법을 다중 팔 밴딧(Multi-Armed Bandit)에 통합한 하이브리드 접근법 제안
기존 개별 기법(추천, 밴딧) 및 베이스라인(평균 최적 상태 머신) 대비 성능 우위 입증

AncomWiki

탐색기

Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems

Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems

Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크