Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems
Source
Evernote/Papers/Multi-Armed Recommendation Bandits for Selecting State Machine Policies for Robotic Systems.md
Summary
로봇 제어용 상태 머신(State Machine) 선택 문제에서, 특정 환경(예: 방 레이아웃)에 대한 평가 비용이 높은 상황을 다룹니다. Netflix 등 추천 시스템의 협업 필터링 개념을 다중 팔 밴딧(Multi-Armed Bandit) 프레임워크에 결합하여, 개별 환경에 최적화된 상태 머신을 효율적으로 선택하는 방법을 제안합니다. 실험 결과, 이 접근법은 기존 추천 알고리즘, 밴딧 알고리즘 단독 사용, 또는 모든 환경에 대한 ‘평균 최적’ 상태 머신 선택 기법보다 우수한 성능을 보였습니다.
Key Points
- 로봇 제어용 상태 머신 라이브러리에서 특정 작업 환경에 맞는 정책 선택 문제 해결
- 환경 평가 비용이 높은 경우를 전제로 함 (Motivating Example: 시뮬레이션 청소 로봇의 방 레이아웃별 주행 상태 머신 선택)
- 추천 시스템의 협업 필터링 기법을 다중 팔 밴딧(Multi-Armed Bandit)에 통합한 하이브리드 접근법 제안
- 기존 개별 기법(추천, 밴딧) 및 베이스라인(평균 최적 상태 머신) 대비 성능 우위 입증
Related
-
Scheduling in a Random Environment: Stability and Asymptotic Optimality
-
A Prediction-Based User Selection Framework for Heterogeneous Mobile CrowdSensing
-
Backward Path Growth for Efficient Mobile Sequential Recommendation
-
Developing Parallel Control and Management for Urban Traffic Systems
-
Adaptive Speculative Processing of Out-of-Order Event Streams
-
지연 기반 네트워크 유틸리티 최대화 (Delay-Based Network Utility Maximization)
-
A systematic approach to classify design-time global scheduling techniques
-
Is the Price of Anarchy the Right Measure for Load-Balancing Games
-
Truthful Mobile Crowdsensing for Strategic Users With Private Data Quality
-
Two-Hop Wireless Communication Systems의 Effective Capacity 분석
-
Eureka: Edge-Based Discovery of Training Data for Machine Learning
-
Beyond 1Mbps Global Overlay Live Streaming: The Case of Proxy Helpers
-
Robust and Energy Efficient Multimedia Systems via Likelihood Processing
-
Online Graph Edge-Coloring in the Random-Order Arrival Model
-
Joint consideration of energy-efficiency and coverage-preservation in microsensor networks
-
Network-Wide Local Unambiguous Failure Localization (NWL-UFL) via Monitoring Trails
-
Multicarrier Beamforming With Limited Feedback: A Rate Distortion Approach
-
Context-Aware Nanoscale Modeling of Multicast Multihop Cellular Networks
-
Optimal multiuser spectrum management for digital subscriber lines
-
Semantic Multimodal Compression for Wearable sensing Systems
-
Behavior-Oriented Data Resource Management in Medical Sensing Systems