Pixel-Maze 탐색을 위한 진화 전략 (Evolution Strategies) 적용

Source

  • Evernote/Inbox/Exploring a Pixel-Maze with Evolution Strategies - log2.md

Summary

이 문서는 Atari 게임 학습에 사용된 진화 전략(Evolution Strategies, ES)을 단순화된 2D 미로 탐색 환경에 적용한 실험 결과를 다룹니다. 저자는 강화학습(RL) 대신 CMA-ES (Covariance-Matrix Adaptation Evolution Strategy) 알고리즘을 사용하여 신경망 가중치를 직접 최적화했습니다. 에이전트는 제한된 시야(벽, 음식, 자국)만 입력으로 받으며, 동일한 컨트롤러를 공유하는 다수 에이전트가 협력하여 음식을 찾는 것을 목표로 합니다. 실험 결과, CMA-ES는 최소한의 튜닝으로 초기 무작위 보행에서 벗어나 미로를 효과적으로 탐색하고 죽은胡同(dead end)에서 탈출하는 전략을 학습하는 것으로 나타났습니다. 저자는 CMA-ES가 랜덤 포레스트처럼 강력한 베이스라인이며, 표준 RL의 가정(예: 가치 기반 학습의 전제)을 위반하는 환경에서도 직접 검색(direct search) 방식으로 작동함을 강조합니다.

Key Points

  • 강화학습 대안으로 진화 전략(ES), 특히 CMA-ES를 신경망 가중치 최적화에 적용
  • 환경: 2D 픽셀 미로, 제한된 시야(벽/음식/자국), 다중 에이전트 협력(동일 컨트롤러 공유)
  • 에이전트 컨트롤러: 고정 토폴로지의 신경망(약 1,000 파라미터), 외부 메모리(자국) 활용 필요
  • CMA-ES는 가우시안 분포의 공분산을 추적하며, 순위 기반 피트니스로 분포를 업데이트
  • 표준 RL의 가정(예: 마르코프 성질 등)이 충족되지 않아도 파라미터 직접 검색으로 학습 가능
  • 실험 결과: 초기 무작위 보행 -> 방향 전환 및 죽은胡同 탈출 전략 학습 -> 효율적 미로 탐색
  • CMA-ES는 최소 튜닝으로 작동하며, 다른 블랙박스 최적화 방법보다 우수한 성능 보임