Learning to Communicate (OpenAI)
Source
Evernote/Inbox/Learning to Communicate.md
Summary
OpenAI 연구진은 협력적 다중 에이전트 강화학습을 통해 에이전트들이 환경과 상호작용하며 고유한 언어를 자발적으로 발명할 수 있음을 보였습니다. 이 언어는 환경의 객체나 행동과 직접 연결된 ‘grounded’ 특성과, 여러 단어를 조합해 복잡한 의미를 표현하는 ‘compositional’ 특성을 가집니다. 학습 과정에서는 Gumbel-Softmax 트릭을 사용해 이산적(discrete)인 통신을 미분 가능한 채널로 근사하여 효율적인 학습과 해석 가능한 결과 도출을 동시에 달성했습니다.
Key Points
- 협력적 다중 에이전트 환경에서 목표 달성을 위해 에이전트들이 자발적으로 언어를 발명함
- 발명된 언어는 환경 경험과 연결된 grounded 특성과 단어 조합을 통한 compositional 특성을 지님
- Gumbel-Softmax 트릭을 활용하여 이산적 통신 신호를 미분 가능하게 근사, 강화학습 최적화 가능
- 에이전트 수는 1~3개로 제한된 단순 2D 환경에서 실험되었으며, 에이전트 수와 작업 복잡도에 따라 언어 구조가 진화함