Recursive Sparse Spatiotemporal Coding

Source

  • Evernote/Inbox/Recursive Sparse Spatiotemporal Coding.md

Summary

본 문서는 비감독 학습을 통해 희소하고 시공간적인 코드를 학습하는 새로운 접근법을 제시합니다. 알고리즘은 초기에 작은 기저(basis)로 시작하여, 훈련이 진행됨에 따라 시간적 범위가 더 큰 새로운 기저 벡터를 재귀적으로 추가하며 확장합니다. 이 과정에서 기존 가중치의 영역을 비례적으로 보존하고, 새로운 가중치를 조정하여 다양한 기본 운동 특징을 표현합니다. 기저의 크기는 훈련 세트에서의 활성화에 따라 확률적으로 샘플링하여 결정됩니다. 결과적으로 대역통과(bandpass), 공간적으로 방향성이 있으며 시간적으로 다양한 변환과 속도를 가진 필터 기저가 생성됩니다. 이 방법은 지프 힌턴(Geoff Hinton)의 다층 제한 볼츠만 머신 학습에서 영감을 받았으며, L1 정규화 회귀를 변형한 SPARSENET 변형이 더 성공적이었습니다. 학습 가속화를 위해 주기적 운동을 선택하는 시공간 관심점(space-time interest-point) 연산자를 적용하여 효율적인 운동 표현을 가능하게 합니다. 최종적으로 이 알고리즘을 비디오의 인간 활동 인식에 적용하여, 기존 최첨단 방법과 동등하거나 더 나은 성능을 보임을 입증했습니다.

Key Points

  • 비감독 학습을 통한 희소 시공간 코드 학습 알고리즘 제안
  • 초기 작은 기저에서 시작하여 시간적 범위가 큰 벡터를 재귀적으로 추가하며 확장
  • 기존 가중치 보존 및 새로운 운동 특징 표현을 위한 가중치 조정
  • 활성화 기반 확률적 샘플링을 통한 기저 크기 결정
  • 대역통과, 공간적 방향성, 시간적 다양성을 가진 필터 생성
  • L1 정규화 회귀(SPARSENET 변형)가 다층 오토인코더보다 더 성공적
  • 주기적 운동 선택을 위한 시공간 관심점 연산자 적용으로 학습 효율화
  • 비디오 인간 활동 인식에서 최첨단 성능 달성