VAE (Variational AutoEncoder) 개요 및 원리
Source
Evernote/Inbox/생성형 AI에 대해 알아보자 - 3. VAE - Ai 언어모델 로컬 채널.md
Summary
VAE는 오토인코더(AE)의 잠재공간 단절 문제를 해결하기 위해 확률 분포 개념을 도입한 생성 모델이다. 입력 데이터를 잠재공간의 단일 점이 아닌 평균(mean)과 분산(variance)을 가진 분포로 매핑하여 공간의 연속성을 확보한다. 학습 시 Reparameterization Trick을 통해 역전파를 가능하게 하며, 손실 함수는 재구성 손실(Reconstruction Loss)과 잠재분포가 정규분포에 가까워지도록 유도하는 KL 발산(KL Divergence)의 합으로 구성된다. 이를 통해 잠재공간 내 임의의 샘플링 시에도 의미 있는 결과를 생성할 수 있다. 스테이블 디퓨전 등 현대 생성 AI에서는 고해상도 이미지를 저차원 잠재공간으로 압축하고 다시 복원하는 데 VAE를 활용하여 연산 효율성을 높인다.
Key Points
- VAE는 AE의 잠재공간 틈새 문제를 해결하기 위해 입력값을 평균과 분산을 가진 확률 분포로 대응한다.
- 잠재공간의 연속성이 확보되어, 학습된 데이터 포인트 사이의 중간값 샘플링 시에도 의미 있는 결과가 생성된다.
- 학습 과정에서는 Reparameterization Trick을 사용하여 그래디언트 역전파가 원활히 이루어지도록 한다.
- 손실 함수는 원본과 결과의 차이(Reconstruction Loss)와 잠재분포가 표준 정규분포에서 벗어난 정도(KL Divergence)로 구성된다.
- KL 발산 항은 잠재공간이 정규분포 형태를 따르도록 유도하여, 새로운 데이터 생성 시 성공률을 높인다.
- 스테이블 디퓨전 등에서는 VAE를 사용하여 고해상도 이미지를 저차원 잠재공간으로 압축/복원함으로써 연산 부하를 줄인다.