Deview 2023 2일차: NSML, Seq2Seq Clova, Clova Vision, 파파고 QE, HyperCLOVA 요약
Source
Creative Writings/Experiences/Deview 2023 2일차.md
Summary
이 노트는 Deview 2023 2일차 세션들의 핵심 내용을 기록한 것이다. 주요 주제는 다음과 같다: 1) NSML: 대규모 GPU 클러스터의 자원 파편화 해결을 위한 커스텀 스케줄링(MostAllocated 정책 등)과 분산 학습 병목 진단 도구 개발. 2) Seq2Seq Clova(CT5): Transformer 기반 인코더-디코더 아키텍처의 효율성, BF16/Adafactor 최적화, LoRA를 통한 파라미터 효율 학습, 그리고 대화 도메인 특화(DialogCT5)를 통한 데이터 효율성 증대. 3) Clova Vision: 일본 AI 클라우드 카메라 솔루션의 보안(SSL pinning, 서명 검증), 확장성, 및 AI 추론 서비스 통합 아키텍처. 4) 파파고 빨간펜(QE): 번역 품질 예측(QE) 모델의 구축, 인공 데이터 증강을 통한 학습, 및 MT 파이프라인 전반에 대한 응용. 5) HyperCLOVA 요약: 길이 제한 없는 오픈 도메인 대화 요약 서비스의 개요.
Key Points
- NSML은 GPU 128장 규모의 HPC 클러스터로, 자원 파편화 방지를 위해 ‘MostAllocated’ 정책 등 커스텀 Kubernetes 스케줄링을 적용했다.
- 대규모 분산 학습의 동기화 병목 분석을 위해 클러스터링 기법을 활용한 이상 패턴 시각화 도구를 개발했다.
- CT5(Clova T5)는 Seq2Seq 아키텍처로, 작은 모델로도 뛰어난 성능을 내며 Few-shot 학습에서 강점을 보인다.
- CT5 학습 시 FP16의 불안정성을 해결하기 위해 BF16을 사용했고, Adafactor 옵티마이저가 더 좋은 성능을 보였다.
- LoRA(0.09% 파라미터)를 적용해도 성능 감쇄가 적어 파라미터 효율 학습이 가능함을 확인했다.
- DialogCT5는 대화 도메인 특화 학습을 통해 기존 CT5 대비 10배의 데이터 효율성을 달성했다.
- Clova Vision은 보안 카메라 클라우드 솔루션으로, SSL pinning, RSA 서명 검증, HTTP2/TLS 등을 통해 보안을 강화했다.
- 파파고의 QE(Translation Quality Estimation) 모델은 번역 품질을 예측하여 데이터 정제, 학습 스케줄링, 평가에 활용된다.
- QE 모델 학습을 위해 고품질 데이터 부족 문제를 인공 데이터 증강(Data Augmentation)과 지식 증류(Knowledge Distillation)로 보완했다.
- HyperCLOVA 요약 서비스는 도메인 튜닝 없이 생성 모델만으로 길이 제한 없는 오픈 도메인 대화 요약을 제공한다.