Day 904: STT 학습 기능 논의 및 배포 준비 (2023-12-21)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 904. 2023-12-21.md

Summary

이 노트는 STT(음성 인식) 학습 기능의 아키텍처 논의, 모델 버전 관리 전략, 그리고 한국어/일본어 서비스의 배포 일정을 기록한 일일 할 일 목록이다. 특히 logmel 처리를 위한 Triton 엔진 수정 대신 패딩 처리 로직을 파이썬 모델로 분리하는 방향을 고민했으며, 학습 데이터 관리와 cold start 문제를 논의했다. 다만, 작성자의 주관적인 실패 감정을 드러내는 등 정제도가 낮다.

Key Points

  • STT 학습 기능 아키텍처: front(mww)와 학습서버(rtzr) 간 인터페이스(응답 코드, align) 정의 필요.
  • 모델 관리 전략: TrainJob 생성 시 model_path 기반 접근 선호, lm 결과별 별도 저장소 필요(버전 관리/롤백 대응).
  • 배포 일정: 2 월 말 개발 완료 목표, 3 월 중순 오뚜기 대상 서비스, 이후 일본 배포 예정.
  • 기술적 고민: logmel 처리를 위해 torch 설치가 필요한 파이썬 모델 분리 vs 엔진 수정(원본 오디오 전송) 간의 고민.
  • 진행 상태: 한국어 운영계 패치(2 월 정기 패치 병행), 일본어는 2-staged VAD 업그레이드와 분리 진행.