PVI 최적화 및 일본어 ASR 모델 개선 현황 (2026-04-29)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1764. 2026-04-29.md

Summary

본 노트는 Primary Voice Isolation(PVI) 모델의 ONNX-TRT 변환 시 발생하는 지연 시간(latency) 및 메모리 문제를 분석하고, 지식 증류(distillation) 및 동적 길이(dynamic length) 처리를 통한 성능 개선 방향을 제시한다. 또한 일본어 ASR 모델의 주요 이슈인 ‘데스(Desu)’ 처리 방식 변경(전사 후 ITN 제거), 필러(간투어) 제거, 주소/번호 인식 오류(번지수, 숫자 오인식) 및 이름 인식 문제(WFST 구조 개선 필요)에 대한 구체적인 개선 과제와 데이터셋 준비 현황을 기록한다.

Key Points

  • PVI 모델: ONNX-TRT 변환 시 15초 이상 입력에서 지연 시간 증가(634.3ms) 및 메모리 사용량(2.6GB) 확인. 지식 증류 및 동적 길이 처리를 통한 최적화 필요.
  • PVI 데이터셋: rtboost 호환 메타데이터 생성 및 검증 완료. 최종 훈련용 JSONL manifest 및 rtboost view 분리 관리 전략 수립.
  • 일본어 ASR - 데스(Desu): 기존 무시 방식에서 ‘전사 후 ITN 단계에서 제거’ 방식으로 변경하여 모델 학습 데이터셋 재구성 중.
  • 일본어 ASR - 주소/번호: 번지수 인식 저하, 숫자 ‘4’의 ‘C’ 오인식, ‘2’의 ‘2E’ 오인식 등 현상 분석. 주소의 다의성(숫자 vs 한자 읽기) 문제 해결 필요.
  • 일본어 ASR - 이름: 성/이름 분리 입력 시 성능 저하 발생. WFST 구조를 ‘성+이름+성_이름’ 형태로 확장하여 코퍼스 재구성 계획.
  • 일본어 ASR - 필러: 간투어(filler) 삭제 로직 전반적 개선 필요.