Callabo STT 성능 개선 및 일본어 Qoo10 데이터 얼라인 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 673. 2023-05-04.md

Summary

본 노트는 Callabo STT 서비스의 가독성 및 품질 이슈(화자 분리, 구두점 누락 등)를 해결하기 위한 대안(Neural ITN, ChatGPT 기반 구두점 추가, 외부 API 비용 비교)을 논의하고, 일본어 Qoo10 데이터의 싱크 오류를 해결하기 위한 BMT 기반 전사 및 VAD 기반 얼라인 전략을 기술한다. 특히 단어 타임스탬프와 문장 리스트를 매칭하는 알고리즘적 접근(문자열 유사도 기반 부분집합 탐색)을 제안한다.

Key Points

  • Callabo STT의 가독성 및 화자 분리 이슈에 대해 Neural ITN 적용, ChatGPT 기반 구두점 추가, 외부 API(Cloud, Clova) 비용 및 안정성 비교 검토
  • 일본어 Qoo10 데이터 싱크 오류 해결을 위해 BMT(bmt.inference_in)를 활용한 VAD 기반 어텐런스 분할 및 턴 단위 얼라인 전략 수립
  • 단어 타임스탬프(W)와 문장 리스트(S)를 매칭하는 알고리즘: 문자열 완전 일치 시 순차 매칭, 불일치 시 W의 부분집합 중 S와 가장 유사한 구간 탐색 가설 제시
  • LLM 토큰 크기 제한 및 서빙 문제를 고려하여 구두점 교정용 소형 모델 도입 가능성 검토