Day 1009: 팀벨 레이턴시 이슈 및 일본어 E2E 세그멘테이션

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1009. 2024-04-05.md

Summary

2024-04-05 일일 노트로, 주요 작업으로 ‘팀벨(Timber)’ 서비스의 특정 채널에서 발생하는 고레이턴시 문제를 분석하고 있다. CPU 사용률 100% 제한과 관련이 있을 수 있으며, 16k wav, rx, tx 채널별 지연 시간 통계(min/max/avg/percentile)를 기록하였다. 또한 일본어 E2E 인식에서 Mecab 기반 어절 구분과 구두점 기반 세그멘테이션(턴 분리) 로직을 설계 중이며, 레벤슈타인 거리 활용 가능성도 고려하고 있다. 기타 dadumi 복구, pysommers 설정 등 일상적인 개발 태스크가 포함되어 있다.

Key Points

  • 팀벨(Timber) 서비스의 특정 채널에서 레이턴시가 매우 높게 발생하며, T4 GPU 하나에 모든 채널을 띄울 때 CPU 사용률이 100%에 도달하는 현상 관찰
  • 16k wav, rx, tx 채널별 디코딩 속도(realtimex) 및 레이턴시 통계(μs 단위) 기록: tx 채널의 경우 평균 레이턴시가 약 40ms 로 다른 채널 대비 현저히 높음
  • 일본어 E2E 인식 파이프라인 개선: 알파벳 제외 후 Mecab 실행을 통한 어절 구분 시도
  • 구두점 기반 세그멘테이션 로직 설계: CTM(Continuous Time Mark) 데이터를 구두점(.!?。、) 기준으로 끊어 턴(Turn) 단위로 분리하는 알고리즘 고안
  • 세그멘테이션 정확도 향상을 위해 레벤슈타인 거리(Levenshtein distance) 활용 가능성 검토
  • dadumi 프로젝트의 영단어 띄어쓰기 유지 복구 및 pysommers normalizer 설정 확인 등 부가적 개발 작업 진행