dadumi lang 포함

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1241. 2024-11-22.md

Summary

이 노트는 ‘dadumi’ 프로젝트의 Turn 객체에 언어(lang) 정보를 포함시키는 작업과 관련 코드(segment_record_to_turns, split_diarize, merge_turns) 검토를 기록하고 있다. 또한 timbel 데이터 정리, 일본어 전사 품질 문제(한자 전사 오류, LM 적용 여부), 그리고 MWW JPN 서비스의 콜당 채널 확인을 위한 로그 분석(VAD/ASR/ITN 레이턴시 및 HTTP/gRPC 요청 로그)을 포함하고 있다.

Key Points

  • dadumi 프로젝트에서 Turn 객체 생성 및 처리 파이프라인(segment_record_to_turns, split_diarize, merge_turns)에 언어 정보 포함 검토
  • timbel 데이터 onprem_project 정리 작업 진행
  • 일본어 ASR 전사 품질 이슈: 한자 전사 오류 심각, LM(Language Model) 적용 필요성 검토
  • MWW JPN 서비스 모니터링: 콜당 채널 확인을 위한 HTTP/gRPC 로그 분석 (VAD, ASR E2E, ITN 레이턴시 측정)