Day 1244: STT/LLM 개발 및 신한카드/일본어 프로젝트 진행 상황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1244. 2024-11-25.md

Summary

이 노트는 2024-11-25 일자의 개발 일지로, STT(음성인식) 아키텍처(프로토콜, 중계 서버) 확인, dadumi 프로젝트 배포, LLM(Mistral Nemo) 및 평가 도구 설정을 다룹니다. 주요 이슈로 신한카드 프로젝트의 오디오 디버깅 설정 변경 및 데이터셋 준비, 일본어 STT의 한자/숫자 인식 오류(워드부스팅 필요)를 기록하고 있습니다.

Key Points

  • STT 연결 아키텍처(WebSocket/gRPC, MWW 중계) 및 dadumi 프로젝트 배포(PR #55) 진행
  • 신한카드 프로젝트: 오디오 저장 비활성화(use_org_stream_debug: false) 및 helm upgrade 배포, 검증 데이터셋(wav 변환) 준비
  • 일본어 STT 품질 개선: ‘12 시반->102 시반’ 등 심각한 인식 오류 발생, 특정 단어(한자, 시간 표현 등)에 대한 워드부스팅 리스트 작성 및 테스트 계획
  • LLM 관련: Mistral Nemo base 모델 검토 및 BTL GPT evaluator(slack notifier) 설정