Day 897: E2E 테스트, 데이터 증강 및 LM 적용 논의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 897. 2023-12-14.md

Summary

2023-12-14 일일 노트로, sommers-e2e 테스트 실행 및 wfst decoder 관련 에러 케이스(log 파일 기준 error 1 이상) 선별 작업을 기록함. 새 학습을 위한 데이터 증강(augmentation) 전략(only_kana 브랜치 리베이스, 데이터셋 비율 조정, 0.5초 패딩 추가)을 수립함. MWW-TMN-rtzr 중간보고 회의에서는 LM 적용 시 confidence 기준의 모호성 문제를 확인하고, 3500만 건의 주소 데이터(우편번호→지번 확장)를 LM 학습에 활용하는 방향을 논의함.

Key Points

  • sommers-e2e 테스트 실행 및 wfst decoder 에러 케이스(error 1 이상) 선별
  • 데이터 증강 전략: only_kana 브랜치 리베이스, 데이터셋 비율 조정(1205: 0.75→0.7), 0.5초 앞뒤 패딩 추가
  • LM 적용 논의: confidence 기반 LM 사용 여부 결정 가능하나 기준 모호함
  • 주소 데이터 활용: 3500만 건 실제 데이터(우편번호→지번 포함)를 LM 학습에 적용 계획