일본어 ASR 프로젝트 현황 및 전략 논의 (Day 627)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 627. 2023-03-21.md

Summary

2023년 3월 21일 춘분, 일본어 음성 인식(ASR) 프로젝트의 샘플 데이터 분석 및 팀 역할 분담 논의 내용. Dan이 제공한 샘플 데이터는 형번, 전화번호, 한자, 가타카나 등으로 분류되었으나 노이즈가 심하고 녹음이 잘린 경우가 많음. 이를 학습으로 극복하거나 사전 필터링 전략을 고려 중. 팀원별 역할로 저자는 언어 이해 및 배포, Dan은 Sommers E2E 및 ASR 이해, Arthur는 논의 참여, Patrick은 일본어 프로젝트에서 제외되어 LLM 파인튜닝(Llama, Alpaca 등) 작업으로 전환. 현재 Qoo10 프로젝트의 빠른 진행이 최우선 과제로 지목됨.

Key Points

  • 일본어 ASR 샘플 데이터는 Dan이 alphanumber, number, kanji, katakana로 분류하여 pysommers 화함.
  • 데이터 품질 문제: 노이즈 심함, 녹음 후미 절단 많음. 학습 극복 또는 노이즈 필터링 웨이브 학습 전략 검토 중.
  • 팀 역할 분담: 저자(언어 이해/배포), Dan(Sommers E2E/ASR), Arthur(논의), Patrick(일본어 제외, LLM 파인튜닝 전환).
  • Patrick은 Llama, Alpaca 모델 파인튜닝 및 제로샷 태스크 수행 가능성 탐구 중. AICO Jelly의 KoAlpaca 작업 언급.
  • 현재 최우선 목표: Qoo10 프로젝트의 빠른 진행.