Day 610: 태스크 정리 (NLP4STT, 다듬이, 일본어 데이터)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 610. 2023-03-02.md

Summary

2023 년 3 월 2 일 일기. NLP4STT 프로젝트의 리소스 준비 및 모델 개발 (신한은행용) 을 위한 태스크 목록을 정리함. ‘다듬이’ 모듈의 화자 턴 기반 세그멘테이션 및 문장 분할 로직 (Kiwi/KSS 비교, 디토크나이징) 에 대한 구현 고민과, 일본어 음성 데이터 (Qoo10) 의 전처리 (인코딩 변환, 트랜스크립트 파싱) 스펙을 기록함.

Key Points

  • NLP4STT 프로젝트: 리소스 생성, 모델 준비 (신한은행), Levenshtein 거리 활용, Pysommers 의존성 검토
  • 다듬이 (Segmenter): 화자 턴 기반 세그멘테이션, Utterance segmenter 적용 (Max token 128), 디토크나이징 후 Kiwi/KSS 기반 문장 분할 로직 구현 필요성 확인
  • 일본어 데이터 전처리: Qoo10 데이터셋 (200H) 추가, Shift-JIS to UTF-8 변환, 특정 형식의 트랜스크립트 파일 파싱 로직 정의