GoP 발음 평가 및 NLP 과제 방향성 재정의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 320. 2022-05-16.md

Summary

이 노트는 발음 평가(GoP) 알고리즘의 서비스 적용 과정에서 Kaldi 기반 구현의 한계(Feature pipeline 이해 부족, ASR과의 차이)를 인지하고, E2E(End-to-End) 및 Contextual-biased LM 방향으로 전환해야 함을 기록한다. 또한 단순 키워드 추출/요약보다 질문 인식(음성인식 동반), To-do 감지, NER 등 화행 인식 기반의 NLP 서베이와 구현이 우선순위임을 명시한다.

Key Points

  • GoP(Goodness of Pronunciation)는 CALL 시스템 발음 교정 및 Wake word 구현에 활용 가능하나, 기존 Kaldi Recipe 기반 구현은 Feature pipeline 이해도 부족과 ASR 시스템과의 차이로 인해 비효율적임.
  • 기술 스택 전환: Kaldi 기반 개발 중단 및 E2E(End-to-End) 아키텍처와 Contextual-biased LM(도메인 인식)으로 방향 전환 필요.
  • NLP 과제 우선순위 재설정: 어설픈 키워드 추출/요약 대신, 음성인식과 결합된 질문 인식(물음표/뉘앙스), To-do Task 감지, NER(Named Entity Recognition) 서베이 및 구현이 핵심.
  • 실행 계획: PyTorch 예제 학습, NER SoTA 서베이, GoP 관련 글 작성 및 세미나 진행.