ReturnZero Day 640: 텍스트 처리 파이프라인 리팩토링 및 세그멘테이션 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 640. 2023-04-01.md

Summary

ReturnZero 프로젝트의 텍스트 처리 파이프라인 리팩토링 진행 상황과 기술적 난관을 기록한 일지입니다. 주요 작업으로 Processor 모듈의 구조 변경(SentenceProcessor -> TurnTextProcessor), neural_itn 클라이언트 래핑, 그리고 세그먼트 분리 및 얼라인먼트(Alignment) 과정에서 발생하는 문자열 분할(string splitting) 문제를 다루고 있습니다. 특히 얼라인먼트를 위해 단어 단위 DataFrame 대체 필요성과 기존 utter_info 구조의 불필요성에 대한 의문을 제기하고 있습니다.

Key Points

  • 텍스트 처리 파이프라인 리팩토링: Processor 디렉토리 구조화 및 SentenceProcessor를 TurnTextProcessor로 명칭 변경.
  • 모듈 분리: neural_itn 모듈 독립화 및 text 단위 processor 래핑 전략 수립.
  • 기술적 병목: 세그먼트 나누기 및 얼라인먼트 시 문자열을 효율적으로 분할하는 방법의 부재.
  • 해결 방안 모색: 얼라인먼트를 위해 초기 단계에서 단어 단위로 DataFrame을 구성하는 방식 고려.
  • 코드 개선 제안: 기존 utter_info 생성 로직(_make_utter_info 등)이 불필요하다고 판단하여 간소화 필요성 제기.