다듬이: Turn 기반 처리 파이프라인 재설계 및 Pandas 인덱스 문제

Source

  • Field Notes/ReturnZero/Daily Notes/Day 638. 2023-03-31.md

Summary

본 노트는 ‘다듬이’ 프로젝트에서 ARS 데이터 처리 파이프라인을 재설계하는 과정을 기록한다. 핵심 문제의식은 Pandas DataFrame의 인덱스 불일치로 인한 처리 오류와, 기존 Sentence 기반 구조의 한계이다. 이를 해결하기 위해 ‘Turn’ 객체로 개념을 전환하고, 텍스트 처리 파이프라인을 문자열 입출력(str->str)으로 단순화하며, 얼라인(Alignment) 및 세그멘테이션 로직을 분리하는 아키텍처 변경을 결정했다. 또한 Triton 서버 연동 및 성능 측정 계획, 그리고 Pandas를 활용한 단어 단위 타임스탬프 추출 코드 요청이 포함되어 있다.

Key Points

  • Pandas DataFrame의 iterrows 인덱스와 실제 인덱스 불일치로 인한 처리 오류 발생
  • Sentence 기반 구조를 Turn 기반으로 변경하여 msg_info 대신 DataFrame을 직접 관리
  • Processor의 역할을 str -> str 변환으로 단순화하고, Turn 객체에 text() 및 align_with() 메소드 추가
  • 처리 파이프라인 순서: DF 생성 -> Turn 리스트 생성 -> Text Processing -> Alignment -> Split -> Export
  • 기존 모듈명 변경: redundant_proc 분리(disfluency/vulgar), utterance_segmenter 로직 수정
  • K8s 환경에서 Triton 서버 연동을 위한 워커 설정 및 성능/메모리 측정 계획
  • Pandas를 사용하여 ’|‘로 시작하는 완전 단어와 타임스탬프를 추출하는 코드 구현 필요