일본어 데이터 전사 이슈 및 두나무 로깅 아키텍처

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1554. 2025-10-01.md

Summary

본 노트는 두 가지 주요 업무 사항을 기록한다. 첫째, 일본어 데이터(198,492 건)의 전사 품질 검증 과정에서 inputtext, 코드 전사, default 전사 간 불일치 및 하이픈 처리 규칙 미비 문제를 확인하고, SIMS 기반 훈련을 진행하기로 했다. 둘째, 두나무(Pronaia) 시스템의 Kubernetes 로그 파이프라인 아키텍처를 상세히 기술한다. 파드 주석을 통한 Fluent Bit 설정, 환경별 접두사(prefix) 라우팅, 그리고 Elasticsearch로의 최종 전송 흐름을 설명하며, 로그 인덱스 분리 메커니즘을 명확히 한다.

Key Points

  • 일본어 데이터 전사 비교(input/code/default)를 통해 데이터 품질 이슈를 점검 중
  • 하이픈 포함 여부 등 전사 규칙의 명확화가 필요하며, SIMS 훈련을 병행
  • Pronaia 시스템의 로그는 파드 주석(fluentbit.io/parser_stdout-app 등)으로 Fluent Bit에 파싱 지시
  • Fluent Bit는 파드 주석의 rtzr.ai/es-log-prefix 값을 읽어 Elasticsearch 인덱스 접두사로 라우팅
  • 환경(dev/sandbox/production)별 common.phase 값에 따라 로그 인덱스가 분리됨