일본어 데이터 전사 이슈 및 두나무 로깅 아키텍처

Source

Field Notes/ReturnZero/Daily Notes/Day 1554. 2025-10-01.md

Summary

본 노트는 두 가지 주요 업무 사항을 기록한다. 첫째, 일본어 데이터(198,492 건)의 전사 품질 검증 과정에서 inputtext, 코드 전사, default 전사 간 불일치 및 하이픈 처리 규칙 미비 문제를 확인하고, SIMS 기반 훈련을 진행하기로 했다. 둘째, 두나무(Pronaia) 시스템의 Kubernetes 로그 파이프라인 아키텍처를 상세히 기술한다. 파드 주석을 통한 Fluent Bit 설정, 환경별 접두사(prefix) 라우팅, 그리고 Elasticsearch로의 최종 전송 흐름을 설명하며, 로그 인덱스 분리 메커니즘을 명확히 한다.

Key Points

일본어 데이터 전사 비교(input/code/default)를 통해 데이터 품질 이슈를 점검 중
하이픈 포함 여부 등 전사 규칙의 명확화가 필요하며, SIMS 훈련을 병행
Pronaia 시스템의 로그는 파드 주석(fluentbit.io/parser_stdout-app 등)으로 Fluent Bit에 파싱 지시
Fluent Bit는 파드 주석의 rtzr.ai/es-log-prefix 값을 읽어 Elasticsearch 인덱스 접두사로 라우팅
환경(dev/sandbox/production)별 common.phase 값에 따라 로그 인덱스가 분리됨

AncomWiki

탐색기

일본어 데이터 전사 이슈 및 두나무 로깅 아키텍처

일본어 데이터 전사 이슈 및 두나무 로깅 아키텍처

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

일본어 데이터 전사 이슈 및 두나무 로깅 아키텍처

일본어 데이터 전사 이슈 및 두나무 로깅 아키텍처

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크