2024-11-29 업무 기록: 일본어 모델 개선 및 PII 버그 수정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1248. 2024-11-29.md

Summary

본 노트는 2024 년 11 월 29 일의 업무 일지를 기록한 것으로, 주요 내용은 일본어 일반 회화 모델의 키워드 부스팅 개선 결과와 PII(개인식별정보) 처리 모듈의 버그 수정이다. 일본어 모델 테스트 결과 CER 이 16.30% 에서 14.20% 로, SER 이 34.85% 에서 25.05% 로 향상되었으며, 특정 한자 표기 (時ごろ, 見積) 의 전사 경향과 여전히 오류가 발생하는 단어 (一軒家 등) 를 분석했다. 또한 PII 화이트리스트 복구 시 빈 줄로 인한 글자 중복 오류 원인을 파악하고, 빈 문자열 제거 로직을 통한 방어 코드를 제안했다. 기타 dadumi 및 pronaia 관련 업무 진행 상황도 간략히 언급되어 있다.

Key Points

  • 일본어 일반 회화 모델 키워드 부스팅 개선으로 CER(14.20%), SER(25.05%) 성능 향상 확인
  • 전사 표기 특이사항: 時ごろ 선호, 見積 관련 표기 (見積もり 등) 경향 분석 및 미해결 단어 (一軒家, 取説 등) 도출
  • PII 모듈 버그 수정: whitelist.txt 내 빈 줄로 인한 모든 글자 매칭 오류 원인 규명 및 빈 문자열 필터링 코드 제안
  • dadumi 및 pronaia 관련 업무 진행 및 배포 준비 사항 기록