띄어쓰기 모델 변환 및 성능 테스트

Source

Field Notes/ReturnZero/Daily Notes/Day 583. 2023-02-03.md

Summary

한국어 띄어쓰기 모델의 추론 성능 테스트 및 학습 데이터 전처리 이슈를 기록한 필드 노트입니다. 배치 크기 128 이상에서 segfault 가 발생하고 32 에서 안정적으로 동작함을 확인했으며, TensorRT 로그를 통해 GPU 활용도 부족과 지연 시간 불안정성을 지적받았습니다. 또한 학습 데이터 생성 시 ‘spoken noise’ 제거 필요성과 BERT 의 [UNK] 토큰 발생 문제를 언급하고 있습니다.

Key Points

배치 크기 128 이상에서 segfault 발생, 32 에서 안정적 추론 확인
TensorRT 추론 로그 분석: GPU 활용도 저하 및 지연 시간 변동성 경고
학습 데이터 전처리: spoken noise 제거 필요성 제기
BERT 기반 처리 시 [UNK] 토큰 발생 케이스 확인

ITN 성능 벤치마크 및 토큰화 버그 분석
Triton Ensemble 구현 및 NLP4STT 띄어쓰기 이슈
ITN 모델 최적화 및 데이터 전처리 작업 기록
STT 성능 벤치마킹 및 특허 기술 아이디어 정리
일본어 STT 모델 배포 준비 및 성능 평가 (Day 838)
NLP4STT: ITN 및 띄어쓰기 후처리 개선
T4 GPU 환경에서 WFST 모델의 성능 측정 (Day 876)
일본어 STT 모델 벤치마킹 및 인프라 작업 기록 (2025-01-14)
ASR-ITN 파이프라인 최적화 및 재학습 전략 논의
Qoo10 일본어 ASR 파이프라인 및 엔진 성능 테스트 (Day 797)
ReturnZero Day 903: 모델 최적화 시도 및 성능 벤치마크
ITN 수정 및 토크나이징 성능 최적화 고민
GEC 모델 ONNX 변환 및 NLP4STT 진행 상황
2023-05-12 일본어 모델 학습 및 얼라인, ITN 서비스화 진행 상황
rt-itn-jp 코드 모델 및 WFST 구현 계획
2024-01-03 할 일: T4 변환 및 성능 평가
RL 모델 서빙 고민
ReturnZero Day 1047: 일본어 ASR 모델 검증 및 성능 분석
Trt) 시도 및 실패 기록
다듬이 및 일본어 모델 처리 논의 (Day 642)
E2E ASR 모델 Triton 서빙 환경 구축 및 테스트 (Day 723)
주소 인식 모델 성능 검증 및 Triton 배포 전략
주소 인식 모델 (Address Model) 성능 분석 및 트러블슈팅
Neural-ITN TensorRT 배포 시도 및 한계
VITO 요약 회의 및 RoBERTa 의도 분석 모델 논의
주소 인식 모델 서빙 방식 결정: ONNX Dynamic vs TRT
BERT 모델의 ONNX 변환 및 Triton Server 배포 시도 (Day 559)
Stable Diffusion 모델 체크포인트 링크
2024-07-22 업무 및 회고: 일본어 ASR 모델 평가 및 인프라 구축
ITN 성능 병목 분석 및 일본어 전사 개선 방향
Day 555: ONNX 모델 배포 및 환경 구성 고민
ASR 모델 성능 평가 결과 (2023-10-02)
일본어 음성 인식 모델 테스트 결과 (2024-04-15)
MWW 일본어 주소 모델 성능 개선 및 WFS 문제 진단
2024-07-21: ONNX 배포 실패 및 반기 회고
Pronaia-Engine 코드 폴리싱 및 Triton Mel 성능 검증
일본어 ASR 모델 성능 벤치마크 및 문제점 (2023-09-25)
일본어 ASR 모델 디버깅 및 성능 비교 (Day 704)
주소 교정 (Address Correction)
mel2vec 영숫자 인식 성능 검증 및 패딩 실험 결과
2025-11-04 업무: L40S Whisper 실시간 성능 검증 및 MWW 모델 훈련
2024-07-19 ASR 모델 벤치마크 결과 (Alphanumeric)
Homura-Dan 라이센스 서버 아키텍처 및 RTFx 성능 벤치마크
Qoo10 전사 오류 원인 분석 및 카타카나 모델 벤치마크
2025-11-05 업무: 오뚜기 모델 평가 및 L40S Whisper 일본어 성능 검증
ASR 성능 벤치마크 및 SER 이슈 분석 (2024-07-18)
RTFx 벤치마크 결과 (2023-10-09)
일본어 ASR 모델 훈련 성능 저하 관찰 (Day 1571)
일본어 주소 인식 모델 배포 및 MWW STT 성능 검증
현대캐피탈 Triton 서버 빌드 및 성능 벤치마크 (Day 1112)
일본어 코드모델 (파나소닉 모델명 인식)
일본어 ASR 모델 평가 및 rt-itn 배포 기록
VAD 임계값 튜닝 및 성능 평가 (2023-12-07)
일본어 ASR 모델 성능 검증 및 디버깅 (Day 708)
ITN 모델 배포 및 성능 튜닝 (Day 666)
한국어 모델 업데이트 및 ITN 테스트 환경 준비
맞춤법 봇: 띄어쓰기 교정 로직 및 API 테스트
ITN 성능 시험 및 VAD 통합 테스트 진행 (Day 667)
2023-09-07 작업 기록: 일본어 ASR 모델 학습 및 MWW 업무
일본어 ITN 테스트 및 데이터 문제 확인
ASR 전사 결과 평가용 프롬프트 영문화 및 간소화
Day 665: ITN 모델 배포 장애 및 환경 정리
Triton 배포 및 모델 컴파일 파이프라인 정리 (Day 576)
ReturnZero Day 860: STT 모델 수정 및 성능 벤치마크
일본어 TTS 기반 학습 및 주소 전사 실험 노트
ReturnZero Day 837: 일본어 ASR 평가 및 엔진 개발
일본어 ASR 모델 (Cutoff) 벤치마킹 및 배포 준비
일본어 음성 인식(ASR) 전사 파이프라인 디버깅 및 경량화 시도
일본어 ASR 모델 실험 및 데이터 파이프라인 개선 (Day 811)
Vito STT 성능 벤치마킹 및 환경 설정 기록 (2024-07-01)
일본어 Cutoff 모델 배포 준비 및 Partial 응답 속도 검증
GPT-SoVITS 감정 표현의 무작위성 및 Gemini 3 평가
2025-10-15 업무 및 일본어 ASR 모델 평가
Pronaia Engine Keyword Boosting 모델 전사 테스트 및 배포 준비
Day 847: Triton 테스트 환경 구축 및 특허 전략 논의
ASR 방향성 회의 및 3i4k 환경 구축 삽질
데이터 전략 논의 (Day 845)
일본어 ASR 파이프라인 구축 및 Forced Alignment 문제 해결 시도
Day 699: dadumi 배포 및 일본어 ASR 평가
전처리 이슈
일본어 ASR 파이프라인 설정 및 실험 기록
BMT 모델 테스트 및 인프라 설정 (2024-01-05)
2025-09-16 일본어 모델 배포 및 설정 작업
일본어 이름 모델 검증 및 T4 배포 준비
일본어 ITN 서비스 배포 및 테스트 진행 상황
일본어 ASR 실험 및 Utterance Segmenter 개발 현황
SIMS 모델 배포 및 게이트웨이 설정 작업
2024-09-19 업무: 일본어 STT 모델 튜닝 및 Prefix Decoder 디버깅
일본어 STT 모델 튜닝 및 팀벨 서비스 장애 대응
2023-07-27 작업 계획: 일본어 모델 배포 및 Triton 설정
MWW EKS 배포 장애 및 STT 모델 평가 이슈 (Day 1168)
Triton Server 헬름 차트 배포 및 모델 로딩 오류
Triton Custom Backend 학습 계획 및 모델 웜업 개념 정리
MWW 일본어 배포 및 가독성 평가 실험 (2024-07-24)
MWW 배포 및 ASR 파이프라인 디버깅 (2024-03-12)
fp16 테스트 실패 및 배포 작업 기록
ASR 파싱 및 인프라 요구사항 (Day 791)
2022-06-20 워크샵 및 모델 실험 기록
MWW 배포 회고 및 테스트 데이터셋 구성 전략
배포 테스트 (2024-09-11)
VAD Dynamic Length 및 E2E ASR Config 변경 사항
Callabo STT 성능 개선 및 일본어 Qoo10 데이터 얼라인 전략
ReturnZero Day 1147: AM 모델 학습 API 테스트
2023-01-05 일지: pysommers 배포 문제 해결, NLP4STT 띄어쓰기 모델 최적화 및 사업계획
일본어 개발계 배포 준비 및 장애 대응
MWW VAD 임계값 수정 및 테스트
RTZR 일본어 STT 개발 이력 및 모델 레지스트리 구조
PVI 성능 최적화 및 일본어 ASR 모델 개선 현황
Day 897: E2E 테스트, 데이터 증강 및 LM 적용 논의
Kiwi 모델 빌더 세그먼트 폴트 디버깅 및 ITN 초기 조사
PVI 성능 개선 및 일본어 ASR 모델 이슈 분석
Day 727: vitoworker 테스트 복구 및 PoC 준비
ITN-JP 숫자 변환 및 테스트셋 구축 (Day 535)
PRONAIA BMT 서비스 배포 및 테스트 데이터 준비 현황
일본어 ASR 모델 학습 및 데이터 전처리 진행 상황 (2024-07-15)
배포 워크플로우 논의 (Day 859)
일본어 ASR 파인튜닝 준비 및 코드 수정
Conformer 모델 앙상블 및 BLS 통합 실험 (Day 910)
일본어 ASR 얼라인 및 ITN 파이프라인 개발 (Day 635)
AICT 문장 띄어쓰기 벤치마크 및 워커 컨테이너 테스트
다듬이: 텍스트 처리 파이프라인 성능 최적화 및 병렬화 실험
일본어 ITN 포팅 착수 및 띄어쓰기 복원 알고리즘 고민
Dadumi 배포 및 샌드박스 테스트 진행 상황 (Day 695)
ReturnZero Day 686: 큐 병목 및 Worker 성능 저하 대응
일본어 Neural ITN 및 4090 환경 빌드 시도
Primary Voice Isolation (PVI) 성능 평가 및 일본어 ASR 개선 계획
2024-11-29 업무 기록: 일본어 모델 개선 및 PII 버그 수정
ReturnZero 분류 모델 성능 보정 실험 (Day 401)
2025-10-13 업무: 일본어 STT 모델 검증 및 제로원 제안서 초안
워커 3단 배포 전략 및 차트 개발 현황
ReturnZero Day 1765: PVI 및 일본어 ASR 모델 개선 현황
Triton 이미지 교체 및 Pronaia Engine 배포 작업
TTS 모델 개선 및 제로원 준비
NeuralITN TRT 변환 성공 및 Triton 포팅 과정
2026-05-21 업무: PVI 및 일본어 ASR 모델 개선 현황
PVI 모델 개선 및 일본어 ASR 이슈 분석
ASR 모델 개선 현황: PVI, 일본어, MWW 화물맨
PVI 최적화 및 일본어 ASR 모델 개선 현황 (2026-05-06)
S2 리빌드 및 일본어 ASR 모델 개선 현황 (2026-03-13)
3i4k 모델 성능 저하 분석 및 Pronaia 클라이언트 개발 현황
PVI 및 일본어 ASR 모델 개선 현황 (2026-05-22)
S2 리빌드 및 일본어 ASR 모델 개선 현황 (2026-03-16)
S2 리빌드 및 일본어 ASR 모델 개선 현황 (2026-03-06)
2026-01-14 업무 및 일본어 모델 배포 준비
2026-02-03 업무: 일본어 ASR 모델 개선 및 Triton 배포 환경 최적화
TTS 모델 개선 및 S2 리빌드
S2 리빌드 및 일본어 ASR 모델 개선 현황 (2026-03-19)
Day 800: 세팅 및 ITN 워커 스펙 변경
ITN 개발 및 에이전트 아키텍처 논의 (Day 680)
ReturnZero Day 582: 워크플로우 연동 및 Triton 배포 계획
S2 리빌드 문서화 및 일본어 STT 모델 개선 과제
ReturnZero Day 1625: 웰컴용 Translator 패키징 및 일본어 모델 개선
모델 레지스트리 구조화 및 배포 자동화
음성 데이터 전사 및 변환 작업 현황 (2024-05-22)
Day 946: YouTube 데이터 파이프라인 실험 및 Worker 테스트 이슈
Day 1043: PII Redaction Filter 개발 및 On-Prem 모델 관리
S2 리빌드 및 일본어 ASR 모델 개선 현황 (2026-03-04)
일본어 Pronaia 배포 및 ITN 파이프라인 실험
2026-04-22 업무: PVI, 일본어 ASR 개선 및 Silero VAD 평가
Kiwi 형태소 분석기 모델 학습 및 데이터 변환 프로세스
S2 리빌드 문서화 및 일본어 STT 모델 개선 과제
2026-02-02 업무: 일본어 ASR 모델 개선 및 제로원 데이터 처리
ITN 배포용 메트릭 설정 및 K8s 테스트베드 구축
다듬이: 일본어 ITN 및 배포 준비
2024-11-28 업무 및 실험 기록
TMN 회의: 일본어 4자리 숫자 인식 오류 분석
MWW EKS 인프라 설정 및 API 테스트 기록
음성 언어 식별 모델 평가 및 VAD 개발 계획
Kiwi 형태소 분석기 모델 학습 및 N-gram 언어모델 이론 정리
화물맨 ASR 도메인 특화 및 일본어 모델 개선 현황
ReturnZero Day 1785: PVI, 일본어 ASR 개선 및 MWW 배포
KISA 프로젝트 준비 및 일본어 STT 모델 실험 (Day 1570)
MWW 한국어 SIMS 평가 및 커넥션 릭 재현 테스트
PRONAIA 엔진 ITN 파이프라인 오류 (FstOpError)
일본어 STT 개발계 배포 및 벤치마크 실행 기록 (Day 872)
2023-08-22 작업 일지: 일본어 데이터 전처리 및 Pronaia 테스트 환경 구축
Sandbox BMT 테스트 환경 구성 및 설정
ASR 모델 개선 및 프로젝트 진행 현황 (2026-05-07)
프로나이아 모델 배포 및 스마트 어터런스 처리 로직 설계
다국어 RTFx 성능 측정 및 S2 리빌드 현황
한국어 배포 준비
Triton 서비스 확장 및 Helm Chart 문제
BLS 구현 및 배포 준비 (Day 694)
2023-02-24 작업 기록: 일본어 STT 조사 및 통합 ITN 설계
제한 테스트
S2 리빌드 및 일본어 ASR 모델 개선 현황 (2026-02-27)
Day 901. 2023-12-18
MWW 한국어 개발계 배포 및 기술적 장애 대응 (2023-11-15)
2023-03-23 작업 기록: 일본어 ITN 및 Qoo10 ASR 정렬
Total ensemble model
2025-09-23 업무: 일본어 배포 및 서울소방 로그 분석
Triton 서버 구축 및 pysommers 데이터 전처리
출장 정리 및 이름 모델 개선 계획 (2023-11-14)
ReturnZero Day 958: 한자 인식 성능 평가 및 VAD 파라미터 튜닝
리팩토링 시도: cdrewrite 및 transducer 기반 태그 삽입 성능 문제
2026-02-08 업무: 일본어 ASR 모델 개선 및 웰컴 프로젝트 인프라 구축
ReturnZero Day 814: 일본어 모델 학습 속도 문제 및 해결
현대캐피탈 Numberplate 모델 장애 진단 및 일본어 T4 모델 준비
2026-01-28 업무: 일본어 ASR 모델 개선 및 데이터셋 구축
Day 902: Audio Feature Extraction & Model Check
일본어 처리 이슈
ITN Triton 통합 배포 및 스레드 풀 문제
CTC Align 실패 현상 및 대안 탐색 (Day 672)
ITN 서비스 배포 및 VAD 통합 구성 검토
2026-05-15 업무: PVI, 일본어 ASR, MWW 배포 이슈
ReturnZero 일본어 배포 및 문서 수정 (Day 1545)
ReturnZero Day 532: Kiwi 모델 검증 및 일본어 숫자 태깅 규칙 분석
Triton Inference Server 성능 저하 및 메모리 누수 원인 분석
Project-K 지역락 이슈 및 모델 이미지 재퍼블리시
ReturnZero Day 1645: 모델 레지스트리 및 웰컴용 STT 패키징 진행
2024-05-17 업무 기록: 키워드 부스트 모델 배포 및 개발 환경 설정
ITN 논의
일어 음성 처리 파이프라인 디버깅 및 ITN 수정
업라이즈 AI바우처: 금융 콘텐츠 요약 서비스 및 NLP4STT 기술적 장애물
NLP4STT: Neural ITN Triton화 및 배치 처리
ITN 이슈: CTM 정보 복구
Day 490. 2022-11-02
Python Client 초기 배포 및 구조 검토 (Day 358)
2026-04-23 업무: PVI 및 일본어 ASR 개선
2026-01-20 업무: 제로원 TTS 데이터 정제 및 일본어 STT 모델 배포 가이드
2026-01-16 업무: 두나무 STT 연동 장애 및 일본어 모델 개선
3i4k 모델 검증 및 VTS 테스트셋 평가 전략
PVI 최적화 및 일본어 ASR 모델 개선 현황 (2026-04-29)
MWW 한국어 STT 배포 및 SIMS Backend 아키텍처 검토
2023 년 1 월~12 월 업무 회고 및 일본어 ITN 개발 이력
Day 657: Vito Worker 배포 및 rt-neural-itn Torch 의존성 제거
통합 ITN(다듬이) 아키텍처 및 프로젝트 현황
일본어 ITN(숫자 읽기) 디버깅 및 워커 개발
아서의 튜토리얼 - bmt 사용법
Day 323. 2022-05-19
Day 300: 도커 배포, ivector 디버깅, gRPC 타임아웃 이슈
Primary Voice Isolation 및 일본어 ASR 개선 현황 (2026-03-31)
2025-10-16 업무: 일본어 STT 실험 및 KISA 프로젝트 준비
TMN 음성 인식 오류 분석 및 개선 과제 (2024-04-09)
ReturnZero Day 700: 샌박 테스트 결과 및 일본어 STT 프로젝트 현황
Triton-Kaldi ASR 파이프라인 개선 및 스트레스 테스트 계획
일본어 ASR 프로젝트 현황 및 전략 논의 (Day 627)
ReturnZero Day 594: 일본어 데이터 파이프라인 및 ITN 아키텍처 검토
ITN 규칙 대응 및 Kiwi 기반 NLP 파이프라인 개선
Day 372 (2022-07-07) 작업 기록
gip-decoder 배포 및 TTS 아키텍처 검토
Engine 코드 수정 및 검증 (2024-12-27)
한국어 TTS 정규화 모델 개발 및 일본어 ASR 개선 현황
테스트 진행 상황 (Day 965)
ASR 모델 개선 현황: PVI, 일본어, 화물맨 도메인
RTZR 일본어 ASR 개발 이력 및 모델 레지스트리 구조
ReturnZero Day 858: Confidence Score 적용 및 모델 변경
일본어 음성 전사 파이프라인 설계 및 고려사항
ReturnZero Day 832: 일본어 인식 실험 및 Prefix Decoder 평가
통합 ITN 및 S2 Phase 1 진행 상황 (2023-06-05)
ITN: 텍스트 토크나이징 및 인퍼런스 파이프라인 개선
TTS 개선 및 S2 리빌드
MWW EKS 환경 접속 및 배포 준비 (Day 1153)
일본어 데이터셋 구축 및 전사 파이프라인 디버깅
Primary Voice Isolation (PVI) 파이프라인 개선 및 일본어 ASR 모델 이슈
2024-09-24 업무 진행 사항: 주소 모델 배포 및 시스템 테스트
TTS 모델 개선 및 S2 리빌드 진행
ReturnZero Day 1643: 모델 레지스트리 구조화 및 전사 장애 분석
Day 303: 모델 이미지 재배포 및 TTS 연구 시작
PVI 모델 최적화 및 일본어 ASR 개선 현황 (2026-05-27)
RTZR-STT 모델 레지스트리 구조화 및 배포 자동화 계획
ReturnZero 모델 레지스트리 구조화 및 업무 현황 (Day 1633)
Day 904: STT 학습 기능 논의 및 배포 준비 (2023-12-21)
Day 875. 2023-11-23
Day 820. 2023-09-28
일본어 철자전사 Align 및 신한은행 프로젝트 Kickoff
일본어 NLP 화이트리스트 및 배포 기록
2023-08-08 작업 일지: 일본어 학습, MWW 배포, Dadumi
다듬이 마무리 (Day 702)
일본어 데이터 전처리 및 ITN 방침 (Day 623)
Triton Inference Server 앙상블 배치 처리 검증
NLP4STT 점검: ITN, TER 메트릭 및 테스트셋 구축
Day 491: E2E 음성 인식 서버 배포 장애 및 Kaldi 대체안 검토
ReturnZero Day 1756: PVI 및 일본어 ASR 개선 이슈
BMT 엔진 벤치마크 오류 및 Helm 템플릿 수정
삼성 SW 검정 프로페셔널 준비 및 재원 형과의 대화
2026-01-22 업무 및 모델 개선 이슈
주소 모델 개발 현황
ASR 성능 데이터
Day 966. 2024-02-22
미래에셋 방문 및 일본어 데이터 준비 작업
rt-gec 토크나이저 이슈 및 일본어 ITN 학습 데이터 가이드라인
Day 331. 2022-05-27
Timbel 전사 속도 최적화: VAD Trailing Time 조정
WFST 코드 보완 및 분류 모델 성능 평가 (Day 400)
VAD 임계값이 이름 학습 모델 성능에 미치는 영향 실험
CPU VAD 모델 웜업(Warmup) 및 TensorRT 최적화 실험 결과
NLP4STT: 교정 전후 문자열 매핑 및 띄어쓰기 복원 알고리즘
S2 리빌드 문서화 및 일본어 STT 모델 개선 계획
NLP 모델 오류 패턴 분석 및 개선 방안 (2022-10-28)
팀벨 개발 환경 설정 및 SIMS 배포 준비 (Day 959)
Day 942: vito-worker 배포 및 STT 파이프라인 설정
Torch 의존성 제거 및 Triton 이미지 배포 작업 (Day 658)
일본어 STT 이슈
일본어 NLP 파이프라인 디버깅 및 코퍼스 구축
MWW EKS 배포 장애 및 RT-Annotation 문서화 개선
현대캐피탈 차량번호 인식 모델 파인튜닝 및 SIMS 일본어 환경 구축
Kaldi ASR 모델 테스트 환경 설정 및 초기 실행 문제
ITN 파이프라인 통합 및 일본어 정규화 작업 현황 (Day 602)
2026-01-15 업무 및 일본어 ASR 개선 계획
Pronaia Multilang 배포 디버깅 및 utterance_save 암호화 구현
2024-12-03 작업 일지: 시스템 튜닝 및 배포
ReturnZero Day 1041: 일본어 STT 데이터 전처리 및 학습 전략
Istio 네트워크 문제 조사
2026-01-21 업무: 제로원 TTS 데이터 정제 실패 및 일본어 STT 모델 개선 계획
Day 588: 띄어쓰기 교정 실험 및 KAIST 채용 심사 기록
2023-07-05 작업 계획 및 MWW 연동 이슈 해결
T4 빌드 및 일본어 NLP 처리 방안
2023-03-04 작업 진행 사항 (NLP4STT, 일본어 데이터셋, rt-dadumi)
통합 ITN 인터페이스 통일 및 일본어 프로젝트 일정 조정
NLP4STT: ITN 평가 메트릭 및 pysommers 의존성 고민
일본어 ITN (Inverse Text Normalization) 처리 규칙 및 문제점
Day 536. 2022-12-18
Day 365: VTS Trial 실험 결과 및 SAC 킥오프
2022-05-18 일일 작업 기록: 서베이 및 배포 프로세스 개선 논의
2025-10-14 업무: 일본어 STT 튜닝 실험 및 제로원 제안서 초안
Gemma2 기술 검토
두나무 성능 테스트 및 리소스 최적화 (Day 1392)
Triton Kaldi ASR 클라이언트 메모리 폭주 및 성능 저하 디버깅
TTS 모델 개선 및 S2 리빌드
ReturnZero Day 1644: 모델 레지스트리 구축 및 웰컴용 STT 패키징
일본어 데이터셋 평가 및 온프레미스 환경 설정
Day 750: Helm Chart, Pronaia Proxy Logic, and Docker Build Tasks
Alignment 설명
다드미 배포 논의: Align 알고리즘 병목 및 버그 분석
Kiwi 형태소 분석기 학습 데이터 확보 및 일본어 ITN 개발 현황
Korean Spacing Algorithm Bug: Merged Phrase Overlap
ReturnZero Day 1762: PVI 및 일본어 ASR 개선 현황
ReturnZero Day 1749: PVI 및 일본어 ASR 개선 작업
Primary Voice Isolation 및 일본어 ASR 개선 과제
S2 리빌드 문서화 및 다국어 RTFx 측정 환경 구축
2026-02-26 업무 일지: 일본어 ASR 개선 및 S2 리빌드
MWW-TMN 배포 및 인프라 문제 해결 (2025-10-21)
2025-01-17 업무: 일본어 STT 벤치마크 및 VAD 튜닝
스케줄링 이슈
팀벨(Timbel) 평가(Eval) 시스템 디버깅 및 인프라 설정
ReturnZero Day 1061: STT 엔지니어링 및 평가 현황
멀티뷰 학습 및 vLLM 서빙 엔진 탐색
Recall) 이해 및 HuggingFace Transformers 학습 코드 분석
RTZR-STT 패키징 자동화 및 모델 레지스트리 설계
Istio iptables 초기화 오류 해결 및 BMT 테스트 실행
Triton-Kaldi ASR 성능 벤치마킹 및 메모리 이슈 분석
SIMS 헬름 구성 및 파이프라인 자동화 고민
다듬이: 음성 텍스트 전처리 로직 개선
일본어 TMN 회의 및 팀벨 클러스터 작업
Day 844. 2023-10-23
일본어 데이터셋 전환 및 Quota 서비스 로직 수정
프로나이아 엔진 아키텍처 및 운영 이슈 (Day 715)
NLP 문제 정의
Triton Export 및 버전 호환성 문제
2022-12-13 작업 기록: NLP 파이프라인 디버깅 및 일본어 ITN 통합
Day 301. 2022-04-27
2026-01-27 업무: 제로원 TTS, 일본어 ASR 개선, 두나무 유지보수
RTZR 일본어 STT 개발 이력 및 인프라 현황
ReturnZero Day 1622: STT 파이프라인 개선 및 배포 인프라 작업
프로나이아(Pronaia) 전사 요약 기능 개발 및 Kubespray 정리
dadumi lang 포함
한중일 한자 발음 매핑 및 데이터베이스 구축 구상
Qwen 모델에 대한 JAILBREAK 프롬프트 시도
2026-01-29 업무: 일본어 ASR 모델 개선 및 제로원 데이터 이슈
현대캐피탈 차량번호 인식 모델 고도화 및 데이터 필터링
SIMS 암호화 구현 및 다국어 모델 파이프라인 논의
Greedy Confidence 및 Entropy 기반 신뢰도 추론 아키텍처
유튜브 자막 전사 데이터 손실 및 저장소 오류
다듬이: 단어 정렬 및 매핑 알고리즘 개선
TTS 개선 및 S2 리빌드
2026-01-23 업무: 제로원 집중 및 일본어 STT 개선
Day 1105. 2024-07-10
Day 1036: 상태 확인 및 기술적 장애물
2026-01-19 업무: 제로원 TTS 데이터 파이프라인 및 일본어 ASR 모델 개선
모델 서빙 아키텍처 논의
Day 390: 핵심성분 분석 및 WFST 테스트 진행
Pronaia STT 환경 설정 및 특허 미팅 기록 (Day 917)
Vocab 실험 및 작업량 분석
Confidence 구현
dadumi한테 어떻게 task를 줄건데
Day 693. 2023-05-24
NLP4STT 프로젝트 마무리 및 팀원 이탈 회고
Day 335. 2022-05-31
Pysommers BMT CER 계산 및 화자 구분 세미나 노트
Day 212. 2022-01-28
2026-04-09 업무: PVI, 일본어 ASR 개선 및 TTS 관리 기능 개발
ReturnZero Day 1743: PVI, 일본어 ASR 개선 및 신한 SDK 빌드
ReturnZero Day 1736: PVI 및 일본어 ASR 개선 현황
2026-01-26 업무: 제로원 준비 및 일본어 ASR 개선
일본어 음성 인식 파인튜닝: 문자셋 재정의 및 데이터 혼합 비율 조정
일본어 데이터 전사 비교 및 정규화 로직 수정
SIMS 0.4.0 배포 시험 및 설정 검토
RTBoost Dataset VAD 오류 및 전처리 파이프라인 수정
기가코리아 개발 회의
polyglot-ko 서빙 준비도
압축 이슈 해결
현대캐피탈 고도화 및 일본어 모델 개발 진행 상황 (Day 1524)
Kiwi NLP 모델 빌딩 및 데이터 전처리 작업 기록
IP 돌리기 및 Kiwi 한국어 띄어쓰기 규칙 분석
현택의 블록체인 기반 데이터 거래 모델 고찰
일본어 TTS 데이터 전처리 및 학습 구성안
일본어 ASR 데이터 전처리 및 Pronaia 메시지 구조 정의
다듬이: Turn 기반 처리 파이프라인 재설계 및 Pandas 인덱스 문제
Day 610: 태스크 정리 (NLP4STT, 다듬이, 일본어 데이터)
삼성 마지막 날: GRPC 서버 개발 및 TTS 요구사항 정의
ReturnZero Day 1794: PVI 및 일본어 ASR 개선 현황
릴단 파드 및 Triton Server 배치 구성 (Helm Values)
ReturnZero 데이터셋 전처리 및 pysommers 파이프라인 디버깅
한국어 TTS 텍스트 정규화(TN) 경량 모델 개발 진행 상황 (2026-02)
TTS 모델 개선 및 S2 리빌드 진행 상황
현대캐피탈 고도화: 취약점 패치 및 다중 모델 평가 환경 구축
ReturnZero STT 솔루션 개발 및 모델 레지스트리 구조화
일본어 가타카나 인식에서 음절 절단 문제 분석
단위별 Confidence 및 Entropy 계산 로직 정립
2023-07-31 일일 작업 기록 및 장애 대응
dadumi 버그 수정 및 Pronaia API 구조 분석
Day 589. 2023-02-09
긴 입력 처리 아키텍처 검토 (Day 586)
2022-11-21 작업 기록: 한글 교정 로직 수정 및 Highlighter PoC 환경 설정
일본어 ASR 이슈 및 UBase 타운홀 요약
ReturnZero Day 1745: PVI, 일본어 ASR 개선 및 Kubernetes 보안 검토
RTZR-STT 서비스 Istio 네트워크 정책 및 장애 조치 실험 (2024-10-30)
ReturnZero Day 1118: 음성 인식 전사 오류 및 WFST 디코더 호환성 문제
Day 1106. 2024-07-11 업무 요약
Day 1055: 전사 품질 필터링 및 Triton E2E 디코딩 오류 분석
신한카드 RFI 대응 및 STT 엔진 개발 현황 (Day 1034)
Day 1022 (2024-04-18) - ReturnZero Daily Note
STT 실시간 엔진 배포 가이드 및 데이터셋 전처리 현황
STT-LLM-TTS 챗봇 기술 스택 및 설정 초안
WFST 테스트 코드 및 규칙 개발 (Day 391)
Day 516. 2022-11-28: Kiwi 모델 구축 API 화 및 콜라보 하이라이터 프로토타이핑
AWS CLI 환경 설정 및 Triton Server 배포 준비
pysommers 개발 진행 상황 및 반성 (2023-01-03)
2022-12-26 회사 근황 및 NLP 기술 검토
VTS201020 데이터셋의 압축 포맷 및 배치 크기에 따른 CER 불안정성 분석
ReturnZero Day 1748: PVI 및 일본어 ASR 개선 작업
Primary Voice Isolation(PVI) 및 일본어 ASR 개선 현황
일본어 데이터 정제 및 전처리 파이프라인 (Day 1562)
팩맨TF 및 dadumi-worker 아키텍처 리팩토링 고려사항
PII 영향 분석)
ReturnZero Day 1058: ASR 파이프라인 진행 상황 및 버그 수정
Pronaia Engine 필터링 및 아키텍처 도식화 (Day 1044)
2024 Q1 OKR 초안: 신한은행 이관 및 포스코 데이터 테스트
2025-11-07 업무 진행 상황: MWW 모델 평가 및 rtzr-stt 개선
Pronaia Online 서비스 운영 및 리소스 모니터링
팀벨(Timbel) 개발 환경 구축 및 라이선스 발급 기록
일본어 NLP 파이프라인 및 데이터셋 전처리 작업 기록
Day 8. 2021-07-08
새 일본어 고객 (Day 786)
qoo10 일본어 서버 재가동 및 헬름차트 설정
ReturnZero STT 서비스 K8s 배포 및 Triton Server 연동 작업 (Day 748)
프로나이아(Pronaia) 일본 배포 및 API 접근 제어 아키텍처 논의
오전 업무 스몰토크 (Day 597)
일본어 숫자 및 날짜 처리 로직 개선 (Day 533)
Day 461. 2022-10-04
ReturnZero Day 359: Python Client 완료 및 3i4k 데이터 FP 검증 시작
프로나이아 패키지화 및 3i4k FP 검증
Primary Voice Isolation(PVI) 평가 환경 구축 및 신한 SDK 16kHz 대응
Primary Voice Isolation(PVI) 및 신한은행 다국어 STT 대응 현황
2026-03-25 업무 및 기술 이슈 요약
ITN 개선 및 제로원 착수 준비
ReturnZero Day 1489: utterance 암호화 구현 및 Next Model(일본어) 탐색
Day 1104 (2024-07-09) - ReturnZero Daily Note
팀벨 (2024-03-28)
2025-08-25 업무: 현대캐피탈 TTS 장애, utterance 암호화, 일본어 모델 디버깅
Day 553: 띄어쓰기 벤치마크 설계 및 Pronaia Engine 아키텍처 분석
신한카드 K8s 방화벽 설정 및 모델 파이프라인 개선 고민
SIMS 일본어 설치 및 현대캐피탈 모델 고도화 진행 상황
Envoy 로드밸런싱 문제 해결
Day 937: 다드미 버그 수정, 일본어 데이터 수집, 특허 보완
mww 운영계 배포 아키텍처 및 구성 요소
일본어 관련 의심 단어 목록 및 정제 규칙
ReturnZero Day 764: 헬름차트 변경 및 배치 처리 아키텍처 논의
Day 497. 2022-11-09
ReturnZero E2E 파이프라인 실행 순서 및 데이터 구조 분석
ReturnZero Day 482: 비즈니스 통화 스크립트 검토 및 결과 비교 실험
2026-05-28 업무 및 기술 이슈 요약
2026-05-14 업무 및 기술 이슈 요약
Primary Voice Isolation(PVI) 및 신한은행 다국어 ASR 대응 현황
2024-11-27 작업 기록: 일본어 BMT 실험 및 Pronaia 서버 리팩토링
Pronaia 온프레미스 세미나 준비 및 데이터 파이프라인 문제 해결
Stock Trader 데이터 준비 및 아키텍처 검토
Triton-Kaldi GRPC 통신 분석 및 Sommers 모델 디버깅
K8s 이슈)
Day 931. 2024-01-18
일본어 NLP 데이터 정제 및 운영 라이선스 발급
Qoo10 데이터 정규화 및 장애 대응 기록
TED 일본어 데이터셋(테스트용)
Qoo10 rtboost 구현 및 dadumi aligner 알고리즘 설계 고민
Day 61 (2021-08-30) - ReturnZero 일지
ReturnZero Day 495: 화자 분리 실패와 룰 기반 FP 감수
STT 관련 고찰
Day 448. 2022-09-21
프로젝트 Bled 중단 및 SAC 프로젝트 집중
2022-06-10: BMT CER 변동 조사 및 Action Item Detection 서베이
NLP 팀 회의 및 다음 작업 아이템 (2022-05-12)
Day 187. 2022-01-03
2026-03-09 업무 및 S2 리빌드 현황
일본어 프로젝트 진행 상황
팀벨 프로젝트: 개인정보 필터링 및 서버 구축 작업
Day 1. 2021-07-01
레벤슈타인 거리 (Levenshtein Distance) 알고리즘
Triton Kaldi 메모리 누수 및 성능 저하 문제 분석 (Day 229)
SIMS 개발계 배포 및 Envoy gRPC 로드밸런싱 설정

AncomWiki

탐색기

띄어쓰기 모델 변환 및 성능 테스트

띄어쓰기 모델 변환 및 성능 테스트

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

띄어쓰기 모델 변환 및 성능 테스트

띄어쓰기 모델 변환 및 성능 테스트

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크