Day 530. 2022-12-12

Source

  • Field Notes/ReturnZero/Daily Notes/Day 530. 2022-12-12.md

Summary

2022 년 12 월 12 일의 개발 일지로, 멀티프로세싱 구현 중 동기화 (락) 문제로 인한 성능 저하 및 오류를 겪으며 큐 기반 병렬 처리 구조로 수정하는 과정을 기록함. 또한 나무위키 코퍼스 생성 시 메모리 부족 및 모델 학습 오류 (-nan, segfault) 발생, 일어 ITN 작업 시작, Vex 하이라이팅용 텍스트 파싱 로직 설계 등 여러 기술적 우여곡절과 진행 상황을 나열함.

Key Points

  • 멀티프로세싱 구현 시 락 (Lock) 사용으로 인한 병렬성 저하 및 오류 발생
  • 동기화 큐 대신 결과만 싱크되는 비동기적 병렬 처리 구조로 아키텍처 변경 시도
  • 나무위키 코퍼스 생성 중 대용량 데이터 (17GB) 처리 어려움 및 skipbigram 모델 학습 오류 (-nan, segfault) 발생
  • 일어 ITN 작업 착수 및 Vex 하이라이팅용 텍스트 파일 파싱 로직 (화자/발화 분리) 설계