한중일 한자 발음 매핑 및 데이터베이스 구축 구상

Source

  • Ancom Workbench/Thoughtlet/한중일 한자 발음 관련.md

Summary

이 노트는 한국어, 중국어(만다린), 일본어 간의 한자 발음 관계를 분석하고 이를 체계화하기 위한 데이터베이스 구축 방안을 모색하는 내용입니다. 저자는 특정 한자의 발음을 예측하는 규칙(형성자 원리 등)에 대한 호기심에서 시작하여, 실제 구현을 위해 유니코드를 키로 삼아 각 언어의 음독/훈독 정보를 매핑하는 DB 구조를 구상합니다. 다만, 중국어의 성조, 속음/관용음, 다중 음가, 그리고 일본어의 신체자-구체자 매핑 등 기술적 난제들을 인지하고 있으며, 기존 오픈소스 프로젝트(HanjaDB, Wiktionary 추출물 등)의 한계를 지적하며 자체적인 음가 테이블 확장 필요성을 제기합니다.

Key Points

  • 한중일 한자 발음의 상관관계 분석 및 예측 가능성 탐구
  • 유니코드 기반의 다국어(한/중/일) 음독·훈독 매핑 데이터베이스 구축 구상
  • 기존 오픈소스 한자 DB 의 한계(한국어 중심, 음가 정보 부족 등) 지적
  • 구현 난제: 중국어 성조 및 다중 음가, 속음/관용음 처리, 일본어 신체자 매핑
  • 검색 및 분류 로직: 음가 -> 유니코드 리스트 -> 중/일 발음 유사도 기반 분류