단위별 Confidence 및 Entropy 계산 로직 정립

Source

Field Notes/ReturnZero/Daily Notes/Day 848. 2023-10-27.md

Summary

이 노트는 ASR/LLM 디코더에서 greedy_score 기반 confidence 생성 시, 글자 단위(character-level)로 계산되는 entropy와 단어 단위(word-level) confidence 간의 불일치를 해결하기 위한 로직을 고민하고 있다. 특히 ctm(word) 리스트와 글자 수 매핑, utterance 단위 normalize의 사전 계산 가능성, 그리고 David의 squeeze 방식 적용 여부를 검토하며, 현대캐피탈 방문 일정 등 업무 메모가 혼재되어 있다.

Key Points

Greedy score를 활용한 confidence 생성이 목표이나 현재 구현되지 않은 상태.
Entropy는 글자(토큰) 단위로 계산되지만, 최종 출력은 단어 단위 confidence가 필요함.
CTM(word) 리스트와 글자 수를 매핑하여 단어 단위로 엔트로피를 뭉치거나 squeeze해야 함.
Normalize 값은 utterance 단위이므로 미리 계산하여 전달하는 것이 효율적일 수 있음.
스페이스 포함 여부 등 토큰화 세부 사항 확인 필요.

AncomWiki

탐색기

단위별 Confidence 및 Entropy 계산 로직 정립

단위별 Confidence 및 Entropy 계산 로직 정립

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

단위별 Confidence 및 Entropy 계산 로직 정립

단위별 Confidence 및 Entropy 계산 로직 정립

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크