ReturnZero Day 1062: 워크샵 및 거대모델 대체 전략 논의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1062. 2024-05-28.md

Summary

거대모델(LLM)이 필수적이지 않은 소규모 영역을 공략하기 위한 워크샵 논의. 음성 인터페이스의 범위를 단순 인식에서 감정, 음악, 기계 소리 등 멀티모달 인식으로 확장하고, VAD와 ASR의 결합을 느슨하게 하여 강건성을 높이는 방향을 제시. 맥드라이브, 키오스크, 상담 기록 등 구체적인 적용 사례를 언급하며, 롤피용(로봇/피규어?)을 위한 멀티모달 가능성도 탐구함.

Key Points

  • 거대모델 의존도를 낮추고 소규모/특화 영역 공략 전략
  • 음성 인터페이스의 범위를 음색 감정, 음악, 기계 소리 등으로 확장 (멀티모달)
  • VAD(Voice Activity Detection)와 ASR(Automatic Speech Recognition)의 결합을 느슨하게 하여 시스템 강건성 확보
  • 구체적 적용 대상: 맥드라이브(음성인식+LLM 대체), 키오스크, 덴탈 상담 기록 등
  • 롤피용(로봇/피규어)을 위한 멀티모달 적용 가능성 검토