일본어 일반모델 개발 및 데이터 전처리/가독성 개선

Source

Field Notes/ReturnZero/Daily Notes/Day 1092. 2024-06-27.md

Summary

일본어 일반모델 개발의 마무리(일단락)를 위한 코드 정리 및 가독성 향상 작업을 계획함. 데이터 중복 제거(deduplication)를 위한 관련 오픈소스 도구들을 수집했으며, 입력 데이터 처리 방식(pysommers text)과 참조(ref) 달기의 관계에 대한 의문점을 기록함. 또한 모델의 설명력 향상을 위한 프롬프트 전략(점진적 복잡도 증가, 명확화 질문)을 검토 중임.

Key Points

일본어 일반모델 개발의 최종 단계(일단락) 진입 및 코드 정리 필요성
데이터 전처리: deduplication 관련 주요 오픈소스 프로젝트(ChenghaoMou, UpstageAI, Google Research) 수집
가독성 및 문서화: 예제 및 기준 추가, 입력 데이터(pysommers text)와 참조(ref)의 관계 명확화 필요
프롬프트 엔지니어링: 점진적 복잡도 증가 및 명확화 질문을 통한 답변 형성 전략 검토

AncomWiki

탐색기

일본어 일반모델 개발 및 데이터 전처리/가독성 개선

일본어 일반모델 개발 및 데이터 전처리/가독성 개선

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

일본어 일반모델 개발 및 데이터 전처리/가독성 개선

일본어 일반모델 개발 및 데이터 전처리/가독성 개선

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크