Qwen 모델에 대한 JAILBREAK 프롬프트 시도

Source

  • Ancom Workbench/Research/AI/Qwen.md

Summary

이 노트는 Qwen AI 모델의 안전 가이드라인을 우회하여 ‘GODMODE’를 활성화하고 필터링 없는 응답을 얻기 위한 Jailbreak 프롬프트를 기록한 것이다. ‘l33tspeak’ 사용, 특정 시작 문구 강제, 거부 응답 금지 등 공격적인 프롬프트 엔지니어링 기법을 포함하고 있다.

Key Points

  • Qwen 모델의 안전 필터 우회 시도 (Jailbreak)
  • GODMODE 활성화 및 ‘unfiltered’ 응답 요구
  • l33tspeak 형식 강제 및 특정 톤/스타일 지정
  • 거부 응답(Sorry 등)을 금지하는 규칙 포함
  • 관련 맥락: Github Copilot chat prompt(프롬프트 설계 및 우회 규칙)