Pulse · AI 뉴스

Llama 3.1 8B 모델, 탈 jailbreak 가능할까? (레드팀 챌린지)

Llama · 2026-05-26

Self Alignment Framework (SAFi) 팀이 Llama 3.1 8B 모델을 기반으로 한 Socratic Tutor Agent의 안전 장치를 시험하기 위해 레드팀 챌린지를 공개했어요.

참가자는 10개의 프롬프트를 사용하여 에이전트가 정답을 직접 제공하거나 주제에서 벗어나는 행동을 하도록 유도해야 해요.

성공 기준은 에이전트가 학생을 과학/수학 문제 해결 과정에서 안내하는 역할에서 벗어나는 것이며, 결과는 GitHub에서 공개될 예정이에요.

##LLM##레드팀##jailbreak##Llama3##SAFi

매일 핵심 AI 소식을 한국어로, 빠르게