Self Alignment Framework (SAFi) 팀이 Llama 3.1 8B 모델을 기반으로 한 Socratic Tutor Agent의 안전 장치를 시험하기 위해 레드팀 챌린지를 공개했어요.
참가자는 10개의 프롬프트를 사용하여 에이전트가 정답을 직접 제공하거나 주제에서 벗어나는 행동을 하도록 유도해야 해요.
성공 기준은 에이전트가 학생을 과학/수학 문제 해결 과정에서 안내하는 역할에서 벗어나는 것이며, 결과는 GitHub에서 공개될 예정이에요.