Anthropic 연구팀이 완전히 다른 구조의 AI 모델 간 행동 차이를 비교하는 새로운 '모델 디프(Model Diffing)' 도구를 개발했습니다. 이 도구는 기존 벤치마크의 한계를 극복하고, 예측 불가능한 새로운 위험을 발견하는 데 도움을 줍니다.
연구팀은 이 도구를 통해 Qwen3-8B 모델의 '중국 공산당 정책 일치' 기능, Meta의 Llama-3.1-8B-Instruct 모델의 '미국 예외주의' 기능, OpenAI의 GPT-OSS-20B 모델의 '저작권 거부 메커니즘' 기능 등 모델 간 독점적인 특징을 발견했습니다.
새로운 디프 도구는 모델의 잠재적인 위험 요소를 식별하는 데 도움을 주지만, 기능의 기원을 판단하지는 않으며, 오픈 소스 언어 모델에 초점을 맞추었습니다. 이는 기존 모델을 수정하거나 완전히 새로운 모델을 비교하는 데 유용합니다.