Anthropic의 Claude 3.5 Sonnet과 DeepSeek V3가 동일한 이중 추 진자 시뮬레이션 계약에서 각도 표기 방식이 달라 시각적으로 반전된 모습을 보였습니다.
Physics Bench 프로젝트는 모델이 렌더링 로직을 제어할 수 없도록 하여 모델 간의 미묘한 차이점을 드러내는 데 초점을 맞추고 있습니다.
연구자는 모델이 운동 방정식에서 중력 토크 부호에 대한 의견이 다를 경우, 시뮬레이션에서 서서히 편차를 보이는 현상도 관찰했습니다.