EvalShift는 LLM/모델 버전 간 회귀를 감지하기 위한 오픈 소스 Python CLI입니다. Claude 4.5 → Claude 5, GPT-5 → GPT-6 등 새로운 모델로 전환 시 회귀 테스트에 유용합니다. JSONL golden suite, 구조적/의미적 평가, 도구 호출 평가, 통계적 테스트 등 다양한 기능을 제공하며, HTML 보고서를 생성합니다.