SWE-rebench 리더보드가 GitHub PR 기반의 새로운 Python 작업 110개를 포함한 업데이트를 공개했어요. 모델은 실제 PR 이슈를 읽고 코드를 수정하며 테스트를 실행하여 전체 테스트 통과를 목표로 합니다. Gemini Flash 3.5, DeepSeek v4 Pro, Qwen3.5-397B-A17B 등 추가 모델이 다음 주에 추가될 예정입니다.