Pulse · AI 뉴스

SWE-bench Verified 공개: AI 모델의 실제 소프트웨어 문제 해결 능력 검증

OpenAI · 2024-08-13

SWE-bench Verified는 AI 모델이 실제 소프트웨어 문제를 해결하는 능력을 더욱 신뢰성 있게 평가하기 위해 인간이 검증한 데이터 세트입니다.

기존 SWE-bench 데이터 세트의 신뢰성 문제를 개선하기 위해 개발되었으며, AI 모델 성능 평가의 정확도를 높이는 데 기여합니다.

SWE-bench Verified를 통해 AI 모델의 실질적인 소프트웨어 개발 역량을 보다 명확하게 파악할 수 있게 되었습니다.

##SWE-bench##AI평가##소프트웨어

매일 핵심 AI 소식을 한국어로, 빠르게