연구 작가 Nathan Witkin이 METR AI의 시간 예측 그래프에 심각한 오류가 많다고 비판했어요. 그래프의 오류는 복합적으로 작용해 의미 있는 결론을 내리기 어렵게 만들어요. 연구자들은 오류를 수정하기보다 더 정확한 정보를 찾아야 해요.
인간 기준 데이터의 일부는 실제 측정값이 아닌 추정치이며, 인간 벤치마커에게는 시간 지체에 대한 금전적 인센티브가 제공됐어요. 또한, 벤치마커 샘플이 편향됐고, 훈련-테스트 데이터 오염 문제도 발생했어요.
METR 그래프는 과학적 기준과 모범 사례의 중요성을 보여주는 사례이며, 동료 검토와 같은 프로세스를 통해 잘못된 정보에 빠지는 것을 방지해야 해요.