연구진은 LLM이 과학자처럼 추론하도록 하는 프롬프트 '기술'이 코드 생성 성능을 향상시킨다는 보고에 의문을 제기했어요.
실험 결과, Claude Sonnet 4.6 모델에서는 모든 조건이 벤치마크 최고 수준에 근접하여 사전 등록된 +5점 향상이 확인되지 않았어요.
Qwen2.5-Coder-0.5B 모델에서는 구조화된 조건이 코드 정확도를 20~22점 향상시켰지만, 포퍼식 절차 전체는 라벨 전용 스캐폴딩보다 뚜렷한 이점을 보이지 않았어요.
연구 결과는 프롬프트 기술의 이점이 포퍼식 절차 내용이 아닌 스캐폴드 구조에서 비롯되었을 가능성을 시사하며, 향후 연구 방향을 제시합니다.