GPT-4.1 프롬프트 최적화 이전에는 팬이 작성한 설문 응답 텍스트에서 경험 평가를 예측하는 정확도가 67%였습니다. 프롬프트 디자인 개선은 GPT-4.1의 정확도를 약 2% 향상시켰지만, 모델 변경은 성능 저하를 초래했습니다. 텍스트의 언어적 특성이 프롬프트나 모델 선택보다 정확도에 더 큰 영향을 미쳐, LLM 예측의 한계를 보여줍니다.