연구팀은 LLM의 예측 능력을 평가하기 위한 OracleProto 프레임워크를 개발했습니다. 이 프레임워크는 모델의 지식 경계를 명확히 하고, 시간 제약 내에서 예측 성능을 측정합니다. OracleProto는 FutureX-Past 데이터셋을 기반으로 6가지 LLM을 평가하여 예측 품질, 안정성, 비용 효율성을 분석했습니다.
OracleProto는 모델이 이미 학습했을 가능성이 있는 정보를 배제하고, 시간 제약 내에서 예측 성능을 평가하는 데 중점을 둡니다. 이를 위해 모델 지식 차단 시점과 일치하는 샘플 사용, 도구 수준의 시간 마스킹, 정보 유출 감지 등의 기술을 적용했습니다.
연구팀은 OracleProto를 통해 LLM 예측 능력을 감사 가능하고 재사용 가능한 데이터셋 기반 기능으로 전환하여, 공정한 모델 비교 및 추가 훈련에 활용할 수 있도록 했습니다. 관련 코드와 데이터는 GitHub 및 Hugging Face에서 확인할 수 있습니다.