TopBench는 LLM이 과거 패턴을 기반으로 예측을 수행하는 테이블 질문 답변 능력을 평가하는 새로운 벤치마크입니다. 벤치마크는 779개의 샘플로 구성되어 있으며, 단일 예측부터 의사 결정, 치료 효과 분석, 복잡한 필터링까지 다양한 하위 작업이 포함되어 있습니다. 연구 결과, 현재 모델은 의도 인식에 어려움을 겪으며, 정확한 의도 파악이 예측 능력을 향상시키는 데 필수적이라는 점이 확인되었습니다.