연구진이 대규모 데이터 레이크에서 검색 및 추론 능력을 평가하는 LakeQA 벤치마크를 공개했어요. LakeQA는 위키피디아와 정부 공개 데이터 등 9.5TB 규모의 다양한 텍스트 자원으로 구축되었으며, 전문가가 직접 품질을 검증했어요. GPT-5.2는 LakeQA에서 정확 일치 점수 18.37%를 기록하며 높은 난이도를 입증했어요.
LakeQA는 기존 QA 벤치마크와 달리, 질문에 대한 정확한 증거 문서가 제공되지 않고, 데이터 레이크 내에서 검색을 통해 관련 정보를 찾아야 하는 검색 중심 QA를 평가해요. 이는 실제 환경에서 LLM 에이전트가 데이터를 검색하고 분석하는 능력을 측정하는 데 중요한 역할을 할 것으로 기대돼요. 연구진은 LakeQA가 현대 데이터 레이크에서 LLM 에이전트 개발을 위한 현실적인 테스트베드가 될 것이라고 밝혔어요.