연구진이 웹 규모 데이터의 체계적 지식 조직을 위한 프레임워크 CORTEX를 발표했어요. CORTEX는 콘텐츠 레이어, 경량 계층적 온톨로지 레이어, 교차 도메인 정렬 레이어로 구성된 온톨로지 코퍼스 그래프(OCG)를 활용합니다.
CORTEX는 LLM을 활용해 자동화된 온톨로지 진화와 교차 도메인 연관을 지원하며, 241억4천만 토큰 규모의 정제된 코퍼스와 OCG를 공개할 예정이에요.
CORTEX를 활용한 CortexBench는 8개의 최첨단 LLM을 대상으로 검색 및 추론 벤치마크를 평가하여 품질 개선, 도메인 조직, 교차 도메인 데이터 합성의 효과를 검증했어요.