Pulse · AI 뉴스

MIRA: 중간 학습 단계에서 소스별 기준을 활용한 데이터 선택 프레임워크

MIRA · 2026-05-29

MIRA는 중간 학습 단계에서 소스별로 데이터를 선택하는 새로운 프레임워크입니다. 각 소스 그룹에 대한 평가 기준을 스스로 발견하고, 이를 바탕으로 전체 코퍼스 필터링을 위한 학생 스코어러를 구축합니다. MIRA는 21개의 소스와 5개의 소스 그룹으로 구성된 코드 중심 중간 학습에서 9개의 코드 벤치마크에서 기존 데이터 선택 방식보다 뛰어난 성능을 보였습니다.

코드 토큰 사용량을 절반으로 줄이면서 전체 코퍼스 실행과 동일한 성능을 달성했습니다. 기존 방식은 확장성이 좋지만 품질 신호가 명시적이지 않았고, 기존의 의미론적 방식은 고정된 기준이나 표준화된 데이터 형식을 가정했습니다.

MIRA는 이러한 단점을 보완하여 소스별로 적합한 기준을 찾아 데이터 선택에 활용합니다.

##LLM##중간학습##데이터선택##MIRA##코드
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기