연구진은 인간의 직관을 활용해 데이터 합성을 가이드하는 새로운 프레임워크 GMHF(Generative Meta-Learning with Human Feedback)를 제안했어요.
GMHF는 조건부 신경 ODE(cNODE)를 생성 디지털 트윈으로 사용하고, RL 에이전트가 인간 피드백에 따라 생성 경로의 잠재적 물리적 파라미터를 반복적으로 개선하는 방식으로 작동해요.
비선형 Duffing oscillator 실험에서 GMHF가 전문가 신뢰도가 증가함에 따라 배포 손실을 크게 줄이고, 생성 및 대상 데이터 간의 발산이 신뢰할 수 있는 피드백 하에 감소하는 것을 확인했어요.