연구진은 텍스트 정보와 관계 구조를 통합해야 하는 텍스트 풍부 네트워크(TRN) 추론을 위한 새로운 프레임워크 TRN-R1-Zero를 제안했어요. TRN-R1-Zero는 강화 학습만을 사용하여 LLM을 직접 최적화하며, 이웃 정보의 중요도를 고려한 새로운 보상 메트릭을 활용해요. TRN-R1-Zero는 지도 학습 데이터나 큰 모델로부터의 지식 증류 없이도 다양한 TRN 벤치마크에서 우수한 성능을 보여줬어요.