연구진은 LLM이 골드 스탠다드 벤치마크의 전문적인 규칙에 어려움을 겪는다는 점에 주목해 어노테이션 가이드라인 재활용 및 개선 방안을 제안했어요.
GPT, Gemini, DeepSeek 등 세 가지 LLM 패밀리를 활용해 생물 의학 NER 작업(NCBI Disease, BC5CDR, BioRED)을 수행하며 가이드라인 통합, 추론 최적화 모델의 장점, 최소 감독 하에서의 조정 가능성을 검증했어요.
실험 결과 세 가지 가설이 모두 입증되었으며, 반복적인 조정 프레임워크는 가이드라인을 효과적으로 개선할 잠재력이 있지만 개선할 여지가 남아있다고 밝혔어요.