연구진은 LLM의 연역적 고정관념이라는 새로운 문제점을 발견했어요. 이는 모델이 집단 통계적 규칙을 개별 사례에 적용하여 논리적으로 일관되지만 사회적으로 편향된 추론을 내리는 현상입니다. 이를 해결하기 위해 추론 시간 주입 프레임워크와 Fair-GCG를 제안했습니다.
Fair-GCG는 효과적인 주입 구문을 체계적으로 발견하며, 이를 통해 여러 공정성 벤치마크 성능이 향상됐어요. 또한 더 큰 LLM으로 일반화되고, 개방형 생성에서의 편향을 줄이며, 실제 공정성 관련 작업에 적용 가능합니다.
연구 결과는 LLM의 추론 과정에서 발생하는 편향을 완화하고 공정성을 향상시키는 데 기여할 것으로 기대됩니다.