Pulse · AI 뉴스

DART: 차별 인식 LLM의 유해성 변화 완화 기술

Llama · 2026-04-18

연구진은 안전을 위해 조정된 LLM이 인구 통계학적 차이를 회피하는 현상을 발견했어요. 이는 사실과 다르거나 맥락상 정당한 답변을 막아, 부정확한 응답이나 획일적인 답변을 유발할 수 있습니다.

정확도 향상을 위해 모델을 튜닝하는 과정에서 유해성 변화가 발생하는 것을 확인했으며, DART(Distill-Audit-Repair Training)를 통해 이를 완화할 수 있었습니다.

DART는 기존 모델의 추론 능력을 향상시키고, 유해성을 줄이며, 실제 응용 분야에서 차별에 적절한 답변을 제공하는 데 효과적임을 입증했습니다.

##모델출시##안전성##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기