연구진은 LLM의 성격 표현 메커니즘을 이해하는 것이 중요해짐에 따라, 기존 성격 편집 방법의 성능 저하 문제를 해결하기 위해 DPN-LE를 제안했어요.
DPN-LE는 고·저 성향 샘플 간 MLP 활성화를 비교하여 성격 특이 뉴런을 식별하고, 상호 배타적인 뉴런 집합을 분리하는 데 사용돼요.
LLaMA-3-8B-Instruct 및 Qwen2.5-7B-Instruct 모델에서 DPN-LE는 전체 뉴런의 약 0.5%만 개입하여 성격 제어 성능을 유지하면서 추론 능력 저하를 최소화했어요.