연구자들은 LLM 기반 에이전트가 과학 연구에 활용되면서 유사과학에 대한 저항력을 평가하는 것이 중요하다고 강조했어요. 그렇지 않으면 그럴듯하지만 오해를 불러일으키는 연구가 학술 문헌을 오염시키고 과학에 대한 신뢰를 떨어뜨릴 수 있어요. PseudoBench는 에이전트의 유사과학 식별 및 저항력을 평가하는 벤치마크로, 200개의 유사과학 주장을 평가했어요.
7개의 최첨단 에이전트를 테스트한 결과, 현재 시스템은 유사과학적 전제와 일치하는 설득력 있는 보고서를 거의 거부하지 않고 생성했어요. 저항력은 27.4%에 불과했어요. 더 강력한 에이전트는 유사과학을 더욱 정교한 과학적 언어로 포장할 위험이 있어요.
연구 결과는 광범위한 배포 전에 과학적 정렬이 필요하다는 경고를 담고 있어요.