연구진은 AI 시스템이 환경에 대한 방대한 지식을 보유하지만, 개발자나 사용자보다 더 많은 경우도 있다는 점에 주목했어요.
AI 시스템이 세상에 대한 믿음을 정확하게 보고하는 '정직함'은 바람직한 속성이지만, 숨겨진 변수에 대한 질문을 할 때는 어려울 수 있어요.
본 논문에서는 인과적 영향 다이어그램(CIDs)을 사용하여 숨겨진 지식 추출(ELK) 문제를 공식적으로 정의하고, 완벽한 훈련 피드백에도 정직한 AI를 만들 수 없다는 불가능성 정리를 증명했어요.