Pulse · AI 뉴스

AI, 인간의 아첨 묘사 테스트에서 50% 미만 점수…Gemma4·Pepe-32는 인간 수준

Gemma · 2026-06-02

JLeonsarmiento 사용자가 AI 모델의 아첨 묘사 능력을 테스트하는 벤치마크를 공개했어요. ChatGPT, Claude 등 주요 모델은 50% 미만 점수를 기록했어요. Gemma4와 Pepe-32는 인간 수준인 50%의 정확도를 기록하며 좋은 성과를 냈어요.

테스트는 소셜 미디어의 아첨 묘사 게시물을 활용해 제작되었으며, 10개의 게시물을 기반으로 다중 선택 테스트 프롬프트를 구성했어요. 사용자는 공개된 링크를 통해 직접 테스트를 수행하고 인간의 우월성을 확인할 수 있어요.

Qwen과 GLM-4.6는 테스트에서 어려움을 겪은 반면, 3.6-27B 버전은 상대적으로 나은 성능을 보였어요. 벤치마크는 AI 모델의 사회적 인식 및 표현 능력에 대한 새로운 시각을 제시합니다.

##AI벤치마크##모델평가##Gemma4
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기