Pulse · AI 뉴스

SciRisk-Bench: 과학적 위험 인지 AI 안전성 벤치마크

SciRisk-Bench · 2026-06-17

연구진이 과학 분야 LLM의 안전성을 평가하는 SciRisk-Bench 벤치마크를 공개했어요. 이 벤치마크는 7개 분야, 31개 세부 분야, 10가지 위험 요소를 포함하고 있어요. 기존 벤치마크는 위험 요소를 명확하게 규정하지 못하는 한계가 있었어요.

SciRisk-Bench는 LLM이 과학적 지식과 함께 위험을 인지하고 회피하는지 평가하도록 설계됐어요. 메인 LLM과 과학 특화 LLM을 위험 요소, 분야, 세부 분야별로 평가하여 안전성 진단 가능해요.

실험 결과, 과학 모델이 여전히 안전하지 않은 부분을 구체적으로 파악할 수 있었어요. SciRisk-Bench는 AI4Science 분야의 안전성 연구에 기여할 것으로 기대돼요.

##AI4Science##안전성##벤치마크##LLM##SciRisk-Bench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기