연구진은 LLM이 소프트웨어 개발 과정에서 건축 설계 명세와 같은 아티팩트의 의미를 일관성 있게 처리하는지 조사했습니다.
Gemini-3, GPT-5.4, Qwen-3.6 모델을 대상으로 HMSC의 129가지 의미 관련 작업을 평가한 결과, 전반적인 정확도는 약 52%로 나타났습니다.
LLM은 기본적인 의미 개념은 잘 이해하지만, 추상화 및 합성, 그리고 트레이스와 labelled transition system 계산과 같은 복잡한 의미 추론 작업에서는 어려움을 겪는 것으로 확인되었습니다.