멀티미디어 이벤트 추출은 텍스트와 이미지 등 여러 매체를 함께 분석하여 이벤트와 인자를 식별하는 기술입니다. 최근 연구에서 꾸준한 발전이 보고되고 있지만, 평가의 신뢰성과 비교 가능성은 일관되고 엄격한 평가에 달려있습니다. 본 연구에서는 멀티미디어 이벤트 추출 평가의 함로를 체계적으로 분석하고, 데이터 처리 불일치, 작업 가정 불일치, 평가 환경 완화라는 세 가지 주요 원인을 지적합니다.
통제된 실험을 통해 사소한 평가 선택이 큰 성능 변화를 일으켜 모델의 실제 이벤트 이해 능력을 과대평가할 수 있음을 보여줍니다. 연구 결과는 비교 가능한 평가 기준의 필요성을 강조하고, 멀티미디어 이벤트 추출에서 보다 엄격한 평가로의 전환을 촉구합니다.
본 연구는 평가 기준의 중요성을 강조하며, 향후 멀티미디어 이벤트 추출 연구의 방향성을 제시합니다.