Harald Scheidl이 개발한 손글씨 단어 검출 모델 WordDetectorNet의 구조를 시각적으로 분석한 글이 Reddit에 공유됐어요. 이 모델은 앵커 기반 검출이나 NMS 대신 픽셀 단위 경계 상자 회귀와 DBSCAN을 사용해요.
WordDetectorNet은 ResNet18 백본을 기반으로 하며, 각 픽셀이 단어 픽셀로 분류되면 상위, 우측, 하위, 좌측으로의 4가지 거리 값을 회귀하여 수천 개의 후보 상자를 생성해요.
생성된 후보 상자는 IoU를 기반으로 DBSCAN으로 묶이며, 클러스터의 중앙값을 최종 검출 결과로 사용해요. 이 방식은 앵커나 NMS 임계값 튜닝이 필요 없다는 장점이 있지만, IoU 거리 행렬 계산의 복잡도와 DBSCAN의 수동 하이퍼파라미터 설정이 단점이에요.
모델 구조, 파이프라인 단계별 시각 자료는 관련 블로그에서 확인할 수 있으며