Pulse · AI 뉴스

포텍스토: 유럽 포르투갈어 시각 텍스트 추출 벤치마크

PorTEXTO · 2026-06-17

연구진이 유럽 포르투갈어 시각 텍스트 추출 벤치마크 '포텍스토(PorTEXTO)'를 공개했어요. 기존 벤치마크는 주로 역사적 문서나 문학 작품에 집중했지만, 포텍스토는 현대적인 콘텐츠를 다뤄요. 최첨단 LVLM의 트랜스크립션과 원어민 검수를 거쳐 품질을 보증받았으며, 모델 크기보다 다국어 데이터가 성능 향상에 더 효과적이라는 점을 확인했어요.

합성 데이터와 실제 데이터 간 성능 격차가 큰 것으로 나타났으며, 현재는 모델 크기나 해상도보다 전문적인 다국어 데이터가 유럽 포르투갈어 성능 향상에 더 중요해요. 연구진은 오픈 소스 유럽 포르투갈어 OCR 리소스를 공개하며, 관련 연구에 기여할 계획입니다.

포텍스토는 현대적이고 문화적으로 관련 있는 유럽 포르투갈어 시각 텍스트 추출을 위한 첫 번째 벤치마크로, OCR 분야의 다양성을 높이는 데 기여할 것으로 기대됩니다.

##벤치마크##OCR##유럽포르투갈어##PorTEXTO
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기