핵심 키워드 Permutation Language Modeling (PLM)Attention MaskVIT EncoderVisio-lingual DecoderContext-Postion AttentionImage-Posion Attention Scene Text Recognition(STR) - ParSeqhttps://arxiv.org/abs/2207.06966Unified STR ModelParSeq 모델 구조 Permutation Language Modeling (PLM) PLM: T가 context length를 의미할 때, T! 개의 Permutation 후보 중 K개를 선정한 뒤 임의의 방향에 대한 context를 학습할 수 있도록 하는 방법이다. 다시 말해, T! 개의 Permutati..
핵심키워드Scene Text Recognition (STR)TPS(Thin-Plate-Spline)Connectionist Temporal Classification (CTC)Attention Text Recognition - Data SetRegular: 가로로 배치되어 있으며 문자 사이 간격이 균일한 문자가 있는 텍스트 이미지를 지칭Irregular: 보통 휘어져 있거나 회전되어 있는 텍스트가 포함된 이미지를 지칭하며, Regular보다 글자를 인식하기 더 어려운 케이스가 포함됨인식하기 어려운 이미지들Transformation: Irregular 텍스트를 regular 텍스트처럼 보정 해주는 변환 작업 Labeled Dataset의 부족 Real Dataset 같은 경우 이미지에서 word box 찾..
핵심키워드 Differential Binarization Standard BinarizationAdaptive Scale FusionShrink Dilate Text Detection - DBNet++ (Differentiable Binarization Network++) https://arxiv.org/pdf/1911.08947DBNet++ 모델의 구조 DBNet++ 의 개념 및 특징 idea: 일반적인 Segmentation 기반의 모델은 추론 결과를 이진화하여 Box, Polygon형태로 검출하는 후처리 과정이 필요하다. 이를 위해 Segmentation Map 전체에 대해 단일 기준의 Threshold를 적용하여 이진화를 진행한다. 하지만, Threshold를 할 때 pixel마다 같은 값을 ..
핵심 키워드Text DetectionText RecognitionCRAFTRegion ScoreAffinity ScoreWeakly-supervised learning OCR이란 광학 문자 인식 = Optical Character Recognition 텍스트 이미지를 기계가 읽을 수 있는 텍스트 포맷으로 변환하는 과정 이미지 데이터 -> 텍스트 데이터 OCR은 검출(Text Detection), 인식(Text Recognition) 2가지 모델을 학습시키는 것으로 이해할 수 있다.검출 - Text Detection쉽게 말해 이미지에서 텍스트를 감지하고 해당 영역을 추출하는 것이다. 사람은 이미지를 보고 이게 텍스트라는 것을 어떻게 알 수 있을까? 만약 한국인이 한국말이 아니라 이집트어가 이미지에 적혀 있..