본문 바로가기

머신러닝/OCR

(7)
[논문 리뷰] SynthTIGER 리뷰 SynthTIGER는 Synthetic Text Image GEneratoR Towrads Better Text Recognition Models 로, Clova ai 에서 발표한 Scene Text Recognition (STR) Dataset 생성 방법에 대한 논문입니다. OCR을 오래 하다보니 OCR 모델뿐만 아니라 데이터셋 생성도 매우 중요하다고 생각하게 되었습니다. 언어별로 다른 문자 수, 폰트, 문자 크기, 문자의 길이 등 너무나 다양한 특성을 가진 text를 학습시키기 위해 어떤 augmentation이 필요하고 어떤 합성 데이터 생성 방법이 필요할지 자연스레 고민해보게 되었는데, 제가 느꼈던 어려움들이 논문에서 하나하나 언급되는 것을 보고 반가운 기분이 들었습니다. + 참고 OCR은 크게 ..
EasyOCR 사용 방법 https://wandukong.tistory.com/8 EasyOCR 소개 오늘은 유명한 OCR 프레임워크인 EasyOCR에 대해 소개해보려고 합니다. 깃허브 : https://github.com/JaidedAI/EasyOCR GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popu.. wandukong.tistory.com 이전 포스팅에서 EasyOCR를 소개했었는데요, 오늘은 이어서 EasyOCR을 사용하는 방법을 설명하려 합니다. (1) anaconda 가상 환경 만들기 anaconda 가상 환경을 만들어줍시다. conda create -n "easyocr" python=3.7 -y conda acti..
pytesseract 사용방법 요새 tesseract5 학습 방법을 보고 찾아오시는 분이 많길래 학습한 모델을 사용하는 방법도 알려드리면 좋을 것 같아 포스팅해봅니다! windows용 tesseract 5.0 학습방법 : https://wandukong.tistory.com/7 Tesseract OCR 5.0 Windows용 학습 방법 Tesseract OCR을 처음 학습시킬 때 정보가 충분하지 않아 오랜시간 헤맸던 기억이 있다. 방법을 찾아 학습시켜본 지는 꽤 오래됐지만 누군가에게 도움이 되지 않을까 해서 방법을 글로 정리해보려 wandukong.tistory.com 오늘은 tesseract를 파이썬으로 사용할 수 있는 pytesseract 사용방법에 대해 소개해보겠습니다. (1) Tesseract OCR 설치 https://git..
EasyOCR 소개 오늘은 유명한 OCR 프레임워크인 EasyOCR에 대해 소개해보려고 합니다. 깃허브 : https://github.com/JaidedAI/EasyOCR GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chines Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. - GitHub - JaidedAI/EasyOCR: Ready-to-use ..
Tesseract OCR 5.0 Windows용 학습 방법 Tesseract OCR을 처음 학습시킬 때 정보가 충분하지 않아 오랜시간 헤맸던 기억이 있다. 방법을 찾아 학습시켜본 지는 꽤 오래됐지만 누군가에게 도움이 되지 않을까 해서 방법을 글로 정리해보려고 한다. Tesseract OCR 엔진에 대해서는 이전 글에서 정리해두었다. https://wandukong.tistory.com/6 Tesseract OCR 이번 포스팅에서는 OCR 하면 빼놓을 수 없는.. 역사 깊은 Tesseract OCR 엔진에 대해 다뤄보겠다. 내가 오랜 기간 사용하면서 정리하고 기록한 내용을 적어보려한다. 먼저 이번 포스팅에서는 Tesseract O wandukong.tistory.com Tesseract OCR의 버전은 크게 세가지가 있다. Tesseract Version Tess..
Tesseract OCR 이번 포스팅에서는 OCR 하면 빼놓을 수 없는.. 역사 깊은 Tesseract OCR 엔진에 대해 다뤄보겠다. 내가 오랜 기간 사용하면서 정리하고 기록한 내용을 적어보려한다. 먼저 이번 포스팅에서는 Tesseract OCR에 대한 간단한 소개와 Tesseract에서 OCR이 어떻게 이루어지는지를 정리해보겠다. 참고, 이미지 출처) overview논문 : storage.googleapis.com/pub-tools-public-publication-data/pdf/33418.pdf main repository : github.com/tesseract-ocr/tesseract tesseract-ocr/tesseract Tesseract Open Source OCR Engine (main repository) ..
GOCR 오늘은 최근에 사용해본 GOCR 사용 방법에 대해 정리해보려고 한다. ( GOCR 공식 사이트 : www-e.ovgu.de/jschulen/ocr/ ) Introduction gocr은 2000년 12월 2일에 처음 배포되어 업데이트 되고 있다. (마지막 업데이트는 2018년 12월 31일이다.) 현재(21.04.02) 가장 최신 버전은 GOCR 0.52이다. 지원하는 이미지 포맷은 pnm, pbm, pgm, ppm, pca, tga 등이다. -> png, jpg등 일반적인 이미지는 컨버터를 사용해서 지원되는 이미지 포맷으로 바꿔주면 된다. tcl/tk로 작성된 GUI도 제공한다고 한다. 이 포스팅에서는 command로 실행하는 방법을 소개하려고 한다. Requirements Ubuntu 윈도우 환경에서..