본문 바로가기
파이썬 (Python)/딥러닝 (Deep Learning)

파이썬 Python을 이용한 OCR (optical character recognition) 이용 방법 + Tessaract 설치 방법

by ★√★ 2021. 2. 27.

안녕하세요, 오늘은, Python을 이용하여, OCR (optical character recognition)을 구현하는 방법 및 Tessaract 설치 방법에 대한 내용을 게시할려고 합니다. OCR은 쉽게 애기해서 문서를 자동으로 인식해서 문자로 변환해주는 것입니다.

 

파이썬-OCR-썸네일
파이썬-OCR-썸네일

 

 

이 부분은,  제 스스로, 독학하면서, 배운 사항에 대해서, 나름대로, 쉽게 정리할려고 합니다.(출력 효과를 통해서, 저도, 망각 곡선에서 벗어 날려는 의도도 있습니다. ㅎ) 그럼 간단하게, OCR (optical character recognition)이란 무엇인가 알아 보죠. 

 

1. OCR (optical character recognition) 

보통 컴퓨터가 2진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 보여 준다면, OCR은 그 반대로 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환한다. 보통은 스캐너로 읽어들인 이미지 파일을 분석하여 텍스트나 워드 파일로 결과물을 내놓는다.

 

출처 : 나무위키 https://namu.wiki/w/OCR

 

OCR - 나무위키

이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권을 갖습니다. 나무위키는 백과사전이 아니며 검증되지 않았거나, 편향적이거나, 잘못된 서술이 있을 수 있습니다. 나무위키는 위키위키입니다. 여러분이 직접 문서를 고칠 수 있으며, 다른 사람의 의견을 원할 경우 직접 토론을 발제할 수 있습니다.

namu.wiki

 

 

2. Tessaract (OCR 구현을 위한 필수 소프트 웨어)

 - Tessaract software 다운 받는 위치 : https://github.com/tesseract-ocr/tesseract/wiki

 

 

tesseract-ocr/tesseract

Tesseract Open Source OCR Engine (main repository) - tesseract-ocr/tesseract

github.com

 

 - 접속을 하고, 아래로 어느정도, Scroll 하면, 아래 Snap shot과 같이, Window OS를 위한 Software download

   항목이, 보이고, 여기에서 다운 받고 설치하시면 됩니다.

 

파이썬-OCR-Tessaract-설치관련-사진1

 

- "Tesseract at UB Mannheim"을 클릭하시게 되면, 아래 Snap shot같이 보이게 되고, 운영체제에 맞게, 

  설치하시면 됩니다. 

 

파이썬-OCR-Tessaract-설치관련-사진2

 

- 파일을 다운 받고, 설치를 진행하면, 아래 Pop up 창이 뜨며, 그냥 Next 누르면서 진행하시면 됩니다. 

단, additional language data 항목에, Korean은 추가 하셔야 됩니다.

(English는 기본으로 제공되지만, 다른 언어는, 별로도 설치가 필요합니다. 

 

 

파이썬-OCR-Tessaract-설치관련-사진3

 

파이썬-OCR-Tessaract-설치관련-사진4

 

파이썬-OCR-Tessaract-설치관련-사진5

 

 

3. 환경변수 설정

 

  - 무사히 설치 완료 하시면, 아래와 같이 환경변수를 수정해주셔야 합니다. 아래 Snap Shot에 나와 있는대로,

    Path항목을 선택 -> 편집을 눌러 주시면 됩니다.

  

 

파이썬-OCR-Tessaract-설치관련-사진6

 

 - 편집을 누르게 되면, 아래와 같은 Pop up 창이 뜹니다. 보통, Window 10 이하는, 아래 Pop Up창이 뜨고, 

   Window 10 이상은, List 창이 뜹니다. 편집하기에는 List창이 편합니다. 

   일단 아래 Snap Shot 기준으로 말씀드리겠습니다. 

  

   각 항목은 ";"으로 구분되어 있으며, ";" 입력 후, Tesseract이 설치된 경로를 입력합니다. 

   이렇게 입력하는 이유는, 어떤 경로에서든, Tesseract를 실행시키기 위해서 입니다. 

 

 

파이썬-OCR-Tessaract-설치관련-사진7

 

그럼, Path 까지 Setting 하면, 실행 -> cmd 입력 후, 명령 프롬프트, 창에서, Tesseract을 실행 시켜 봅니다. 

아래 Snap 처럼, 실행되면, 잘 설치 및 Setting이 완료 된 것입니다. 

 

 

파이썬-OCR-Tessaract-설치관련-사진8

 

지금까지 Python을 이용하여, OCR (optical character recognition)을 구현하는 방법 및 Tessaract 설치 방법에 대해서 포스팅을 작성하였습니다. 다음 포스팅에서 설치 한, Tesseract으로, 어떻게 OCR을 실행시키는지를 설명해드리도록 하겠습니다.

 

제 Posting이 조금이나마 정보 전달에 도움이 되셨길 빌며, 되셨다면, 구독, 댓글, 공감 3종 세트 부탁 드립니다. 감사합니다.

[저작권이나, 권리를 침해한 사항이 있으면 언제든지 Comment 부탁 드립니다. 검토 후 수정 및 삭제 조치 하도록 하겠습니다. 그리고, 기재되는 내용은 개인적으로 습득한 내용이므로, 혹 오류가 발생할 수 있을 가능성이 있으므로, 기재된 내용은 참조용으로만 봐주시길 바랍니다. 게시물에, 오류가 있을때도, Comment 달아 주시면, 검증 결과를 통해, 수정하도록 하겠습니다.]

728x90

댓글


// 내부링크를 현재창으로 열기 // Open internal links in same tab