안녕하세요, 오늘은, Python을 이용하여, OCR (optical character recognition)을 구현하는 방법 및 Tessaract 설치 방법에 대한 내용을 게시할려고 합니다. OCR은 쉽게 애기해서 문서를 자동으로 인식해서 문자로 변환해주는 것입니다.
이 부분은, 제 스스로, 독학하면서, 배운 사항에 대해서, 나름대로, 쉽게 정리할려고 합니다.(출력 효과를 통해서, 저도, 망각 곡선에서 벗어 날려는 의도도 있습니다. ㅎ) 그럼 간단하게, OCR (optical character recognition)이란 무엇인가 알아 보죠.
1. OCR (optical character recognition)
- 보통 컴퓨터가 2진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 보여 준다면, OCR은 그 반대로 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환한다. 보통은 스캐너로 읽어들인 이미지 파일을 분석하여 텍스트나 워드 파일로 결과물을 내놓는다.
출처 : 나무위키 https://namu.wiki/w/OCR
2. Tessaract (OCR 구현을 위한 필수 소프트 웨어)
- Tessaract software 다운 받는 위치 : https://github.com/tesseract-ocr/tesseract/wiki
- 접속을 하고, 아래로 어느정도, Scroll 하면, 아래 Snap shot과 같이, Window OS를 위한 Software download
항목이, 보이고, 여기에서 다운 받고 설치하시면 됩니다.
- "Tesseract at UB Mannheim"을 클릭하시게 되면, 아래 Snap shot같이 보이게 되고, 운영체제에 맞게,
설치하시면 됩니다.
- 파일을 다운 받고, 설치를 진행하면, 아래 Pop up 창이 뜨며, 그냥 Next 누르면서 진행하시면 됩니다.
단, additional language data 항목에, Korean은 추가 하셔야 됩니다.
(English는 기본으로 제공되지만, 다른 언어는, 별로도 설치가 필요합니다.
3. 환경변수 설정
- 무사히 설치 완료 하시면, 아래와 같이 환경변수를 수정해주셔야 합니다. 아래 Snap Shot에 나와 있는대로,
Path항목을 선택 -> 편집을 눌러 주시면 됩니다.
- 편집을 누르게 되면, 아래와 같은 Pop up 창이 뜹니다. 보통, Window 10 이하는, 아래 Pop Up창이 뜨고,
Window 10 이상은, List 창이 뜹니다. 편집하기에는 List창이 편합니다.
일단 아래 Snap Shot 기준으로 말씀드리겠습니다.
각 항목은 ";"으로 구분되어 있으며, ";" 입력 후, Tesseract이 설치된 경로를 입력합니다.
이렇게 입력하는 이유는, 어떤 경로에서든, Tesseract를 실행시키기 위해서 입니다.
그럼, Path 까지 Setting 하면, 실행 -> cmd 입력 후, 명령 프롬프트, 창에서, Tesseract을 실행 시켜 봅니다.
아래 Snap 처럼, 실행되면, 잘 설치 및 Setting이 완료 된 것입니다.
지금까지 Python을 이용하여, OCR (optical character recognition)을 구현하는 방법 및 Tessaract 설치 방법에 대해서 포스팅을 작성하였습니다. 다음 포스팅에서 설치 한, Tesseract으로, 어떻게 OCR을 실행시키는지를 설명해드리도록 하겠습니다.
제 Posting이 조금이나마 정보 전달에 도움이 되셨길 빌며, 되셨다면, 구독, 댓글, 공감 3종 세트 부탁 드립니다. 감사합니다.
[저작권이나, 권리를 침해한 사항이 있으면 언제든지 Comment 부탁 드립니다. 검토 후 수정 및 삭제 조치 하도록 하겠습니다. 그리고, 기재되는 내용은 개인적으로 습득한 내용이므로, 혹 오류가 발생할 수 있을 가능성이 있으므로, 기재된 내용은 참조용으로만 봐주시길 바랍니다. 게시물에, 오류가 있을때도, Comment 달아 주시면, 검증 결과를 통해, 수정하도록 하겠습니다.]
'파이썬 (Python) > 딥러닝 (Deep Learning)' 카테고리의 다른 글
Python에서 이미지 파일을 OCR을 이용하여 텍스트를 추출하는 방법 + pillow, pytesseract 패키지 (2) | 2021.02.28 |
---|---|
파이썬 Python Tessaract-OCR 정의 및 사용 방법 (0) | 2021.02.28 |
Python opencv 이용하여 이미지 흐림 효과 주는 방법 (0) | 2021.02.24 |
Python opencv 이용하여 이미지 색상을 반전 시키는 방법 + 색상 역상시키는 방법 (0) | 2021.02.24 |
Python opencv 이용하여 이미지 이진화하는 방법 (0) | 2021.02.24 |
댓글