본문 바로가기
파이썬 (Python)/딥러닝 (Deep Learning)

Python에서 이미지 파일을 OCR을 이용하여 텍스트를 추출하는 방법 + pillow, pytesseract 패키지

by ★√★ 2021. 2. 28.

안녕하세요, Davey 입니다.  Python에서 이미지 파일을 OCR을 이용하여 텍스트를 추출하는 방법을 구현해보도록 하겠습니다. pillow, pytesseract 패키지를 설치해서 구현하는 방법입니다.

 

파이썬-OCR-썸네일
파이썬-OCR-썸네일

 

 기존에, tesseract를 설치하고, 명령프롬프트 창에서, Image (PNG) 파일을, OCR을 이용하여, 변환하는 작업을, 구현해 보았습니다. 이번 포스팅에서는 Python에서 이미지 파일을 OCR을 이용하여 텍스트를 추출하하는 방법을 구현해보도록 하겠습니다.

 

 

pillow, pytesseract 패키기 설치하기

일단 구현하기 앞서, 설치해야 할 Package은 아래와 같습니다. 

 

1. pip install pillow (Image 구현을 위한 Package)

2. pip install pytesseract (OCR을 구현하기 위한, Package)

 

설치를 마치면, python file을 하나 만들어서, 코드창을 띄어 봅니다. (저는 TEST_OCr.py)라고 만들었습니다. 아! 그리고, 앞에 설명은 안해드렸지만, OCR을 구현할, image 파일은 미리, python file 폴더에 저장해놔야겠죠. 저는 Google에서 python이라고 검색해서, wikipidia에서 그냥 Snap 해서, 저장한 사진입니다. 

 

 

이미지 파일에서 텍스트 읽어서 추출하기

 

1. eng_Smaple01.PNG 

 

파이썬-OCR-코드구현-사진1
파이썬-OCR-코드구현-사진1

 

2. OCR 구현을 위한 Code 창 (주석은 아래 Snap shot 참조 부탁 드리겠습니다.)

 

파이썬-OCR-코드구현-사진2
파이썬-OCR-코드구현-사진2

 

Run을 돌리게 되면, 아래와 같이 Output이 표시되면, Text File이 만들어 집니다. 

(Output 창에는, 그냥 확인할려고 한거고, Print를 이용했습니다.)

 

3. Output 창 - 안 깨지고, 잘 나오는 걸 확인 할 수 있습니다.

 

파이썬-OCR-코드구현-사진3
파이썬-OCR-코드구현-사진3

 

4. TEXT File - 거의 대부분의 내용이 깔끔하게 나오는 걸 확인 하실 수 있으십니다. 

 

 

파이썬-OCR-코드구현-사진4
파이썬-OCR-코드구현-사진4

 

파이썬-OCR-코드구현-사진5
파이썬-OCR-코드구현-사진5

 

이상입니다. 지금까지 pillow, pytesseract 패키지를 이용하여 Python에서 이미지 파일을 OCR을 이용하여 텍스트를 추출하하는 방법에 대한 포스팅을 작성하였습니다. 정말 신기하고 이 부분에 대해서 좀 더 공부를 하면 정말 재미있는 프로그램을 만들 수 있을 거 같습니다. 감사합니다.

 

제 Posting이 조금이나마 정보 전달에 도움이 되셨길 빌며, 되셨다면, 구독, 댓글, 공감 3종 세트 부탁 드립니다. 감사합니다.

[저작권이나, 권리를 침해한 사항이 있으면 언제든지 Comment 부탁 드립니다. 검토 후 수정 및 삭제 조치 하도록 하겠습니다. 그리고, 기재되는 내용은 개인적으로 습득한 내용이므로, 혹 오류가 발생할 수 있을 가능성이 있으므로, 기재된 내용은 참조용으로만 봐주시길 바랍니다. 게시물에, 오류가 있을때도, Comment 달아 주시면, 검증 결과를 통해, 수정하도록 하겠습니다.]

728x90

댓글


// 내부링크를 현재창으로 열기 // Open internal links in same tab