본문 바로가기
Python에서 이미지 파일을 OCR을 이용하여 텍스트를 추출하는 방법 + pillow, pytesseract 패키지 안녕하세요, Davey 입니다. Python에서 이미지 파일을 OCR을 이용하여 텍스트를 추출하는 방법을 구현해보도록 하겠습니다. pillow, pytesseract 패키지를 설치해서 구현하는 방법입니다. 기존에, tesseract를 설치하고, 명령프롬프트 창에서, Image (PNG) 파일을, OCR을 이용하여, 변환하는 작업을, 구현해 보았습니다. 이번 포스팅에서는 Python에서 이미지 파일을 OCR을 이용하여 텍스트를 추출하하는 방법을 구현해보도록 하겠습니다. pillow, pytesseract 패키기 설치하기 : 일단 구현하기 앞서, 설치해야 할 Package은 아래와 같습니다. 1. pip install pillow (Image 구현을 위한 Package) 2. pip install pytes.. 2021. 2. 28.
파이썬 Python Tessaract-OCR 정의 및 사용 방법 안녕하세요, 오늘은, Python을 이용하여, OCR (optical character recognition)을 구현하는 방법에 대한 내용을 게시할려고 합니다. 이전에도 말씀드렸지만, OCR은 쉽게 애기해서 문서를 자동으로 인식해서 문자로 변환해주는 것입니다. 이전 포스팅에서 설치한, Tesseract-OCR 프로그램을 이용해서, 실습을 해보도록 하겠습니다. 이전 포스팅을 안보고 오셨다면 아래 링크를 통해서 이전 내용 참조 및 Tesseract-OCR 프로그램 설치 후 아래 포스팅을 보시길 추천 드립니다. 환경변수, Path 항목을 수정을 하였고, 어떤 경로에서든, Tesseract-OCR 프로그램을 사용할 수 있는 상태입니다. 본격적으로 들어가기 전에, 이전 포스팅에서 말하지 않은, Tesseract에.. 2021. 2. 28.
파이썬 Python을 이용한 OCR (optical character recognition) 이용 방법 + Tessaract 설치 방법 안녕하세요, 오늘은, Python을 이용하여, OCR (optical character recognition)을 구현하는 방법 및 Tessaract 설치 방법에 대한 내용을 게시할려고 합니다. OCR은 쉽게 애기해서 문서를 자동으로 인식해서 문자로 변환해주는 것입니다. 이 부분은, 제 스스로, 독학하면서, 배운 사항에 대해서, 나름대로, 쉽게 정리할려고 합니다.(출력 효과를 통해서, 저도, 망각 곡선에서 벗어 날려는 의도도 있습니다. ㅎ) 그럼 간단하게, OCR (optical character recognition)이란 무엇인가 알아 보죠. 1. OCR (optical character recognition) - 보통 컴퓨터가 2진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 .. 2021. 2. 27.
네이버 서치 어드바이저 웹마스터도구 웹페이지 수집 요청을 위한 Automation 수행 Python 코드 안녕하세요, 이번 포스팅에서는 웹페이지 수집을 자동으로 할 수 있는 Python 코드에 대한 내용을 작성하려고 합니다. 이전에 네이버 서치 어드바이저 웹마스터도구 웹페이지 수집에 대한 포스팅에 연장선이라고 생각하시면 됩니다. 네이버 유입을 위해서는 일일히 URL을 Copy / Paste 를 해야 합니다. 물론 포스팅 글의 수가 작으신 분들은 상관은 없겠지만, 글을 매일 올리고, 일주일이나 한 달에 한 번씩 요청을 하시는 분들 그리고, 저 처럼 잘 몰랐다가, 한꺼번에 올려야 하시는 분들에게는 나름대로 시간낭비가 되는 단순 작업입니다. 그래서 준비하였습니다. 웹페이지 수집을 자동으로 할 수 있는 Python 코드를 소개 해드리겠습니다. 혹시 제가 이전에 올렸던, 네이 버 서치 어드바이저 웹마스터도구 웹페이지.. 2021. 2. 27.
웹 페이지 크롤링 작업 수행 위한 기초 지식 이해하기 - requests 라이브러리 안녕하세요, 이번 포스팅은 웹 페이지 크롤링 작업 수행 위한 기초 지식 중에 하나인 requests 라이브러리에 대해서 기재하려고 합니다. 이전 포스팅에 크롤링을 구현하는 법에 대해서 설명을 드린 내용을 이용하여 설명 드리도록 하겠습니다. 저도 사실, 그때 그냥 먼가 먼저 해보면서 배우는 게 더 나을거라고 생각했습니다. 지금도 그게 효율적인 방법 중에 하나라는 거에 대해서는 아직도 어느정도는 동의를 합니다. 하지만, 그런 예도 중요하지만, 기본적인 지식에 대해서 알아야 될 거 같아서 이렇게 크롤링 작업을 위한 기초 지식에 대해 서 포스팅 하려고 합니다. 그럼 제가 나름대로 이해하고 공부한 내용을 기반으로 웹 페이지 크롤링 작업 수행 위한 기초 지식 중에 하나인 requests 라이브러리를 설명 드리도록 .. 2021. 2. 27.
Python 파이썬 HTTP Error 406 : Not Acceptable 솔루션 User Agent 선언 + 멜론 차트 크롤링 하기 안녕하세요, 오늘 포스팅 할 내용은, 크롤링 시, 저희가 원하는 HTML 내용이 잘 안가져 와지는 현상 및 멜론 차트 100곡을 크롤링하는것에 대해서 포스팅 하려고 합니다. 멜론 차트 100곡을 크롤링이라는 실습을 통해서 설명을 더 쉽게 하기 위한 것입니다. 그럼 라이브러리부터 선언하는 것 부터 시작해서 크롤링 시, 저희가 원하는 HTML 내용이 잘 안가져 와지는 현상 및 멜론 차트 100곡을 크롤링하는것에 대해서 포스팅을 시작하도록 하겠습니다. 1. 크롤링을 위한 기본 Python Library 1) import urllib.request : 크롤링을 하는 Site에 접속하기 위한 Library 2) from bs4 import BeautifulSoup : 정의한 URL을 이용하여, HTML을 읽어 오.. 2021. 2. 27.
파이썬 Python 웹사이트 이미지 파일을 가져 오는 크롤링하기 안녕하세요, 이번 포스팅에는 파이썬을 이용하여 웹사이트 이미지 파일을 가져 오는 크롤링 Code에 대해서 작성해보도록 하겠습니다. 이전 포스팅에서 설명 드린 내용과 연계해서 설명 드리도록 하겠습니다. 이미지 크롤링 구현하기 이전 포스팅에서 사용한 코드를 가지고 시작해보도록 하겠습니다. 이전 포스팅 코드 사항은 아래 링크를 통해서 먼저 선 학습하고 오시면 더 이해가 빠르실겁니다. 기존 Code에서, 우리가 다운 받을 Image 관련 class를 Naver의 HTML에서 가져와야 합니다. 그래서 그 Code를 입혀야 합니다. 일단, Nave에 들어가, 자신이 원하는 내용의 이미지를 검색을 합니다. 아래와 같이 저는 Lanaguge라는 키워드로 검색을 하였고, 화면을 보면, 많은 이미지가 검색이 되는 걸 볼 .. 2021. 2. 27.
박명수 학폭 (학교 폭력) 이슈에 대한 일침 안녕하세요, 이번 포스팅에는 최근 이슈가 되는 학폭(학교 폭력)에 대해서 박명수님이 일침을 가한 내용에 대해서 작성을 하려고 합니다. 최근 연예계와 체육계에서 학교 폭력의 신고가 많이 발생하고 있습니다. 학폭(학교 폭력)에 대한 박명수님의 일침 : 박명수님이 학창시절 학교 폭력(이하 학폭)을 당했다고 고백하였습니다. 이와 관련해서 학교폭력 가해자들에게 일침을 가하였습니다. 공개적으로 이렇게 일침을 가하는 게 쉽지 않은데 그래서 그런지 큰 화제를 모으는 거 같습니다. - 그 화제의 이유는 직접 자신이 학교 폭력을 당했다라는 경험을 배경으로 일침을 가했기 때문이라고 생각합니다. 학교 폭력 경험 공유는 2월 19일 해당 방송에서 체육계, 연예계를 광풍처럼 휩쓰는 학폭 논란에 대해 "입만 뻥긋하면 저도 난리 난.. 2021. 2. 27.
EU 백신 여권 도입 + 코로나 백신 미접종자 차별 이슈 안녕하세요, 이번 포스팅에는 EU에서 백신 여권 도입을 추진중이며 이 부분에 대해서 코로나 백신 미접종자 차별이라는 이슈가 발생하였다는 내용으로 작성하도록 하겠습니다. 그럼 어떻게 EU에서 백신 여권 도입을 추진중이며, 이로인해 발생할 수 있는 코로나 백신 미접종자 차별에 대해서 나름대로 이해한 부분을 아래와 같이 작성하도록 하겠습니다. EU 백신 여권 도입, 이르면 올해 여름에 도입 가능 : 코로나19의 백신이 보급이 되면서 EU에서 백신 접종 여부를 보여주는 여권을 도입하는 것으로 EU회의에서 결정이 난 것으로 보입니다. 백신에 정보를 심는 건지 아니면 백신 여권이라는 이름의 여권을 따로 받는지에 대해서는 매체를 통해서 제가 접하지 못해 애기는 드릴 수 없는 부분이지만, 요지는 다른 나라를 방문하는 .. 2021. 2. 27.
파이썬 Python 별도의 URL 없이 검색어로 크롤링 하는 방법 안녕하세요, 이번 포스팅도 파이썬을 이용해서 웹사이트 크롤링 하는 방법에 대해서 작성하도록 하겠습니다. 이전 포스팅에서 설명드린 내용과 연관해서 설명 드리도록 하겠습니다. 이전 포스팅에서 사용했던 크롤링 크롤링 Code를 이용하여, 이어서 포스팅 하도록 하겠습니다. 참조하시라고 이전 포스팅에서 사용한 크롤링 코드는 아래 링크를 통해서 확인 하실 수 있습니다. 파이썬 Python 웹사이트 컨텐츠 크롤링하기 안녕하세요, Davey 입니다. 오늘 포스팅 내용은 웹사이트 컨텐츠 크롤링하는 내용입니다. 크롤링을 실제적으로 TEST 및 간단한 코드를 통해서 demostration 해보도록 하겠습니다. 그럼, 일단, crawling을 davey.tistory.com 이전 포스팅을 보지 못하시고 현 포스팅을 보시는 분.. 2021. 2. 27.
Python 파이썬 numpy, matplotlib 모듈로 meshgrid 구현 및 이해해보자! 안녕하세요, 오늘 포스팅 할 내용은, numpy, matplotlib 모듈을 이용하여, meshgrid에 대해서 이해하고, 응용해서 구현해 보는 내용입니다. 바둑알 처럼 보이는 효과라고 생각하시면 이해하기 쉬우실 겁니다. 이번에는 matplotlib 모듈을 이용해서 meshgrid를 적용하는 거지만 이에 대해서 공부하기 전에 이전 포스팅에서 기재한 matplotlib를 이용해서 3D Graph를 구현한 내용을 참조해서 보시면 더 이해가 쉬우 실거라고 생각합니다. 지난 포스팅은 아래 링크 참조 부탁 드립니다. 1. meshgrid Definition 및 기본 Code 구문 : 일련의 X축과 Y축의 Value 값을 받아서, 좌표 행렬을 Return 값으로 출력하는 Numpy Method 함수로써, 사용되며,.. 2021. 2. 27.
거리두기 2주 연장, 5인 금지 및 10시 영업 제한 유지 안녕하세요, 이번 포스팅은 코로나19 거리두기 2주 연장 및 5인 금지 유지에 대한 내용입니다. 3월 14일까지 거리두기 현재 수준의 거리두기 단계가 연장이 된다고 합니다. 그리고 5인 집합 금지도 유지합니다. 3월 14일 까지 거리두기 2주 연장 : 현재 경기도 양주에 있는 한 산업단지에서 22명 단체 코로나19 확진 판정 등 계속적으로 추가 확진자가 300~400명을 유지하고 있어서, 방역당국에서는 거리두기 단계를 2주 더 연장하기로 결정을 하였습니다. 경기도 양주에 있는 산업단지 집단 확진 관련해서는 이곳의 근무했던 나이지리아 국적 근로자가 2월 25일 숨진 뒤 코로나 19확진을 받음으로써 전체 검사를 하였고, 외국인 노동자 21명과 내국인 1명 등 모두 22명이 확진되었다고 합니다. 정말 안타까운.. 2021. 2. 26.