본문 바로가기

파이썬 (Python)104

파이썬 Python을 이용한 OCR (optical character recognition) 이용 방법 + Tessaract 설치 방법 안녕하세요, 오늘은, Python을 이용하여, OCR (optical character recognition)을 구현하는 방법 및 Tessaract 설치 방법에 대한 내용을 게시할려고 합니다. OCR은 쉽게 애기해서 문서를 자동으로 인식해서 문자로 변환해주는 것입니다. 이 부분은, 제 스스로, 독학하면서, 배운 사항에 대해서, 나름대로, 쉽게 정리할려고 합니다.(출력 효과를 통해서, 저도, 망각 곡선에서 벗어 날려는 의도도 있습니다. ㅎ) 그럼 간단하게, OCR (optical character recognition)이란 무엇인가 알아 보죠. 1. OCR (optical character recognition) - 보통 컴퓨터가 2진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 .. 2021. 2. 27.
네이버 서치 어드바이저 웹마스터도구 웹페이지 수집 요청을 위한 Automation 수행 Python 코드 안녕하세요, 이번 포스팅에서는 웹페이지 수집을 자동으로 할 수 있는 Python 코드에 대한 내용을 작성하려고 합니다. 이전에 네이버 서치 어드바이저 웹마스터도구 웹페이지 수집에 대한 포스팅에 연장선이라고 생각하시면 됩니다. 네이버 유입을 위해서는 일일히 URL을 Copy / Paste 를 해야 합니다. 물론 포스팅 글의 수가 작으신 분들은 상관은 없겠지만, 글을 매일 올리고, 일주일이나 한 달에 한 번씩 요청을 하시는 분들 그리고, 저 처럼 잘 몰랐다가, 한꺼번에 올려야 하시는 분들에게는 나름대로 시간낭비가 되는 단순 작업입니다. 그래서 준비하였습니다. 웹페이지 수집을 자동으로 할 수 있는 Python 코드를 소개 해드리겠습니다. 혹시 제가 이전에 올렸던, 네이 버 서치 어드바이저 웹마스터도구 웹페이지.. 2021. 2. 27.
Python 파이썬 HTTP Error 406 : Not Acceptable 솔루션 User Agent 선언 + 멜론 차트 크롤링 하기 안녕하세요, 오늘 포스팅 할 내용은, 크롤링 시, 저희가 원하는 HTML 내용이 잘 안가져 와지는 현상 및 멜론 차트 100곡을 크롤링하는것에 대해서 포스팅 하려고 합니다. 멜론 차트 100곡을 크롤링이라는 실습을 통해서 설명을 더 쉽게 하기 위한 것입니다. 그럼 라이브러리부터 선언하는 것 부터 시작해서 크롤링 시, 저희가 원하는 HTML 내용이 잘 안가져 와지는 현상 및 멜론 차트 100곡을 크롤링하는것에 대해서 포스팅을 시작하도록 하겠습니다. 1. 크롤링을 위한 기본 Python Library 1) import urllib.request : 크롤링을 하는 Site에 접속하기 위한 Library 2) from bs4 import BeautifulSoup : 정의한 URL을 이용하여, HTML을 읽어 오.. 2021. 2. 27.
파이썬 Python 웹사이트 이미지 파일을 가져 오는 크롤링하기 안녕하세요, 이번 포스팅에는 파이썬을 이용하여 웹사이트 이미지 파일을 가져 오는 크롤링 Code에 대해서 작성해보도록 하겠습니다. 이전 포스팅에서 설명 드린 내용과 연계해서 설명 드리도록 하겠습니다. 이미지 크롤링 구현하기 이전 포스팅에서 사용한 코드를 가지고 시작해보도록 하겠습니다. 이전 포스팅 코드 사항은 아래 링크를 통해서 먼저 선 학습하고 오시면 더 이해가 빠르실겁니다. 기존 Code에서, 우리가 다운 받을 Image 관련 class를 Naver의 HTML에서 가져와야 합니다. 그래서 그 Code를 입혀야 합니다. 일단, Nave에 들어가, 자신이 원하는 내용의 이미지를 검색을 합니다. 아래와 같이 저는 Lanaguge라는 키워드로 검색을 하였고, 화면을 보면, 많은 이미지가 검색이 되는 걸 볼 .. 2021. 2. 27.
파이썬 Python 별도의 URL 없이 검색어로 크롤링 하는 방법 안녕하세요, 이번 포스팅도 파이썬을 이용해서 웹사이트 크롤링 하는 방법에 대해서 작성하도록 하겠습니다. 이전 포스팅에서 설명드린 내용과 연관해서 설명 드리도록 하겠습니다. 이전 포스팅에서 사용했던 크롤링 크롤링 Code를 이용하여, 이어서 포스팅 하도록 하겠습니다. 참조하시라고 이전 포스팅에서 사용한 크롤링 코드는 아래 링크를 통해서 확인 하실 수 있습니다. 파이썬 Python 웹사이트 컨텐츠 크롤링하기 안녕하세요, Davey 입니다. 오늘 포스팅 내용은 웹사이트 컨텐츠 크롤링하는 내용입니다. 크롤링을 실제적으로 TEST 및 간단한 코드를 통해서 demostration 해보도록 하겠습니다. 그럼, 일단, crawling을 davey.tistory.com 이전 포스팅을 보지 못하시고 현 포스팅을 보시는 분.. 2021. 2. 27.

// 내부링크를 현재창으로 열기 // Open internal links in same tab