본문 바로가기
Reviews/읽자

[한빛리더스] 파이썬으로 웹 크롤러 만들기

by Jany 2017. 1. 7.
반응형

벌써 2016년 마지막 미션이다.


이건 의무는 아니었고 신청자만 원해서 하는 것이었지만, 주저 없이 신청하게 되었다.


아마 나 말고도 다들 이책을 많이 하는 듯 하다.


파이썬으로 웹 크롤러 만들기
국내도서
저자 : 라이언 미첼(Ryan Mitchell) / 한선용역
출판 : 한빛미디어 2016.12.01
상세보기


워낙 주제가 흥미롭다 보니 책 받은 인증이 상당수가 이 책이었다.


아마 웹크롤링이라는 주제 자체에 흥미를 가진 분들이 많을 것이라 생각이 된다.


책을 처음 받고서 의외라고 생각했던 부분은, 우선 생각했던것보다 두께가 얇았다는 점이다.


실제 페이지 수가 인덱스를 포함해도 300페이지가 안되기 때문에 편한 마음으로 볼수 있었다.


크롤링(Crawling) 혹은 스크래핑(scraping) 이라는 것은 웹 페이지에 데이터를 추출하는 행위를 말한다.



실제 파이썬에서 크롤링 하는 방법은


scrapy 프레임워크를 사용하거나 beautifulsoup 라이브러리를 사용하는 방법이 있는데,


이책에서는 두번쨰 방법인 beautifulsoup 를 사용해서 설명하고 있다.



우선 scrapy를 잠깐 언급을 하자면, 파서를 지원하는 것이 특징인 오픈소스 프레임워크이다.



예전 학교 다닐 시절에 데이터 크롤링이 필요해서 써봤던 wget-curl 도 있다.

http://opensourcepack.blogspot.kr/p/wget-and-curl.html


(아직도 있어서 다행...^^;;)


그리고 책에서 나온데로 beautifulsoup은 파이썬 기본 라이브러리가 아니므로 별도로 설치를 해주어야한다.


https://www.crummy.com/software/BeautifulSoup/


책에서는 pip 로 설치하는 방법이 있으니 따라하면 쉽게 설치할 수 있다.


이 책은 초보자들도 쉽게 간단한 크롤러를 만들 수 있도록 잘 설명되어있다.


당연한 DB에 대한 부분이나, 로그인, 폼, CAPTCHA 등에 부분도 잘 나와있다.


그리고 내가 생각하기에 가장 중요하다는 저작권에 대한 부분도 일부 다뤄주고 있어서 그부분이 아주 좋았다.


실제 인터넷에 엄청나게 많은 데이터들이 있지만, 뉴스 스크레이핑 등은 


각 뉴스 언론사 마다의 저작권이므로 개별로 확인해야할 필요가 있는데,


그런 부분도 놓치지 않고 다뤄준 점에서 높은 점수를 주고 싶다.



반응형

댓글