안녕하세요 이번 포스팅에서는 지금까지 개발하던 크롤러의 속도를 개선시켜보도로 하겠습니다. 기존에는 1개씩 다운받으며 진행하는 방식이었습니다. 그래서 먼저 시작하던 작업이 끝나야 다음 이미지를 다운받을 수 있었죠 기본적으로 파이썬은 프로세스가 1개로 실행됩니다. 여러개의 프로세스로 나눠서 동시에 처리하고 싶으면 스레드 또는 멀티프로세싱 모듈을 사용해야하죠 여러개의 프로세스(스레드)로 작업을 동시에 진행하는것을 병렬처리라고 합니다. 파이썬의 멀티프로세싱이라는 모듈을 응용하여 더 빠른 크롤러를 개발해보도록 합시다 기존의 소스코드 상단에 multiprocessing 모듈을 import 해줍니다.(파이썬 기본모듈) 그리고 하나의 함수를 정의합니다 위 함수의 기능은 총 크롤링 할 이미지 수를 프로세스의 수에 알맞게..
언어 & 프레임워크/Python
안녕하세요 이번 포스팅에서는 지난시간에 완성한 크롤러에 추가기능을 구현해보도록 할 예정입니다. 제가 본 포스팅에서 구현해볼 추가기능은 - 이미지 수 입력- 크롤링 소요 시간 - 이미지 중복 체크 2가지입니다. 필요한 모듈이 있긴한데 모두 파이썬 내장 모듈이므로 따로 설치하지 않으셔도 됩니다. 소스코드 맨 아래에 get 함수 전 num 변수를 선언하고input 함수로 값을 입력받도록 합시다. int() 함수로 입력받은 값을 숫자형태로 변환한 후 저장해야합니다 크롤링 소요시간, 파일 중복확인을 위해아래 time, os 모듈을 import 해줍니다. get 함수의 첫 번째 행에 크롤링 시작 시간을 저장합니다. 저는 변수이름을 start로 선언하였습니다. 그리고 while~ else 의 마지막에 빨간색으로 표시..
안녕하세요 지난 포스팅에서 분석을 마쳤으니 이번엔 코드를 작성하여 실제로 구현해 봅시다. 먼저 시작 전에 파이썬이 설치되어 있어야합니다! https://www.python.org/ 공식 홈페이지에서 다운받으시면 됩니다. 저는 3.6 버전 이상으로 진행할 예정입니다!(2.x 버전과 호환이 안되는 부분이 있을 수 있음) 파이썬이 설치되어있다면 이제 본격적으로 시작해봅시다! 먼저 소스코드와 이미지를 저장할 폴더를 생성합니다. 저는 10000img 라는 폴더 안에 소스코드를 저장할 예정이고10000img 폴더 안에 img 라는 폴더를 생성하여 해당 폴더에 이미지를 저장할 예정입니다. 먼저 필요한 모듈을 설치해봅시다. CMD창을 열고 아래와 같이 입력합니다. pip install beautifulsoup4 HTM..
안녕하세요 이번 포스팅 주제는 파이썬으로 특정 웹 사이트의 이미지를 크롤링하여 저장하는 예제를 작성해보도록 하겠습니다! 먼저 파이썬이 컴퓨터에 설치되어있어야합니다. 저는 본 강좌에서 파이썬 3.6 버전을 기준으로 진행할 예정입니다. 먼저 시작전에 필요한 사항입니다. - 파이썬 설치- 파이참 설치(선택) 파이썬만 설치되어있으면 잘 보고 따라오시면 됩니다! 먼저 저는 http://10000img.com 의 이미지들을 크롤링할 예정입니다! 접속해보시면 10000개 중 랜덤으로 아무 이미지를 보여줍니다.(가끔 후방주의 사진 및 이상한 사진, 기괴한사진등이 있을 수도 있습니다) 예제로 사용하기 쉬우므로 선정하였습니다! 분석절차만 잘 이해하신다면 다른 사이트의 이미지들도 원하는대로 크롤링하여 저장하실 수 있습니다!..