안녕하세요
이번 포스팅 주제는 파이썬으로
특정 웹 사이트의 이미지를 크롤링하여 저장하는 예제를 작성해보도록 하겠습니다!
먼저 파이썬이 컴퓨터에 설치되어있어야합니다.
저는 본 강좌에서 파이썬 3.6 버전을 기준으로 진행할 예정입니다.
먼저 시작전에 필요한 사항입니다.
- 파이썬 설치
- 파이참 설치(선택)
파이썬만 설치되어있으면 잘 보고 따라오시면 됩니다!
먼저 저는
의 이미지들을 크롤링할 예정입니다!
접속해보시면 10000개 중 랜덤으로 아무 이미지를 보여줍니다.
(가끔 후방주의 사진 및 이상한 사진, 기괴한사진등이 있을 수도 있습니다)
예제로 사용하기 쉬우므로 선정하였습니다!
분석절차만 잘 이해하신다면 다른 사이트의 이미지들도 원하는대로 크롤링하여 저장하실 수 있습니다!
위 사이트에 접속해봅시다!
여기서 우리가 필요한 부분은 이미지 영역입니다.
상단 중앙에 검정색 새로고침 버튼을 누르면 새로운 이미지로 바뀌게 됩니다.
요렇게 랜덤으로 새로운 사진을 확인하실 수 있습니다.
우리가 필요한 부분은 위 사이트에서 이미지 영역이죠
(구글 크롬기준)
F12를 눌러 개발자도구를 열어주세요
위 이미지가 있는 영역을 찾아봅시다.
해당 이미지의 경로가 src 속성에 있네요.
하지만 img 태그에 id 또는 클래스가 부여되지 않았습니다.
이렇게되면 해당 영역을 한번에 찾기가 어려워지는데요
그래도 방법은 모두 있습니다!
상단에 보면 rdimg라는 아이디가 있고
그 하위 태그 중 우리가 원하는 이미지 태그가 있습니다!
frame의 src 속성이 http://10000img.com/ran.php이기 때문에 해당 링크로 접속하여 추출하면 됩니다
이제 우리는 원하는
이미지 태그의 위치를 파악했습니다.
#rdimg > img
이미지를 1개만 다운받는게 목적이면 여기서 분석은 끝이납니다.
하지만 크롤링의 목적은 대용량의 데이터를 수집하는것이 목적이기 때문에
이번 예제에서도 원하는 만큼의 이미지를 수집하도록 구현해볼 예정입니다.
이미지를 새로고침하려면 중앙 상단에 있는 새로고침 버튼을 눌러야합니다.
사람이 직접 누를 수 없기 때문에 모두 자동화 작업을 해야합니다.
이미지를 새로고침해도 URL은 바뀌지 않습니다.
F5를 눌러 새로고침 하면 새로운 이미지로 바뀌게 됩니다.
다른 이미지로 이동하는 방법 하나를 찾았네요.
1 - F5를 눌러서 새로고침(다시 접속)
또다른 방법은 새로고침 버튼을 분석하는 방법입니다.
새로고침 버튼의 href 경로에 새로운 이미지를 불러오는 URL이 있습니다.
이렇게 하여 총 2가지의 방법을 찾았습니다.
저는 2번째 방법에서 나온 URL로 진행할 예정입니다.
frame의 src가 http://10000img.com/ran.php 이므로
위 링크로 접속하면 frame 태그 내의 이미지를 뽑아올 수 있습니다.
분석한 내용을 정리해보면
frame태그의 src 경로로 접속하면 ID가 rdimg인 img 태그에 이미지가 있고,
다른 이미지를 확인하기 위해서는 다시 http://10000img.com/ran.php로 접속한다.
입니다.
간단하게 분석을 마쳤습니다.
다음시간에서는 파이썬을 통해 직접 코드를 작성하여
구현해보도록 하겠습니다
감사합니다.