snoopy 크롤링 질문합니다!!

snoopy 크롤링 질문합니다!!

QA

snoopy 크롤링 질문합니다!!

본문

안녕하세요!! 크롤링으로 원하는 싸이트에 단어가 있나 없나 검색하는 프로그램을 만들려고 합니다!!

 

근데 여기서 크롤링은 문제가 없이 잘 되는데..

 

이게 다양한 싸이트를 기준으로 하다보니 크롤링이 되는 부분이 있고 못가지고 오는 부분이 있더라고요..

 

예를 들어서 http://www.auction.co.kr/ 에서 '기모' 라는 단어가 있나 없나를 알고싶은데 옥션같은 경우는

 

상품 리스트 나열하는 부분을 가지고 오지 못하더라고요.. 그래서 이런 부분들은 어떻게 해결해야 할지 고

 

민입니다.. 아니면 크롤링시 바로 해당 사이트에서 바로 크롤링 하는게 아니라 페이지 열리고 5초뒤에 크롤링 한다거나 그런 방법은 없는건가요??

 

글을 쓰다보니 너무 뒤죽박죽인거 같아요..

 

http://kstarad.codns.com/search/

 

여기서 제가 하고있긴한데.. 답변 부탁드리겠습니다.

 

 

추가로 혹시나 가지고 올수없다면 그걸 제대로 크롤링했는데 판단하는 방법은 없을까요??

 

ㅠㅠ...

이 질문에 댓글 쓰기 :

답변 1

snoopy는 안서봐서 잘 모르겠지만, 사이트마다 url을 처리하는 방식이 달라서 안될수도 있습니다.

예를 든 옥션의 상품 리스트가 어떤 리스트를 말하는건지 알 수는 없지만, 해당 url 파악을 정확히 한 후 크롤링을 하셔야 하지 싶네요.

보통 url만 맞다면 대부분 크롤링이 되리라 판단합니다만 네이버카페(블로그), 다음 카페 같은 것들은 특수하게 페이지를 꼬아놔서 크롤링 하기가 힘든 페이지도 있거든요.

어쨋든 소스 파악과 url 파악을 정확히 한다면 가능하지 싶습니다.

 

그리고 페이지 열리고..해당 시간 뒤에 하시려면 접속이 된 후 헤더값에 200 (http 상태값)이 찍힌 걸 확인 후 sleep(5) 이런씩으로 시건을 지정해 두고 실행시키면 되지 싶습니다.

아아 감사합니다!!.. 해보니까 동적 페이지일 경우는 php에서 따로 url을 알아야 한다고 하더라고요..
ajax 로 했을경우  ajax 보내는 url 과 변수 값 알아야 한다고 하내용 ㅠㅠ

결국 특정 사이트 같은 경우는 가능하나.. 여러 사이트를 생각하면서 한다면 php 보단 파이썬으로 해야 할거같아요 ㅠㅠ

댓글 아주 감사합니다!!

답변을 작성하시기 전에 로그인 해주세요.
전체 18
QA 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT