크롤링 질문입니다 (아는부분만이라도 꼭 조언부탁합니다)

크롤링 질문입니다 (아는부분만이라도 꼭 조언부탁합니다)

QA

크롤링 질문입니다 (아는부분만이라도 꼭 조언부탁합니다)

본문

아시는부분만이라도 선택해서 꼭 답변해주시면 큰힘이 될거같습니다

 

1. 크롤링 개념 질문입니다.

다른 사이트의 게시글을 사진포함해서 똑같이 가져와서 자동으로 등록해준다 <==이뜻이 맞나요?

파이썬 개념으로는 그 이미지를 가져오는게 아니라 이미지 http 주소를 가져와서 자기사이트에 등록해서 사진이 보이게 하는걸로 이해했는데...자기db에 저장해서 올려야하는건지요?

 

2. Php에 크롤링 프로그램 질문입니다

snoopy라는 php에 크롤링시켜주는 프로그램이 있다는데 자기 로컬에 db를 저장해주고. 그걸 자기 로컬에 올린다고 하더군요. 이 개념이 맞나요? 

 

2-1 파이썬이든 스누피으로 db를 sqlite에 저장하고 그걸 활용하는거면 저장할때는 장고로 하고 가공을 해서 내 웹사이트에 등록하게하는것도 장고로 하는건가요??

 

3. 그누보드(php) 에 크롤링을 해오고싶은데 스누피를 써야할까요? 파이썬 장고를 써서 php에 파이썬 코드를 사용할수 있게 하는게 나을까요??

 

4. 카페24호스팅을 해서 어떤 커뮤니티 웹사이트를 운영한다고 할때, 호스팅 하드용량이 400메간데 유저들이 이미지를 계속올리면 몇일이면 서버 용량꽉차는거 아닌가요? 마찬가지로 snoopy로 서버 db에 계속 이미지올리면 몇일이면 서버 용량이 꽉차는건가요?

제가 개념이 틀린건지...그누보드사이트랑 다른사이트는 용량이 무제한 호스팅을 이용하는건지요? 모든 커뮤니티사이트는 Aws 이런호스팅업체를 선택해야하나요?

 

5. 질문닺 게시판에 크롤링으로 검색해봤는데, 아무리 찾아봐도 정말 뭐가뭔디 이해가안됩니다. 혹시 간단하게 만드신분있으면 자료좀 부탁해도될까요? 아니면 참고했던 사이트라도 부탁드립니다. 따라하기로 어떤걸 해야할지ㅠ감이안오네요 스누핀지 파이썬인지...바트?파싱기를 써야하는지요?

 

6. https://sir.kr/g5_tip/4194

어느분이 크롤링 올려주셨는데 설명이 너무적은데 어떻게 사용해나 하나요?

이 질문에 댓글 쓰기 :

답변 2

경험한 내용만 올려보겠습니다.

 

1. 웹소스에 보이는 데이터를 가져오는데 씁니다.
똑같이 자동으로 등록해준다는 건 그 이후에 하기 나름이죠
이미지 또한 서버내로 다운로드할수 있고 그냥 타켓사이트의 링크로 사용하기도 합니다.

 

2. 스누피로도 많이 하긴 합니다만 안되는곳이 있어서 그냥 curl로 했습니다.
1번 질문과 같이 해당 페이지의 웹소스안에 내용중에 필요한 부분을 가져온다고 보시면 됩니다.
디비에 저장을 하던 그 이후에 가능할 일이고 어떻게 쓰는지는 하기 나름입니다.

 

3. php와 nodejs로만 해봤지만 파이썬까지 갈일이 없었습니다.

 

4. 하드용량 이상의 데이터를 가져온다던가 이미지를 다운로드하게 되면 용량이 부족합니다.
보통은 그냥 이미지 url을 가져오긴 하는데 이러면 타켓 사이트의 트래픽이 올라가겠죠
그래서 차단되는 경우가 있습니다.
별도의 이미지 호스팅을 사용하지 않는다면 무료 이미지 업로드 사이트에 api로 올리기도 하지만
너무 반복적인 짧은 시간내에 업로드를 방지해놓는게 대부분입니다.

 

5. php로도 충분합니다.
js로 반복 주기를 설정한다던가 crond로 하셔도 되구요

 

6. curl로도 충분합니다.


소스는 구글링해도 충분한 자료가 많습니다.

답변을 작성하시기 전에 로그인 해주세요.
전체 64
QA 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT