|
|
|
11년 전
|
조회 1,764
|
|
|
|
11년 전
|
조회 1,189
|
|
|
|
11년 전
|
조회 558
|
|
|
|
11년 전
|
조회 1,158
|
|
|
|
11년 전
|
조회 522
|
|
|
|
11년 전
|
조회 2,709
|
|
|
|
11년 전
|
조회 1,418
|
|
|
|
11년 전
|
조회 1,586
|
|
|
|
11년 전
|
조회 632
|
|
|
|
11년 전
|
조회 444
|
|
|
|
11년 전
|
조회 413
|
|
|
|
11년 전
|
조회 508
|
|
|
|
11년 전
|
조회 3,312
|
|
|
|
11년 전
|
조회 686
|
|
|
|
11년 전
|
조회 394
|
|
|
|
11년 전
|
조회 735
|
|
|
|
11년 전
|
조회 854
|
|
|
|
11년 전
|
조회 589
|
|
|
|
11년 전
|
조회 498
|
|
|
|
11년 전
|
조회 532
|
|
|
|
11년 전
|
조회 492
|
|
|
|
11년 전
|
조회 5,424
|
|
|
|
11년 전
|
조회 622
|
|
|
|
11년 전
|
조회 939
|
|
|
|
11년 전
|
조회 738
|
댓글 10개
php로 제작됬고요..
원리는 간단합니다.
Snoopy Class 나 CURL 로 파싱을 우선합니다.
네이버 카페측에서는 프레임을 이용하니깐 프레임 원본주소을 추출하고
페이지가 1페이지부터 999페이지 까지 파싱이 가능합니다.
전체게시물 보기시 소스보기하면 아이디가 나옵니다. 게시물 닉네임 옆에 그걸 정규식이나 explode로 짤라서 추출합니다.
그리고 뒤에@naver.com 붙이면 끝입니다.
이걸 이용해서 999~1페이지까지 돌아가면서 추출하게 합니다.
크론을 써도되고 안써도되고 딜레이 주기는 1페이지 마다 4초로 하시면될거같구요.
웹 크롤러 랑은 관계가 없는거같구요
위 방법처럼하면 어떤 카페든 추출이 가능합니다.
꼼수을 사용해서 카페api 이용해서 원하는 키워드의 카페을 추출하고
그 카페 고유번호 추출후 모든 카페의 회원 추출이 완료되면 종료하게 할수있습니다.
역시 php에선 아직 제가 부족한거 같습니다 ㅠㅠ
좋은 정보 감사합니다!
php 로 저렇게 해놓고 계속 리플래시 시켜놓으면 하루에 대략 10만개 이상추출가능합니다.
제가 3일간거진 50만개 추출됬더군요
거기서 stmp 지메일로 이메일 대량으로도 뿌리구있구요..
이메일 뿌릴예정이시면 이렇게하셔도 될껍니다.
메일을 보내기엔 좀 스팸같은 느낌이 들지 않을까요..;-;
메일 보낼지 말지 여부는 일단 추출을 해보고..
하여튼 좋은 정보 감사합니다ㅎ
난 대단한 뭔가 있는줄 알고 경이의 눈으로 보고 있었는데..
좋은 정보 감사합니다.