크롤링(웹로봇) 질문입니다.

크롤링(웹로봇) 질문입니다.

QA

크롤링(웹로봇) 질문입니다.

답변 2

본문

php로 코딩되는 웹문서는 

웹페이지 보기에서 소스 전체가 표시되어 

그걸 parsing해서 데이타를 가져올 수 있잖아요?

 

그런데 요즘은

jquery나 자바스크립트 방식으로 처리되서 그런지.,

 

웹브라우저에서는 보이는데

페이지 보기에는 자바스크립트 코드만 보입니다.

 

이를 크롤링(웹로봇) 할 수 있는 방법이 있나요?

 

 

이 질문에 댓글 쓰기 :

답변 2

SPA 페이지들은 파이썬+셀레니움 으로 파싱을 많이 합니다.

감사합니다. 이론상으로 웹페이지에 보여지는 데이타는 거의 다 파싱할 수 있나요?
가령 네이버 블로그 내용이나 네이버의 맛집 정보등이요.

웹페이지 소스보기에서는 보이지 않아서요....

셀레니움을 사용하면 브라우저에서 보는것들을 동일하게 볼수 있고

사용자가 클릭해서 보는것처럼 동작하면서 해당 내용들을 파싱 할수 있습니다.

한번 작업해 놓으시면 디자인이 바뀌기 전까지는 계속 사용하실수 있습니다.

답변을 작성하시기 전에 로그인 해주세요.
QA 내용 검색
질문등록
전체 64
© SIRSOFT
현재 페이지 제일 처음으로