크롤링(웹로봇) 질문입니다. 채택완료

2년 전 조회 2,169

php로 코딩되는 웹문서는 

웹페이지 보기에서 소스 전체가 표시되어 

그걸 parsing해서 데이타를 가져올 수 있잖아요?

그런데 요즘은

jquery나 자바스크립트 방식으로 처리되서 그런지.,

웹브라우저에서는 보이는데

페이지 보기에는 자바스크립트 코드만 보입니다.

이를 크롤링(웹로봇) 할 수 있는 방법이 있나요?

답변 2개

채택된 답변
+20 포인트

SPA 페이지들은 파이썬+셀레니움 으로 파싱을 많이 합니다.

로그인 후 평가할 수 있습니다

답변에 대한 댓글 1개

감사합니다. 이론상으로 웹페이지에 보여지는 데이타는 거의 다 파싱할 수 있나요?
가령 네이버 블로그 내용이나 네이버의 맛집 정보등이요.

웹페이지 소스보기에서는 보이지 않아서요....

댓글을 작성하려면 로그인이 필요합니다.

셀레니움을 사용하면 브라우저에서 보는것들을 동일하게 볼수 있고

사용자가 클릭해서 보는것처럼 동작하면서 해당 내용들을 파싱 할수 있습니다.

한번 작업해 놓으시면 디자인이 바뀌기 전까지는 계속 사용하실수 있습니다.

로그인 후 평가할 수 있습니다

답변에 대한 댓글 1개

감사합니다.

댓글을 작성하려면 로그인이 필요합니다.

답변을 작성하려면 로그인이 필요합니다.

로그인
🐛 버그신고