크롤링(웹로봇) 질문입니다.
본문
php로 코딩되는 웹문서는
웹페이지 보기에서 소스 전체가 표시되어
그걸 parsing해서 데이타를 가져올 수 있잖아요?
그런데 요즘은
jquery나 자바스크립트 방식으로 처리되서 그런지.,
웹브라우저에서는 보이는데
페이지 보기에는 자바스크립트 코드만 보입니다.
이를 크롤링(웹로봇) 할 수 있는 방법이 있나요?
답변 2
SPA 페이지들은 파이썬+셀레니움 으로 파싱을 많이 합니다.
셀레니움을 사용하면 브라우저에서 보는것들을 동일하게 볼수 있고
사용자가 클릭해서 보는것처럼 동작하면서 해당 내용들을 파싱 할수 있습니다.
한번 작업해 놓으시면 디자인이 바뀌기 전까지는 계속 사용하실수 있습니다.
답변을 작성하시기 전에 로그인 해주세요.