크롤링(데이타수집) 관련 질문입니다.
본문
안녕하세요.
가령 AAA.COM 사이트를 파싱한다고 하면..웹소스를 읽어서 처리하는게
보통인데요..
만약 해당 사이트의 웹소켓데이타(크롬 개발자화면 기준 네트워크(WS)..메세지쪽에 들어오는내용들)를
읽어서 디비 처리 하려고 한다면..
가장효율적인 개발언어가 어떤게 좋을까요..
답변 3
동적인 데이터를 수집하는 경우 직접 소스를 분석하여 api, 웹소켓에 접속하여 받거나,
아니면 헤드리스브라우저를 사용하여 크롤링합니다
헤드리스 브라우저는 왠만한 메이저 언어라면 다 지원되고 있기 때문에 편한 언어로 하시면 됩니다.
개발언어가 이상적인것을 찾기 이전에 어떤 개발언어가 내가 가장 자신있이 할 수 있는냐가 더 중요한게 아닌듯싶습니다.
예를들어 아무리 C언어가 이상적이라고 해도..내가 자유롭게 잘 구현할수가 없다면. 효과적으로 결과를 낼수가 없습니다.
그래서 간혹식은 해당 언어가 기능이 좋다면 이런 경우에는 내가 잘 구사 할 수 있는 언어와 특정언어의 일부형식으로 사용하는 방식을 즉 하이브리드 형식의 언어를 구사할수 있습니다.
저 같은경우 php언어에 c언어를 활용합니다. c언어가 아무래도 소켓통신이나 이런것에 더 빠르고 효율적이니..그 결과만 받아서 php로 던저주는 방식을 활요하니 가장 효과적이였습니다.
웹 소켓이면 브라우저에서 개발한다는 거 아닌가요?
javascript나 web assembly말고 다른 선택이 있을까 모르겠네요.
크롬 익스텐션은 제한적이고...
답변을 작성하시기 전에 로그인 해주세요.