크롤링(데이타수집) 관련 질문입니다.

크롤링(데이타수집) 관련 질문입니다.

QA

크롤링(데이타수집) 관련 질문입니다.

본문

안녕하세요.

 

가령 AAA.COM 사이트를 파싱한다고 하면..웹소스를 읽어서 처리하는게

보통인데요..

 

만약 해당 사이트의 웹소켓데이타(크롬 개발자화면 기준 네트워크(WS)..메세지쪽에 들어오는내용들)를

읽어서 디비 처리 하려고 한다면..

 

가장효율적인 개발언어가 어떤게 좋을까요..

 

이 질문에 댓글 쓰기 :

답변 3

동적인 데이터를 수집하는 경우 직접 소스를 분석하여 api, 웹소켓에 접속하여 받거나,

아니면 헤드리스브라우저를 사용하여 크롤링합니다

헤드리스 브라우저는 왠만한 메이저 언어라면 다 지원되고 있기 때문에 편한 언어로 하시면 됩니다.

개발언어가 이상적인것을 찾기 이전에 어떤 개발언어가 내가 가장 자신있이 할 수 있는냐가 더 중요한게 아닌듯싶습니다.

 

예를들어 아무리 C언어가 이상적이라고 해도..내가 자유롭게 잘 구현할수가 없다면.  효과적으로 결과를 낼수가 없습니다.

 

그래서 간혹식은 해당 언어가 기능이 좋다면 이런 경우에는 내가 잘 구사 할 수 있는 언어와 특정언어의 일부형식으로 사용하는 방식을 즉 하이브리드 형식의 언어를 구사할수 있습니다.

 

저 같은경우 php언어에 c언어를 활용합니다. c언어가 아무래도 소켓통신이나 이런것에 더 빠르고 효율적이니..그 결과만 받아서 php로 던저주는 방식을 활요하니 가장 효과적이였습니다.

 

웹 소켓이면 브라우저에서 개발한다는 거 아닌가요?

javascript나 web assembly말고 다른 선택이 있을까 모르겠네요.

크롬 익스텐션은 제한적이고...

답변을 작성하시기 전에 로그인 해주세요.
전체 19
QA 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT