사이트 파싱(스크래핑) 하고 싶다면, python 쓰세요. > 자유게시판

자유게시판

사이트 파싱(스크래핑) 하고 싶다면, python 쓰세요. 정보

사이트 파싱(스크래핑) 하고 싶다면, python 쓰세요.

본문

php 파싱 기능은 쓰레기네요. 정규식 없이는(일부 소스에서 dom도 가능하지만, 느린데다가 불편함) 파싱도 제대로 할수 없고,

정규식이 초보자가 쉽게 할수 있는것도 아니고,, 

 

정규식도 쓰지만, 대부분 css selector 방식으로 파싱을 합니다. 

네 맞습니다. jquery 에서 쓰는것처럼요. $("#content > div.main).html(); 형태로 파싱가능

 

파이썬에선 BeautifulSoup 을 쓰고, 자바에선 Jsoup 을 씁니다. 

php에는 이런게 없어요.. 비슷한게 guzzly 있습니다만,  좀 깨진 dom 에선 동작을 안함. 태그 잘못써서 깨진 사이트가 더 많은데.

 

게다가 파이썬에선 아예 스크래핑을 위한 모듈이 있습니다. scrapy  그냥 사이트에서 긁어올 위치만 정하면 알아서 다 긁어와줍니다.

 

php 로 고통받지 말고, python 쓰세요.

추천
0

댓글 22개

node 는 제가 안해봐서 어떤걸로 하는지 모르겟지만, npm 은 광활하니까,, 아마 비슷하거나 더 좋은 라이브러리가 있을것 같네요.
테러보이님도, 백엔드쪽 작업하시면, 파이썬 배우세요. 데이타 처리 할려면 파이썬, 자바(스칼라) 중에 하나는 써야 돼요. 저도 올해 넘기면 안될것 같아서 해넘기기전에 배우기 시작했습니다.
흠.. 죽어간다기보단 시들어가는 느낌이랄까... 예전에 비해 고관련 언급이라든지 자료가 많이 안보이더라구요

그래도 유망언어 이기도 하고 간혹 자료가 올라옵니다!
그리고 프로그램 언어 차트에 아직 상위고 ㅎㅎ

전 책을 사버려서 ㅋㅋㅋㅋㅋ
go가 퍼포먼스가 늦다고 해서 망설였습니다 ㅎ
파이썬은 대박 더늦다고 해서 파이썬도 제끼고 있는데.. 남들이 좋다고 하니 ^^
전체 199,677 |RSS
자유게시판 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1402호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT