사이트 파싱(스크래핑) 하고 싶다면, python 쓰세요.
php 파싱 기능은 쓰레기네요. 정규식 없이는(일부 소스에서 dom도 가능하지만, 느린데다가 불편함) 파싱도 제대로 할수 없고,
정규식이 초보자가 쉽게 할수 있는것도 아니고,,
정규식도 쓰지만, 대부분 css selector 방식으로 파싱을 합니다.
네 맞습니다. jquery 에서 쓰는것처럼요. $("#content > div.main).html(); 형태로 파싱가능
파이썬에선 BeautifulSoup 을 쓰고, 자바에선 Jsoup 을 씁니다.
php에는 이런게 없어요.. 비슷한게 guzzly 있습니다만, 좀 깨진 dom 에선 동작을 안함. 태그 잘못써서 깨진 사이트가 더 많은데.
게다가 파이썬에선 아예 스크래핑을 위한 모듈이 있습니다. scrapy 그냥 사이트에서 긁어올 위치만 정하면 알아서 다 긁어와줍니다.
php 로 고통받지 말고, python 쓰세요.
|
댓글을 작성하시려면 로그인이 필요합니다.
로그인
댓글 22개
좋은 정보 감사드립니다.
그동안 nodejs로 해왔는데 파이썬으로도 헤봐야겠네요 ㅎㅎㅎ
npm이 최고지요 ㅎㅎ
전아직도 파이썬보단 go 를 밀고 있습니다 ㅎㅎㅎㅎ
그나마 쉽다고해서 ㅎㅎㅎㅎ
고민중입니다 ㅎㅎㅎ
이유가 뭐래요?
그래도 유망언어 이기도 하고 간혹 자료가 올라옵니다!
그리고 프로그램 언어 차트에 아직 상위고 ㅎㅎ
전 책을 사버려서 ㅋㅋㅋㅋㅋ
파이썬은 대박 더늦다고 해서 파이썬도 제끼고 있는데.. 남들이 좋다고 하니 ^^