사이트 파싱(스크래핑) 하고 싶다면, python 쓰세요. 정보
사이트 파싱(스크래핑) 하고 싶다면, python 쓰세요.
본문
php 파싱 기능은 쓰레기네요. 정규식 없이는(일부 소스에서 dom도 가능하지만, 느린데다가 불편함) 파싱도 제대로 할수 없고,
정규식이 초보자가 쉽게 할수 있는것도 아니고,,
정규식도 쓰지만, 대부분 css selector 방식으로 파싱을 합니다.
네 맞습니다. jquery 에서 쓰는것처럼요. $("#content > div.main).html(); 형태로 파싱가능
파이썬에선 BeautifulSoup 을 쓰고, 자바에선 Jsoup 을 씁니다.
php에는 이런게 없어요.. 비슷한게 guzzly 있습니다만, 좀 깨진 dom 에선 동작을 안함. 태그 잘못써서 깨진 사이트가 더 많은데.
게다가 파이썬에선 아예 스크래핑을 위한 모듈이 있습니다. scrapy 그냥 사이트에서 긁어올 위치만 정하면 알아서 다 긁어와줍니다.
php 로 고통받지 말고, python 쓰세요.
추천
0
0
댓글 22개
스크랩합니다.
좋은 정보 감사드립니다.
좋은 정보 감사드립니다.

그렇긴해도 CURL만 잘 활용하면 되지 않을까요 ㅎ

@천사별 조금 복잡하거나 인증 넣어야 하거나, 정규식이 복잡해지는 상황이 되면 괴롭습니다.

@천사별 동감

좋은 정보감사합니다.
그동안 nodejs로 해왔는데 파이썬으로도 헤봐야겠네요 ㅎㅎㅎ
그동안 nodejs로 해왔는데 파이썬으로도 헤봐야겠네요 ㅎㅎㅎ

@terrorboy node 는 제가 안해봐서 어떤걸로 하는지 모르겟지만, npm 은 광활하니까,, 아마 비슷하거나 더 좋은 라이브러리가 있을것 같네요.

@명랑폐인
npm이 최고지요 ㅎㅎ
npm이 최고지요 ㅎㅎ

@terrorboy 테러보이님도, 백엔드쪽 작업하시면, 파이썬 배우세요. 데이타 처리 할려면 파이썬, 자바(스칼라) 중에 하나는 써야 돼요. 저도 올해 넘기면 안될것 같아서 해넘기기전에 배우기 시작했습니다.


@terrorboy go 랑 python 둘중에서 저는 python 을 선택했네요.. 텐서플로를 써보고 싶어서요.

@명랑폐인 요세보니까 go가 죽어가더라구요 ㅠ.ㅠ
고민중입니다 ㅎㅎㅎ
고민중입니다 ㅎㅎㅎ
@terrorboy 고가 죽어가나요?
이유가 뭐래요?
이유가 뭐래요?

@프로그래머7 흠.. 죽어간다기보단 시들어가는 느낌이랄까... 예전에 비해 고관련 언급이라든지 자료가 많이 안보이더라구요
@terrorboy 헐 .. 그럼 go는 절대 하지 말아야지 ㅎ

@terrorboy go가 퍼포먼스가 늦다고 해서 망설였습니다 ㅎ
파이썬은 대박 더늦다고 해서 파이썬도 제끼고 있는데.. 남들이 좋다고 하니 ^^
파이썬은 대박 더늦다고 해서 파이썬도 제끼고 있는데.. 남들이 좋다고 하니 ^^

@프로그래머7 아직 안해봐서 모르고 소문으로는 컴파일 속도고 신의 경지라던데..
@terrorboy 고가 퍼포먼스가 빠르다고 하나요? 늦다고 들었는뎅 ㅎ

@프로그래머7 둘다 재대로 해본적이 없어서 개인적인 의견이라관 해두겠습니다 ㅎㅎㅎ
@terrorboy 감사합니다 ㅎ

@프로그래머7 ㅎㅎㅎ

스크랩 합니다.