웹크롤링 소스뷰어 문서 > 그누보드5 팁자료실

그누보드5 팁자료실

웹크롤링 소스뷰어 문서 정보

웹크롤링 소스뷰어 문서

본문

 

요즘은 이상하게도 웹크롤링 후 문자열을 파싱하는 작업이 은근히 많아서...

보기 편하게 php 파일을 하나 만들어 보았습니다.

예를 들어

 

https://www.youtube.com/watch?v=H2LBxRo_7I4

 

라는 유튜브동영상의 경우 아래처럼 걸치기파일의 page 겟변수로 넣어주면...

 

http://www.mediaplayer.kr/wittazzurri/source_viewer.php?page=https://www.youtube.com/watch?v=H2LBxRo_7I4

 

상단에는 일반소스가 하단에는 syntaxhighlight 로 코드블럭 처리된 페이지가 나타납니다.

 

즉 그 형태는 php주소?page=크롤링문서주소 이런 식이 됩니다.

한눈에 소스를 볼 수 있어서 문자열의 패턴을 파악하기가 쉽습니다.

 

우리 냑의 경우는

http://www.mediaplayer.kr/wittazzurri/source_viewer.php?page=https://sir.kr

 

참고사항

1. 셀레니움 크롤링은 지원하지 않습니다.

2. 잘못된 처리를 할 경우 젊은 날의 비타주리를 볼 수 있습니다.ㅋ

추천
6

댓글 5개

2. 잘못된 처리를 할 경우 젊은 날의 비타주리를 볼 수 있습니다.ㅋ
ㅋㅋ 잘못된 용도로 사용하면 혼난다는 말인거죠?

http://www.mediaplayer.kr/wittazzurri/source_viewer.php
일종의 오류페이지 역할이죠.ㅋ
이것도 반응형으로 정중앙에 맞춘다고 소스질을 좀 했지요.
저도 한 포토샵 했었어요. 근데 어느날 빨간 핸드백을 펜툴로 20분쯤 땄다가 하루종일 눈물이 나고 머리가 어지러워져서 요즘은 잘 안해요.
나이어린 후배 디자이너가 어느날 이영애 사진 들고와서 포샵질을 하는데 너무 몸이 안 좋아서 대신 작업해 준 적도 있구요.
산소같은 여자는 뭔 빌어먹을 소리인지 얼굴에 분화구가 많더라구요.ㅋ
세상에서 제일 불행한 사람이 코드질이 안 되어서 프로그래밍도 힘들고 포샵질도 안 되어서 디자인 감각도 없는데 웹이 재미있다고 생각하는 사람입니다.ㅋ
이런 사람은 늘 질문으로 타인을 괴롭히거든요.
웹배우기 카페를 운영하다 보면 이런 사람이 꼭 몇몇이 있습니다.
이미지를 줄일때도 비율대로 리사이징 해야 하는데 그냥 잡아 줄여서 찐따 사진 만들고 그래도 본인은 즐거워해요.ㅋ
사실 검색기능을 넣어야 합니다.
대부분의 웹파싱은 특정클래스 내지는 특정타이틀을 기준으로 explode 하거나 split 해서 문자열을 추출하는데 원하는 클래스가 어디에 있는지 몇개가 있는지를 보려면 검색 기능이 있어야겠지요.
거기에 셀레니움 알고리즘도 붙이면 더 좋구요. 파이썬은 그런 것이 잘 된다고 하더라구요.
근데 저는 제 영역을 더 확장하기가 싫습니다. 가지고 있는 것을 더욱 심화할 나이이지 새로운 것을 개척할 나이는 아니라고 생각하니까요.
전체 72 |RSS
그누보드5 팁자료실 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIR SOFT