파싱에대해

파싱에대해

QA

파싱에대해

본문

다른 사이트의 뉴스 같은 것을 퍼오려고 하는데요 ,

어떻게 파싱해서 제 사이트에 게시할수 잇나요 ?

이 질문에 댓글 쓰기 :

답변 3

파싱용 페이지를 하나 만들어 사이트에 올립니다

되도록 노출이 쉬운 주소보다는 본인만 알수 있는 주소로 하는게 좋습니다

 

파싱 페이지 안에 파싱용 소스를 넣습니다

파싱용 소스에 curl 이란 파서용 소스가 있습니다 구글 검색하면 수십 페이지 나올겁니다

curl 이외에 파싱( 클롤링 )에 특화된 소스들이 많이 있습니다 

 

파싱된 소스는 db 테이블을 하나 만들어 그 곳에 올립니다 ( 디비 입력 == insert )

필요한 레이아웃에 디비에 입력된 것을 가져와서 출력합니다 

 

대충 위의 경우를 통해서 파싱을 하고 해당 데이터를 원하는 형태 혹은 데이터만 추출해서 디비에 입력합니다

필요한 곳에 가져온 데이터를 그대로 넣거나 2차 가공을 해서 넣습니다

 

curl은 대부분  url을 입력하면 해당 주소의 html을 읽어와서 html상태를 보여주게 됩니다

여기서 다 필요치 않으니 explode 또는 정규식 등을 이용해서 원하는 부분만 추출하고 그 추출된 부분을

직접 소스에 넣어서 바로 출력하거나 위에서 설명한대로 db 테이블에 입력후 재가공해서 원하는 곳에

넣게 됩니다

 

여기서 주의할 점은 가져올 수 있는 곳이라 해서 모조리 가져 오다 보면

잘못하면 경찰서에서 출도하라는 통지서를 받을수 있습니다

또 하나는 상대방 서버에서 가져 가지 못하도록 막아뒀다면 파싱해서 가져갈 수 없습니다

 

 

뉴스 같은경우 링크로서만 가져갈 수 있는 경우가 대부분입니다 

네이버 같은 경우도 전체 뉴스를 그대로 넣지 않고 링크 형태로 한 이유도 여기에 있는걸로 알고 있습니다

( 주체가 내가 아니라 뉴스사에 있고 뉴스사의 기사를 쓴 기자에 있기 때문이겠죠 )

혹은 상대사와 업무 협약을 맺어야 가져갈 수 있는 경우이거나요

저작권 같은것은 상대방과 이야기를 하던가 혹은 법에 대해 말해 줄수 있는 분과 상담하셔야

할거 같습니다

웹크롤링은 원칙적으로는 불법이 아니나

상업적인 데이터 이용이나

상대방 서버에 부담을 주는 경우에는 불법으로 규정한 판례들이 있습니다.

또한 저작권 문제는 다른 법률적인 문제인 것으로 알고 있습니다.

답변을 작성하시기 전에 로그인 해주세요.
전체 123,155 | RSS
QA 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT