chatgpt 와 함께하는 크롤링 > 자유게시판

자유게시판

chatgpt 와 함께하는 크롤링 정보

chatgpt 와 함께하는 크롤링

본문

 

경쟁 업체 데이타 목록을 조회할 필요가 있어 주말에 3개 업체에 대한 크롤링을  진행했습니다.

 

대부분 restapi 방식으로 제공하고 있어, 기술적 난이도는 높지 않은 편이었습니다.

데이타를 좀더 유기적으로 확인하기 위해선 db 에 넣는게 편해서, 

크롤링 -> json 파싱 -> 데이타 정제 -> db 입력  순서로 작업을 진행할려고 했습니다.

 

단계가 있다보니, 테이블 만드는 생성 작업과 db 입력작업 모두가 귀찮은 작업이 되었습니다.

restapi  구조를 분석하는 것만 조금 재미있었던것 같네요.

 

귀찮은건 chatgpt에 맡겨야죠.

 

기본적인 코드 구조를 하나 만듭니다.

코드 구조는 최대한 간결하게 기능별로 섹션을 나눕니다.

 

1. pdo 접속 코드(이것도 gpt에 대략적으로 요청해서 만듬) 

2. 요청 url 생성 코드

3. curl 호출 코드

    - 호출후 결과를 파싱(json 이니 json_decode) 하는 코드

4. db에 기존 데이타가 있는지 확인하고, 업는 경우 insert 하는 코드

 

1,2,3,4 에 대해서 프롬프트를 작성후 chatgpt에 요청

 

결과 코드를 수정하여 빼대 코드를 생성

 

이제 데이타를 크롤링 할 restapi url 과, json 결과를 chatgpt에 알려줍니다.

프롬프트에서 응답 json의 반복 영역을 스키마로 생성하도록 하고, insert 쿼리를 추가하여 코드 완성을 요청합니다.

- 일부 코드가 내 의도와 다른 경우, chatgpt에 다시 요청하여 코드를 완성합니다.

 

귀찮은걸 chatgpt가 해주니, 저는 그냥 말로 떠들다가, 코드 오류부문만 체크 하면 됩니다.

(요즘 gpt4가 코드를 더 잘 만들어주는듯한 기분이 드는데, 저만의 생각인가요?)

 

결론은 

그누보드 코드내에서 간단한 크롤링은 자동화하여 플러그인화 할수 있지 않을까 하는 생각이 들었습니다.

url 만 알면 1차 크롤링하여, 반복영역의 xpath 를 알수 있는데, 

반복영역의 xpath를 추출하는 php 코드만 만들수 있으면(수동으로 넣을수 있지만, 개발자가 아닌 분들도 있으니.)

일반 웹사이트의 크롤링은 자동화 할수 있을거란 생각이 드네요.(클라우드플레어 방어등이 들어간건 예외)

 

제가 생각한건 여기까지입니다.  

그럼 다들 즐거운 chatgpt 개발 되시길..

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

추천
0

댓글 1개

chatgpt에게 json를 시키는 건 저도 좋아용.
json 짜는 거 귀찮았는데, 단순 노무직은 chatgpt이 좋죠.
그런데, chatgpt로 해도...
이거 결국은 다 남의 코드 배껴오는 것이라서 미안하기도...
전체 118 |RSS
자유게시판 내용 검색

회원로그인

진행중 포인트경매

  1. 참여4 회 시작24.04.25 20:23 종료24.05.02 20:23
(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT