특정 사이트 크롤링할 때 질문입니다.
본문
안녕하세요.
게시판을 크롤링 한다고 할 때 실시간으로 업데이트 되는 글을 가져오려면 실시간으로 크롤링하는 방법 밖에 없나요?
현재 json으로 뿌려지는 값을 php로 가져와서 쿼리에 넣고 있거든요.
PHP든, 파이썬이든 1초마다 사이트를 긁는 방법 밖에 없나요..?
답변 2
특정사이트가 새로운 글등록시 알려주지 않고서는
1초에 한번씩 타겟 사이트를 체크 하면서 크롤링해야 합니다.
리눅스 같은경우 1분에 한번씩 crontab 으로 가능하지만 1초에 한번씩 작동 하게 하려면 약간의작업이 더 필요합니다.
하지만 크롤링 프로그램에서 이전에 돌고있는 프로세스가 있는지 체크해서 안돌고있을때만 돌아가게끔 하는 로직이 필요합니다. 안그러면 크롤링 프로그램이 한번 지연되면 중복으로 여러건이 등록되거나
한번에 크롤링 프로그램이 여러개가 떠서 메모리가 부족해지는 경우도 있습니다.
실시간으로 하려면 그만큼 계속 페이지를 체크하는 수 밖에 없습니다.
여기서 해당 페이지 전체를 조회하느냐, 아님 신규건이 있는 지 확인 할 수 있는 특정영역 또는 url만 크롤링하느냐에 차이가 있습니다.
답변을 작성하시기 전에 로그인 해주세요.