크롤링 지연시간 문제 질문드립니다.
본문
다름이 아니라 제가 암호화페 거래소 "업비트"의 공지사항을 크롤링해서 가져오고 새로운 공지사항이 올라 왔을 때 알림을 발생하는 어플리케이션을 운용중에 있습니다.
정보가 곧 돈인 시장인 만큼 속도가 매우 중요한데 다른 알림 서비스 대비 1분 미만의 지연시간이 있어 원인을 해결해보려고 많은 노력을 해보았으나.. 물어볼 곳도 마땅히 없어 1년 동안 해결하지 못하고 있습니다.
대표적인 python이아닌 nodejs를 이용하여 크롤링 중입니다.
IP가 차단당하거나 캡챠가 뜨거나 하는 상태는 아닙니다 그저 1분 미만의 지연시간이 있습니다.
아래 URL이 지연 시간이 발생하는 URL입니다.
https://project-team.upbit.com/api/v1/disclosure?region=kr&per_page=5
해결하기위해 다양한 노력을 해보았지만 실패하였습니다 ㅜㅜ
1. header에 캐싱 옵션 넣기
headers: {
'Cache-Control': 'private,no-cache, no-store, must-revalidate,max-age=0,s-maxage=0,min-fresh=0 ,proxy-revalidate, max-stale=0, post-check=0, pre-check=0',
'Pragma': 'no-cache',
'Expires': '-1'
}
2. url 파라미터에 매요청마다 시간값 넣기
https://project-team.upbit.com/api/v1/disclosure?region=kr&per_page=5×tamp=1234
문제가 무엇일까요.. 크롤링 고수님 있으신가요.. 해결해주시면 돈이나 선물 드리겠습니다
답변 3
의뢰하시는게 더 빠르실듯..
정말 저 url이 지연을 발생 시키는건가요?
저는 저 url외에 다른 뒷부분에서 발생하는게 아닌지 의심스럽네요
1분 미만의 지연시간이라는 것이
리퀘스트와 레스폰스 사이에 1분이 걸린다는건지
바로 받기는 하는데 데이터가 1분 전 데이터라는 말인지 알 수 없네요.
후자라면 그건 업비트에서 실시간 전의 데이터를 던져 주기 때문에
어쩔 수 없는 사항으로 보입니다.