바트파싱에 대해 질문드립니다.

안녕하세요?

바트파싱을 하고있는데..

본문내용 이미지 다운로드실패라는 에러가 자꾸 뜨네요..

이게 뭐 디버깅이 가능한것도 아니고..

내부적인 구조를 모르니

어떤 프로세스를 거쳐서 다운로드 하는지 정말 모르겠습니다..

샘플로 작성된것을보면

<div>이미지이미지이미지</div>

를 추출하게되어있어서 

똑같이 해보았는데..

정규표현식 도구에서는

파싱하려하는 페이지가 다르기때문에

<div 속성>이미지이미지</div> 정도 나오게끔 정규식을 작성하여 던지는데

자꾸 실패를해서..

혹시 본문내용 파싱 플로우가 어떻게 이루어지는지 설명좀 부탁드릴수 있을까요?

답변 1개

플로우는 아래와 같습니다.

1. 먼저 해당 정규식으로 본문 html 을 가져옵니다

2. 본문 html 에서 <img src="..."> 같은 이미지 관련 태그를 뽑아옵니다.

3. 이미지의 url 을 뽑아서 다운로드 받습니다.

4. <img src="..."> 의 src 부분을 다운로드한 파일경로로 치환합니다.

/lib/bart/file_crawler.php 에서 downloadImage() 함수에 해당 태그를 뽑아서 처리하는 부분이 있습니다.

로그인 후 평가할 수 있습니다

댓글을 작성하려면 로그인이 필요합니다.

답변을 작성하려면 로그인이 필요합니다.

로그인
🐛 버그신고