웹페이지에서 특정 한글 추출후 링크url 출력

웹페이지에서 특정 한글 추출후 링크url 출력

QA

웹페이지에서 특정 한글 추출후 링크url 출력

본문

웹페이지에서 소스보기를 하면 

<p><a href="http://abc.tumblr.com/post/97378439980/1">만화 1권</a></p> 

<p><a href="http://abc.tumblr.com/post/97385039980/2">만화 2권</a></p> 

<p><a href="http://abc.tumblr.com/post/97385239980/3">만화 3권</a></p> 

<p><a href="http://abc.tumblr.com/post/97389739980/4">만화 4권</a></p> 

................. 

이렇게 나온다면 

url 주소에서 post/ 뒤에 붙어 있는 숫자가 일정한 패턴이 없다보니 
패턴이 있는게 
/1  ,  /2  , /3  , /4    <-- 주소에 붙어 있는 숫자와 
만화 1권  ,  만화 2권  ,  만화 3권 ,  만화 4권  <-- 한글문자열입니다. 

이걸 순서대로 추출해서 링크url을 출력하고 싶은데 php로 만들려니 난해하네요.^^;; 

즉 요약하자면 (제가 아는 방식으로는) 

만화 1권 이라는 문자를 검색 후 추출해서 -->     출력하게하고 이게 끝나고 나면 다시 반복해서 
만화 2권 이라는 문자를 검색 후 추출해서 -->     출력하게하는 식으로 반복해서 마지막 만화 4권이 끝이니 더 이상 없으면 break하는 php 코딩좀 부탁드립니다. 

도움이 될만한 링크주소도 좋지만 혹시나 비슷한 관련코딩이 있으면 부탁드리겠습니다. 

 

아니면 이 방법보다 더 좋은 방법이 있으면 조언 부탁드립니다.

감사합니다. 좋은 하루되세요 

이 질문에 댓글 쓰기 :

답변 2

php로 html을 파싱할 수 있는 오픈소스가 있습니다.

물론 순수 php로도 가능하지만 정규식을 사용해야 해서 좀 간단하지 않은 면이 있습니다.

 

http://simplehtmldom.sourceforge.net/

 

위 링크 입니다.

 

제가 주로 사용하는 오픈소스 입니다.

 

http://simplehtmldom.sourceforge.net/manual.htm

 

이 링크는 메뉴얼 입니다.

 

영어를 잘 몰라도 코드만 보면서 이해하시면 어렵지 않으실거에요.

에러가 난다면, PHP 설정을 수정해야 할 수도 있습니다.
https://www.google.co.kr/#newwindow=1&q=php+allow_url_fopen
위의 URL의 답변들로 해결이 가능 할 수도 있습니다.

그게 아니라면  메모리 문제 등...다른 문제가 발생 되서 안 될 수도 있습니다.

정확하게는 에러메세지가 뭔지 확인하는 것이 좋겠습니다.

답변을 작성하시기 전에 로그인 해주세요.
전체 149
QA 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT